隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(LLM)在各種復(fù)雜任務(wù)中展現(xiàn)出了令人印象深刻的能力,尤其是在采用"思維鏈"(Chain-of-Thought,簡稱CoT)推理技術(shù)后,這些模型在數(shù)學(xué)、編程和科學(xué)推理等領(lǐng)域取得了顯著進(jìn)步。然而,在視頻理解這一領(lǐng)域,我們尚未看到類似的突破。
這項(xiàng)研究由Moonshot AI的吳昊寧(項(xiàng)目負(fù)責(zé)人)、劉苑欣(北京大學(xué))等人領(lǐng)導(dǎo),于2025年5月29日發(fā)布在arXiv預(yù)印本平臺(tái)上,論文編號為2505.23359v1。研究團(tuán)隊(duì)還包括北京大學(xué)多媒體信息處理國家重點(diǎn)實(shí)驗(yàn)室、南京大學(xué)以及Moonshot AI的多位研究人員。項(xiàng)目數(shù)據(jù)集可通過huggingface.co/datasets/lyx97/reasoning_videos獲取,代碼已在github.com/llyx97/video_reason_bench開源。
研究團(tuán)隊(duì)發(fā)現(xiàn),目前視頻理解領(lǐng)域缺乏能夠充分展示"思維鏈"推理優(yōu)勢的基準(zhǔn)測試。現(xiàn)有的視頻理解測試往往難度不足,無法展示出擴(kuò)展CoT推理鏈的優(yōu)勢。如圖1所示,像Video-MME和TempCompass這樣的流行基準(zhǔn)測試,先進(jìn)的多模態(tài)大模型Gemini-2.5-Flash無需開啟"思考模式",只用幾個(gè)詞就能正確回答問題。
雖然最近出現(xiàn)了一些強(qiáng)調(diào)視頻推理的測試集,如Video-MMMU和MMVU,但這些測試主要依賴于特定領(lǐng)域的知識,而非嚴(yán)格基于視覺內(nèi)容的推理。簡單來說,在這些測試中,模型往往可以依靠已有知識而不是真正"看懂"視頻來回答問題。
為了解決這一問題,研究團(tuán)隊(duì)提出了一個(gè)新的基準(zhǔn)測試:VideoReasonBench,專門設(shè)計(jì)用于評估基于視覺內(nèi)容的復(fù)雜視頻推理能力。什么是"基于視覺內(nèi)容的復(fù)雜視頻推理"?想象一下,你在觀看一段視頻,視頻中展示了一系列精細(xì)的操作(比如移動(dòng)棋子或翻轉(zhuǎn)卡片),這些操作會(huì)改變一個(gè)你只能在視頻部分時(shí)刻看到的狀態(tài)(比如棋盤上的棋子排列)。要回答關(guān)于這個(gè)視頻的問題,你必須準(zhǔn)確記住視頻中的多個(gè)操作,并進(jìn)行逐步推理才能得出正確答案。
研究團(tuán)隊(duì)定義了三個(gè)層次的視頻推理能力,每個(gè)層次都需要越來越復(fù)雜的推理: 第一層是準(zhǔn)確回憶視頻中觀察到的視覺信息; 第二層是推斷視頻中沒有直接展示的隱藏信息; 第三層是預(yù)測超出視頻范圍的新信息。
舉個(gè)簡單的例子,假設(shè)視頻展示了一個(gè)"滑動(dòng)數(shù)字拼圖"游戲:拼圖的初始狀態(tài)(數(shù)字的排列)是可見的,但隨后數(shù)字被藍(lán)色覆蓋,只能看到拼圖塊的移動(dòng)。要回答相關(guān)問題,模型必須首先準(zhǔn)確記住初始數(shù)字排列和所有后續(xù)移動(dòng)(第一層能力),然后推斷出最終的數(shù)字排列(第二層能力),最后能夠預(yù)測如果進(jìn)行額外的移動(dòng),拼圖會(huì)變成什么樣子(第三層能力)。
基于這些核心理念,研究團(tuán)隊(duì)構(gòu)建了VideoReasonBench基準(zhǔn)測試。他們設(shè)計(jì)了六種不同類型的視頻演示,涵蓋各種場景,包括合成視頻和真實(shí)世界視頻:
首先是"數(shù)字"類型,展示一個(gè)帶數(shù)字的滑動(dòng)拼圖,只有一個(gè)空位; 其次是"圓圈"類型,展示一個(gè)包含黑白棋子的網(wǎng)格,一個(gè)紅色圓圈在網(wǎng)格上移動(dòng)并翻轉(zhuǎn)它經(jīng)過的棋子及其鄰居的顏色; 第三是"杯子"類型,展示一個(gè)棋盤,上面有杯子可能覆蓋著硬幣,操作包括交換兩個(gè)杯子的位置; 第四是"文件"類型,展示對文件路徑的操作,如創(chuàng)建、刪除、復(fù)制和移動(dòng)文件; 第五是"卡片"類型,展示幾堆卡片,操作包括在堆頂添加卡片或從底部移除卡片; 最后是"籌碼"類型,展示幾個(gè)杯子,每個(gè)杯子里有若干籌碼,操作包括添加或移除籌碼。
為了評估這三個(gè)層次的推理能力,研究團(tuán)隊(duì)為每個(gè)層次設(shè)計(jì)了兩種技能評估,總共六種問題類型: 對于第一層(回憶),他們設(shè)計(jì)了"回憶順序"和"回憶計(jì)數(shù)"兩種問題; 對于第二層(推斷),他們設(shè)計(jì)了"推斷狀態(tài)"和"比較狀態(tài)"兩種問題; 對于第三層(預(yù)測),他們設(shè)計(jì)了"預(yù)測狀態(tài)"和"預(yù)測操作"兩種問題。
構(gòu)建數(shù)據(jù)集的過程中,研究團(tuán)隊(duì)開發(fā)了一個(gè)半自動(dòng)化框架,包括視頻引擎和問題引擎兩部分。視頻引擎負(fù)責(zé)生成狀態(tài)轉(zhuǎn)換并制作視頻,問題引擎則基于狀態(tài)轉(zhuǎn)換生成問題和答案。最終,VideoReasonBench包含1,440個(gè)問題和240個(gè)視頻,每種技能和每種視頻類型的樣本數(shù)量均衡分布。視頻中的操作數(shù)量從5到14不等,視頻平均時(shí)長為54.3秒。
基于VideoReasonBench,研究團(tuán)隊(duì)對18個(gè)最先進(jìn)的多模態(tài)大型語言模型(MLLM)進(jìn)行了全面評估。結(jié)果令人震驚:大多數(shù)模型在這項(xiàng)測試中表現(xiàn)不佳,準(zhǔn)確率低于10%。即使是最新的思考增強(qiáng)模型,如o4-mini和Seed1.5-VL,也只能達(dá)到約10%的準(zhǔn)確率;非思考型的頂尖模型(如GPT-4o和Qwen2.5VL-72B)的得分低于10%;所有輕量級模型(<10B參數(shù))的準(zhǔn)確率甚至不到2%。
唯一表現(xiàn)突出的是思考增強(qiáng)的Gemini-2.5-Pro,達(dá)到了56.0%的準(zhǔn)確率,遠(yuǎn)超其他模型。相比之下,人類測試者的平均準(zhǔn)確率為73.8%(盡管人類也需要平均223.2秒才能回答一個(gè)問題)。
研究團(tuán)隊(duì)還發(fā)現(xiàn),模型的表現(xiàn)從第一層能力到第三層能力逐漸下降,這與基準(zhǔn)測試的設(shè)計(jì)預(yù)期一致,即更高層次的能力建立在更低層次的能力之上。同時(shí),開啟"思考模式"對模型表現(xiàn)有顯著提升,如Gemini-2.5-Flash啟用思考模式后,準(zhǔn)確率從18.8%提升到27.4%。
進(jìn)一步的分析表明,VideoReasonBench確實(shí)對視覺內(nèi)容有很強(qiáng)的依賴性。當(dāng)刪除50%的視頻幀時(shí),Gemini-2.5-Flash在VideoReasonBench上的性能下降了55.5%,而在其他測試集上的下降不到11%。當(dāng)僅提供單個(gè)幀時(shí),其在VideoReasonBench上的性能下降了98.2%,而其他測試集最多下降28.3%。
這些發(fā)現(xiàn)凸顯了VideoReasonBench作為評估基于視覺內(nèi)容的復(fù)雜視頻推理能力的有效工具,同時(shí)也揭示了當(dāng)前多模態(tài)大模型在這方面能力的不足。研究團(tuán)隊(duì)希望這一基準(zhǔn)測試能夠推動(dòng)視頻理解和推理領(lǐng)域的進(jìn)一步發(fā)展。
值得注意的是,盡管Gemini-2.5-Pro在測試中表現(xiàn)最佳,但與人類表現(xiàn)相比仍有顯著差距。這表明即使是最先進(jìn)的MLLM,在復(fù)雜視頻推理任務(wù)中也還有很大的提升空間。隨著擴(kuò)展思維鏈(CoT)推理技術(shù)的不斷發(fā)展,我們有理由期待未來模型在視頻理解領(lǐng)域取得更大的進(jìn)步。
通過VideoReasonBench這一富有挑戰(zhàn)性的測試基準(zhǔn),研究人員不僅能夠更準(zhǔn)確地評估當(dāng)前模型的視頻推理能力,還能指導(dǎo)未來模型的開發(fā)方向。正如研究結(jié)果所示,開啟"思考模式"和提高視覺內(nèi)容的依賴性可能是提升模型在復(fù)雜視頻推理任務(wù)中表現(xiàn)的關(guān)鍵因素。
總的來說,VideoReasonBench的提出填補(bǔ)了視頻理解評估領(lǐng)域的一個(gè)重要空白,為測評模型的視頻推理能力提供了一個(gè)更具挑戰(zhàn)性、更加全面的基準(zhǔn)。隨著人工智能技術(shù)的不斷發(fā)展,我們有理由相信,未來的多模態(tài)大模型將能夠在這一基準(zhǔn)測試中取得更好的表現(xiàn),進(jìn)一步縮小與人類能力的差距。
這項(xiàng)研究還提出了一個(gè)有趣的見解:視頻復(fù)雜度可以通過調(diào)整操作次數(shù)和狀態(tài)大小來靈活控制,這為未來擴(kuò)展基準(zhǔn)測試的難度提供了便利。此外,研究發(fā)現(xiàn)當(dāng)隱藏狀態(tài)在視頻結(jié)尾而非開頭顯示時(shí),所有模型的表現(xiàn)都會(huì)下降,這表明通過觀察一系列操作逆向推斷初始狀態(tài)比按自然順序推理更具挑戰(zhàn)性。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。