在當今人工智能快速發(fā)展的時代,大型多模態(tài)模型(LMMs)在視頻理解領域取得了顯著進展。一個特別引人注目的挑戰(zhàn)是長視頻理解(LVU),即讓AI系統(tǒng)分析、理解并推理時長較長的視頻內容。這項由多倫多大學的Wentao Ma、滑鐵盧大學的Weiming Ren等研究人員領導的研究發(fā)表于2025年5月,他們在研究過程中發(fā)現(xiàn)了一個令人警醒的問題:目前評估長視頻理解能力的基準測試存在嚴重缺陷。
想象一下,你正在準備一場重要考試,但你突然發(fā)現(xiàn)考試是多選題形式,而且即使你完全不學習,隨機猜測也能得到不錯的分數(shù)。這就是研究者們發(fā)現(xiàn)的問題所在。現(xiàn)有的長視頻理解基準測試主要依賴多選題(MCQs),而這種評估方式存在兩個明顯缺陷:一是模型可以通過猜測獲得高分;二是許多問題存在強烈的先驗偏好,使模型甚至不需要真正理解視頻內容就能回答正確。
舉個例子,谷歌的Gemini-1.5-Pro模型僅看一幀隨機抽取的視頻畫面,就能在Video-MME測試中達到超過50%的準確率。這就像你在電視節(jié)目中只看了一個片段,卻能猜出整個故事情節(jié)一樣不合理。更讓人費解的是,當增加輸入視頻的幀數(shù)時,模型性能并沒有如預期那樣提高,有時反而下降。這完全違背了我們的直覺,因為更多的視頻信息應該提供更豐富的上下文,理應幫助模型做出更準確的判斷。
為了解決這些問題,研究團隊提出了一個更加穩(wěn)健和真實的評估基準——VIDEOEVAL-PRO。與現(xiàn)有基準不同,VIDEOEVAL-PRO采用開放式短答案形式的問題,這些問題真正需要模型理解整個視頻內容才能回答正確。就像從填空題或選擇題轉變?yōu)閱柎痤},大大增加了作弊和猜測的難度。
研究者們從四個現(xiàn)有的長視頻理解基準(Video-MME、MLVU、LVBench和LongVideoBench)中收集問題,并將它們轉換為開放式問題。經(jīng)過嚴格的篩選,最終的基準包含465個視頻,平均時長38分鐘,共1,289個問答對。這些問題評估模型對視頻片段和完整視頻的理解能力,涉及感知和推理兩大類任務。
研究團隊對21個專有和開源視頻LMM進行了評估,結果令人深思:首先,在開放式問題上,模型性能與多選題相比下降了超過25%;其次,令人驚訝的是,在多選題上得分較高的模型并不一定在開放式問題上表現(xiàn)更好;第三,與其他多選題基準相比,增加輸入幀數(shù)對VIDEOEVAL-PRO的性能提升更為顯著。
這項研究猶如給長視頻理解領域潑了一盆冷水,揭示了當前評估方法的局限性。同時,它也為未來研究提供了更可靠的評估工具,幫助我們更準確地衡量AI系統(tǒng)理解長視頻的真實能力。
看完這項研究,我忍不住想到:在人工智能的其他領域,是否也存在類似的評估問題?我們是否過于樂觀地評估了當前AI系統(tǒng)的能力?當技術進步如此迅速時,確保我們的評估方法能真實反映AI能力的重要性怎么強調都不為過。
接下來,讓我們深入了解VIDEOEVAL-PRO是如何構建的,以及它揭示了哪些關于當前視頻理解模型的真相。
一、研究背景:為什么長視頻理解如此重要?
想象一下,你是一名保安,需要通過監(jiān)控系統(tǒng)檢測異常行為;或者你是自動駕駛系統(tǒng)的設計者,需要預測行人的行為;又或者你是一名學生,想從一堂長達一小時的視頻講座中提取關鍵信息。這些場景都需要AI系統(tǒng)能夠理解和推理長視頻內容。
長視頻理解(LVU)正是指讓AI系統(tǒng)處理、解析并推理長時間視頻內容的任務。它在視頻監(jiān)控中的事件和異常檢測、自動駕駛中的時間推理和行為預測,以及教學視頻中的內容總結或關鍵信息檢索等領域有著廣泛的應用。因此,設計能夠理解和推理長視頻的AI系統(tǒng)是人工智能領域的一個基礎挑戰(zhàn)。
近年來,大型多模態(tài)模型(LMMs)作為解決長視頻理解問題的潛在方案涌現(xiàn)出來。研究人員通過多種方式增強LMMs處理長視頻的能力,包括擴展上下文長度、丟棄或合并視頻令牌,以及利用高效的線性復雜度模型。除了模型架構的改進外,研究人員還在探索更好的訓練數(shù)據(jù)和強化學習方法,以提升針對LVU任務的LMMs性能。
這些努力取得了顯著成果:最初的嘗試如Video-LLaVA(2023年11月)只能處理包含八幀畫面的短視頻,而今天,像Vamba、Video-XL-Pro和InternVideo2.5(2025年初)這樣的LMMs已經(jīng)能夠編碼數(shù)千幀畫面并推理長達一小時的視頻。
為了嚴格評估視頻LMMs的進展,研究人員引入了專門的長視頻理解基準測試,這些測試提供標準化的分數(shù)來量化和比較不同模型推理長視頻的能力。然而,深入研究這些基準測試后,研究團隊發(fā)現(xiàn)了一些令人擔憂的問題。
二、現(xiàn)有長視頻評估基準的問題
如果你參加過選擇題考試,你可能知道有時候即使不完全理解問題,也能通過排除法或運氣猜對答案。這正是研究團隊在現(xiàn)有長視頻理解基準中發(fā)現(xiàn)的問題。
第一個主要問題是,大多數(shù)現(xiàn)有的LVU基準幾乎完全依賴多選題(MCQs)。這種格式無意中可能為模型提供線索,使其能夠通過猜測正確答案。想象一下,如果你被問"視頻中的主角穿著什么顏色的衣服?",并給出選項"紅色"、"藍色"、"綠色"和"黃色",即使模型對視頻內容理解有限,也有25%的機會猜對。
研究結果令人震驚:當同一組問題從多選題轉換為開放式問題回答時,模型準確率平均下降超過20%。這一巨大差距表明,基于MCQ的準確率可能被大大夸大,無法可靠地反映模型對視頻內容的真實理解。
第二個問題更加微妙但同樣嚴重。許多現(xiàn)有LVU基準中的問題存在強烈的先驗偏好,允許模型在沒有真正處理輸入視頻的情況下正確回答。例如,在Video-MME基準測試中,專有模型(如Gemini-1.5-Pro)和開源模型(如Qwen2.5-VL-7B)僅使用一幀輸入畫面就能達到約50%的準確率。
這就像你不用看電影,只看電影海報就能猜出電影的主要情節(jié)一樣荒謬。這些問題導致了一個違反直覺的現(xiàn)象:隨著輸入幀數(shù)的增加,模型性能趨于平穩(wěn)甚至下降,而不是如我們所期望的那樣提高。這完全違背了常理,因為更多的幀應該提供更豐富的上下文信息,理應改善長視頻理解。
這些發(fā)現(xiàn)引發(fā)了兩個核心問題: 1. 現(xiàn)有的長視頻基準是否真實反映了模型理解長視頻內容的實際能力? 2. 由較新模型報告的性能提升是否真正轉化為更強的長視頻理解能力,或者這些提升只是幻象?
為了探索這些問題,研究團隊提出了VIDEOEVAL-PRO,一個更加穩(wěn)健和真實的長視頻理解評估基準。
三、VIDEOEVAL-PRO:一個更公平的評估基準
VIDEOEVAL-PRO就像是一場不允許作弊的考試,它要求參與者真正理解所學內容,而非僅僅依靠選擇題的猜測。這個基準包含開放式、短答案形式的問答問題,這些問題真正需要理解整個視頻內容才能回答正確。
### 數(shù)據(jù)收集與篩選流程
研究團隊首先從四個公開可用的長視頻理解基準中收集源問答對:Video-MME、MLVU、LVBench和LongVideoBench。這些基準覆蓋了多樣化的視頻內容和問題類型,為長視頻理解任務提供了豐富的素材。初始種子問題集包含5,562個問題,全部采用包含4-6個選項的MCQ格式。
為了創(chuàng)建開放式評估基準,研究者將每個多選題轉換為自由形式的問題:正確的MCQ選項成為參考答案,而干擾項則被丟棄。在評估過程中,模型只接收問題本身,迫使其基于輸入視頻生成答案,而不是利用不同選項中的提示。
收集初始問題池后,研究團隊應用了多階段篩選過程,確保最終數(shù)據(jù)集強調長期視頻理解并為當前模型提供有意義的挑戰(zhàn):
**視頻時長篩選**:首先,研究者過濾掉所有與短于10分鐘視頻相關的樣本。較短的片段通常包含較少的復雜長期時間依賴關系,可能降低視頻感知和推理任務的難度。為了保持VIDEOEVAL-PRO的難度和可靠性,研究者只選擇了與中長視頻(>10分鐘)相關的問題。
**問題和答案類型篩選**:在第二階段,研究者移除了原始MCQ格式中答案選項平均詞數(shù)超過五個詞的問題。例如,"這個視頻是關于什么的?"這類問題通常會產生過于詳細的回答,這會使答案評估變得復雜。這一詞數(shù)限制減少了過于冗長的選項帶來的不確定性,確保轉換后的開放式問題有簡潔但有意義的答案,從而更容易讓LLM評判模型響應,提高基準的整體有效性和準確性。
**可回答性篩選**:在第三階段,研究者評估每個多選題是否可以合理地重新表述為自由形式問題,而不失去清晰度或可回答性。從收集的問題池中,研究者注意到三類可回答性較低的問題: 1. 選項評估或比較問題,要求模型比較不同選項并選擇最合理的選項; 2. 時間戳依賴問題,要求模型回答給定數(shù)字時間戳的問題; 3. 字幕依賴問題,查詢僅出現(xiàn)在字幕中的信息。
研究者使用Gemini-2.0-Flash模型對問題(不包括答案選項)進行判斷,確定該問題是否僅基于視頻內容就可以回答。這一步幫助識別并丟棄嚴重依賴檢查MCQ選項的問題,這些問題不適合開放式評估。
**難度篩選**:最后,研究者過濾掉了太容易回答的問題。為了識別這類情況,研究者從每個輸入視頻中隨機采樣一幀,并提示Gemini-2.0-Flash使用該幀生成對應MCQ和開放式問題的答案。然后使用Gemini-2.0-Flash判斷開放式答案。對于Gemini-2.0-Flash在MCQ和開放式格式都能產生正確答案的問題,將從基準中排除。這一篩選步驟確保剩余問題需要更廣泛的時間理解,不能僅使用最少的視覺上下文解決。
經(jīng)過這一嚴格的數(shù)據(jù)收集和篩選流程,最終的基準問題需要更深入的時間理解和推理,超越表面線索。最終數(shù)據(jù)集包括1,289個問答對,每對都基于一個時長超過10分鐘的長視頻。如表1所示,VIDEOEVAL-PRO包括總共465個視頻,平均長度為38.25分鐘。其中,204個視頻在10到30分鐘之間,261個視頻超過30分鐘。對于基準中使用的1,289個問題,371個與10-30分鐘范圍內的視頻相關,而918個基于長度超過30分鐘的視頻。答案的平均長度為2.1個詞。這些設計選擇確保評估專注于模型從長視頻內容中檢索簡潔準確信息的能力。
### 任務定義與分布
研究團隊提出了一個統(tǒng)一且可推廣的任務分類法,將基準問題分為四種主要類型和15種子類型。這些任務類型涵蓋了對本地視頻片段和整體長視頻理解任務的感知和推理需求。四種主要任務類型是:
**局部感知(LP)**:LP專注于從長視頻中的短視頻片段中識別和檢索視覺元素或動作。該類別包括片段問答、大海撈針問答、屬性感知、動作識別、物體識別、實體識別、關鍵信息檢索和組合的其他子類型。
**局部推理(LR)**:LR專注于短時間窗口內的推理,如推斷因果關系、時間順序或在本地事件序列中發(fā)生的變化。該類別中的四個子類型是自我中心視頻推理、物體推理、時間推理和動作推理。
**整體感知(HP)**:HP涉及對統(tǒng)計、結構或空間信息的全局和整體理解,通常需要視覺聚合。在VIDEOEVAL-PRO中,HP由視覺計數(shù)問題組成。
**整體推理(HR)**:HR需要跨事件或場景對長視頻進行抽象或高層次理解,通常涉及敘事或意圖理解。HR的兩個子類型是事件理解和情節(jié)推理。
這種分類法使得能夠對長視頻理解所需的不同認知需求進行細粒度評估?;谶@種分類法,數(shù)據(jù)集中問題的分布如圖2b所示。大多數(shù)問題(59%)屬于局部感知類別,反映了VIDEOEVAL-PRO對細粒度跟蹤和理解視覺動態(tài)的強調。整體推理占問題的21%,而局部推理和整體感知分別占數(shù)據(jù)集問題的11%和10%。
四、評估流程:如何測試模型性能
評估過程就像是一場公平、標準化的考試,確保所有參與的AI模型都在相同條件下接受測試。具體來說,評估流程是這樣的:
對于基準中的每個問題,研究團隊從相應視頻中均勻采樣固定數(shù)量的幀。如果可用幀的總數(shù)少于所需幀數(shù),則使用所有幀。采樣的幀與開放式問題一起傳遞給被評估的模型以生成答案。
為了評估每個模型響應的正確性,研究團隊采用了SimpleQA和Video-SimpleQA中引入的評估標準。具體來說,每個模型響應被分類為以下類別之一:
**正確**:預測答案全面包含參考答案中的所有基本信息,且不包含任何矛盾內容。
**不正確**:預測答案包含與參考答案矛盾的陳述,或提供不確定的回應,如"可能"或"我認為"。
**未嘗試**:預測答案省略了參考答案的關鍵元素,但不與之矛盾,或模型拒絕回答問題。
研究團隊遵循"LLM作為評判"范式,采用GPT-4o-0806作為評估模型來評估生成的短答案的準確性。最后,團隊報告整體正確率,即標記為"正確"的響應在整個數(shù)據(jù)集中的比例。這一指標反映了模型提供準確、忠實的答案(基于視覺內容)的能力。
五、實驗結果:揭示視頻理解模型的真實能力
研究團隊對21個專有和開源LMMs進行了全面評估,結果令人深思。以下是主要發(fā)現(xiàn):
### MCQ與VIDEOEVAL-PRO對比
如表2所示,與MCQ準確率相比,所有模型在開放式問題上的性能都有顯著下降。此外,從MCQ和開放式問題獲得的分數(shù)不一定相關。例如,雖然InternVL2.5和InternVL3在MCQ準確率上優(yōu)于Qwen2.5-VL,但它們在開放式問答分數(shù)上卻低于Qwen2.5-VL。這些發(fā)現(xiàn)表明,基于MCQ的準確率可能高估了模型性能,無法捕捉模型理解長視頻的真實能力。因此,MCQ結果可能不是對視頻LMMs進行排名的可靠指標。
### 局部與整體任務對比
在比較局部與整體理解任務的性能時,研究者觀察到大多數(shù)模型在局部任務上表現(xiàn)更好,表明整體任務通常更具挑戰(zhàn)性。這種差異是預期的,因為整體任務要求模型處理整個視頻并推理跨越長時間的復雜時間動態(tài)。相反,局部任務限于短視頻片段,其中動作或事件通常更簡單且更具時間局限性,使其更容易識別和解釋。
### 感知與推理任務對比
比較感知與推理任務的結果,研究者發(fā)現(xiàn)雖然模型在兩種任務類型上常常獲得相似的MCQ準確率,但它們在開放式問題上的表現(xiàn)卻顯著不同。具體來說,模型在開放式設置中往往在感知任務上表現(xiàn)顯著好于推理任務。例如,Gemini-2.5-Flash在局部感知任務和局部推理任務上的MCQ準確率相當,分別為64.1%和65.3%。然而,其開放式問答準確率在局部推理任務上降至30.6%,而在局部感知任務上則保持較高的42.4%。這種差異突顯了長視頻推理任務的增加難度,這一點可以通過VIDEOEVAL-PRO正確反映出來。
### 專有與開源模型對比
研究團隊比較了專有和開源模型在多個基準上的表現(xiàn),觀察到一個有趣的現(xiàn)象。如表3所示,雖然最佳開源視頻LMMs(如InternVideo2.5或InternVL3)已經(jīng)在現(xiàn)有長視頻理解基準上超過GPT-4o/Gemini-1.5-Pro高達14%,但它們在VIDEOEVAL-PRO上的表現(xiàn)仍落后于GPT-4o/Gemini-1.5-Pro 13%。這一顯著對比揭示了開源模型在更具挑戰(zhàn)性的長視頻理解任務上的脆弱性。
### VIDEOEVAL-PRO的幀縮放屬性
研究團隊還檢查了VIDEOEVAL-PRO在不同輸入幀數(shù)下的性能變化。如圖3a所示,評估了兩個專有模型(Gemini-1.5-Flash和Gemini-1.5-Pro)和三個開源模型(Qwen2-VL、Qwen2.5-VL和InternVideo2.5)。
研究者的第一個觀察是,現(xiàn)有基準如Video-MME即使只向模型提供一幀,也能產生相對較高的準確率。如圖3b所示,專有和開源模型在這種設置下都能達到約45%的準確率,Gemini-1.5-Pro甚至超過50%。這些結果表明,當前的長視頻基準可能包含不夠具有挑戰(zhàn)性的問題,允許模型即使在大部分視頻信息缺失的情況下也能正確回答。相比之下,當僅提供一幀輸入幀時,所有模型在VIDEOEVAL-PRO上的準確率僅為10%左右,如圖3a所示。這一性能下降突顯了VIDEOEVAL-PRO不能在沒有結合輸入視頻中更豐富的視覺線索的情況下輕易解決,證明VIDEOEVAL-PRO是一個更具挑戰(zhàn)性和更具辨別力的長視頻理解評估基準。
研究者還發(fā)現(xiàn),在現(xiàn)有長視頻基準上的性能往往隨著輸入幀數(shù)的增加而飽和或甚至下降。如圖3b所示,所有模型在使用256個輸入幀時在Video-MME上達到最高準確率,但當輸入延長到512幀時,性能開始平穩(wěn)或下降。這是一個反直覺的發(fā)現(xiàn),因為人們預期提供更多輸入幀會提供額外的上下文信息,模型可以利用這些信息來提高性能。另一方面,五個測試模型在VIDEOEVAL-PRO上隨著輸入幀數(shù)的增加表現(xiàn)出一致的準確率提升。這種差異表明,VIDEOEVAL-PRO是評估長視頻任務的更穩(wěn)健基準,提供了對模型整合和推理更長視頻上下文能力的更忠實評估。
六、案例分析:模型真的理解視頻內容嗎?
通過使用Gemini-2.0-Flash的結果進行定性分析,研究團隊更深入地了解了VIDEOEVAL-PRO帶來的挑戰(zhàn)。他們識別了幾個有趣的案例,模型在MCQ設置中選擇了正確答案,但在自由形式響應中未能產生準確的事實細節(jié)。
在第一個例子中,問題詢問多倫多紀念戰(zhàn)爭紀念館的外觀。雖然Gemini在多選題(MCQ)格式中正確選擇了答案"數(shù)千面加拿大國旗",但在開放式設置中未能給出正確回應。這表明,當MCQ選項可用時,模型可能依賴常識(多倫多和加拿大相關聯(lián)),而不是進行詳細的視頻分析。
在第二個例子中,雖然模型在MCQ格式中正確識別了選項"牛車",但在開放式回應中錯誤地將內容描述為"那是一匹馬"。這表明,長視頻中的細粒度視覺識別仍然是LMMs的重大挑戰(zhàn),MCQ選項可能提供線索幫助模型規(guī)避這一困難。
類似地,在第三個例子中,問題詢問視頻中出現(xiàn)的人數(shù),模型在MCQ格式中正確選擇了"15",但在開放式版本中回應"20"。這種差異表明,正確的MCQ答案可能是通過猜測或消除策略選擇的,而不是通過對視頻內容的精確分析。
這些案例凸顯了開放式問題在評估模型真實理解能力方面的價值,而不僅僅依賴多選題形式的評估。
七、結論與未來展望
這項研究介紹了VIDEOEVAL-PRO,一個穩(wěn)健而真實的LVU基準,旨在忠實評估LMM對長視頻的理解和推理能力。與現(xiàn)有的LVU基準相比,VIDEOEVAL-PRO將MCQ問題重新表述為開放式問題,防止模型利用選項中固有的捷徑,減少MCQ格式導致的性能變化。VIDEOEVAL-PRO還采用嚴格的數(shù)據(jù)篩選流程,消除具有強烈先驗偏好的問題,這些問題允許LMMs基于常識或刻板印象關聯(lián)回答,而無需真正閱讀視頻。
通過評估21個專有和開源模型,研究團隊發(fā)現(xiàn)VIDEOEVAL-PRO對當前的視頻LMMs提出了重大挑戰(zhàn),表現(xiàn)最好的模型GPT-4.1也僅達到40.8%的準確率。他們還觀察到,與其他LVU基準不同,在那些基準中,隨著輸入幀數(shù)的增加,模型性能趨于飽和,而在VIDEOEVAL-PRO上,隨著提供更多幀,性能持續(xù)提高。這些觀察表明,VIDEOEVAL-PRO是一個更可靠的基準,能夠追蹤長視頻理解的進展。
這項研究為我們敲響了警鐘:在評估AI系統(tǒng)的能力時,我們需要更加嚴格和真實的方法。它提醒我們,表面上的高分可能掩蓋了模型理解能力的實際局限性。同時,它也為未來研究提供了一條清晰的道路,指向開發(fā)真正能理解和推理復雜視頻內容的系統(tǒng)。
隨著視頻內容在我們生活中的不斷增長,從社交媒體到監(jiān)控系統(tǒng),從教育到娛樂,能夠準確理解長視頻的AI系統(tǒng)將變得越來越重要。VIDEOEVAL-PRO提供了一個更可靠的方法來衡量我們在這一關鍵領域的進展,確保未來的技術進步是真實的,而不僅僅是基準測試中的幻象。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。