在視頻理解的人工智能領(lǐng)域,一項(xiàng)重要突破正在改變多模態(tài)大型語(yǔ)言模型的學(xué)習(xí)方式。這項(xiàng)研究來(lái)自于新加坡國(guó)立大學(xué)和新加坡海洋人工智能實(shí)驗(yàn)室的聯(lián)合團(tuán)隊(duì),由Haonan Wang、Hongfu Liu、Xiangyan Liu、Chao Du、Kenji Kawaguchi和Ye Wang領(lǐng)導(dǎo),并由Tianyu Pang擔(dān)任通訊作者。他們的論文《Fostering Video Reasoning via Next-Event Prediction》于2025年5月28日發(fā)表在arXiv預(yù)印本平臺(tái)上,為視頻理解領(lǐng)域帶來(lái)了全新的學(xué)習(xí)范式。
如果你曾經(jīng)好奇過(guò)電影中的人工智能如何能預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么,這項(xiàng)研究正在讓這種能力成為現(xiàn)實(shí)。就像人類能夠根據(jù)所見(jiàn)情況預(yù)測(cè)未來(lái)可能發(fā)生的事件一樣,研究團(tuán)隊(duì)開(kāi)發(fā)的方法讓AI系統(tǒng)也能具備這種時(shí)間推理能力。
傳統(tǒng)的大型語(yǔ)言模型(LLM)通過(guò)預(yù)測(cè)下一個(gè)詞語(yǔ)來(lái)學(xué)習(xí)推理能力,但在視頻理解領(lǐng)域,研究者們一直在尋找最有效的學(xué)習(xí)方式?,F(xiàn)有的方法如視頻問(wèn)答通常依賴人類或更強(qiáng)大模型的標(biāo)注,而視頻描述則往往將時(shí)間推理與空間信息糾纏在一起。新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)簡(jiǎn)單而優(yōu)雅的解決方案:讓AI學(xué)會(huì)預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。
他們提出的方法稱為"下一事件預(yù)測(cè)"(Next-Event Prediction, NEP),這是一種自監(jiān)督學(xué)習(xí)任務(wù),利用未來(lái)視頻片段作為豐富的信號(hào)來(lái)培養(yǎng)時(shí)間推理能力。想象一下,就像你看了電影的前半部分后猜測(cè)后半部分的情節(jié)一樣,AI模型會(huì)接收視頻的前半部分作為輸入,然后預(yù)測(cè)后半部分可能發(fā)生的事件。這種方法自然地要求模型整合視覺(jué)感知與預(yù)訓(xùn)練的常識(shí)知識(shí),從而豐富其對(duì)動(dòng)態(tài)視覺(jué)事件的理解。
為了支持這項(xiàng)研究,團(tuán)隊(duì)創(chuàng)建了V1-33K數(shù)據(jù)集,包含約33,000個(gè)自動(dòng)提取的視頻片段,涵蓋了從簡(jiǎn)單短片到復(fù)雜多步驟場(chǎng)景的各種內(nèi)容。這種多樣性有效地挑戰(zhàn)了多模態(tài)大型語(yǔ)言模型進(jìn)行短期和長(zhǎng)期時(shí)間推理的能力。
此外,研究團(tuán)隊(duì)還引入了FutureBench,一個(gè)全面的基準(zhǔn)測(cè)試,用于評(píng)估模型在預(yù)測(cè)未見(jiàn)過(guò)的未來(lái)事件時(shí)的邏輯一致性和因果一致性。實(shí)驗(yàn)結(jié)果表明,將NEP作為學(xué)習(xí)任務(wù)顯著提高了多模態(tài)大型語(yǔ)言模型的時(shí)間理解和推理能力,同時(shí)保持了它們?cè)诔R?guī)視頻任務(wù)上的性能。
讓我們深入探索這項(xiàng)創(chuàng)新研究的細(xì)節(jié),看看它如何為視頻人工智能帶來(lái)革命性的變化。
一、下一事件預(yù)測(cè):培養(yǎng)視頻推理的新范式
在人工智能領(lǐng)域,大型語(yǔ)言模型通過(guò)預(yù)測(cè)下一個(gè)詞語(yǔ)來(lái)學(xué)習(xí)復(fù)雜的推理能力,這已經(jīng)成為一種基本的學(xué)習(xí)任務(wù)。那么,當(dāng)我們想要讓多模態(tài)大型語(yǔ)言模型具備時(shí)間推理能力時(shí),應(yīng)該采用什么樣的學(xué)習(xí)任務(wù)呢?
研究團(tuán)隊(duì)通過(guò)對(duì)比分析發(fā)現(xiàn)了現(xiàn)有方法的局限性。傳統(tǒng)的視頻問(wèn)答任務(wù)往往依賴于關(guān)鍵幀,忽略了視頻的時(shí)間維度。例如,當(dāng)模型被問(wèn)到"防守者是否阻擋了快攻上籃?"時(shí),它可能只關(guān)注包含防守動(dòng)作的單一關(guān)鍵幀,而不是理解整個(gè)動(dòng)作序列。另一方面,視頻描述任務(wù)雖然考慮了整個(gè)視頻,但往往將時(shí)間線索與空間信息混雜在一起,限制了模型理解動(dòng)態(tài)事件發(fā)展的能力。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了"下一事件預(yù)測(cè)"(NEP)任務(wù)。這種方法將每個(gè)視頻分割為過(guò)去和未來(lái)的幀:模型接收過(guò)去的幀作為輸入,然后預(yù)測(cè)從未來(lái)幀中提取的事件摘要。這種設(shè)計(jì)自然地利用了視頻的時(shí)間性質(zhì),因?yàn)槲磥?lái)幀的描述可以作為自監(jiān)督信號(hào),無(wú)需昂貴的人工標(biāo)注。
想象一下,就像我們看完電影的前半部分后,根據(jù)已經(jīng)發(fā)生的情節(jié)和我們的常識(shí)知識(shí)來(lái)預(yù)測(cè)后半部分可能發(fā)生的事件。NEP任務(wù)要求模型做同樣的事情—僅基于觀察到的前半部分視頻,推斷未來(lái)可能發(fā)生什么。
NEP任務(wù)的核心在于它要求模型不僅要進(jìn)行簡(jiǎn)單的視覺(jué)感知(如物體檢測(cè)或當(dāng)前動(dòng)作識(shí)別),還需要推斷事件動(dòng)態(tài)并整合視覺(jué)理解與常識(shí)知識(shí)。視覺(jué)線索很少明確指示未來(lái)結(jié)果,這迫使模型利用一般世界知識(shí),如物理學(xué)、社會(huì)規(guī)范和人類行為,來(lái)預(yù)測(cè)合理的下一個(gè)事件。
這種推理過(guò)程類似于大型語(yǔ)言模型中的"思維鏈"(Chain-of-Thought)推理。就像數(shù)學(xué)推理中的中間步驟一樣,視頻預(yù)測(cè)需要模型生成基于視覺(jué)觀察的邏輯推導(dǎo)。例如,如果觀察到"一名球員無(wú)人防守地接近籃筐",模型可能推斷"成功上籃的可能性很高"。
然而,模型還需要考慮更微妙的線索,如研究者給出的例子:在一個(gè)籃球比賽視頻中,當(dāng)看到一次防守成功后隊(duì)伍可能會(huì)快速推進(jìn)(基于常識(shí)知識(shí)),但如果是第四節(jié)比賽最后兩分鐘(視覺(jué)事實(shí)),教練可能會(huì)叫暫停,或球員可能會(huì)放慢節(jié)奏以確保謹(jǐn)慎的執(zhí)行。這種推理需要模型不僅觀察到當(dāng)前狀態(tài),還要考慮比賽的上下文和籃球比賽的常識(shí)規(guī)則。
這種預(yù)測(cè)未來(lái)事件的能力對(duì)于各種實(shí)際應(yīng)用至關(guān)重要,從自動(dòng)駕駛汽車預(yù)測(cè)行人行為,到安全監(jiān)控系統(tǒng)識(shí)別潛在危險(xiǎn)情況,再到輔助機(jī)器人預(yù)測(cè)人類意圖以更好地協(xié)作。通過(guò)訓(xùn)練模型預(yù)測(cè)實(shí)際觀察到的未來(lái),NEP任務(wù)強(qiáng)化了對(duì)現(xiàn)實(shí)因果模式的學(xué)習(xí),即使具體的未來(lái)可能有所不同,底層的推理過(guò)程也會(huì)學(xué)習(xí)到可泛化的模式。
二、V1-33K:構(gòu)建預(yù)測(cè)未來(lái)事件的數(shù)據(jù)集
為了實(shí)現(xiàn)下一事件預(yù)測(cè)任務(wù),研究團(tuán)隊(duì)構(gòu)建了V1-33K數(shù)據(jù)集,這是一個(gè)包含約33,000個(gè)視頻實(shí)例的大規(guī)模數(shù)據(jù)集。每個(gè)實(shí)例由一個(gè)觀察到的視頻片段與其隨后的續(xù)集摘要配對(duì),后者作為地面真實(shí)目標(biāo)。
構(gòu)建這樣一個(gè)數(shù)據(jù)集并非易事,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的四階段流水線來(lái)自動(dòng)處理原始視頻:
**事實(shí)轉(zhuǎn)換階段**首先將視覺(jué)內(nèi)容轉(zhuǎn)換為詳細(xì)的文本描述。研究團(tuán)隊(duì)使用視覺(jué)-語(yǔ)言模型為每個(gè)視頻生成全面描述,這確保了文本可以捕捉到視頻中的豐富視覺(jué)細(xì)節(jié),為后續(xù)基于文本的推理奠定基礎(chǔ)。
在**分析階段**,這些描述被送入大型語(yǔ)言模型,執(zhí)行兩個(gè)關(guān)鍵任務(wù):識(shí)別不同場(chǎng)景并確定基于因果關(guān)系的最佳分割點(diǎn)。例如,模型會(huì)分析像"庫(kù)里和伊戈達(dá)拉帶頭快攻"和"伊戈達(dá)拉接球后突破"這樣的場(chǎng)景,確定它們之間的因果關(guān)系,并找出一個(gè)合適的分割點(diǎn),使得前半部分提供足夠的上下文來(lái)預(yù)測(cè)后續(xù)事件。
**分割階段**使用確定的最佳分割點(diǎn)將原始視頻及其描述分為兩部分。第一部分作為模型的輸入,包含初始事件,確保視頻推理基于已建立的事實(shí)。第二部分被保留作為評(píng)估模型預(yù)測(cè)的真實(shí)參考。
最后是**推理與批評(píng)階段**,這一階段特別有趣。研究團(tuán)隊(duì)利用文本推理模型(如DeepSeek-R1)處理第一部分的描述,記錄其推理過(guò)程并生成未來(lái)事件的預(yù)測(cè)。考慮到文本推理有時(shí)會(huì)引入錯(cuò)誤,團(tuán)隊(duì)隨后使用另一個(gè)大型語(yǔ)言模型對(duì)推理過(guò)程和預(yù)測(cè)結(jié)果進(jìn)行批判性評(píng)估。這種批評(píng)微調(diào)(CFT)的方法讓模型學(xué)會(huì)批評(píng)嘈雜的響應(yīng),而不是簡(jiǎn)單地模仿它們,確保只有穩(wěn)健的推理能夠指導(dǎo)最終模型的訓(xùn)練。
V1-33K數(shù)據(jù)集的多樣性是其另一個(gè)重要特點(diǎn)。它包含來(lái)自多種來(lái)源的視頻(如YouTube、YouCook2、NextQA、Charades和ActivityNet),涵蓋了廣泛的場(chǎng)景:物理事件(如溢出、碰撞、物體交互)、人類互動(dòng)(如爭(zhēng)論導(dǎo)致反應(yīng)、惡作劇導(dǎo)致驚訝)、體育(如一次配合導(dǎo)致進(jìn)球或失?。┑?。這種多樣性確保了模型能夠?qū)W習(xí)廣泛的時(shí)間關(guān)系和事件序列。
值得注意的是,所有監(jiān)督信號(hào)都是自動(dòng)生成的;未來(lái)事件的描述本質(zhì)上是模型為后續(xù)片段生成的描述,但通過(guò)流水線進(jìn)行過(guò)濾和驗(yàn)證以確保正確性和相關(guān)性。這種自動(dòng)化方法使得數(shù)據(jù)集能夠大規(guī)模擴(kuò)展,而無(wú)需昂貴的人工標(biāo)注。
三、視頻指令調(diào)優(yōu)策略與實(shí)現(xiàn)
一旦有了V1-33K數(shù)據(jù)集,研究團(tuán)隊(duì)探索了四種不同的視頻指令調(diào)優(yōu)策略,每種策略都利用數(shù)據(jù)集中的特定注釋和結(jié)構(gòu)。
**監(jiān)督式微調(diào)(SFT)**是最直接的方法。模型接收視頻的第一部分描述,并預(yù)測(cè)其續(xù)集,通過(guò)交叉熵?fù)p失進(jìn)行訓(xùn)練。這一階段使模型具備基本的預(yù)測(cè)能力,讓它能夠直接模仿真實(shí)未來(lái)事件的描述。
**批評(píng)微調(diào)(CFT)**是一種更復(fù)雜的策略,模型學(xué)習(xí)批評(píng)嘈雜的響應(yīng),而不是簡(jiǎn)單地模仿答案。研究團(tuán)隊(duì)利用外部大型語(yǔ)言模型(如GPT-4)生成的批評(píng)數(shù)據(jù),這些批評(píng)識(shí)別了模型預(yù)測(cè)相對(duì)于真實(shí)續(xù)集的優(yōu)點(diǎn)和錯(cuò)誤。在微調(diào)過(guò)程中,模型學(xué)習(xí)根據(jù)提供的批評(píng)來(lái)完善有缺陷的續(xù)集或評(píng)估預(yù)測(cè),內(nèi)化反饋以增強(qiáng)邏輯一致性和預(yù)測(cè)準(zhǔn)確性。
**蒸餾微調(diào)(Distill)**從DeepSeek-R1這一強(qiáng)大的推理模型中提取知識(shí)。對(duì)于每個(gè)樣本,DeepSeek-R1生成詳細(xì)的推理步驟和預(yù)測(cè)描述。學(xué)生模型被微調(diào)以重現(xiàn)整個(gè)推理序列,采用結(jié)構(gòu)化的推理模式以提高推理和預(yù)測(cè)準(zhǔn)確性。
**混合微調(diào)(Mix)**將上述三種方法在每個(gè)訓(xùn)練周期中平均結(jié)合。通過(guò)交替直接預(yù)測(cè)、批評(píng)引導(dǎo)的完善和顯式推理演示,模型整合了各種監(jiān)督信號(hào)。這種混合策略促進(jìn)了穩(wěn)健學(xué)習(xí),平衡了事實(shí)準(zhǔn)確性、批評(píng)反饋整合和結(jié)構(gòu)化推理能力。
在技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)考慮了類似于最近的多模態(tài)大型語(yǔ)言模型Llava的編碼器-解碼器架構(gòu)。視覺(jué)編碼器處理視頻幀并產(chǎn)生視覺(jué)嵌入序列,語(yǔ)言解碼器通過(guò)交叉注意力機(jī)制接收這些嵌入,然后生成文本。具體來(lái)說(shuō),對(duì)于每個(gè)輸入視頻V≤t,編碼器提取幀特征,這些特征通過(guò)交叉注意力機(jī)制被送入解碼器。然后,解碼器被提示輸出下一事件描述。在訓(xùn)練過(guò)程中,解碼器被監(jiān)督以匹配真實(shí)事件描述,使用標(biāo)準(zhǔn)的語(yǔ)言建模損失(即下一個(gè)標(biāo)記的交叉熵)。
四、FutureBench:評(píng)估時(shí)間推理能力的基準(zhǔn)
為了評(píng)估多模態(tài)大型語(yǔ)言模型在時(shí)間推理方面的進(jìn)展,研究團(tuán)隊(duì)引入了FutureBench,這是一個(gè)專門設(shè)計(jì)用于評(píng)估模型預(yù)測(cè)未見(jiàn)過(guò)的未來(lái)事件的邏輯一致性的基準(zhǔn)測(cè)試。
FutureBench與NEP目標(biāo)密切相關(guān),要求模型具備強(qiáng)大的視覺(jué)感知和常識(shí)推理能力。與傳統(tǒng)視頻問(wèn)答基準(zhǔn)不同,F(xiàn)utureBench強(qiáng)調(diào)面向未觀察到的未來(lái)目標(biāo)的時(shí)間-因果推理,而不是從可見(jiàn)幀中提取答案。
評(píng)估任務(wù)被設(shè)計(jì)為多項(xiàng)選擇問(wèn)答形式。每個(gè)視頻片段都配有一個(gè)明確定義的任務(wù)目標(biāo)或事件結(jié)果(稱為錨點(diǎn)),這是從完整視頻的最終狀態(tài)派生出來(lái)的。這種設(shè)計(jì)反映了現(xiàn)實(shí)世界的敘事通常遵循目標(biāo)驅(qū)動(dòng)的軌跡,并有助于約束潛在未來(lái)事件的搜索空間。給定錨點(diǎn),模型需要向前和向后推理,推斷最終達(dá)到指定結(jié)果的合理中間步驟或事件。
FutureBench的一個(gè)顯著特點(diǎn)是其按邏輯跳數(shù)(即模型必須預(yù)測(cè)的推理步驟或缺失事件的數(shù)量)結(jié)構(gòu)化劃分的任務(wù)。這種設(shè)計(jì)使研究者能夠全面評(píng)估模型在單跳(1跳)推理任務(wù)中的分布內(nèi)性能,以及在涉及擴(kuò)展事件序列的更復(fù)雜多跳推理中的分布外泛化能力。
具體來(lái)說(shuō),F(xiàn)utureBench包含兩個(gè)主要子任務(wù):
**未來(lái)事件預(yù)測(cè)—外推**要求模型預(yù)測(cè)一系列未來(lái)事件,這些事件在邏輯上將初始觀察場(chǎng)景與指定的最終結(jié)果連接起來(lái)。任務(wù)難度通過(guò)調(diào)整缺失事件的數(shù)量來(lái)控制,從一個(gè)到三個(gè)不等: - **1跳**:模型預(yù)測(cè)一個(gè)未來(lái)事件,直接將觀察到的場(chǎng)景與最終場(chǎng)景連接起來(lái),這對(duì)應(yīng)于標(biāo)準(zhǔn)的NEP任務(wù)。 - **2跳**:模型推斷兩個(gè)連續(xù)的未來(lái)事件,需要一個(gè)短鏈推理過(guò)程,將觀察到的場(chǎng)景與最終事件順序連接起來(lái)。 - **3跳**:模型預(yù)測(cè)三個(gè)連續(xù)的未來(lái)事件,通過(guò)要求跨越更長(zhǎng)時(shí)間跨度的更深因果推理,顯著增加了任務(wù)復(fù)雜性。
**未來(lái)事件預(yù)測(cè)—插值**引入了一個(gè)互補(bǔ)挑戰(zhàn),模型必須在給定部分觀察到的場(chǎng)景(包括中間錨點(diǎn)事件)的情況下,推斷多個(gè)非連續(xù)的未來(lái)事件。與外推不同,這個(gè)任務(wù)要求模型在片段觀察中進(jìn)行插值,強(qiáng)調(diào)在片段觀察中對(duì)因果連續(xù)性和時(shí)間連貫性的推理。
為了設(shè)計(jì)高質(zhì)量的問(wèn)題和答案選項(xiàng),研究團(tuán)隊(duì)采用了一個(gè)基于大型語(yǔ)言模型的生成流水線,特別是使用GPT-4(僅文本模式)從詳細(xì)的視頻注釋中生成問(wèn)答對(duì)。每個(gè)視頻都附有豐富的文本元數(shù)據(jù),包括概要、場(chǎng)景級(jí)描述、觀察到的場(chǎng)景(初始上下文)和最終場(chǎng)景(目標(biāo)結(jié)果)。研究者使用結(jié)構(gòu)化模板提示GPT-4,模擬人類出題者。
為了確保問(wèn)題需要真正的推理,提示明確要求實(shí)現(xiàn)最終結(jié)果,并精心設(shè)計(jì)以防止快捷解決方案—例如,避免正確答案與問(wèn)題之間的詞匯重疊,或容易被排除的干擾項(xiàng)。此外,干擾選項(xiàng)在視頻的主題上下文中是常識(shí)上合理的,但在結(jié)果軌跡上邏輯不一致,從而增加了任務(wù)難度。
所有生成的問(wèn)答項(xiàng)都經(jīng)過(guò)了人工驗(yàn)證和過(guò)濾。被認(rèn)為過(guò)于簡(jiǎn)單的項(xiàng)目(例如答案可以從單個(gè)幀中直接推斷,或干擾項(xiàng)不合理)被丟棄。需要小修正的問(wèn)答對(duì)被編輯以確保語(yǔ)義連貫性和與視頻敘事的一致性。這種人在環(huán)中的審查過(guò)程使團(tuán)隊(duì)能夠在有效利用GPT-4高效擴(kuò)展數(shù)據(jù)生成的同時(shí),保持高注釋質(zhì)量。
最終,F(xiàn)utureBench包含總共1056個(gè)精心策劃的問(wèn)答對(duì),跨越外推和插值子任務(wù)。為了評(píng)估基準(zhǔn)的質(zhì)量并強(qiáng)調(diào)視覺(jué)感知和時(shí)間推理的重要性,研究團(tuán)隊(duì)在沒(méi)有任何視覺(jué)輸入的情況下,僅使用文本版本的問(wèn)題評(píng)估了一個(gè)強(qiáng)大的推理模型o4-mini。該模型的準(zhǔn)確率為32.0%,表明即使是先進(jìn)的推理能力也不足以一致地解決任務(wù),這強(qiáng)調(diào)了視覺(jué)感知在解決FutureBench中未來(lái)事件預(yù)測(cè)的關(guān)鍵作用。
五、實(shí)驗(yàn)與結(jié)果分析
為了系統(tǒng)地評(píng)估下一事件預(yù)測(cè)作為學(xué)習(xí)任務(wù)的有效性,研究團(tuán)隊(duì)在NEP任務(wù)上微調(diào)了Qwen2.5-VL-7B-Instruct模型,并將其性能與在三種先前指令調(diào)優(yōu)任務(wù)上訓(xùn)練的模型進(jìn)行比較:描述(Captioning)、多選問(wèn)答(MCQA)和開(kāi)放式問(wèn)答(OEQA)。為了公平比較,所有模型都在相同大小的數(shù)據(jù)集(使用3K樣本)上訓(xùn)練。
研究團(tuán)隊(duì)通過(guò)兩組基準(zhǔn)測(cè)試對(duì)模型性能進(jìn)行了全面評(píng)估。首先,他們?cè)u(píng)估了一般視頻理解能力,使用三個(gè)廣泛使用的基準(zhǔn),這些基準(zhǔn)并非專門設(shè)計(jì)用于測(cè)試時(shí)間推理:VideoMME(不包括字幕)、MVBench和LongVideoBench驗(yàn)證集。其次,為了檢驗(yàn)時(shí)間理解和推理能力,他們?cè)u(píng)估了四個(gè)時(shí)間聚焦的基準(zhǔn):TemporalBench、TempCompass、SeedBench-R1和他們提出的FutureBench。這些基準(zhǔn)挑戰(zhàn)模型進(jìn)行復(fù)雜的時(shí)間理解和推理。
結(jié)果令人印象深刻:在部分觀察視頻上使用NEP任務(wù)訓(xùn)練的模型在時(shí)間基準(zhǔn)測(cè)試上表現(xiàn)出顯著改進(jìn),相比于在完整觀察視頻上使用描述、MCQA和OEQA任務(wù)訓(xùn)練的模型。值得注意的是,NEP訓(xùn)練的模型在一般基準(zhǔn)測(cè)試上也保持了競(jìng)爭(zhēng)性能,這凸顯了NEP任務(wù)的優(yōu)越性和兼容性。
這些發(fā)現(xiàn)表明,NEP不僅增強(qiáng)了模型對(duì)時(shí)間序列進(jìn)行推理的能力,而且在不犧牲其總體理解能力的情況下做到了這一點(diǎn)。NEP作為一種有效的學(xué)習(xí)信號(hào),促進(jìn)了視覺(jué)感知和時(shí)間推理,在一般性能方面幾乎沒(méi)有權(quán)衡。
此外,研究團(tuán)隊(duì)還研究了三種經(jīng)典邏輯推理形式:歸納、演繹和溯因在視頻指令調(diào)優(yōu)上下文中的相對(duì)功效。這些推理范式分別對(duì)應(yīng)于不同的任務(wù)形式:視頻問(wèn)答(歸納)、下一事件預(yù)測(cè)(演繹)和先前事件預(yù)測(cè)(溯因)。通過(guò)使用相同的3K樣本訓(xùn)練集微調(diào)Qwen2.5-VL-7B-Instruct模型,僅改變?nèi)蝿?wù)表述以符合每種推理,研究者發(fā)現(xiàn)通過(guò)下一事件預(yù)測(cè)的演繹推理在時(shí)間基準(zhǔn)測(cè)試上產(chǎn)生了顯著更大的改進(jìn),相比于歸納和溯因推理。
在進(jìn)一步探索NEP任務(wù)上的有效訓(xùn)練策略時(shí),研究團(tuán)隊(duì)比較了四種指令調(diào)優(yōu)方法:監(jiān)督式微調(diào)(SFT)、批評(píng)微調(diào)(CFT)、蒸餾(Distill)和混合調(diào)優(yōu)(Mix)。他們?cè)赒wen2.5-VL-3B-Instruct和Qwen2.5-VL-7B-Instruct上進(jìn)行了實(shí)驗(yàn),評(píng)估每種策略在一般和時(shí)間視頻基準(zhǔn)測(cè)試上的性能。
結(jié)果表明,簡(jiǎn)單的SFT在NEP訓(xùn)練上是一種有效策略,在時(shí)間基準(zhǔn)測(cè)試上產(chǎn)生了顯著的增益。雖然CFT和Distill也貢獻(xiàn)了顯著的改進(jìn),但它們依賴于來(lái)自輔助大型語(yǔ)言模型的額外注釋或反饋,使它們相比SFT效率較低。重要的是,Mix策略在時(shí)間基準(zhǔn)測(cè)試上取得了最高的平均性能,有效結(jié)合了所有調(diào)優(yōu)方法的優(yōu)勢(shì)。
研究團(tuán)隊(duì)還研究了訓(xùn)練集大小的影響,通過(guò)將SFT和Distill從1K擴(kuò)展到25K樣本,以及將CFT和Mix從1K擴(kuò)展到10K樣本。有趣的是,增加訓(xùn)練數(shù)據(jù)超過(guò)5K樣本并不會(huì)一致地提高所有調(diào)優(yōu)策略的性能,在某些情況下,甚至?xí)?dǎo)致一般和時(shí)間基準(zhǔn)測(cè)試上的性能下降。研究者將此歸因于大規(guī)模單獨(dú)NEP訓(xùn)練引入的潛在分布偏移,這可能導(dǎo)致模型過(guò)擬合或偏離平衡的一般理解。這一觀察表明,雖然NEP是一個(gè)有價(jià)值的訓(xùn)練任務(wù),但需要仔細(xì)混合和選擇數(shù)據(jù)規(guī)模,以避免收益遞減或?qū)δP头夯牟焕绊憽?/p>
最后,研究團(tuán)隊(duì)探索了將強(qiáng)化學(xué)習(xí)(RL)作為增強(qiáng)推理能力的替代學(xué)習(xí)范式。他們構(gòu)建了一個(gè)專用訓(xùn)練集,包含2,000個(gè)多選題問(wèn)答對(duì),使用與FutureBench相同的流水線生成,但僅限于1跳和2跳外推任務(wù)。這使得3跳外推任務(wù)被視為分布外(OOD)設(shè)置,旨在評(píng)估模型對(duì)更長(zhǎng)、未見(jiàn)過(guò)的因果鏈的泛化能力。同樣,插值任務(wù)呈現(xiàn)了另一個(gè)OOD挑戰(zhàn),要求模型對(duì)片段未來(lái)上下文進(jìn)行推理。
實(shí)驗(yàn)表明,使用群組相對(duì)策略優(yōu)化(GRPO)訓(xùn)練的模型在分布內(nèi)任務(wù)上表現(xiàn)出強(qiáng)勁的性能改進(jìn),并且很好地泛化到OOD任務(wù),包括3跳問(wèn)題和插值任務(wù)。這些結(jié)果凸顯了RL訓(xùn)練在未來(lái)事件預(yù)測(cè)任務(wù)中的有效性。然而,RL訓(xùn)練的模型在一般視頻理解基準(zhǔn)測(cè)試上遭受了非平凡的性能下降,這表明雖然RL訓(xùn)練促進(jìn)了適合未來(lái)事件預(yù)測(cè)的推理風(fēng)格,但它可能帶來(lái)了不利于不需要面向未來(lái)預(yù)測(cè)的任務(wù)泛化的歸納偏差。
此外,研究者觀察到了獎(jiǎng)勵(lì)黑客的實(shí)例,其中使用多選題問(wèn)答和結(jié)果監(jiān)督的RL訓(xùn)練可能鼓勵(lì)模型利用表面模式,如答案選項(xiàng)與問(wèn)題文本之間的詞匯相似性,而不是通過(guò)整合視覺(jué)感知和因果推理進(jìn)行真正的推理。鑒于這些限制,研究團(tuán)隊(duì)強(qiáng)調(diào)SFT仍然是NEP訓(xùn)練的一種簡(jiǎn)單而有效的方法。
六、總結(jié)與展望
這項(xiàng)由新加坡國(guó)立大學(xué)和新加坡海洋人工智能實(shí)驗(yàn)室合作完成的研究提出了下一事件預(yù)測(cè)(NEP),這是一種專門設(shè)計(jì)用于提高多模態(tài)大型語(yǔ)言模型時(shí)間推理能力的自監(jiān)督學(xué)習(xí)任務(wù)。通過(guò)將視頻分為過(guò)去和未來(lái)幀,NEP迫使模型預(yù)測(cè)未見(jiàn)過(guò)的未來(lái)事件,使模型能夠隱式建立因果和敘事動(dòng)態(tài)的穩(wěn)健內(nèi)部表示。
為了研究NEP并促進(jìn)這一領(lǐng)域的研究,研究團(tuán)隊(duì)創(chuàng)建了V1-33K,一個(gè)包含約33,000個(gè)視頻實(shí)例的大型數(shù)據(jù)集,涵蓋了廣泛的真實(shí)世界場(chǎng)景和時(shí)間復(fù)雜性。此外,他們提出了FutureBench,一個(gè)全面的基準(zhǔn),用于評(píng)估模型生成邏輯連貫和因果一致的未來(lái)事件預(yù)測(cè)的能力。
實(shí)驗(yàn)表明,將NEP納入訓(xùn)練顯著提高了多模態(tài)大型語(yǔ)言模型的時(shí)間推理能力,同時(shí)保持了它們?cè)趥鹘y(tǒng)視頻理解任務(wù)上的性能。通過(guò)比較不同的視頻指令調(diào)優(yōu)策略,研究團(tuán)隊(duì)發(fā)現(xiàn)監(jiān)督式微調(diào)(SFT)提供了一種簡(jiǎn)單而有效的方法,而混合策略在利用多種互補(bǔ)監(jiān)督信號(hào)方面表現(xiàn)最佳。
這項(xiàng)研究為視頻理解領(lǐng)域開(kāi)辟了新的方向,彌合了靜態(tài)視覺(jué)描述和時(shí)間事件推斷之間的差距。通過(guò)教導(dǎo)模型不僅描述所見(jiàn),還推理未見(jiàn),研究者正在推動(dòng)我們朝著更全面的視頻理解系統(tǒng)邁進(jìn),這些系統(tǒng)能夠在動(dòng)態(tài)視覺(jué)敘事中導(dǎo)航因果關(guān)系和時(shí)間依賴性。
隨著這一領(lǐng)域的發(fā)展,未來(lái)研究可能會(huì)探索更多樣化的數(shù)據(jù)源、改進(jìn)的注釋策略和新穎的架構(gòu)設(shè)計(jì),以進(jìn)一步增強(qiáng)模型的時(shí)間推理能力。此外,將NEP與其他自監(jiān)督和監(jiān)督學(xué)習(xí)任務(wù)相結(jié)合,可能會(huì)產(chǎn)生對(duì)動(dòng)態(tài)視覺(jué)內(nèi)容有更深理解的更全面的模型。
這項(xiàng)研究的實(shí)際應(yīng)用十分廣泛,從增強(qiáng)視頻監(jiān)控系統(tǒng)預(yù)測(cè)潛在危險(xiǎn)情況,到改進(jìn)自動(dòng)駕駛汽車預(yù)測(cè)行人行為,再到開(kāi)發(fā)能夠理解并預(yù)測(cè)人類意圖的更直觀的人機(jī)交互系統(tǒng)。通過(guò)培養(yǎng)真正的時(shí)間推理能力,這項(xiàng)工作為更智能、更有用的視頻AI系統(tǒng)鋪平了道路。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。