想象一下,如果你要測(cè)試一個(gè)朋友是否真的理解了一部?jī)尚r(shí)的電影,你會(huì)怎么做?你可能會(huì)問(wèn)他一些需要前后串聯(lián)思考的問(wèn)題,比如"為什么主角最后選擇原諒了反派?"這樣的問(wèn)題需要他回憶電影開(kāi)頭的鋪墊、中間的轉(zhuǎn)折,以及最后的情感升華?,F(xiàn)在,人工智能領(lǐng)域也面臨著類似的挑戰(zhàn)——如何測(cè)試AI是否真的能像人類一樣理解長(zhǎng)視頻中的復(fù)雜故事情節(jié)?
這項(xiàng)由上海人工智能實(shí)驗(yàn)室、南京大學(xué)和中科院深圳先進(jìn)技術(shù)研究院聯(lián)合完成的研究,于2025年6月發(fā)表,為我們帶來(lái)了全球首個(gè)專門測(cè)試AI長(zhǎng)視頻推理能力的評(píng)估平臺(tái)——VRBench。這就像是給AI設(shè)計(jì)了一套"電影理解能力考試",不僅要看AI能否看懂單個(gè)畫面,更要測(cè)試它能否像偵探一樣,將分散在整部影片中的線索串聯(lián)起來(lái),推理出復(fù)雜的因果關(guān)系。
在當(dāng)今這個(gè)視頻內(nèi)容爆炸的時(shí)代,我們每天都在觀看各種視頻,從短視頻到長(zhǎng)電影,從紀(jì)錄片到體育賽事。而AI技術(shù)也在快速發(fā)展,許多AI模型已經(jīng)能夠理解圖片和短視頻,但當(dāng)面對(duì)需要長(zhǎng)時(shí)間跨度推理的復(fù)雜視頻時(shí),它們往往表現(xiàn)得像是患了"健忘癥"的觀眾——能看懂眼前的情節(jié),卻難以將前后內(nèi)容有機(jī)結(jié)合進(jìn)行深度思考。
這項(xiàng)研究的重要性就在于此。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI評(píng)估方法就像是只測(cè)試學(xué)生能否認(rèn)字,卻不測(cè)試他們能否理解整篇文章的含義。大多數(shù)現(xiàn)有評(píng)估平臺(tái)要么專注于單純的視覺(jué)識(shí)別(比如"畫面中有幾個(gè)人?"),要么只測(cè)試需要特定領(lǐng)域知識(shí)的問(wèn)題(比如數(shù)學(xué)或科學(xué)),而忽略了一個(gè)關(guān)鍵能力:基于故事情節(jié)進(jìn)行多步驟推理。
VRBench的誕生填補(bǔ)了這個(gè)重要空白。它包含了1010個(gè)精心篩選的長(zhǎng)視頻,平均時(shí)長(zhǎng)達(dá)到1.6小時(shí),涵蓋8種不同語(yǔ)言和7種視頻類型,從電影到體育賽事,從游戲解說(shuō)到旅行日志。研究團(tuán)隊(duì)還為這些視頻標(biāo)注了9468個(gè)需要多步推理的問(wèn)答對(duì),以及超過(guò)30000個(gè)詳細(xì)的推理步驟。這就像是為AI準(zhǔn)備了一個(gè)包含上千部電影的"理解力測(cè)試庫(kù)",每部電影都配有8-10個(gè)需要深度思考的問(wèn)題。
一、建立AI的"電影理解力考試"——VRBench的創(chuàng)新設(shè)計(jì)
想象你要為朋友設(shè)計(jì)一套測(cè)試,來(lái)檢驗(yàn)他們是否真的看懂了一部復(fù)雜的懸疑電影。你不會(huì)問(wèn)"主角穿什么顏色的衣服"這樣簡(jiǎn)單的觀察題,而會(huì)問(wèn)"為什么主角在第二幕做出了那個(gè)關(guān)鍵決定?"這樣的問(wèn)題需要觀眾記住開(kāi)頭的鋪墊,理解中間的轉(zhuǎn)折,并將這些信息串聯(lián)起來(lái)進(jìn)行推理。
VRBench正是基于這樣的思路設(shè)計(jì)的。與傳統(tǒng)的AI評(píng)估方法不同,VRBench不滿足于測(cè)試AI能否識(shí)別畫面中的物體或人物,而是要測(cè)試AI能否像一個(gè)優(yōu)秀的影評(píng)人一樣,深度理解視頻中的故事邏輯和人物動(dòng)機(jī)。
研究團(tuán)隊(duì)首先面臨的挑戰(zhàn)是如何收集合適的測(cè)試材料。他們從YouTube上收集了超過(guò)10000個(gè)公開(kāi)視頻,但并非所有視頻都適合用來(lái)測(cè)試推理能力。就像選擇考試題目一樣,他們需要的是那些情節(jié)豐富、邏輯清晰的"好故事"。經(jīng)過(guò)多輪篩選,他們最終選定了1010個(gè)高質(zhì)量的敘事性視頻。
這些視頻有個(gè)特別之處:它們都不是英文或中文的。這個(gè)選擇看似奇怪,實(shí)際上非常聰明。研究團(tuán)隊(duì)解釋說(shuō),現(xiàn)有的AI評(píng)估大多偏向英文和中文內(nèi)容,這可能讓AI在某種程度上"作弊"——依賴于在訓(xùn)練時(shí)見(jiàn)過(guò)的類似內(nèi)容,而不是真正理解視頻邏輯。選擇其他語(yǔ)言的視頻,就像給學(xué)生一份全新的考試題目,能更公正地測(cè)試他們的真實(shí)理解能力。
為了確保視頻質(zhì)量,研究團(tuán)隊(duì)組織了14位多語(yǔ)言專家,像電影評(píng)委一樣對(duì)每個(gè)候選視頻進(jìn)行10分制評(píng)分。他們主要考察兩個(gè)標(biāo)準(zhǔn):情節(jié)的連貫性和內(nèi)容的豐富性。只有得分7分以上的視頻才能入選最終的測(cè)試集。這就像是為考試精選最具代表性的題目,確保每道題都能有效測(cè)試學(xué)生的能力。
在視頻類型的選擇上,研究團(tuán)隊(duì)涵蓋了七個(gè)主要類別。電影和動(dòng)畫片自然是重頭戲,因?yàn)樗鼈兺ǔ>哂型暾墓适虑楣?jié)和復(fù)雜的人物關(guān)系。體育視頻也被納入其中,因?yàn)轶w育比賽雖然沒(méi)有傳統(tǒng)意義上的"劇情",但包含豐富的戰(zhàn)術(shù)變化和因果關(guān)系——比如一個(gè)關(guān)鍵的失誤如何導(dǎo)致比賽局勢(shì)的徹底逆轉(zhuǎn)。
游戲視頻同樣具有很強(qiáng)的敘事性,特別是那些策略類游戲,玩家的每個(gè)決策都會(huì)影響后續(xù)發(fā)展。旅行和生活類視頻看似簡(jiǎn)單,但實(shí)際上蘊(yùn)含著豐富的時(shí)間線索和因果關(guān)系——比如為什么博主選擇在某個(gè)特定時(shí)間前往某地,這個(gè)決定如何影響了整個(gè)旅程的安排。
二、像制作精密食譜一樣設(shè)計(jì)推理問(wèn)題
如果說(shuō)選擇合適的視頻是找到好的"食材",那么設(shè)計(jì)推理問(wèn)題就像是制作一道需要多個(gè)步驟的復(fù)雜菜肴。每個(gè)問(wèn)題都需要AI像廚師一樣,按照特定順序處理不同的"食材"(視頻片段),最終"烹飪"出正確的答案。
研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)人機(jī)協(xié)作的標(biāo)注系統(tǒng)。首先,他們使用AI工具對(duì)視頻進(jìn)行初步分析,將長(zhǎng)視頻切分成若干片段,為每個(gè)片段生成描述,并將音頻內(nèi)容轉(zhuǎn)換成文字。然后,他們讓GPT-4o基于這些信息生成6個(gè)初步的問(wèn)答對(duì)。但這只是第一步,就像是先用食品加工機(jī)做基礎(chǔ)處理,真正的精細(xì)工作還需要人工完成。
接下來(lái),67名經(jīng)過(guò)專門培訓(xùn)的研究生接手了標(biāo)注工作。他們的任務(wù)是基于AI生成的初步問(wèn)答對(duì),為每個(gè)視頻制作8-10個(gè)高質(zhì)量的推理問(wèn)題。這就像是專業(yè)廚師根據(jù)食譜進(jìn)行精細(xì)調(diào)整,確保每道菜都達(dá)到餐廳的標(biāo)準(zhǔn)。
這些推理問(wèn)題被分為七種類型,每種都測(cè)試AI的不同推理能力。事件預(yù)測(cè)類問(wèn)題就像是讓AI成為"故事預(yù)言家",根據(jù)已經(jīng)發(fā)生的情節(jié)預(yù)測(cè)后續(xù)發(fā)展。假設(shè)推理類問(wèn)題則給AI一個(gè)假設(shè)條件,讓它推斷可能的結(jié)果——比如"如果主角當(dāng)時(shí)做了不同的選擇,會(huì)發(fā)生什么?"
事件歸因類問(wèn)題讓AI扮演"故事偵探"的角色,分析某個(gè)事件發(fā)生的原因。比如觀看一部電影后,AI需要解釋為什么某個(gè)角色做出了特定決定,這需要它回溯整個(gè)故事線,找到相關(guān)的鋪墊和動(dòng)機(jī)。
隱性推理類問(wèn)題最具挑戰(zhàn)性,它要求AI讀懂"弦外之音"。就像人類觀眾能從角色的表情和行為中感受到未明言的情感變化,AI也需要具備這種微妙的理解能力。信息綜合類問(wèn)題則測(cè)試AI的"整理歸納"能力,要求它將散布在整個(gè)視頻中的信息進(jìn)行匯總。
邏輯聯(lián)系類問(wèn)題考驗(yàn)AI建立因果關(guān)系的能力。這就像拼圖一樣,AI需要找到看似不相關(guān)的兩個(gè)事件之間的邏輯聯(lián)系。最后,計(jì)數(shù)問(wèn)題雖然看起來(lái)簡(jiǎn)單,但在長(zhǎng)視頻中往往需要AI保持長(zhǎng)時(shí)間的注意力,追蹤某個(gè)元素在整個(gè)視頻中的變化。
為了確保問(wèn)題質(zhì)量,研究團(tuán)隊(duì)設(shè)立了嚴(yán)格的標(biāo)準(zhǔn)。每個(gè)問(wèn)題都必須包含至少2個(gè)推理步驟,并且需要為每個(gè)步驟標(biāo)注準(zhǔn)確的時(shí)間戳。這就像是為食譜標(biāo)注每個(gè)步驟的具體時(shí)間和溫度,確保任何人都能準(zhǔn)確復(fù)制。
特別值得一提的是,研究團(tuán)隊(duì)還設(shè)計(jì)了時(shí)間分布要求。他們要求每個(gè)視頻的問(wèn)題要覆蓋不同的時(shí)間段:0-15分鐘段最多4個(gè)問(wèn)題,15-40分鐘段至少3個(gè)問(wèn)題,40分鐘以上至少1個(gè)問(wèn)題。這確保了AI不能只關(guān)注視頻開(kāi)頭或結(jié)尾,而必須對(duì)整個(gè)視頻保持理解。
三、創(chuàng)新的"雙重檢驗(yàn)"評(píng)估方法
傳統(tǒng)的AI測(cè)試就像只看學(xué)生的期末考試成績(jī),而VRBench采用了一種更全面的評(píng)估方法,既看"結(jié)果"也看"過(guò)程"。這就像是數(shù)學(xué)老師不僅要看學(xué)生算出的答案是否正確,還要檢查解題步驟是否合理。
在結(jié)果層面的評(píng)估相對(duì)直觀,采用多選題的形式。AI需要從四個(gè)選項(xiàng)中選擇正確答案,這測(cè)試的是它的最終理解結(jié)果。但僅有這個(gè)還不夠,因?yàn)锳I可能通過(guò)"運(yùn)氣"或者簡(jiǎn)單的模式匹配得到正確答案,而沒(méi)有真正理解視頻內(nèi)容。
因此,研究團(tuán)隊(duì)引入了過(guò)程層面的評(píng)估,要求AI不僅給出答案,還要詳細(xì)說(shuō)明推理過(guò)程。這就像是要求學(xué)生不僅寫出"x=5"這個(gè)答案,還要展示"先移項(xiàng),再合并同類項(xiàng),最后除以系數(shù)"的完整解題過(guò)程。
為了評(píng)判推理過(guò)程的質(zhì)量,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)基于AI的評(píng)分系統(tǒng)。這個(gè)系統(tǒng)從四個(gè)維度評(píng)估AI的推理過(guò)程:邏輯連貫性、與標(biāo)準(zhǔn)答案的相似度、事實(shí)準(zhǔn)確性和表達(dá)清晰度。就像是聘請(qǐng)了一位嚴(yán)格的老師,從多個(gè)角度給學(xué)生的答題過(guò)程打分。
邏輯連貫性檢查推理鏈條是否環(huán)環(huán)相扣,沒(méi)有跳躍或矛盾。與標(biāo)準(zhǔn)答案的相似度衡量AI的思路是否與人類專家的思路相近。事實(shí)準(zhǔn)確性確保AI沒(méi)有編造不存在的情節(jié)或人物。表達(dá)清晰度則檢查AI是否能用清晰明了的語(yǔ)言闡述自己的推理過(guò)程。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同類型的問(wèn)題需要不同的評(píng)分策略。對(duì)于事件預(yù)測(cè)和假設(shè)推理類問(wèn)題,由于可能存在多種合理的答案,他們?nèi)サ袅?與標(biāo)準(zhǔn)答案相似度"這一評(píng)分項(xiàng),重新調(diào)整權(quán)重。這就像是對(duì)開(kāi)放性作文題采用更靈活的評(píng)分標(biāo)準(zhǔn)。
為了驗(yàn)證這個(gè)評(píng)分系統(tǒng)的可靠性,研究團(tuán)隊(duì)進(jìn)行了人機(jī)對(duì)比實(shí)驗(yàn)。他們讓人類專家對(duì)同一批AI回答進(jìn)行評(píng)分,然后對(duì)比人類評(píng)分和AI評(píng)分的一致性。結(jié)果顯示,在多個(gè)評(píng)分維度上,人機(jī)評(píng)分的相關(guān)性都超過(guò)了0.8,這說(shuō)明AI評(píng)分系統(tǒng)能夠較好地模擬人類專家的判斷標(biāo)準(zhǔn)。
四、現(xiàn)有AI模型的"體檢報(bào)告"
當(dāng)VRBench這個(gè)"考試"準(zhǔn)備就緒后,研究團(tuán)隊(duì)邀請(qǐng)了28個(gè)不同的AI模型來(lái)參加測(cè)試,包括12個(gè)純文本模型和16個(gè)視頻理解模型。這就像是給不同年級(jí)的學(xué)生安排了同一場(chǎng)考試,看看他們的真實(shí)水平如何。
結(jié)果令人既驚喜又擔(dān)憂。在結(jié)果準(zhǔn)確性方面,最強(qiáng)的模型是谷歌的Gemini-2.0-Pro,達(dá)到了76.61%的準(zhǔn)確率。這就像是班里的優(yōu)等生,大部分題目都能答對(duì)。緊隨其后的是OpenAI的GPT-4o和Claude-3.7-Sonnet,準(zhǔn)確率都在70%以上。
但是,當(dāng)研究團(tuán)隊(duì)檢查這些模型的推理過(guò)程時(shí),發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:許多模型雖然能給出正確答案,但推理過(guò)程卻存在問(wèn)題。比如GPT-4o雖然有83.25%的答題準(zhǔn)確率,但推理過(guò)程評(píng)分只有58.1%。這就像是學(xué)生雖然算出了正確答案,但解題過(guò)程漏洞百出,可能存在蒙對(duì)的情況。
在不同類型的推理任務(wù)中,AI模型表現(xiàn)出明顯的偏好性。大多數(shù)模型在事件預(yù)測(cè)和信息綜合方面表現(xiàn)較好,這些任務(wù)相對(duì)直觀,類似于"根據(jù)劇情發(fā)展猜測(cè)結(jié)局"或"總結(jié)故事主要內(nèi)容"。但在計(jì)數(shù)問(wèn)題上,幾乎所有模型都表現(xiàn)糟糕,準(zhǔn)確率接近隨機(jī)猜測(cè)的水平。
這個(gè)現(xiàn)象很好理解。計(jì)數(shù)問(wèn)題需要AI在長(zhǎng)達(dá)數(shù)小時(shí)的視頻中保持持續(xù)注意力,準(zhǔn)確追蹤特定對(duì)象的出現(xiàn)次數(shù)。這就像是要求觀眾在看一部?jī)尚r(shí)的電影時(shí),從頭到尾數(shù)清某個(gè)配角總共出現(xiàn)了幾次,這對(duì)AI來(lái)說(shuō)是極大的挑戰(zhàn)。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了AI模型架構(gòu)對(duì)性能的重要影響。那些專門設(shè)計(jì)用于推理的"System-2"模型(如OpenAI的o1系列)在推理過(guò)程評(píng)分上明顯優(yōu)于傳統(tǒng)模型,但在最終答案準(zhǔn)確性上提升有限。這說(shuō)明這些模型確實(shí)在"思考"方面有所改進(jìn),但將復(fù)雜思考轉(zhuǎn)化為正確答案的能力還有待提升。
長(zhǎng)上下文支持能力也被證明是關(guān)鍵因素。那些能夠處理更多視頻幀的模型往往表現(xiàn)更好。比如Gemini-2.0-Pro能夠以0.5幀每秒的密度處理整個(gè)視頻,遠(yuǎn)超其他模型的32-128幀固定輸入限制。這就像是給學(xué)生更多時(shí)間仔細(xì)閱讀考試材料,自然能更好地理解和分析。
五、參數(shù)規(guī)模與推理能力的復(fù)雜關(guān)系
一個(gè)直觀的假設(shè)是,更大的模型應(yīng)該具有更強(qiáng)的推理能力,就像更有經(jīng)驗(yàn)的學(xué)生通??荚嚦煽?jī)更好。VRBench的測(cè)試結(jié)果部分印證了這個(gè)假設(shè),但也揭示了一些意外發(fā)現(xiàn)。
在同系列模型的對(duì)比中,規(guī)模優(yōu)勢(shì)確實(shí)明顯。比如Qwen2.5系列中,72B參數(shù)的模型比7B參數(shù)的模型表現(xiàn)好5.48個(gè)百分點(diǎn)。InternVL2.5系列中,78B參數(shù)模型比8B參數(shù)模型高出近10個(gè)百分點(diǎn)。這符合我們的常理認(rèn)知——更大的"大腦"通常意味著更強(qiáng)的理解和推理能力。
但是,一個(gè)有趣的例外出現(xiàn)了。QwQ-32B模型雖然參數(shù)量相對(duì)較小,但通過(guò)專門的推理訓(xùn)練,它在某些方面的表現(xiàn)竟然接近甚至超過(guò)了參數(shù)量更大的通用模型。這就像是一個(gè)專門訓(xùn)練邏輯思維的學(xué)生,在數(shù)學(xué)競(jìng)賽中可能比知識(shí)面更廣但缺乏專門訓(xùn)練的學(xué)生表現(xiàn)更好。
這個(gè)發(fā)現(xiàn)對(duì)AI發(fā)展具有重要啟示:并非單純?cè)黾幽P鸵?guī)模就能提升推理能力,訓(xùn)練方法和數(shù)據(jù)質(zhì)量可能同樣重要。研究團(tuán)隊(duì)觀察到,那些在推理相關(guān)數(shù)據(jù)上進(jìn)行過(guò)專門訓(xùn)練的模型,往往在推理過(guò)程評(píng)分上表現(xiàn)更好,即使它們的最終答案準(zhǔn)確率可能不是最高的。
另一個(gè)值得注意的現(xiàn)象是開(kāi)源模型與閉源模型之間的差距。總體而言,商業(yè)公司開(kāi)發(fā)的閉源模型(如GPT-4o、Gemini-2.0-Pro、Claude-3.7-Sonnet)在各項(xiàng)指標(biāo)上都明顯領(lǐng)先于開(kāi)源模型。最強(qiáng)的開(kāi)源模型InternVL2.5-78B的整體表現(xiàn)為66.10%,而最強(qiáng)閉源模型Gemini-2.0-Pro達(dá)到了76.61%,差距超過(guò)10個(gè)百分點(diǎn)。
這種差距可能反映了幾個(gè)方面的現(xiàn)實(shí):商業(yè)公司擁有更多計(jì)算資源進(jìn)行大規(guī)模訓(xùn)練,更豐富的高質(zhì)量訓(xùn)練數(shù)據(jù),以及更精細(xì)的模型優(yōu)化技術(shù)。同時(shí),這些閉源模型可能還使用了一些未公開(kāi)的技術(shù)改進(jìn)。
六、測(cè)試時(shí)計(jì)算量的神奇效果
傳統(tǒng)上,AI模型的能力被認(rèn)為主要由訓(xùn)練階段決定,就像學(xué)生的水平主要由平時(shí)學(xué)習(xí)決定一樣。但VRBench的實(shí)驗(yàn)揭示了一個(gè)有趣現(xiàn)象:給AI模型更多"思考時(shí)間",也就是更多的計(jì)算資源,可以顯著提升它們的推理表現(xiàn)。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn),他們給同一個(gè)模型設(shè)置不同的"思考時(shí)間"限制,從256個(gè)tokens(相當(dāng)于簡(jiǎn)短回答)到2048個(gè)tokens(相當(dāng)于詳細(xì)說(shuō)明),觀察模型表現(xiàn)如何變化。
結(jié)果令人印象深刻:QwQ-32B模型在token限制從低到高的過(guò)程中,整體得分從48.91%躍升到61.34%,提升了超過(guò)12個(gè)百分點(diǎn)。這就像是給學(xué)生從"必須在5分鐘內(nèi)完成"改為"可以思考30分鐘再作答",成績(jī)有了顯著提升。
更有趣的是,這種"慢思考"的效果在不同類型的模型上表現(xiàn)截然不同。專門訓(xùn)練用于推理的System-2模型(如QwQ)能夠很好地利用額外的計(jì)算時(shí)間,產(chǎn)生更高質(zhì)量的推理過(guò)程和更準(zhǔn)確的答案。而傳統(tǒng)的System-1模型在給予更多思考時(shí)間時(shí),表現(xiàn)反而可能下降——它們?nèi)菀桩a(chǎn)生冗長(zhǎng)但質(zhì)量不高的輸出,甚至可能在長(zhǎng)時(shí)間思考中"迷失方向"。
這個(gè)發(fā)現(xiàn)對(duì)AI發(fā)展具有重要意義。它表明,提升AI推理能力不僅可以通過(guò)增加模型規(guī)模或改進(jìn)訓(xùn)練方法,還可以通過(guò)優(yōu)化推理時(shí)的計(jì)算分配來(lái)實(shí)現(xiàn)。這開(kāi)辟了一個(gè)新的優(yōu)化方向:設(shè)計(jì)能夠有效利用測(cè)試時(shí)計(jì)算資源的AI系統(tǒng)。
七、文本模型與視頻模型的意外對(duì)決
VRBench測(cè)試中最令人意外的發(fā)現(xiàn)之一,是純文本模型與視頻理解模型之間的競(jìng)爭(zhēng)結(jié)果。按照常理,處理視頻內(nèi)容應(yīng)該是視頻理解模型的專長(zhǎng),就像讓專業(yè)的電影評(píng)論家與只讀過(guò)劇本的文學(xué)評(píng)論家比較對(duì)電影的理解能力。
為了讓純文本模型也能參與視頻理解測(cè)試,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)"視頻到文本"的轉(zhuǎn)換系統(tǒng)。他們使用Qwen2.5-72B模型將視頻內(nèi)容轉(zhuǎn)換成詳細(xì)的文字描述,包括視覺(jué)場(chǎng)景、人物動(dòng)作、對(duì)話內(nèi)容等。這就像是為盲人朋友詳細(xì)描述電影內(nèi)容,讓他們也能理解故事情節(jié)。
令人驚訝的是,一些優(yōu)秀的純文本模型在這種設(shè)置下表現(xiàn)出色。比如Gemini-2.0-Flash-Thinking在純文本模式下達(dá)到了63.79%的綜合得分,甚至超過(guò)了許多專門的視頻理解模型。這就像是那位只讀劇本的文學(xué)評(píng)論家,竟然比看過(guò)完整電影的評(píng)論家更好地理解了故事的深層含義。
這個(gè)現(xiàn)象揭示了一個(gè)重要事實(shí):對(duì)于需要復(fù)雜推理的任務(wù),高質(zhì)量的文本描述可能比原始視頻信號(hào)更有效。視頻包含大量冗余信息,如背景細(xì)節(jié)、視覺(jué)特效等,這些信息雖然豐富了觀影體驗(yàn),但對(duì)理解核心情節(jié)可能并非必需。相反,經(jīng)過(guò)精心整理的文本描述能夠突出關(guān)鍵信息,降低推理難度。
但這并不意味著視覺(jué)信息不重要。研究團(tuán)隊(duì)發(fā)現(xiàn),那些在視覺(jué)細(xì)節(jié)上依賴性較強(qiáng)的問(wèn)題,如計(jì)數(shù)問(wèn)題,純文本模型的表現(xiàn)明顯不如視頻模型。這類問(wèn)題需要精確的視覺(jué)觀察,文字描述很難完全替代原始視頻信息。
更重要的是,能夠有效利用長(zhǎng)時(shí)間視頻信息的模型表現(xiàn)最好。Gemini-2.0-Pro通過(guò)高密度的幀采樣(0.5fps)獲得了最佳性能,這說(shuō)明詳細(xì)的視覺(jué)信息確實(shí)有助于理解復(fù)雜的視頻內(nèi)容,關(guān)鍵在于模型能否有效處理和利用這些信息。
八、推理類型難度的層次分布
通過(guò)對(duì)七種不同推理類型的詳細(xì)分析,VRBench揭示了AI在不同思維任務(wù)上的能力分布,就像一份詳細(xì)的"智力體檢報(bào)告"。
最容易的推理類型是信息綜合,大多數(shù)模型在這類任務(wù)上表現(xiàn)相對(duì)較好。這類問(wèn)題要求AI對(duì)視頻內(nèi)容進(jìn)行概括和總結(jié),類似于"用簡(jiǎn)短的語(yǔ)言描述這個(gè)故事的主要情節(jié)"。這種任務(wù)雖然需要理解整個(gè)視頻,但不要求復(fù)雜的邏輯推導(dǎo),更多依賴的是信息整合能力。
事件預(yù)測(cè)和邏輯聯(lián)系類問(wèn)題難度中等。事件預(yù)測(cè)要求AI根據(jù)已有情節(jié)推測(cè)后續(xù)發(fā)展,這需要一定的創(chuàng)造性思維和對(duì)故事邏輯的理解。邏輯聯(lián)系類問(wèn)題要求AI找到看似不相關(guān)事件之間的因果關(guān)系,這測(cè)試的是AI的分析和推理能力。
假設(shè)推理類問(wèn)題具有特殊性。由于這類問(wèn)題往往沒(méi)有標(biāo)準(zhǔn)答案(因?yàn)榧僭O(shè)情況在視頻中并未實(shí)際發(fā)生),AI的表現(xiàn)分化較大。一些模型能夠基于已有信息進(jìn)行合理推測(cè),而另一些模型則可能給出過(guò)于天馬行空或邏輯不嚴(yán)密的答案。
隱性推理類問(wèn)題挑戰(zhàn)性較高。這類問(wèn)題要求AI理解"弦外之音",比如從角色的表情和行為推斷其內(nèi)心想法,或者理解某種未明說(shuō)的情感氛圍。這需要AI具備類似人類的情感理解能力和社會(huì)認(rèn)知能力,這對(duì)目前的技術(shù)來(lái)說(shuō)仍然困難。
事件歸因類問(wèn)題在不同模型上表現(xiàn)差異巨大。優(yōu)秀的模型能夠準(zhǔn)確分析事件的前因后果,而表現(xiàn)較差的模型可能給出過(guò)于簡(jiǎn)化或錯(cuò)誤的因果關(guān)系。這反映了不同模型在因果推理能力上的顯著差異。
最困難的是計(jì)數(shù)問(wèn)題。幾乎所有模型在這類任務(wù)上的表現(xiàn)都接近隨機(jī)水平,很多時(shí)候準(zhǔn)確率只有20-30%。這類問(wèn)題雖然看似簡(jiǎn)單,但需要AI在長(zhǎng)時(shí)間視頻中保持精確的注意力,追蹤特定對(duì)象的出現(xiàn)和變化,這對(duì)現(xiàn)有技術(shù)來(lái)說(shuō)是極大挑戰(zhàn)。
九、AI推理的"誠(chéng)實(shí)度"問(wèn)題
VRBench的雙重評(píng)估機(jī)制揭示了一個(gè)令人深思的現(xiàn)象:許多AI模型存在"答對(duì)題目但推理過(guò)程有問(wèn)題"的情況,就像學(xué)生雖然算出了正確答案,但解題過(guò)程卻漏洞百出。
這種現(xiàn)象在多個(gè)頂級(jí)模型中都有體現(xiàn)。GPT-4o在多選題準(zhǔn)確率上達(dá)到83.25%,但推理過(guò)程得分只有58.1%。Claude-3.7-Sonnet也表現(xiàn)出類似模式:答案準(zhǔn)確率82.10%,推理得分58.23%。這種差異揭示了當(dāng)前AI系統(tǒng)的一個(gè)根本性問(wèn)題:它們可能通過(guò)某種"快捷方式"或模式匹配得到正確答案,而非通過(guò)嚴(yán)謹(jǐn)?shù)倪壿嬐评怼?/p>
具體分析這些有問(wèn)題的推理過(guò)程,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾種典型錯(cuò)誤模式。有些AI會(huì)給出看似合理但實(shí)際錯(cuò)誤的因果關(guān)系,比如將時(shí)間上的先后關(guān)系誤認(rèn)為因果關(guān)系。還有些AI會(huì)在推理中插入視頻中并不存在的信息,或者對(duì)某些細(xì)節(jié)進(jìn)行過(guò)度解讀。
最常見(jiàn)的問(wèn)題是推理鏈條的跳躍。AI可能從前提A直接跳到結(jié)論C,而忽略了中間的關(guān)鍵步驟B。這就像是在數(shù)學(xué)證明中省略了重要的中間步驟,雖然最終答案可能正確,但推理過(guò)程不夠嚴(yán)謹(jǐn)。
有趣的是,那些專門針對(duì)推理能力訓(xùn)練的System-2模型在這方面表現(xiàn)明顯更好。雖然它們的最終答案準(zhǔn)確率可能不是最高的,但推理過(guò)程的質(zhì)量明顯更高。這說(shuō)明通過(guò)專門的訓(xùn)練確實(shí)可以改善AI的推理"誠(chéng)實(shí)度"。
這個(gè)發(fā)現(xiàn)對(duì)AI安全和可靠性具有重要意義。如果AI系統(tǒng)能夠給出正確答案但推理過(guò)程存在問(wèn)題,那么當(dāng)面對(duì)訓(xùn)練數(shù)據(jù)中未見(jiàn)過(guò)的新情況時(shí),這些系統(tǒng)的表現(xiàn)可能會(huì)急劇下降。更重要的是,在需要高度可靠性的應(yīng)用場(chǎng)景中(如醫(yī)療診斷或法律分析),推理過(guò)程的透明性和正確性可能比最終答案同樣重要。
十、語(yǔ)言和文化多樣性的意外收獲
VRBench在設(shè)計(jì)時(shí)特意選擇了非英文、非中文的視頻內(nèi)容,這個(gè)看似"刁難"AI的決定卻帶來(lái)了意外的研究?jī)r(jià)值。通過(guò)涵蓋泰語(yǔ)、阿拉伯語(yǔ)、韓語(yǔ)、俄語(yǔ)、塞爾維亞語(yǔ)、匈牙利語(yǔ)和越南語(yǔ)等8種語(yǔ)言的內(nèi)容,VRBench為AI跨文化理解能力提供了珍貴的測(cè)試環(huán)境。
研究結(jié)果顯示,不同AI模型在處理這些多語(yǔ)言內(nèi)容時(shí)表現(xiàn)出明顯差異。一些在英文內(nèi)容上表現(xiàn)優(yōu)秀的模型,在面對(duì)其他語(yǔ)言的視頻時(shí)可能出現(xiàn)理解偏差。這并非因?yàn)檎Z(yǔ)言障礙(因?yàn)樗幸曨l都配有英文翻譯字幕),而是因?yàn)椴煌幕尘跋碌臄⑹路绞?、情感表達(dá)和社會(huì)背景存在差異。
比如,亞洲文化中的含蓄表達(dá)方式可能讓AI難以理解某些隱性的情感變化。中東地區(qū)的傳統(tǒng)故事結(jié)構(gòu)可能與AI訓(xùn)練時(shí)見(jiàn)過(guò)的西方敘事模式不同。這些文化差異就像是給AI設(shè)置了額外的理解門檻,測(cè)試它們的適應(yīng)性和通用性。
有趣的是,一些模型在處理特定文化背景的內(nèi)容時(shí)表現(xiàn)出意外的優(yōu)勢(shì)。研究團(tuán)隊(duì)推測(cè),這可能反映了這些模型訓(xùn)練數(shù)據(jù)的多樣性,或者某些推理模式在跨文化環(huán)境中具有更好的通用性。
這個(gè)發(fā)現(xiàn)提醒我們,真正的AI通用性不僅體現(xiàn)在技術(shù)能力上,還體現(xiàn)在文化適應(yīng)性上。隨著AI系統(tǒng)在全球范圍內(nèi)的應(yīng)用,理解和適應(yīng)不同文化背景下的思維方式和表達(dá)習(xí)慣將變得越來(lái)越重要。
VRBench的多語(yǔ)言設(shè)計(jì)也為研究AI的文化偏見(jiàn)提供了寶貴平臺(tái)。通過(guò)比較AI在不同文化背景內(nèi)容上的表現(xiàn)差異,研究者可以識(shí)別和改善潛在的文化偏見(jiàn)問(wèn)題,推動(dòng)更加公平和包容的AI系統(tǒng)發(fā)展。
說(shuō)到底,VRBench的出現(xiàn)標(biāo)志著AI評(píng)估進(jìn)入了一個(gè)新時(shí)代。就像從測(cè)試學(xué)生能否認(rèn)字進(jìn)化到測(cè)試他們能否理解文學(xué)作品一樣,AI評(píng)估也從簡(jiǎn)單的感知測(cè)試進(jìn)化到復(fù)雜的推理理解測(cè)試。這項(xiàng)研究不僅為我們提供了一個(gè)強(qiáng)大的AI能力測(cè)試工具,更重要的是,它揭示了當(dāng)前AI技術(shù)的真實(shí)狀況和未來(lái)發(fā)展方向。
通過(guò)VRBench,我們看到現(xiàn)有的AI模型雖然在某些方面已經(jīng)達(dá)到了令人印象深刻的水平,但在需要深度推理和長(zhǎng)時(shí)間理解的任務(wù)上仍有很大提升空間。特別是推理過(guò)程的"誠(chéng)實(shí)度"問(wèn)題,提醒我們不能僅僅滿足于AI給出正確答案,還要確保它們的思考過(guò)程是可靠和透明的。
這項(xiàng)研究的價(jià)值不僅在于發(fā)現(xiàn)了問(wèn)題,更在于為解決問(wèn)題指明了方向。通過(guò)專門的推理訓(xùn)練、更好的長(zhǎng)上下文處理能力、以及測(cè)試時(shí)計(jì)算資源的優(yōu)化配置,我們有望開(kāi)發(fā)出真正具備人類級(jí)別視頻理解和推理能力的AI系統(tǒng)。
對(duì)于普通人來(lái)說(shuō),VRBench的影響可能會(huì)在未來(lái)幾年逐步顯現(xiàn)。更強(qiáng)的視頻理解AI將能夠更好地幫助我們處理日常生活中的視頻內(nèi)容,從自動(dòng)生成電影評(píng)論到協(xié)助視頻編輯,從智能監(jiān)控分析到個(gè)性化內(nèi)容推薦。但更重要的是,這項(xiàng)研究推動(dòng)的AI推理能力提升,將使AI在醫(yī)療診斷、法律分析、科學(xué)研究等需要復(fù)雜推理的關(guān)鍵領(lǐng)域發(fā)揮更大作用。
隨著VRBench這樣的評(píng)估工具的普及和完善,我們有理由相信,AI理解復(fù)雜視頻內(nèi)容的能力將快速提升,最終達(dá)到甚至超越人類的水平。那時(shí),AI將不再是簡(jiǎn)單的工具,而是真正的智能伙伴,能夠與我們一起思考、分析和理解這個(gè)復(fù)雜而精彩的視覺(jué)世界。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。