av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<style id="inzcn"></style>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

上海人工智能實驗室開發(fā)VRBench：首個專門評估AI看長視頻推理能力的測試平臺

人工智能視頻理解多步推理

上海人工智能實驗室開發(fā)VRBench：首個專門評估AI看長視頻推理能力的測試平臺

作者：科技行者

2025-06-17 14:36

分享至：

這項由上海人工智能實驗室、南京大學(xué)和中科院深圳先進(jìn)技術(shù)研究院聯(lián)合完成的研究，開發(fā)了全球首個專門測試AI長視頻推理能力的評估平臺VRBench。該平臺包含1010個多語言長視頻和超過9000個多步推理問答對，創(chuàng)新性地采用雙重評估機(jī)制，既測試AI的答案準(zhǔn)確性，也評估推理過程質(zhì)量。測試結(jié)果顯示，即使是最先進(jìn)的AI模型在復(fù)雜視頻推理任務(wù)上仍存在顯著不足，特別是推理過程的可靠性方面。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-17 14:36 ? 科技行者

想象一下，如果你要測試一個朋友是否真的理解了一部兩小時的電影，你會怎么做？你可能會問他一些需要前后串聯(lián)思考的問題，比如"為什么主角最后選擇原諒了反派？"這樣的問題需要他回憶電影開頭的鋪墊、中間的轉(zhuǎn)折，以及最后的情感升華?，F(xiàn)在，人工智能領(lǐng)域也面臨著類似的挑戰(zhàn)——如何測試AI是否真的能像人類一樣理解長視頻中的復(fù)雜故事情節(jié)？

這項由上海人工智能實驗室、南京大學(xué)和中科院深圳先進(jìn)技術(shù)研究院聯(lián)合完成的研究，于2025年6月發(fā)表，為我們帶來了全球首個專門測試AI長視頻推理能力的評估平臺——VRBench。這就像是給AI設(shè)計了一套"電影理解能力考試"，不僅要看AI能否看懂單個畫面，更要測試它能否像偵探一樣，將分散在整部影片中的線索串聯(lián)起來，推理出復(fù)雜的因果關(guān)系。

在當(dāng)今這個視頻內(nèi)容爆炸的時代，我們每天都在觀看各種視頻，從短視頻到長電影，從紀(jì)錄片到體育賽事。而AI技術(shù)也在快速發(fā)展，許多AI模型已經(jīng)能夠理解圖片和短視頻，但當(dāng)面對需要長時間跨度推理的復(fù)雜視頻時，它們往往表現(xiàn)得像是患了"健忘癥"的觀眾——能看懂眼前的情節(jié)，卻難以將前后內(nèi)容有機(jī)結(jié)合進(jìn)行深度思考。

這項研究的重要性就在于此。研究團(tuán)隊發(fā)現(xiàn)，現(xiàn)有的AI評估方法就像是只測試學(xué)生能否認(rèn)字，卻不測試他們能否理解整篇文章的含義。大多數(shù)現(xiàn)有評估平臺要么專注于單純的視覺識別（比如"畫面中有幾個人？"），要么只測試需要特定領(lǐng)域知識的問題（比如數(shù)學(xué)或科學(xué)），而忽略了一個關(guān)鍵能力：基于故事情節(jié)進(jìn)行多步驟推理。

VRBench的誕生填補(bǔ)了這個重要空白。它包含了1010個精心篩選的長視頻，平均時長達(dá)到1.6小時，涵蓋8種不同語言和7種視頻類型，從電影到體育賽事，從游戲解說到旅行日志。研究團(tuán)隊還為這些視頻標(biāo)注了9468個需要多步推理的問答對，以及超過30000個詳細(xì)的推理步驟。這就像是為AI準(zhǔn)備了一個包含上千部電影的"理解力測試庫"，每部電影都配有8-10個需要深度思考的問題。

一、建立AI的"電影理解力考試"——VRBench的創(chuàng)新設(shè)計

想象你要為朋友設(shè)計一套測試，來檢驗他們是否真的看懂了一部復(fù)雜的懸疑電影。你不會問"主角穿什么顏色的衣服"這樣簡單的觀察題，而會問"為什么主角在第二幕做出了那個關(guān)鍵決定？"這樣的問題需要觀眾記住開頭的鋪墊，理解中間的轉(zhuǎn)折，并將這些信息串聯(lián)起來進(jìn)行推理。

VRBench正是基于這樣的思路設(shè)計的。與傳統(tǒng)的AI評估方法不同，VRBench不滿足于測試AI能否識別畫面中的物體或人物，而是要測試AI能否像一個優(yōu)秀的影評人一樣，深度理解視頻中的故事邏輯和人物動機(jī)。

研究團(tuán)隊首先面臨的挑戰(zhàn)是如何收集合適的測試材料。他們從YouTube上收集了超過10000個公開視頻，但并非所有視頻都適合用來測試推理能力。就像選擇考試題目一樣，他們需要的是那些情節(jié)豐富、邏輯清晰的"好故事"。經(jīng)過多輪篩選，他們最終選定了1010個高質(zhì)量的敘事性視頻。

這些視頻有個特別之處：它們都不是英文或中文的。這個選擇看似奇怪，實際上非常聰明。研究團(tuán)隊解釋說，現(xiàn)有的AI評估大多偏向英文和中文內(nèi)容，這可能讓AI在某種程度上"作弊"——依賴于在訓(xùn)練時見過的類似內(nèi)容，而不是真正理解視頻邏輯。選擇其他語言的視頻，就像給學(xué)生一份全新的考試題目，能更公正地測試他們的真實理解能力。

為了確保視頻質(zhì)量，研究團(tuán)隊組織了14位多語言專家，像電影評委一樣對每個候選視頻進(jìn)行10分制評分。他們主要考察兩個標(biāo)準(zhǔn)：情節(jié)的連貫性和內(nèi)容的豐富性。只有得分7分以上的視頻才能入選最終的測試集。這就像是為考試精選最具代表性的題目，確保每道題都能有效測試學(xué)生的能力。

在視頻類型的選擇上，研究團(tuán)隊涵蓋了七個主要類別。電影和動畫片自然是重頭戲，因為它們通常具有完整的故事情節(jié)和復(fù)雜的人物關(guān)系。體育視頻也被納入其中，因為體育比賽雖然沒有傳統(tǒng)意義上的"劇情"，但包含豐富的戰(zhàn)術(shù)變化和因果關(guān)系——比如一個關(guān)鍵的失誤如何導(dǎo)致比賽局勢的徹底逆轉(zhuǎn)。

游戲視頻同樣具有很強(qiáng)的敘事性，特別是那些策略類游戲，玩家的每個決策都會影響后續(xù)發(fā)展。旅行和生活類視頻看似簡單，但實際上蘊(yùn)含著豐富的時間線索和因果關(guān)系——比如為什么博主選擇在某個特定時間前往某地，這個決定如何影響了整個旅程的安排。

二、像制作精密食譜一樣設(shè)計推理問題

如果說選擇合適的視頻是找到好的"食材"，那么設(shè)計推理問題就像是制作一道需要多個步驟的復(fù)雜菜肴。每個問題都需要AI像廚師一樣，按照特定順序處理不同的"食材"（視頻片段），最終"烹飪"出正確的答案。

研究團(tuán)隊開發(fā)了一個人機(jī)協(xié)作的標(biāo)注系統(tǒng)。首先，他們使用AI工具對視頻進(jìn)行初步分析，將長視頻切分成若干片段，為每個片段生成描述，并將音頻內(nèi)容轉(zhuǎn)換成文字。然后，他們讓GPT-4o基于這些信息生成6個初步的問答對。但這只是第一步，就像是先用食品加工機(jī)做基礎(chǔ)處理，真正的精細(xì)工作還需要人工完成。

接下來，67名經(jīng)過專門培訓(xùn)的研究生接手了標(biāo)注工作。他們的任務(wù)是基于AI生成的初步問答對，為每個視頻制作8-10個高質(zhì)量的推理問題。這就像是專業(yè)廚師根據(jù)食譜進(jìn)行精細(xì)調(diào)整，確保每道菜都達(dá)到餐廳的標(biāo)準(zhǔn)。

這些推理問題被分為七種類型，每種都測試AI的不同推理能力。事件預(yù)測類問題就像是讓AI成為"故事預(yù)言家"，根據(jù)已經(jīng)發(fā)生的情節(jié)預(yù)測后續(xù)發(fā)展。假設(shè)推理類問題則給AI一個假設(shè)條件，讓它推斷可能的結(jié)果——比如"如果主角當(dāng)時做了不同的選擇，會發(fā)生什么？"

事件歸因類問題讓AI扮演"故事偵探"的角色，分析某個事件發(fā)生的原因。比如觀看一部電影后，AI需要解釋為什么某個角色做出了特定決定，這需要它回溯整個故事線，找到相關(guān)的鋪墊和動機(jī)。

隱性推理類問題最具挑戰(zhàn)性，它要求AI讀懂"弦外之音"。就像人類觀眾能從角色的表情和行為中感受到未明言的情感變化，AI也需要具備這種微妙的理解能力。信息綜合類問題則測試AI的"整理歸納"能力，要求它將散布在整個視頻中的信息進(jìn)行匯總。

邏輯聯(lián)系類問題考驗AI建立因果關(guān)系的能力。這就像拼圖一樣，AI需要找到看似不相關(guān)的兩個事件之間的邏輯聯(lián)系。最后，計數(shù)問題雖然看起來簡單，但在長視頻中往往需要AI保持長時間的注意力，追蹤某個元素在整個視頻中的變化。

為了確保問題質(zhì)量，研究團(tuán)隊設(shè)立了嚴(yán)格的標(biāo)準(zhǔn)。每個問題都必須包含至少2個推理步驟，并且需要為每個步驟標(biāo)注準(zhǔn)確的時間戳。這就像是為食譜標(biāo)注每個步驟的具體時間和溫度，確保任何人都能準(zhǔn)確復(fù)制。

特別值得一提的是，研究團(tuán)隊還設(shè)計了時間分布要求。他們要求每個視頻的問題要覆蓋不同的時間段：0-15分鐘段最多4個問題，15-40分鐘段至少3個問題，40分鐘以上至少1個問題。這確保了AI不能只關(guān)注視頻開頭或結(jié)尾，而必須對整個視頻保持理解。

三、創(chuàng)新的"雙重檢驗"評估方法

傳統(tǒng)的AI測試就像只看學(xué)生的期末考試成績，而VRBench采用了一種更全面的評估方法，既看"結(jié)果"也看"過程"。這就像是數(shù)學(xué)老師不僅要看學(xué)生算出的答案是否正確，還要檢查解題步驟是否合理。

在結(jié)果層面的評估相對直觀，采用多選題的形式。AI需要從四個選項中選擇正確答案，這測試的是它的最終理解結(jié)果。但僅有這個還不夠，因為AI可能通過"運(yùn)氣"或者簡單的模式匹配得到正確答案，而沒有真正理解視頻內(nèi)容。

因此，研究團(tuán)隊引入了過程層面的評估，要求AI不僅給出答案，還要詳細(xì)說明推理過程。這就像是要求學(xué)生不僅寫出"x=5"這個答案，還要展示"先移項，再合并同類項，最后除以系數(shù)"的完整解題過程。

為了評判推理過程的質(zhì)量，研究團(tuán)隊開發(fā)了一個基于AI的評分系統(tǒng)。這個系統(tǒng)從四個維度評估AI的推理過程：邏輯連貫性、與標(biāo)準(zhǔn)答案的相似度、事實準(zhǔn)確性和表達(dá)清晰度。就像是聘請了一位嚴(yán)格的老師，從多個角度給學(xué)生的答題過程打分。

邏輯連貫性檢查推理鏈條是否環(huán)環(huán)相扣，沒有跳躍或矛盾。與標(biāo)準(zhǔn)答案的相似度衡量AI的思路是否與人類專家的思路相近。事實準(zhǔn)確性確保AI沒有編造不存在的情節(jié)或人物。表達(dá)清晰度則檢查AI是否能用清晰明了的語言闡述自己的推理過程。

有趣的是，研究團(tuán)隊發(fā)現(xiàn)不同類型的問題需要不同的評分策略。對于事件預(yù)測和假設(shè)推理類問題，由于可能存在多種合理的答案，他們?nèi)サ袅?與標(biāo)準(zhǔn)答案相似度"這一評分項，重新調(diào)整權(quán)重。這就像是對開放性作文題采用更靈活的評分標(biāo)準(zhǔn)。

為了驗證這個評分系統(tǒng)的可靠性，研究團(tuán)隊進(jìn)行了人機(jī)對比實驗。他們讓人類專家對同一批AI回答進(jìn)行評分，然后對比人類評分和AI評分的一致性。結(jié)果顯示，在多個評分維度上，人機(jī)評分的相關(guān)性都超過了0.8，這說明AI評分系統(tǒng)能夠較好地模擬人類專家的判斷標(biāo)準(zhǔn)。

四、現(xiàn)有AI模型的"體檢報告"

當(dāng)VRBench這個"考試"準(zhǔn)備就緒后，研究團(tuán)隊邀請了28個不同的AI模型來參加測試，包括12個純文本模型和16個視頻理解模型。這就像是給不同年級的學(xué)生安排了同一場考試，看看他們的真實水平如何。

結(jié)果令人既驚喜又擔(dān)憂。在結(jié)果準(zhǔn)確性方面，最強(qiáng)的模型是谷歌的Gemini-2.0-Pro，達(dá)到了76.61%的準(zhǔn)確率。這就像是班里的優(yōu)等生，大部分題目都能答對。緊隨其后的是OpenAI的GPT-4o和Claude-3.7-Sonnet，準(zhǔn)確率都在70%以上。

但是，當(dāng)研究團(tuán)隊檢查這些模型的推理過程時，發(fā)現(xiàn)了一個有趣的現(xiàn)象：許多模型雖然能給出正確答案，但推理過程卻存在問題。比如GPT-4o雖然有83.25%的答題準(zhǔn)確率，但推理過程評分只有58.1%。這就像是學(xué)生雖然算出了正確答案，但解題過程漏洞百出，可能存在蒙對的情況。

在不同類型的推理任務(wù)中，AI模型表現(xiàn)出明顯的偏好性。大多數(shù)模型在事件預(yù)測和信息綜合方面表現(xiàn)較好，這些任務(wù)相對直觀，類似于"根據(jù)劇情發(fā)展猜測結(jié)局"或"總結(jié)故事主要內(nèi)容"。但在計數(shù)問題上，幾乎所有模型都表現(xiàn)糟糕，準(zhǔn)確率接近隨機(jī)猜測的水平。

這個現(xiàn)象很好理解。計數(shù)問題需要AI在長達(dá)數(shù)小時的視頻中保持持續(xù)注意力，準(zhǔn)確追蹤特定對象的出現(xiàn)次數(shù)。這就像是要求觀眾在看一部兩小時的電影時，從頭到尾數(shù)清某個配角總共出現(xiàn)了幾次，這對AI來說是極大的挑戰(zhàn)。

研究團(tuán)隊還發(fā)現(xiàn)了AI模型架構(gòu)對性能的重要影響。那些專門設(shè)計用于推理的"System-2"模型（如OpenAI的o1系列）在推理過程評分上明顯優(yōu)于傳統(tǒng)模型，但在最終答案準(zhǔn)確性上提升有限。這說明這些模型確實在"思考"方面有所改進(jìn)，但將復(fù)雜思考轉(zhuǎn)化為正確答案的能力還有待提升。

長上下文支持能力也被證明是關(guān)鍵因素。那些能夠處理更多視頻幀的模型往往表現(xiàn)更好。比如Gemini-2.0-Pro能夠以0.5幀每秒的密度處理整個視頻，遠(yuǎn)超其他模型的32-128幀固定輸入限制。這就像是給學(xué)生更多時間仔細(xì)閱讀考試材料，自然能更好地理解和分析。

五、參數(shù)規(guī)模與推理能力的復(fù)雜關(guān)系

一個直觀的假設(shè)是，更大的模型應(yīng)該具有更強(qiáng)的推理能力，就像更有經(jīng)驗的學(xué)生通?？荚嚦煽兏谩RBench的測試結(jié)果部分印證了這個假設(shè)，但也揭示了一些意外發(fā)現(xiàn)。

在同系列模型的對比中，規(guī)模優(yōu)勢確實明顯。比如Qwen2.5系列中，72B參數(shù)的模型比7B參數(shù)的模型表現(xiàn)好5.48個百分點(diǎn)。InternVL2.5系列中，78B參數(shù)模型比8B參數(shù)模型高出近10個百分點(diǎn)。這符合我們的常理認(rèn)知——更大的"大腦"通常意味著更強(qiáng)的理解和推理能力。

但是，一個有趣的例外出現(xiàn)了。QwQ-32B模型雖然參數(shù)量相對較小，但通過專門的推理訓(xùn)練，它在某些方面的表現(xiàn)竟然接近甚至超過了參數(shù)量更大的通用模型。這就像是一個專門訓(xùn)練邏輯思維的學(xué)生，在數(shù)學(xué)競賽中可能比知識面更廣但缺乏專門訓(xùn)練的學(xué)生表現(xiàn)更好。

這個發(fā)現(xiàn)對AI發(fā)展具有重要啟示：并非單純增加模型規(guī)模就能提升推理能力，訓(xùn)練方法和數(shù)據(jù)質(zhì)量可能同樣重要。研究團(tuán)隊觀察到，那些在推理相關(guān)數(shù)據(jù)上進(jìn)行過專門訓(xùn)練的模型，往往在推理過程評分上表現(xiàn)更好，即使它們的最終答案準(zhǔn)確率可能不是最高的。

另一個值得注意的現(xiàn)象是開源模型與閉源模型之間的差距。總體而言，商業(yè)公司開發(fā)的閉源模型（如GPT-4o、Gemini-2.0-Pro、Claude-3.7-Sonnet）在各項指標(biāo)上都明顯領(lǐng)先于開源模型。最強(qiáng)的開源模型InternVL2.5-78B的整體表現(xiàn)為66.10%，而最強(qiáng)閉源模型Gemini-2.0-Pro達(dá)到了76.61%，差距超過10個百分點(diǎn)。

這種差距可能反映了幾個方面的現(xiàn)實：商業(yè)公司擁有更多計算資源進(jìn)行大規(guī)模訓(xùn)練，更豐富的高質(zhì)量訓(xùn)練數(shù)據(jù)，以及更精細(xì)的模型優(yōu)化技術(shù)。同時，這些閉源模型可能還使用了一些未公開的技術(shù)改進(jìn)。

六、測試時計算量的神奇效果

傳統(tǒng)上，AI模型的能力被認(rèn)為主要由訓(xùn)練階段決定，就像學(xué)生的水平主要由平時學(xué)習(xí)決定一樣。但VRBench的實驗揭示了一個有趣現(xiàn)象：給AI模型更多"思考時間"，也就是更多的計算資源，可以顯著提升它們的推理表現(xiàn)。

研究團(tuán)隊設(shè)計了一個巧妙的實驗，他們給同一個模型設(shè)置不同的"思考時間"限制，從256個tokens（相當(dāng)于簡短回答）到2048個tokens（相當(dāng)于詳細(xì)說明），觀察模型表現(xiàn)如何變化。

結(jié)果令人印象深刻：QwQ-32B模型在token限制從低到高的過程中，整體得分從48.91%躍升到61.34%，提升了超過12個百分點(diǎn)。這就像是給學(xué)生從"必須在5分鐘內(nèi)完成"改為"可以思考30分鐘再作答"，成績有了顯著提升。

更有趣的是，這種"慢思考"的效果在不同類型的模型上表現(xiàn)截然不同。專門訓(xùn)練用于推理的System-2模型（如QwQ）能夠很好地利用額外的計算時間，產(chǎn)生更高質(zhì)量的推理過程和更準(zhǔn)確的答案。而傳統(tǒng)的System-1模型在給予更多思考時間時，表現(xiàn)反而可能下降——它們?nèi)菀桩a(chǎn)生冗長但質(zhì)量不高的輸出，甚至可能在長時間思考中"迷失方向"。

這個發(fā)現(xiàn)對AI發(fā)展具有重要意義。它表明，提升AI推理能力不僅可以通過增加模型規(guī)模或改進(jìn)訓(xùn)練方法，還可以通過優(yōu)化推理時的計算分配來實現(xiàn)。這開辟了一個新的優(yōu)化方向：設(shè)計能夠有效利用測試時計算資源的AI系統(tǒng)。

七、文本模型與視頻模型的意外對決

VRBench測試中最令人意外的發(fā)現(xiàn)之一，是純文本模型與視頻理解模型之間的競爭結(jié)果。按照常理，處理視頻內(nèi)容應(yīng)該是視頻理解模型的專長，就像讓專業(yè)的電影評論家與只讀過劇本的文學(xué)評論家比較對電影的理解能力。

為了讓純文本模型也能參與視頻理解測試，研究團(tuán)隊開發(fā)了一個"視頻到文本"的轉(zhuǎn)換系統(tǒng)。他們使用Qwen2.5-72B模型將視頻內(nèi)容轉(zhuǎn)換成詳細(xì)的文字描述，包括視覺場景、人物動作、對話內(nèi)容等。這就像是為盲人朋友詳細(xì)描述電影內(nèi)容，讓他們也能理解故事情節(jié)。

令人驚訝的是，一些優(yōu)秀的純文本模型在這種設(shè)置下表現(xiàn)出色。比如Gemini-2.0-Flash-Thinking在純文本模式下達(dá)到了63.79%的綜合得分，甚至超過了許多專門的視頻理解模型。這就像是那位只讀劇本的文學(xué)評論家，竟然比看過完整電影的評論家更好地理解了故事的深層含義。

這個現(xiàn)象揭示了一個重要事實：對于需要復(fù)雜推理的任務(wù)，高質(zhì)量的文本描述可能比原始視頻信號更有效。視頻包含大量冗余信息，如背景細(xì)節(jié)、視覺特效等，這些信息雖然豐富了觀影體驗，但對理解核心情節(jié)可能并非必需。相反，經(jīng)過精心整理的文本描述能夠突出關(guān)鍵信息，降低推理難度。

但這并不意味著視覺信息不重要。研究團(tuán)隊發(fā)現(xiàn)，那些在視覺細(xì)節(jié)上依賴性較強(qiáng)的問題，如計數(shù)問題，純文本模型的表現(xiàn)明顯不如視頻模型。這類問題需要精確的視覺觀察，文字描述很難完全替代原始視頻信息。

更重要的是，能夠有效利用長時間視頻信息的模型表現(xiàn)最好。Gemini-2.0-Pro通過高密度的幀采樣（0.5fps）獲得了最佳性能，這說明詳細(xì)的視覺信息確實有助于理解復(fù)雜的視頻內(nèi)容，關(guān)鍵在于模型能否有效處理和利用這些信息。

八、推理類型難度的層次分布

通過對七種不同推理類型的詳細(xì)分析，VRBench揭示了AI在不同思維任務(wù)上的能力分布，就像一份詳細(xì)的"智力體檢報告"。

最容易的推理類型是信息綜合，大多數(shù)模型在這類任務(wù)上表現(xiàn)相對較好。這類問題要求AI對視頻內(nèi)容進(jìn)行概括和總結(jié)，類似于"用簡短的語言描述這個故事的主要情節(jié)"。這種任務(wù)雖然需要理解整個視頻，但不要求復(fù)雜的邏輯推導(dǎo)，更多依賴的是信息整合能力。

事件預(yù)測和邏輯聯(lián)系類問題難度中等。事件預(yù)測要求AI根據(jù)已有情節(jié)推測后續(xù)發(fā)展，這需要一定的創(chuàng)造性思維和對故事邏輯的理解。邏輯聯(lián)系類問題要求AI找到看似不相關(guān)事件之間的因果關(guān)系，這測試的是AI的分析和推理能力。

假設(shè)推理類問題具有特殊性。由于這類問題往往沒有標(biāo)準(zhǔn)答案（因為假設(shè)情況在視頻中并未實際發(fā)生），AI的表現(xiàn)分化較大。一些模型能夠基于已有信息進(jìn)行合理推測，而另一些模型則可能給出過于天馬行空或邏輯不嚴(yán)密的答案。

隱性推理類問題挑戰(zhàn)性較高。這類問題要求AI理解"弦外之音"，比如從角色的表情和行為推斷其內(nèi)心想法，或者理解某種未明說的情感氛圍。這需要AI具備類似人類的情感理解能力和社會認(rèn)知能力，這對目前的技術(shù)來說仍然困難。

事件歸因類問題在不同模型上表現(xiàn)差異巨大。優(yōu)秀的模型能夠準(zhǔn)確分析事件的前因后果，而表現(xiàn)較差的模型可能給出過于簡化或錯誤的因果關(guān)系。這反映了不同模型在因果推理能力上的顯著差異。

最困難的是計數(shù)問題。幾乎所有模型在這類任務(wù)上的表現(xiàn)都接近隨機(jī)水平，很多時候準(zhǔn)確率只有20-30%。這類問題雖然看似簡單，但需要AI在長時間視頻中保持精確的注意力，追蹤特定對象的出現(xiàn)和變化，這對現(xiàn)有技術(shù)來說是極大挑戰(zhàn)。

九、AI推理的"誠實度"問題

VRBench的雙重評估機(jī)制揭示了一個令人深思的現(xiàn)象：許多AI模型存在"答對題目但推理過程有問題"的情況，就像學(xué)生雖然算出了正確答案，但解題過程卻漏洞百出。

這種現(xiàn)象在多個頂級模型中都有體現(xiàn)。GPT-4o在多選題準(zhǔn)確率上達(dá)到83.25%，但推理過程得分只有58.1%。Claude-3.7-Sonnet也表現(xiàn)出類似模式：答案準(zhǔn)確率82.10%，推理得分58.23%。這種差異揭示了當(dāng)前AI系統(tǒng)的一個根本性問題：它們可能通過某種"快捷方式"或模式匹配得到正確答案，而非通過嚴(yán)謹(jǐn)?shù)倪壿嬐评怼?/p>

具體分析這些有問題的推理過程，研究團(tuán)隊發(fā)現(xiàn)了幾種典型錯誤模式。有些AI會給出看似合理但實際錯誤的因果關(guān)系，比如將時間上的先后關(guān)系誤認(rèn)為因果關(guān)系。還有些AI會在推理中插入視頻中并不存在的信息，或者對某些細(xì)節(jié)進(jìn)行過度解讀。

最常見的問題是推理鏈條的跳躍。AI可能從前提A直接跳到結(jié)論C，而忽略了中間的關(guān)鍵步驟B。這就像是在數(shù)學(xué)證明中省略了重要的中間步驟，雖然最終答案可能正確，但推理過程不夠嚴(yán)謹(jǐn)。

有趣的是，那些專門針對推理能力訓(xùn)練的System-2模型在這方面表現(xiàn)明顯更好。雖然它們的最終答案準(zhǔn)確率可能不是最高的，但推理過程的質(zhì)量明顯更高。這說明通過專門的訓(xùn)練確實可以改善AI的推理"誠實度"。

這個發(fā)現(xiàn)對AI安全和可靠性具有重要意義。如果AI系統(tǒng)能夠給出正確答案但推理過程存在問題，那么當(dāng)面對訓(xùn)練數(shù)據(jù)中未見過的新情況時，這些系統(tǒng)的表現(xiàn)可能會急劇下降。更重要的是，在需要高度可靠性的應(yīng)用場景中（如醫(yī)療診斷或法律分析），推理過程的透明性和正確性可能比最終答案同樣重要。

十、語言和文化多樣性的意外收獲

VRBench在設(shè)計時特意選擇了非英文、非中文的視頻內(nèi)容，這個看似"刁難"AI的決定卻帶來了意外的研究價值。通過涵蓋泰語、阿拉伯語、韓語、俄語、塞爾維亞語、匈牙利語和越南語等8種語言的內(nèi)容，VRBench為AI跨文化理解能力提供了珍貴的測試環(huán)境。

研究結(jié)果顯示，不同AI模型在處理這些多語言內(nèi)容時表現(xiàn)出明顯差異。一些在英文內(nèi)容上表現(xiàn)優(yōu)秀的模型，在面對其他語言的視頻時可能出現(xiàn)理解偏差。這并非因為語言障礙（因為所有視頻都配有英文翻譯字幕），而是因為不同文化背景下的敘事方式、情感表達(dá)和社會背景存在差異。

比如，亞洲文化中的含蓄表達(dá)方式可能讓AI難以理解某些隱性的情感變化。中東地區(qū)的傳統(tǒng)故事結(jié)構(gòu)可能與AI訓(xùn)練時見過的西方敘事模式不同。這些文化差異就像是給AI設(shè)置了額外的理解門檻，測試它們的適應(yīng)性和通用性。

有趣的是，一些模型在處理特定文化背景的內(nèi)容時表現(xiàn)出意外的優(yōu)勢。研究團(tuán)隊推測，這可能反映了這些模型訓(xùn)練數(shù)據(jù)的多樣性，或者某些推理模式在跨文化環(huán)境中具有更好的通用性。

這個發(fā)現(xiàn)提醒我們，真正的AI通用性不僅體現(xiàn)在技術(shù)能力上，還體現(xiàn)在文化適應(yīng)性上。隨著AI系統(tǒng)在全球范圍內(nèi)的應(yīng)用，理解和適應(yīng)不同文化背景下的思維方式和表達(dá)習(xí)慣將變得越來越重要。

VRBench的多語言設(shè)計也為研究AI的文化偏見提供了寶貴平臺。通過比較AI在不同文化背景內(nèi)容上的表現(xiàn)差異，研究者可以識別和改善潛在的文化偏見問題，推動更加公平和包容的AI系統(tǒng)發(fā)展。

說到底，VRBench的出現(xiàn)標(biāo)志著AI評估進(jìn)入了一個新時代。就像從測試學(xué)生能否認(rèn)字進(jìn)化到測試他們能否理解文學(xué)作品一樣，AI評估也從簡單的感知測試進(jìn)化到復(fù)雜的推理理解測試。這項研究不僅為我們提供了一個強(qiáng)大的AI能力測試工具，更重要的是，它揭示了當(dāng)前AI技術(shù)的真實狀況和未來發(fā)展方向。

通過VRBench，我們看到現(xiàn)有的AI模型雖然在某些方面已經(jīng)達(dá)到了令人印象深刻的水平，但在需要深度推理和長時間理解的任務(wù)上仍有很大提升空間。特別是推理過程的"誠實度"問題，提醒我們不能僅僅滿足于AI給出正確答案，還要確保它們的思考過程是可靠和透明的。

這項研究的價值不僅在于發(fā)現(xiàn)了問題，更在于為解決問題指明了方向。通過專門的推理訓(xùn)練、更好的長上下文處理能力、以及測試時計算資源的優(yōu)化配置，我們有望開發(fā)出真正具備人類級別視頻理解和推理能力的AI系統(tǒng)。

對于普通人來說，VRBench的影響可能會在未來幾年逐步顯現(xiàn)。更強(qiáng)的視頻理解AI將能夠更好地幫助我們處理日常生活中的視頻內(nèi)容，從自動生成電影評論到協(xié)助視頻編輯，從智能監(jiān)控分析到個性化內(nèi)容推薦。但更重要的是，這項研究推動的AI推理能力提升，將使AI在醫(yī)療診斷、法律分析、科學(xué)研究等需要復(fù)雜推理的關(guān)鍵領(lǐng)域發(fā)揮更大作用。

隨著VRBench這樣的評估工具的普及和完善，我們有理由相信，AI理解復(fù)雜視頻內(nèi)容的能力將快速提升，最終達(dá)到甚至超越人類的水平。那時，AI將不再是簡單的工具，而是真正的智能伙伴，能夠與我們一起思考、分析和理解這個復(fù)雜而精彩的視覺世界。

人工智能視頻理解多步推理

分享至

0贊

好文章，需要你的鼓勵

推薦文章

計算機(jī)視覺
注意力機(jī)制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

這項研究提出了"高效探測"方法，解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制，該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升，在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼，推動技術(shù)普及應(yīng)用。
檢索增強(qiáng)生成
層次化分析
爭議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng)，通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架，識別不同觀點(diǎn)及其支撐證據(jù)，為科學(xué)和政治爭議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
人工智能
情感認(rèn)知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu)，在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
人工智能
多智能體強(qiáng)化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力，在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<xmp id="ruhpy"></xmp>