最近,一項由清華大學孟浩豪、褚軒宇、楊乾睿等研究者領(lǐng)銜,聯(lián)合騰訊混元X、斯坦福大學和卡內(nèi)基梅隆大學團隊共同完成的研究成果引起了學術(shù)界的廣泛關(guān)注。這項名為"Bench-V:一個用于評估具有多模態(tài)輸出的視覺推理模型的初步評估"的研究于2025年5月23日發(fā)布在arXiv預印本平臺(arXiv:2505.16770v2),是對AI領(lǐng)域新發(fā)展的重要評估工作。
想象一下,當我們面對復雜問題時,常常會借助畫圖或繪制示意圖來組織思路、輔助推理,從而找到解決方案。這種能力被認為是人類智能的一個重要標志。正如著名物理學家理查德·費曼所言:"我無法創(chuàng)造的東西,我就無法理解。"那么,人工智能模型是否也具備這種能力呢?它們能否學會通過繪圖來思考和解決問題?
近年來,人工智能領(lǐng)域經(jīng)歷了兩大趨勢的融合:一方面是從單一模態(tài)的語言模型向能夠處理和生成多種模態(tài)(如文本和圖像)內(nèi)容的全能模型(omni-models)演變,例如GPT-4o、Gemini和o3等;另一方面是從對話型模型向推理驅(qū)動型模型的轉(zhuǎn)變。隨著模型的輸入和輸出模態(tài)不斷融合,評估這些先進模型的框架也需要相應地發(fā)展。
然而,現(xiàn)有的基準測試,如MMMU和MMLU,主要關(guān)注模型對多模態(tài)輸入的理解能力和僅限文本的推理過程,而忽略了一個同樣重要的方面:模型在視覺思維過程中生成多模態(tài)輸出的能力。這正是Bench-V試圖填補的空白。
一、Bench-V:評估多模態(tài)輸出的新基準
Bench-V是什么?簡單來說,它是一個專門設(shè)計用來評估模型"視覺必需推理"(vision-indispensable reasoning)能力的基準測試。研究團隊精心挑選和設(shè)計了803個問題,涵蓋數(shù)學、物理、計數(shù)和游戲等領(lǐng)域。與以往的基準測試不同,Bench-V中的問題需要模型在推理過程中產(chǎn)生多模態(tài)輸出,特別是對圖像進行修改,例如生成新圖像或添加輔助線來支持推理過程。
想象一下,當你解決一個幾何問題時,你可能需要在圖上畫一些輔助線才能找到解決方案;或者當你玩迷宮游戲時,你需要在迷宮上畫出一條路徑才能確定是否存在可行解。Bench-V就是測試AI模型是否具備類似的能力。
研究團隊設(shè)計了一個非常直觀的例子來說明Bench-V的特點:假設(shè)有一個問題問"將圖像中的點按順序連接起來會形成什么動物?"人類會自然而然地用筆在點之間畫線,然后識別出形成的圖案是獅子而不是狐貍。Bench-V正是測試AI模型是否也能完成這樣的任務(wù)。
二、數(shù)據(jù)收集和統(tǒng)計分析
Bench-V的開發(fā)面臨的主要挑戰(zhàn)是設(shè)計和收集能夠評估模型多模態(tài)輸出能力的問題。為了構(gòu)建Bench-V,研究團隊遵循的原則是:問題的解決過程應該涉及創(chuàng)建新的視覺內(nèi)容,如創(chuàng)建圖像或修改現(xiàn)有圖像。
在數(shù)學領(lǐng)域,Bench-V主要關(guān)注幾何和圖論問題,包括變換幾何、平面幾何、立體幾何等。例如,變換幾何問題要求模型繪制出應用平移、反射和旋轉(zhuǎn)后的結(jié)果圖形;平面幾何問題評估模型是否能構(gòu)建適當?shù)妮o助線來輔助推理;立體幾何任務(wù)評估模型能否根據(jù)特定規(guī)則從2D組件組裝3D形狀,并在回答問題前繪制結(jié)果實體。
在物理領(lǐng)域,Bench-V主要關(guān)注光學、力學、電磁學和熱力學。研究團隊特別選擇了那些需要視覺推理的問題。例如,光學任務(wù)強調(diào)幾何光學,要求模型追蹤涉及反射、折射和衍射的光線軌跡;力學包括靜力學、運動學和動力學,涉及復雜的物理約束,模型必須解釋和構(gòu)建幾何關(guān)系,使用自由體圖和運動軌跡來分析力的相互作用和平衡條件。
在計數(shù)問題方面,Bench-V包含的問題遠比簡單的"數(shù)一數(shù)圖片中有幾個人"復雜。它可分為三類:首先,根據(jù)描述繪制幾何形狀或在圖像中連接線條,然后回答如"有多少個三角形"的問題;其次,包含大量目標和混亂背景的圖像,解決這類問題需要模型仔細檢查圖像,標記已計數(shù)的目標,然后推理得出總數(shù);第三,需要理解空間關(guān)系和想象能力的問題,模型需要在頭腦中操作或移動3D對象,并想象移動后的狀態(tài)。
在游戲方面,Bench-V主要關(guān)注需要在視覺推理過程中產(chǎn)生多模態(tài)輸出的游戲類型:連點成線游戲要求模型連接一系列點以揭示圖像并識別圖像中的對象;迷宮游戲要求模型追蹤穿過迷宮的正確路徑;飛鏢與氣球、黃金礦工游戲要求模型精確繪制飛鏢和鉤子的軌跡,并確定它們與目標物體的交點;拼圖游戲涉及移動不同的片段以完成完整的拼圖;球與磚塊游戲要求繪制球的軌跡,球可能會與墻壁碰撞并多次反彈。
研究團隊對Bench-V進行了統(tǒng)計分析,結(jié)果顯示該基準測試包含803個問題,其中176個數(shù)學問題,157個物理問題,195個計數(shù)問題和275個游戲相關(guān)問題。這些問題中有356個多選題和447個開放式問題。雖然Bench-V主要關(guān)注多模態(tài)輸出而非輸入,但它仍包含了40個僅文本輸入和763個多模態(tài)輸入的問題。
三、實驗評估與分析
研究團隊在Bench-V上對多種開源和閉源的多模態(tài)大語言模型(MLLMs)和全能模型進行了評估,包括GPT-4o、Gemini、Qwen2.5VL、Claude3.5、DeepSeek-VL2等。所有評估都采用零樣本設(shè)置,并使用了統(tǒng)一的"以LLM為評判者"框架,評判模型為GPT-4o。
實驗結(jié)果令人驚訝:即使是表現(xiàn)最好的模型,即OpenAI的o3,在Bench-V上的準確率也只有25.8%,遠低于人類專家82.3%的成績。這一巨大差距突顯了當前模型在多模態(tài)輸出視覺推理方面的局限性。
研究團隊還將Bench-V與其他基準測試(MMLU、MMMU)進行了比較,以評估多模態(tài)輸出能力的要求。結(jié)果顯示,無論是從人類專家還是模型的角度來看,Bench-V都對多模態(tài)輸出提出了顯著更高的要求。
進一步分析實驗結(jié)果,研究團隊得出了幾個關(guān)鍵發(fā)現(xiàn):
首先,如果模型(如InternVL或Qwen-VL系列)缺乏多模態(tài)思維鏈(M-CoT),僅僅增加模型規(guī)模并不能有效解決視覺必需推理的挑戰(zhàn)。數(shù)據(jù)顯示,將Qwen2.5VL模型的參數(shù)規(guī)模從7B增加到72B,在Bench-V上的性能提升并不明顯。這表明,僅靠規(guī)模擴展可能不足以解決多模態(tài)輸出在視覺推理中的挑戰(zhàn)。研究團隊推測,可能需要探索新的范式,如多模態(tài)思維鏈或基于代理的推理框架,才能解決視覺必需的復雜問題。
其次,當前基礎(chǔ)模型在生成多模態(tài)輸出的視覺推理方面仍遠遠落后于人類專家的表現(xiàn)。即使是表現(xiàn)最好的o3模型,在Bench-V上也只達到了25.8%的準確率,與人類專家82.3%的成績相差甚遠。這一巨大差距凸顯了當前基礎(chǔ)模型在處理需要精確多模態(tài)輸出的視覺推理任務(wù)時的局限性。
第三,人類專家和模型解決問題的方法不一致。研究團隊發(fā)現(xiàn),雖然模型在數(shù)學問題上表現(xiàn)較好,但這并不一定表明它們已經(jīng)學會了多模態(tài)推理。相反,模型往往將某些幾何問題轉(zhuǎn)換為代數(shù)問題,然后通過文本推理來解決。而人類專家則傾向于使用幾何解法。這突顯了當前模型表現(xiàn)出的智能與人類智能之間的根本差異。
研究團隊還對o3的一個正確案例和一個錯誤案例進行了可視化分析。在平面幾何問題中,雖然o3給出了正確答案,但其解決方案是基于建立坐標系的代數(shù)方法,而非人類通常采用的幾何方法。這表明模型傾向于在兩種方法都可用時,選擇基于文本的代數(shù)推理而非多模態(tài)幾何推理。這表明數(shù)學性能的提高并不一定反映出多模態(tài)推理能力的真正進步,而可能表明模型已經(jīng)學會了某種"多模態(tài)推理捷徑"。
在游戲類別的連點成線任務(wù)中,o3未能生成正確答案。分析顯示,錯誤主要源于o3僅嘗試描述圖中的點,而非按照問題要求實際連接它們。研究團隊的分析表明,大多數(shù)模型失敗都是由于這種局限性造成的。
四、研究意義與展望
Bench-V的提出填補了現(xiàn)有基準測試中的一個重要空白:評估模型在視覺推理過程中生成多模態(tài)輸出的能力。這對于全能推理模型的發(fā)展具有重要意義。
研究結(jié)果表明,即使是最先進的模型在處理需要多模態(tài)輸出的視覺推理任務(wù)時也面臨巨大挑戰(zhàn)。即使是表現(xiàn)最好的o3模型,其準確率仍遠低于人類專家,這表明在這一領(lǐng)域仍有很大的改進空間。
此外,該研究還揭示了當前模型與人類專家在解決問題方法上的差異,這為未來研究提供了有價值的洞察。
展望未來,研究團隊希望基礎(chǔ)模型能朝著全能推理模型的方向發(fā)展,并在Bench-V上取得更好的表現(xiàn)。他們還計劃從多模態(tài)思維鏈(M-CoT)和代理的角度改進基礎(chǔ)模型。
總的來說,這項研究不僅提供了一個新的基準測試來評估模型的多模態(tài)輸出能力,還揭示了當前AI模型在這一領(lǐng)域面臨的挑戰(zhàn)和局限性,為未來研究指明了方向。對于普通人來說,這意味著雖然當前的AI模型在某些任務(wù)上表現(xiàn)出色,但在需要像人類一樣"邊畫邊思考"的場景中,它們?nèi)杂泻荛L的路要走。當前的AI還不能像人類那樣自然地利用繪圖作為思考工具,這也提醒我們,真正的人工智能仍在不斷發(fā)展完善中。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。