這項(xiàng)由上海人工智能實(shí)驗(yàn)室聯(lián)合中科大、西安交大、清華大學(xué)等多家機(jī)構(gòu)共同完成的研究發(fā)表于2025年4月,論文作者包括許偉燁、王嘉昊、王維云、陳喆等多位研究者。感興趣的讀者可以通過(guò)論文網(wǎng)站 https://visulogic-benchmark.github.io/VisuLogic 了解更多詳細(xì)信息。
人工智能在很多方面已經(jīng)超越了人類,比如下棋、翻譯、甚至寫詩(shī),但在一個(gè)看似簡(jiǎn)單的能力上卻屢屢碰壁——那就是像人類一樣"看圖說(shuō)話"并進(jìn)行邏輯推理。你可能會(huì)疑惑,現(xiàn)在的AI不是已經(jīng)能識(shí)別圖片,甚至能描述圖片內(nèi)容了嗎?確實(shí)如此,但這里的關(guān)鍵區(qū)別在于,AI能否真正"理解"圖片中的邏輯關(guān)系,而不僅僅是描述看到的內(nèi)容。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)前最先進(jìn)的多模態(tài)大語(yǔ)言模型(就是那些既能處理文字又能處理圖片的AI)在面對(duì)需要純視覺(jué)推理的問(wèn)題時(shí),往往采用了一種"投機(jī)取巧"的方法。它們會(huì)先將圖片轉(zhuǎn)換成文字描述,然后基于這些文字進(jìn)行推理,而不是直接從視覺(jué)信息中進(jìn)行邏輯推演。這就好比一個(gè)人看到一道幾何題,不是直接觀察圖形找規(guī)律,而是先把圖形用文字詳細(xì)描述一遍,然后基于這些文字描述來(lái)解題。
問(wèn)題在于,這種方法在某些情況下是行得通的,但在真正需要視覺(jué)邏輯推理的場(chǎng)景中就會(huì)暴露出致命缺陷。研究團(tuán)隊(duì)通過(guò)一個(gè)巧妙的實(shí)驗(yàn)證明了這一點(diǎn):他們讓最先進(jìn)的AI模型GPT-4o來(lái)描述一些需要視覺(jué)推理的圖片,然后讓純文本AI來(lái)基于這些描述解題。結(jié)果發(fā)現(xiàn),即使是最詳細(xì)的文字描述也會(huì)丟失關(guān)鍵的視覺(jué)信息,比如對(duì)稱性、旋轉(zhuǎn)關(guān)系、空間排列等,這些恰恰是視覺(jué)推理中最重要的元素。
為了徹底解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為VisuLogic的新基準(zhǔn)測(cè)試。這個(gè)測(cè)試的設(shè)計(jì)理念非常獨(dú)特——它專門挑選那些很難用文字準(zhǔn)確描述,但人眼一看就能發(fā)現(xiàn)規(guī)律的視覺(jué)推理題目。這些題目涵蓋了六個(gè)不同的類別,每一類都考驗(yàn)AI的不同視覺(jué)推理能力。
在數(shù)量推理類別中,AI需要理解圖形元素?cái)?shù)量的變化規(guī)律。比如,一系列圖形中黑點(diǎn)的數(shù)量按照某種規(guī)律遞增或遞減,AI需要預(yù)測(cè)下一個(gè)圖形應(yīng)該有多少個(gè)黑點(diǎn)。這看似簡(jiǎn)單,但實(shí)際上需要AI能夠準(zhǔn)確識(shí)別和計(jì)數(shù)圖形中的元素,并理解數(shù)字序列的邏輯關(guān)系。
空間推理類別更加復(fù)雜,它要求AI具備三維思維能力。想象你看到一個(gè)立方體的展開(kāi)圖,你需要判斷這個(gè)展開(kāi)圖能否折疊成特定的立方體。這類問(wèn)題對(duì)人類來(lái)說(shuō)相對(duì)容易,因?yàn)槲覀兲焐邆淇臻g想象能力,但對(duì)AI來(lái)說(shuō)卻是巨大的挑戰(zhàn),因?yàn)樗枰谀X海中"旋轉(zhuǎn)"和"折疊"這些圖形。
位置推理類別考驗(yàn)的是AI對(duì)圖形變換的理解。圖形可能經(jīng)歷平移、旋轉(zhuǎn)、翻轉(zhuǎn)等變換,AI需要識(shí)別這些變換的規(guī)律并預(yù)測(cè)后續(xù)的變化。這就像看魔方復(fù)原的過(guò)程,你需要理解每一步操作對(duì)整體結(jié)構(gòu)的影響。
屬性推理類別關(guān)注的是圖形的內(nèi)在特性,比如對(duì)稱性、開(kāi)放性或封閉性等。一個(gè)圖形可能在形狀上完全不同,但在對(duì)稱性上具有相同的特征。AI需要能夠抽象出這些深層的屬性關(guān)系。
風(fēng)格推理類別涉及圖形的表現(xiàn)形式,比如疊加、減法、輪廓變化等。同一個(gè)基本形狀可能以不同的風(fēng)格呈現(xiàn),AI需要識(shí)別出這些風(fēng)格變化的規(guī)律。
最后的其他類別包含了各種特殊符號(hào)和字母數(shù)字等元素,這些往往涉及更復(fù)雜的邏輯關(guān)系和文化背景知識(shí)。
整個(gè)VisuLogic基準(zhǔn)包含了1000道經(jīng)過(guò)人工驗(yàn)證的題目,每道題都有四個(gè)選項(xiàng),隨機(jī)猜測(cè)的準(zhǔn)確率約為25%。研究團(tuán)隊(duì)還邀請(qǐng)了100名理工科研究生作為對(duì)照組,他們的平均準(zhǔn)確率達(dá)到了51.4%。這個(gè)數(shù)字為AI模型的表現(xiàn)提供了一個(gè)重要的參考標(biāo)準(zhǔn)。
當(dāng)研究團(tuán)隊(duì)用VisuLogic測(cè)試當(dāng)前最先進(jìn)的AI模型時(shí),結(jié)果令人震驚。包括GPT-4o、Gemini-2.0-Pro等在內(nèi)的頂級(jí)模型,準(zhǔn)確率普遍在26-28%之間,僅比隨機(jī)猜測(cè)稍好一點(diǎn),與人類表現(xiàn)相比差距巨大。這個(gè)結(jié)果清楚地表明,當(dāng)前的AI在真正的視覺(jué)推理方面還存在嚴(yán)重不足。
更有趣的是,當(dāng)研究團(tuán)隊(duì)使用不同的提示策略時(shí),發(fā)現(xiàn)了一些意外的結(jié)果。傳統(tǒng)上,給AI提供思維鏈(Chain-of-Thought)提示能夠顯著提升其推理能力,但在視覺(jué)推理任務(wù)中,這種方法的效果微乎其微。大多數(shù)模型的準(zhǔn)確率提升不到1個(gè)百分點(diǎn),這進(jìn)一步證明了視覺(jué)推理與純文本推理的本質(zhì)區(qū)別。
然而,當(dāng)研究團(tuán)隊(duì)提供解題提示時(shí),AI的表現(xiàn)有了明顯改善。比如GPT-4o的準(zhǔn)確率從26.3%提升到了30.0%,Claude-3.7-Sonnet更是從24.8%提升到了33.5%。但即使有了提示,AI的表現(xiàn)仍然遠(yuǎn)遜于人類。有趣的是,人類在有提示的情況下表現(xiàn)更加出色,準(zhǔn)確率從51.4%提升到了83.6%,這說(shuō)明提示策略對(duì)人類和AI都有幫助,但人類從中受益更多。
為了進(jìn)一步提升AI的視覺(jué)推理能力,研究團(tuán)隊(duì)嘗試了強(qiáng)化學(xué)習(xí)的方法。他們?cè)?296道補(bǔ)充訓(xùn)練題上對(duì)兩個(gè)開(kāi)源模型進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練。結(jié)果顯示,Qwen2.5-VL-7B模型的準(zhǔn)確率從25.5%提升到了28.0%,而InternVL2.5-38B模型更是從25.5%大幅提升到了31.1%,成為了當(dāng)前表現(xiàn)最好的模型。
這種改進(jìn)雖然令人鼓舞,但也揭示了強(qiáng)化學(xué)習(xí)訓(xùn)練的巨大潛力。在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)設(shè)計(jì)了一套基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),不僅要求模型給出正確答案,還要求模型的輸出格式規(guī)范,推理過(guò)程清晰。通過(guò)這種方式,AI學(xué)會(huì)了更加系統(tǒng)和深入的視覺(jué)分析方法。
研究團(tuán)隊(duì)深入分析了不同類型題目的錯(cuò)誤分布,發(fā)現(xiàn)了一些有趣的模式。對(duì)于純文本模型(通過(guò)圖片描述進(jìn)行推理),空間推理是最大的難點(diǎn),錯(cuò)誤率最高。這是可以理解的,因?yàn)槿S空間關(guān)系很難用文字準(zhǔn)確描述。相比之下,這些模型在數(shù)量推理方面表現(xiàn)相對(duì)較好,因?yàn)閿?shù)字關(guān)系更容易用語(yǔ)言表達(dá)。
對(duì)于多模態(tài)模型,風(fēng)格推理成為了最大的挑戰(zhàn),錯(cuò)誤率超過(guò)75%。這類問(wèn)題涉及到圖形的細(xì)微變化和抽象特征,需要模型具備高度敏感的視覺(jué)感知能力。而人類的錯(cuò)誤分布與AI截然不同,人類在位置推理方面表現(xiàn)最佳,錯(cuò)誤率低于30%,這反映了人類天生的空間認(rèn)知優(yōu)勢(shì)。
這項(xiàng)研究的意義遠(yuǎn)不止于一個(gè)新的測(cè)試基準(zhǔn)。它揭示了當(dāng)前AI發(fā)展中的一個(gè)關(guān)鍵盲點(diǎn):我們?cè)谧非笳Z(yǔ)言理解和生成能力的同時(shí),可能忽視了視覺(jué)推理這一同樣重要的智能組成部分。在現(xiàn)實(shí)應(yīng)用中,許多任務(wù)都需要結(jié)合視覺(jué)感知和邏輯推理,比如自動(dòng)駕駛中的路況判斷、醫(yī)療影像分析、工業(yè)質(zhì)檢等。
研究團(tuán)隊(duì)還發(fā)現(xiàn),模型規(guī)模的增大確實(shí)能帶來(lái)性能提升,但提升幅度相對(duì)有限。這暗示著僅僅通過(guò)擴(kuò)大模型規(guī)??赡軣o(wú)法根本解決視覺(jué)推理問(wèn)題,需要在架構(gòu)設(shè)計(jì)和訓(xùn)練方法上尋求突破。
從訓(xùn)練數(shù)據(jù)的角度來(lái)看,當(dāng)前的多模態(tài)模型主要在圖文配對(duì)數(shù)據(jù)上進(jìn)行訓(xùn)練,這些數(shù)據(jù)雖然有助于模型學(xué)習(xí)圖像和文本的對(duì)應(yīng)關(guān)系,但可能不足以培養(yǎng)深層的視覺(jué)推理能力。未來(lái)的研究可能需要專門設(shè)計(jì)包含視覺(jué)推理任務(wù)的訓(xùn)練數(shù)據(jù)。
強(qiáng)化學(xué)習(xí)在這項(xiàng)研究中展現(xiàn)出的潛力也值得關(guān)注。與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)允許模型通過(guò)試錯(cuò)來(lái)學(xué)習(xí),這可能更適合培養(yǎng)推理能力。研究團(tuán)隊(duì)使用的RLOO算法在保持較低計(jì)算成本的同時(shí),實(shí)現(xiàn)了顯著的性能提升。
展望未來(lái),這項(xiàng)研究為AI視覺(jué)推理能力的發(fā)展指明了方向。研究團(tuán)隊(duì)已經(jīng)開(kāi)源了所有的代碼、數(shù)據(jù)和基線模型,為后續(xù)研究提供了寶貴的資源。他們希望VisuLogic能夠成為推動(dòng)視覺(jué)推理研究的重要工具,就像ImageNet對(duì)計(jì)算機(jī)視覺(jué)發(fā)展的貢獻(xiàn)一樣。
說(shuō)到底,這項(xiàng)研究提醒我們,真正的人工智能不應(yīng)該僅僅是一個(gè)高級(jí)的文字處理器,而應(yīng)該具備像人類一樣觀察世界、理解視覺(jué)信息并進(jìn)行邏輯推理的能力。雖然當(dāng)前的AI在這方面還有很大差距,但這項(xiàng)研究為縮小這一差距提供了清晰的路線圖和實(shí)用的工具。隨著更多研究者的參與和新方法的涌現(xiàn),我們有理由相信,AI的視覺(jué)推理能力將會(huì)逐步提升,最終達(dá)到甚至超越人類的水平。
歸根結(jié)底,VisuLogic不僅僅是一個(gè)測(cè)試基準(zhǔn),更是對(duì)AI發(fā)展方向的一次重要反思。它告訴我們,在追求AI通用性的道路上,視覺(jué)推理是一個(gè)不可忽視的重要環(huán)節(jié)。只有當(dāng)AI真正掌握了這項(xiàng)能力,我們才能說(shuō)它向真正的智能又邁進(jìn)了一大步。
Q&A
Q1:VisuLogic是什么?它和普通的AI視覺(jué)測(cè)試有什么不同?
A:VisuLogic是專門測(cè)試AI視覺(jué)推理能力的基準(zhǔn)測(cè)試,包含1000道題目。與普通視覺(jué)測(cè)試不同,它專門選擇那些很難用文字描述但人眼能輕易發(fā)現(xiàn)規(guī)律的題目,避免AI通過(guò)"文字描述→推理"的捷徑來(lái)解題,真正考驗(yàn)AI的純視覺(jué)邏輯推理能力。
Q2:當(dāng)前最先進(jìn)的AI在視覺(jué)推理方面表現(xiàn)如何?
A:表現(xiàn)相當(dāng)糟糕。包括GPT-4o、Gemini等頂級(jí)AI模型在VisuLogic上的準(zhǔn)確率僅為26-28%,只比隨機(jī)猜測(cè)(25%)稍好,遠(yuǎn)低于人類的51.4%。這說(shuō)明當(dāng)前AI在真正的視覺(jué)推理方面存在嚴(yán)重不足。
Q3:強(qiáng)化學(xué)習(xí)訓(xùn)練能提升AI的視覺(jué)推理能力嗎?
A:是的,效果明顯。研究團(tuán)隊(duì)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,將InternVL2.5-38B模型的準(zhǔn)確率從25.5%提升到31.1%,成為當(dāng)前表現(xiàn)最好的模型。這表明強(qiáng)化學(xué)習(xí)是提升AI視覺(jué)推理能力的有效途徑,但距離人類水平仍有差距。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。