在人工智能快速發(fā)展的今天,視覺語言模型(VLMs)展現(xiàn)出了令人印象深刻的能力,無論是生成圖像描述、回答關(guān)于圖像的復(fù)雜問題,還是根據(jù)文字描述創(chuàng)建圖像。然而,這些模型在需要結(jié)構(gòu)化邏輯推理的視覺任務(wù)上仍顯示出明顯的不足。這一局限性嚴(yán)重制約了它們在圖表理解和多模態(tài)決策等應(yīng)用場景中的效能。為了解決這個問題,華盛頓大學(xué)和西華盛頓大學(xué)的研究團(tuán)隊(duì)合作開發(fā)了一個名為"VisualSphinx"的大規(guī)模合成視覺邏輯訓(xùn)練數(shù)據(jù)集,該研究發(fā)表于2025年5月的arXiv預(yù)印本平臺(arXiv:2505.23977v1)。
視覺語言模型的推理能力提升一直是一個挑戰(zhàn)。雖然強(qiáng)化學(xué)習(xí)(RL)已被證明能有效提升大語言模型的推理能力,但在視覺語言模型領(lǐng)域,由于缺乏大規(guī)模的帶有驗(yàn)證過的標(biāo)準(zhǔn)答案的訓(xùn)練數(shù)據(jù)集,這種方法難以應(yīng)用。現(xiàn)有的為視覺語言模型設(shè)計(jì)的數(shù)據(jù)集,如Geo3K,通常規(guī)模較小,需要人工整理,且缺乏與標(biāo)準(zhǔn)答案對齊的結(jié)構(gòu)化標(biāo)注。
為了彌補(bǔ)這一空白,VisualSphinx項(xiàng)目創(chuàng)建了一個包含超過66萬個自動生成的邏輯視覺謎題的數(shù)據(jù)集。每個邏輯謎題都基于可解釋的規(guī)則,并配有正確答案和合理的干擾項(xiàng)。這個數(shù)據(jù)集的生成成本不到1000美元,展示了令人驚嘆的可擴(kuò)展性和成本效益。
VisualSphinx的數(shù)據(jù)生成管道包括四個關(guān)鍵步驟。首先是種子問題收集與規(guī)則提取,研究團(tuán)隊(duì)從中國公務(wù)員考試中收集了4000個視覺邏輯問題及其解釋,并使用大語言模型將這些問題轉(zhuǎn)換為結(jié)構(gòu)化的規(guī)則描述。想象一下,這就像是把一本充滿謎題的書轉(zhuǎn)化為一套清晰的游戲規(guī)則手冊。
第二步是通過規(guī)則層面的遺傳算法進(jìn)行規(guī)則擴(kuò)展。這個過程有點(diǎn)像植物育種——從現(xiàn)有的規(guī)則"種子"出發(fā),通過交叉和變異操作,培育出更多樣化的規(guī)則"植株"。具體來說,每類種子規(guī)則形成一個子種群,在各自的"島嶼"上通過基因操作獨(dú)立進(jìn)化:變異操作會重寫、添加或刪除單獨(dú)的規(guī)則要點(diǎn),而交叉操作則會交織來自兩個父規(guī)則的要點(diǎn)。每三代,約10%的規(guī)則會在島嶼間"遷移"以維持多樣性。經(jīng)過十代進(jìn)化,團(tuán)隊(duì)獲得了6萬多個候選規(guī)則,并通過去重和評分機(jī)制篩選出了4萬多個高質(zhì)量規(guī)則。
第三步是基于程序的規(guī)則到圖像合成。對于保留下來的4萬多個規(guī)則,研究人員使用大語言模型生成兩個Python腳本:一個渲染符合規(guī)則的五張連續(xù)圖像,另一個生成三張看似合理但違反規(guī)則的干擾圖像。這就像是讓AI同時扮演出題者和答題者的角色——既創(chuàng)建符合規(guī)則的示例,又制造看似合理但實(shí)際違規(guī)的陷阱選項(xiàng)。為了增強(qiáng)視覺多樣性,每個規(guī)則都采用三種不同的渲染風(fēng)格,將數(shù)據(jù)集擴(kuò)展到約12萬個圖像組。之后,通過感知哈希和結(jié)構(gòu)相似度指數(shù)等技術(shù)進(jìn)行嚴(yán)格的去重和驗(yàn)證,最終獲得了11萬個高質(zhì)量圖像組。
第四步是謎題組裝。研究團(tuán)隊(duì)采用了三種互補(bǔ)策略來組裝謎題:默認(rèn)組裝方式是用前四張符合規(guī)則的圖像作為問題干,第五張符合規(guī)則的圖像作為正確答案,三張違反規(guī)則的圖像作為干擾選項(xiàng);為了增加多樣性并減輕位置偏差,團(tuán)隊(duì)還引入了答案位置隨機(jī)變化的變體;為了增加難度并促進(jìn)強(qiáng)大的視覺推理能力,研究者還創(chuàng)建了包含10個選項(xiàng)的擴(kuò)展干擾集變體。最終,這些策略共同構(gòu)成了超過66萬個視覺邏輯謎題的VisualSphinx數(shù)據(jù)集。
研究人員對VisualSphinx數(shù)據(jù)集進(jìn)行了全面分析,評估了三個關(guān)鍵屬性:可讀性、邏輯連貫性和通過率??勺x性評估了謎題的視覺清晰度和布局,結(jié)果顯示93.1%的謎題獲得了4分或以上(滿分5分)。邏輯連貫性衡量了謎題與其底層規(guī)則之間的一致性,89.8%的謎題在這一指標(biāo)上獲得了高分。通過率則通過訓(xùn)練一個基于QWEN2.5-VL-7B的注釋模型進(jìn)行評估,結(jié)果顯示數(shù)據(jù)集中的謎題難度分布均勻,為訓(xùn)練提供了多樣化的挑戰(zhàn)水平。
在實(shí)驗(yàn)驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)從VisualSphinx中抽取了1萬個具有挑戰(zhàn)性但可解的樣本,選擇那些通過率在0.375到0.875之間、可讀性和邏輯連貫性綜合得分達(dá)到8分或以上的謎題。他們使用GRPO方法在QWEN2.5-VL-7B模型上進(jìn)行了256步訓(xùn)練,每批次大小為128,每個樣本生成8個響應(yīng)。結(jié)果表明,經(jīng)過VisualSphinx訓(xùn)練的模型在視覺邏輯謎題解決能力上有顯著提升,整體準(zhǔn)確率從29.30%提高到了55.94%,遠(yuǎn)超大多數(shù)封閉源模型,甚至比GPT-4.1表現(xiàn)更好。
更令人驚喜的是,這種能力提升還能遷移到其他推理任務(wù)上。在MathVista-testmini基準(zhǔn)測試中,經(jīng)過VisualSphinx訓(xùn)練的模型平均準(zhǔn)確率從59.4%提高到了64.0%,在代數(shù)推理、算術(shù)推理和幾何推理等多個子類別上都有明顯進(jìn)步,特別是在邏輯推理(LOG)方面取得了顯著提升。
雖然VisualSphinx展現(xiàn)出了令人印象深刻的成功,但研究團(tuán)隊(duì)也坦誠地指出了一些限制。首先,盡管實(shí)驗(yàn)結(jié)果顯示了明顯的性能提升,但驅(qū)動這些改進(jìn)的底層機(jī)制仍有待探索。其次,VisualSphinx目前僅限于從種子問題提取的預(yù)定義推理類別,如歸納、演繹、空間和結(jié)構(gòu)邏輯,這些類別雖然涵蓋了廣泛的視覺推理任務(wù),但可能無法完全捕捉現(xiàn)實(shí)世界多模態(tài)推理場景的復(fù)雜性。
總的來說,VisualSphinx項(xiàng)目成功創(chuàng)建了一個首創(chuàng)的大規(guī)模合成視覺邏輯訓(xùn)練數(shù)據(jù)集,為提升視覺語言模型的邏輯推理能力提供了寶貴資源。這一開創(chuàng)性工作不僅彌補(bǔ)了現(xiàn)有訓(xùn)練數(shù)據(jù)集的缺口,還證明了這種方法在提升視覺語言模型多模態(tài)推理能力方面的有效性,為未來研究開辟了新方向。
如果我們把這項(xiàng)研究比作一場智力游戲的革新,VisualSphinx就像是為AI創(chuàng)造的一本包含66萬個視覺謎題的大型益智書,通過這本書的訓(xùn)練,AI模型不僅學(xué)會了解決書中的謎題,還提高了應(yīng)對其他類型智力挑戰(zhàn)的能力。這種能力的提升和遷移,正如一個人通過解決一類問題而提高了整體思維能力,能夠更好地面對生活中各種各樣的挑戰(zhàn)。
對于未來的工作,研究團(tuán)隊(duì)提出可以將VisualSphinx擴(kuò)展到更復(fù)雜的推理范式,如時間性或交互性任務(wù),并深入研究其有效性的理論基礎(chǔ)。這就像是在現(xiàn)有的益智書基礎(chǔ)上,進(jìn)一步編寫涉及動態(tài)變化和互動環(huán)節(jié)的高級版本,同時更深入地理解為什么這些訓(xùn)練能如此有效地提升AI的思考能力。
有興趣深入了解VisualSphinx項(xiàng)目的讀者可以通過https://visualsphinx.github.io或https://hf.co/VisualSphinx訪問更多信息,該項(xiàng)目采用CC-BY-NC 4.0許可證開放使用。
好文章,需要你的鼓勵
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時實(shí)現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。