av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 大語言模型看圖思考:華盛頓大學(xué)推出VisualSphinx,一個660K規(guī)模的視覺邏輯訓(xùn)練數(shù)據(jù)集

大語言模型看圖思考:華盛頓大學(xué)推出VisualSphinx,一個660K規(guī)模的視覺邏輯訓(xùn)練數(shù)據(jù)集

2025-06-05 13:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 13:31 ? 科技行者

在人工智能快速發(fā)展的今天,視覺語言模型(VLMs)展現(xiàn)出了令人印象深刻的能力,無論是生成圖像描述、回答關(guān)于圖像的復(fù)雜問題,還是根據(jù)文字描述創(chuàng)建圖像。然而,這些模型在需要結(jié)構(gòu)化邏輯推理的視覺任務(wù)上仍顯示出明顯的不足。這一局限性嚴(yán)重制約了它們在圖表理解和多模態(tài)決策等應(yīng)用場景中的效能。為了解決這個問題,華盛頓大學(xué)和西華盛頓大學(xué)的研究團(tuán)隊(duì)合作開發(fā)了一個名為"VisualSphinx"的大規(guī)模合成視覺邏輯訓(xùn)練數(shù)據(jù)集,該研究發(fā)表于2025年5月的arXiv預(yù)印本平臺(arXiv:2505.23977v1)。

視覺語言模型的推理能力提升一直是一個挑戰(zhàn)。雖然強(qiáng)化學(xué)習(xí)(RL)已被證明能有效提升大語言模型的推理能力,但在視覺語言模型領(lǐng)域,由于缺乏大規(guī)模的帶有驗(yàn)證過的標(biāo)準(zhǔn)答案的訓(xùn)練數(shù)據(jù)集,這種方法難以應(yīng)用。現(xiàn)有的為視覺語言模型設(shè)計(jì)的數(shù)據(jù)集,如Geo3K,通常規(guī)模較小,需要人工整理,且缺乏與標(biāo)準(zhǔn)答案對齊的結(jié)構(gòu)化標(biāo)注。

為了彌補(bǔ)這一空白,VisualSphinx項(xiàng)目創(chuàng)建了一個包含超過66萬個自動生成的邏輯視覺謎題的數(shù)據(jù)集。每個邏輯謎題都基于可解釋的規(guī)則,并配有正確答案和合理的干擾項(xiàng)。這個數(shù)據(jù)集的生成成本不到1000美元,展示了令人驚嘆的可擴(kuò)展性和成本效益。

VisualSphinx的數(shù)據(jù)生成管道包括四個關(guān)鍵步驟。首先是種子問題收集與規(guī)則提取,研究團(tuán)隊(duì)從中國公務(wù)員考試中收集了4000個視覺邏輯問題及其解釋,并使用大語言模型將這些問題轉(zhuǎn)換為結(jié)構(gòu)化的規(guī)則描述。想象一下,這就像是把一本充滿謎題的書轉(zhuǎn)化為一套清晰的游戲規(guī)則手冊。

第二步是通過規(guī)則層面的遺傳算法進(jìn)行規(guī)則擴(kuò)展。這個過程有點(diǎn)像植物育種——從現(xiàn)有的規(guī)則"種子"出發(fā),通過交叉和變異操作,培育出更多樣化的規(guī)則"植株"。具體來說,每類種子規(guī)則形成一個子種群,在各自的"島嶼"上通過基因操作獨(dú)立進(jìn)化:變異操作會重寫、添加或刪除單獨(dú)的規(guī)則要點(diǎn),而交叉操作則會交織來自兩個父規(guī)則的要點(diǎn)。每三代,約10%的規(guī)則會在島嶼間"遷移"以維持多樣性。經(jīng)過十代進(jìn)化,團(tuán)隊(duì)獲得了6萬多個候選規(guī)則,并通過去重和評分機(jī)制篩選出了4萬多個高質(zhì)量規(guī)則。

第三步是基于程序的規(guī)則到圖像合成。對于保留下來的4萬多個規(guī)則,研究人員使用大語言模型生成兩個Python腳本:一個渲染符合規(guī)則的五張連續(xù)圖像,另一個生成三張看似合理但違反規(guī)則的干擾圖像。這就像是讓AI同時扮演出題者和答題者的角色——既創(chuàng)建符合規(guī)則的示例,又制造看似合理但實(shí)際違規(guī)的陷阱選項(xiàng)。為了增強(qiáng)視覺多樣性,每個規(guī)則都采用三種不同的渲染風(fēng)格,將數(shù)據(jù)集擴(kuò)展到約12萬個圖像組。之后,通過感知哈希和結(jié)構(gòu)相似度指數(shù)等技術(shù)進(jìn)行嚴(yán)格的去重和驗(yàn)證,最終獲得了11萬個高質(zhì)量圖像組。

第四步是謎題組裝。研究團(tuán)隊(duì)采用了三種互補(bǔ)策略來組裝謎題:默認(rèn)組裝方式是用前四張符合規(guī)則的圖像作為問題干,第五張符合規(guī)則的圖像作為正確答案,三張違反規(guī)則的圖像作為干擾選項(xiàng);為了增加多樣性并減輕位置偏差,團(tuán)隊(duì)還引入了答案位置隨機(jī)變化的變體;為了增加難度并促進(jìn)強(qiáng)大的視覺推理能力,研究者還創(chuàng)建了包含10個選項(xiàng)的擴(kuò)展干擾集變體。最終,這些策略共同構(gòu)成了超過66萬個視覺邏輯謎題的VisualSphinx數(shù)據(jù)集。

研究人員對VisualSphinx數(shù)據(jù)集進(jìn)行了全面分析,評估了三個關(guān)鍵屬性:可讀性、邏輯連貫性和通過率??勺x性評估了謎題的視覺清晰度和布局,結(jié)果顯示93.1%的謎題獲得了4分或以上(滿分5分)。邏輯連貫性衡量了謎題與其底層規(guī)則之間的一致性,89.8%的謎題在這一指標(biāo)上獲得了高分。通過率則通過訓(xùn)練一個基于QWEN2.5-VL-7B的注釋模型進(jìn)行評估,結(jié)果顯示數(shù)據(jù)集中的謎題難度分布均勻,為訓(xùn)練提供了多樣化的挑戰(zhàn)水平。

在實(shí)驗(yàn)驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)從VisualSphinx中抽取了1萬個具有挑戰(zhàn)性但可解的樣本,選擇那些通過率在0.375到0.875之間、可讀性和邏輯連貫性綜合得分達(dá)到8分或以上的謎題。他們使用GRPO方法在QWEN2.5-VL-7B模型上進(jìn)行了256步訓(xùn)練,每批次大小為128,每個樣本生成8個響應(yīng)。結(jié)果表明,經(jīng)過VisualSphinx訓(xùn)練的模型在視覺邏輯謎題解決能力上有顯著提升,整體準(zhǔn)確率從29.30%提高到了55.94%,遠(yuǎn)超大多數(shù)封閉源模型,甚至比GPT-4.1表現(xiàn)更好。

更令人驚喜的是,這種能力提升還能遷移到其他推理任務(wù)上。在MathVista-testmini基準(zhǔn)測試中,經(jīng)過VisualSphinx訓(xùn)練的模型平均準(zhǔn)確率從59.4%提高到了64.0%,在代數(shù)推理、算術(shù)推理和幾何推理等多個子類別上都有明顯進(jìn)步,特別是在邏輯推理(LOG)方面取得了顯著提升。

雖然VisualSphinx展現(xiàn)出了令人印象深刻的成功,但研究團(tuán)隊(duì)也坦誠地指出了一些限制。首先,盡管實(shí)驗(yàn)結(jié)果顯示了明顯的性能提升,但驅(qū)動這些改進(jìn)的底層機(jī)制仍有待探索。其次,VisualSphinx目前僅限于從種子問題提取的預(yù)定義推理類別,如歸納、演繹、空間和結(jié)構(gòu)邏輯,這些類別雖然涵蓋了廣泛的視覺推理任務(wù),但可能無法完全捕捉現(xiàn)實(shí)世界多模態(tài)推理場景的復(fù)雜性。

總的來說,VisualSphinx項(xiàng)目成功創(chuàng)建了一個首創(chuàng)的大規(guī)模合成視覺邏輯訓(xùn)練數(shù)據(jù)集,為提升視覺語言模型的邏輯推理能力提供了寶貴資源。這一開創(chuàng)性工作不僅彌補(bǔ)了現(xiàn)有訓(xùn)練數(shù)據(jù)集的缺口,還證明了這種方法在提升視覺語言模型多模態(tài)推理能力方面的有效性,為未來研究開辟了新方向。

如果我們把這項(xiàng)研究比作一場智力游戲的革新,VisualSphinx就像是為AI創(chuàng)造的一本包含66萬個視覺謎題的大型益智書,通過這本書的訓(xùn)練,AI模型不僅學(xué)會了解決書中的謎題,還提高了應(yīng)對其他類型智力挑戰(zhàn)的能力。這種能力的提升和遷移,正如一個人通過解決一類問題而提高了整體思維能力,能夠更好地面對生活中各種各樣的挑戰(zhàn)。

對于未來的工作,研究團(tuán)隊(duì)提出可以將VisualSphinx擴(kuò)展到更復(fù)雜的推理范式,如時間性或交互性任務(wù),并深入研究其有效性的理論基礎(chǔ)。這就像是在現(xiàn)有的益智書基礎(chǔ)上,進(jìn)一步編寫涉及動態(tài)變化和互動環(huán)節(jié)的高級版本,同時更深入地理解為什么這些訓(xùn)練能如此有效地提升AI的思考能力。

有興趣深入了解VisualSphinx項(xiàng)目的讀者可以通過https://visualsphinx.github.io或https://hf.co/VisualSphinx訪問更多信息,該項(xiàng)目采用CC-BY-NC 4.0許可證開放使用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-