av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<rp id="cxf15"><tbody id="cxf15"></tbody></rp>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

大語言模型看圖思考：華盛頓大學推出VisualSphinx，一個660K規(guī)模的視覺邏輯訓練數(shù)據(jù)集

人工智能視覺多模態(tài)推理合成數(shù)據(jù)集

大語言模型看圖思考：華盛頓大學推出VisualSphinx，一個660K規(guī)模的視覺邏輯訓練數(shù)據(jù)集

作者：科技行者

2025-06-05 13:31

分享至：

華盛頓大學與西華盛頓大學的研究團隊合作開發(fā)了VisualSphinx——一個包含66萬個合成視覺邏輯謎題的大規(guī)模數(shù)據(jù)集，用于提升視覺語言模型的邏輯推理能力。通過四階段流程：種子問題收集、規(guī)則遺傳算法擴展、程序化圖像合成和謎題組裝，團隊以不到1000美元的成本創(chuàng)建了這一資源。實驗證明，使用該數(shù)據(jù)集進行強化學習的模型在邏輯推理任務(wù)上的表現(xiàn)顯著提升，甚至超越了多款封閉源模型，且這種能力可遷移至其他視覺推理任務(wù)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 13:31 ? 科技行者

在人工智能快速發(fā)展的今天，視覺語言模型（VLMs）展現(xiàn)出了令人印象深刻的能力，無論是生成圖像描述、回答關(guān)于圖像的復(fù)雜問題，還是根據(jù)文字描述創(chuàng)建圖像。然而，這些模型在需要結(jié)構(gòu)化邏輯推理的視覺任務(wù)上仍顯示出明顯的不足。這一局限性嚴重制約了它們在圖表理解和多模態(tài)決策等應(yīng)用場景中的效能。為了解決這個問題，華盛頓大學和西華盛頓大學的研究團隊合作開發(fā)了一個名為"VisualSphinx"的大規(guī)模合成視覺邏輯訓練數(shù)據(jù)集，該研究發(fā)表于2025年5月的arXiv預(yù)印本平臺（arXiv:2505.23977v1）。

視覺語言模型的推理能力提升一直是一個挑戰(zhàn)。雖然強化學習（RL）已被證明能有效提升大語言模型的推理能力，但在視覺語言模型領(lǐng)域，由于缺乏大規(guī)模的帶有驗證過的標準答案的訓練數(shù)據(jù)集，這種方法難以應(yīng)用?，F(xiàn)有的為視覺語言模型設(shè)計的數(shù)據(jù)集，如Geo3K，通常規(guī)模較小，需要人工整理，且缺乏與標準答案對齊的結(jié)構(gòu)化標注。

為了彌補這一空白，VisualSphinx項目創(chuàng)建了一個包含超過66萬個自動生成的邏輯視覺謎題的數(shù)據(jù)集。每個邏輯謎題都基于可解釋的規(guī)則，并配有正確答案和合理的干擾項。這個數(shù)據(jù)集的生成成本不到1000美元，展示了令人驚嘆的可擴展性和成本效益。

VisualSphinx的數(shù)據(jù)生成管道包括四個關(guān)鍵步驟。首先是種子問題收集與規(guī)則提取，研究團隊從中國公務(wù)員考試中收集了4000個視覺邏輯問題及其解釋，并使用大語言模型將這些問題轉(zhuǎn)換為結(jié)構(gòu)化的規(guī)則描述。想象一下，這就像是把一本充滿謎題的書轉(zhuǎn)化為一套清晰的游戲規(guī)則手冊。

第二步是通過規(guī)則層面的遺傳算法進行規(guī)則擴展。這個過程有點像植物育種——從現(xiàn)有的規(guī)則"種子"出發(fā)，通過交叉和變異操作，培育出更多樣化的規(guī)則"植株"。具體來說，每類種子規(guī)則形成一個子種群，在各自的"島嶼"上通過基因操作獨立進化：變異操作會重寫、添加或刪除單獨的規(guī)則要點，而交叉操作則會交織來自兩個父規(guī)則的要點。每三代，約10%的規(guī)則會在島嶼間"遷移"以維持多樣性。經(jīng)過十代進化，團隊獲得了6萬多個候選規(guī)則，并通過去重和評分機制篩選出了4萬多個高質(zhì)量規(guī)則。

第三步是基于程序的規(guī)則到圖像合成。對于保留下來的4萬多個規(guī)則，研究人員使用大語言模型生成兩個Python腳本：一個渲染符合規(guī)則的五張連續(xù)圖像，另一個生成三張看似合理但違反規(guī)則的干擾圖像。這就像是讓AI同時扮演出題者和答題者的角色——既創(chuàng)建符合規(guī)則的示例，又制造看似合理但實際違規(guī)的陷阱選項。為了增強視覺多樣性，每個規(guī)則都采用三種不同的渲染風格，將數(shù)據(jù)集擴展到約12萬個圖像組。之后，通過感知哈希和結(jié)構(gòu)相似度指數(shù)等技術(shù)進行嚴格的去重和驗證，最終獲得了11萬個高質(zhì)量圖像組。

第四步是謎題組裝。研究團隊采用了三種互補策略來組裝謎題：默認組裝方式是用前四張符合規(guī)則的圖像作為問題干，第五張符合規(guī)則的圖像作為正確答案，三張違反規(guī)則的圖像作為干擾選項；為了增加多樣性并減輕位置偏差，團隊還引入了答案位置隨機變化的變體；為了增加難度并促進強大的視覺推理能力，研究者還創(chuàng)建了包含10個選項的擴展干擾集變體。最終，這些策略共同構(gòu)成了超過66萬個視覺邏輯謎題的VisualSphinx數(shù)據(jù)集。

研究人員對VisualSphinx數(shù)據(jù)集進行了全面分析，評估了三個關(guān)鍵屬性：可讀性、邏輯連貫性和通過率?？勺x性評估了謎題的視覺清晰度和布局，結(jié)果顯示93.1%的謎題獲得了4分或以上（滿分5分）。邏輯連貫性衡量了謎題與其底層規(guī)則之間的一致性，89.8%的謎題在這一指標上獲得了高分。通過率則通過訓練一個基于QWEN2.5-VL-7B的注釋模型進行評估，結(jié)果顯示數(shù)據(jù)集中的謎題難度分布均勻，為訓練提供了多樣化的挑戰(zhàn)水平。

在實驗驗證環(huán)節(jié)，研究團隊從VisualSphinx中抽取了1萬個具有挑戰(zhàn)性但可解的樣本，選擇那些通過率在0.375到0.875之間、可讀性和邏輯連貫性綜合得分達到8分或以上的謎題。他們使用GRPO方法在QWEN2.5-VL-7B模型上進行了256步訓練，每批次大小為128，每個樣本生成8個響應(yīng)。結(jié)果表明，經(jīng)過VisualSphinx訓練的模型在視覺邏輯謎題解決能力上有顯著提升，整體準確率從29.30%提高到了55.94%，遠超大多數(shù)封閉源模型，甚至比GPT-4.1表現(xiàn)更好。

更令人驚喜的是，這種能力提升還能遷移到其他推理任務(wù)上。在MathVista-testmini基準測試中，經(jīng)過VisualSphinx訓練的模型平均準確率從59.4%提高到了64.0%，在代數(shù)推理、算術(shù)推理和幾何推理等多個子類別上都有明顯進步，特別是在邏輯推理（LOG）方面取得了顯著提升。

雖然VisualSphinx展現(xiàn)出了令人印象深刻的成功，但研究團隊也坦誠地指出了一些限制。首先，盡管實驗結(jié)果顯示了明顯的性能提升，但驅(qū)動這些改進的底層機制仍有待探索。其次，VisualSphinx目前僅限于從種子問題提取的預(yù)定義推理類別，如歸納、演繹、空間和結(jié)構(gòu)邏輯，這些類別雖然涵蓋了廣泛的視覺推理任務(wù)，但可能無法完全捕捉現(xiàn)實世界多模態(tài)推理場景的復(fù)雜性。

總的來說，VisualSphinx項目成功創(chuàng)建了一個首創(chuàng)的大規(guī)模合成視覺邏輯訓練數(shù)據(jù)集，為提升視覺語言模型的邏輯推理能力提供了寶貴資源。這一開創(chuàng)性工作不僅彌補了現(xiàn)有訓練數(shù)據(jù)集的缺口，還證明了這種方法在提升視覺語言模型多模態(tài)推理能力方面的有效性，為未來研究開辟了新方向。

如果我們把這項研究比作一場智力游戲的革新，VisualSphinx就像是為AI創(chuàng)造的一本包含66萬個視覺謎題的大型益智書，通過這本書的訓練，AI模型不僅學會了解決書中的謎題，還提高了應(yīng)對其他類型智力挑戰(zhàn)的能力。這種能力的提升和遷移，正如一個人通過解決一類問題而提高了整體思維能力，能夠更好地面對生活中各種各樣的挑戰(zhàn)。

對于未來的工作，研究團隊提出可以將VisualSphinx擴展到更復(fù)雜的推理范式，如時間性或交互性任務(wù)，并深入研究其有效性的理論基礎(chǔ)。這就像是在現(xiàn)有的益智書基礎(chǔ)上，進一步編寫涉及動態(tài)變化和互動環(huán)節(jié)的高級版本，同時更深入地理解為什么這些訓練能如此有效地提升AI的思考能力。

有興趣深入了解VisualSphinx項目的讀者可以通過https://visualsphinx.github.io或https://hf.co/VisualSphinx訪問更多信息，該項目采用CC-BY-NC 4.0許可證開放使用。

人工智能視覺多模態(tài)推理合成數(shù)據(jù)集

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學團隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學習
模型優(yōu)化

2025-10-22 13:24

清華大學新突破：AI模型居然能學會"少說話多做事"，推理效率提升一倍還更準確

清華大學研究團隊提出SIRI方法，通過"壓縮-擴張"交替訓練策略，成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示，該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學習
空間智能

2025-10-22 10:14

華中科技大學團隊突破性發(fā)現(xiàn)：讓AI像幾何學家一樣思考，竟能大幅提升空間理解能力

華中科技大學研究團隊發(fā)現(xiàn)，通過讓AI模型學習解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示，幾何訓練在四個空間智能測試基準上都帶來顯著提升，其中最佳模型達到49.6%準確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學新突破：AI模型居然能學會"少說話多做事"，推理效率提升一倍還更準確

清華大學新突破：AI模型居然能學會"少說話多做事"，推理效率提升一倍還更準確

2025-10-22 13:24

南洋理工大學突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學團隊突破性發(fā)現(xiàn)：讓AI像幾何學家一樣思考，竟能大幅提升空間理解能力

華中科技大學團隊突破性發(fā)現(xiàn)：讓AI像幾何學家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<dfn id="hvak0"></dfn>

<tt id="hvak0"></tt>