在人工智能研究的浩瀚星空中,有一顆新星正在冉冉升起。這項由加州大學圣克魯茲分校的Yue Fan、Xuehai He、Diji Yang、Kaizhi Zheng和Xin Eric Wang,以及eBay的Ching-Chen Kuo、Yuting Zheng、Sravana Jyothi Narayanaraju和Xinze Guan共同完成的研究,于2025年5月21日發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.15879v1)。這項研究名為"GRIT: Teaching MLLMs to Think with Images"(GRIT:教會多模態(tài)大語言模型用圖像思考),為我們揭示了一種新的方法,讓AI系統(tǒng)能夠像人類一樣,在思考問題時直接參考視覺信息。有興趣深入了解的讀者可以通過https://grounded-reasoning.github.io訪問相關(guān)研究內(nèi)容。
想象一下,當你看到一張鳥巢的圖片,有人問你:"巢里有多少個蛋?"作為人類,你會怎么做?你可能會看著圖片,指著每一個蛋,一個一個地數(shù):"這里有一個,這里有一個..."同時,你的眼睛和大腦會自然地將注意力集中在圖片的特定區(qū)域上。這種"邊看邊思考"的能力對我們來說再自然不過,但對AI系統(tǒng)來說卻是一項艱巨的挑戰(zhàn)。
目前的多模態(tài)大語言模型(MLLMs)雖然能同時處理文字和圖像,但它們在推理過程中往往只能生成純文本描述,而無法明確指出它們在圖像中關(guān)注的具體區(qū)域。這就像是一個學生在解答問題時,只給出答案和一些含糊的解釋,而沒有清晰地指出他是如何一步步推理的,也沒有明確標出他在圖像中看到了什么。這種方式不僅缺乏透明度,也無法讓我們確認AI是否真正"理解"了圖像內(nèi)容。
GRIT框架的出現(xiàn),正是為了解決這一問題。它教會AI在思考時明確地指出它在看圖像的哪些部分,就像是在說:"我看到這個區(qū)域(指向圖像中的特定位置)有一個藍色的蛋,然后在這個區(qū)域(指向另一個位置)有一個綠色的蛋..."這種方式不僅讓AI的推理過程更加清晰,也讓我們能夠驗證AI是否真正關(guān)注了正確的視覺信息。
更令人驚訝的是,GRIT方法只需要20個訓(xùn)練樣本就能使模型學會這種能力,這在數(shù)據(jù)饑渴的AI領(lǐng)域堪稱奇跡。這就像是只需要向孩子展示20個例子,他們就能掌握一種全新的思考方式一樣神奇。
一、GRIT:視覺推理的新范式
傳統(tǒng)的推理模型訓(xùn)練方法通常是讓模型在給出最終答案前,先生成一系列思考步驟,被稱為"思維鏈"(Chain-of-Thought)。這種方法在純語言領(lǐng)域取得了很大成功,比如DeepSeek-R1這樣的模型展示了出色的復(fù)雜任務(wù)處理能力。但當這種方法擴展到視覺語言領(lǐng)域時,現(xiàn)有的開源視覺推理模型往往只能生成純文本的推理內(nèi)容,缺乏對視覺信息的明確整合。
這就好比一個人在解釋一幅畫時,只用文字描述而不指出他正在談?wù)摦嬅嬷械哪膫€部分。這種方式導(dǎo)致推理過程不夠清晰,也不夠扎實地建立在視覺輸入的細節(jié)上。要解決這個問題,關(guān)鍵問題是如何賦予模型"用圖像思考"的能力,讓它們能像人類一樣在思考過程中自然地引用視覺輸入。
然而,實現(xiàn)這一能力面臨重大技術(shù)挑戰(zhàn)。當前的多模態(tài)大語言模型設(shè)計用來生成語言標記,缺乏在推理鏈中直接生成圖像的固有機制。此外,處理和理解穿插多個視覺元素的推理序列也是一個重大障礙,因為許多多模態(tài)大語言模型難以在一個輸入中跨多個圖像維持上下文。除了這些技術(shù)挑戰(zhàn)外,數(shù)據(jù)也是一個主要障礙。在大多數(shù)情況下,對于復(fù)雜的多模態(tài)問題,沒有唯一正確的推理路徑,而明確納入視覺證據(jù)的人工標注數(shù)據(jù)極其稀缺。
GRIT方法引入了一種新穎的基于圖像和文本的推理范式,模型生成的自然語言推理鏈可以自由混合指向輸入圖像中相關(guān)區(qū)域的邊界框坐標。這些邊界框用于指示模型在推理過程中正在查閱的特定視覺信息。
為了簡化推理過程,在生成邊界框坐標后,模型不會在提出的基于圖像的推理范式中接收額外的像素輸入;相反,模型根據(jù)其對原始輸入圖像的理解來理解和利用這些坐標所指示的視覺信息。通過用生成的邊界框裁剪輸入圖像,得到的推理鏈可以被可視化為交錯的文本和輸入圖像中突出顯示的區(qū)域。
想象一下,這就像是一位老師在解釋一幅復(fù)雜的畫作時,不僅用語言描述,還會用手指指向畫面中的特定部分說:"看這里的構(gòu)圖..."、"注意這個角落的細節(jié)..."。這種方式讓聽者更容易理解老師的解釋,也能確認老師確實在關(guān)注正確的視覺元素。GRIT就是在教AI學會這種"邊看邊思考、邊指邊說"的能力。
二、GRPO-GR:強化學習助力模型掌握新能力
要訓(xùn)練多模態(tài)大語言模型在基于圖像的推理范式中生成推理鏈,GRIT采用了GRPO-GR,一種基于GRPO算法構(gòu)建的強化學習方法。它配備了專門針對推理和視覺定位格式的新型獎勵,除了答案準確性外,這種獎勵機制重點關(guān)注的是輸出的格式而非內(nèi)容。
具體來說,這種格式獎勵鼓勵推理輸出由思考標記對(例如,和)和重新思考標記對(例如,和)來構(gòu)建;它還獎勵在生成序列中包含語法上有效的邊界框。因此,GRPO-GR中的獎勵不限制推理步驟的具體文本內(nèi)容或基于圖像的區(qū)域的語義準確性,從而消除了對帶有推理鏈注釋或明確邊界框標簽的數(shù)據(jù)的需求。
這就像是教一個孩子學習解答數(shù)學題時,我們不是告訴他每一步該怎么思考,而是鼓勵他寫下自己的思考過程,并在適當?shù)牡胤疆媹D標注。只要他的格式正確(先思考,然后整理思路,最后給出答案),我們就給予獎勵,而不去干涉他具體思考了什么。這種方式讓孩子能夠發(fā)展出自己的思考方式,而不是機械地模仿別人。
GRIT方法的一個顯著成果是它極其高效的數(shù)據(jù)利用率:它使多模態(tài)大語言模型只需使用從現(xiàn)有VQA數(shù)據(jù)集獲取的20個圖像-問題-答案三元組,就能獲得基于圖像的推理能力。這些訓(xùn)練樣本來自視覺空間推理(VSR)和TallyQA數(shù)據(jù)集,前者側(cè)重于空間關(guān)系驗證,后者側(cè)重于計數(shù)任務(wù)。
三、實驗驗證:GRIT的強大效果
研究團隊使用GRIT方法訓(xùn)練了兩個最先進的多模態(tài)大語言模型——Qwen 2.5-VL和InternVL 3,每個模型都只使用了20個來自VSR和TallyQA數(shù)據(jù)集的圖像-問題-答案三元組。GRIT訓(xùn)練的一個重要成果是,訓(xùn)練后的模型保持了它們的廣泛通用性,不僅能有效處理視覺問答任務(wù),還能處理以視覺定位為主的指代表達理解任務(wù)。
在實驗中,研究團隊使用了從各種基準測試中收集的測試數(shù)據(jù),包括視覺問答和指代表達理解兩種任務(wù)。通過這些實驗,他們揭示了幾個關(guān)鍵觀察結(jié)果:
首先,訓(xùn)練后的模型有效地統(tǒng)一了視覺定位和推理能力——這些能力原本在基礎(chǔ)多模態(tài)大語言模型中是固有但分離的。通過定性和定量分析,研究團隊發(fā)現(xiàn)模型生成的推理鏈中,引用的圖像區(qū)域和伴隨的文本之間存在高度相關(guān)性。
其次,邊界框的生成促使后續(xù)模型推理更有效地關(guān)注輸入視覺信息。研究團隊通過實驗證明,模型在生成了邊界框后,其對圖像內(nèi)容的注意力會顯著提高,這有助于保持推理過程的視覺一致性。
最后,隨著訓(xùn)練數(shù)據(jù)的增加,使用GRIT訓(xùn)練的模型表現(xiàn)有所提高,但這也揭示了提高泛化能力的挑戰(zhàn)。研究團隊觀察到,模型在同源數(shù)據(jù)(VSR和TallyQA)上的表現(xiàn)提升比在異源數(shù)據(jù)(如GQA和MathVista-mini)上更顯著,這表明增加訓(xùn)練數(shù)據(jù)的多樣性比簡單地擴大數(shù)據(jù)量更為關(guān)鍵。
在具體的評估指標上,GRIT訓(xùn)練的模型在GPT評判的答案準確率和視覺定位IoU(交并比)兩方面都優(yōu)于基線模型。即使只用20個訓(xùn)練樣本,GRIT訓(xùn)練的模型不僅在VSR和TallyQA(訓(xùn)練中看到的兩個數(shù)據(jù)集)上的GPT評判答案準確率有所提高,還能有效地泛化到其他域外數(shù)據(jù),表明其具備強大的推理能力。
在視覺定位IoU指標上,盡管GRIT訓(xùn)練的模型并未直接針對此指標進行優(yōu)化,但它們在定位問題相關(guān)的圖像區(qū)域方面的表現(xiàn)優(yōu)于基線模型。值得注意的是,在OVDEval測試數(shù)據(jù)上,GRIT訓(xùn)練的模型比零樣本多模態(tài)大語言模型取得了更準確的檢測結(jié)果,突顯了它們在視覺定位能力方面的新興改進。
四、深入理解:邊界框與自然語言如何協(xié)同工作
GRIT訓(xùn)練的模型能夠生成各種各樣的基于圖像的推理內(nèi)容。由于GRIT方法的獎勵設(shè)計不對推理鏈的內(nèi)容施加嚴格限制,模型學會了靈活的推理策略,能夠無縫適應(yīng)各種查詢。
具體來說,GRIT訓(xùn)練的模型有時會直接提供答案,然后在后續(xù)推理中反映這個答案;而在其他情況下,它們會首先執(zhí)行視覺定位動作來識別視覺證據(jù),然后在后續(xù)推理中分析所選的圖像區(qū)域。更重要的是,這些模型能夠動態(tài)確定是否需要視覺定位,從而顯著減少誤定位的情況。例如,對于輸入圖像中不存在的實體的查詢,模型不會生成錯誤的視覺定位,展示了強大的多模態(tài)推理能力。
為了系統(tǒng)評估GRIT訓(xùn)練模型的基于圖像的推理鏈中圖像區(qū)域和自然語言內(nèi)容之間的連貫性,研究團隊引入了視覺-語言推理跨模態(tài)相關(guān)性指標。這一指標利用GPT-4o的強大集合標記能力,通過比較模型生成的邊界框和隨機采樣的邊界框與文本推理的相關(guān)性,來評估語義連貫性。
實驗結(jié)果表明,使用GRIT框架訓(xùn)練的模型在這一指標上優(yōu)于基線模型,顯示出與文本推理高度相關(guān)的圖像區(qū)域選擇,盡管與人工編寫的推理鏈相比仍有差距,表明未來改進的空間。
此外,GRIT訓(xùn)練的模型在生成視覺整合的思考過程時,會交錯推理和視覺定位動作。為了進一步理解生成的邊界框如何影響后續(xù)推理,研究團隊檢查了推理過程中對輸入視覺標記的注意力分數(shù)。
通過比較原始重新思考段落和移除邊界框后的重新思考內(nèi)容生成時的視覺注意力,研究團隊發(fā)現(xiàn),原始重新思考段落中對每個視覺標記的平均注意力分數(shù)明顯高于無邊界框的重新思考段落。這表明,原始推理中邊界框的存在導(dǎo)致了后續(xù)推理鏈中對視覺的注意力增加,這可能有利于推理過程的圖像一致性。
五、數(shù)據(jù)規(guī)模效應(yīng):質(zhì)量與數(shù)量的平衡
為了了解GRIT的性能如何隨著訓(xùn)練數(shù)據(jù)的增加而擴展,研究團隊訓(xùn)練了Qwen2.5-VL 2B模型的變體,分別使用20、500和7,000個圖像-問題-答案三元組。這些樣本取自VSR和TallyQA數(shù)據(jù)集,保持相同的數(shù)據(jù)源混合。
研究團隊在第4.1節(jié)中介紹的測試數(shù)據(jù)集上評估了這些訓(xùn)練變體,使用GPT評判的答案準確率分數(shù)。結(jié)果顯示,隨著用于GRIT的訓(xùn)練數(shù)據(jù)量的增加,答案準確率通常會提高。
然而,研究團隊發(fā)現(xiàn),與在領(lǐng)域內(nèi)測試數(shù)據(jù)(來自與訓(xùn)練相同的數(shù)據(jù)集,如VSR和TallyQA)上觀察到的增長相比,域外測試數(shù)據(jù)(GQA和MathVista-mini)的答案準確率改進更為微妙,這凸顯了泛化的常見挑戰(zhàn)。
此外,他們觀察到模型性能增長有所減少,表明持續(xù)改進可能需要指數(shù)級更多的數(shù)據(jù)。研究團隊根據(jù)最近的研究解釋了這一觀察結(jié)果,這些研究表明,使用可驗證獎勵的強化學習主要是將現(xiàn)有推理模式偏向獎勵結(jié)果,而不是從根本上改變它們,并且性能也受預(yù)訓(xùn)練的強烈影響。
這意味著要顯著提高GRIT訓(xùn)練模型的域外性能,增加訓(xùn)練數(shù)據(jù)的多樣性比簡單地擴大數(shù)據(jù)量更為關(guān)鍵,這強調(diào)了未來研究的一個關(guān)鍵方向。
總結(jié)來說,GRIT框架的提出為多模態(tài)大語言模型的視覺推理能力帶來了質(zhì)的飛躍。它不僅讓模型能夠在推理過程中明確指出它關(guān)注的圖像區(qū)域,還能讓這些區(qū)域與推理內(nèi)容緊密相關(guān),從而提高了推理的透明度和可驗證性。更重要的是,GRIT只需要極少量的訓(xùn)練數(shù)據(jù)就能使模型習得這種能力,這對于資源有限的研究團隊來說是一個極大的優(yōu)勢。
雖然目前的研究主要集中在較小的多模態(tài)大語言模型上,驗證GRIT方法和效率,而不是探索通過完整規(guī)模的擴展實現(xiàn)峰值性能,但研究團隊已經(jīng)確定了進一步提高GRIT訓(xùn)練模型泛化能力的關(guān)鍵方向是數(shù)據(jù)多樣性和模型預(yù)訓(xùn)練。盡管如此,GRIT在使用最少數(shù)據(jù)灌輸復(fù)雜基于圖像的推理方面的有效性突顯了其巨大潛力。
對于我們普通人來說,這項研究意味著未來的AI助手將能夠更清晰地解釋它們看到了什么,以及它們是如何基于視覺信息得出結(jié)論的。這不僅會增強人機交互的透明度,還會讓我們更容易理解和信任AI系統(tǒng)的決策過程。就像一個好的導(dǎo)游不僅會告訴你"這是一座歷史悠久的建筑",還會指出"看這里的石雕,它展示了當時的工藝水平",未來的AI也將能夠提供這種清晰、有根據(jù)的解釋。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。