2025年5月,上海交通大學(xué)Ethan Chern、Zhulin Hu、Steffi Chern等研究者與復(fù)旦大學(xué)的Jiadi Su、Yan Ma以及上海交通大學(xué)的Zhijie Deng和Pengfei Liu共同發(fā)表了一篇突破性論文《Thinking with Generated Images》(用生成圖像思考)。這篇發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.22525v1)的研究,為大型多模態(tài)模型(LMMs)帶來了一種全新的思維方式。研究團(tuán)隊(duì)的開源代碼已在GitHub(https://github.com/GAIR-NLP/thinking-with-generated-images)上公開供學(xué)術(shù)界和開發(fā)者使用。
一、為什么AI需要"用圖像思考"?
想象一下,當(dāng)你嘗試解決一個(gè)復(fù)雜問題時(shí),你的思維過程是怎樣的?是不是經(jīng)常會(huì)在腦海中勾勒出圖像,甚至畫草圖來幫助自己理解?人類的認(rèn)知過程本質(zhì)上是多模態(tài)的。生物化學(xué)家通過探索蛋白質(zhì)結(jié)構(gòu)來發(fā)現(xiàn)新的治療方法;法醫(yī)分析師通過驗(yàn)證犯罪現(xiàn)場重建來建立證據(jù)聯(lián)系;建筑師通過修改空間和光線模式來優(yōu)化建筑設(shè)計(jì)。視覺思考能夠創(chuàng)造獨(dú)特的組合和概念間的新聯(lián)系,幫助我們發(fā)現(xiàn)純文本推理無法發(fā)現(xiàn)的可能性。
然而,當(dāng)前的AI系統(tǒng)存在明顯局限。即使是最先進(jìn)的大型多模態(tài)模型(LMMs)也只能"看到"圖像——它們在前向傳遞過程中只處理一次圖像,而不能更深入地"用圖像思考"。想象一下,如果你只能看一眼圖紙就必須設(shè)計(jì)出整個(gè)建筑,或者只能瞥一眼案發(fā)現(xiàn)場就要還原完整犯罪過程,這顯然是不合理的。
正如孫子兵法所言:"詳細(xì)的思考導(dǎo)向勝利;不充分的思考導(dǎo)向失敗。"這一古老智慧同樣適用于AI系統(tǒng)。雖然大型語言模型(LLMs)在被提示寫思維鏈(Chain-of-Thought,CoT)時(shí)可以遍歷中間狀態(tài),隨著推理計(jì)算增加而提高性能(即測試時(shí)擴(kuò)展),但這種純文本的思維鏈過程只能捕捉認(rèn)知搜索的一部分視角。
為解決這一問題,研究團(tuán)隊(duì)提出了"用生成圖像思考"(Thinking with Generated Images)的創(chuàng)新范式。與以往僅依賴用戶提供的圖像或?qū)@些圖像進(jìn)行簡單操作的方法不同,這種新范式使AI模型能夠主動(dòng)生成自己的視覺步驟或子目標(biāo)來解決問題。這就像給AI提供了"視覺想象力",使其能夠通過生成中間視覺思維步驟,在文本和視覺模態(tài)之間自然思考。
二、"用生成圖像思考"如何工作?
研究團(tuán)隊(duì)通過引入"原生長多模態(tài)思維過程"(native long-multimodal thought process)實(shí)現(xiàn)了"用生成圖像思考"。這一過程使統(tǒng)一的大型多模態(tài)模型能夠無縫生成中間視覺思維,建立視覺子目標(biāo),并在單一連貫的推理過程中迭代地批評自己的視覺假設(shè)。
簡單來說,這就像給AI模型配備了一個(gè)內(nèi)部"畫板",讓它能夠隨時(shí)繪制草圖來幫助自己思考,然后對這些草圖進(jìn)行評價(jià)和改進(jìn),直到找到滿意的解決方案。這種方法自然地在模態(tài)間執(zhí)行測試時(shí)擴(kuò)展,使模型的思維能力隨著推理深度的增加而提升。
研究團(tuán)隊(duì)展示了兩種互補(bǔ)機(jī)制來實(shí)現(xiàn)這一目標(biāo):
首先是"帶中間視覺子目標(biāo)的視覺生成"。想象一個(gè)廚師在準(zhǔn)備復(fù)雜菜肴時(shí),會(huì)先分別準(zhǔn)備各種配料,然后將它們組合在一起。同樣,AI模型會(huì)將復(fù)雜的視覺任務(wù)分解為可管理的組件,生成這些組件,然后逐步整合它們。例如,當(dāng)被要求生成一張"沙發(fā)和酒杯的照片"時(shí),模型會(huì)先單獨(dú)生成沙發(fā),再生成酒杯,最后將兩者合理地組合在一張圖像中。
其次是"帶自我批評的視覺生成"。這就像一位藝術(shù)家先勾勒出草圖,然后批評性地分析其不足之處,最后基于這些反思創(chuàng)作出精細(xì)的作品。AI模型會(huì)生成初始視覺假設(shè),通過文本推理分析其缺點(diǎn),然后基于自己的批評生成改進(jìn)的輸出。例如,當(dāng)模型生成了一個(gè)海灘場景后,它會(huì)分析圖像中的問題(如"缺乏色彩鮮艷的沙灘傘"),然后生成一個(gè)修正這些問題的新版本。
這兩種機(jī)制不僅提高了模型處理復(fù)雜視覺任務(wù)的能力,還開啟了AI系統(tǒng)與人類創(chuàng)造性思維過程更為接近的可能性。
三、技術(shù)實(shí)現(xiàn):如何讓AI學(xué)會(huì)用圖像思考?
實(shí)現(xiàn)"用生成圖像思考"的關(guān)鍵挑戰(zhàn)在于,如何構(gòu)建一個(gè)能夠自然地在多種模態(tài)間思考的統(tǒng)一模型系統(tǒng)。研究團(tuán)隊(duì)選擇了基于自回歸式下一個(gè)token預(yù)測的大型語言模型(LLMs)作為基礎(chǔ)架構(gòu)。
他們使用了Anole(Chern等人,2024)作為基礎(chǔ)模型,這是一種統(tǒng)一的自回歸下一個(gè)token預(yù)測大型多模態(tài)模型,能夠直接預(yù)測下一個(gè)多模態(tài)(文本或圖像)token。Anole模型相比其他LMMs具有幾個(gè)關(guān)鍵優(yōu)勢:首先,它在交錯(cuò)的文本-圖像token上進(jìn)行預(yù)訓(xùn)練和后訓(xùn)練,使其具備生成交錯(cuò)多模態(tài)token的內(nèi)在能力;其次,Anole的圖像表示相對高效,每個(gè)圖像僅用1024個(gè)token編碼,使原生長多模態(tài)思維過程在合理的推理計(jì)算預(yù)算內(nèi)變得可行;最后,Anole的建模策略與最先進(jìn)的LLMs非常相似,能夠利用現(xiàn)有的LLMs訓(xùn)練和推理基礎(chǔ)設(shè)施。
研究團(tuán)隊(duì)精心策劃了監(jiān)督微調(diào)(SFT)數(shù)據(jù)集,包含多樣化的視覺(圖像)生成提示,以確保高質(zhì)量的對齊。為了使LMMs能夠執(zhí)行原生長多模態(tài)思維過程,他們精心設(shè)計(jì)和構(gòu)建了解決方案多模態(tài)推理鏈,以引導(dǎo)LMMs的能力自發(fā)地(1)批評自己生成的視覺步驟和(2)生成中間視覺子目標(biāo)。
在訓(xùn)練方面,研究團(tuán)隊(duì)設(shè)計(jì)了結(jié)合交叉熵?fù)p失和重建損失的損失函數(shù),以提高生成圖像的視覺質(zhì)量。訓(xùn)練分為兩個(gè)階段:首先在JourneyDB數(shù)據(jù)集上對Anole-7b進(jìn)行持續(xù)訓(xùn)練,增強(qiáng)模型的基本視覺生成能力;然后使用構(gòu)建的合成數(shù)據(jù)集進(jìn)行微調(diào),產(chǎn)生了兩個(gè)模型:TwGI-Anole-7b-Obj.(使用中間視覺子目標(biāo)數(shù)據(jù)集)和TwGI-Anole-7b-Crit.(使用自我批評視覺假設(shè)數(shù)據(jù)集)。
四、實(shí)驗(yàn)結(jié)果:AI的視覺思維能力有多強(qiáng)?
研究團(tuán)隊(duì)在GenEval和DPGBench這兩個(gè)標(biāo)準(zhǔn)圖像生成基準(zhǔn)上評估了他們的方法。結(jié)果令人印象深刻——"用生成圖像思考"的方法在處理復(fù)雜多物體場景時(shí)取得了顯著改進(jìn),相對基線方法提高了高達(dá)50%(從38%到57%)的性能。
具體來看,在GenEval基準(zhǔn)測試中,TwGI-Anole-7b-Obj.模型在"兩個(gè)物體"類別中顯著優(yōu)于基線Anole-7b模型(0.57對比0.38),表明其處理涉及多個(gè)實(shí)體的復(fù)雜提示的能力有所提高。它在位置和顏色屬性對齊方面也顯示出顯著改進(jìn),表明其進(jìn)行精確空間和視覺組合推理的能力更強(qiáng)。
同樣,在DPGBench上,TwGI-Anole-7b-Obj.在"實(shí)體"、"屬性"和"關(guān)系"類別中取得了實(shí)質(zhì)性的改進(jìn),反映了其對細(xì)粒度視覺語義的增強(qiáng)理解。這些改進(jìn)驗(yàn)證了研究團(tuán)隊(duì)的假設(shè):將視覺任務(wù)分解為中間子目標(biāo)使LMMs能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。
更令人驚訝的是,通過"帶自我批評的視覺生成",模型能夠糾正和改進(jìn)自己的視覺假設(shè)。例如,TwGI-Anole-7b-Crit.模型在自我批評步驟后實(shí)現(xiàn)了顯著的性能提升,將整體GenEval分?jǐn)?shù)從0.45提高到0.48,DPGBench分?jǐn)?shù)從62.83提高到67.14。這表明,通過文本推理鏈基于視覺反饋內(nèi)省地分析生成的圖像的能力,使模型能夠識(shí)別不匹配、幻覺或缺失元素,并隨后糾正它們。
這種視覺反饋循環(huán)反映了一種模態(tài)間協(xié)同作用,其中視覺和文本模態(tài)相互迭代引導(dǎo),就像人類在解決復(fù)雜問題時(shí)的思維過程一樣。
五、未來展望與局限性
雖然"用生成圖像思考"展示了令人興奮的潛力,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前方法的局限性。首先,當(dāng)前實(shí)現(xiàn)是基于Anole-7b模型的,而統(tǒng)一LMMs領(lǐng)域(特別是在開源領(lǐng)域)仍處于發(fā)展階段。隨著更強(qiáng)大的統(tǒng)一LMMs的出現(xiàn),研究團(tuán)隊(duì)預(yù)計(jì)"用生成圖像思考"范式將釋放更強(qiáng)大甚至是涌現(xiàn)的能力。
其次,雖然本研究專注于自回歸下一個(gè)token預(yù)測的LMMs,但核心理念可能適用于基于擴(kuò)散的LMMs或混合自回歸/擴(kuò)散的LMMs。這些架構(gòu)上的探索留待未來研究。
研究團(tuán)隊(duì)還提出了幾個(gè)有前景的未來研究方向:
1. 更好的基準(zhǔn)測試:"用生成圖像思考"。當(dāng)前的視覺生成基準(zhǔn)測試專注于標(biāo)準(zhǔn)圖像生成任務(wù),但隨著LMMs固有能力的增強(qiáng)和涌現(xiàn)能力的出現(xiàn),像圖1和圖2中所示的真實(shí)世界任務(wù)將變得越來越可行。需要更現(xiàn)實(shí)的基準(zhǔn)來評估這些模型。
2. 統(tǒng)一LMMs的測試時(shí)和后訓(xùn)練擴(kuò)展:本研究代表了統(tǒng)一LMMs測試時(shí)擴(kuò)展的第一步。隨著更強(qiáng)大的統(tǒng)一LMMs的出現(xiàn),測試時(shí)擴(kuò)展和后訓(xùn)練擴(kuò)展將變得更加可行、有效,值得進(jìn)一步探索。
3. LMMs的高效視覺表示:高效的視覺表示對于在視覺模態(tài)中實(shí)現(xiàn)可擴(kuò)展的測試時(shí)和后訓(xùn)練擴(kuò)展至關(guān)重要。最近的研究表明,圖像可以用少至32甚至16個(gè)token/patch有效表示,這一研究方向在未來有巨大潛力。
六、"用生成圖像思考"的現(xiàn)實(shí)應(yīng)用前景
"用生成圖像思考"范式為AI系統(tǒng)在各種真實(shí)世界應(yīng)用中開啟了變革性的可能性。從生物化學(xué)家探索新型蛋白質(zhì)結(jié)構(gòu),建筑師迭代空間設(shè)計(jì),到法醫(yī)分析師重建犯罪現(xiàn)場,以及籃球運(yùn)動(dòng)員設(shè)想戰(zhàn)術(shù)打法,這種方法使AI模型能夠參與一種視覺想象和迭代改進(jìn)的過程,這種過程體現(xiàn)了人類創(chuàng)造性、分析性和戰(zhàn)略性思維的特點(diǎn)。
例如,在醫(yī)學(xué)研究領(lǐng)域,科學(xué)家可以利用這種能力來探索新的分子結(jié)構(gòu),通過讓AI不斷生成和改進(jìn)可能的分子構(gòu)型,幫助發(fā)現(xiàn)新的藥物治療方法。在建筑設(shè)計(jì)中,專業(yè)人士可以與AI協(xié)作,通過視覺迭代優(yōu)化建筑空間的光線、功能和美學(xué)特性。在刑事偵查中,這種技術(shù)可以幫助重建事件序列,基于有限的證據(jù)生成可能的場景,并通過批判性思考識(shí)別最合理的解釋。
最令人興奮的是,隨著統(tǒng)一LMMs能力的不斷增強(qiáng),我們可以預(yù)見未來的AI模型將能夠像人類一樣自然地探索蛋白質(zhì)結(jié)構(gòu)或修改建筑設(shè)計(jì)——就像寫一首詩那樣直觀和流暢。這種能力將徹底改變專業(yè)人士與AI系統(tǒng)的交互方式,使創(chuàng)造性和分析性任務(wù)變得更加高效和創(chuàng)新。
七、結(jié)語:多模態(tài)思維的新時(shí)代
"用生成圖像思考"的研究為我們展示了AI系統(tǒng)如何逐漸接近人類的多模態(tài)認(rèn)知能力。通過使AI能夠在文本和視覺之間自然地思考,這項(xiàng)工作不僅提高了模型處理復(fù)雜視覺生成任務(wù)的能力,還為未來AI系統(tǒng)如何解決需要視覺推理和創(chuàng)造力的問題提供了一個(gè)框架。
正如人類在面對復(fù)雜問題時(shí)自然地利用多種思維模式一樣,這項(xiàng)研究表明,AI系統(tǒng)也能受益于整合多種模態(tài)的思維能力。雖然當(dāng)前的實(shí)現(xiàn)主要專注于文本和視覺模態(tài),但核心理念可以擴(kuò)展到更多樣化的模態(tài),如音頻、觸覺或三維空間表示。
隨著統(tǒng)一LMMs技術(shù)的不斷發(fā)展和成熟,我們可以期待未來的AI系統(tǒng)將能夠更加流暢地在多種模態(tài)間思考,從而解決當(dāng)前AI仍然難以應(yīng)對的復(fù)雜任務(wù),如直觀物理理解、長期規(guī)劃和創(chuàng)造性設(shè)計(jì)。這項(xiàng)研究不僅為多模態(tài)認(rèn)知和復(fù)雜視覺推理任務(wù)的未來研究奠定了基礎(chǔ),也為人工智能與人類思維方式更加接近的未來描繪了令人興奮的藍(lán)圖。
如果你對這項(xiàng)研究感興趣,可以通過GitHub(https://github.com/GAIR-NLP/thinking-with-generated-images)訪問研究團(tuán)隊(duì)的開源代碼,或查閱原始論文以了解更多技術(shù)細(xì)節(jié)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對培養(yǎng)AI空間智能的重要價(jià)值。