av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 別只看一眼就走:揭秘耶魯大學(xué)研究團(tuán)隊(duì)讓AI通過視覺回顧實(shí)現(xiàn)交互式推理的突破性方法

別只看一眼就走:揭秘耶魯大學(xué)研究團(tuán)隊(duì)讓AI通過視覺回顧實(shí)現(xiàn)交互式推理的突破性方法

2025-06-04 15:37
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 15:37 ? 科技行者

論文信息:《Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation》

這項(xiàng)研究由耶魯大學(xué)的Jiwan Chung、Junhyeok Kim、Siyeol Kim、首爾國(guó)立大學(xué)的Jaeyoung Lee以及耶魯大學(xué)的Minsoo Kim和Youngjae Yu共同完成,于2025年5月24日發(fā)表在arXiv預(yù)印本平臺(tái)上(arXiv:2505.18842v1)。

讓我們先了解研究背景:AI看圖的"目光不轉(zhuǎn)睛"問題

想象一下,你正在解決一道幾何題,題目包含一個(gè)三角形和內(nèi)切圓。你不會(huì)只看一眼圖形就立刻給出答案,對(duì)嗎?你會(huì)反復(fù)查看圖形——檢查角平分線,確認(rèn)切點(diǎn),根據(jù)對(duì)稱性或全等性調(diào)整你的推理。簡(jiǎn)而言之,人類在推理過程中會(huì)不斷回顧視覺信息,發(fā)現(xiàn)新細(xì)節(jié),完善之前的推斷,更新對(duì)整個(gè)問題的理解。

然而,現(xiàn)在的多模態(tài)大語言模型(MLLMs)卻做不到這一點(diǎn)。它們通常在推理開始時(shí)只看一眼圖像,然后完全依靠?jī)?nèi)部記憶進(jìn)行后續(xù)推理,就像一個(gè)學(xué)生被要求看一眼復(fù)雜的圖表后就把它藏起來,然后回答一系列相關(guān)問題。這顯然不符合人類自然的思考方式,也限制了這些模型在復(fù)雜視覺推理任務(wù)上的表現(xiàn)。

耶魯大學(xué)和首爾國(guó)立大學(xué)的研究團(tuán)隊(duì)意識(shí)到這個(gè)問題,提出了一個(gè)簡(jiǎn)單而深刻的問題:

"如何讓AI模型在推理過程中能夠有效地回顧圖像?"

研究團(tuán)隊(duì)的解決方案:v1系統(tǒng)——讓AI能夠"再看一眼"

為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了名為"v1"的系統(tǒng),這是一個(gè)輕量級(jí)的擴(kuò)展模塊,可以讓多模態(tài)大語言模型在推理過程中有選擇地回顧視覺輸入。這就像給模型配了一雙可以隨時(shí)"指向并復(fù)制"圖像區(qū)域的眼睛,使其能夠在整個(gè)推理過程中動(dòng)態(tài)地檢索相關(guān)的圖像區(qū)域。

想象一下這個(gè)系統(tǒng)的工作方式:當(dāng)AI在解決一個(gè)幾何問題時(shí),它可能首先分析整個(gè)圖形,然后當(dāng)需要計(jì)算特定角度時(shí),它會(huì)"指向"那個(gè)角,并將該區(qū)域的視覺信息復(fù)制到當(dāng)前的思考過程中。這就像人類用手指指著圖中的某個(gè)部分說"看這里"一樣自然。

這種方法的巧妙之處在于它的簡(jiǎn)單性和通用性。v1不需要對(duì)現(xiàn)有的AI架構(gòu)進(jìn)行大規(guī)模改動(dòng),只需添加兩個(gè)輕量級(jí)的線性層:一個(gè)用于"指向"(即決定看哪里),另一個(gè)用于"復(fù)制"(即提取相關(guān)的視覺信息)。這種設(shè)計(jì)使v1可以輕松集成到各種多模態(tài)大語言模型中,如LLaVA、Qwen-VL等。

研究團(tuán)隊(duì)如何訓(xùn)練v1系統(tǒng)

要讓AI學(xué)會(huì)何時(shí)以及看哪里,研究團(tuán)隊(duì)需要大量帶有視覺回顧標(biāo)注的推理過程示例。為此,他們創(chuàng)建了名為"v1g"的數(shù)據(jù)集,包含30萬個(gè)多模態(tài)推理路徑,每條路徑中的推理步驟都與圖像中的特定區(qū)域相關(guān)聯(lián)。

這個(gè)數(shù)據(jù)集的構(gòu)建過程分為三個(gè)階段:

首先,團(tuán)隊(duì)從預(yù)訓(xùn)練的多模態(tài)大語言模型中采樣各種推理軌跡,涵蓋不同的視覺推理任務(wù)。

其次,他們利用大語言模型(如Gemini-2.0-flash)對(duì)每條推理軌跡進(jìn)行分析,識(shí)別出需要視覺參考的步驟,并將其重寫為顯式的視覺查詢和檢索步驟。比如,當(dāng)模型在推理中提到"觀察三角形ABC的角平分線"時(shí),系統(tǒng)會(huì)將其轉(zhuǎn)換為對(duì)三角形ABC區(qū)域的明確引用。

最后,研究團(tuán)隊(duì)將每個(gè)視覺引用與輸入圖像中的特定邊界框相關(guān)聯(lián),使用了基于Qwen2.5-VL模型的視覺定位技術(shù)。這種技術(shù)不依賴于邊界框生成接口,而是通過分析模型的注意力圖來識(shí)別視覺焦點(diǎn)區(qū)域。

通過這三個(gè)步驟,研究團(tuán)隊(duì)成功地創(chuàng)建了一個(gè)大規(guī)模的、高質(zhì)量的視覺定位推理數(shù)據(jù)集,為v1系統(tǒng)的訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)。

v1系統(tǒng)的具體工作原理:像人類一樣"邊看邊想"

v1系統(tǒng)的核心創(chuàng)新在于它為多模態(tài)大語言模型添加了一種"指向和復(fù)制"機(jī)制。在技術(shù)上,這一機(jī)制擴(kuò)展了模型的輸出空間,使其不僅可以生成詞匯表中的標(biāo)記,還可以生成指向輸入圖像特定位置的指針。

在推理過程中,模型在每一步都會(huì)計(jì)算兩種分布:一種是普通的詞匯生成分布,決定下一個(gè)生成的詞;另一種是指向分布,決定是否以及指向圖像的哪個(gè)部分。如果模型選擇指向圖像的某個(gè)區(qū)域,那么該區(qū)域的視覺嵌入就會(huì)被復(fù)制并作為下一步的輸入,使模型能夠直接關(guān)注并重新解讀該視覺信息。

這種機(jī)制使v1系統(tǒng)能夠像人類一樣在推理過程中動(dòng)態(tài)地回顧和重新解釋視覺信息,從而更好地處理需要細(xì)致視覺參考和多步推理的任務(wù)。

研究發(fā)現(xiàn):視覺注意力在推理過程中會(huì)衰減

在開發(fā)v1系統(tǒng)之前,研究團(tuán)隊(duì)首先進(jìn)行了一項(xiàng)重要的分析,探索現(xiàn)有模型在推理過程中的視覺注意力如何變化。他們使用RefCOCO數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集的任務(wù)是生成唯一標(biāo)識(shí)圖像中特定區(qū)域的描述。

研究團(tuán)隊(duì)分析了TVC-7B模型在生成過程中的注意力權(quán)重,發(fā)現(xiàn)了兩個(gè)關(guān)鍵現(xiàn)象:

首先,隨著生成步驟的增加,模型對(duì)所有圖像標(biāo)記的總注意力逐漸減少,表明模型越來越依賴其內(nèi)部記憶而非視覺輸入。

其次,模型對(duì)任務(wù)相關(guān)區(qū)域的注意力相對(duì)于背景區(qū)域的比例也隨時(shí)間減少。具體來說,在生成中期,所有層的注意力比例收斂到約0.8,表明對(duì)顯著區(qū)域的注意力相對(duì)于背景減弱。

這些發(fā)現(xiàn)表明,雖然圖像嵌入在整個(gè)解碼過程中都是可用的,但模型缺乏一種顯式機(jī)制來重新聚焦于關(guān)鍵的視覺區(qū)域。這正是v1系統(tǒng)試圖解決的問題。

v1系統(tǒng)的實(shí)際表現(xiàn):三項(xiàng)多模態(tài)數(shù)學(xué)推理基準(zhǔn)測(cè)試

研究團(tuán)隊(duì)在三個(gè)知名的多模態(tài)數(shù)學(xué)推理基準(zhǔn)上評(píng)估了v1系統(tǒng)的性能:MathVista、MathVision和MathVerse。這些基準(zhǔn)測(cè)試了模型將視覺上下文整合到符號(hào)推理鏈中的能力。

實(shí)驗(yàn)結(jié)果令人印象深刻:v1系統(tǒng)在所有基準(zhǔn)測(cè)試上都表現(xiàn)出色,超越了同等規(guī)模的現(xiàn)有模型,并接近了更大規(guī)模模型的能力。特別是在MathVision這個(gè)以復(fù)雜性和對(duì)多模態(tài)推理更高要求而著稱的基準(zhǔn)上,v1的性能提升尤為顯著。

具體來說,7B參數(shù)規(guī)模的v1模型在MathVista上達(dá)到了68.6%的準(zhǔn)確率,在MathVision mini上達(dá)到了34.5%的準(zhǔn)確率,在MathVerse mini上達(dá)到了48.6%的準(zhǔn)確率。這些成績(jī)不僅超過了同樣規(guī)模的通用和專門用于推理的多模態(tài)大語言模型,甚至接近了一些72B參數(shù)規(guī)模模型的表現(xiàn)。

研究團(tuán)隊(duì)還進(jìn)行了消融研究,以隔離v1系統(tǒng)各個(gè)組件的貢獻(xiàn)。實(shí)驗(yàn)表明,能夠通過指向機(jī)制主動(dòng)檢索和納入相關(guān)視覺標(biāo)記是在復(fù)雜多模態(tài)推理任務(wù)上取得強(qiáng)大性能的關(guān)鍵。

案例分析:v1如何解決實(shí)際視覺推理問題

為了更直觀地理解v1系統(tǒng)的工作方式,研究團(tuán)隊(duì)提供了幾個(gè)定性分析案例。

以一個(gè)柱狀圖理解任務(wù)為例:?jiǎn)栴}是確定一個(gè)叫做"E"的糖果被學(xué)生選擇的百分比。v1系統(tǒng)首先使用其指向機(jī)制精確定位對(duì)應(yīng)于糖果E的柱子,然后基于總計(jì)數(shù)計(jì)算正確的百分比。相比之下,沒有視覺回顧能力的基線模型錯(cuò)誤地識(shí)別了最高的柱子,導(dǎo)致結(jié)果被高估。

在另一個(gè)涉及六邊形路徑尋找的任務(wù)中,v1系統(tǒng)通過關(guān)注選項(xiàng)中的結(jié)構(gòu)差異,正確推理了空間連通性,而基線模型未能過濾無效候選項(xiàng),給出了錯(cuò)誤答案。

這些例子突顯了主動(dòng)視覺回顧通過指向如何實(shí)現(xiàn)比僅基于文本的思維鏈方法更精確、更可解釋的推理。

v1如何利用指向的視覺區(qū)域

研究團(tuán)隊(duì)還分析了v1系統(tǒng)如何利用通過指向和復(fù)制機(jī)制檢索的視覺區(qū)域。他們比較了在生成第一個(gè)復(fù)制標(biāo)記后,對(duì)原始視覺標(biāo)記和復(fù)制標(biāo)記的注意力。

在早期和中間層(如第2層和第14層),復(fù)制注意力明顯占主導(dǎo)地位,表明v1系統(tǒng)主動(dòng)依賴檢索的視覺內(nèi)容進(jìn)行基于地面的推理。相比之下,后期層(如第27層)中的注意力在輸入和復(fù)制標(biāo)記之間更為平衡,可能是為了促進(jìn)規(guī)劃和選擇后續(xù)指向目標(biāo)。

這種分析表明,v1系統(tǒng)能夠有效地利用其指向和復(fù)制機(jī)制,在推理過程中主動(dòng)關(guān)注和整合相關(guān)的視覺信息。

研究的局限性與未來發(fā)展方向

雖然v1系統(tǒng)在結(jié)構(gòu)化多模態(tài)推理方面表現(xiàn)出色,但研究團(tuán)隊(duì)也認(rèn)識(shí)到了幾個(gè)局限性和未來的研究方向。

首先,v1目前主要在數(shù)學(xué)領(lǐng)域展示了其效果,將其擴(kuò)展到其他領(lǐng)域——如科學(xué)圖表、醫(yī)學(xué)圖像或視覺常識(shí)——將面臨新的表示和監(jiān)督挑戰(zhàn)。這些領(lǐng)域通常缺乏結(jié)構(gòu)化的推理軌跡,使數(shù)據(jù)收集變得更加困難。

其次,近期在推理時(shí)間縮放和對(duì)齊方面的工作顯示了基于獎(jiǎng)勵(lì)的學(xué)習(xí)對(duì)推理的潛力。將這些方法納入v1系統(tǒng)可能會(huì)使視覺檢索策略更加靈活和高效,而無需密集的監(jiān)督。

總結(jié):視覺回顧對(duì)AI推理的重要性

這項(xiàng)研究展示了一個(gè)簡(jiǎn)單而深刻的洞察:多模態(tài)AI系統(tǒng)在推理過程中應(yīng)該能夠主動(dòng)回顧視覺輸入,就像人類一樣。研究團(tuán)隊(duì)開發(fā)的v1系統(tǒng)通過一種輕量級(jí)的指向和復(fù)制機(jī)制實(shí)現(xiàn)了這一能力,使模型能夠在推理過程中動(dòng)態(tài)地檢索和重新解釋相關(guān)的視覺信息。

實(shí)驗(yàn)結(jié)果表明,這種能力顯著提高了模型在多模態(tài)推理任務(wù)上的性能,特別是那些需要精確視覺定位和多步推理的任務(wù)。更重要的是,這種方法不需要對(duì)現(xiàn)有架構(gòu)進(jìn)行大規(guī)模修改,可以輕松集成到各種多模態(tài)大語言模型中。

這項(xiàng)研究為未來的多模態(tài)推理系統(tǒng)指明了一條有前途的道路:不僅要讓AI系統(tǒng)能夠"看到",還要讓它們能夠在思考過程中"再看一眼"。就像人類在解決復(fù)雜問題時(shí)會(huì)反復(fù)參考視覺信息一樣,這種能力對(duì)于構(gòu)建更強(qiáng)大、更人性化的AI系統(tǒng)至關(guān)重要。

對(duì)于未來的研究,更多關(guān)注如何讓AI系統(tǒng)不僅能夠回顧視覺輸入,還能夠修改或生成新的視覺表示以支持更復(fù)雜的推理過程,將是一個(gè)有前途的方向。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-