這項(xiàng)由中國科學(xué)技術(shù)大學(xué)(USTC)腦啟發(fā)智能感知與認(rèn)知教育部重點(diǎn)實(shí)驗(yàn)室和阿里巴巴通義實(shí)驗(yàn)室聯(lián)合完成的研究,發(fā)表于2025年5月的技術(shù)報告中。研究由王秋晨、丁瑞雪、曾宇、陳澤輝、陳林、王世航、謝鵬君、黃飛和趙峰等學(xué)者共同完成,論文已在arXiv預(yù)印本平臺公開,可通過https://github.com/Alibaba-NLP/VRAG獲取完整代碼和論文。
一、視覺豐富信息處理:當(dāng)前檢索增強(qiáng)生成方法的困境
想象你在尋找一個藏在倉庫里的寶藏。傳統(tǒng)的方式是你拿著手電筒,照著看到的地方搜索,但倉庫太大了,手電筒光線有限,你看不清遠(yuǎn)處的物品,也無法判斷哪些區(qū)域最可能藏有寶藏。現(xiàn)在,如果有一個能智能調(diào)節(jié)焦距、自動放大關(guān)鍵區(qū)域并幫你理清思路的智能手電筒,你尋寶的效率會大大提升。這正是本研究所做的事情,只不過它面對的是"視覺信息的海洋",而不是倉庫。
在人工智能領(lǐng)域,檢索增強(qiáng)生成(RAG)技術(shù)讓語言模型能夠利用外部信息解決各種問題。但傳統(tǒng)的基于文本的RAG方法在處理視覺豐富信息時面臨嚴(yán)峻挑戰(zhàn)。想象一下,當(dāng)你拿到一份包含圖表、圖像和復(fù)雜排版的報告時,如果只能讀取其中的文字,你會錯過多少關(guān)鍵信息?這正是傳統(tǒng)文本RAG的局限。
盡管研究人員已經(jīng)開始將RAG引入視覺領(lǐng)域,將視覺-語言模型(VLMs)與搜索引擎集成,但這些視覺RAG方法仍有兩個關(guān)鍵短板:一方面,它們?nèi)狈τ行评淼哪芰?,無法深入理解復(fù)雜的視覺信息;另一方面,它們往往受限于固定的處理流程,無法充分激活模型的基礎(chǔ)能力。就像一個人被限制只能用一種固定方式查看文檔,無法放大關(guān)注細(xì)節(jié),也不能縮小獲取全局視圖。
強(qiáng)化學(xué)習(xí)(RL)已被證明對模型推理能力的提升非常有效。通過讓模型像玩游戲一樣不斷嘗試不同策略并從經(jīng)驗(yàn)中學(xué)習(xí),RL能幫助模型掌握復(fù)雜的推理技巧?;谶@一認(rèn)識,本研究提出了VRAG-RL,一個專為復(fù)雜視覺信息推理設(shè)計(jì)的強(qiáng)化學(xué)習(xí)框架。
二、VRAG-RL:視覺感知型檢索增強(qiáng)生成的創(chuàng)新架構(gòu)
VRAG-RL就像是給視覺語言模型配備了一雙智能眼鏡,能夠自動調(diào)節(jié)焦距,聚焦于信息密集區(qū)域,并從粗略到精細(xì)地獲取信息。在這個框架下,視覺語言模型可以與搜索引擎互動,在視覺感知標(biāo)記的幫助下自主采樣單輪或多輪推理軌跡,并基于這些樣本持續(xù)優(yōu)化。
研究團(tuán)隊(duì)首先指出了RL在RAG領(lǐng)域的兩個關(guān)鍵限制:一是現(xiàn)有的多模態(tài)RAG方法僅僅將圖像嵌入到上下文中,導(dǎo)致推理標(biāo)記分配不足,忽視了視覺特定感知;二是當(dāng)模型與搜索引擎交互時,由于無法準(zhǔn)確表達(dá)需求,其查詢往往無法檢索到相關(guān)信息,從而導(dǎo)致性能不佳。
為了解決這些挑戰(zhàn),研究者定義了一個針對視覺豐富輸入的動作空間,包括裁剪和縮放等動作,使模型能夠從粗略到精細(xì)的角度收集信息。想象一下,當(dāng)你瀏覽一份復(fù)雜的文檔時,你會先大致瀏覽全文,然后放大關(guān)注那些看起來重要的部分。VRAG-RL正是模擬了這種人類自然的閱讀行為。
此外,為了彌合用戶原始查詢與檢索器之間的差距,研究團(tuán)隊(duì)設(shè)計(jì)了一個簡單而有效的獎勵機(jī)制,將查詢重寫、檢索性能與基于模型的獎勵集成在一起。這就像是教會模型不僅要"看得準(zhǔn)",還要"問得好",從而大幅提升整體效果。
VRAG-RL使用特別設(shè)計(jì)的RL策略優(yōu)化視覺語言模型以執(zhí)行RAG任務(wù),使模型與真實(shí)應(yīng)用場景更加匹配。這種方法不僅提高了模型處理視覺信息的能力,還增強(qiáng)了其與外部環(huán)境交互的效率。
三、技術(shù)創(chuàng)新:視覺感知動作空間與精細(xì)獎勵機(jī)制
傳統(tǒng)的RAG方法就像是用固定焦距的照相機(jī)拍攝復(fù)雜場景,無法根據(jù)需要調(diào)整視角和焦點(diǎn)。相比之下,VRAG-RL引入了視覺感知動作空間,使模型能夠像使用專業(yè)相機(jī)一樣,靈活地調(diào)整"鏡頭",從粗到細(xì)地捕捉信息。
在這個框架中,策略模型π_θ與環(huán)境進(jìn)行思考-動作-觀察(T,A,O)范式的交互。在每次交互中,模型根據(jù)前一步及更早的軌跡H_{t-1}生成下一個動作A_t。研究團(tuán)隊(duì)使用基于角色的函數(shù)來提取視覺感知標(biāo)記和,其主要目的是選擇、裁剪并放大已經(jīng)在上下文中檢索到的圖像中的感興趣區(qū)域:
當(dāng)觀察到一個w×h的圖像O_k時,感知標(biāo)記內(nèi)的邊界框[x_min, y_min, x_max, y_max]可以精確描繪感興趣區(qū)域R的位置。然后,系統(tǒng)會將選定的區(qū)域R從上下文中的圖像標(biāo)記映射到原始圖像,并裁剪出這一區(qū)域,再將其作為新的觀察結(jié)果整合到上下文中。這種簡單而有效的"裁剪并重新輸入"策略通過直接增加感知分辨率來增強(qiáng)視覺感知性能。
在獎勵機(jī)制設(shè)計(jì)方面,研究團(tuán)隊(duì)認(rèn)識到,與傳統(tǒng)RL方法僅關(guān)注輸出結(jié)果不同,VRAG-RL強(qiáng)調(diào)優(yōu)化RAG中的檢索過程,因?yàn)闄z索質(zhì)量直接影響整體性能。他們設(shè)計(jì)了一個包含三個組件的獎勵函數(shù):模式獎勵、檢索效率獎勵和基于模型的結(jié)果獎勵,指導(dǎo)模型高效檢索信息并生成高質(zhì)量答案。
特別值得一提的是檢索效率獎勵。研究發(fā)現(xiàn),當(dāng)信息足夠時,過長的上下文反而會干擾模型。因此,越早、越全面地檢索到相關(guān)信息,模型就能構(gòu)建更連貫、更有信息量的上下文來生成高質(zhì)量答案。研究團(tuán)隊(duì)借鑒歸一化折扣累積增益(NDCG)的思想,定義了檢索效率獎勵,鼓勵模型更早地檢索到相關(guān)信息。
對于模式一致性和基于模型的結(jié)果獎勵,研究者設(shè)計(jì)了基于規(guī)則的模式獎勵,鼓勵模型在交互過程中遵循推理模式,而結(jié)果獎勵則采用模型評估生成答案的正確性,避免了基于規(guī)則方法容易陷入局部最優(yōu)的問題。
最終的獎勵函數(shù)是這三個組件的加權(quán)組合,平衡了各組件的貢獻(xiàn):r_φ = α·r_Ret + β·r_Ans + γ·r_Pat。通過整合這三個組件,VRAG-RL提供了一個全面而精細(xì)的評估機(jī)制,引導(dǎo)模型優(yōu)化其推理和檢索能力,與真實(shí)應(yīng)用場景緊密對齊。
四、迭代推理的強(qiáng)化學(xué)習(xí)框架:讓視覺語言模型變得更聰明
VRAG-RL應(yīng)用強(qiáng)化學(xué)習(xí)來增強(qiáng)多模態(tài)RAG代理任務(wù)中視覺語言模型的能力。這個框架主要分為兩部分:多模態(tài)代理的推出過程和多輪交互的強(qiáng)化學(xué)習(xí)訓(xùn)練策略。
在與外部環(huán)境的多輪生成方面,模型通過多個回合與外部環(huán)境互動,其中觀察結(jié)果(即圖像)以用戶角色插入到軌跡中。這是為了與模型的預(yù)訓(xùn)練領(lǐng)域保持一致,因?yàn)樵陬A(yù)訓(xùn)練中,只有用戶標(biāo)記才能插入圖像標(biāo)記。
當(dāng)模型檢測到標(biāo)記時,它會提取搜索查詢并檢索相關(guān)圖像;當(dāng)檢測到標(biāo)記時,它會提取視覺感知標(biāo)記并處理圖像;當(dāng)檢測到標(biāo)記時,它會返回最終生成的軌跡。這種設(shè)計(jì)使模型能夠靈活地在搜索、細(xì)節(jié)感知和答案生成之間切換,就像人類在解決復(fù)雜問題時的自然思考過程。
在訓(xùn)練策略方面,VRAG-RL實(shí)現(xiàn)了群組相對策略優(yōu)化(GRPO)算法,該算法利用多個采樣輸出的平均獎勵作為基線,而不依賴于學(xué)習(xí)的價值函數(shù)。策略模型通過最大化以下目標(biāo)函數(shù)進(jìn)行優(yōu)化:
J_GRPO(θ) = E_{x~D,{y_i}^G_{i=1}~π_old(·|x;V)}[...]
在這里,推出模塊通過與外部環(huán)境交互,為每個輸入問題從參考策略π_ref采樣一組軌跡{y_1, y_2, ..., y_G}。優(yōu)勢A_{i,t}基于每個組內(nèi)輸出的相對獎勵計(jì)算。
這種訓(xùn)練方法使模型能夠從多樣化的交互中學(xué)習(xí),并根據(jù)不同情境調(diào)整其策略,從而更好地完成復(fù)雜的推理任務(wù)。就像一個探險家不斷嘗試不同路徑并從經(jīng)驗(yàn)中學(xué)習(xí),最終掌握穿越復(fù)雜地形的技巧一樣。
五、實(shí)驗(yàn)驗(yàn)證:VRAG-RL的卓越性能
研究團(tuán)隊(duì)在多個具有挑戰(zhàn)性的基準(zhǔn)測試上進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果表明VRAG-RL的表現(xiàn)顯著優(yōu)于現(xiàn)有方法。具體來說,在Qwen2.5-VL-7B上,VRAG-RL比現(xiàn)有方法提高了20%以上;在Qwen2.5-VL-3B上,提升更是達(dá)到了30%,充分證明了該方法的有效性。
在主要結(jié)果分析中,與純視覺方法相比,基于OCR的方法在視覺密集型基準(zhǔn)測試上顯示出明顯的局限性。這是因?yàn)橐曈X信息本質(zhì)上包含無法用文本表示的元素,如元素位置、布局和顏色等。此外,OCR模型的感知能力明顯不如當(dāng)前先進(jìn)的視覺語言模型,限制了框架的整體性能上限。
基于視覺的方法已被證明是比基于OCR的方法更優(yōu)雅的解決方案,特別是在與視覺理解相關(guān)的任務(wù)中。對于視覺領(lǐng)域的基于提示的基線,普通RAG和ReAct表現(xiàn)較差,遠(yuǎn)遠(yuǎn)落后于基于RL的基線和本研究的方法。
7B模型相比3B模型擁有更強(qiáng)的感知和理解能力,在各種數(shù)據(jù)集上表現(xiàn)出色。對于基于RL的基線,VRAG-RL在Qwen2.5-VL-7B-Instruct(34.7→57.1)和Qwen2.5-VL-3B-Instruct(21.3→53.5)上的表現(xiàn)也明顯優(yōu)于search-R1-VL。
在SlideVQA和ViDoSeek上的評估結(jié)果證明了模型在各種推理任務(wù)中推理能力的顯著提升。此外,MMLongBench包含多種視覺元素,表明模型在視覺感知能力方面的提升,這一現(xiàn)象與本研究提出的視覺感知動作空間相關(guān)。
各種基準(zhǔn)測試的結(jié)果證明了本研究方法在檢索和推理視覺豐富信息方面的有效性和泛化能力。
六、深入分析:VRAG-RL為何如此有效?
為什么VRAG-RL能夠取得如此顯著的性能提升?研究團(tuán)隊(duì)進(jìn)行了一系列分析,揭示了其成功的關(guān)鍵因素。
首先,更好的檢索促進(jìn)了高質(zhì)量生成。VRAG-RL框架顯著提高了檢索效率,這對構(gòu)建連貫、信息豐富的上下文至關(guān)重要。研究發(fā)現(xiàn),上下文長度對模型性能有重大影響——當(dāng)上下文過長時,會引入噪聲并干擾模型生成準(zhǔn)確答案的能力。相反,當(dāng)相關(guān)信息被早期、全面地檢索到時,模型可以構(gòu)建更專注、更有信息量的上下文。與傳統(tǒng)的基于提示的重寫方法相比,VRAG-RL在檢索相關(guān)信息方面更為有效,為視覺模型提供了更好的上下文來生成高質(zhì)量答案。
其次,視覺感知動作空間提供了細(xì)粒度的視角。框架中引入的視覺感知動作空間進(jìn)一步增強(qiáng)了理解能力,使模型能夠關(guān)注圖像中信息密集的區(qū)域。實(shí)驗(yàn)表明,VRAG-RL不僅在文本任務(wù)中表現(xiàn)良好,還在需要視覺感知能力的任務(wù)中顯示出明顯的改進(jìn),特別是在布局、圖表和圖形方面。這一點(diǎn)特別重要,因?yàn)榭紤]到當(dāng)前計(jì)算資源的限制,特別是視覺語言模型的高內(nèi)存消耗。使用這種動態(tài)分辨率策略,模型可以在有限計(jì)算資源的約束下實(shí)現(xiàn)更詳細(xì)的感知,而不是簡單地最大化原始圖像的分辨率。
第三,強(qiáng)化學(xué)習(xí)幫助模型有效執(zhí)行多步推理。提示基礎(chǔ)方法的一個主要挑戰(zhàn)是,隨著交互次數(shù)的增加,模型遵循指令的能力會減弱。雖然使用SFT預(yù)訓(xùn)練有助于模型在預(yù)定義模式中進(jìn)行推理,但它在一定程度上也影響了模型的固有基礎(chǔ)能力。為了進(jìn)一步探索RL在模型中激活多輪推理能力的效果,研究團(tuán)隊(duì)比較了有RL和無RL模型的迭代推理性能。結(jié)果顯示,使用RL的方法有效地減少了無效率并提高了完成率。它指導(dǎo)模型在推理過程的每一步做出最佳決策,使其能夠靈活調(diào)整策略,面對不同類型的域外視覺信息,從而更好地完成復(fù)雜的推理任務(wù)。
此外,基于模型的獎勵相比基于規(guī)則的獎勵提供了更穩(wěn)定的訓(xùn)練。以往的工作通常使用精確匹配作為獎勵,這過于嚴(yán)格。與數(shù)據(jù)相關(guān)問題的簡短答案不同,模型的回答很難與黃金答案完全匹配,導(dǎo)致訓(xùn)練效率低下。然而,使用召回作為獎勵可能導(dǎo)致誤判,使模型利用函數(shù)并產(chǎn)生重復(fù)響應(yīng),從而使訓(xùn)練不穩(wěn)定。相比之下,基于模型的獎勵利用評估模型以更靈活的方式評估生成響應(yīng)的質(zhì)量和相關(guān)性。這種方法不僅更符合實(shí)際應(yīng)用,還提供了更穩(wěn)定、更有效的訓(xùn)練信號,使VRAG-RL能夠在視覺推理任務(wù)中實(shí)現(xiàn)更穩(wěn)健的性能。
最后,從時間效率角度看,VRAG-RL與外部環(huán)境的多輪交互可能會增加延遲。普通RAG的延遲保持一致,因?yàn)樗粓?zhí)行一次搜索并提供答案?;谔崾镜姆椒≧eAct RAG也展示了多輪交互能力,這歸功于模型的基礎(chǔ)推理能力。然而,它僅限于兩個定義的動作:回答和搜索。由于缺乏足夠的感知能力,它往往陷入重復(fù)搜索循環(huán)。VRAG-RL為模型配備了一個視覺感知空間,可以有效理解視覺豐富的圖像。模型可以在檢索后快速提取答案,從而避免無效搜索。盡管延遲增加,但由于生成的答案質(zhì)量更高,使得延遲和準(zhǔn)確性之間的權(quán)衡在視覺豐富的檢索和理解任務(wù)中非常有利。
七、對比現(xiàn)有研究與未來展望
VRAG-RL在基于視覺的檢索增強(qiáng)生成領(lǐng)域取得了顯著進(jìn)展,但它也建立在一系列重要的先前研究基礎(chǔ)上。
傳統(tǒng)的基于文本的RAG方法通常涉及設(shè)計(jì)不同的代理與搜索引擎交互,但它們無法處理日益普及的電子文檔中包含的豐富視覺信息。最近,越來越多的研究專注于免OCR檢索方法,直接將文本查詢與圖像對齊。此外,更多的工作開始關(guān)注多模態(tài)RAG代理,實(shí)現(xiàn)更準(zhǔn)確的檢索和視覺信息提取。VRAG-RL通過將視覺感知動作融入視覺RAG,有效激活了視覺語言模型的推理和理解能力,在這些發(fā)展的基礎(chǔ)上更進(jìn)一步。
在強(qiáng)化學(xué)習(xí)與大型模型的結(jié)合方面,推理能力對模型有效解決復(fù)雜問題至關(guān)重要,而RL被證明是增強(qiáng)這些能力的強(qiáng)大方法。先前的工作將RL應(yīng)用于語言模型的訓(xùn)練,并逐漸擴(kuò)展到增強(qiáng)視覺語言模型的推理能力。最近的進(jìn)展看到RL被廣泛應(yīng)用于訓(xùn)練大型模型驅(qū)動的代理。這些代理,特別是RAG代理,需要強(qiáng)大的多步推理能力來有效與外部環(huán)境交互。然而,目前仍缺乏專門為多模態(tài)迭代推理定制的RL框架,而這對處理視覺豐富信息至關(guān)重要。VRAG-RL旨在填補(bǔ)這一空白,引入了一種新型RL框架,使視覺語言模型能夠通過視覺感知動作執(zhí)行迭代推理,從而增強(qiáng)其在復(fù)雜多模態(tài)檢索增強(qiáng)推理任務(wù)中的推理能力。
展望未來,研究團(tuán)隊(duì)計(jì)劃引入更多模擬人類處理復(fù)雜信息的方式的動作,使模型能夠更專注于深度思考。此外,他們還打算利用更先進(jìn)的模型減少幻覺,進(jìn)一步提高框架的準(zhǔn)確性和可靠性。這些方向?qū)⒂兄谕苿佣嗄B(tài)人工智能在處理視覺豐富信息方面的能力再上新臺階。
總之,VRAG-RL代表了視覺信息檢索、推理和理解領(lǐng)域的重要突破。通過其創(chuàng)新的視覺感知動作空間、精細(xì)的獎勵機(jī)制和強(qiáng)化學(xué)習(xí)訓(xùn)練框架,它使視覺語言模型能夠更有效地與搜索引擎交互,顯著增強(qiáng)了它們的推理和檢索能力。廣泛的評估證明了這種方法在視覺信息推理、檢索和理解方面的顯著優(yōu)勢,為未來的研究和應(yīng)用開辟了新的可能性。
好文章,需要你的鼓勵
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時實(shí)現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。