av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 通過獎(jiǎng)勵(lì)優(yōu)化圖像描述:讓多模態(tài)大模型擁有推理能力而不用重新訓(xùn)練視覺模塊

通過獎(jiǎng)勵(lì)優(yōu)化圖像描述:讓多模態(tài)大模型擁有推理能力而不用重新訓(xùn)練視覺模塊

2025-06-11 07:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-11 07:49 ? 科技行者

最近,由南方科技大學(xué)、香港科技大學(xué)、華為諾亞方舟實(shí)驗(yàn)室和華為云的研究團(tuán)隊(duì)發(fā)布了一項(xiàng)重要研究,題為《感知解耦:通過獎(jiǎng)勵(lì)優(yōu)化圖像描述實(shí)現(xiàn)可擴(kuò)展多模態(tài)推理》。論文于2025年6月5日發(fā)表在arXiv預(yù)印本平臺(tái)上,論文鏈接為https://github.com/gyhdog99/RACRO2/。讓我們一起來了解這項(xiàng)研究的創(chuàng)新之處。

研究背景:慢思考型語言模型的崛起與多模態(tài)推理的挑戰(zhàn)

近年來,人工智能領(lǐng)域出現(xiàn)了一類被稱為"慢思考型"的大語言模型,如OpenAI的o1、DeepSeek的R1、谷歌的Gemini-Thinking以及阿里的Qwen3等。這些模型模仿人類的反思性思維過程,通過一步步推理而非依賴表面快捷方式來解決復(fù)雜問題。在數(shù)學(xué)和科學(xué)任務(wù)上,它們比傳統(tǒng)的"快思考型"模型(如GPT-4o和Claude 3.5)表現(xiàn)出顯著優(yōu)勢,在AIME24和AMC23等數(shù)學(xué)基準(zhǔn)測試上提高了超過30%的性能,在GPQA等科學(xué)基準(zhǔn)測試上也有約10%的提升。

然而,當(dāng)研究者們?cè)噲D將這種"慢思考"能力引入多模態(tài)大語言模型(MLLMs)時(shí),遇到了一個(gè)關(guān)鍵挑戰(zhàn):每當(dāng)想要升級(jí)底層的推理大語言模型時(shí),都需要重新進(jìn)行昂貴的視覺-語言對(duì)齊訓(xùn)練。這就像你買了一臺(tái)帶GPS的汽車,但每次想要升級(jí)GPS系統(tǒng)時(shí),都必須重新組裝整臺(tái)車一樣荒謬且耗費(fèi)資源。

現(xiàn)有的方法,如VL-Rethinker和MM-EUREKA,通常會(huì)對(duì)預(yù)訓(xùn)練的MLLM(例如Qwen2.5-VL)進(jìn)行微調(diào),但這種方法有兩個(gè)明顯的局限性:一是受限于初始化所用的基礎(chǔ)大語言模型的能力;二是適配更先進(jìn)的大語言模型需要重新進(jìn)行視覺-語言對(duì)齊,這涉及處理數(shù)萬億個(gè)token,計(jì)算成本極高。

感知解耦:一個(gè)直觀但具有挑戰(zhàn)性的解決方案

一個(gè)看似直觀的解決方案是將感知與推理解耦——也就是說,先把視覺輸入轉(zhuǎn)換為語言表示(例如圖像描述),然后將這些文本傳遞給純文本的推理模型處理。這有點(diǎn)像你請(qǐng)一位朋友描述一幅畫,然后另一位擅長解題的朋友根據(jù)這個(gè)描述來解決問題。

然而,這種解耦方法引入了一個(gè)關(guān)鍵挑戰(zhàn):視覺提取器必須生成既忠實(shí)于圖像又足夠信息豐富的描述,以支持準(zhǔn)確的下游推理。就像如果你的第一位朋友描述不準(zhǔn)確或遺漏了關(guān)鍵細(xì)節(jié),即使你的第二位朋友解題能力再強(qiáng),也無法得出正確答案。

實(shí)際上,現(xiàn)有的多模態(tài)大語言模型在生成推理相關(guān)描述時(shí)常常遇到困難,特別是對(duì)于復(fù)雜的數(shù)學(xué)和科學(xué)視覺輸入。它們可能產(chǎn)生視覺幻覺(描述實(shí)際不存在的內(nèi)容),或者生成過于模糊、細(xì)節(jié)不足的描述,導(dǎo)致下游推理失敗。

RACRO:通過獎(jiǎng)勵(lì)優(yōu)化圖像描述實(shí)現(xiàn)感知解耦

為了解決這一挑戰(zhàn),研究團(tuán)隊(duì)提出了"基于獎(jiǎng)勵(lì)優(yōu)化圖像描述的推理對(duì)齊感知解耦"(RACRO)——一種通過強(qiáng)化學(xué)習(xí)來引導(dǎo)視覺提取器生成有助于推理的圖像描述的策略。

想象RACRO就像是一個(gè)教練系統(tǒng),它通過不斷反饋來訓(xùn)練第一位描述圖像的朋友(視覺提取器),使其學(xué)會(huì)提供更有用、更準(zhǔn)確的描述,從而幫助第二位解題的朋友(推理模型)取得成功。

RACRO框架包含兩個(gè)主要步驟:

**提取階段**:一個(gè)多模態(tài)大語言模型(如Qwen2.5-VL或InternVL3)根據(jù)圖像和問題生成兩個(gè)互補(bǔ)輸出:一個(gè)針對(duì)問題的圖像描述和一個(gè)初步解答。這個(gè)描述不是泛泛而談,而是有選擇地捕捉與問題相關(guān)的視覺內(nèi)容,作為推理對(duì)齊的抽象表示。盡管初步解答可能不夠準(zhǔn)確(由于多模態(tài)模型的推理能力有限),但它通常包含有用的歸納信號(hào),可以指導(dǎo)下游推理。

**推理階段**:一個(gè)純文本大語言模型(如R1-Distilled-7B/32B、Qwen3-8B或QwQ-32B)接收問題、推理對(duì)齊的圖像描述和初步解答,然后生成最終答案。這就像把第一位朋友的描述和初步想法交給第二位專業(yè)解題的朋友,讓他給出最終答案。

RACRO的核心創(chuàng)新在于引入了"圖像描述獎(jiǎng)勵(lì)優(yōu)化"(CRO)——一種強(qiáng)化學(xué)習(xí)算法,通過下游推理的成功與否來微調(diào)提取器的行為。具體來說,對(duì)于給定的輸入圖像和問題,提取器會(huì)生成多個(gè)候選描述;每個(gè)描述都會(huì)傳遞給推理器,并根據(jù)推理器是否生成正確答案來分配獎(jiǎng)勵(lì)。這種反饋循環(huán)引導(dǎo)提取器生成更加忠實(shí)和問題相關(guān)的描述。

實(shí)驗(yàn)結(jié)果:RACRO的性能與可擴(kuò)展性

在MathVerse、MathVision和LogicVista等多模態(tài)推理基準(zhǔn)測試上的實(shí)驗(yàn)表明,RACRO方法取得了令人印象深刻的成果。更重要的是,RACRO支持即插即用的適配,可以在無需額外多模態(tài)重新訓(xùn)練的情況下集成最新的推理大語言模型。

一個(gè)特別引人注目的發(fā)現(xiàn)是RACRO的可擴(kuò)展性。研究者們發(fā)現(xiàn),即使RACRO只使用相對(duì)較小的模型(如R1-Distilled-7B)進(jìn)行訓(xùn)練,它在推理階段仍然可以無縫適配更大、更強(qiáng)的語言模型(如R1-Distilled-32B或QwQ-32B),性能隨之顯著提升。這就像你訓(xùn)練了一個(gè)助手善于描述圖像,然后可以靈活地搭配不同級(jí)別的解題專家,而不需要重新訓(xùn)練這個(gè)描述助手。

具體來看,將RACRO應(yīng)用于Qwen2.5-VL-7B并使用相同大小的推理器(R1-Distilled-7B)可獲得+4.9%的平均性能提升。當(dāng)使用更大的推理器(如R1-Distilled-32B)時(shí),性能進(jìn)一步提高了+6.7%。對(duì)于Qwen2.5-VL-32B,應(yīng)用RACRO后在MathVision、MathVerse和LogicVista上的表現(xiàn)甚至超過了更大的模型,如InternVL3-78B-MPO。

與現(xiàn)有的Best-of-8搜索方法相比,RACRO也展現(xiàn)出更好的結(jié)果。尤其對(duì)于較強(qiáng)的多模態(tài)大語言模型(如Qwen2.5-VL-32B),VisualPRM-8B-v1.1只提供了有限的改進(jìn)(+1.6%),而RACRO展示了更強(qiáng)的可擴(kuò)展性:當(dāng)與VisualPRM-8B-v1.1相同大小的推理器配對(duì)時(shí),它可將Qwen2.5-VL-32B的性能提高+3.4%。這種改進(jìn)無需任何重新訓(xùn)練就能實(shí)現(xiàn),彰顯了RACRO的即插即用兼容性。

深入理解RACRO的工作原理

為了進(jìn)一步理解RACRO的有效性,研究團(tuán)隊(duì)進(jìn)行了多項(xiàng)消融研究。他們發(fā)現(xiàn):

**解耦組件的有效性**:當(dāng)將提取器生成的初步解答作為輸入提供給推理語言模型時(shí),性能明顯提升,這表明推理器能夠有效地完善多模態(tài)大語言模型的初步輸出。

**圖像描述的質(zhì)量至關(guān)重要**:實(shí)驗(yàn)顯示,在不進(jìn)行圖像描述獎(jiǎng)勵(lì)優(yōu)化的情況下,僅依靠多模態(tài)大語言模型生成的描述往往會(huì)因?yàn)橐曈X幻覺和缺少關(guān)鍵細(xì)節(jié)而導(dǎo)致推理失敗。應(yīng)用CRO后,描述質(zhì)量顯著提高,包含更多與問題相關(guān)的視覺細(xì)節(jié),組織更加層次化和結(jié)構(gòu)化。

**CRO與GRPO的互補(bǔ)性**:RACRO的圖像描述獎(jiǎng)勵(lì)優(yōu)化(CRO)與現(xiàn)有的用于改進(jìn)推理能力的組相對(duì)策略優(yōu)化(GRPO)是互補(bǔ)的。結(jié)合兩者可以帶來顯著的性能提升,超過單獨(dú)使用任一方法的效果。

**CRO訓(xùn)練動(dòng)態(tài)**:隨著訓(xùn)練的進(jìn)行,獎(jiǎng)勵(lì)分?jǐn)?shù)和描述長度都呈現(xiàn)上升趨勢,表明多模態(tài)大語言模型正在學(xué)習(xí)生成更全面、更有助于推理的描述。

真實(shí)案例分析

為了具體理解RACRO的優(yōu)勢,讓我們看一個(gè)幾何問題的例子:

在一個(gè)問題中,需要基于圖像中的幾何圖形推理角度關(guān)系。使用未經(jīng)CRO優(yōu)化的Qwen2.5-VL-3B,模型生成的描述僅包含了基本信息:"圖像顯示了一個(gè)幾何圖形,線段AB和CD平行。線段EG平分角度BEF。角度1標(biāo)記為50度。"

而經(jīng)過CRO優(yōu)化后的同一模型生成了更詳細(xì)的描述:"圖像是一個(gè)幾何圖,包含以下元素:兩條平行線段AB和CD;一條線段EF;一個(gè)點(diǎn)G,其中線段EG與線段CD相交;角F處標(biāo)記為50°;角G處標(biāo)記為2;問題詢問角度2的測量值,選項(xiàng)有:A:50°,B:60°,C:65°,D:90°。圖中顯示一個(gè)三角形△EFG,F(xiàn)點(diǎn)角度1和G點(diǎn)角度2,F(xiàn)點(diǎn)角度給定為50°。問題要求在AB∥CD且EG平分角∠BEF的條件下,求角度2。"

這種更詳細(xì)的描述使得推理模型能夠捕捉到所有關(guān)鍵信息,從而正確解決問題。研究表明,使用CRO優(yōu)化后的描述,在各個(gè)數(shù)據(jù)集上的表現(xiàn)都優(yōu)于未優(yōu)化的描述,特別是在需要精確視覺細(xì)節(jié)的復(fù)雜推理問題上。

RACRO的廣泛影響與未來方向

RACRO為構(gòu)建高效的多模態(tài)推理系統(tǒng)提供了一種新思路。通過將視覺感知與推理解耦,并通過強(qiáng)化學(xué)習(xí)使它們對(duì)齊,RACRO使得我們可以靈活地利用最先進(jìn)的大語言模型進(jìn)行復(fù)雜推理,而無需昂貴的視覺-語言重新對(duì)齊。

這種方法不僅在理論上具有意義,在實(shí)踐中也展現(xiàn)出巨大潛力:它可以大幅降低模型升級(jí)的成本,使得將最新的推理能力整合到多模態(tài)系統(tǒng)中變得更加容易和高效。

未來的研究方向包括:進(jìn)一步增強(qiáng)視覺感知能力,例如利用AI生成的數(shù)據(jù)和增強(qiáng)的視覺表示;探索RACRO在醫(yī)學(xué)視覺問答和地理空間推理等其他重要領(lǐng)域的應(yīng)用潛力。

總的來說,RACRO代表了一種智能且資源高效的方法,使多模態(tài)大語言模型能夠擁抱最新的推理技術(shù)進(jìn)步,同時(shí)避免了傳統(tǒng)方法中昂貴的視覺-語言重新對(duì)齊過程。它就像是為多模態(tài)AI系統(tǒng)建立了一座靈活的橋梁,讓視覺理解和邏輯推理能夠高效協(xié)作,而不必每次升級(jí)系統(tǒng)的一部分時(shí)都重建整個(gè)橋梁。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-