av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 進(jìn)擊的多模態(tài)推理:浙大&復(fù)旦聯(lián)合研究團(tuán)隊揭秘從優(yōu)化冷啟動到分階段強化學(xué)習(xí)的全新訓(xùn)練范式

進(jìn)擊的多模態(tài)推理:浙大&復(fù)旦聯(lián)合研究團(tuán)隊揭秘從優(yōu)化冷啟動到分階段強化學(xué)習(xí)的全新訓(xùn)練范式

2025-06-07 22:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 22:25 ? 科技行者

在人工智能領(lǐng)域,多模態(tài)大語言模型(MLLM)的推理能力一直是研究熱點。近日,由浙江大學(xué)、復(fù)旦大學(xué)、蘇州大學(xué)和上海人工智能實驗室等機構(gòu)組成的研究團(tuán)隊在《arXiv:2506.04207v1》(2025年6月4日發(fā)布)上分享了他們的最新研究成果——ReVisual-R1,這一創(chuàng)新性的開源模型在復(fù)雜推理任務(wù)上取得了令人矚目的進(jìn)展。

想象一下,如果人工智能能夠像偵探一樣,不僅能看懂眼前的圖像,還能基于這些視覺信息進(jìn)行深入的推理和解題。這正是這項研究所追求的目標(biāo)。研究團(tuán)隊的主要貢獻(xiàn)者包括浙江大學(xué)的陳帥和復(fù)旦大學(xué)的郭悅(共同第一作者),以及上海人工智能實驗室的曲曉曄和香港中文大學(xué)的程宇(共同通訊作者)等多位研究者。

這項研究的核心靈感來自于純文本模型DeepSeek-R1在復(fù)雜推理任務(wù)中展現(xiàn)的卓越能力。許多研究者試圖將類似的技術(shù)直接應(yīng)用到多模態(tài)模型中,卻收效甚微。為什么會這樣?這就像是試圖教一個人同時學(xué)會看圖和解數(shù)學(xué)題,直接照搬教數(shù)學(xué)的方法常常不奏效。

研究團(tuán)隊并沒有孤立地看待多模態(tài)強化學(xué)習(xí)問題,而是深入研究了整個訓(xùn)練流程,發(fā)現(xiàn)了三個關(guān)鍵現(xiàn)象:首先,良好的冷啟動初始化對增強模型推理能力至關(guān)重要;其次,標(biāo)準(zhǔn)的GRPO算法在多模態(tài)強化學(xué)習(xí)中存在梯度停滯問題;最后,在多模態(tài)強化學(xué)習(xí)階段后進(jìn)行的純文本強化學(xué)習(xí)可以進(jìn)一步增強多模態(tài)推理能力。

基于這些發(fā)現(xiàn),研究團(tuán)隊開發(fā)了ReVisual-R1模型,并在MathVerse、MathVision、WeMath、LogicVista、DynaMath等多個基準(zhǔn)測試中取得了開源7B模型中的最佳表現(xiàn),甚至在AIME2024和AIME2025等極具挑戰(zhàn)性的測試中也展現(xiàn)出色。

一、冷啟動初始化:文本推理的重要基礎(chǔ)

研究團(tuán)隊的第一個重要發(fā)現(xiàn)堪稱是一個意外之喜。想象你正在教一個孩子解決數(shù)學(xué)應(yīng)用題,你會發(fā)現(xiàn),讓他先掌握純數(shù)學(xué)推理能力,再教他理解帶圖的應(yīng)用題,效果往往比直接從圖像應(yīng)用題開始要好得多。

研究人員發(fā)現(xiàn),僅僅使用精心挑選的純文本數(shù)據(jù)進(jìn)行冷啟動訓(xùn)練,就能使模型在多模態(tài)推理任務(wù)上的表現(xiàn)超過許多現(xiàn)有的多模態(tài)推理模型,甚至不需要進(jìn)行多模態(tài)強化學(xué)習(xí)。這就像是先教會孩子深入思考的能力,然后再教他如何將這種能力應(yīng)用到具體問題上。

為了驗證這一發(fā)現(xiàn),研究團(tuán)隊收集了兩個開源的冷啟動多模態(tài)數(shù)據(jù)集(Vision-R1和R1-One-Vision)以及兩個冷啟動文本數(shù)據(jù)集(DeepMath和OpenR1-Math),并隨機抽取了40,000個樣本用于微調(diào)Qwen2.5-VL-7B-Instruct模型。結(jié)果表明,使用純文本冷啟動數(shù)據(jù)訓(xùn)練的模型在文本和多模態(tài)推理任務(wù)上都表現(xiàn)出顯著的改進(jìn),而僅使用多模態(tài)數(shù)據(jù)集訓(xùn)練的模型在兩種任務(wù)上的增益都有限。

研究團(tuán)隊進(jìn)一步分析了100個樣本,發(fā)現(xiàn)對文本提示的響應(yīng)平均長度為8,207.76個詞元,遠(yuǎn)超對多模態(tài)提示的821.48個詞元。此外,Vision-R1的通過率為96.00%,而DeepMath僅為75.0%。這些發(fā)現(xiàn)表明,現(xiàn)有的多模態(tài)冷啟動數(shù)據(jù)集可能缺乏足夠的復(fù)雜性來激發(fā)模型的高級推理能力。

二、GRAMMAR數(shù)據(jù)集:多模態(tài)推理的新基礎(chǔ)

基于對開源推理數(shù)據(jù)的可變性的深入理解,研究團(tuán)隊開發(fā)了GRAMMAR,這是一個新數(shù)據(jù)集,旨在增強多模態(tài)模型推理能力的泛化能力。GRAMMAR包含47k多樣化的文本思維樣本(帶有明確的推理路徑),31k復(fù)雜的純文本示例,以及21k帶有真實標(biāo)注的多模態(tài)問題,適用于基于規(guī)則的強化學(xué)習(xí)。

構(gòu)建GRAMMAR涉及多階段的精心策劃。研究團(tuán)隊首先收集了各種難度的開源推理數(shù)據(jù),然后通過基于規(guī)則的過濾確保答案的可驗證性,排除了證明問題和具有難以驗證的真實答案的問題。隨后,研究人員使用Qwen2.5-VL-7B-Instruct進(jìn)行初步篩選,剔除過于簡單或復(fù)雜的問題,再利用Qwen2.5-VL-32B-Instruct評估剩余樣本,將它們分為十個難度級別。

為了最大化數(shù)據(jù)多樣性并最小化冗余,研究團(tuán)隊使用NV-Embedding-V2對問題進(jìn)行編碼,應(yīng)用HDBSCAN進(jìn)行聚類,通過Qwen2.5-7B-Instruct為聚類分配主題,并在主題和難度層面上進(jìn)行平衡抽樣。這就像是為學(xué)生精心設(shè)計一套由淺入深、涵蓋各種知識點的習(xí)題集,確保學(xué)習(xí)過程既全面又高效。

三、分階段強化優(yōu)化(SRO):多模態(tài)推理的三步培養(yǎng)法

研究團(tuán)隊基于數(shù)據(jù)調(diào)查和GRAMMAR數(shù)據(jù)集的精心策劃,提出了分階段強化優(yōu)化(SRO)框架,旨在系統(tǒng)地培養(yǎng)MLLM中的穩(wěn)健推理和多樣能力。這個框架通過一系列獨特的學(xué)習(xí)階段來實現(xiàn)這一目標(biāo),每個階段都針對特定的訓(xùn)練挑戰(zhàn),并利用GRAMMAR數(shù)據(jù)集的適當(dāng)組件。

SRO的第一階段是多模態(tài)強化學(xué)習(xí)(MRL),這個階段對于使MLLM將文本概念與視覺信息聯(lián)系起來并執(zhí)行跨模態(tài)推理至關(guān)重要。研究團(tuán)隊采用GRPO作為核心RL算法,并集成了兩個關(guān)鍵增強:優(yōu)先級優(yōu)勢提煉(PAD)和高效長度獎勵函數(shù)。

PAD是為了解決GRPO在復(fù)雜多模態(tài)設(shè)置中面臨的"梯度停滯"問題。當(dāng)處理稀疏二進(jìn)制獎勵時,這個問題尤為嚴(yán)重。如果生成的響應(yīng)組得到統(tǒng)一的獎勵(例如,全部正確或全部錯誤),則優(yōu)勢信號變?yōu)榱?,?dǎo)致那些樣本的策略梯度為零,從而停止學(xué)習(xí)。PAD通過戰(zhàn)略性地集中更新最具信息量的樣本(具有明顯的非零優(yōu)勢信號)來優(yōu)化訓(xùn)練過程。

高效長度獎勵函數(shù)則用于控制生成響應(yīng)的冗長程度。雖然復(fù)雜推理任務(wù)通常需要更長的輸出,但過長的序列可能會適得其反。因此,研究團(tuán)隊引入了一個高效長度獎勵來調(diào)節(jié)生成響應(yīng)的冗長度。

SRO的第二階段是純文本強化學(xué)習(xí)(TRL)。研究團(tuán)隊發(fā)現(xiàn),密集的MRL訓(xùn)練可能會無意中導(dǎo)致純文本能力下降,這被定義為"文本能力衰減"。為了進(jìn)一步提升模型的抽象推理能力,研究團(tuán)隊集成了TRL階段,旨在實現(xiàn)穩(wěn)健的語言流暢性和高級推理能力。

這種分階段訓(xùn)練方法有效地平衡了感知接地和認(rèn)知推理發(fā)展,就像是先教會學(xué)生識別視覺元素,然后再教他們?nèi)绾螌⑦@些視覺信息與深入的文本推理相結(jié)合,最后再強化他們的文本表達(dá)能力,使整個推理過程更加流暢和準(zhǔn)確。

四、優(yōu)先級優(yōu)勢提煉(PAD):提升多模態(tài)強化學(xué)習(xí)效率

在多模態(tài)強化學(xué)習(xí)中,研究團(tuán)隊發(fā)現(xiàn)了一個顯著的挑戰(zhàn)——"梯度停滯"。這個現(xiàn)象指的是由于接近零的優(yōu)勢估計占主導(dǎo)地位而導(dǎo)致學(xué)習(xí)效率降低,特別是在處理稀疏二元獎勵時尤為嚴(yán)重。

想象一下,如果你在教一個學(xué)生解題,但無法明確告訴他哪些方法是有效的、哪些是無效的(都給出相同的反饋),那么學(xué)生就無法調(diào)整自己的策略。這就是多模態(tài)模型在訓(xùn)練過程中面臨的問題。

為了專門應(yīng)對梯度停滯并提高GRPO的效率,研究團(tuán)隊引入了優(yōu)先級優(yōu)勢提煉(PAD)。PAD通過戰(zhàn)略性地集中每個批次中最具信息量的樣本來優(yōu)化訓(xùn)練過程,即那些表現(xiàn)出顯著的非零優(yōu)勢信號的樣本。

PAD機制的工作流程如下:首先,計算每個序列的絕對優(yōu)勢,代表其學(xué)習(xí)信號的大小;然后,形成一個"有效集",選擇絕對優(yōu)勢落在指定信息范圍內(nèi)的序列;最后,從這個有效集中抽取樣本形成一個提煉的小批次,抽樣基于序列的絕對優(yōu)勢進(jìn)行優(yōu)先級排序。

溫度參數(shù)控制抽樣集中度,通常在訓(xùn)練過程中從1.0線性衰減到0.3,以從探索轉(zhuǎn)向利用。這樣,小批次就會被最具信息量的樣本所豐富。

PAD直接通過雙重機制對抗梯度停滯:首先,過濾掉停滯的樣本;其次,使用剩余集合中具有信息量的非零優(yōu)勢優(yōu)先進(jìn)行更新。這種對學(xué)習(xí)過程的選擇性優(yōu)化確保了高效的計算資源分配。因此,PAD導(dǎo)致增強的訓(xùn)練穩(wěn)定性、改進(jìn)的學(xué)習(xí)效率,以及更有效地獲取復(fù)雜推理技能,尤其是在具有稀疏或二進(jìn)制獎勵的挑戰(zhàn)場景中。

五、ReVisual-R1:分階段訓(xùn)練的實證成功

ReVisual-R1模型的訓(xùn)練遵循研究團(tuán)隊提出的三階段方法,利用精心策劃的數(shù)據(jù)集進(jìn)行每個階段的訓(xùn)練。冷啟動階段使用了大約40k純文本條目,重點是建立基礎(chǔ)語言理解;隨后的多模態(tài)強化學(xué)習(xí)(MRL)階段使用了來自GRAMMAR數(shù)據(jù)集的約26k多樣化多模態(tài)條目,以發(fā)展跨模態(tài)推理;最后,基于文本的RL(TRL)階段包含了約30k文本條目,旨在完善細(xì)微理解和生成能力。

研究團(tuán)隊在一套全面的基準(zhǔn)測試上評估了ReVisual-R1,這些基準(zhǔn)測試被選擇來測試不同的推理技能。對于視覺數(shù)學(xué)推理,他們使用了MathVerse、MathVision、WeMath和DynaMath;更廣泛的多模態(tài)推理使用MathVista和LogicVista進(jìn)行評估;而挑戰(zhàn)性文本數(shù)學(xué)推理的表現(xiàn)則在AIME24/25和MATH-500上測量;通用問答則使用GPQA進(jìn)行測試。

實驗結(jié)果令人印象深刻。ReVisual-R1在多模態(tài)推理基準(zhǔn)測試中取得了開源7B模型中的最佳表現(xiàn),甚至優(yōu)于一些商業(yè)大型MLLM。具體來說,ReVisual-R1實現(xiàn)了53.1%的令人印象深刻的平均分?jǐn)?shù),比之前的開源SOTA平均水平提高了+16.8個百分點。

ReVisual-R1在九個基準(zhǔn)測試中獲得了開源競爭者中的第一名:MathVerse(+5.4% ?)、MathVision(+13.9% ?)、DynaMath(+9.8% ?)、WeMath(+0.2% ?)、LogicVista(+9.6% ?)、AIME24(+44.6% ?)、AIME25(+15.4% ?)、GPQA(+10.1% ?)和MATH500(+23.4% ?)。最顯著的增益在具有挑戰(zhàn)性的AIME24、MATH500和AIME25基準(zhǔn)測試中觀察到,突顯了ReVisual-R1的高級數(shù)學(xué)和推理能力。

值得注意的是,與閉源商業(yè)模型相比,ReVisual-R1也表現(xiàn)出高度競爭力。例如,其平均分?jǐn)?shù)(53.1%)超過了OpenAI-GPT-4o(41.6%)。在特定的要求較高的基準(zhǔn)測試(如MATH500)上,ReVisual-R1(89.2%)優(yōu)于doubao-1.5-vision-pro-32k(85.2%)和OpenAI-GPT-4o(74.6%)。類似地,在AIME24和AIME25上,ReVisual-R1比這些商業(yè)產(chǎn)品表現(xiàn)出顯著領(lǐng)先優(yōu)勢。

六、深入理解分階段訓(xùn)練的重要性

研究團(tuán)隊進(jìn)行了消融研究,以驗證他們的分階段強化優(yōu)化(SRO)框架。他們測試了多模態(tài)RL(MRL)和基于文本的RL(TRL)階段的不同組合,所有組合都建立在優(yōu)化的文本中心冷啟動(CS)之上。

實證證據(jù)強烈支持研究團(tuán)隊提出的CS + MRL + TRL(ReVisual-R1-MTR)序列,該序列在各類測試中持續(xù)產(chǎn)生最高的平均性能(49.6 Avg)。這個結(jié)果證實了研究團(tuán)隊的核心假設(shè):首先進(jìn)行專門建立強視覺接地的MRL階段,然后進(jìn)行TRL階段來完善文本流暢性和抽象推理,對于開發(fā)卓越的多模態(tài)能力而不降低基礎(chǔ)跨模態(tài)理解至關(guān)重要。

更詳細(xì)的分析顯示,僅CS + MRL模型(47.7 Avg),雖然在視覺密集型任務(wù)(如MathVista,71.9)上表現(xiàn)良好,但沒有達(dá)到完整MTR序列的整體性能。這表明MRL雖然至關(guān)重要,但可能導(dǎo)致"文本能力衰減",而后續(xù)的TRL階段有效地緩解了這一問題。

另一種SRO排序,CS + TRL + MRL(45.5 Avg),也比研究團(tuán)隊的MTR方法效果差。這一發(fā)現(xiàn)表明,在密集的文本精煉之前建立強視覺接地允許更協(xié)同的學(xué)習(xí),其中TRL階段可以增強已經(jīng)連接跨模態(tài)的推理。

這些消融結(jié)果為MRL-then-TRL排序在SRO框架內(nèi)提供了令人信服的理由。這種戰(zhàn)略排序首先使模型多模態(tài)接地,然后銳化其語言和抽象推理能力,最終形成一個更全面的高性能MLLM。

七、PAD與高效長度獎勵:改進(jìn)模型訓(xùn)練的工具箱

研究團(tuán)隊還進(jìn)行了消融研究,以評估優(yōu)先級優(yōu)勢提煉(PAD)、其核心組件以及對關(guān)鍵超參數(shù)的敏感性。

為了評估PAD的影響,將其完整實現(xiàn)與GRPO-Baseline、GRPO-Filter-only和Random-Sampling策略進(jìn)行了比較。結(jié)果表明,完整的PAD在數(shù)學(xué)推理基準(zhǔn)測試上實現(xiàn)了卓越的性能,突顯了其核心組件(有效樣本過濾和優(yōu)先級子采樣)的重要性。

訓(xùn)練動態(tài)進(jìn)一步證實了PAD的有效性,其采樣策略產(chǎn)生更高的獎勵準(zhǔn)確性和更快的收斂,從而提高學(xué)習(xí)效率。在多模態(tài)RL中,研究團(tuán)隊還設(shè)計了一個高效長度獎勵函數(shù),該函數(shù)顯著影響訓(xùn)練。

正則化模型保持穩(wěn)定和更高的獎勵準(zhǔn)確性以及持續(xù)低熵。相比之下,基線模型遭受了準(zhǔn)確性下降和熵急劇增加。此外,高效長度獎勵有助于維持穩(wěn)定的平均響應(yīng)長度和低裁剪比率,不像基線模型那樣表現(xiàn)出響應(yīng)長度的不受控制增長和相應(yīng)的更高裁剪比率。

總而言之,高效長度獎勵對于穩(wěn)定訓(xùn)練、防止準(zhǔn)確性下降、保持低模型熵和控制冗長度至關(guān)重要。這些工具共同為多模態(tài)推理模型的訓(xùn)練提供了更加穩(wěn)定和高效的方法。

八、結(jié)語:解鎖多模態(tài)推理的未來

本研究引入了ReVisual-R1,這是一個7B開源MLLM,旨在解決培養(yǎng)復(fù)雜多模態(tài)推理的普遍挑戰(zhàn)。通過系統(tǒng)地整合高難度純文本冷啟動階段以建立基礎(chǔ)推理能力,使用由我們新穎的優(yōu)先級優(yōu)勢提煉(PAD)機制穩(wěn)定的GRPO和基于規(guī)則的獎勵(包括高效長度獎勵)的多模態(tài)RL階段,以及最終的TextRL精煉階段,我們的結(jié)構(gòu)化三階段課程表明,周到的數(shù)據(jù)策略和有針對性的算法優(yōu)化至關(guān)重要。

ReVisual-R1在一系列具有挑戰(zhàn)性的視覺數(shù)學(xué)和推理基準(zhǔn)測試中實現(xiàn)了開源7B模型中的最佳表現(xiàn)。這項工作強調(diào),仔細(xì)的課程設(shè)計和算法增強,而不是僅僅依靠模型規(guī)模,可以解鎖穩(wěn)健的、自反思的多模態(tài)推理。

正如一位讀者所評論的:"這就像是先教會孩子如何深入思考,再教他如何將這種思考能力應(yīng)用到視覺問題上,最后再打磨他的表達(dá)能力,使整個推理過程更加流暢和準(zhǔn)確。這種分階段的教學(xué)方法,在人工智能訓(xùn)練中展現(xiàn)出了驚人的效果。"

這項研究不僅推動了多模態(tài)推理的邊界,也為今后的研究提供了寶貴的方向,展示了如何通過精心設(shè)計的訓(xùn)練策略,使AI模型能夠更好地理解和推理復(fù)雜的多模態(tài)信息。研究團(tuán)隊的代碼已經(jīng)在GitHub上開源,有興趣的讀者可以通過https://github.com/CSfufu/Revisual-R1訪問并深入了解。

分享至
1贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-