這項由阿里巴巴DAMO院與南洋理工大學、新加坡科技設(shè)計大學聯(lián)合開展的研究發(fā)表于2025年9月,研究人員包括來自DAMO院的冷思聰、王靜、張昊等學者,以及南洋理工大學的陸維、孫愛新、盧時堅等專家。這項名為"MMR1:通過方差感知采樣和開放資源增強多模態(tài)推理"的研究,為解決AI多模態(tài)推理訓練中的關(guān)鍵技術(shù)難題提供了新的解決方案。有興趣深入了解的讀者可以通過論文編號arXiv:2509.21268v1查詢完整論文。
在AI發(fā)展的浪潮中,讓機器能夠像人類一樣進行復雜的數(shù)學推理一直是個巨大挑戰(zhàn)。就像教小孩學數(shù)學一樣,AI需要通過大量練習來掌握解題技巧,但在這個過程中經(jīng)常遇到一個叫"梯度消失"的技術(shù)難題。想象你在教孩子做數(shù)學題時,如果每次給的練習題都太簡單或太難,孩子就很難從中學到東西。AI也面臨類似問題——當訓練數(shù)據(jù)的獎勵差異太小時,AI就像遇到了學習瓶頸,進步緩慢甚至停滯不前。
這個問題在使用強化學習訓練AI時尤為突出。強化學習就像給AI設(shè)置一個獎懲機制,做對題目就給獎勵,做錯就不給或給負獎勵。但現(xiàn)有的訓練方法GRPO(群體相對策略優(yōu)化)有個致命弱點:當AI對同一類題目的表現(xiàn)過于一致時,獎勵之間的差異就會變得很小,導致學習信號微弱,就像老師給學生的反饋太模糊,學生無法從中獲得有效指導。
研究團隊針對這個核心問題,開發(fā)了一套名為"方差感知采樣"(VAS)的創(chuàng)新訓練策略。這個方法的核心思想很像一位經(jīng)驗豐富的老師挑選練習題的智慧。優(yōu)秀的老師知道,最有效的練習題應該是那些學生有時能做對、有時會做錯的題目,因為這類題目能提供最豐富的學習信息。
具體來說,研究團隊設(shè)計了一個"方差促進評分"(VPS)系統(tǒng),這個系統(tǒng)就像一個智能的題目篩選器。它會評估每個訓練題目的"教學價值"——那些能產(chǎn)生不同結(jié)果的題目會被認為更有價值。這個評分系統(tǒng)包含兩個關(guān)鍵組成部分:結(jié)果方差評分(OVS)和軌跡多樣性評分(TDS)。
結(jié)果方差評分關(guān)注的是AI對某個題目的答題結(jié)果是否有足夠的變化。如果AI對一道題總是答對或總是答錯,這道題的教學價值就不高。但如果AI有時能答對、有時會答錯,說明這道題正好處在AI的學習邊界上,最適合用來訓練。這就像游戲中的難度設(shè)置,太簡單的關(guān)卡玩家會覺得無聊,太難的關(guān)卡會讓玩家放棄,只有難度適中的關(guān)卡才能讓玩家在挑戰(zhàn)中不斷進步。
軌跡多樣性評分則關(guān)注AI解題過程的多樣性。即使對同一道題,AI可能會采用不同的解題思路和步驟。就像同一道數(shù)學題可以用多種方法求解一樣,AI如果能在解題過程中展現(xiàn)出多樣性,說明它正在探索不同的推理路徑,這對學習來說是非常有價值的。
有了這套評分系統(tǒng),研究團隊就能智能地選擇訓練數(shù)據(jù)了。他們的訓練策略是將每個訓練批次分成兩部分:一部分根據(jù)VPS評分來選擇那些最有教學價值的題目,另一部分則隨機選擇題目以保證訓練的全面性。這種混合策略既確保了訓練的針對性,又避免了過度專注于某類題目而忽略其他內(nèi)容。
為了驗證這套方法的有效性,研究團隊不僅開發(fā)了算法,還精心構(gòu)建了大規(guī)模的訓練數(shù)據(jù)集。他們收集了約160萬個長鏈式思考數(shù)據(jù)用于初始訓練,這些數(shù)據(jù)包含了詳細的解題步驟和推理過程。同時,他們還構(gòu)建了約1.5萬個用于強化學習的問答對,涵蓋了數(shù)學、科學、圖表分析等多個領(lǐng)域。
數(shù)據(jù)的質(zhì)量控制也體現(xiàn)了研究團隊的用心。他們使用先進的AI模型來生成和驗證答案,確保訓練數(shù)據(jù)的準確性。對于數(shù)學問題,他們特別關(guān)注難度分布,將問題分為簡單、中等和困難三個級別,優(yōu)先保留中等和困難的問題用于訓練,因為這些問題更能鍛煉AI的推理能力。
在理論分析方面,研究團隊提供了嚴格的數(shù)學證明來支撐他們的方法。他們證明了獎勵方差與策略梯度幅度之間存在正相關(guān)關(guān)系,這意味著通過增加獎勵方差確實能夠增強學習信號。這個理論基礎(chǔ)為他們的方法提供了堅實的科學依據(jù)。
實驗結(jié)果令人印象深刻。研究團隊在多個標準測試集上評估了他們的方法,包括MathVerse、MathVista、MathVision、LogicVista和ChartQA等知名基準。結(jié)果顯示,采用他們方法訓練的模型在幾乎所有測試中都取得了最佳性能。特別值得注意的是,即使是較小的3B參數(shù)模型也能與一些7B參數(shù)的競爭對手相媲美,這說明他們的方法不僅有效,而且高效。
研究團隊還進行了詳細的消融實驗來分析各個組件的貢獻。結(jié)果表明,方差感知采樣策略確實能夠顯著改善訓練效果,而且其中的兩個評分組件——結(jié)果方差評分和軌跡多樣性評分——各自都有重要作用,它們的結(jié)合產(chǎn)生了最佳效果。
在訓練效率方面,采用方差感知采樣的模型展現(xiàn)出更強的梯度信號和更穩(wěn)定的訓練過程。研究團隊監(jiān)測了訓練過程中的關(guān)鍵指標,發(fā)現(xiàn)使用他們方法的模型梯度幅度更大、裁剪頻率更高,這些都表明訓練過程更加高效和穩(wěn)定。
為了展示模型的實際推理能力,研究團隊提供了詳細的案例分析。以一道幾何題為例,他們的模型能夠系統(tǒng)地分析問題、制定解題計劃、逐步執(zhí)行計算,并在過程中進行自我驗證和糾錯。這種結(jié)構(gòu)化的推理過程體現(xiàn)了模型在復雜問題解決方面的強大能力。
研究團隊還分析了訓練過程中方差促進評分的動態(tài)變化。他們發(fā)現(xiàn),隨著訓練的進行,高分題目的分布會逐漸穩(wěn)定,這表明模型正在識別并專注于那些最有學習價值的題目。同時,評分系統(tǒng)也會適應性地調(diào)整,確保始終能夠選擇到合適的訓練數(shù)據(jù)。
除了算法創(chuàng)新,這項研究的另一個重要貢獻是向?qū)W術(shù)界開放了大量高質(zhì)量的訓練資源。研究團隊不僅發(fā)布了他們精心構(gòu)建的數(shù)據(jù)集,還開源了完整的訓練代碼和預訓練模型。這種開放的態(tài)度為整個研究社區(qū)提供了寶貴的資源,有助于推動多模態(tài)推理技術(shù)的進一步發(fā)展。
在超參數(shù)敏感性分析中,研究團隊發(fā)現(xiàn)他們的方法對于關(guān)鍵參數(shù)的選擇相當穩(wěn)健?;旌媳壤⒏骂l率、采樣數(shù)量等關(guān)鍵參數(shù)在合理范圍內(nèi)都能保持良好的性能,這說明該方法具有良好的實用性和可操作性。
值得一提的是,這項研究不僅解決了技術(shù)問題,還為未來的研究指明了方向。通過深入分析梯度消失問題的根源并提出有效解決方案,研究團隊為多模態(tài)推理領(lǐng)域的發(fā)展做出了重要貢獻。他們的工作表明,通過巧妙的數(shù)據(jù)選擇策略,可以顯著提升強化學習的效果,這個思路也可能被應用到其他AI訓練任務中。
盡管取得了顯著成果,研究團隊也坦誠地指出了當前方法的局限性。雖然方差感知采樣能夠緩解梯度消失問題,但并不能完全解決多模態(tài)強化學習中的所有訓練不穩(wěn)定性問題。此外,計算方差促進評分需要額外的計算開銷,雖然可以通過調(diào)整更新間隔等方式來緩解。
展望未來,研究團隊認為這項工作開啟了多個有前景的研究方向。他們建議將方差感知采樣擴展到更廣泛的領(lǐng)域,探索其與不同獎勵設(shè)計的結(jié)合,以及與更先進的強化學習算法的整合。這些后續(xù)研究有望進一步提升訓練效率和模型性能。
說到底,這項研究就像給AI的數(shù)學學習過程裝上了一個智能導師系統(tǒng)。這個導師不僅知道如何挑選最有價值的練習題,還能動態(tài)調(diào)整教學策略,確保AI能夠高效地掌握復雜的推理技能。通過解決梯度消失這個核心技術(shù)難題,研究團隊為AI在數(shù)學推理、科學分析等復雜任務上的應用鋪平了道路。
更重要的是,他們開放共享的態(tài)度為整個AI研究社區(qū)提供了寶貴資源。其他研究者可以在此基礎(chǔ)上繼續(xù)創(chuàng)新,推動多模態(tài)AI技術(shù)向更高水平發(fā)展。這種協(xié)作精神正是科技進步的重要推動力,也讓我們對AI未來在教育、科研等領(lǐng)域的應用充滿期待。這項研究不僅是技術(shù)上的突破,更是為AI賦予更強推理能力邁出的重要一步。
Q&A
Q1:什么是方差感知采樣,它是如何解決AI訓練問題的?
A:方差感知采樣是一種智能的訓練數(shù)據(jù)選擇策略,就像經(jīng)驗豐富的老師挑選練習題一樣。它會優(yōu)先選擇那些AI有時能答對、有時會答錯的題目進行訓練,因為這類題目能提供最豐富的學習信息,從而解決強化學習中的梯度消失問題。
Q2:阿里巴巴DAMO院開發(fā)的MMR1模型在數(shù)學推理方面表現(xiàn)如何?
A:MMR1模型在多個標準測試中都取得了最佳性能,7B參數(shù)版本平均得分達到58.4,超越了所有同類模型。更令人驚喜的是,3B參數(shù)的小版本也能與許多7B參數(shù)的競爭對手相媲美,顯示出極高的訓練效率。
Q3:這項研究對普通人有什么實際意義?
A:這項研究讓AI在數(shù)學解題、圖表分析等復雜推理任務上更加智能和可靠,未來可能應用于智能教育、科研輔助等領(lǐng)域。研究團隊還開源了代碼和數(shù)據(jù),為整個AI社區(qū)提供了寶貴資源,有助于推動相關(guān)技術(shù)的快速發(fā)展。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。