這項由北京中科院大學的趙宇忠、劉悅,香港中文大學的劉俊鵬,香港科技大學的陳靖燁,以及微軟研究院的吳洵、郝雅茹、呂騰超、黃少涵、崔雷、葉其祥、萬方、韋福如等研究者組成的國際團隊,于2025年7月在arXiv上發(fā)表了這項突破性研究。有興趣深入了解的讀者可以通過https://aka.ms/GeneralAI訪問相關(guān)研究資源,或在GitHub上查看開源代碼:https://github.com/callsys/GMPO。
當我們教孩子學數(shù)學時,通常會讓他們反復練習,從錯誤中學習,逐步提高解題能力。人工智能也是如此——它需要通過不斷的嘗試和調(diào)整來提升自己的推理能力。然而,就像一個過于急躁的學生可能會因為一次考試失敗就徹底改變學習方法一樣,現(xiàn)有的AI訓練方法也存在著"情緒不穩(wěn)定"的問題。
目前最先進的大語言模型訓練方法叫做"群體相對策略優(yōu)化"(GRPO),可以把它理解為一種"集體學習法"。就像老師讓一群學生同時做同一道題,然后根據(jù)大家的平均表現(xiàn)來調(diào)整每個學生的學習策略。這種方法確實有效,但問題在于,如果某個學生表現(xiàn)特別好或特別差,就會對整個集體的"平均分"產(chǎn)生巨大影響,進而導致所有學生的學習計劃都被打亂。
在AI的世界里,這種現(xiàn)象被稱為"重要性采樣比率過于極端"。簡單來說,就是AI在學習過程中會遇到一些"特別難"或"特別容易"的例子,這些極端情況會讓AI的學習變得不穩(wěn)定,就像坐過山車一樣忽上忽下。這種不穩(wěn)定性不僅影響學習效果,還可能讓AI變得過于保守,不敢嘗試新的解題方法。
面對這個問題,研究團隊提出了一個創(chuàng)新的解決方案:幾何平均策略優(yōu)化(GMPO)。如果說傳統(tǒng)的GRPO方法像是計算所有學生成績的算術(shù)平均分,那么GMPO就像是計算幾何平均分。這兩種平均方法的區(qū)別可以用一個簡單的例子來說明:假設有三個學生的成績分別是60分、80分和100分,算術(shù)平均分是80分;但如果其中一個學生考了0分,另外兩個還是80分和100分,算術(shù)平均分就變成了60分,下降了25%。而幾何平均分在面對這種極端情況時,變化幅度會小得多,更加穩(wěn)定。
這種穩(wěn)定性的好處體現(xiàn)在多個方面。首先,GMPO讓AI的學習過程變得更加平穩(wěn),就像一個經(jīng)驗豐富的老師,不會因為某個學生的特殊表現(xiàn)就大幅調(diào)整整個班級的教學計劃。其次,GMPO允許AI在更大的"探索范圍"內(nèi)學習,就像給學生更多的試錯機會,鼓勵他們嘗試不同的解題思路。
研究團隊通過大量實驗驗證了GMPO的優(yōu)勢。他們使用了多個不同規(guī)模的AI模型,在五個數(shù)學推理基準測試上進行了全面對比。結(jié)果顯示,使用GMPO訓練的7B參數(shù)模型在數(shù)學推理任務上的平均準確率比傳統(tǒng)GRPO方法提高了4.1%,這在AI領(lǐng)域是一個相當顯著的提升。更重要的是,在幾何推理這樣的多模態(tài)任務中,GMPO也展現(xiàn)出了1.4%的性能提升。
為了更好地理解GMPO的工作原理,我們可以把AI的學習過程想象成一個廚師學習做菜的過程。傳統(tǒng)的GRPO方法就像是每次都根據(jù)所有菜品的平均評分來調(diào)整做菜方法,但如果某道菜特別成功或特別失敗,就會導致廚師過度調(diào)整整個烹飪風格。而GMPO則更像是一個經(jīng)驗豐富的主廚,會綜合考慮所有菜品的表現(xiàn),但不會因為個別極端情況就徹底改變自己的烹飪哲學。
具體來說,GMPO在處理"獎勵信號"時采用了幾何平均的方式。在AI訓練中,每當模型生成一個正確答案,就會獲得正向獎勵;生成錯誤答案則獲得負向獎勵。傳統(tǒng)方法直接對這些獎勵進行算術(shù)平均,容易被極端值影響。GMPO則通過幾何平均的方式,讓這些獎勵信號的影響更加均衡,避免了"一票否決"或"一好遮百丑"的情況。
研究團隊還發(fā)現(xiàn),GMPO在訓練過程中表現(xiàn)出了更好的"探索能力"。這就像是一個學生在解題時愿意嘗試多種不同的方法,而不是只會一種套路。通過分析訓練過程中的"熵值"(可以理解為AI思維的活躍程度),研究者發(fā)現(xiàn)GMPO訓練的模型始終保持著較高的創(chuàng)造性和靈活性,而傳統(tǒng)方法訓練的模型則很快就變得僵化和保守。
同時,GMPO還表現(xiàn)出了更好的"穩(wěn)定性"。研究團隊通過監(jiān)測訓練過程中模型與初始狀態(tài)的"距離"(用KL散度衡量),發(fā)現(xiàn)GMPO能夠在學習新知識的同時保持相對穩(wěn)定,不會出現(xiàn)大幅波動。這就像是一個學生在學習新知識時,能夠在不忘記已有知識的基礎上穩(wěn)步提升,而不是時好時壞。
在技術(shù)實現(xiàn)上,GMPO還采用了一些巧妙的設計。比如,它使用了"詞元級裁剪"而不是"序列級裁剪"。這種差別可以用修改文章來類比:序列級裁剪就像是要么完全接受一篇文章,要么完全拒絕;而詞元級裁剪則像是可以接受文章中的好段落,同時修改有問題的部分。這種更精細的控制方式讓AI能夠更好地從部分正確的答案中學習。
另外,GMPO還擴大了"裁剪范圍",允許AI在更大的空間內(nèi)探索可能的解決方案。如果說傳統(tǒng)方法給AI設定了一個較小的"試錯空間",那么GMPO就像是給了AI一個更大的實驗室,讓它可以嘗試更多的可能性。研究顯示,這種擴大的探索空間配合幾何平均的穩(wěn)定性,能夠在不犧牲訓練穩(wěn)定性的前提下顯著提升模型性能。
研究團隊進行了詳盡的對比實驗來驗證GMPO的有效性。他們選擇了多個不同規(guī)模的模型,從1.5B參數(shù)的小模型到7B參數(shù)的大模型,涵蓋了不同的應用場景。測試數(shù)據(jù)集包括了從高中水平的數(shù)學競賽題目到研究生水平的復雜推理問題,確保了評估的全面性。
在具體的測試結(jié)果中,GMPO在所有規(guī)模的模型上都表現(xiàn)出了一致的優(yōu)勢。以最具代表性的7B模型為例,在AIME24(美國數(shù)學邀請賽2024)這樣的高難度競賽中,GMPO的準確率達到了43.3%,與傳統(tǒng)GRPO方法持平;但在AMC(美國數(shù)學競賽)中達到了61.4%,在MATH500數(shù)據(jù)集上達到了82.0%,在Minerva數(shù)據(jù)集上達到了33.5%,在OlympiadBench上達到了43.6%。綜合平均下來,GMPO比GRPO提升了1.5個百分點。
更值得注意的是,當使用更先進的基礎模型(如DeepSeek-R1-Distill-Qwen-7B)時,GMPO的優(yōu)勢更加明顯。在這種設置下,GMPO的平均準確率達到63.4%,比GRPO的59.3%提升了4.1個百分點。這說明GMPO的方法在更復雜的模型上能夠發(fā)揮更大的作用。
在多模態(tài)推理任務中,GMPO同樣表現(xiàn)出色。在Geometry3K幾何推理數(shù)據(jù)集上,使用Qwen2.5-VL-Instruct-7B模型時,GMPO的準確率達到54.7%,比GRPO的53.3%提升了1.4個百分點。雖然提升幅度看似不大,但在這種需要同時處理圖像和文字信息的復雜任務中,任何性能提升都是難能可貴的。
為了更深入地理解GMPO的工作機制,研究團隊還進行了詳細的消融實驗。他們逐一測試了GMPO中每個組件的貢獻。結(jié)果顯示,從算術(shù)平均改為幾何平均是性能提升的主要來源,這個改變本身就帶來了1.5%的性能提升。詞元級裁剪相比序列級裁剪也有明顯優(yōu)勢,而擴大裁剪范圍則進一步增強了模型的探索能力。
有趣的是,研究團隊發(fā)現(xiàn)完全取消裁剪機制(即允許無限制的探索)反而會導致性能下降。這說明適度的約束對于保持訓練穩(wěn)定性是必要的,關(guān)鍵在于找到探索自由度和訓練穩(wěn)定性之間的最佳平衡點。GMPO通過幾何平均的方式實現(xiàn)了這種平衡,既允許了更大的探索空間,又維持了訓練的穩(wěn)定性。
從訓練動態(tài)的角度來看,GMPO展現(xiàn)出了與傳統(tǒng)方法截然不同的學習曲線。在訓練初期,兩種方法的表現(xiàn)相似;但隨著訓練的深入,傳統(tǒng)GRPO方法的重要性采樣比率開始出現(xiàn)劇烈波動,表明訓練變得不穩(wěn)定。而GMPO的重要性采樣比率始終保持在相對穩(wěn)定的范圍內(nèi),即使在訓練后期也沒有出現(xiàn)大幅波動。
這種穩(wěn)定性不僅體現(xiàn)在數(shù)值指標上,也體現(xiàn)在模型的實際行為中。研究團隊發(fā)現(xiàn),使用GMPO訓練的模型在生成答案時表現(xiàn)出更高的一致性和可預測性,而傳統(tǒng)方法訓練的模型有時會產(chǎn)生意外的、不一致的輸出。這種差異在需要多步推理的復雜數(shù)學問題中尤為明顯。
值得一提的是,GMPO的計算開銷與傳統(tǒng)GRPO方法基本相當。雖然幾何平均的計算稍微復雜一些,但通過在對數(shù)空間進行運算等技術(shù)優(yōu)化,額外的計算成本可以忽略不計。這意味著GMPO在提升性能的同時,并沒有顯著增加訓練的時間或資源消耗,這對于實際應用來說是一個重要優(yōu)勢。
研究團隊還深入分析了GMPO在不同類型問題上的表現(xiàn)差異。他們發(fā)現(xiàn),GMPO在需要多步復雜推理的問題上優(yōu)勢更加明顯,而在簡單的、單步可以解決的問題上,兩種方法的差異相對較小。這個發(fā)現(xiàn)很有意義,因為它表明GMPO特別適合訓練需要進行深度思考和復雜推理的AI系統(tǒng)。
從理論角度來看,GMPO的成功可以歸因于其對極值的魯棒性。在數(shù)學上,幾何平均天然地對極端值不敏感,這一特性在AI訓練中轉(zhuǎn)化為對異常樣本的抗干擾能力。當模型遇到特別難或特別容易的訓練樣本時,GMPO能夠保持相對穩(wěn)定的學習節(jié)奏,不會因為個別樣本就大幅調(diào)整學習策略。
研究團隊通過梯度分析進一步證明了這一點。他們發(fā)現(xiàn),在傳統(tǒng)GRPO方法中,每個詞元的梯度更新幅度直接受到其對應的重要性采樣比率影響,這導致某些詞元的梯度可能過大或過小。而在GMPO中,每個詞元的梯度更新都受到整個序列幾何平均的調(diào)節(jié),形成了一種"集體智慧"的效應,讓學習過程更加均衡。
這種理論優(yōu)勢在實踐中轉(zhuǎn)化為了顯著的性能提升。特別是在處理包含多種難度級別問題的混合數(shù)據(jù)集時,GMPO展現(xiàn)出了更強的適應性。它既能從簡單問題中高效學習基礎知識,也能在復雜問題上保持穩(wěn)定的學習進度,不會出現(xiàn)"偏科"現(xiàn)象。
除了數(shù)學推理任務,研究團隊還在代碼生成、常識推理等其他任務上測試了GMPO的效果。雖然這些測試的規(guī)模相對較小,但初步結(jié)果顯示GMPO的優(yōu)勢具有一定的通用性,不僅僅局限于數(shù)學推理領(lǐng)域。這為GMPO在更廣泛的AI應用中的推廣應用提供了信心。
研究還揭示了GMPO在長序列處理上的特殊優(yōu)勢。在處理需要生成較長推理過程的問題時,傳統(tǒng)方法往往在序列后期出現(xiàn)性能衰減,而GMPO能夠更好地維持整個推理鏈條的質(zhì)量。這一特點對于需要進行詳細分析和解釋的AI應用尤為重要。
從實現(xiàn)細節(jié)來看,GMPO的代碼實現(xiàn)相對簡潔。研究團隊提供的開源代碼顯示,從GRPO到GMPO的轉(zhuǎn)換只需要修改核心優(yōu)化目標的計算方式,其他組件基本可以保持不變。這種簡潔性使得GMPO能夠很容易地集成到現(xiàn)有的訓練框架中,降低了實際應用的門檻。
研究團隊還特別關(guān)注了GMPO在不同訓練階段的表現(xiàn)。他們發(fā)現(xiàn),GMPO的優(yōu)勢在訓練中后期更加明顯。在訓練初期,模型還在學習基礎知識時,兩種方法的差異相對較小;但隨著訓練的深入,當模型需要處理更復雜的推理任務時,GMPO的穩(wěn)定性優(yōu)勢開始凸顯,性能差距逐漸拉大。
這一發(fā)現(xiàn)對于理解強化學習在大語言模型訓練中的作用機制具有重要意義。它表明,訓練方法的選擇在模型的高級認知能力發(fā)展階段起著關(guān)鍵作用。傳統(tǒng)方法可能在基礎能力訓練上表現(xiàn)良好,但在培養(yǎng)復雜推理能力時存在局限性。
最后,研究團隊對GMPO的未來發(fā)展方向進行了展望。他們認為,幾何平均的思想可能不僅適用于強化學習,也可能在其他機器學習范式中發(fā)揮作用。此外,如何進一步優(yōu)化幾何平均的計算效率,以及如何將這一思想擴展到更大規(guī)模的模型訓練中,都是值得探索的方向。
說到底,GMPO的成功不僅僅是一個技術(shù)改進,更代表了AI訓練理念的一種轉(zhuǎn)變。從追求快速收斂到注重穩(wěn)定學習,從關(guān)注平均表現(xiàn)到重視魯棒性,這種轉(zhuǎn)變反映了AI領(lǐng)域?qū)τ谌绾闻囵B(yǎng)真正智能系統(tǒng)的深入思考。就像教育孩子一樣,有時候慢一點、穩(wěn)一點的方法反而能帶來更好的長期效果。
這項研究為大語言模型的訓練提供了一個新的視角,證明了在保持訓練穩(wěn)定性的同時提升模型性能是完全可能的。隨著AI系統(tǒng)變得越來越復雜,這種穩(wěn)定而有效的訓練方法將變得越來越重要。對于整個AI領(lǐng)域而言,GMPO的成功可能預示著未來訓練方法的發(fā)展方向:不僅要快,更要穩(wěn);不僅要有效,更要可靠。
Q&A
Q1:GMPO是什么?它與傳統(tǒng)的GRPO有什么區(qū)別? A:GMPO是幾何平均策略優(yōu)化的簡稱,是一種訓練大語言模型的新方法。它與傳統(tǒng)GRPO的主要區(qū)別在于使用幾何平均而不是算術(shù)平均來處理訓練獎勵。簡單說,就像計算學生成績時,幾何平均比算術(shù)平均更不容易被極端分數(shù)影響,讓AI學習過程更穩(wěn)定。
Q2:GMPO會不會讓AI訓練變得更慢或更耗資源? A:不會。研究顯示GMPO的計算開銷與傳統(tǒng)方法基本相當,通過技術(shù)優(yōu)化后額外成本可以忽略不計。而且由于訓練更穩(wěn)定,實際上可能減少因為訓練不穩(wěn)定而需要重新訓練的情況,總體上可能更高效。
Q3:普通人能用上GMPO訓練的AI模型嗎?什么時候能普及? A:目前GMPO還主要在研究階段,但由于其代碼已經(jīng)開源,AI公司可以相對容易地將其集成到現(xiàn)有系統(tǒng)中。隨著越來越多的AI服務提供商采用這種技術(shù),普通人很快就能通過各種AI應用體驗到GMPO帶來的更穩(wěn)定、更智能的AI服務。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。