在人工智能發(fā)展的浪潮中,大型語言模型(LLMs)的推理能力一直是研究熱點。近日,由孫中山大學(xué)、上海創(chuàng)新研究院、上海人工智能實驗室和上海交通大學(xué)的研究團隊聯(lián)合發(fā)表了一篇題為《CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models》的研究論文,該論文于2025年5月18日在arXiv預(yù)印本平臺發(fā)布(arXiv:2505.12504v1)。這項研究提出了一種名為"帶策略漂移的裁剪策略梯度優(yōu)化"(Clipped Policy Gradient Optimization with Policy Drift,簡稱CPGD)的新算法,旨在解決語言模型規(guī)則強化學(xué)習(xí)中的訓(xùn)練不穩(wěn)定問題。研究代碼已在GitHub上開源(https://github.com/ModalMinds/MM-EUREKA)。
一、研究背景:規(guī)則強化學(xué)習(xí)的現(xiàn)狀與挑戰(zhàn)
想象一下,你正在教一個聰明的學(xué)生解決復(fù)雜的數(shù)學(xué)問題。你給他提供簡單明確的規(guī)則(如果答案正確給予獎勵,錯誤則不獎勵),希望通過這種方式讓他學(xué)會正確的推理過程。這正是規(guī)則強化學(xué)習(xí)在語言模型訓(xùn)練中的核心思想——通過簡單明確的獎勵規(guī)則來激發(fā)模型的推理能力。
規(guī)則強化學(xué)習(xí)已經(jīng)成為提升語言模型推理能力的關(guān)鍵方法。它利用源自確定性規(guī)則的簡單、高效的獎勵函數(shù),有效避免了"獎勵黑客"(reward hacking,指模型找到取巧方式獲取高獎勵而不是真正學(xué)習(xí))問題,同時激活了模型的推理能力。這一領(lǐng)域的代表性算法包括GRPO、REINFORCE++、RLOO以及GRPO的多個變體,如DAPO、Dr.GRPO和GPG等。
然而,研究團隊觀察到這些強化學(xué)習(xí)方法常常面臨訓(xùn)練不穩(wěn)定的問題。就像一個學(xué)生在學(xué)習(xí)過程中因為過度糾正或指導(dǎo)不當(dāng)而產(chǎn)生混亂一樣,語言模型在訓(xùn)練過程中也會遇到類似的"崩潰"現(xiàn)象。研究人員將這一問題歸因于這些方法在損失函數(shù)中使用了重要性采樣比率。
雖然PPO-clip損失(Proximal Policy Optimization with clipping)被廣泛用于緩解極端策略更新問題,但其單邊裁剪特性在優(yōu)勢為負時無法約束大比率——這可能導(dǎo)致梯度爆炸,進而引起災(zāi)難性的訓(xùn)練崩潰。研究團隊通過理論分析表明,在損失函數(shù)中直接包含重要性采樣比率會放大策略偏移,而實證結(jié)果也確認這可能導(dǎo)致現(xiàn)有強化學(xué)習(xí)方法的訓(xùn)練崩潰。
二、CPGD算法:穩(wěn)定訓(xùn)練的新方案
為了解決上述問題,研究團隊提出了CPGD算法。這就像是為學(xué)生制定了一個更穩(wěn)定的學(xué)習(xí)計劃,既不會過度激進也不會過于保守,讓學(xué)習(xí)過程持續(xù)穩(wěn)定進步。
CPGD算法的核心創(chuàng)新在于用策略梯度損失替代PPO-clip損失,避免了直接涉及策略比率可能帶來的不穩(wěn)定性。為了確保近端優(yōu)化(即保證更新過程中策略不會偏離太遠),CPGD引入了兩個關(guān)鍵機制:
1. 裁剪機制(Clip Mechanism):這就像是為學(xué)習(xí)過程設(shè)置了一個安全邊界。當(dāng)策略更新過度時,裁剪機制會將其限制在一定范圍內(nèi),防止學(xué)習(xí)過程偏離太遠。具體來說,CPGD對比率的對數(shù)進行裁剪,防止過度的策略更新。
2. 策略漂移正則化(Policy Drift Regularizer):這相當(dāng)于給學(xué)習(xí)過程加上了一個"記憶輔助",確保新學(xué)到的內(nèi)容與原來掌握的知識保持連貫性。CPGD基于KL散度(衡量兩個概率分布差異的度量)引入策略漂移約束,動態(tài)調(diào)節(jié)策略更新,讓學(xué)習(xí)過程更平穩(wěn)。
此外,研究團隊還開發(fā)了一種新型KL估計器,確保梯度方向正確,同時避免與通常使用的k3估計器相關(guān)的潛在數(shù)值不穩(wěn)定性。他們還引入了加權(quán)優(yōu)勢(weighted advantages)來動態(tài)調(diào)整每個樣本的影響力,進一步增強模型性能。
從理論上講,CPGD的創(chuàng)新之處在于避免了策略比率在損失函數(shù)中的直接參與。研究團隊通過命題1(Proposition 1)證明,在策略更新過程中,PPO方法會比CPG(CPGD不帶策略漂移項的簡化版本)更激進地偏離原策略,這解釋了為什么傳統(tǒng)的PPO-clip方法可能導(dǎo)致訓(xùn)練不穩(wěn)定。
此外,通過定理1(Theorem 1),研究人員還證明了CPGD算法具有收斂保證,奠定了其理論合理性的基礎(chǔ)。就像確保學(xué)生最終能達到穩(wěn)定的學(xué)習(xí)狀態(tài)一樣,CPGD算法能夠保證語言模型的訓(xùn)練過程最終收斂到一個穩(wěn)定狀態(tài)。
三、訓(xùn)練崩潰現(xiàn)象及CPGD的有效性
為了深入理解訓(xùn)練崩潰現(xiàn)象并驗證CPGD的有效性,研究團隊在MMK12數(shù)據(jù)集上進行了廣泛實驗,使用QwenVL2.5-7B作為基礎(chǔ)模型。他們比較了多種算法,包括RLOO、REINFORCE++、GRPO、GRPO不帶裁剪(GRPO w/o clip)、GRPO帶雙重裁剪(GRPO w/ dual clip)、GRPO帶漂移(GRPO w/ drift)、基礎(chǔ)策略梯度(PG)、帶裁剪的策略梯度(CPG)、帶漂移的策略梯度(PGD)以及完整的CPGD。
這些實驗就像是在不同教學(xué)方法下觀察學(xué)生的學(xué)習(xí)進度,看哪種方法能讓學(xué)生穩(wěn)定持續(xù)地進步,而不會中途放棄或混亂。實驗結(jié)果顯示,幾乎所有基線方法都在中期階段經(jīng)歷了訓(xùn)練崩潰。
具體來說,REINFORCE++、RLOO、GRPO不帶裁剪和普通GRPO展現(xiàn)出高度不穩(wěn)定的策略比率動態(tài),導(dǎo)致訓(xùn)練中期崩潰。相比之下,GRPO帶雙重裁剪、GRPO帶漂移、PG、CPG、PGD和CPGD保持了穩(wěn)定的訓(xùn)練曲線。
GRPO帶雙重裁剪通過全局約束策略比率緩解了不穩(wěn)定性,而PG系列方法通過避免在損失計算中包含比率規(guī)避了比率引起的方差。這些對比表明,在損失中包含策略比率可能在波動期間引入高方差,而簡單的單邊裁剪無法從極端比率中恢復(fù),最終導(dǎo)致崩潰。雖然雙重裁剪機制穩(wěn)定了訓(xùn)練,但它也引入了新的問題:頻繁的零梯度更新和在負優(yōu)勢下因大比率被裁剪為零梯度而無法有效學(xué)習(xí)。
另一方面,雖然先前的工作認為由于被裁剪比率的比例較低(約1%),裁剪可能是不必要的,但研究團隊的發(fā)現(xiàn)表明情況并非如此。盡管只有約1%的比率被裁剪,但有無裁剪的訓(xùn)練性能差異顯著。特別是,PG和PGD等方法雖然沒有比率項而保持穩(wěn)定,但它們面臨響應(yīng)長度崩潰問題,退化為產(chǎn)生瑣碎輸出(如只發(fā)出""等標記)而不進行有意義的推理。這凸顯了模型容易陷入"獎勵黑客"的弱點,可能是由于更新過于激進所致。這些結(jié)果揭示了近端策略更新的必要性。
四、CPGD的實際實現(xiàn)
在實際應(yīng)用中,研究團隊將CPGD的理論更新公式轉(zhuǎn)化為每個標記的形式,旨在在理論嚴謹性和實際應(yīng)用之間取得平衡。這就像將抽象的教學(xué)理論轉(zhuǎn)化為具體的課堂教案,確保理論能在實際教學(xué)中有效應(yīng)用。
CPGD的實際損失函數(shù)設(shè)計簡單明了,易于集成到廣泛使用的大型模型訓(xùn)練框架中,如OpenRLHF和veRL。以下是實際實現(xiàn)中的幾個關(guān)鍵考慮因素:
1. 策略優(yōu)化項:在理論更新中,策略優(yōu)化項以聯(lián)合分布的形式編寫,但在實際實現(xiàn)中,它被分解為標記級別,利用對數(shù)函數(shù)的可分解性。裁剪閾值可以為所有標記設(shè)置相同,確保每個標記共享相同的裁剪范圍,或者采用從緊到松的調(diào)度策略,為通常具有較高方差的早期標記分配較小的閾值。
2. 策略漂移:與策略優(yōu)化項類似,策略漂移也利用對數(shù)函數(shù)的可分解性,但應(yīng)用了進一步的轉(zhuǎn)換。研究團隊采用了k3 KL估計器而非k1估計器,因為在使用梯度優(yōu)化器(如Adam)時,k1無法有效約束策略漂移,而k3的梯度方向會根據(jù)當(dāng)前策略與舊策略之間的相對大小動態(tài)調(diào)整。然而,為了避免可能導(dǎo)致訓(xùn)練崩潰的問題,他們對策略比率進行裁剪,確保不超過一個常數(shù)加1。重要的是,這種裁剪不直接應(yīng)用于KL散度估計器,而是應(yīng)用于其梯度,確保當(dāng)比率超過閾值時,策略漂移項繼續(xù)提供降低比率的梯度。
3. 加權(quán)優(yōu)勢:從響應(yīng)級別來看,每個提示可被視為一個獨特的任務(wù)。因此,研究團隊引入了每個提示的加權(quán)因子,為不同提示分配不同的重要性級別。包括三種權(quán)重策略:等權(quán)重(所有提示權(quán)重相同)、STD權(quán)重(基于標準差的權(quán)重)和類似裁剪過濾的權(quán)重(放大具有非零優(yōu)勢的樣本的梯度貢獻)。
五、實驗結(jié)果與性能評估
研究團隊在六個廣泛使用的多模態(tài)數(shù)學(xué)基準測試上評估了CPGD算法的性能,包括MathVista (testmini)、MathVerse (testmini)、MathVision (test)、OlympiadBench (EN-OE split)、WeMath和MMK12。這些基準測試涵蓋了廣泛的數(shù)學(xué)推理任務(wù),從視覺問答到抽象推理、邏輯到高級競賽問題。
結(jié)果令人印象深刻。CPGD在所有基準測試中的表現(xiàn)優(yōu)于所有類似規(guī)模的基線,達到或接近各個基準測試的領(lǐng)先分數(shù)。具體來說,與基礎(chǔ)模型QwenVL2.5-7B相比,CPGD在所有基準測試中平均提高了+11.0%的整體性能。
特別值得注意的是,CPGD在MMK12領(lǐng)域內(nèi)基準測試上取得了+21.8%的顯著提升,并在領(lǐng)域外分布基準測試MathVista和MathVision上分別提高了+8.5%和+11.4%。這表明CPGD不僅在原始訓(xùn)練數(shù)據(jù)分布上表現(xiàn)良好,還具有強大的泛化能力。
與其他強化學(xué)習(xí)算法相比,CPGD也表現(xiàn)優(yōu)異。在相同的設(shè)置下(相同的基礎(chǔ)模型、訓(xùn)練數(shù)據(jù)集和超參數(shù)),GRPO在大多數(shù)基準測試中優(yōu)于RLOO和REINFORCE++,特別是在MathVerse (51.4)和MathVision (25.9)上。然而,CPGD方法顯著優(yōu)于所有基線,實現(xiàn)了最佳性能。
CPGD的兩個變體(使用類似裁剪過濾的權(quán)重或基于STD的權(quán)重)都比基礎(chǔ)模型QwenVL2.5-7B提高了超過+10%的整體性能,展示了該方法的魯棒性和有效性。
六、消融研究:理解CPGD的各個組件
為了深入理解CPGD的各個組成部分及其貢獻,研究團隊進行了詳細的消融研究,就像廚師測試一道復(fù)雜菜肴中每種調(diào)味料的作用一樣。
首先,他們通過比較不同變體來研究CPGD核心組件的影響:基礎(chǔ)策略梯度(PG)、帶策略漂移的策略梯度(PGD)、帶裁剪的策略梯度(CPG)以及完整的CPGD。結(jié)果顯示,裁剪機制起著最關(guān)鍵的作用,從CPG/CPGD到PG/PGD的性能下降在幾乎所有基準測試中都很明顯。這與他們先前的觀察一致,裁剪機制緩解了響應(yīng)長度崩潰問題,否則會損害測試時的計算和推理能力。相比之下,添加策略漂移的效果相對較小。這是因為CPGD的目標缺少可能不穩(wěn)定的重要性采樣比率,并且已經(jīng)通過裁剪受益于近端更新,使得策略漂移主要作為防止過度比率偏差的保障。
其次,研究團隊測試了不同的加權(quán)策略。他們還包括一個使用原始未處理獎勵作為優(yōu)勢的基線,這導(dǎo)致了顯著的性能下降。這證實了減去組平均值對穩(wěn)定有效學(xué)習(xí)至關(guān)重要。這種方法防止了在失敗案例中過度懲罰所有響應(yīng),否則可能觸發(fā)"擠壓效應(yīng)",即Softmax輸出頭無意中將概率質(zhì)量重新分配給意外標記,導(dǎo)致不良行為。類似裁剪過濾的權(quán)重和STD權(quán)重都優(yōu)于等權(quán)重,這歸功于它們能夠更加強調(diào)具有非零優(yōu)勢的樣本,鼓勵模型更多關(guān)注信息豐富的訓(xùn)練信號。
最后,關(guān)于參考約束的消融研究顯示,移除參考約束一致地提高了性能,這呼應(yīng)了最近研究的發(fā)現(xiàn),表明此類約束可能過度限制策略改進,從而阻礙整體優(yōu)化。
七、討論:CPGD的深層見解與局限性
在討論部分,研究團隊探討了重要性采樣的適用場景。重要性采樣是一種寶貴的技術(shù),用于在學(xué)習(xí)策略和行為策略顯著不同時糾正采樣分布,從而提高樣本效率。雖然他們在訓(xùn)練中省略了重要性采樣比率以減少方差,但這并不意味著完全放棄它。實際上,他們在訓(xùn)練中使用了單個PPO輪次,這是一個廣泛推薦的默認設(shè)置。
關(guān)于前向KL散度與反向KL散度的選擇,研究團隊的策略漂移采用了前向KL散度DKL(πθold, πθ|x)而非反向KL散度DKL(πθ, πθold|x)。雖然前向KL曾被探索過,但被認為不如PPO-clip有效。相比之下,反向KL在理論上更常用,因為它與鏡像下降密切相關(guān),有強大的收斂保證。
盡管這兩種KL形式在計算方式上不同,但在實踐中它們通常導(dǎo)致類似的結(jié)果。這是因為它們都用于控制策略更新。實際上,當(dāng)策略比率較小時(訓(xùn)練期間通常如此),它們梯度的差異很小。盡管相似,研究團隊更傾向于前向KL,主要有兩個原因:(1)它避免了反向KL需要的重要性采樣;(2)它可以干凈地分解為每個標記的項,而反向KL由于重要性權(quán)重?zé)o法做到這一點。
關(guān)于探索與利用的平衡,最近的研究聲稱模型的性能上限由其基礎(chǔ)模型決定,對強化學(xué)習(xí)的作用持悲觀態(tài)度。雖然研究團隊不完全同意或反對,但他們提供了更微妙的觀點:探索能力在很大程度上由基礎(chǔ)模型決定。
在語言模型的強化學(xué)習(xí)訓(xùn)練中,可能的響應(yīng)集由基礎(chǔ)模型能生成的內(nèi)容約束。強化學(xué)習(xí)幫助它選擇最佳的響應(yīng),提升指標如Maj@K。換句話說,預(yù)訓(xùn)練和監(jiān)督微調(diào)塑造了模型可以探索的內(nèi)容,而強化學(xué)習(xí)增強了模型的利用能力。
該研究的主要目標是提高強化學(xué)習(xí)的穩(wěn)定性,但推進語言模型的推理能力需要同時改進強化學(xué)習(xí)和早期階段(如監(jiān)督微調(diào)),以擴展模型的探索范圍。鼓勵主動探索可能是解鎖模型性能進一步提升的關(guān)鍵。
八、結(jié)論:CPGD的貢獻與影響
總結(jié)來說,研究團隊識別了現(xiàn)有語言模型強化學(xué)習(xí)方法中的一個關(guān)鍵不穩(wěn)定源:對重要性采樣比率的不對稱裁剪,這可能導(dǎo)致訓(xùn)練崩潰。為了解決這一問題,他們提出了CPGD,一種避免直接依賴策略比率的原則性替代方案,同時通過裁剪機制和策略漂移強制近端更新。
CPGD進一步整合了一個穩(wěn)定的KL估計器和加權(quán)優(yōu)勢策略,以提高學(xué)習(xí)的魯棒性。通過理論基礎(chǔ)和實證驗證,CPGD展示了卓越的穩(wěn)定性和性能,在多模態(tài)數(shù)學(xué)基準測試中優(yōu)于其他方法,為訓(xùn)練語言模型提供了一個強大且穩(wěn)定的強化學(xué)習(xí)解決方案。
這項研究的意義在于它不僅提出了一種新的算法來解決強化學(xué)習(xí)中的穩(wěn)定性問題,還深入分析了現(xiàn)有方法失敗的原因,為未來的研究提供了寶貴的見解。通過連接理論分析和實際應(yīng)用,CPGD為語言模型的規(guī)則強化學(xué)習(xí)開辟了一條更可靠、更高效的路徑。
盡管取得了顯著進展,研究團隊也承認CPGD存在一些限制。首先,對于加權(quán)優(yōu)勢組件,他們只進行了初步實驗,沒有完全探索不同加權(quán)因子的影響。其次,研究專注于在策略訓(xùn)練,將離策略設(shè)置(通常需要重要性采樣)留給未來的工作。在存在重要性采樣的情況下確保訓(xùn)練穩(wěn)定性仍然是一個開放問題。最后,所有實驗都在標準學(xué)術(shù)規(guī)模的模型(7B參數(shù))上進行,而沒有在更大的模型(如100B+)上評估該方法,這將需要大量的計算資源。
總的來說,CPGD為語言模型的規(guī)則強化學(xué)習(xí)提供了一個強大而穩(wěn)定的框架,有望促進更可靠、更高效的訓(xùn)練流程,并最終提高語言模型的推理能力。這一進步不僅對學(xué)術(shù)研究具有價值,對于開發(fā)更強大、更可靠的人工智能系統(tǒng)也具有廣泛的實際意義。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。