在人工智能快速發(fā)展的今天,大型語言模型的訓(xùn)練就像培養(yǎng)一個(gè)既要勇于探索又要善于總結(jié)的學(xué)生。這項(xiàng)由快手科技Klear團(tuán)隊(duì)的蘇振鵬、潘磊宇等研究人員聯(lián)合獨(dú)立研究者李云濤完成的突破性研究,發(fā)表于2025年10月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.20712v3),為解決這一核心挑戰(zhàn)提供了全新的解決方案。
想要理解這項(xiàng)研究的意義,我們可以把大型語言模型的訓(xùn)練過程比作教導(dǎo)一個(gè)學(xué)生學(xué)習(xí)數(shù)學(xué)解題。傳統(tǒng)的訓(xùn)練方法就像是給學(xué)生設(shè)定了一個(gè)固定的學(xué)習(xí)框架:學(xué)生只能在規(guī)定的范圍內(nèi)探索新的解題思路,超出這個(gè)范圍的想法都會(huì)被直接忽略掉。這種做法雖然能保證學(xué)習(xí)過程的穩(wěn)定性,但也限制了學(xué)生的創(chuàng)新能力和深度思考。
研究團(tuán)隊(duì)發(fā)現(xiàn),在強(qiáng)化學(xué)習(xí)訓(xùn)練大型語言模型的過程中,存在一個(gè)被稱為"策略熵"的關(guān)鍵指標(biāo),它反映了模型在面對(duì)問題時(shí)的探索與利用平衡。就像學(xué)生解題時(shí),既要嘗試新方法(探索),又要使用已掌握的可靠方法(利用)。然而,現(xiàn)有的主流訓(xùn)練算法如PPO(近端策略優(yōu)化)在處理這個(gè)平衡時(shí)存在重大缺陷:它們會(huì)丟棄那些看似"不合規(guī)"但實(shí)際上對(duì)維持探索能力至關(guān)重要的信息。
研究團(tuán)隊(duì)深入分析了這個(gè)問題的根源,發(fā)現(xiàn)傳統(tǒng)方法在處理不同概率的輸出詞元時(shí)采用了過于簡(jiǎn)單粗暴的裁剪機(jī)制。他們將所有的詞元分為四種類型:正優(yōu)勢(shì)高概率詞元、負(fù)優(yōu)勢(shì)低概率詞元、正優(yōu)勢(shì)低概率詞元和負(fù)優(yōu)勢(shì)高概率詞元。前兩種類型的詞元通常會(huì)加速模型收斂,讓模型更快地找到看似正確的答案,但也容易導(dǎo)致模型過早失去探索新可能性的能力。后兩種類型的詞元雖然看起來不太"主流",但它們對(duì)維持模型的探索能力和防止過早收斂起著至關(guān)重要的作用。
傳統(tǒng)的PPO算法就像一個(gè)過度嚴(yán)格的老師,只關(guān)注那些符合預(yù)期范圍的答案,而完全忽視學(xué)生提出的創(chuàng)新想法,即使這些想法可能包含有價(jià)值的思考過程。這種做法導(dǎo)致了兩個(gè)嚴(yán)重問題:一是"熵坍塌",即模型失去探索能力,過快地收斂到次優(yōu)解;二是"熵爆炸",即模型過度探索而無法有效利用已學(xué)到的知識(shí)。
基于這些深刻洞察,研究團(tuán)隊(duì)提出了CE-GPPO(通過梯度保持裁剪策略優(yōu)化協(xié)調(diào)熵)算法。這個(gè)新方法的核心思想是重新利用那些在傳統(tǒng)方法中被丟棄的"越界"信息,但以一種更加溫和和可控的方式。就像一個(gè)智慧的老師,不僅要聽取學(xué)生的標(biāo)準(zhǔn)答案,也要關(guān)注那些看似偏離主題但可能包含創(chuàng)新思維的回答,并給予適當(dāng)?shù)囊龑?dǎo)和反饋。
CE-GPPO的巧妙之處在于引入了一個(gè)"停梯度"操作,這就像給學(xué)生的創(chuàng)新想法設(shè)置了一個(gè)"緩沖區(qū)"。在這個(gè)緩沖區(qū)內(nèi),模型可以學(xué)習(xí)和借鑒這些創(chuàng)新想法,但不會(huì)因此而偏離主要的學(xué)習(xí)軌道太遠(yuǎn)。通過兩個(gè)可調(diào)節(jié)的參數(shù)β1和β2,研究團(tuán)隊(duì)可以精確控制模型對(duì)不同類型創(chuàng)新想法的重視程度。
具體來說,當(dāng)模型遇到那些有潛在價(jià)值但概率較低的創(chuàng)新答案時(shí),CE-GPPO會(huì)給予它們適當(dāng)?shù)年P(guān)注權(quán)重,鼓勵(lì)模型保持探索精神。而對(duì)于那些可能導(dǎo)致模型偏離正軌的低質(zhì)量答案,算法會(huì)適當(dāng)降低它們的影響力,確保模型不會(huì)因?yàn)檫^度探索而失去方向。
在數(shù)學(xué)推理基準(zhǔn)測(cè)試中,CE-GPPO展現(xiàn)了令人矚目的性能提升。在多個(gè)權(quán)威測(cè)試集上,包括AIME24、AIME25、HMMT25、MATH500和AMC23,新算法都顯著超越了現(xiàn)有的強(qiáng)基線方法。特別是在更具挑戰(zhàn)性的任務(wù)上,CE-GPPO的優(yōu)勢(shì)更加明顯。更重要的是,這種優(yōu)勢(shì)隨著模型規(guī)模的增大而放大:在1.5B參數(shù)的模型上,CE-GPPO比最佳基線方法提升了2.5個(gè)百分點(diǎn),而在7B參數(shù)的模型上,這個(gè)提升擴(kuò)大到了3個(gè)百分點(diǎn)。
研究團(tuán)隊(duì)還深入分析了不同參數(shù)設(shè)置對(duì)模型行為的影響。他們發(fā)現(xiàn),通過調(diào)節(jié)β1和β2參數(shù),可以實(shí)現(xiàn)對(duì)模型探索-利用平衡的精細(xì)控制。當(dāng)β1較大或β2較小時(shí),模型傾向于更快收斂,就像一個(gè)急于得出結(jié)論的學(xué)生;當(dāng)β1較小或β2較大時(shí),模型維持更高的探索能力,像一個(gè)愿意深入思考各種可能性的學(xué)生。最優(yōu)的設(shè)置通常是β1=0.5或0.75,β2=1,這樣的配置能夠讓模型在保持探索能力的同時(shí),也能有效利用已學(xué)到的知識(shí)。
更令人驚喜的是,CE-GPPO在訓(xùn)練穩(wěn)定性方面也表現(xiàn)出色。通過對(duì)KL散度和梯度范數(shù)的監(jiān)測(cè),研究團(tuán)隊(duì)證明了新算法在整個(gè)訓(xùn)練過程中都保持著穩(wěn)定的趨勢(shì),沒有出現(xiàn)異常波動(dòng)或超出合理范圍的情況。這意味著CE-GPPO在引入額外的學(xué)習(xí)信號(hào)的同時(shí),并沒有犧牲訓(xùn)練的穩(wěn)定性,這對(duì)于實(shí)際應(yīng)用來說至關(guān)重要。
研究團(tuán)隊(duì)還將CE-GPPO與其他先進(jìn)的強(qiáng)化學(xué)習(xí)算法進(jìn)行了全面比較,包括CISPO和GSPO等方法。結(jié)果顯示,CE-GPPO在五個(gè)測(cè)試數(shù)據(jù)集中的四個(gè)上都取得了最佳性能,充分證明了其方法的有效性。特別值得注意的是,一些競(jìng)爭(zhēng)方法在訓(xùn)練過程中出現(xiàn)了模型崩潰的問題,而CE-GPPO始終保持穩(wěn)定的改進(jìn)趨勢(shì)。
這項(xiàng)研究的理論貢獻(xiàn)也不容忽視。研究團(tuán)隊(duì)從理論上分析了策略熵變化的機(jī)制,證明了被傳統(tǒng)方法忽視的"越界"詞元對(duì)于控制熵動(dòng)態(tài)的重要性。他們推導(dǎo)出的數(shù)學(xué)公式清晰地展示了這些詞元如何影響模型的探索-利用平衡,為算法設(shè)計(jì)提供了堅(jiān)實(shí)的理論基礎(chǔ)。
從實(shí)際應(yīng)用的角度來看,CE-GPPO的成功為大型語言模型的訓(xùn)練提供了新的思路。在數(shù)學(xué)推理、科學(xué)計(jì)算、代碼生成等需要深度思考和創(chuàng)新的任務(wù)中,這種能夠平衡探索與利用的訓(xùn)練方法可能會(huì)帶來顯著的性能提升。
當(dāng)然,這項(xiàng)研究也有其局限性。由于不同模型的參數(shù)和特性存在差異,CE-GPPO的最優(yōu)參數(shù)設(shè)置可能需要針對(duì)具體模型進(jìn)行調(diào)整。雖然研究團(tuán)隊(duì)發(fā)現(xiàn)β1=0.5、β2=1是一個(gè)普遍有效的設(shè)置,但為了獲得最佳性能,仍然需要一定程度的超參數(shù)調(diào)優(yōu)。
回到我們最初的比喻,CE-GPPO就像是培養(yǎng)出了一位既有探索精神又有判斷力的優(yōu)秀學(xué)生。這個(gè)學(xué)生不會(huì)因?yàn)樽非髽?biāo)準(zhǔn)答案而放棄創(chuàng)新思考,也不會(huì)因?yàn)檫^度探索而失去方向。在人工智能技術(shù)日益重要的今天,這種平衡探索與利用的能力對(duì)于構(gòu)建更加智能、更加可靠的AI系統(tǒng)具有重要意義。
這項(xiàng)研究不僅在技術(shù)層面取得了重要突破,更為整個(gè)人工智能領(lǐng)域提供了新的思考方向。隨著大型語言模型在各行各業(yè)的應(yīng)用越來越廣泛,如何讓這些模型既能保持創(chuàng)新能力又能穩(wěn)定可靠地工作,將是未來研究的重要課題。CE-GPPO的成功表明,通過巧妙的算法設(shè)計(jì),我們可以在這兩個(gè)看似矛盾的目標(biāo)之間找到完美的平衡點(diǎn)。
Q&A
Q1:CE-GPPO算法的核心創(chuàng)新是什么?
A:CE-GPPO的核心創(chuàng)新是重新利用傳統(tǒng)PPO算法中被丟棄的"越界"詞元信息。傳統(tǒng)方法會(huì)完全忽略那些超出裁剪范圍的詞元,但CE-GPPO通過停梯度操作和可調(diào)參數(shù),以溫和可控的方式保留這些信息,從而更好地平衡模型的探索與利用能力。
Q2:為什么傳統(tǒng)的PPO算法會(huì)導(dǎo)致熵坍塌或熵爆炸?
A:傳統(tǒng)PPO算法的裁剪機(jī)制過于簡(jiǎn)單粗暴,會(huì)丟棄對(duì)維持探索能力重要的低概率詞元信息。這導(dǎo)致模型要么過快收斂到次優(yōu)解(熵坍塌),要么無法有效利用已學(xué)知識(shí)而過度探索(熵爆炸),無法在探索和利用之間找到合適的平衡。
Q3:CE-GPPO在實(shí)際性能上有多大提升?
A:在數(shù)學(xué)推理基準(zhǔn)測(cè)試中,CE-GPPO顯著超越了現(xiàn)有方法。在1.5B參數(shù)模型上比最佳基線提升2.5個(gè)百分點(diǎn),在7B參數(shù)模型上提升達(dá)到3個(gè)百分點(diǎn)。在AIME25、HMMT25等挑戰(zhàn)性任務(wù)上優(yōu)勢(shì)更加明顯,且這種優(yōu)勢(shì)隨模型規(guī)模增大而放大。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。