av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 快手團(tuán)隊(duì)突破大模型訓(xùn)練難題:讓AI既會(huì)探索又能收斂的全新方法

快手團(tuán)隊(duì)突破大模型訓(xùn)練難題:讓AI既會(huì)探索又能收斂的全新方法

2025-10-15 12:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-15 12:09 ? 科技行者

在人工智能快速發(fā)展的今天,大型語言模型的訓(xùn)練就像培養(yǎng)一個(gè)既要勇于探索又要善于總結(jié)的學(xué)生。這項(xiàng)由快手科技Klear團(tuán)隊(duì)的蘇振鵬、潘磊宇等研究人員聯(lián)合獨(dú)立研究者李云濤完成的突破性研究,發(fā)表于2025年10月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.20712v3),為解決這一核心挑戰(zhàn)提供了全新的解決方案。

想要理解這項(xiàng)研究的意義,我們可以把大型語言模型的訓(xùn)練過程比作教導(dǎo)一個(gè)學(xué)生學(xué)習(xí)數(shù)學(xué)解題。傳統(tǒng)的訓(xùn)練方法就像是給學(xué)生設(shè)定了一個(gè)固定的學(xué)習(xí)框架:學(xué)生只能在規(guī)定的范圍內(nèi)探索新的解題思路,超出這個(gè)范圍的想法都會(huì)被直接忽略掉。這種做法雖然能保證學(xué)習(xí)過程的穩(wěn)定性,但也限制了學(xué)生的創(chuàng)新能力和深度思考。

研究團(tuán)隊(duì)發(fā)現(xiàn),在強(qiáng)化學(xué)習(xí)訓(xùn)練大型語言模型的過程中,存在一個(gè)被稱為"策略熵"的關(guān)鍵指標(biāo),它反映了模型在面對(duì)問題時(shí)的探索與利用平衡。就像學(xué)生解題時(shí),既要嘗試新方法(探索),又要使用已掌握的可靠方法(利用)。然而,現(xiàn)有的主流訓(xùn)練算法如PPO(近端策略優(yōu)化)在處理這個(gè)平衡時(shí)存在重大缺陷:它們會(huì)丟棄那些看似"不合規(guī)"但實(shí)際上對(duì)維持探索能力至關(guān)重要的信息。

研究團(tuán)隊(duì)深入分析了這個(gè)問題的根源,發(fā)現(xiàn)傳統(tǒng)方法在處理不同概率的輸出詞元時(shí)采用了過于簡(jiǎn)單粗暴的裁剪機(jī)制。他們將所有的詞元分為四種類型:正優(yōu)勢(shì)高概率詞元、負(fù)優(yōu)勢(shì)低概率詞元、正優(yōu)勢(shì)低概率詞元和負(fù)優(yōu)勢(shì)高概率詞元。前兩種類型的詞元通常會(huì)加速模型收斂,讓模型更快地找到看似正確的答案,但也容易導(dǎo)致模型過早失去探索新可能性的能力。后兩種類型的詞元雖然看起來不太"主流",但它們對(duì)維持模型的探索能力和防止過早收斂起著至關(guān)重要的作用。

傳統(tǒng)的PPO算法就像一個(gè)過度嚴(yán)格的老師,只關(guān)注那些符合預(yù)期范圍的答案,而完全忽視學(xué)生提出的創(chuàng)新想法,即使這些想法可能包含有價(jià)值的思考過程。這種做法導(dǎo)致了兩個(gè)嚴(yán)重問題:一是"熵坍塌",即模型失去探索能力,過快地收斂到次優(yōu)解;二是"熵爆炸",即模型過度探索而無法有效利用已學(xué)到的知識(shí)。

基于這些深刻洞察,研究團(tuán)隊(duì)提出了CE-GPPO(通過梯度保持裁剪策略優(yōu)化協(xié)調(diào)熵)算法。這個(gè)新方法的核心思想是重新利用那些在傳統(tǒng)方法中被丟棄的"越界"信息,但以一種更加溫和和可控的方式。就像一個(gè)智慧的老師,不僅要聽取學(xué)生的標(biāo)準(zhǔn)答案,也要關(guān)注那些看似偏離主題但可能包含創(chuàng)新思維的回答,并給予適當(dāng)?shù)囊龑?dǎo)和反饋。

CE-GPPO的巧妙之處在于引入了一個(gè)"停梯度"操作,這就像給學(xué)生的創(chuàng)新想法設(shè)置了一個(gè)"緩沖區(qū)"。在這個(gè)緩沖區(qū)內(nèi),模型可以學(xué)習(xí)和借鑒這些創(chuàng)新想法,但不會(huì)因此而偏離主要的學(xué)習(xí)軌道太遠(yuǎn)。通過兩個(gè)可調(diào)節(jié)的參數(shù)β1和β2,研究團(tuán)隊(duì)可以精確控制模型對(duì)不同類型創(chuàng)新想法的重視程度。

具體來說,當(dāng)模型遇到那些有潛在價(jià)值但概率較低的創(chuàng)新答案時(shí),CE-GPPO會(huì)給予它們適當(dāng)?shù)年P(guān)注權(quán)重,鼓勵(lì)模型保持探索精神。而對(duì)于那些可能導(dǎo)致模型偏離正軌的低質(zhì)量答案,算法會(huì)適當(dāng)降低它們的影響力,確保模型不會(huì)因?yàn)檫^度探索而失去方向。

在數(shù)學(xué)推理基準(zhǔn)測(cè)試中,CE-GPPO展現(xiàn)了令人矚目的性能提升。在多個(gè)權(quán)威測(cè)試集上,包括AIME24、AIME25、HMMT25、MATH500和AMC23,新算法都顯著超越了現(xiàn)有的強(qiáng)基線方法。特別是在更具挑戰(zhàn)性的任務(wù)上,CE-GPPO的優(yōu)勢(shì)更加明顯。更重要的是,這種優(yōu)勢(shì)隨著模型規(guī)模的增大而放大:在1.5B參數(shù)的模型上,CE-GPPO比最佳基線方法提升了2.5個(gè)百分點(diǎn),而在7B參數(shù)的模型上,這個(gè)提升擴(kuò)大到了3個(gè)百分點(diǎn)。

研究團(tuán)隊(duì)還深入分析了不同參數(shù)設(shè)置對(duì)模型行為的影響。他們發(fā)現(xiàn),通過調(diào)節(jié)β1和β2參數(shù),可以實(shí)現(xiàn)對(duì)模型探索-利用平衡的精細(xì)控制。當(dāng)β1較大或β2較小時(shí),模型傾向于更快收斂,就像一個(gè)急于得出結(jié)論的學(xué)生;當(dāng)β1較小或β2較大時(shí),模型維持更高的探索能力,像一個(gè)愿意深入思考各種可能性的學(xué)生。最優(yōu)的設(shè)置通常是β1=0.5或0.75,β2=1,這樣的配置能夠讓模型在保持探索能力的同時(shí),也能有效利用已學(xué)到的知識(shí)。

更令人驚喜的是,CE-GPPO在訓(xùn)練穩(wěn)定性方面也表現(xiàn)出色。通過對(duì)KL散度和梯度范數(shù)的監(jiān)測(cè),研究團(tuán)隊(duì)證明了新算法在整個(gè)訓(xùn)練過程中都保持著穩(wěn)定的趨勢(shì),沒有出現(xiàn)異常波動(dòng)或超出合理范圍的情況。這意味著CE-GPPO在引入額外的學(xué)習(xí)信號(hào)的同時(shí),并沒有犧牲訓(xùn)練的穩(wěn)定性,這對(duì)于實(shí)際應(yīng)用來說至關(guān)重要。

研究團(tuán)隊(duì)還將CE-GPPO與其他先進(jìn)的強(qiáng)化學(xué)習(xí)算法進(jìn)行了全面比較,包括CISPO和GSPO等方法。結(jié)果顯示,CE-GPPO在五個(gè)測(cè)試數(shù)據(jù)集中的四個(gè)上都取得了最佳性能,充分證明了其方法的有效性。特別值得注意的是,一些競(jìng)爭(zhēng)方法在訓(xùn)練過程中出現(xiàn)了模型崩潰的問題,而CE-GPPO始終保持穩(wěn)定的改進(jìn)趨勢(shì)。

這項(xiàng)研究的理論貢獻(xiàn)也不容忽視。研究團(tuán)隊(duì)從理論上分析了策略熵變化的機(jī)制,證明了被傳統(tǒng)方法忽視的"越界"詞元對(duì)于控制熵動(dòng)態(tài)的重要性。他們推導(dǎo)出的數(shù)學(xué)公式清晰地展示了這些詞元如何影響模型的探索-利用平衡,為算法設(shè)計(jì)提供了堅(jiān)實(shí)的理論基礎(chǔ)。

從實(shí)際應(yīng)用的角度來看,CE-GPPO的成功為大型語言模型的訓(xùn)練提供了新的思路。在數(shù)學(xué)推理、科學(xué)計(jì)算、代碼生成等需要深度思考和創(chuàng)新的任務(wù)中,這種能夠平衡探索與利用的訓(xùn)練方法可能會(huì)帶來顯著的性能提升。

當(dāng)然,這項(xiàng)研究也有其局限性。由于不同模型的參數(shù)和特性存在差異,CE-GPPO的最優(yōu)參數(shù)設(shè)置可能需要針對(duì)具體模型進(jìn)行調(diào)整。雖然研究團(tuán)隊(duì)發(fā)現(xiàn)β1=0.5、β2=1是一個(gè)普遍有效的設(shè)置,但為了獲得最佳性能,仍然需要一定程度的超參數(shù)調(diào)優(yōu)。

回到我們最初的比喻,CE-GPPO就像是培養(yǎng)出了一位既有探索精神又有判斷力的優(yōu)秀學(xué)生。這個(gè)學(xué)生不會(huì)因?yàn)樽非髽?biāo)準(zhǔn)答案而放棄創(chuàng)新思考,也不會(huì)因?yàn)檫^度探索而失去方向。在人工智能技術(shù)日益重要的今天,這種平衡探索與利用的能力對(duì)于構(gòu)建更加智能、更加可靠的AI系統(tǒng)具有重要意義。

這項(xiàng)研究不僅在技術(shù)層面取得了重要突破,更為整個(gè)人工智能領(lǐng)域提供了新的思考方向。隨著大型語言模型在各行各業(yè)的應(yīng)用越來越廣泛,如何讓這些模型既能保持創(chuàng)新能力又能穩(wěn)定可靠地工作,將是未來研究的重要課題。CE-GPPO的成功表明,通過巧妙的算法設(shè)計(jì),我們可以在這兩個(gè)看似矛盾的目標(biāo)之間找到完美的平衡點(diǎn)。

Q&A

Q1:CE-GPPO算法的核心創(chuàng)新是什么?

A:CE-GPPO的核心創(chuàng)新是重新利用傳統(tǒng)PPO算法中被丟棄的"越界"詞元信息。傳統(tǒng)方法會(huì)完全忽略那些超出裁剪范圍的詞元,但CE-GPPO通過停梯度操作和可調(diào)參數(shù),以溫和可控的方式保留這些信息,從而更好地平衡模型的探索與利用能力。

Q2:為什么傳統(tǒng)的PPO算法會(huì)導(dǎo)致熵坍塌或熵爆炸?

A:傳統(tǒng)PPO算法的裁剪機(jī)制過于簡(jiǎn)單粗暴,會(huì)丟棄對(duì)維持探索能力重要的低概率詞元信息。這導(dǎo)致模型要么過快收斂到次優(yōu)解(熵坍塌),要么無法有效利用已學(xué)知識(shí)而過度探索(熵爆炸),無法在探索和利用之間找到合適的平衡。

Q3:CE-GPPO在實(shí)際性能上有多大提升?

A:在數(shù)學(xué)推理基準(zhǔn)測(cè)試中,CE-GPPO顯著超越了現(xiàn)有方法。在1.5B參數(shù)模型上比最佳基線提升2.5個(gè)百分點(diǎn),在7B參數(shù)模型上提升達(dá)到3個(gè)百分點(diǎn)。在AIME25、HMMT25等挑戰(zhàn)性任務(wù)上優(yōu)勢(shì)更加明顯,且這種優(yōu)勢(shì)隨模型規(guī)模增大而放大。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-