av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<wbr id="uhhiv"></wbr>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

快手團(tuán)隊(duì)突破大模型訓(xùn)練難題：讓AI既會(huì)探索又能收斂的全新方法

人工智能強(qiáng)化學(xué)習(xí)策略優(yōu)化

快手團(tuán)隊(duì)突破大模型訓(xùn)練難題：讓AI既會(huì)探索又能收斂的全新方法

作者：科技行者

2025-10-15 12:09

分享至：

快手科技團(tuán)隊(duì)提出CE-GPPO算法，解決大型語言模型強(qiáng)化學(xué)習(xí)訓(xùn)練中的探索-利用平衡難題。通過重新利用傳統(tǒng)方法丟棄的"越界"詞元信息，實(shí)現(xiàn)對(duì)策略熵的精細(xì)控制。在數(shù)學(xué)推理任務(wù)上顯著超越現(xiàn)有方法，7B模型性能提升3個(gè)百分點(diǎn)，為AI模型訓(xùn)練提供新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-15 12:09 ? 科技行者

在人工智能快速發(fā)展的今天，大型語言模型的訓(xùn)練就像培養(yǎng)一個(gè)既要勇于探索又要善于總結(jié)的學(xué)生。這項(xiàng)由快手科技Klear團(tuán)隊(duì)的蘇振鵬、潘磊宇等研究人員聯(lián)合獨(dú)立研究者李云濤完成的突破性研究，發(fā)表于2025年10月的arXiv預(yù)印本平臺(tái)（論文編號(hào)：arXiv:2509.20712v3），為解決這一核心挑戰(zhàn)提供了全新的解決方案。

想要理解這項(xiàng)研究的意義，我們可以把大型語言模型的訓(xùn)練過程比作教導(dǎo)一個(gè)學(xué)生學(xué)習(xí)數(shù)學(xué)解題。傳統(tǒng)的訓(xùn)練方法就像是給學(xué)生設(shè)定了一個(gè)固定的學(xué)習(xí)框架：學(xué)生只能在規(guī)定的范圍內(nèi)探索新的解題思路，超出這個(gè)范圍的想法都會(huì)被直接忽略掉。這種做法雖然能保證學(xué)習(xí)過程的穩(wěn)定性，但也限制了學(xué)生的創(chuàng)新能力和深度思考。

研究團(tuán)隊(duì)發(fā)現(xiàn)，在強(qiáng)化學(xué)習(xí)訓(xùn)練大型語言模型的過程中，存在一個(gè)被稱為"策略熵"的關(guān)鍵指標(biāo)，它反映了模型在面對(duì)問題時(shí)的探索與利用平衡。就像學(xué)生解題時(shí)，既要嘗試新方法（探索），又要使用已掌握的可靠方法（利用）。然而，現(xiàn)有的主流訓(xùn)練算法如PPO（近端策略優(yōu)化）在處理這個(gè)平衡時(shí)存在重大缺陷：它們會(huì)丟棄那些看似"不合規(guī)"但實(shí)際上對(duì)維持探索能力至關(guān)重要的信息。

研究團(tuán)隊(duì)深入分析了這個(gè)問題的根源，發(fā)現(xiàn)傳統(tǒng)方法在處理不同概率的輸出詞元時(shí)采用了過于簡(jiǎn)單粗暴的裁剪機(jī)制。他們將所有的詞元分為四種類型：正優(yōu)勢(shì)高概率詞元、負(fù)優(yōu)勢(shì)低概率詞元、正優(yōu)勢(shì)低概率詞元和負(fù)優(yōu)勢(shì)高概率詞元。前兩種類型的詞元通常會(huì)加速模型收斂，讓模型更快地找到看似正確的答案，但也容易導(dǎo)致模型過早失去探索新可能性的能力。后兩種類型的詞元雖然看起來不太"主流"，但它們對(duì)維持模型的探索能力和防止過早收斂起著至關(guān)重要的作用。

傳統(tǒng)的PPO算法就像一個(gè)過度嚴(yán)格的老師，只關(guān)注那些符合預(yù)期范圍的答案，而完全忽視學(xué)生提出的創(chuàng)新想法，即使這些想法可能包含有價(jià)值的思考過程。這種做法導(dǎo)致了兩個(gè)嚴(yán)重問題：一是"熵坍塌"，即模型失去探索能力，過快地收斂到次優(yōu)解；二是"熵爆炸"，即模型過度探索而無法有效利用已學(xué)到的知識(shí)。

基于這些深刻洞察，研究團(tuán)隊(duì)提出了CE-GPPO（通過梯度保持裁剪策略優(yōu)化協(xié)調(diào)熵）算法。這個(gè)新方法的核心思想是重新利用那些在傳統(tǒng)方法中被丟棄的"越界"信息，但以一種更加溫和和可控的方式。就像一個(gè)智慧的老師，不僅要聽取學(xué)生的標(biāo)準(zhǔn)答案，也要關(guān)注那些看似偏離主題但可能包含創(chuàng)新思維的回答，并給予適當(dāng)?shù)囊龑?dǎo)和反饋。

CE-GPPO的巧妙之處在于引入了一個(gè)"停梯度"操作，這就像給學(xué)生的創(chuàng)新想法設(shè)置了一個(gè)"緩沖區(qū)"。在這個(gè)緩沖區(qū)內(nèi)，模型可以學(xué)習(xí)和借鑒這些創(chuàng)新想法，但不會(huì)因此而偏離主要的學(xué)習(xí)軌道太遠(yuǎn)。通過兩個(gè)可調(diào)節(jié)的參數(shù)β1和β2，研究團(tuán)隊(duì)可以精確控制模型對(duì)不同類型創(chuàng)新想法的重視程度。

具體來說，當(dāng)模型遇到那些有潛在價(jià)值但概率較低的創(chuàng)新答案時(shí)，CE-GPPO會(huì)給予它們適當(dāng)?shù)年P(guān)注權(quán)重，鼓勵(lì)模型保持探索精神。而對(duì)于那些可能導(dǎo)致模型偏離正軌的低質(zhì)量答案，算法會(huì)適當(dāng)降低它們的影響力，確保模型不會(huì)因?yàn)檫^度探索而失去方向。

在數(shù)學(xué)推理基準(zhǔn)測(cè)試中，CE-GPPO展現(xiàn)了令人矚目的性能提升。在多個(gè)權(quán)威測(cè)試集上，包括AIME24、AIME25、HMMT25、MATH500和AMC23，新算法都顯著超越了現(xiàn)有的強(qiáng)基線方法。特別是在更具挑戰(zhàn)性的任務(wù)上，CE-GPPO的優(yōu)勢(shì)更加明顯。更重要的是，這種優(yōu)勢(shì)隨著模型規(guī)模的增大而放大：在1.5B參數(shù)的模型上，CE-GPPO比最佳基線方法提升了2.5個(gè)百分點(diǎn)，而在7B參數(shù)的模型上，這個(gè)提升擴(kuò)大到了3個(gè)百分點(diǎn)。

研究團(tuán)隊(duì)還深入分析了不同參數(shù)設(shè)置對(duì)模型行為的影響。他們發(fā)現(xiàn)，通過調(diào)節(jié)β1和β2參數(shù)，可以實(shí)現(xiàn)對(duì)模型探索-利用平衡的精細(xì)控制。當(dāng)β1較大或β2較小時(shí)，模型傾向于更快收斂，就像一個(gè)急于得出結(jié)論的學(xué)生；當(dāng)β1較小或β2較大時(shí)，模型維持更高的探索能力，像一個(gè)愿意深入思考各種可能性的學(xué)生。最優(yōu)的設(shè)置通常是β1=0.5或0.75，β2=1，這樣的配置能夠讓模型在保持探索能力的同時(shí)，也能有效利用已學(xué)到的知識(shí)。

更令人驚喜的是，CE-GPPO在訓(xùn)練穩(wěn)定性方面也表現(xiàn)出色。通過對(duì)KL散度和梯度范數(shù)的監(jiān)測(cè)，研究團(tuán)隊(duì)證明了新算法在整個(gè)訓(xùn)練過程中都保持著穩(wěn)定的趨勢(shì)，沒有出現(xiàn)異常波動(dòng)或超出合理范圍的情況。這意味著CE-GPPO在引入額外的學(xué)習(xí)信號(hào)的同時(shí)，并沒有犧牲訓(xùn)練的穩(wěn)定性，這對(duì)于實(shí)際應(yīng)用來說至關(guān)重要。

研究團(tuán)隊(duì)還將CE-GPPO與其他先進(jìn)的強(qiáng)化學(xué)習(xí)算法進(jìn)行了全面比較，包括CISPO和GSPO等方法。結(jié)果顯示，CE-GPPO在五個(gè)測(cè)試數(shù)據(jù)集中的四個(gè)上都取得了最佳性能，充分證明了其方法的有效性。特別值得注意的是，一些競(jìng)爭(zhēng)方法在訓(xùn)練過程中出現(xiàn)了模型崩潰的問題，而CE-GPPO始終保持穩(wěn)定的改進(jìn)趨勢(shì)。

這項(xiàng)研究的理論貢獻(xiàn)也不容忽視。研究團(tuán)隊(duì)從理論上分析了策略熵變化的機(jī)制，證明了被傳統(tǒng)方法忽視的"越界"詞元對(duì)于控制熵動(dòng)態(tài)的重要性。他們推導(dǎo)出的數(shù)學(xué)公式清晰地展示了這些詞元如何影響模型的探索-利用平衡，為算法設(shè)計(jì)提供了堅(jiān)實(shí)的理論基礎(chǔ)。

從實(shí)際應(yīng)用的角度來看，CE-GPPO的成功為大型語言模型的訓(xùn)練提供了新的思路。在數(shù)學(xué)推理、科學(xué)計(jì)算、代碼生成等需要深度思考和創(chuàng)新的任務(wù)中，這種能夠平衡探索與利用的訓(xùn)練方法可能會(huì)帶來顯著的性能提升。

當(dāng)然，這項(xiàng)研究也有其局限性。由于不同模型的參數(shù)和特性存在差異，CE-GPPO的最優(yōu)參數(shù)設(shè)置可能需要針對(duì)具體模型進(jìn)行調(diào)整。雖然研究團(tuán)隊(duì)發(fā)現(xiàn)β1=0.5、β2=1是一個(gè)普遍有效的設(shè)置，但為了獲得最佳性能，仍然需要一定程度的超參數(shù)調(diào)優(yōu)。

回到我們最初的比喻，CE-GPPO就像是培養(yǎng)出了一位既有探索精神又有判斷力的優(yōu)秀學(xué)生。這個(gè)學(xué)生不會(huì)因?yàn)樽非髽?biāo)準(zhǔn)答案而放棄創(chuàng)新思考，也不會(huì)因?yàn)檫^度探索而失去方向。在人工智能技術(shù)日益重要的今天，這種平衡探索與利用的能力對(duì)于構(gòu)建更加智能、更加可靠的AI系統(tǒng)具有重要意義。

這項(xiàng)研究不僅在技術(shù)層面取得了重要突破，更為整個(gè)人工智能領(lǐng)域提供了新的思考方向。隨著大型語言模型在各行各業(yè)的應(yīng)用越來越廣泛，如何讓這些模型既能保持創(chuàng)新能力又能穩(wěn)定可靠地工作，將是未來研究的重要課題。CE-GPPO的成功表明，通過巧妙的算法設(shè)計(jì)，我們可以在這兩個(gè)看似矛盾的目標(biāo)之間找到完美的平衡點(diǎn)。

Q&A

Q1：CE-GPPO算法的核心創(chuàng)新是什么？

A：CE-GPPO的核心創(chuàng)新是重新利用傳統(tǒng)PPO算法中被丟棄的"越界"詞元信息。傳統(tǒng)方法會(huì)完全忽略那些超出裁剪范圍的詞元，但CE-GPPO通過停梯度操作和可調(diào)參數(shù)，以溫和可控的方式保留這些信息，從而更好地平衡模型的探索與利用能力。

Q2：為什么傳統(tǒng)的PPO算法會(huì)導(dǎo)致熵坍塌或熵爆炸？

A：傳統(tǒng)PPO算法的裁剪機(jī)制過于簡(jiǎn)單粗暴，會(huì)丟棄對(duì)維持探索能力重要的低概率詞元信息。這導(dǎo)致模型要么過快收斂到次優(yōu)解（熵坍塌），要么無法有效利用已學(xué)知識(shí)而過度探索（熵爆炸），無法在探索和利用之間找到合適的平衡。

Q3：CE-GPPO在實(shí)際性能上有多大提升？

A：在數(shù)學(xué)推理基準(zhǔn)測(cè)試中，CE-GPPO顯著超越了現(xiàn)有方法。在1.5B參數(shù)模型上比最佳基線提升2.5個(gè)百分點(diǎn)，在7B參數(shù)模型上提升達(dá)到3個(gè)百分點(diǎn)。在AIME25、HMMT25等挑戰(zhàn)性任務(wù)上優(yōu)勢(shì)更加明顯，且這種優(yōu)勢(shì)隨模型規(guī)模增大而放大。

人工智能強(qiáng)化學(xué)習(xí)策略優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<ruby id="bihep"><label id="bihep"><object id="bihep"></object></label></ruby>

<nobr id="bihep"></nobr>

<var id="bihep"></var>