av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<center id="fh177"></center>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

持久強化學(xué)習(xí)讓大語言模型突破推理邊界：NVIDIA研究團隊解鎖新型推理能力

強化學(xué)習(xí)大語言模型推理能力

持久強化學(xué)習(xí)讓大語言模型突破推理邊界：NVIDIA研究團隊解鎖新型推理能力

作者：科技行者

2025-06-04 16:07

分享至：

NVIDIA研究團隊提出了持久強化學(xué)習(xí)(ProRL)方法，通過超過2000步的長期訓(xùn)練顯著提升了語言模型的推理能力。他們的Nemotron-Research-Reasoning-Qwen-1.5B模型在數(shù)學(xué)、編程和邏輯推理等任務(wù)上大幅超越了基礎(chǔ)模型，證明強化學(xué)習(xí)不僅能提高模型利用已有知識的效率，還能幫助模型學(xué)習(xí)全新的解題策略。研究發(fā)現(xiàn)，在基礎(chǔ)模型表現(xiàn)最差的任務(wù)上，ProRL帶來的提升最為顯著，挑戰(zhàn)了學(xué)術(shù)界關(guān)于強化學(xué)習(xí)局限性的普遍認(rèn)知。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-04 16:07 ? 科技行者

NVIDIA研究團隊的Mingjie Liu、Shizhe Diao、Ximing Lu、Jian Hu、Xin Dong、Yejin Choi、Jan Kautz和Yi Dong在2025年5月30日發(fā)表了一篇名為《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》的研究論文。這項研究成果已上傳至arXiv預(yù)印本平臺（arXiv:2505.24864v1），并且研究團隊已經(jīng)開源了他們訓(xùn)練的模型，有興趣的讀者可以通過https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B獲取。

強化學(xué)習(xí)是否真能提升語言模型的推理能力？一場學(xué)術(shù)爭論的起源

想象一下：你有一個聰明的助手，他能解決一些復(fù)雜問題，但總有些難題讓他犯難。你可以通過不斷指導(dǎo)和反饋來幫助他進(jìn)步，但問題是——他真的能學(xué)會解決那些原本完全無法應(yīng)對的難題嗎？還是說，他只是變得更擅長解決那些本來就勉強能做的問題？

這個問題映射到人工智能領(lǐng)域，就變成了一個熱烈爭論的話題：強化學(xué)習(xí)（RL）到底能不能讓大語言模型（LLM）獲得新的推理能力？還是說，它只是讓模型更有效地利用已有的能力？

近年來，像OpenAI的O1和DeepSeek的R1這樣的推理型語言模型通過增加測試時的計算量——比如生成更長的思考鏈（Chain-of-Thought）和回溯修正——在數(shù)學(xué)問題解決和代碼生成等復(fù)雜任務(wù)上取得了顯著進(jìn)步。而強化學(xué)習(xí)已成為培養(yǎng)這些復(fù)雜推理能力的關(guān)鍵工具。

然而，一些研究人員對此提出質(zhì)疑。他們認(rèn)為，強化學(xué)習(xí)并沒有真正教會模型新的推理技巧，而只是提高了模型從已有能力中抽取正確答案的效率。想象成這樣：如果一個學(xué)生本來就知道100道題的答案，強化學(xué)習(xí)可能幫助他更快找到正確答案，但不會教他解決第101道全新類型的題目。

NVIDIA的研究團隊不認(rèn)同這一觀點。他們認(rèn)為，先前的研究之所以得出這樣的結(jié)論，主要是因為兩個限制：一是過度關(guān)注特定領(lǐng)域（如數(shù)學(xué)），這些領(lǐng)域的模型在預(yù)訓(xùn)練和后訓(xùn)練階段已經(jīng)接觸了大量相關(guān)內(nèi)容；二是強化學(xué)習(xí)訓(xùn)練時間太短，通常不超過幾百步，沒有給模型足夠的時間去探索和發(fā)展新的推理能力。

持久強化學(xué)習(xí)：給模型足夠的學(xué)習(xí)時間

為了驗證他們的假設(shè)，NVIDIA團隊提出了一種名為"持久強化學(xué)習(xí)"（ProRL）的方法。這就像是給學(xué)生提供長期、持續(xù)的訓(xùn)練，而不只是短期突擊。具體來說，他們的方法包含幾個關(guān)鍵創(chuàng)新：

首先，他們顯著延長了強化學(xué)習(xí)的訓(xùn)練時間，從通常的幾百步增加到超過2000步。這就像是把短期沖刺訓(xùn)練變成了馬拉松式的長期培訓(xùn)，讓模型有足夠的時間探索和掌握新的解題策略。

其次，他們使用了多樣化的訓(xùn)練數(shù)據(jù)，不僅包括傳統(tǒng)的數(shù)學(xué)和編程問題，還添加了STEM科學(xué)推理、邏輯謎題和指令遵循等各種任務(wù)類型。這相當(dāng)于讓學(xué)生不只學(xué)習(xí)一門學(xué)科，而是接觸多種知識領(lǐng)域，培養(yǎng)更全面的思維能力。

第三，他們引入了KL散度控制機制。這有點像給學(xué)生設(shè)定學(xué)習(xí)界限——既鼓勵他探索新方法，又不讓他完全拋棄已學(xué)的基礎(chǔ)知識。在技術(shù)上，這防止了模型輸出分布的"熵崩塌"問題，也就是說，防止模型過早地固化在某些特定的解題模式上，失去繼續(xù)探索的能力。

最后，他們采用了參考策略重置技術(shù)。想象一個長跑運動員需要定期補充能量，這項技術(shù)就像是讓模型在長期訓(xùn)練過程中定期"補充能量"，避免訓(xùn)練效果停滯不前。當(dāng)模型學(xué)習(xí)曲線趨于平穩(wěn)時，研究人員會重置參考策略和優(yōu)化器狀態(tài)，讓模型能夠繼續(xù)有效學(xué)習(xí)。

通過這些方法，研究團隊開發(fā)出了名為Nemotron-Research-Reasoning-Qwen-1.5B的模型，這是當(dāng)前最先進(jìn)的1.5B參數(shù)推理模型。值得注意的是，盡管這個模型參數(shù)量不大，但其性能超越了同樣參數(shù)量的DeepSeek-R1-1.5B基礎(chǔ)模型，甚至在多個任務(wù)上匹配或超過了更大的DeepSeek-R1-7B模型。

突破性成果：小模型也能獲得強大推理能力

那么，持久強化學(xué)習(xí)的效果如何呢？研究團隊的實驗結(jié)果令人印象深刻。

首先，在數(shù)學(xué)基準(zhǔn)測試上，Nemotron-Research-Reasoning-Qwen-1.5B模型比基礎(chǔ)模型平均提高了14.7%的pass@1分?jǐn)?shù)（一次嘗試就得到正確答案的比例）。在編程方面，提升了13.9%。在邏輯謎題上，驚人地提高了54.8%。在STEM推理任務(wù)上，提升了25.1%。在指令遵循任務(wù)上，提高了18.1%。

更重要的是，研究團隊發(fā)現(xiàn)，隨著訓(xùn)練步數(shù)的增加，模型的性能持續(xù)提升，并沒有出現(xiàn)早期飽和現(xiàn)象。這表明，強化學(xué)習(xí)的確可以隨著計算資源的增加而不斷提升模型能力，就像持續(xù)練習(xí)可以不斷提高人類的技能一樣。

也許最有說服力的證據(jù)是，研究人員發(fā)現(xiàn)一些任務(wù)上，基礎(chǔ)模型無論嘗試多少次都無法解決（pass@k為0，k代表嘗試次數(shù)），而經(jīng)過ProRL訓(xùn)練的模型卻能達(dá)到100%的通過率。這就像是一個學(xué)生原本完全不會某類型的題目，經(jīng)過特殊訓(xùn)練后卻能夠熟練掌握。

研究人員還分析了模型解題過程的創(chuàng)新性。他們使用"創(chuàng)造力指數(shù)"（Creativity Index）來衡量模型輸出與預(yù)訓(xùn)練語料庫的重疊程度。結(jié)果表明，經(jīng)過持久強化學(xué)習(xí)訓(xùn)練的模型生成的解題路徑具有更高的創(chuàng)新性，這意味著模型確實學(xué)會了新的解題策略，而不僅僅是重復(fù)預(yù)訓(xùn)練中看到的模式。

越是挑戰(zhàn)，提升越大：模型能力擴展的規(guī)律

研究團隊進(jìn)一步分析發(fā)現(xiàn)，強化學(xué)習(xí)對模型能力的提升遵循一個有趣的規(guī)律：基礎(chǔ)模型表現(xiàn)越弱的任務(wù)，通過ProRL獲得的提升就越大。

想象一個學(xué)生在不同科目上的表現(xiàn)：數(shù)學(xué)很擅長（90分），物理一般（70分），化學(xué)很差（40分）。如果給這個學(xué)生提供全面的輔導(dǎo)，他在化學(xué)上的進(jìn)步可能會最顯著，因為這里有最大的提升空間。

研究結(jié)果也證實了這一點。在那些基礎(chǔ)模型已經(jīng)表現(xiàn)不錯的任務(wù)上（如某些數(shù)學(xué)問題），ProRL的提升相對較?。欢诨A(chǔ)模型原本表現(xiàn)很差的任務(wù)上（如某些邏輯謎題），ProRL帶來的改進(jìn)則非常顯著。研究人員將任務(wù)分為三類：

1. 邊界縮小型任務(wù)：在這些任務(wù)上，模型的pass@1（一次嘗試正確率）提高了，但pass@128（嘗試128次的正確率）反而下降或持平。這通常發(fā)生在基礎(chǔ)模型已經(jīng)很擅長的任務(wù)上，相當(dāng)于模型變得更"自信"但不一定更"聰明"。

2. 邊界平穩(wěn)型任務(wù)：在這些任務(wù)上，模型在早期訓(xùn)練階段就實現(xiàn)了pass@1和pass@128的顯著提升，但后續(xù)訓(xùn)練效果增長不明顯。這意味著模型很快就掌握了解決這類問題的能力，額外的訓(xùn)練幫助有限。

3. 邊界持續(xù)擴展型任務(wù)：最有趣的是這類任務(wù)，模型的推理能力隨著ProRL訓(xùn)練的持續(xù)進(jìn)行而不斷提升。這表明長期的強化學(xué)習(xí)確實能夠幫助模型持續(xù)發(fā)展新的解題能力。

超越訓(xùn)練范圍：模型的泛化能力

研究團隊還測試了模型在處理分布外任務(wù)和增加難度任務(wù)時的表現(xiàn)。

分布外任務(wù)是指模型在訓(xùn)練中從未見過的全新類型問題。研究人員使用了名為"boxnet"的任務(wù)，這是一個在訓(xùn)練中完全沒有出現(xiàn)過的推理謎題。結(jié)果顯示，基礎(chǔ)模型完全無法解決這個任務(wù)（pass@k為0），而ProRL訓(xùn)練的模型卻能夠很好地應(yīng)對，表明模型確實學(xué)會了可泛化的抽象推理模式。

對于難度增加的任務(wù)，研究人員測試了"graph_color"（圖著色）問題，通過增加圖中節(jié)點數(shù)量來提高難度。雖然模型只在含有10個節(jié)點的圖上訓(xùn)練，但測試時使用了更多節(jié)點的圖。結(jié)果表明，隨著難度增加，所有模型的表現(xiàn)都會下降，但ProRL訓(xùn)練的模型在各種難度級別上都保持了明顯的優(yōu)勢，表明它學(xué)到的能力具有很好的可擴展性。

持久強化學(xué)習(xí)的實用價值與挑戰(zhàn)

NVIDIA團隊的研究不僅在學(xué)術(shù)上具有重要意義，也有巨大的實用價值。

首先，這項研究證明，即使是相對小型的模型（1.5B參數(shù)），通過適當(dāng)?shù)挠?xùn)練方法也能獲得強大的推理能力。這對于資源有限的研究者和組織來說是個好消息，因為他們可以用更少的計算資源獲得優(yōu)秀的模型。

其次，研究表明，強化學(xué)習(xí)可以幫助模型在沒有額外訓(xùn)練數(shù)據(jù)的情況下提升能力。這在數(shù)據(jù)獲取困難的情況下尤其有價值。

然而，持久強化學(xué)習(xí)也面臨一些挑戰(zhàn)。首先是計算資源需求大。ProRL方法需要長時間訓(xùn)練，這對于小型組織或研究者可能是一個障礙。其次是可擴展性問題。雖然研究證明了1.5B參數(shù)模型的有效性，但尚不清楚這種方法是否同樣適用于更大規(guī)模的模型。第三是訓(xùn)練過程的復(fù)雜性。需要定期重置參考策略和優(yōu)化器參數(shù)以保持訓(xùn)練穩(wěn)定性，這增加了訓(xùn)練過程的復(fù)雜度。

盡管如此，ProRL方法提供的強大推理能力提升仍然使得這些挑戰(zhàn)值得克服。正如研究人員所說，持久強化學(xué)習(xí)真正打開了擴展語言模型推理邊界的大門。

結(jié)論：耐心的訓(xùn)練帶來智能的飛躍

回到我們開始的比喻：如果一個學(xué)生在特定領(lǐng)域表現(xiàn)不佳，是否意味著他永遠(yuǎn)無法掌握這個領(lǐng)域的知識？NVIDIA的研究告訴我們，答案是否定的。只要給予足夠的時間和適當(dāng)?shù)挠?xùn)練方法，即使是能力有限的模型也能在原本薄弱的領(lǐng)域取得顯著進(jìn)步。

這項研究的核心發(fā)現(xiàn)是，強化學(xué)習(xí)不僅能提高模型利用現(xiàn)有知識的效率，還能真正幫助模型探索和發(fā)現(xiàn)全新的解題策略。關(guān)鍵在于給模型足夠的學(xué)習(xí)時間（持久強化學(xué)習(xí)），提供多樣化的任務(wù)（跨領(lǐng)域訓(xùn)練），以及使用合適的學(xué)習(xí)控制機制（KL散度控制和參考策略重置）。

對于人工智能研究社區(qū)來說，這項工作挑戰(zhàn)了之前關(guān)于強化學(xué)習(xí)局限性的假設(shè)，為未來更強大、更通用的推理模型的發(fā)展提供了新方向。對于普通用戶來說，這意味著我們可能很快就能看到更小、更高效但同時也更聰明的AI系統(tǒng)，它們能夠處理各種復(fù)雜的推理任務(wù)，從數(shù)學(xué)問題到編程挑戰(zhàn)，再到科學(xué)推理和邏輯謎題。

如果這項研究讓你感興趣，不妨訪問研究團隊的GitHub頁面或Hugging Face模型庫，親自嘗試一下Nemotron-Research-Reasoning-Qwen-1.5B模型的能力。正如研究者們展示的那樣，有時候，耐心的訓(xùn)練比模型的原始能力更重要，這不僅適用于AI，也許對我們?nèi)祟愖陨淼膶W(xué)習(xí)也是一種啟示。

強化學(xué)習(xí)大語言模型推理能力

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團隊提出SIRI方法，通過"壓縮-擴張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<abbr id="l5t4n"></abbr>

<meter id="l5t4n"><span id="l5t4n"></span></meter>

<blockquote id="l5t4n"><ul id="l5t4n"></ul></blockquote>