av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 持久強化學(xué)習(xí)讓大語言模型突破推理邊界:NVIDIA研究團隊解鎖新型推理能力

持久強化學(xué)習(xí)讓大語言模型突破推理邊界:NVIDIA研究團隊解鎖新型推理能力

2025-06-04 16:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 16:07 ? 科技行者

NVIDIA研究團隊的Mingjie Liu、Shizhe Diao、Ximing Lu、Jian Hu、Xin Dong、Yejin Choi、Jan Kautz和Yi Dong在2025年5月30日發(fā)表了一篇名為《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》的研究論文。這項研究成果已上傳至arXiv預(yù)印本平臺(arXiv:2505.24864v1),并且研究團隊已經(jīng)開源了他們訓(xùn)練的模型,有興趣的讀者可以通過https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B獲取。

強化學(xué)習(xí)是否真能提升語言模型的推理能力?一場學(xué)術(shù)爭論的起源

想象一下:你有一個聰明的助手,他能解決一些復(fù)雜問題,但總有些難題讓他犯難。你可以通過不斷指導(dǎo)和反饋來幫助他進步,但問題是——他真的能學(xué)會解決那些原本完全無法應(yīng)對的難題嗎?還是說,他只是變得更擅長解決那些本來就勉強能做的問題?

這個問題映射到人工智能領(lǐng)域,就變成了一個熱烈爭論的話題:強化學(xué)習(xí)(RL)到底能不能讓大語言模型(LLM)獲得新的推理能力?還是說,它只是讓模型更有效地利用已有的能力?

近年來,像OpenAI的O1和DeepSeek的R1這樣的推理型語言模型通過增加測試時的計算量——比如生成更長的思考鏈(Chain-of-Thought)和回溯修正——在數(shù)學(xué)問題解決和代碼生成等復(fù)雜任務(wù)上取得了顯著進步。而強化學(xué)習(xí)已成為培養(yǎng)這些復(fù)雜推理能力的關(guān)鍵工具。

然而,一些研究人員對此提出質(zhì)疑。他們認為,強化學(xué)習(xí)并沒有真正教會模型新的推理技巧,而只是提高了模型從已有能力中抽取正確答案的效率。想象成這樣:如果一個學(xué)生本來就知道100道題的答案,強化學(xué)習(xí)可能幫助他更快找到正確答案,但不會教他解決第101道全新類型的題目。

NVIDIA的研究團隊不認同這一觀點。他們認為,先前的研究之所以得出這樣的結(jié)論,主要是因為兩個限制:一是過度關(guān)注特定領(lǐng)域(如數(shù)學(xué)),這些領(lǐng)域的模型在預(yù)訓(xùn)練和后訓(xùn)練階段已經(jīng)接觸了大量相關(guān)內(nèi)容;二是強化學(xué)習(xí)訓(xùn)練時間太短,通常不超過幾百步,沒有給模型足夠的時間去探索和發(fā)展新的推理能力。

持久強化學(xué)習(xí):給模型足夠的學(xué)習(xí)時間

為了驗證他們的假設(shè),NVIDIA團隊提出了一種名為"持久強化學(xué)習(xí)"(ProRL)的方法。這就像是給學(xué)生提供長期、持續(xù)的訓(xùn)練,而不只是短期突擊。具體來說,他們的方法包含幾個關(guān)鍵創(chuàng)新:

首先,他們顯著延長了強化學(xué)習(xí)的訓(xùn)練時間,從通常的幾百步增加到超過2000步。這就像是把短期沖刺訓(xùn)練變成了馬拉松式的長期培訓(xùn),讓模型有足夠的時間探索和掌握新的解題策略。

其次,他們使用了多樣化的訓(xùn)練數(shù)據(jù),不僅包括傳統(tǒng)的數(shù)學(xué)和編程問題,還添加了STEM科學(xué)推理、邏輯謎題和指令遵循等各種任務(wù)類型。這相當(dāng)于讓學(xué)生不只學(xué)習(xí)一門學(xué)科,而是接觸多種知識領(lǐng)域,培養(yǎng)更全面的思維能力。

第三,他們引入了KL散度控制機制。這有點像給學(xué)生設(shè)定學(xué)習(xí)界限——既鼓勵他探索新方法,又不讓他完全拋棄已學(xué)的基礎(chǔ)知識。在技術(shù)上,這防止了模型輸出分布的"熵崩塌"問題,也就是說,防止模型過早地固化在某些特定的解題模式上,失去繼續(xù)探索的能力。

最后,他們采用了參考策略重置技術(shù)。想象一個長跑運動員需要定期補充能量,這項技術(shù)就像是讓模型在長期訓(xùn)練過程中定期"補充能量",避免訓(xùn)練效果停滯不前。當(dāng)模型學(xué)習(xí)曲線趨于平穩(wěn)時,研究人員會重置參考策略和優(yōu)化器狀態(tài),讓模型能夠繼續(xù)有效學(xué)習(xí)。

通過這些方法,研究團隊開發(fā)出了名為Nemotron-Research-Reasoning-Qwen-1.5B的模型,這是當(dāng)前最先進的1.5B參數(shù)推理模型。值得注意的是,盡管這個模型參數(shù)量不大,但其性能超越了同樣參數(shù)量的DeepSeek-R1-1.5B基礎(chǔ)模型,甚至在多個任務(wù)上匹配或超過了更大的DeepSeek-R1-7B模型。

突破性成果:小模型也能獲得強大推理能力

那么,持久強化學(xué)習(xí)的效果如何呢?研究團隊的實驗結(jié)果令人印象深刻。

首先,在數(shù)學(xué)基準測試上,Nemotron-Research-Reasoning-Qwen-1.5B模型比基礎(chǔ)模型平均提高了14.7%的pass@1分數(shù)(一次嘗試就得到正確答案的比例)。在編程方面,提升了13.9%。在邏輯謎題上,驚人地提高了54.8%。在STEM推理任務(wù)上,提升了25.1%。在指令遵循任務(wù)上,提高了18.1%。

更重要的是,研究團隊發(fā)現(xiàn),隨著訓(xùn)練步數(shù)的增加,模型的性能持續(xù)提升,并沒有出現(xiàn)早期飽和現(xiàn)象。這表明,強化學(xué)習(xí)的確可以隨著計算資源的增加而不斷提升模型能力,就像持續(xù)練習(xí)可以不斷提高人類的技能一樣。

也許最有說服力的證據(jù)是,研究人員發(fā)現(xiàn)一些任務(wù)上,基礎(chǔ)模型無論嘗試多少次都無法解決(pass@k為0,k代表嘗試次數(shù)),而經(jīng)過ProRL訓(xùn)練的模型卻能達到100%的通過率。這就像是一個學(xué)生原本完全不會某類型的題目,經(jīng)過特殊訓(xùn)練后卻能夠熟練掌握。

研究人員還分析了模型解題過程的創(chuàng)新性。他們使用"創(chuàng)造力指數(shù)"(Creativity Index)來衡量模型輸出與預(yù)訓(xùn)練語料庫的重疊程度。結(jié)果表明,經(jīng)過持久強化學(xué)習(xí)訓(xùn)練的模型生成的解題路徑具有更高的創(chuàng)新性,這意味著模型確實學(xué)會了新的解題策略,而不僅僅是重復(fù)預(yù)訓(xùn)練中看到的模式。

越是挑戰(zhàn),提升越大:模型能力擴展的規(guī)律

研究團隊進一步分析發(fā)現(xiàn),強化學(xué)習(xí)對模型能力的提升遵循一個有趣的規(guī)律:基礎(chǔ)模型表現(xiàn)越弱的任務(wù),通過ProRL獲得的提升就越大。

想象一個學(xué)生在不同科目上的表現(xiàn):數(shù)學(xué)很擅長(90分),物理一般(70分),化學(xué)很差(40分)。如果給這個學(xué)生提供全面的輔導(dǎo),他在化學(xué)上的進步可能會最顯著,因為這里有最大的提升空間。

研究結(jié)果也證實了這一點。在那些基礎(chǔ)模型已經(jīng)表現(xiàn)不錯的任務(wù)上(如某些數(shù)學(xué)問題),ProRL的提升相對較?。欢诨A(chǔ)模型原本表現(xiàn)很差的任務(wù)上(如某些邏輯謎題),ProRL帶來的改進則非常顯著。研究人員將任務(wù)分為三類:

1. 邊界縮小型任務(wù):在這些任務(wù)上,模型的pass@1(一次嘗試正確率)提高了,但pass@128(嘗試128次的正確率)反而下降或持平。這通常發(fā)生在基礎(chǔ)模型已經(jīng)很擅長的任務(wù)上,相當(dāng)于模型變得更"自信"但不一定更"聰明"。

2. 邊界平穩(wěn)型任務(wù):在這些任務(wù)上,模型在早期訓(xùn)練階段就實現(xiàn)了pass@1和pass@128的顯著提升,但后續(xù)訓(xùn)練效果增長不明顯。這意味著模型很快就掌握了解決這類問題的能力,額外的訓(xùn)練幫助有限。

3. 邊界持續(xù)擴展型任務(wù):最有趣的是這類任務(wù),模型的推理能力隨著ProRL訓(xùn)練的持續(xù)進行而不斷提升。這表明長期的強化學(xué)習(xí)確實能夠幫助模型持續(xù)發(fā)展新的解題能力。

超越訓(xùn)練范圍:模型的泛化能力

研究團隊還測試了模型在處理分布外任務(wù)和增加難度任務(wù)時的表現(xiàn)。

分布外任務(wù)是指模型在訓(xùn)練中從未見過的全新類型問題。研究人員使用了名為"boxnet"的任務(wù),這是一個在訓(xùn)練中完全沒有出現(xiàn)過的推理謎題。結(jié)果顯示,基礎(chǔ)模型完全無法解決這個任務(wù)(pass@k為0),而ProRL訓(xùn)練的模型卻能夠很好地應(yīng)對,表明模型確實學(xué)會了可泛化的抽象推理模式。

對于難度增加的任務(wù),研究人員測試了"graph_color"(圖著色)問題,通過增加圖中節(jié)點數(shù)量來提高難度。雖然模型只在含有10個節(jié)點的圖上訓(xùn)練,但測試時使用了更多節(jié)點的圖。結(jié)果表明,隨著難度增加,所有模型的表現(xiàn)都會下降,但ProRL訓(xùn)練的模型在各種難度級別上都保持了明顯的優(yōu)勢,表明它學(xué)到的能力具有很好的可擴展性。

持久強化學(xué)習(xí)的實用價值與挑戰(zhàn)

NVIDIA團隊的研究不僅在學(xué)術(shù)上具有重要意義,也有巨大的實用價值。

首先,這項研究證明,即使是相對小型的模型(1.5B參數(shù)),通過適當(dāng)?shù)挠?xùn)練方法也能獲得強大的推理能力。這對于資源有限的研究者和組織來說是個好消息,因為他們可以用更少的計算資源獲得優(yōu)秀的模型。

其次,研究表明,強化學(xué)習(xí)可以幫助模型在沒有額外訓(xùn)練數(shù)據(jù)的情況下提升能力。這在數(shù)據(jù)獲取困難的情況下尤其有價值。

然而,持久強化學(xué)習(xí)也面臨一些挑戰(zhàn)。首先是計算資源需求大。ProRL方法需要長時間訓(xùn)練,這對于小型組織或研究者可能是一個障礙。其次是可擴展性問題。雖然研究證明了1.5B參數(shù)模型的有效性,但尚不清楚這種方法是否同樣適用于更大規(guī)模的模型。第三是訓(xùn)練過程的復(fù)雜性。需要定期重置參考策略和優(yōu)化器參數(shù)以保持訓(xùn)練穩(wěn)定性,這增加了訓(xùn)練過程的復(fù)雜度。

盡管如此,ProRL方法提供的強大推理能力提升仍然使得這些挑戰(zhàn)值得克服。正如研究人員所說,持久強化學(xué)習(xí)真正打開了擴展語言模型推理邊界的大門。

結(jié)論:耐心的訓(xùn)練帶來智能的飛躍

回到我們開始的比喻:如果一個學(xué)生在特定領(lǐng)域表現(xiàn)不佳,是否意味著他永遠無法掌握這個領(lǐng)域的知識?NVIDIA的研究告訴我們,答案是否定的。只要給予足夠的時間和適當(dāng)?shù)挠?xùn)練方法,即使是能力有限的模型也能在原本薄弱的領(lǐng)域取得顯著進步。

這項研究的核心發(fā)現(xiàn)是,強化學(xué)習(xí)不僅能提高模型利用現(xiàn)有知識的效率,還能真正幫助模型探索和發(fā)現(xiàn)全新的解題策略。關(guān)鍵在于給模型足夠的學(xué)習(xí)時間(持久強化學(xué)習(xí)),提供多樣化的任務(wù)(跨領(lǐng)域訓(xùn)練),以及使用合適的學(xué)習(xí)控制機制(KL散度控制和參考策略重置)。

對于人工智能研究社區(qū)來說,這項工作挑戰(zhàn)了之前關(guān)于強化學(xué)習(xí)局限性的假設(shè),為未來更強大、更通用的推理模型的發(fā)展提供了新方向。對于普通用戶來說,這意味著我們可能很快就能看到更小、更高效但同時也更聰明的AI系統(tǒng),它們能夠處理各種復(fù)雜的推理任務(wù),從數(shù)學(xué)問題到編程挑戰(zhàn),再到科學(xué)推理和邏輯謎題。

如果這項研究讓你感興趣,不妨訪問研究團隊的GitHub頁面或Hugging Face模型庫,親自嘗試一下Nemotron-Research-Reasoning-Qwen-1.5B模型的能力。正如研究者們展示的那樣,有時候,耐心的訓(xùn)練比模型的原始能力更重要,這不僅適用于AI,也許對我們?nèi)祟愖陨淼膶W(xué)習(xí)也是一種啟示。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-