NVIDIA研究團隊的Mingjie Liu、Shizhe Diao、Ximing Lu、Jian Hu、Xin Dong、Yejin Choi、Jan Kautz和Yi Dong在2025年5月30日發(fā)表了一篇名為《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》的研究論文。這項研究成果已上傳至arXiv預(yù)印本平臺(arXiv:2505.24864v1),并且研究團隊已經(jīng)開源了他們訓(xùn)練的模型,有興趣的讀者可以通過https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B獲取。
強化學(xué)習(xí)是否真能提升語言模型的推理能力?一場學(xué)術(shù)爭論的起源
想象一下:你有一個聰明的助手,他能解決一些復(fù)雜問題,但總有些難題讓他犯難。你可以通過不斷指導(dǎo)和反饋來幫助他進步,但問題是——他真的能學(xué)會解決那些原本完全無法應(yīng)對的難題嗎?還是說,他只是變得更擅長解決那些本來就勉強能做的問題?
這個問題映射到人工智能領(lǐng)域,就變成了一個熱烈爭論的話題:強化學(xué)習(xí)(RL)到底能不能讓大語言模型(LLM)獲得新的推理能力?還是說,它只是讓模型更有效地利用已有的能力?
近年來,像OpenAI的O1和DeepSeek的R1這樣的推理型語言模型通過增加測試時的計算量——比如生成更長的思考鏈(Chain-of-Thought)和回溯修正——在數(shù)學(xué)問題解決和代碼生成等復(fù)雜任務(wù)上取得了顯著進步。而強化學(xué)習(xí)已成為培養(yǎng)這些復(fù)雜推理能力的關(guān)鍵工具。
然而,一些研究人員對此提出質(zhì)疑。他們認為,強化學(xué)習(xí)并沒有真正教會模型新的推理技巧,而只是提高了模型從已有能力中抽取正確答案的效率。想象成這樣:如果一個學(xué)生本來就知道100道題的答案,強化學(xué)習(xí)可能幫助他更快找到正確答案,但不會教他解決第101道全新類型的題目。
NVIDIA的研究團隊不認同這一觀點。他們認為,先前的研究之所以得出這樣的結(jié)論,主要是因為兩個限制:一是過度關(guān)注特定領(lǐng)域(如數(shù)學(xué)),這些領(lǐng)域的模型在預(yù)訓(xùn)練和后訓(xùn)練階段已經(jīng)接觸了大量相關(guān)內(nèi)容;二是強化學(xué)習(xí)訓(xùn)練時間太短,通常不超過幾百步,沒有給模型足夠的時間去探索和發(fā)展新的推理能力。
持久強化學(xué)習(xí):給模型足夠的學(xué)習(xí)時間
為了驗證他們的假設(shè),NVIDIA團隊提出了一種名為"持久強化學(xué)習(xí)"(ProRL)的方法。這就像是給學(xué)生提供長期、持續(xù)的訓(xùn)練,而不只是短期突擊。具體來說,他們的方法包含幾個關(guān)鍵創(chuàng)新:
首先,他們顯著延長了強化學(xué)習(xí)的訓(xùn)練時間,從通常的幾百步增加到超過2000步。這就像是把短期沖刺訓(xùn)練變成了馬拉松式的長期培訓(xùn),讓模型有足夠的時間探索和掌握新的解題策略。
其次,他們使用了多樣化的訓(xùn)練數(shù)據(jù),不僅包括傳統(tǒng)的數(shù)學(xué)和編程問題,還添加了STEM科學(xué)推理、邏輯謎題和指令遵循等各種任務(wù)類型。這相當(dāng)于讓學(xué)生不只學(xué)習(xí)一門學(xué)科,而是接觸多種知識領(lǐng)域,培養(yǎng)更全面的思維能力。
第三,他們引入了KL散度控制機制。這有點像給學(xué)生設(shè)定學(xué)習(xí)界限——既鼓勵他探索新方法,又不讓他完全拋棄已學(xué)的基礎(chǔ)知識。在技術(shù)上,這防止了模型輸出分布的"熵崩塌"問題,也就是說,防止模型過早地固化在某些特定的解題模式上,失去繼續(xù)探索的能力。
最后,他們采用了參考策略重置技術(shù)。想象一個長跑運動員需要定期補充能量,這項技術(shù)就像是讓模型在長期訓(xùn)練過程中定期"補充能量",避免訓(xùn)練效果停滯不前。當(dāng)模型學(xué)習(xí)曲線趨于平穩(wěn)時,研究人員會重置參考策略和優(yōu)化器狀態(tài),讓模型能夠繼續(xù)有效學(xué)習(xí)。
通過這些方法,研究團隊開發(fā)出了名為Nemotron-Research-Reasoning-Qwen-1.5B的模型,這是當(dāng)前最先進的1.5B參數(shù)推理模型。值得注意的是,盡管這個模型參數(shù)量不大,但其性能超越了同樣參數(shù)量的DeepSeek-R1-1.5B基礎(chǔ)模型,甚至在多個任務(wù)上匹配或超過了更大的DeepSeek-R1-7B模型。
突破性成果:小模型也能獲得強大推理能力
那么,持久強化學(xué)習(xí)的效果如何呢?研究團隊的實驗結(jié)果令人印象深刻。
首先,在數(shù)學(xué)基準測試上,Nemotron-Research-Reasoning-Qwen-1.5B模型比基礎(chǔ)模型平均提高了14.7%的pass@1分數(shù)(一次嘗試就得到正確答案的比例)。在編程方面,提升了13.9%。在邏輯謎題上,驚人地提高了54.8%。在STEM推理任務(wù)上,提升了25.1%。在指令遵循任務(wù)上,提高了18.1%。
更重要的是,研究團隊發(fā)現(xiàn),隨著訓(xùn)練步數(shù)的增加,模型的性能持續(xù)提升,并沒有出現(xiàn)早期飽和現(xiàn)象。這表明,強化學(xué)習(xí)的確可以隨著計算資源的增加而不斷提升模型能力,就像持續(xù)練習(xí)可以不斷提高人類的技能一樣。
也許最有說服力的證據(jù)是,研究人員發(fā)現(xiàn)一些任務(wù)上,基礎(chǔ)模型無論嘗試多少次都無法解決(pass@k為0,k代表嘗試次數(shù)),而經(jīng)過ProRL訓(xùn)練的模型卻能達到100%的通過率。這就像是一個學(xué)生原本完全不會某類型的題目,經(jīng)過特殊訓(xùn)練后卻能夠熟練掌握。
研究人員還分析了模型解題過程的創(chuàng)新性。他們使用"創(chuàng)造力指數(shù)"(Creativity Index)來衡量模型輸出與預(yù)訓(xùn)練語料庫的重疊程度。結(jié)果表明,經(jīng)過持久強化學(xué)習(xí)訓(xùn)練的模型生成的解題路徑具有更高的創(chuàng)新性,這意味著模型確實學(xué)會了新的解題策略,而不僅僅是重復(fù)預(yù)訓(xùn)練中看到的模式。
越是挑戰(zhàn),提升越大:模型能力擴展的規(guī)律
研究團隊進一步分析發(fā)現(xiàn),強化學(xué)習(xí)對模型能力的提升遵循一個有趣的規(guī)律:基礎(chǔ)模型表現(xiàn)越弱的任務(wù),通過ProRL獲得的提升就越大。
想象一個學(xué)生在不同科目上的表現(xiàn):數(shù)學(xué)很擅長(90分),物理一般(70分),化學(xué)很差(40分)。如果給這個學(xué)生提供全面的輔導(dǎo),他在化學(xué)上的進步可能會最顯著,因為這里有最大的提升空間。
研究結(jié)果也證實了這一點。在那些基礎(chǔ)模型已經(jīng)表現(xiàn)不錯的任務(wù)上(如某些數(shù)學(xué)問題),ProRL的提升相對較?。欢诨A(chǔ)模型原本表現(xiàn)很差的任務(wù)上(如某些邏輯謎題),ProRL帶來的改進則非常顯著。研究人員將任務(wù)分為三類:
1. 邊界縮小型任務(wù):在這些任務(wù)上,模型的pass@1(一次嘗試正確率)提高了,但pass@128(嘗試128次的正確率)反而下降或持平。這通常發(fā)生在基礎(chǔ)模型已經(jīng)很擅長的任務(wù)上,相當(dāng)于模型變得更"自信"但不一定更"聰明"。
2. 邊界平穩(wěn)型任務(wù):在這些任務(wù)上,模型在早期訓(xùn)練階段就實現(xiàn)了pass@1和pass@128的顯著提升,但后續(xù)訓(xùn)練效果增長不明顯。這意味著模型很快就掌握了解決這類問題的能力,額外的訓(xùn)練幫助有限。
3. 邊界持續(xù)擴展型任務(wù):最有趣的是這類任務(wù),模型的推理能力隨著ProRL訓(xùn)練的持續(xù)進行而不斷提升。這表明長期的強化學(xué)習(xí)確實能夠幫助模型持續(xù)發(fā)展新的解題能力。
超越訓(xùn)練范圍:模型的泛化能力
研究團隊還測試了模型在處理分布外任務(wù)和增加難度任務(wù)時的表現(xiàn)。
分布外任務(wù)是指模型在訓(xùn)練中從未見過的全新類型問題。研究人員使用了名為"boxnet"的任務(wù),這是一個在訓(xùn)練中完全沒有出現(xiàn)過的推理謎題。結(jié)果顯示,基礎(chǔ)模型完全無法解決這個任務(wù)(pass@k為0),而ProRL訓(xùn)練的模型卻能夠很好地應(yīng)對,表明模型確實學(xué)會了可泛化的抽象推理模式。
對于難度增加的任務(wù),研究人員測試了"graph_color"(圖著色)問題,通過增加圖中節(jié)點數(shù)量來提高難度。雖然模型只在含有10個節(jié)點的圖上訓(xùn)練,但測試時使用了更多節(jié)點的圖。結(jié)果表明,隨著難度增加,所有模型的表現(xiàn)都會下降,但ProRL訓(xùn)練的模型在各種難度級別上都保持了明顯的優(yōu)勢,表明它學(xué)到的能力具有很好的可擴展性。
持久強化學(xué)習(xí)的實用價值與挑戰(zhàn)
NVIDIA團隊的研究不僅在學(xué)術(shù)上具有重要意義,也有巨大的實用價值。
首先,這項研究證明,即使是相對小型的模型(1.5B參數(shù)),通過適當(dāng)?shù)挠?xùn)練方法也能獲得強大的推理能力。這對于資源有限的研究者和組織來說是個好消息,因為他們可以用更少的計算資源獲得優(yōu)秀的模型。
其次,研究表明,強化學(xué)習(xí)可以幫助模型在沒有額外訓(xùn)練數(shù)據(jù)的情況下提升能力。這在數(shù)據(jù)獲取困難的情況下尤其有價值。
然而,持久強化學(xué)習(xí)也面臨一些挑戰(zhàn)。首先是計算資源需求大。ProRL方法需要長時間訓(xùn)練,這對于小型組織或研究者可能是一個障礙。其次是可擴展性問題。雖然研究證明了1.5B參數(shù)模型的有效性,但尚不清楚這種方法是否同樣適用于更大規(guī)模的模型。第三是訓(xùn)練過程的復(fù)雜性。需要定期重置參考策略和優(yōu)化器參數(shù)以保持訓(xùn)練穩(wěn)定性,這增加了訓(xùn)練過程的復(fù)雜度。
盡管如此,ProRL方法提供的強大推理能力提升仍然使得這些挑戰(zhàn)值得克服。正如研究人員所說,持久強化學(xué)習(xí)真正打開了擴展語言模型推理邊界的大門。
結(jié)論:耐心的訓(xùn)練帶來智能的飛躍
回到我們開始的比喻:如果一個學(xué)生在特定領(lǐng)域表現(xiàn)不佳,是否意味著他永遠無法掌握這個領(lǐng)域的知識?NVIDIA的研究告訴我們,答案是否定的。只要給予足夠的時間和適當(dāng)?shù)挠?xùn)練方法,即使是能力有限的模型也能在原本薄弱的領(lǐng)域取得顯著進步。
這項研究的核心發(fā)現(xiàn)是,強化學(xué)習(xí)不僅能提高模型利用現(xiàn)有知識的效率,還能真正幫助模型探索和發(fā)現(xiàn)全新的解題策略。關(guān)鍵在于給模型足夠的學(xué)習(xí)時間(持久強化學(xué)習(xí)),提供多樣化的任務(wù)(跨領(lǐng)域訓(xùn)練),以及使用合適的學(xué)習(xí)控制機制(KL散度控制和參考策略重置)。
對于人工智能研究社區(qū)來說,這項工作挑戰(zhàn)了之前關(guān)于強化學(xué)習(xí)局限性的假設(shè),為未來更強大、更通用的推理模型的發(fā)展提供了新方向。對于普通用戶來說,這意味著我們可能很快就能看到更小、更高效但同時也更聰明的AI系統(tǒng),它們能夠處理各種復(fù)雜的推理任務(wù),從數(shù)學(xué)問題到編程挑戰(zhàn),再到科學(xué)推理和邏輯謎題。
如果這項研究讓你感興趣,不妨訪問研究團隊的GitHub頁面或Hugging Face模型庫,親自嘗試一下Nemotron-Research-Reasoning-Qwen-1.5B模型的能力。正如研究者們展示的那樣,有時候,耐心的訓(xùn)練比模型的原始能力更重要,這不僅適用于AI,也許對我們?nèi)祟愖陨淼膶W(xué)習(xí)也是一種啟示。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。