av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<wbr id="nmdyp"><cite id="nmdyp"></cite></wbr>

<big id="nmdyp"></big>

<rt id="nmdyp"></rt>

<s id="nmdyp"></s>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

數(shù)學(xué)推理的新突破：NVIDIA與清華大學(xué)聯(lián)手打造的"負例感知微調(diào)"如何彌合監(jiān)督學(xué)習(xí)與強化學(xué)習(xí)的鴻溝

人工智能數(shù)學(xué)推理語言模型優(yōu)化

數(shù)學(xué)推理的新突破：NVIDIA與清華大學(xué)聯(lián)手打造的"負例感知微調(diào)"如何彌合監(jiān)督學(xué)習(xí)與強化學(xué)習(xí)的鴻溝

作者：科技行者

2025-05-30 14:41

分享至：

這項由清華大學(xué)與NVIDIA合作的研究提出了"負例感知微調(diào)"（NFT）算法，挑戰(zhàn)了"自我提升僅適用于強化學(xué)習(xí)"的傳統(tǒng)觀念。通過構(gòu)建隱式負面策略處理錯誤答案，NFT在數(shù)學(xué)推理任務(wù)上匹配甚至超越了頂尖強化學(xué)習(xí)算法的表現(xiàn)。研究不僅證明了監(jiān)督學(xué)習(xí)與強化學(xué)習(xí)在特定條件下的等價性，還展示了如何利用負面反饋顯著提升大語言模型的數(shù)學(xué)能力，為AI訓(xùn)練方法論開辟了新視角。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 14:41 ? 科技行者

如今，大語言模型（LLM）在數(shù)學(xué)推理能力上的突飛猛進，主要得益于學(xué)習(xí)范式的根本轉(zhuǎn)變——從模仿學(xué)習(xí)轉(zhuǎn)向自我提升。這項由清華大學(xué)和NVIDIA研究團隊共同完成的研究發(fā)表于2025年5月的arXiv預(yù)印本平臺，論文題為《Bridging Supervised Learning and Reinforcement Learning in Math Reasoning》（在數(shù)學(xué)推理中彌合監(jiān)督學(xué)習(xí)與強化學(xué)習(xí)），研究鏈接為https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning。

近年來，大語言模型不再依賴人類標注者或更強大模型提供的標準答案，而是通過一個簡單的二元驗證器（判斷答案正確與否的工具）來評判自身生成答案的正確性，從而實現(xiàn)自主學(xué)習(xí)。這種方法不僅省去了昂貴的數(shù)據(jù)標注成本，還消除了外部教師設(shè)置的能力上限，為通用智能開辟了一條充滿希望的道路。

強化學(xué)習(xí)（RL）自然成為這種驗證驅(qū)動訓(xùn)練的理想選擇。像PPO（近端策略優(yōu)化）和GRPO（分組規(guī)范化策略優(yōu)化）這樣的算法專門設(shè)計用來最大化獎勵信號，而這種獎勵信號可以方便地采用二元驗證器的結(jié)果形式。相比之下，監(jiān)督學(xué)習(xí)（SL）在這種自我提升學(xué)習(xí)中很少被考慮。普遍觀點認為，SL本質(zhì)上是通過記憶正面訓(xùn)練數(shù)據(jù)來模仿外部教師，使其不適合從負面錯誤中進行自我反思學(xué)習(xí)。

這項研究挑戰(zhàn)了"自我提升僅限于強化學(xué)習(xí)"的流行觀念，研究團隊證明了類似的自我提升也可以在監(jiān)督學(xué)習(xí)范式內(nèi)實現(xiàn)。研究以一個簡單的SL基線開始：拒絕采樣微調(diào)（RFT）。在每次迭代中，模型為問題生成答案，驗證器幫助拒絕所有錯誤答案，剩下的正確答案被編譯成數(shù)據(jù)集，以監(jiān)督方式微調(diào)模型本身。雖然RFT被多項研究證明有效，但它阻止了從負面反饋中學(xué)習(xí)任何東西。模型被鼓勵強化它已經(jīng)表現(xiàn)良好的內(nèi)容，而非反思自己的錯誤——研究團隊認為，這種反思能力對實現(xiàn)通用智能至關(guān)重要。

為了克服這一局限，研究團隊提出了"負例感知微調(diào)"（NFT）——一種使模型能夠從負面生成中學(xué)習(xí)的在線學(xué)習(xí)算法。就像RFT一樣，NFT通過監(jiān)督方式在正確答案上微調(diào)模型。關(guān)鍵的不同是，NFT不會丟棄錯誤答案，而是構(gòu)建一個隱式負面策略來對它們建模。這個隱式策略與我們在正面數(shù)據(jù)上優(yōu)化的正面模型使用相同的參數(shù)，從而實現(xiàn)對所有模型生成內(nèi)容的直接策略優(yōu)化。NFT內(nèi)存開銷極小，因為整個訓(xùn)練過程中只需維護一個模型。

為了理解NFT與強化學(xué)習(xí)方法之間的聯(lián)系，研究團隊進行了深入比較，特別是與GRPO算法的對比。令人驚訝的是，他們發(fā)現(xiàn)兩種方法在嚴格的同策略訓(xùn)練中實際上是等價的，盡管它們源自完全不同的理論框架。值得注意的是，GRPO特有的"優(yōu)勢歸一化"特性已經(jīng)隱含在NFT的損失函數(shù)中。它們的主要區(qū)別在于離策略設(shè)置中，當學(xué)習(xí)的策略偏離舊策略時，對模型梯度采取不同的裁剪策略。這些觀察表明，在二元反饋學(xué)習(xí)系統(tǒng)中，監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)之間存在強烈的聯(lián)系。

研究團隊在7B和32B的Qwen模型上評估了NFT，報告了兩個關(guān)鍵發(fā)現(xiàn)：第一，監(jiān)督學(xué)習(xí)單獨就能顯著增強LLM的數(shù)學(xué)推理能力，無需外部教師。NFT能夠匹配甚至超過像GRPO和DAPO這樣的最先進強化學(xué)習(xí)算法。第二，監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)在在線訓(xùn)練中的性能差距主要源于監(jiān)督學(xué)習(xí)過去無法利用負面反饋，而非強化學(xué)習(xí)的任何內(nèi)在優(yōu)勢。通過額外利用負面數(shù)據(jù)，NFT大大縮小了監(jiān)督學(xué)習(xí)和領(lǐng)先強化學(xué)習(xí)算法之間的性能差距。

在具體實驗中，研究團隊在7B和32B模型上進行了約5000步梯度更新，批量大小為512。他們在六個驗證基準上評估模型，包括AIME 2024、AIME 2025、AMC 2023、MATH500、OlympiadBench和Minerva Math。驗證使用top-p值為0.7，7B模型的驗證溫度為1.0，32B模型為0.6。

實驗結(jié)果表明，NFT算法在幾乎所有基準上都表現(xiàn)卓越。通過應(yīng)用NFT到Qwen2.5-Math-7B，研究團隊發(fā)布了NFT-7B-Zero，在所有基準測試中與其他零樣式7B數(shù)學(xué)模型相比表現(xiàn)優(yōu)異。這提供了NFT算法有效性的有力實證證據(jù)，并表明僅憑監(jiān)督學(xué)習(xí)就能在數(shù)學(xué)任務(wù)中實現(xiàn)有效的自我提升。

研究還發(fā)現(xiàn)，負面反饋增強了性能和探索。NFT在訓(xùn)練過程中保持了更高的熵（一種測量生成多樣性的指標），而RFT則傾向于隨時間減少熵。這種行為表明NFT能夠進行更積極的探索，這可能是NFT和RFT之間性能差距的原因。

更有趣的是，負面反饋在更大模型中變得愈發(fā)重要。在32B實驗中，RFT和NFT之間的性能差距隨著訓(xùn)練而擴大，而這種趨勢在7B模型中不太明顯。這與其他研究的觀察一致，即強化學(xué)習(xí)在更大模型中比起監(jiān)督微調(diào)提供更大的收益。

盡管被許多算法超越，RFT因其極端簡單性仍然值得關(guān)注。在32B設(shè)置中，從正面數(shù)據(jù)學(xué)習(xí)（RFT）貢獻了最佳表現(xiàn)模型總增益的80%，而負面數(shù)據(jù)僅占剩余20%。這些發(fā)現(xiàn)呼應(yīng)了最近的研究，表明強化學(xué)習(xí)主要是放大大型模型中已有的能力，而非培養(yǎng)新技能。如何更好地利用負面反饋仍然是一個充滿潛力的開放挑戰(zhàn)。

研究團隊還探討了NFT有效性背后的關(guān)鍵設(shè)計選擇。首先，他們發(fā)現(xiàn)對低正確率的困難問題賦予更高權(quán)重可以增強模型性能。其次，避免過度懲罰錯誤也很重要——NFT的裁剪值設(shè)置了對錯誤答案似然比增加時的懲罰權(quán)重上限。當裁剪值過?。ń咏悖r，算法會對錯誤答案的上升似然賦予高懲罰，但實驗表明過于激進的懲罰會降低整體性能。

這項研究不僅展示了監(jiān)督學(xué)習(xí)在驗證驅(qū)動的自我提升中的有效性，更重要的是，它彌合了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)之間的理論和實踐差距。通過證明NFT和GRPO在嚴格同策略訓(xùn)練中的等價性，研究揭示了這兩種學(xué)習(xí)范式之間存在深層聯(lián)系，盡管它們源自完全不同的理論基礎(chǔ)。這一發(fā)現(xiàn)為理解和改進二元反饋學(xué)習(xí)系統(tǒng)中的各種學(xué)習(xí)方法提供了新的視角。

總的來說，這項研究表明，通過巧妙設(shè)計，監(jiān)督學(xué)習(xí)可以像強化學(xué)習(xí)一樣實現(xiàn)自我反思和自我提升，挑戰(zhàn)了傳統(tǒng)認知，并為大語言模型訓(xùn)練提供了一種更簡單、更直接的方法。NFT的成功表明，在追求通用人工智能的道路上，我們或許不需要完全依賴復(fù)雜的強化學(xué)習(xí)框架，而可以依靠更簡單、更易于實現(xiàn)的監(jiān)督學(xué)習(xí)方法，只要它們能夠有效利用所有可用的反饋信號。

人工智能數(shù)學(xué)推理語言模型優(yōu)化

分享至

0贊

好文章，需要你的鼓勵

推薦文章

計算機視覺
注意力機制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點"？揭秘視覺AI如何學(xué)會聰明地觀察世界

這項研究提出了"高效探測"方法，解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制，該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升，在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼，推動技術(shù)普及應(yīng)用。
檢索增強生成
層次化分析
爭議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng)，通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架，識別不同觀點及其支撐證據(jù)，為科學(xué)和政治爭議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
人工智能
情感認知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達情感的新方法

清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu)，在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
人工智能
多智能體強化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力，在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點"？揭秘視覺AI如何學(xué)會聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點"？揭秘視覺AI如何學(xué)會聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)新突破：讓機器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<wbr id="ndsll"></wbr>

<wbr id="ndsll"><var id="ndsll"><option id="ndsll"></option></var></wbr>