在人工智能研究的最前沿,一項創(chuàng)新研究正在改變我們訓練大語言模型(LLM)推理能力的方式。來自國立新加坡大學和上海英飛睿(INFLY TECH)的研究團隊于2025年5月30日在arXiv預印本平臺發(fā)表了一篇題為《從負面信號中獲益:利用教師數(shù)據(jù)的強化蒸餾提升LLM推理能力》(Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning)的研究論文。這項由Shuyao Xu、Cheng Peng、Jiangxuan Long、Weidi Xu、Wei Chu和Yuan Qi領導的工作,提出了一種名為"強化蒸餾"(REDI)的創(chuàng)新方法,使小型語言模型能夠更高效地學習復雜推理能力。有興趣深入了解的讀者可以通過GitHub(https://github.com/Tim-Siu/reinforcement-distillation)獲取代碼和模型。
一、為什么我們需要更高效的語言模型訓練方法?
想象一下,你有一位數(shù)學天才朋友和一位普通的學生。這位天才能夠解決復雜的數(shù)學問題,而學生則希望學習這些技能。傳統(tǒng)的教學方法是:天才解決一系列問題,只把正確的解答過程教給學生,丟棄所有錯誤的嘗試。但我們知道,在現(xiàn)實學習中,了解"為什么某種方法行不通"和"哪里容易出錯"同樣重要。
這正是當前大語言模型訓練中面臨的情況。像DeepSeek-R1和OpenAI的o1這樣的先進推理模型展示了令人印象深刻的推理能力,尤其是在數(shù)學等領域。但如何將這些能力高效地傳遞給更小、更經(jīng)濟的模型呢?
目前有兩種主要方法:一種是大規(guī)模強化學習,直接對基礎模型應用強化學習算法,通過在線探索不斷優(yōu)化。但這種方法通常需要強大的基礎模型才能發(fā)揮全部潛力,而且計算成本高昂。另一種方法是知識蒸餾——從大型"教師"模型生成的推理過程(如思維鏈)中學習,這為更小、更高效的"學生"模型提供了一條實用且經(jīng)濟的路徑。
然而,標準的蒸餾實踐通常采用拒絕采樣,只保留正確的推理示例,丟棄不正確的示例。這些被丟棄的示例實際上包含了寶貴的信息!這就像只告訴學生正確答案,而不告訴他們常見的陷阱和細微的錯誤。這引出了本研究的核心問題:
**如何在離線環(huán)境中有效利用正面和負面的蒸餾推理軌跡,最大化LLM的推理性能?**
二、強化蒸餾:一種兩階段的創(chuàng)新方法
研究團隊提出的強化蒸餾(REDI)框架像是給語言模型設計了一套更全面的學習課程。這個課程分為兩個階段:
**第一階段:監(jiān)督微調(SFT)**
想象一個學生先觀看教師成功解題的視頻。在這個階段,模型通過標準的監(jiān)督微調(SFT)學習正確的推理軌跡。這就像打下良好的基礎,學習"正確的做法是什么"。模型學習如何從問題到解決方案,掌握基本的推理模式和格式。
**第二階段:利用正負樣本的強化**
這是REDI方法的核心創(chuàng)新。在建立了基礎之后,模型現(xiàn)在不僅學習成功案例,還學習失敗案例中的教訓。這就像學生不僅學習正確答案,還特別分析錯誤解法中的陷阱和缺陷。
研究團隊首先探索了現(xiàn)有的離線偏好優(yōu)化方法,如直接偏好優(yōu)化(DPO)和簡單偏好優(yōu)化(SimPO)。他們發(fā)現(xiàn)這些方法中的正則化參數(shù)β雖然有助于穩(wěn)定離線訓練并允許更大的梯度步長,但往往會限制測試時的性能。
基于這一發(fā)現(xiàn),團隊探索了替代訓練目標,消除了這些正則化項。他們發(fā)現(xiàn)一個簡單的、無參考的目標函數(shù)——類似于β→0極限下的DPO/SimPO目標——可以在這種蒸餾環(huán)境中優(yōu)于已建立的方法。這個函數(shù)直接最大化正面軌跡的似然度,同時最小化負面軌跡的似然度。
然而,平衡性能和穩(wěn)定性的挑戰(zhàn)依然存在。為解決這一問題,REDI引入了一種非對稱加權策略:通過降低負面樣本的梯度貢獻,框架實現(xiàn)了增強的穩(wěn)定性和優(yōu)越的測試時性能。
REDI的目標函數(shù)可以表達為:
``` LREDI(θ) = E_(x,yw,yl)~DPref [ -(log πθ(yw|x))/|yw| + α·(log πθ(yl|x))/|yl| ] ```
其中α∈[0,1]控制對負面軌跡的懲罰強度: - 當α=0時,相當于只對正面軌跡進行SFT(忽略負面樣本) - 當α=1時,恢復對稱目標
研究表明,設置α=0.8提供了最佳平衡,實現(xiàn)了強大的測試時性能,同時保持訓練穩(wěn)定性。
三、實驗設置:如何評估REDI的有效性?
研究團隊像科學實驗一樣嚴謹?shù)卦O計了評估方法。他們從OpenR1-Math-Raw語料庫中提取數(shù)據(jù),并構建了兩個數(shù)據(jù)集:
1. **正面軌跡數(shù)據(jù)集(DSFT)**:包含78k個問題-解決方案對,每對由問題和相應的正確推理軌跡組成。這用于第一階段的SFT訓練。
2. **偏好對數(shù)據(jù)集(DPref)**:包含53k個三元組,每個三元組由問題、正確軌跡和不正確軌跡組成。這用于第二階段的訓練。
在訓練配置方面,團隊使用了Qwen2.5-Math-1.5B模型作為基礎模型,并建立了兩個SFT基線:
- **Qwen-SFT-1.5B-3ep**:在DSFT上訓練3個輪次。作為DPO、SimPO和各種REDI配置的起點。 - **Qwen-SFT-1.5B-5ep**:在DSFT上訓練5個輪次。作為最終Qwen-REDI-1.5B模型的起點。
所有評估都采用溫度為0.6的解碼策略,使用Top P采樣(p=0.95),最大生成長度為32,768個標記。評估在多個數(shù)學推理基準上進行,包括MATH-500、AIME24、AMC23、Minerva和OlympiadBench。
四、研究結果:強化蒸餾的驚人效果
研究結果就像一次成功的教學實驗,證明了從錯誤中學習的價值。
**SFT基線的性能極限**
首先,團隊確定了僅使用正面蒸餾數(shù)據(jù)通過監(jiān)督微調(SFT)可達到的性能。如圖2所示,性能在大約5個輪次后達到平臺期。這一觀察突顯了僅從正面軌跡學習的局限性,并激發(fā)了利用負面信號的動力。
**DPO中的性能-穩(wěn)定性權衡**
研究團隊發(fā)現(xiàn),DPO的β參數(shù)(控制KL正則化)呈現(xiàn)出一個關鍵的權衡。更高的β值增強了訓練穩(wěn)定性,通常允許更激進的學習率。然而,即使使用調整過的學習率,較高的β可能會限制峰值性能。相反,較低的β值可以釋放更高的峰值準確性。
這就像教師在指導學生時面臨的權衡:過于嚴格的框架(高β)可能會限制創(chuàng)新思維,而過于寬松的指導(低β)可能導致方向不明確。
**通過非對稱加權實現(xiàn)穩(wěn)定性和性能**
REDI方法直接優(yōu)化對數(shù)似然,而不依賴于KL正則化,而是通過非對稱加權來管理穩(wěn)定性。研究表明,REDI與α=0.8和學習率1×10^-6的配置實現(xiàn)了快速學習,類似于對稱α=1.0高學習率配置,但關鍵的是,它不會崩潰。它達到了高峰值性能并保持這一水平,證明了非對稱加權策略的效果。
**最終模型性能的比較**
表1展示了這些努力的最終成果。Qwen-REDI-1.5B模型,僅在131k個開放數(shù)據(jù)點上訓練,實現(xiàn)了83.1%的MATH-500分數(shù)(pass@1)。這一性能與在800k專有數(shù)據(jù)上訓練的DeepSeek-R1-Distill-Qwen-1.5B相當或超過,在各種數(shù)學推理基準測試中取得了優(yōu)異成績,為使用公開可用數(shù)據(jù)離線后訓練的1.5B模型樹立了新的標準。
值得注意的是,REDI不僅提高了pass@1性能,還維持或提高了多個基準測試的pass@16分數(shù)。這表明REDI的離線優(yōu)化并不僅僅過度優(yōu)化一組高概率解決方案,而是真正提高了模型的整體問題解決能力。
五、REDI如何改變游戲規(guī)則?
強化蒸餾(REDI)方法就像給語言模型提供了一個更全面的學習課程,不僅教它"正確的做法",還教它"避免常見錯誤"。這種方法的創(chuàng)新之處在于:
1. **高效利用數(shù)據(jù)**:REDI充分利用了傳統(tǒng)方法中被丟棄的負面示例,從教師模型生成的每一條數(shù)據(jù)中提取價值。
2. **平衡性能與穩(wěn)定性**:通過非對稱加權(α<1.0),REDI找到了一種在保持訓練穩(wěn)定性的同時提高峰值性能的方法。
3. **無需在線交互**:與需要昂貴在線交互的強化學習方法不同,REDI在離線環(huán)境中工作,使其更經(jīng)濟且易于實施。
4. **更小模型的強大性能**:研究表明,即使是較小的1.5B參數(shù)模型,通過REDI也能實現(xiàn)與更大模型相當?shù)耐评砟芰Α?/p>
5. **更好的未來在線RL準備**:通過保持或提高pass@16分數(shù),REDI訓練的模型似乎更適合后續(xù)通過在線強化學習獲得性能提升。
這種方法不僅提高了模型性能,還可能影響我們對知識傳遞的思考方式。就像在人類教育中,了解常見錯誤和失敗案例可以深化理解,REDI展示了在AI訓練中負面例子的教育價值。
六、未來展望與結論
強化蒸餾(REDI)為訓練更小、更高效的語言模型開辟了一條新路徑。通過有效利用正面和負面蒸餾推理軌跡,REDI使小型模型能夠更接近大型推理模型的能力,但計算需求顯著降低。
雖然本研究主要集中在數(shù)學推理上,但REDI框架可能適用于更廣泛的推理任務,如科學問題解決、邏輯推理或復雜決策制定。未來的研究可能會探索REDI在其他領域的應用,以及與在線RL方法的結合可能性。
這項研究的關鍵貢獻在于揭示了失敗案例中蘊含的價值。通過將曾經(jīng)被丟棄的"錯誤"轉化為有價值的學習信號,REDI框架提供了一種更高效、更全面的知識傳遞方法。這不僅是一項技術創(chuàng)新,也是對教與學本質的深刻洞察——有時,知道"為什么不行"與知道"怎樣做對"同樣重要。
對于AI研究社區(qū)和更廣泛的科技領域,這一發(fā)現(xiàn)提示我們重新思考如何看待失敗和錯誤。也許,就像REDI所證明的那樣,我們最大的進步可能來自于我們如何處理和學習失敗的經(jīng)驗。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。