av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 從失敗中學習:強化蒸餾法讓大語言模型更擅長推理

從失敗中學習:強化蒸餾法讓大語言模型更擅長推理

2025-06-04 13:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 13:34 ? 科技行者

在人工智能研究的最前沿,一項創(chuàng)新研究正在改變我們訓練大語言模型(LLM)推理能力的方式。來自國立新加坡大學和上海英飛睿(INFLY TECH)的研究團隊于2025年5月30日在arXiv預印本平臺發(fā)表了一篇題為《從負面信號中獲益:利用教師數(shù)據(jù)的強化蒸餾提升LLM推理能力》(Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning)的研究論文。這項由Shuyao Xu、Cheng Peng、Jiangxuan Long、Weidi Xu、Wei Chu和Yuan Qi領導的工作,提出了一種名為"強化蒸餾"(REDI)的創(chuàng)新方法,使小型語言模型能夠更高效地學習復雜推理能力。有興趣深入了解的讀者可以通過GitHub(https://github.com/Tim-Siu/reinforcement-distillation)獲取代碼和模型。

一、為什么我們需要更高效的語言模型訓練方法?

想象一下,你有一位數(shù)學天才朋友和一位普通的學生。這位天才能夠解決復雜的數(shù)學問題,而學生則希望學習這些技能。傳統(tǒng)的教學方法是:天才解決一系列問題,只把正確的解答過程教給學生,丟棄所有錯誤的嘗試。但我們知道,在現(xiàn)實學習中,了解"為什么某種方法行不通"和"哪里容易出錯"同樣重要。

這正是當前大語言模型訓練中面臨的情況。像DeepSeek-R1和OpenAI的o1這樣的先進推理模型展示了令人印象深刻的推理能力,尤其是在數(shù)學等領域。但如何將這些能力高效地傳遞給更小、更經(jīng)濟的模型呢?

目前有兩種主要方法:一種是大規(guī)模強化學習,直接對基礎模型應用強化學習算法,通過在線探索不斷優(yōu)化。但這種方法通常需要強大的基礎模型才能發(fā)揮全部潛力,而且計算成本高昂。另一種方法是知識蒸餾——從大型"教師"模型生成的推理過程(如思維鏈)中學習,這為更小、更高效的"學生"模型提供了一條實用且經(jīng)濟的路徑。

然而,標準的蒸餾實踐通常采用拒絕采樣,只保留正確的推理示例,丟棄不正確的示例。這些被丟棄的示例實際上包含了寶貴的信息!這就像只告訴學生正確答案,而不告訴他們常見的陷阱和細微的錯誤。這引出了本研究的核心問題:

**如何在離線環(huán)境中有效利用正面和負面的蒸餾推理軌跡,最大化LLM的推理性能?**

二、強化蒸餾:一種兩階段的創(chuàng)新方法

研究團隊提出的強化蒸餾(REDI)框架像是給語言模型設計了一套更全面的學習課程。這個課程分為兩個階段:

**第一階段:監(jiān)督微調(SFT)**

想象一個學生先觀看教師成功解題的視頻。在這個階段,模型通過標準的監(jiān)督微調(SFT)學習正確的推理軌跡。這就像打下良好的基礎,學習"正確的做法是什么"。模型學習如何從問題到解決方案,掌握基本的推理模式和格式。

**第二階段:利用正負樣本的強化**

這是REDI方法的核心創(chuàng)新。在建立了基礎之后,模型現(xiàn)在不僅學習成功案例,還學習失敗案例中的教訓。這就像學生不僅學習正確答案,還特別分析錯誤解法中的陷阱和缺陷。

研究團隊首先探索了現(xiàn)有的離線偏好優(yōu)化方法,如直接偏好優(yōu)化(DPO)和簡單偏好優(yōu)化(SimPO)。他們發(fā)現(xiàn)這些方法中的正則化參數(shù)β雖然有助于穩(wěn)定離線訓練并允許更大的梯度步長,但往往會限制測試時的性能。

基于這一發(fā)現(xiàn),團隊探索了替代訓練目標,消除了這些正則化項。他們發(fā)現(xiàn)一個簡單的、無參考的目標函數(shù)——類似于β→0極限下的DPO/SimPO目標——可以在這種蒸餾環(huán)境中優(yōu)于已建立的方法。這個函數(shù)直接最大化正面軌跡的似然度,同時最小化負面軌跡的似然度。

然而,平衡性能和穩(wěn)定性的挑戰(zhàn)依然存在。為解決這一問題,REDI引入了一種非對稱加權策略:通過降低負面樣本的梯度貢獻,框架實現(xiàn)了增強的穩(wěn)定性和優(yōu)越的測試時性能。

REDI的目標函數(shù)可以表達為:

``` LREDI(θ) = E_(x,yw,yl)~DPref [ -(log πθ(yw|x))/|yw| + α·(log πθ(yl|x))/|yl| ] ```

其中α∈[0,1]控制對負面軌跡的懲罰強度: - 當α=0時,相當于只對正面軌跡進行SFT(忽略負面樣本) - 當α=1時,恢復對稱目標

研究表明,設置α=0.8提供了最佳平衡,實現(xiàn)了強大的測試時性能,同時保持訓練穩(wěn)定性。

三、實驗設置:如何評估REDI的有效性?

研究團隊像科學實驗一樣嚴謹?shù)卦O計了評估方法。他們從OpenR1-Math-Raw語料庫中提取數(shù)據(jù),并構建了兩個數(shù)據(jù)集:

1. **正面軌跡數(shù)據(jù)集(DSFT)**:包含78k個問題-解決方案對,每對由問題和相應的正確推理軌跡組成。這用于第一階段的SFT訓練。

2. **偏好對數(shù)據(jù)集(DPref)**:包含53k個三元組,每個三元組由問題、正確軌跡和不正確軌跡組成。這用于第二階段的訓練。

在訓練配置方面,團隊使用了Qwen2.5-Math-1.5B模型作為基礎模型,并建立了兩個SFT基線:

- **Qwen-SFT-1.5B-3ep**:在DSFT上訓練3個輪次。作為DPO、SimPO和各種REDI配置的起點。 - **Qwen-SFT-1.5B-5ep**:在DSFT上訓練5個輪次。作為最終Qwen-REDI-1.5B模型的起點。

所有評估都采用溫度為0.6的解碼策略,使用Top P采樣(p=0.95),最大生成長度為32,768個標記。評估在多個數(shù)學推理基準上進行,包括MATH-500、AIME24、AMC23、Minerva和OlympiadBench。

四、研究結果:強化蒸餾的驚人效果

研究結果就像一次成功的教學實驗,證明了從錯誤中學習的價值。

**SFT基線的性能極限**

首先,團隊確定了僅使用正面蒸餾數(shù)據(jù)通過監(jiān)督微調(SFT)可達到的性能。如圖2所示,性能在大約5個輪次后達到平臺期。這一觀察突顯了僅從正面軌跡學習的局限性,并激發(fā)了利用負面信號的動力。

**DPO中的性能-穩(wěn)定性權衡**

研究團隊發(fā)現(xiàn),DPO的β參數(shù)(控制KL正則化)呈現(xiàn)出一個關鍵的權衡。更高的β值增強了訓練穩(wěn)定性,通常允許更激進的學習率。然而,即使使用調整過的學習率,較高的β可能會限制峰值性能。相反,較低的β值可以釋放更高的峰值準確性。

這就像教師在指導學生時面臨的權衡:過于嚴格的框架(高β)可能會限制創(chuàng)新思維,而過于寬松的指導(低β)可能導致方向不明確。

**通過非對稱加權實現(xiàn)穩(wěn)定性和性能**

REDI方法直接優(yōu)化對數(shù)似然,而不依賴于KL正則化,而是通過非對稱加權來管理穩(wěn)定性。研究表明,REDI與α=0.8和學習率1×10^-6的配置實現(xiàn)了快速學習,類似于對稱α=1.0高學習率配置,但關鍵的是,它不會崩潰。它達到了高峰值性能并保持這一水平,證明了非對稱加權策略的效果。

**最終模型性能的比較**

表1展示了這些努力的最終成果。Qwen-REDI-1.5B模型,僅在131k個開放數(shù)據(jù)點上訓練,實現(xiàn)了83.1%的MATH-500分數(shù)(pass@1)。這一性能與在800k專有數(shù)據(jù)上訓練的DeepSeek-R1-Distill-Qwen-1.5B相當或超過,在各種數(shù)學推理基準測試中取得了優(yōu)異成績,為使用公開可用數(shù)據(jù)離線后訓練的1.5B模型樹立了新的標準。

值得注意的是,REDI不僅提高了pass@1性能,還維持或提高了多個基準測試的pass@16分數(shù)。這表明REDI的離線優(yōu)化并不僅僅過度優(yōu)化一組高概率解決方案,而是真正提高了模型的整體問題解決能力。

五、REDI如何改變游戲規(guī)則?

強化蒸餾(REDI)方法就像給語言模型提供了一個更全面的學習課程,不僅教它"正確的做法",還教它"避免常見錯誤"。這種方法的創(chuàng)新之處在于:

1. **高效利用數(shù)據(jù)**:REDI充分利用了傳統(tǒng)方法中被丟棄的負面示例,從教師模型生成的每一條數(shù)據(jù)中提取價值。

2. **平衡性能與穩(wěn)定性**:通過非對稱加權(α<1.0),REDI找到了一種在保持訓練穩(wěn)定性的同時提高峰值性能的方法。

3. **無需在線交互**:與需要昂貴在線交互的強化學習方法不同,REDI在離線環(huán)境中工作,使其更經(jīng)濟且易于實施。

4. **更小模型的強大性能**:研究表明,即使是較小的1.5B參數(shù)模型,通過REDI也能實現(xiàn)與更大模型相當?shù)耐评砟芰Α?/p>

5. **更好的未來在線RL準備**:通過保持或提高pass@16分數(shù),REDI訓練的模型似乎更適合后續(xù)通過在線強化學習獲得性能提升。

這種方法不僅提高了模型性能,還可能影響我們對知識傳遞的思考方式。就像在人類教育中,了解常見錯誤和失敗案例可以深化理解,REDI展示了在AI訓練中負面例子的教育價值。

六、未來展望與結論

強化蒸餾(REDI)為訓練更小、更高效的語言模型開辟了一條新路徑。通過有效利用正面和負面蒸餾推理軌跡,REDI使小型模型能夠更接近大型推理模型的能力,但計算需求顯著降低。

雖然本研究主要集中在數(shù)學推理上,但REDI框架可能適用于更廣泛的推理任務,如科學問題解決、邏輯推理或復雜決策制定。未來的研究可能會探索REDI在其他領域的應用,以及與在線RL方法的結合可能性。

這項研究的關鍵貢獻在于揭示了失敗案例中蘊含的價值。通過將曾經(jīng)被丟棄的"錯誤"轉化為有價值的學習信號,REDI框架提供了一種更高效、更全面的知識傳遞方法。這不僅是一項技術創(chuàng)新,也是對教與學本質的深刻洞察——有時,知道"為什么不行"與知道"怎樣做對"同樣重要。

對于AI研究社區(qū)和更廣泛的科技領域,這一發(fā)現(xiàn)提示我們重新思考如何看待失敗和錯誤。也許,就像REDI所證明的那樣,我們最大的進步可能來自于我們如何處理和學習失敗的經(jīng)驗。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-