2025年5月26日,來自上海人工智能實驗室的研究團隊,包括劉俊男、劉宏偉、肖林辰、劉書東、張濤林、馬子寒等研究人員,在論文預(yù)印本平臺arXiv上發(fā)布了一項突破性研究《Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective》(解構(gòu)軌跡輔助的大語言模型推理:優(yōu)化視角)。這項研究由張松陽和陳凱擔任通訊作者,為我們理解大語言模型(LLM)如何進行推理提供了全新視角。
從思路軌跡到元學習:大模型推理的新理解
想象一下,當你面對一道復(fù)雜的數(shù)學題時,你通常會怎么做?大多數(shù)人會在紙上寫下思考過程,一步步推導(dǎo),最終得出答案。大語言模型也是如此,它們通過生成所謂的"思維鏈"(Chain of Thought,CoT)或"推理軌跡"來解決復(fù)雜問題。但一個關(guān)鍵問題是:這些推理軌跡到底如何幫助模型得出正確答案?
上海人工智能實驗室的研究團隊提出了一個全新且頗具啟發(fā)性的視角:將大語言模型的推理過程視為一種"元學習"(Meta-Learning)機制。簡單來說,元學習就是"學習如何學習"的能力。研究團隊創(chuàng)造性地提出了"RaML"(Reasoning as Meta-Learning)框架,將推理軌跡解讀為模型參數(shù)的"偽梯度下降更新"。
你可以這樣理解:當我們寫下解題思路時,每寫一步,我們的大腦就在不斷調(diào)整對問題的理解和解決方案。對大語言模型來說,每生成一個推理軌跡中的詞元(token),就相當于微調(diào)了一次模型的內(nèi)部參數(shù),使其逐漸靠近正確答案的方向。
推理軌跡如何"更新"模型參數(shù)?
研究團隊將推理過程形式化為一個元學習設(shè)置,其中: - 每個問題被視為一個獨立的任務(wù) - 推理軌跡充當"內(nèi)循環(huán)優(yōu)化",用于調(diào)整模型參數(shù) - 最終答案則是"查詢集",用于優(yōu)化整個語言模型
假設(shè)你在解一道復(fù)雜的數(shù)學題。當你寫下"首先,我們需要計算..."這樣的思考步驟時,你實際上是在調(diào)整自己解決問題的方法。類似地,當大語言模型生成"讓我們先分析..."這樣的推理軌跡時,它也在微調(diào)自己的參數(shù),使自己更接近正確答案。
研究團隊通過理論推導(dǎo)證明,推理軌跡中的每個詞元都可以被視為模型參數(shù)的一次更新。團隊還使用了QwQ-32B模型在美國高中數(shù)學邀請賽(AIME24)上的實驗數(shù)據(jù),通過可視化顯示,隨著推理軌跡的展開,模型對正確答案的確信度(即負對數(shù)概率)確實在逐步降低,這就像是模型在不斷優(yōu)化自己的"內(nèi)部參數(shù)",向正確答案靠近。
元學習視角下的大模型訓練方法
當我們理解了推理軌跡相當于模型參數(shù)的更新后,不同的大模型訓練方法也就有了新的解讀。研究團隊分析了三種主要的訓練技術(shù):
1. 監(jiān)督微調(diào)(SFT):使用人工標注或合成的高質(zhì)量推理軌跡訓練模型。從元學習角度看,這相當于讓模型學習一個"最優(yōu)內(nèi)循環(huán)優(yōu)化器"提供的更新路徑。就像一個數(shù)學老師手把手教你解題一樣,模型通過觀察專家解題過程來學習如何更新自己的參數(shù)。
2. 離線偏好優(yōu)化(Off-Policy PO):使用人類偏好數(shù)據(jù)調(diào)整模型。從元學習角度看,這也相當于提供一個優(yōu)化過的更新路徑。
3. 在線強化學習(On-Policy RL):模型自行生成多個推理軌跡,并根據(jù)獎勵信號優(yōu)化生成過程。從元學習角度看,這相當于模型自己探索內(nèi)循環(huán)優(yōu)化路徑,盡管挑戰(zhàn)更大,但理論上可以達到更高的上限。
研究團隊通過實驗發(fā)現(xiàn),監(jiān)督微調(diào)(SFT)提供了更穩(wěn)定的內(nèi)循環(huán)優(yōu)化,而強化學習(RL)則提供了更大的探索空間。兩者結(jié)合使用時,效果最佳——先用SFT提供穩(wěn)定的初始化,再用RL進一步探索和優(yōu)化。
推理軌跡長度與更新步數(shù)的關(guān)系
如果把推理軌跡中的每個詞元看作是一步參數(shù)更新,那么推理軌跡的長度就直接關(guān)系到更新的步數(shù)。研究表明,更長的推理軌跡確實帶來了更好的性能,這與元學習理論中"更多內(nèi)循環(huán)更新步數(shù)提高性能"的發(fā)現(xiàn)一致。
研究團隊還發(fā)現(xiàn),推理軌跡中的不同詞元扮演著不同的角色:
- 反思性詞元(如"等等"、"另一種方法"、"讓我思考一下"):這些詞元在優(yōu)化過程中產(chǎn)生較大的目標函數(shù)變化,就像是幫助模型跳出局部最優(yōu)解的"擺脫鞍點"機制。 - 結(jié)束思考的分隔符(如"因此"、""):這些特殊詞元促進模型參數(shù)快速收斂,類似于優(yōu)化中的"動量"機制,讓模型更快地到達一個穩(wěn)定狀態(tài)。
這解釋了為什么最近的長鏈思維模型(如DeepSeek-R1、QwQ等)能夠在復(fù)雜數(shù)學和編程任務(wù)上表現(xiàn)出色——它們允許更多的"內(nèi)循環(huán)更新步驟",從而獲得更優(yōu)的解題能力。
推理能力的泛化性
元學習的一個關(guān)鍵特性是能夠在相似任務(wù)之間泛化。研究團隊發(fā)現(xiàn),通過推理軌跡訓練的大語言模型確實表現(xiàn)出了這種泛化能力:
- 領(lǐng)域內(nèi)泛化:在AIME24和LiveMathBench-Hard等數(shù)學推理基準測試上,訓練后的模型性能顯著提升。 - 跨領(lǐng)域泛化:更有趣的是,在科學推理(GPQA)和代碼推理(LiveCodeBench)等完全不同領(lǐng)域的任務(wù)上,模型也展現(xiàn)出了明顯的性能提升。
這表明,通過推理軌跡訓練獲得的能力不僅限于特定領(lǐng)域,而是一種更加普遍的推理技能,就像人類掌握了基本的解題方法后可以應(yīng)用到不同類型的問題上一樣。
基于元學習的大模型推理優(yōu)化建議
基于對大模型推理的元學習理解,研究團隊提出了幾個優(yōu)化建議:
1. 每個問題使用多個訓練推理軌跡:實驗表明,為每個問題提供更多的推理軌跡(相當于擴大"支持集")能顯著提高模型性能和穩(wěn)定性。就像人類學習時,看到同一問題的多種解法會加深理解一樣。
2. 推理效率優(yōu)化:研究團隊發(fā)現(xiàn),對于長推理軌跡,存在一個"最優(yōu)軌跡",可以用更少的詞元達到相同的推理效果。團隊使用Qwen3-32B模型演示了如何通過總結(jié)原始推理軌跡來獲得這種優(yōu)化的軌跡,在大幅減少詞元數(shù)量的同時保持推理性能。
3. 結(jié)合SFT和RL:先用SFT提供穩(wěn)定的內(nèi)循環(huán)優(yōu)化初始化,再用RL進一步探索更優(yōu)的優(yōu)化路徑,這種組合方式能顯著提升模型性能。
研究成果與未來方向
這項研究不僅提供了理解大語言模型推理機制的新視角,還為進一步提升模型推理能力指明了方向。研究團隊建議未來工作可以:
1. 深入研究推理軌跡的形成機制:大語言模型如何學會生成有效的推理軌跡? 2. 分析不同詞元對參數(shù)更新的貢獻:為什么某些詞元比其他詞元更重要? 3. 探索基于任務(wù)比例的跨域泛化增強:如何優(yōu)化不同領(lǐng)域任務(wù)的訓練比例,以獲得最佳的泛化能力?
總的來說,上海人工智能實驗室的這項研究為大語言模型的推理機制提供了一個全新的解釋框架,將推理軌跡視為參數(shù)更新的過程,不僅深化了我們對大模型工作原理的理解,也為未來的模型優(yōu)化提供了實用的指導(dǎo)。這種將復(fù)雜的推理過程簡化為直觀的優(yōu)化過程的視角,有望推動大語言模型在更多復(fù)雜推理任務(wù)中取得突破。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。