2025年5月26日,來自上海人工智能實驗室的研究團(tuán)隊,包括劉俊男、劉宏偉、肖林辰、劉書東、張濤林、馬子寒等研究人員,在論文預(yù)印本平臺arXiv上發(fā)布了一項突破性研究《Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective》(解構(gòu)軌跡輔助的大語言模型推理:優(yōu)化視角)。這項研究由張松陽和陳凱擔(dān)任通訊作者,為我們理解大語言模型(LLM)如何進(jìn)行推理提供了全新視角。
從思路軌跡到元學(xué)習(xí):大模型推理的新理解
想象一下,當(dāng)你面對一道復(fù)雜的數(shù)學(xué)題時,你通常會怎么做?大多數(shù)人會在紙上寫下思考過程,一步步推導(dǎo),最終得出答案。大語言模型也是如此,它們通過生成所謂的"思維鏈"(Chain of Thought,CoT)或"推理軌跡"來解決復(fù)雜問題。但一個關(guān)鍵問題是:這些推理軌跡到底如何幫助模型得出正確答案?
上海人工智能實驗室的研究團(tuán)隊提出了一個全新且頗具啟發(fā)性的視角:將大語言模型的推理過程視為一種"元學(xué)習(xí)"(Meta-Learning)機(jī)制。簡單來說,元學(xué)習(xí)就是"學(xué)習(xí)如何學(xué)習(xí)"的能力。研究團(tuán)隊創(chuàng)造性地提出了"RaML"(Reasoning as Meta-Learning)框架,將推理軌跡解讀為模型參數(shù)的"偽梯度下降更新"。
你可以這樣理解:當(dāng)我們寫下解題思路時,每寫一步,我們的大腦就在不斷調(diào)整對問題的理解和解決方案。對大語言模型來說,每生成一個推理軌跡中的詞元(token),就相當(dāng)于微調(diào)了一次模型的內(nèi)部參數(shù),使其逐漸靠近正確答案的方向。
推理軌跡如何"更新"模型參數(shù)?
研究團(tuán)隊將推理過程形式化為一個元學(xué)習(xí)設(shè)置,其中: - 每個問題被視為一個獨立的任務(wù) - 推理軌跡充當(dāng)"內(nèi)循環(huán)優(yōu)化",用于調(diào)整模型參數(shù) - 最終答案則是"查詢集",用于優(yōu)化整個語言模型
假設(shè)你在解一道復(fù)雜的數(shù)學(xué)題。當(dāng)你寫下"首先,我們需要計算..."這樣的思考步驟時,你實際上是在調(diào)整自己解決問題的方法。類似地,當(dāng)大語言模型生成"讓我們先分析..."這樣的推理軌跡時,它也在微調(diào)自己的參數(shù),使自己更接近正確答案。
研究團(tuán)隊通過理論推導(dǎo)證明,推理軌跡中的每個詞元都可以被視為模型參數(shù)的一次更新。團(tuán)隊還使用了QwQ-32B模型在美國高中數(shù)學(xué)邀請賽(AIME24)上的實驗數(shù)據(jù),通過可視化顯示,隨著推理軌跡的展開,模型對正確答案的確信度(即負(fù)對數(shù)概率)確實在逐步降低,這就像是模型在不斷優(yōu)化自己的"內(nèi)部參數(shù)",向正確答案靠近。
元學(xué)習(xí)視角下的大模型訓(xùn)練方法
當(dāng)我們理解了推理軌跡相當(dāng)于模型參數(shù)的更新后,不同的大模型訓(xùn)練方法也就有了新的解讀。研究團(tuán)隊分析了三種主要的訓(xùn)練技術(shù):
1. 監(jiān)督微調(diào)(SFT):使用人工標(biāo)注或合成的高質(zhì)量推理軌跡訓(xùn)練模型。從元學(xué)習(xí)角度看,這相當(dāng)于讓模型學(xué)習(xí)一個"最優(yōu)內(nèi)循環(huán)優(yōu)化器"提供的更新路徑。就像一個數(shù)學(xué)老師手把手教你解題一樣,模型通過觀察專家解題過程來學(xué)習(xí)如何更新自己的參數(shù)。
2. 離線偏好優(yōu)化(Off-Policy PO):使用人類偏好數(shù)據(jù)調(diào)整模型。從元學(xué)習(xí)角度看,這也相當(dāng)于提供一個優(yōu)化過的更新路徑。
3. 在線強化學(xué)習(xí)(On-Policy RL):模型自行生成多個推理軌跡,并根據(jù)獎勵信號優(yōu)化生成過程。從元學(xué)習(xí)角度看,這相當(dāng)于模型自己探索內(nèi)循環(huán)優(yōu)化路徑,盡管挑戰(zhàn)更大,但理論上可以達(dá)到更高的上限。
研究團(tuán)隊通過實驗發(fā)現(xiàn),監(jiān)督微調(diào)(SFT)提供了更穩(wěn)定的內(nèi)循環(huán)優(yōu)化,而強化學(xué)習(xí)(RL)則提供了更大的探索空間。兩者結(jié)合使用時,效果最佳——先用SFT提供穩(wěn)定的初始化,再用RL進(jìn)一步探索和優(yōu)化。
推理軌跡長度與更新步數(shù)的關(guān)系
如果把推理軌跡中的每個詞元看作是一步參數(shù)更新,那么推理軌跡的長度就直接關(guān)系到更新的步數(shù)。研究表明,更長的推理軌跡確實帶來了更好的性能,這與元學(xué)習(xí)理論中"更多內(nèi)循環(huán)更新步數(shù)提高性能"的發(fā)現(xiàn)一致。
研究團(tuán)隊還發(fā)現(xiàn),推理軌跡中的不同詞元扮演著不同的角色:
- 反思性詞元(如"等等"、"另一種方法"、"讓我思考一下"):這些詞元在優(yōu)化過程中產(chǎn)生較大的目標(biāo)函數(shù)變化,就像是幫助模型跳出局部最優(yōu)解的"擺脫鞍點"機(jī)制。 - 結(jié)束思考的分隔符(如"因此"、""):這些特殊詞元促進(jìn)模型參數(shù)快速收斂,類似于優(yōu)化中的"動量"機(jī)制,讓模型更快地到達(dá)一個穩(wěn)定狀態(tài)。
這解釋了為什么最近的長鏈思維模型(如DeepSeek-R1、QwQ等)能夠在復(fù)雜數(shù)學(xué)和編程任務(wù)上表現(xiàn)出色——它們允許更多的"內(nèi)循環(huán)更新步驟",從而獲得更優(yōu)的解題能力。
推理能力的泛化性
元學(xué)習(xí)的一個關(guān)鍵特性是能夠在相似任務(wù)之間泛化。研究團(tuán)隊發(fā)現(xiàn),通過推理軌跡訓(xùn)練的大語言模型確實表現(xiàn)出了這種泛化能力:
- 領(lǐng)域內(nèi)泛化:在AIME24和LiveMathBench-Hard等數(shù)學(xué)推理基準(zhǔn)測試上,訓(xùn)練后的模型性能顯著提升。 - 跨領(lǐng)域泛化:更有趣的是,在科學(xué)推理(GPQA)和代碼推理(LiveCodeBench)等完全不同領(lǐng)域的任務(wù)上,模型也展現(xiàn)出了明顯的性能提升。
這表明,通過推理軌跡訓(xùn)練獲得的能力不僅限于特定領(lǐng)域,而是一種更加普遍的推理技能,就像人類掌握了基本的解題方法后可以應(yīng)用到不同類型的問題上一樣。
基于元學(xué)習(xí)的大模型推理優(yōu)化建議
基于對大模型推理的元學(xué)習(xí)理解,研究團(tuán)隊提出了幾個優(yōu)化建議:
1. 每個問題使用多個訓(xùn)練推理軌跡:實驗表明,為每個問題提供更多的推理軌跡(相當(dāng)于擴(kuò)大"支持集")能顯著提高模型性能和穩(wěn)定性。就像人類學(xué)習(xí)時,看到同一問題的多種解法會加深理解一樣。
2. 推理效率優(yōu)化:研究團(tuán)隊發(fā)現(xiàn),對于長推理軌跡,存在一個"最優(yōu)軌跡",可以用更少的詞元達(dá)到相同的推理效果。團(tuán)隊使用Qwen3-32B模型演示了如何通過總結(jié)原始推理軌跡來獲得這種優(yōu)化的軌跡,在大幅減少詞元數(shù)量的同時保持推理性能。
3. 結(jié)合SFT和RL:先用SFT提供穩(wěn)定的內(nèi)循環(huán)優(yōu)化初始化,再用RL進(jìn)一步探索更優(yōu)的優(yōu)化路徑,這種組合方式能顯著提升模型性能。
研究成果與未來方向
這項研究不僅提供了理解大語言模型推理機(jī)制的新視角,還為進(jìn)一步提升模型推理能力指明了方向。研究團(tuán)隊建議未來工作可以:
1. 深入研究推理軌跡的形成機(jī)制:大語言模型如何學(xué)會生成有效的推理軌跡? 2. 分析不同詞元對參數(shù)更新的貢獻(xiàn):為什么某些詞元比其他詞元更重要? 3. 探索基于任務(wù)比例的跨域泛化增強:如何優(yōu)化不同領(lǐng)域任務(wù)的訓(xùn)練比例,以獲得最佳的泛化能力?
總的來說,上海人工智能實驗室的這項研究為大語言模型的推理機(jī)制提供了一個全新的解釋框架,將推理軌跡視為參數(shù)更新的過程,不僅深化了我們對大模型工作原理的理解,也為未來的模型優(yōu)化提供了實用的指導(dǎo)。這種將復(fù)雜的推理過程簡化為直觀的優(yōu)化過程的視角,有望推動大語言模型在更多復(fù)雜推理任務(wù)中取得突破。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。