這項(xiàng)研究來自蘋果公司和杜克大學(xué)的聯(lián)合團(tuán)隊(duì),發(fā)表于2025年5月的論文《交織式推理:通過強(qiáng)化學(xué)習(xí)增強(qiáng)大語言模型能力》。該論文由蘋果公司的Roy Xie、David Qiu、Deepak Gopinath、Dong Lin、Yanchao Sun、Chong Wang、Saloni Potdar以及同時(shí)隸屬于杜克大學(xué)的Bhuwan Dhingra共同完成,發(fā)布于arXiv預(yù)印本平臺(tái)(arXiv:2505.19640v1)。
想象一下,你正在與一位聰明的朋友交談,但他每次回答問題前都需要默默思考很長(zhǎng)時(shí)間,然后一口氣說出所有內(nèi)容。這種體驗(yàn)可能會(huì)讓你感到沮喪,特別是在需要快速回應(yīng)的情況下。大型語言模型(LLM)如今也面臨類似的挑戰(zhàn)——它們使用"思考-回答"模式,即先完成所有推理過程,然后才給出答案,這導(dǎo)致了兩個(gè)關(guān)鍵問題:一是用戶需要長(zhǎng)時(shí)間等待第一個(gè)回應(yīng)出現(xiàn)(稱為"首詞響應(yīng)時(shí)間"或TTFT),二是模型容易在思考過程中積累錯(cuò)誤,導(dǎo)致最終答案不準(zhǔn)確。
本研究提出了一種創(chuàng)新的解決方案:交織式推理(Interleaved Reasoning)。就像我們?nèi)祟愒谌粘?duì)話中會(huì)邊思考邊回應(yīng),這種方法讓語言模型學(xué)會(huì)在復(fù)雜推理過程中穿插輸出中間答案。想象一位解釋數(shù)學(xué)問題的老師,不是默默算完所有步驟后才說話,而是每完成一個(gè)關(guān)鍵步驟就向?qū)W生解釋,這不僅讓學(xué)生能更早獲得有用信息,還能幫助老師自己檢查每個(gè)步驟是否正確。
研究團(tuán)隊(duì)通過強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練模型實(shí)現(xiàn)這種交織式思考與回答的能力。他們發(fā)現(xiàn),模型本身就具備交替思考和回答的潛能,只需通過適當(dāng)?shù)莫?jiǎng)勵(lì)機(jī)制引導(dǎo),就能顯著提升這種能力。更令人驚喜的是,這種方法不僅讓模型響應(yīng)速度平均提高了80%以上,還在某些任務(wù)上將準(zhǔn)確率提升了高達(dá)19.3%。而且,僅通過在問答和邏輯推理數(shù)據(jù)集上訓(xùn)練,模型就能將這種能力泛化到更復(fù)雜的數(shù)學(xué)和物理問題上。
讓我們一起深入了解這項(xiàng)研究如何改變大語言模型的思考方式,以及它為什么對(duì)我們?nèi)粘J褂肁I助手的體驗(yàn)如此重要。
一、研究背景:為什么我們需要改變語言模型的思考方式?
想象你正在使用一個(gè)AI助手,比如問它:"柏林墻倒塌五年后獲得奧斯卡最佳影片的電影導(dǎo)演是誰?"在傳統(tǒng)的"思考-回答"模式下,AI會(huì)先在內(nèi)部完成所有推理:回憶柏林墻倒塌的年份(1989年),計(jì)算五年后是1994年,查找1994年獲奧斯卡最佳影片的電影(《阿甘正傳》),再確定該片導(dǎo)演(羅伯特·澤米吉斯)。整個(gè)過程可能需要幾秒甚至更長(zhǎng)時(shí)間,而在此期間,用戶看不到任何回應(yīng),這種等待體驗(yàn)顯然不夠理想。
更糟糕的是,如果AI在推理早期就出錯(cuò)(比如錯(cuò)誤地認(rèn)為柏林墻倒塌于1991年),這個(gè)錯(cuò)誤會(huì)影響后續(xù)所有推理,最終導(dǎo)致完全錯(cuò)誤的答案。而用戶無法看到中間推理過程,也就無法及時(shí)指出錯(cuò)誤。
當(dāng)前的大語言模型,如OpenAI的O1和DeepSeek的R1,都通過生成長(zhǎng)鏈?zhǔn)剿伎迹–hain-of-Thought,簡(jiǎn)稱CoT)來增強(qiáng)推理能力。這種方法確實(shí)提高了模型解決復(fù)雜問題的準(zhǔn)確率,但也帶來了上述的延遲和錯(cuò)誤累積問題。
蘋果和杜克大學(xué)的研究團(tuán)隊(duì)意識(shí)到,人類在解決復(fù)雜問題時(shí)通常不會(huì)一直保持沉默直到得出最終答案,而是會(huì)在解決問題的過程中分享中間思考和初步結(jié)論。這種交織式的推理方式有三個(gè)主要優(yōu)勢(shì):一是提供及時(shí)反饋,二是允許糾正早期錯(cuò)誤,三是使整個(gè)推理過程更加透明和可驗(yàn)證。
二、交織式推理:讓AI像人類一樣"邊思考邊回答"
交織式推理的核心理念是將復(fù)雜問題分解為一系列子問題,模型在解決每個(gè)子問題后立即提供一個(gè)"子答案",而不是等到完成所有推理步驟后才給出最終答案。
以前面提到的問題為例,使用交織式推理的AI會(huì)這樣回答:
*思考:首先,我需要確定柏林墻倒塌的時(shí)間。* *回答:柏林墻倒塌于1989年。*
*思考:現(xiàn)在,讓我們計(jì)算一下:1989 + 5 = 1994。* *回答:1989年之后的第五年是1994年。*
*思考:接下來,我需要找出1994年獲得奧斯卡最佳影片的電影。* *回答:《阿甘正傳》在1994年獲得了奧斯卡最佳影片獎(jiǎng)。*
*思考:最后,讓我找出《阿甘正傳》的導(dǎo)演是誰。* *回答:導(dǎo)演是羅伯特·澤米吉斯。*
這種方式不僅讓用戶幾乎立即就能看到第一個(gè)回應(yīng)("柏林墻倒塌于1989年"),還能在每個(gè)步驟后驗(yàn)證信息的正確性。如果用戶發(fā)現(xiàn)中間某個(gè)步驟有錯(cuò)誤,可以立即糾正,避免錯(cuò)誤傳播到最終答案。
為了實(shí)現(xiàn)這種交織式推理,研究團(tuán)隊(duì)使用了強(qiáng)化學(xué)習(xí)方法。他們?cè)O(shè)計(jì)了一個(gè)特殊的指令模板,告訴模型在標(biāo)簽內(nèi)進(jìn)行推理,在標(biāo)簽內(nèi)提供答案,并且鼓勵(lì)模型在有了確定的中間結(jié)論時(shí)立即分享。然后,他們定義了三種獎(jiǎng)勵(lì)信號(hào)來指導(dǎo)模型學(xué)習(xí):
1. 格式獎(jiǎng)勵(lì):確保模型正確交替使用思考和回答標(biāo)簽。 2. 最終準(zhǔn)確性獎(jiǎng)勵(lì):評(píng)估最終答案是否正確。 3. 條件中間準(zhǔn)確性獎(jiǎng)勵(lì):在特定條件下,獎(jiǎng)勵(lì)模型生成正確的中間答案。
值得注意的是,研究者發(fā)現(xiàn)直接獎(jiǎng)勵(lì)所有中間答案的正確性會(huì)導(dǎo)致次優(yōu)結(jié)果,因?yàn)槟P涂赡軙?huì)過度關(guān)注局部正確性而犧牲最終答案的準(zhǔn)確性。為解決這個(gè)問題,他們?cè)O(shè)計(jì)了一個(gè)條件獎(jiǎng)勵(lì)策略:只有當(dāng)模型的最終答案正確、輸出格式有效,且訓(xùn)練進(jìn)度穩(wěn)定時(shí),才為正確的中間答案提供額外獎(jiǎng)勵(lì)。
三、研究方法:如何訓(xùn)練模型實(shí)現(xiàn)交織式推理
研究團(tuán)隊(duì)首先觀察到一個(gè)有趣的現(xiàn)象:即使是未經(jīng)專門訓(xùn)練的基礎(chǔ)模型,在給定交織式推理模板后,也能展現(xiàn)出一定程度的交織推理能力。這表明語言模型本身就具備這種能力的潛質(zhì),只是需要適當(dāng)?shù)囊龑?dǎo)和強(qiáng)化。
基于這一發(fā)現(xiàn),他們?cè)O(shè)計(jì)了一個(gè)完整的強(qiáng)化學(xué)習(xí)訓(xùn)練框架。整個(gè)過程可以比喻為教一個(gè)聰明但缺乏經(jīng)驗(yàn)的學(xué)生學(xué)會(huì)一種新的解題方法:
首先,他們選擇了兩類數(shù)據(jù)集進(jìn)行訓(xùn)練:
1. "騎士與騙子"(Knights and Knaves):一種邏輯推理游戲,要求通過分析一系列陳述來確定哪些角色總是說真話(騎士),哪些總是說謊(騙子)。 2. "Musique":一種多跳問答數(shù)據(jù)集,要求模型從多個(gè)信息源中檢索和組合信息來回答問題。
這兩個(gè)數(shù)據(jù)集的共同特點(diǎn)是自然包含子問題和相應(yīng)的答案,非常適合訓(xùn)練交織式推理能力。
接下來,研究團(tuán)隊(duì)探索了三種不同的強(qiáng)化學(xué)習(xí)算法:
1. 近端策略優(yōu)化(PPO):最經(jīng)典的RL算法之一,通過使用價(jià)值網(wǎng)絡(luò)估計(jì)狀態(tài)價(jià)值來計(jì)算優(yōu)勢(shì)。 2. 群相對(duì)策略優(yōu)化(GRPO):PPO的一個(gè)變種,減少了對(duì)額外評(píng)論家網(wǎng)絡(luò)的需求。 3. REINFORCE++:一種簡(jiǎn)單高效的對(duì)齊大語言模型的方法。
經(jīng)過比較,他們發(fā)現(xiàn)PPO算法雖然訓(xùn)練速度較慢,但提供了最穩(wěn)定的訓(xùn)練過程,最終性能也最好。
在獎(jiǎng)勵(lì)計(jì)算方面,研究團(tuán)隊(duì)探索了三種不同的中間獎(jiǎng)勵(lì)計(jì)算方法:
1. 全或無:要求所有中間步驟都正確才給予獎(jiǎng)勵(lì)。 2. 部分積分:為每個(gè)正確的中間步驟單獨(dú)給予部分獎(jiǎng)勵(lì)。 3. 時(shí)間折扣:為較早出現(xiàn)的正確中間步驟給予更高權(quán)重的獎(jiǎng)勵(lì)。
實(shí)驗(yàn)結(jié)果表明,時(shí)間折扣方法效果最佳,因?yàn)樗裙膭?lì)模型盡早提供正確的中間步驟,又保持了推理的連貫性。
四、研究成果:交織式推理模型的驚人表現(xiàn)
研究團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上評(píng)估了他們的交織式推理模型,包括訓(xùn)練中使用的"騎士與騙子"和"Musique",以及三個(gè)完全未見過的數(shù)據(jù)集:GPQA(研究生物理問題)、MMLU(多任務(wù)語言理解)和MATH(數(shù)學(xué)問題解決)。
實(shí)驗(yàn)結(jié)果令人振奮。首先,在首詞響應(yīng)時(shí)間(TTFT)方面,交織式推理模型比傳統(tǒng)的"思考-回答"模型平均快了80%以上。這意味著用戶幾乎可以立即看到AI的第一個(gè)回應(yīng),大大提升了互動(dòng)體驗(yàn)。
更令人驚訝的是準(zhǔn)確率的提升。使用Qwen2.5-1.5B模型(一個(gè)相對(duì)較小的模型)時(shí),加入中間獎(jiǎng)勵(lì)的交織式推理(Interleave+IR)相比傳統(tǒng)"思考-回答"方法,在"騎士與騙子"任務(wù)上準(zhǔn)確率提高了19.3%,在GPQA上提高了16.1%。即使在更大的7B模型上,交織式推理也能帶來5.7%的平均準(zhǔn)確率提升。
這些提升不僅體現(xiàn)在訓(xùn)練數(shù)據(jù)集上,更令人驚喜的是模型展現(xiàn)出強(qiáng)大的泛化能力。僅通過在問答和邏輯推理數(shù)據(jù)集上訓(xùn)練,模型就能將交織式推理能力泛化到未見過的數(shù)學(xué)和物理問題上,表明這種能力是一種通用的思考方式,而不僅僅是特定領(lǐng)域的技巧。
研究團(tuán)隊(duì)還發(fā)現(xiàn),隨著問題難度的增加,交織式推理相比傳統(tǒng)方法的優(yōu)勢(shì)更加明顯。在"騎士與騙子"數(shù)據(jù)集的更難版本中(涉及6、7、8個(gè)角色),交織式推理模型的性能優(yōu)勢(shì)顯著擴(kuò)大,表明這種方法在復(fù)雜多步推理任務(wù)中特別有效。
五、研究洞察:為什么交織式推理如此有效?
研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn)了幾個(gè)有趣的洞察,幫助我們理解為什么交織式推理如此有效:
首先,他們發(fā)現(xiàn)模型非??焖俚貙W(xué)會(huì)了交織式格式,遠(yuǎn)快于學(xué)會(huì)準(zhǔn)確回答問題。這表明結(jié)構(gòu)化的回應(yīng)方式對(duì)模型來說相對(duì)容易掌握,真正的挑戰(zhàn)在于提高推理質(zhì)量。
其次,關(guān)于中間答案的時(shí)機(jī)至關(guān)重要。研究者比較了標(biāo)準(zhǔn)交織式推理(在推理過程中立即提供中間答案)與延遲中間答案(完成所有推理后,最終答案前才提供中間結(jié)論)的效果。結(jié)果顯示,延遲提供中間答案會(huì)顯著降低準(zhǔn)確率并增加響應(yīng)時(shí)間,這證明了及時(shí)、增量式反饋在整個(gè)推理過程中的重要性。
第三,關(guān)于獎(jiǎng)勵(lì)設(shè)計(jì),研究表明條件獎(jiǎng)勵(lì)策略(只在模型表現(xiàn)良好時(shí)獎(jiǎng)勵(lì)中間步驟)比直接獎(jiǎng)勵(lì)所有中間步驟更有效。這類似于教育心理學(xué)中的理念:在學(xué)生掌握基礎(chǔ)知識(shí)后再鼓勵(lì)更復(fù)雜的思考方式。
最后,研究者觀察到正確答案通常比錯(cuò)誤答案更簡(jiǎn)潔。對(duì)于1.5B和7B模型,正確解答的平均長(zhǎng)度都顯著短于錯(cuò)誤解答,這表明模型在找到正確解題路徑后,能更高效地表達(dá)解決方案,而不會(huì)生成不必要的思考內(nèi)容。
六、實(shí)際應(yīng)用與未來展望
這項(xiàng)研究的實(shí)際應(yīng)用價(jià)值非常明顯。交織式推理可以顯著改善AI助手的用戶體驗(yàn),讓它們更像真實(shí)的人類對(duì)話伙伴,提供及時(shí)的反饋和漸進(jìn)式的答案。對(duì)于需要復(fù)雜推理的應(yīng)用場(chǎng)景,如教育輔導(dǎo)、科學(xué)研究助手、醫(yī)療診斷支持等,這種方法尤其有價(jià)值。
值得強(qiáng)調(diào)的是,與其他需要外部工具的方法不同,交織式推理是一種純粹依靠模型內(nèi)部能力的方法,不需要額外的API調(diào)用或外部知識(shí)庫(kù)。這使得它更容易部署,也更加高效。
未來研究可能的方向包括:
1. 探索在更多樣化的數(shù)據(jù)集上訓(xùn)練交織式推理能力。 2. 研究如何根據(jù)問題復(fù)雜度自動(dòng)調(diào)整思考和回答的頻率。 3. 結(jié)合用戶反饋,讓模型能夠根據(jù)用戶對(duì)中間答案的回應(yīng)調(diào)整后續(xù)推理路徑。 4. 探索更復(fù)雜的獎(jiǎng)勵(lì)機(jī)制,進(jìn)一步提高模型的準(zhǔn)確性和效率。
七、研究局限性與挑戰(zhàn)
盡管取得了令人矚目的成果,這項(xiàng)研究也面臨一些局限和挑戰(zhàn):
首先,訓(xùn)練過程僅使用了包含中間答案的數(shù)據(jù)集,未來需要探索如何在沒有中間答案標(biāo)注的數(shù)據(jù)集上訓(xùn)練這種能力。
其次,獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)仍有優(yōu)化空間。當(dāng)前的條件獎(jiǎng)勵(lì)策略雖然有效,但可能并非最優(yōu)解,未來可以探索更精細(xì)的獎(jiǎng)勵(lì)設(shè)計(jì)。
第三,雖然交織式推理減少了首詞響應(yīng)時(shí)間,但總體推理時(shí)間可能沒有顯著減少。未來研究可以探索如何在保持準(zhǔn)確性的同時(shí),進(jìn)一步提高推理效率。
最后,該研究主要關(guān)注了準(zhǔn)確性和響應(yīng)時(shí)間,未來可以擴(kuò)展到考量推理的多樣性、穩(wěn)健性等更多維度。
結(jié)論:重新思考AI如何思考
歸根結(jié)底,這項(xiàng)研究向我們展示了一個(gè)重要的轉(zhuǎn)變:AI不必非得先完成所有思考再給出答案,它可以像人類一樣,在思考過程中與用戶互動(dòng),提供漸進(jìn)式的信息和洞察。
這種交織式推理方法不僅讓AI更快地響應(yīng)用戶,還通過明確的中間步驟提高了推理準(zhǔn)確性,同時(shí)增強(qiáng)了整個(gè)互動(dòng)過程的透明度和可解釋性。它使AI助手更像一個(gè)真實(shí)的對(duì)話伙伴,而不是一個(gè)需要長(zhǎng)時(shí)間"加載"才能回應(yīng)的黑盒子。
最令人興奮的是,研究表明這種能力可以泛化到未見過的復(fù)雜任務(wù)上,這意味著一旦學(xué)會(huì)了這種思考方式,AI就能在各種推理任務(wù)中應(yīng)用它。就像一個(gè)學(xué)會(huì)了"邊思考邊表達(dá)"的學(xué)生,能在各種學(xué)科中都更有效地解決問題和溝通想法。
對(duì)于我們這些AI系統(tǒng)的用戶來說,這意味著未來的AI助手將提供更快、更準(zhǔn)確、更透明的互動(dòng)體驗(yàn),就像與一個(gè)思維敏捷的朋友交流,而不是一個(gè)神秘的預(yù)言機(jī)器。
如果你對(duì)這項(xiàng)研究感興趣,可以通過arXiv:2505.19640訪問完整論文,深入了解交織式推理如何改變大語言模型的思考方式。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。