這項由杜克大學的Hongyi James Cai、Junlin Wang、Mila魁北克AI研究所的Xiaoyin Chen以及杜克大學的Bhuwan Dhingra共同完成的研究,發(fā)表于2025年5月30日的arXiv預印本平臺(arXiv:2505.24273v1),主要探討了大型語言模型(LLM)在推理過程中回溯思考的作用。有興趣深入了解的讀者可以通過https://github.com/jchy20/how-much-backtrack訪問相關代碼。
一、研究背景:為什么需要了解大模型的"思考"過程?
想象一下,你在解決一道復雜的數學題。你可能會沿著某個思路前進,但突然發(fā)現這條路行不通,于是你會說:"等等,讓我換個方法試試",然后回溯到之前的步驟,嘗試新的解題思路。這種"回溯思考"的能力,對于我們人類來說是再自然不過的事情。而令人驚訝的是,現在的大型語言模型(如DeepSeek-R1和OpenAI的o1)也展現出了類似的能力!
但問題來了:到底有多少回溯是最合適的?回溯太少可能導致模型陷入死胡同,回溯太多又可能導致模型在各種可能性中反復橫跳而無法得出結論。就像一個迷宮中的探險者,轉彎太少可能無法找到出口,轉彎太多又可能在迷宮中兜圈子。
杜克大學和Mila研究所的研究團隊正是聚焦于這一問題,他們想弄清楚在訓練大型語言模型時,最佳的回溯量是多少,以及回溯能力如何與不同的訓練方法(如監(jiān)督微調SFT和強化學習RL)相互影響。
二、研究方法:探索SFT和RL的協同作用
要理解這項研究,我們需要先了解兩種主要的大模型訓練方法:監(jiān)督微調(SFT)和強化學習(RL)。
想象你在教一個孩子做飯。監(jiān)督微調就像是給孩子看烹飪示范,一步步教他如何完成;而強化學習則更像是讓孩子自己嘗試做飯,嘗到美味的結果就給予獎勵,嘗到難吃的結果就給予一些建議以便改進。在訓練大模型時,研究人員經常先用SFT給模型打基礎,然后再用RL讓模型進一步提升。
研究團隊選擇了八個需要復雜推理能力的任務來進行實驗:倒計時(Countdown)、數獨(Sudoku)、一維?。ˋrc 1D)、幾何問題(Geometry)、顏色立方體旋轉(Color Cube Rotation)、列表函數(List Functions)、斑馬謎題(Zebra Puzzles)和自我引用(Self Reference)。這些任務就像是一系列由簡單到復雜的智力挑戰(zhàn),用來測試模型的推理能力。
他們設計了一系列對照實驗,主要關注以下幾個方面:
首先,他們比較了"冷啟動RL"(直接用RL訓練模型)和"SFT預熱+RL"(先用SFT訓練,再用RL)兩種方法的效果。就像比較直接讓孩子下水游泳和先在淺水區(qū)練習再下水游泳的區(qū)別。
其次,他們特別研究了SFT階段中回溯思考的作用。他們通過精心構建包含不同回溯次數的合成數據集,以及使用從更強大模型(QwQ-32B)中蒸餾的數據,來分析回溯思考對后續(xù)RL訓練的影響。就好比研究在教孩子解題時,示范中包含多少次"重新思考"是最有效的。
最后,他們還研究了SFT訓練數據的正確性是否會影響RL的效果,這就像是研究示范中出現錯誤會不會影響孩子的學習。
三、核心發(fā)現:回溯思考的奧秘
研究團隊的實驗揭示了幾個令人驚訝的發(fā)現:
首先,即使是簡短的思考鏈(CoT)訓練也能對強化學習產生積極影響。與之前認為必須有明確的"等等,讓我重新思考"等標記才能讓強化學習發(fā)揮作用的觀點不同,研究團隊發(fā)現,即使是沒有明顯包含回溯行為的簡短CoT,也能為強化學習提供良好的起點。這就像發(fā)現孩子即使只學習了基礎的思考方法,也能在后續(xù)的自主學習中取得更好的進步。
其次,關于SFT階段訓練數據正確性的影響,研究團隊做了一個令人意外的發(fā)現:訓練數據是否正確,對最終RL訓練后的模型性能影響不大。他們比較了使用正確CoT和錯誤CoT進行SFT的模型,發(fā)現兩者在RL訓練后的表現相似。這就像是發(fā)現孩子在學習過程中,即使老師偶爾犯錯,只要基本的思考框架是對的,孩子最終還是能學會正確的方法。
最關鍵的發(fā)現是關于回溯次數與任務難度之間的關系。研究表明,任務越困難,所需的回溯次數就越多:
對于相對簡單的Arc 1D任務,零回溯(即直接給出最優(yōu)解)的SFT效果最好,模型在RL訓練后達到了90.8%的準確率,遠超QwQ-32B的24.0%。
對于中等難度的Countdown任務,一次回溯的SFT效果最好,模型在RL訓練后達到了69.7%的準確率,優(yōu)于QwQ-32B的51.5%。
對于困難的Sudoku任務,五次回溯的SFT效果最好,模型在RL訓練后達到了28.9%的準確率,而零回溯模型只有14.4%。
這就像是教孩子解決不同難度的問題:簡單問題只需直接示范解法;中等難度的問題需要展示一些思考過程中的"重新思考";而復雜問題則需要多次展示"思路調整",才能讓孩子真正掌握解決問題的方法。
研究還發(fā)現,強化學習對SFT數據的內部一致性非常敏感。當研究人員打亂問題和答案的對應關系時,RL訓練變得極其困難。這說明即使RL可以糾正錯誤的推理過程,但它無法處理完全不相關的問題-答案對。這就像是如果教材中的問題和答案完全對不上,即使最聰明的學生也會感到困惑。
四、研究啟示:優(yōu)化大模型的推理能力
這項研究為如何訓練具有更強推理能力的大型語言模型提供了重要啟示:
首先,即使是簡單的思考鏈(CoT)示范也能為強化學習提供有價值的起點。就像是給孩子提供一個基礎的思考框架,哪怕這個框架很簡單,也能幫助孩子在后續(xù)的自主學習中取得更好的進步。
其次,在訓練大模型時,應該根據任務的難度調整回溯思考的數量。簡單任務可以使用直接的示范,復雜任務則需要包含更多回溯步驟的示范。這就像是教導不同年齡段的孩子:對于小孩子,可能需要更直接的指導;而對于大孩子,則可以展示更復雜的思考過程,包括試錯和修正。
最后,模型似乎更關注推理的結構而非內容的正確性。這意味著在訓練數據中,推理過程的組織方式(如何進行回溯、如何組織思路)可能比每一步推理是否準確更重要。這就像是教孩子解題時,重點不在于示范中的每一步是否都是正確的,而在于是否教會了孩子一種有效的思考方法。
五、未來展望:大模型推理能力的進一步提升
這項研究為未來大型語言模型的發(fā)展指明了方向。研究團隊發(fā)現,不同的任務需要不同程度的回溯,這啟示我們未來可能需要更加個性化的訓練方法,根據具體任務的特點調整訓練策略。
此外,研究還揭示了大模型在訓練過程中會表現出兩種不同的推理模式:一種是明確表達出來的搜索和回溯,一種是潛在的一次性思考。這兩種模式各有優(yōu)勢,未來的研究可能會進一步探索如何結合這兩種模式的優(yōu)點。
最后,研究表明,強化學習在訓練過程中主要強化了模型中已有的行為模式,而不是創(chuàng)造全新的能力。這意味著預訓練和監(jiān)督微調階段埋下的"種子"對模型最終的能力至關重要。未來的研究可能會更加關注如何在早期階段就培養(yǎng)模型的多樣化思考能力。
總的來說,這項研究不僅幫助我們更好地理解了大型語言模型的推理機制,還為如何訓練更強大的AI系統(tǒng)提供了實用指導。就像是研究了教導孩子思考的最佳方法,這些發(fā)現將幫助我們培養(yǎng)出更會"思考"的AI助手。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。