av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 大模型如何"思考"?杜克大學(xué)研究揭秘回溯思考對(duì)LLM推理能力的影響

大模型如何"思考"?杜克大學(xué)研究揭秘回溯思考對(duì)LLM推理能力的影響

2025-06-06 17:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 17:30 ? 科技行者

這項(xiàng)由杜克大學(xué)的Hongyi James Cai、Junlin Wang、Mila魁北克AI研究所的Xiaoyin Chen以及杜克大學(xué)的Bhuwan Dhingra共同完成的研究,發(fā)表于2025年5月30日的arXiv預(yù)印本平臺(tái)(arXiv:2505.24273v1),主要探討了大型語(yǔ)言模型(LLM)在推理過(guò)程中回溯思考的作用。有興趣深入了解的讀者可以通過(guò)https://github.com/jchy20/how-much-backtrack訪問(wèn)相關(guān)代碼。

一、研究背景:為什么需要了解大模型的"思考"過(guò)程?

想象一下,你在解決一道復(fù)雜的數(shù)學(xué)題。你可能會(huì)沿著某個(gè)思路前進(jìn),但突然發(fā)現(xiàn)這條路行不通,于是你會(huì)說(shuō):"等等,讓我換個(gè)方法試試",然后回溯到之前的步驟,嘗試新的解題思路。這種"回溯思考"的能力,對(duì)于我們?nèi)祟?lèi)來(lái)說(shuō)是再自然不過(guò)的事情。而令人驚訝的是,現(xiàn)在的大型語(yǔ)言模型(如DeepSeek-R1和OpenAI的o1)也展現(xiàn)出了類(lèi)似的能力!

但問(wèn)題來(lái)了:到底有多少回溯是最合適的?回溯太少可能導(dǎo)致模型陷入死胡同,回溯太多又可能導(dǎo)致模型在各種可能性中反復(fù)橫跳而無(wú)法得出結(jié)論。就像一個(gè)迷宮中的探險(xiǎn)者,轉(zhuǎn)彎太少可能無(wú)法找到出口,轉(zhuǎn)彎太多又可能在迷宮中兜圈子。

杜克大學(xué)和Mila研究所的研究團(tuán)隊(duì)正是聚焦于這一問(wèn)題,他們想弄清楚在訓(xùn)練大型語(yǔ)言模型時(shí),最佳的回溯量是多少,以及回溯能力如何與不同的訓(xùn)練方法(如監(jiān)督微調(diào)SFT和強(qiáng)化學(xué)習(xí)RL)相互影響。

二、研究方法:探索SFT和RL的協(xié)同作用

要理解這項(xiàng)研究,我們需要先了解兩種主要的大模型訓(xùn)練方法:監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)。

想象你在教一個(gè)孩子做飯。監(jiān)督微調(diào)就像是給孩子看烹飪示范,一步步教他如何完成;而強(qiáng)化學(xué)習(xí)則更像是讓孩子自己嘗試做飯,嘗到美味的結(jié)果就給予獎(jiǎng)勵(lì),嘗到難吃的結(jié)果就給予一些建議以便改進(jìn)。在訓(xùn)練大模型時(shí),研究人員經(jīng)常先用SFT給模型打基礎(chǔ),然后再用RL讓模型進(jìn)一步提升。

研究團(tuán)隊(duì)選擇了八個(gè)需要復(fù)雜推理能力的任務(wù)來(lái)進(jìn)行實(shí)驗(yàn):倒計(jì)時(shí)(Countdown)、數(shù)獨(dú)(Sudoku)、一維弧(Arc 1D)、幾何問(wèn)題(Geometry)、顏色立方體旋轉(zhuǎn)(Color Cube Rotation)、列表函數(shù)(List Functions)、斑馬謎題(Zebra Puzzles)和自我引用(Self Reference)。這些任務(wù)就像是一系列由簡(jiǎn)單到復(fù)雜的智力挑戰(zhàn),用來(lái)測(cè)試模型的推理能力。

他們?cè)O(shè)計(jì)了一系列對(duì)照實(shí)驗(yàn),主要關(guān)注以下幾個(gè)方面:

首先,他們比較了"冷啟動(dòng)RL"(直接用RL訓(xùn)練模型)和"SFT預(yù)熱+RL"(先用SFT訓(xùn)練,再用RL)兩種方法的效果。就像比較直接讓孩子下水游泳和先在淺水區(qū)練習(xí)再下水游泳的區(qū)別。

其次,他們特別研究了SFT階段中回溯思考的作用。他們通過(guò)精心構(gòu)建包含不同回溯次數(shù)的合成數(shù)據(jù)集,以及使用從更強(qiáng)大模型(QwQ-32B)中蒸餾的數(shù)據(jù),來(lái)分析回溯思考對(duì)后續(xù)RL訓(xùn)練的影響。就好比研究在教孩子解題時(shí),示范中包含多少次"重新思考"是最有效的。

最后,他們還研究了SFT訓(xùn)練數(shù)據(jù)的正確性是否會(huì)影響RL的效果,這就像是研究示范中出現(xiàn)錯(cuò)誤會(huì)不會(huì)影響孩子的學(xué)習(xí)。

三、核心發(fā)現(xiàn):回溯思考的奧秘

研究團(tuán)隊(duì)的實(shí)驗(yàn)揭示了幾個(gè)令人驚訝的發(fā)現(xiàn):

首先,即使是簡(jiǎn)短的思考鏈(CoT)訓(xùn)練也能對(duì)強(qiáng)化學(xué)習(xí)產(chǎn)生積極影響。與之前認(rèn)為必須有明確的"等等,讓我重新思考"等標(biāo)記才能讓強(qiáng)化學(xué)習(xí)發(fā)揮作用的觀點(diǎn)不同,研究團(tuán)隊(duì)發(fā)現(xiàn),即使是沒(méi)有明顯包含回溯行為的簡(jiǎn)短CoT,也能為強(qiáng)化學(xué)習(xí)提供良好的起點(diǎn)。這就像發(fā)現(xiàn)孩子即使只學(xué)習(xí)了基礎(chǔ)的思考方法,也能在后續(xù)的自主學(xué)習(xí)中取得更好的進(jìn)步。

其次,關(guān)于SFT階段訓(xùn)練數(shù)據(jù)正確性的影響,研究團(tuán)隊(duì)做了一個(gè)令人意外的發(fā)現(xiàn):訓(xùn)練數(shù)據(jù)是否正確,對(duì)最終RL訓(xùn)練后的模型性能影響不大。他們比較了使用正確CoT和錯(cuò)誤CoT進(jìn)行SFT的模型,發(fā)現(xiàn)兩者在RL訓(xùn)練后的表現(xiàn)相似。這就像是發(fā)現(xiàn)孩子在學(xué)習(xí)過(guò)程中,即使老師偶爾犯錯(cuò),只要基本的思考框架是對(duì)的,孩子最終還是能學(xué)會(huì)正確的方法。

最關(guān)鍵的發(fā)現(xiàn)是關(guān)于回溯次數(shù)與任務(wù)難度之間的關(guān)系。研究表明,任務(wù)越困難,所需的回溯次數(shù)就越多:

對(duì)于相對(duì)簡(jiǎn)單的Arc 1D任務(wù),零回溯(即直接給出最優(yōu)解)的SFT效果最好,模型在RL訓(xùn)練后達(dá)到了90.8%的準(zhǔn)確率,遠(yuǎn)超QwQ-32B的24.0%。

對(duì)于中等難度的Countdown任務(wù),一次回溯的SFT效果最好,模型在RL訓(xùn)練后達(dá)到了69.7%的準(zhǔn)確率,優(yōu)于QwQ-32B的51.5%。

對(duì)于困難的Sudoku任務(wù),五次回溯的SFT效果最好,模型在RL訓(xùn)練后達(dá)到了28.9%的準(zhǔn)確率,而零回溯模型只有14.4%。

這就像是教孩子解決不同難度的問(wèn)題:簡(jiǎn)單問(wèn)題只需直接示范解法;中等難度的問(wèn)題需要展示一些思考過(guò)程中的"重新思考";而復(fù)雜問(wèn)題則需要多次展示"思路調(diào)整",才能讓孩子真正掌握解決問(wèn)題的方法。

研究還發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)對(duì)SFT數(shù)據(jù)的內(nèi)部一致性非常敏感。當(dāng)研究人員打亂問(wèn)題和答案的對(duì)應(yīng)關(guān)系時(shí),RL訓(xùn)練變得極其困難。這說(shuō)明即使RL可以糾正錯(cuò)誤的推理過(guò)程,但它無(wú)法處理完全不相關(guān)的問(wèn)題-答案對(duì)。這就像是如果教材中的問(wèn)題和答案完全對(duì)不上,即使最聰明的學(xué)生也會(huì)感到困惑。

四、研究啟示:優(yōu)化大模型的推理能力

這項(xiàng)研究為如何訓(xùn)練具有更強(qiáng)推理能力的大型語(yǔ)言模型提供了重要啟示:

首先,即使是簡(jiǎn)單的思考鏈(CoT)示范也能為強(qiáng)化學(xué)習(xí)提供有價(jià)值的起點(diǎn)。就像是給孩子提供一個(gè)基礎(chǔ)的思考框架,哪怕這個(gè)框架很簡(jiǎn)單,也能幫助孩子在后續(xù)的自主學(xué)習(xí)中取得更好的進(jìn)步。

其次,在訓(xùn)練大模型時(shí),應(yīng)該根據(jù)任務(wù)的難度調(diào)整回溯思考的數(shù)量。簡(jiǎn)單任務(wù)可以使用直接的示范,復(fù)雜任務(wù)則需要包含更多回溯步驟的示范。這就像是教導(dǎo)不同年齡段的孩子:對(duì)于小孩子,可能需要更直接的指導(dǎo);而對(duì)于大孩子,則可以展示更復(fù)雜的思考過(guò)程,包括試錯(cuò)和修正。

最后,模型似乎更關(guān)注推理的結(jié)構(gòu)而非內(nèi)容的正確性。這意味著在訓(xùn)練數(shù)據(jù)中,推理過(guò)程的組織方式(如何進(jìn)行回溯、如何組織思路)可能比每一步推理是否準(zhǔn)確更重要。這就像是教孩子解題時(shí),重點(diǎn)不在于示范中的每一步是否都是正確的,而在于是否教會(huì)了孩子一種有效的思考方法。

五、未來(lái)展望:大模型推理能力的進(jìn)一步提升

這項(xiàng)研究為未來(lái)大型語(yǔ)言模型的發(fā)展指明了方向。研究團(tuán)隊(duì)發(fā)現(xiàn),不同的任務(wù)需要不同程度的回溯,這啟示我們未來(lái)可能需要更加個(gè)性化的訓(xùn)練方法,根據(jù)具體任務(wù)的特點(diǎn)調(diào)整訓(xùn)練策略。

此外,研究還揭示了大模型在訓(xùn)練過(guò)程中會(huì)表現(xiàn)出兩種不同的推理模式:一種是明確表達(dá)出來(lái)的搜索和回溯,一種是潛在的一次性思考。這兩種模式各有優(yōu)勢(shì),未來(lái)的研究可能會(huì)進(jìn)一步探索如何結(jié)合這兩種模式的優(yōu)點(diǎn)。

最后,研究表明,強(qiáng)化學(xué)習(xí)在訓(xùn)練過(guò)程中主要強(qiáng)化了模型中已有的行為模式,而不是創(chuàng)造全新的能力。這意味著預(yù)訓(xùn)練和監(jiān)督微調(diào)階段埋下的"種子"對(duì)模型最終的能力至關(guān)重要。未來(lái)的研究可能會(huì)更加關(guān)注如何在早期階段就培養(yǎng)模型的多樣化思考能力。

總的來(lái)說(shuō),這項(xiàng)研究不僅幫助我們更好地理解了大型語(yǔ)言模型的推理機(jī)制,還為如何訓(xùn)練更強(qiáng)大的AI系統(tǒng)提供了實(shí)用指導(dǎo)。就像是研究了教導(dǎo)孩子思考的最佳方法,這些發(fā)現(xiàn)將幫助我們培養(yǎng)出更會(huì)"思考"的AI助手。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-