南京大學(xué)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室的研究團(tuán)隊(duì),包括Yi Wang、Junxiao Liu、Shimao Zhang、Jiajun Chen和通訊作者Shujian Huang,于2025年5月在arXiv上發(fā)表了一篇題為《PATS: Process-Level Adaptive Thinking Mode Switching》的研究論文(arXiv:2505.19250v1)。這項(xiàng)研究提出了一種全新的推理范式,能夠讓大型語言模型根據(jù)每一步推理的難度動態(tài)調(diào)整思維模式,從而在準(zhǔn)確性和效率之間取得更好的平衡。
想象一下,當(dāng)你解決問題時,有些簡單問題你可以快速思考就得出答案,而復(fù)雜問題則需要你慢慢分析、逐步推理。人類天生就具備這種能力,可以根據(jù)問題的難度靈活切換思考方式。但目前的大型語言模型(LLM)卻往往采用固定的推理策略,無論問題簡單還是復(fù)雜,都使用同一種方法去解決。這就像是無論修理簡單的燈泡還是復(fù)雜的電路,都拿出全套工具箱一樣——對簡單問題而言太過浪費(fèi),對復(fù)雜問題又可能不夠充分。
南京大學(xué)的研究團(tuán)隊(duì)注意到了這個問題,他們提出了"進(jìn)程級自適應(yīng)思維模式切換"(Process-Level Adaptive Thinking Mode Switching,簡稱PATS)方法。這個方法的核心思想是,在推理過程中,根據(jù)每一步的難度來動態(tài)調(diào)整思考策略,就像人類在解決問題時那樣靈活。
當(dāng)模型面對一個數(shù)學(xué)問題時,它會先使用復(fù)雜的思維模式開始解答。如果發(fā)現(xiàn)當(dāng)前步驟比較容易(通過一個叫做過程獎勵模型的評分機(jī)制判斷),它就會在下一步切換到更簡單的思維模式,節(jié)省計(jì)算資源;如果發(fā)現(xiàn)當(dāng)前步驟的解答質(zhì)量不佳,它會立即切換回復(fù)雜模式,或者重新思考這一步。這就像是一個聰明的學(xué)生,對簡單的計(jì)算題用心算,遇到復(fù)雜問題才拿出計(jì)算器一樣。
研究團(tuán)隊(duì)在多個數(shù)學(xué)推理基準(zhǔn)測試上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,PATS方法能夠在保持高準(zhǔn)確率的同時,顯著減少計(jì)算資源的使用。比如,與始終使用復(fù)雜思維模式相比,PATS的準(zhǔn)確率僅僅下降了0.3個百分點(diǎn),但計(jì)算資源的使用量卻減少了近45%。這就像是既能跑得快,又不會消耗太多體力的長跑選手。
一、大型語言模型思維模式的困境
當(dāng)前的大型語言模型(LLM)在推理能力上取得了顯著進(jìn)步,從最初的"快速思考"(直接回答問題)到更復(fù)雜的"慢速思考"(如思維鏈推理、反思機(jī)制等)。這些進(jìn)步讓模型能夠處理更加復(fù)雜的問題,但也帶來了新的挑戰(zhàn)。
想象一下,你去參加考試,有些題目非常簡單,有些則需要深思熟慮。如果你對每一道題目都花同樣多的時間和精力,那么你可能在簡單題目上浪費(fèi)了太多時間,而復(fù)雜題目又因?yàn)闀r間不足而做不好。大型語言模型也面臨著類似的困境——它們通常采用固定的推理策略,無論問題的難度如何。
研究人員發(fā)現(xiàn),在數(shù)學(xué)推理任務(wù)中,計(jì)算密集型的子步驟對有限規(guī)模的監(jiān)督微調(diào)模型構(gòu)成了主要挑戰(zhàn)。例如,在解決一道復(fù)雜的數(shù)學(xué)題時,某些步驟(如復(fù)雜的代數(shù)運(yùn)算)可能特別困難,需要更多的思考;而其他步驟(如簡單的加減法)則相對容易。同樣地,在迷宮導(dǎo)航等任務(wù)中,不同子問題的難度也存在差異。
這些發(fā)現(xiàn)表明,推理過程中的難度是動態(tài)變化的,需要相應(yīng)地動態(tài)分配計(jì)算資源。固定的推理策略無法適應(yīng)這種變化,導(dǎo)致在簡單問題上浪費(fèi)資源,在復(fù)雜問題上又表現(xiàn)不佳。
二、從系統(tǒng)切換到進(jìn)程級適應(yīng)
受到雙重處理理論的啟發(fā),人類可以靈活地在快速思考(系統(tǒng)1)和慢速思考(系統(tǒng)2)之間切換:前者快速高效,適合簡單任務(wù);后者則慢而深思熟慮,適合復(fù)雜問題。這兩種認(rèn)知風(fēng)格與大型語言模型采用的不同推理策略高度吻合。
之前的研究已經(jīng)探索了在大型語言模型中實(shí)現(xiàn)系統(tǒng)1和系統(tǒng)2切換的機(jī)制,大致可分為基于訓(xùn)練和免訓(xùn)練方法。本研究關(guān)注的是免訓(xùn)練設(shè)置。目前的代表性工作HDFLOW采用了一種固定策略:先使用系統(tǒng)1生成初始解決方案,如果解決方案未通過評估,則激活更復(fù)雜的系統(tǒng)2重新考慮問題。
然而,這種方法存在明顯的局限性:它只在獲得完整解決方案后才決定是否切換思維策略,這過于粗糙,與當(dāng)前復(fù)雜問題分步推理的背景不符,也缺乏對推理過程中難度變化的適應(yīng)能力。
為了解決這些問題,南京大學(xué)的研究團(tuán)隊(duì)提出了"進(jìn)程級自適應(yīng)思維模式切換"(PATS),這是一種全新的推理范式,能夠在每一步推理中根據(jù)難度動態(tài)選擇適當(dāng)?shù)乃季S模式,在準(zhǔn)確性和效率之間取得良好平衡。
三、PATS:細(xì)粒度的動態(tài)思維模式切換
PATS方法建立在以下核心設(shè)計(jì)上:
首先,研究團(tuán)隊(duì)采用了基于過程獎勵模型(PRM)引導(dǎo)的波束搜索框架。在這個框架中,模型在每一步生成多個候選步驟,然后使用PRM對這些候選步驟進(jìn)行評分,選擇得分最高的一個作為該步的最終選擇,然后繼續(xù)推理。
關(guān)鍵的創(chuàng)新點(diǎn)在于,研究團(tuán)隊(duì)將思維模式與每一步生成的候選步驟數(shù)量關(guān)聯(lián)起來。具體來說,他們定義了三種思維模式:
簡單思維模式(Simple Thinking Mode):每步生成2個候選步驟,類似于直接回答風(fēng)格的推理,適合相對簡單的問題。 中等思維模式(Medium Thinking Mode):每步生成4個候選步驟,反映了典型的思維鏈推理,適合中等難度的問題。 復(fù)雜思維模式(Complex Thinking Mode):每步生成8個候選步驟,反映了o1風(fēng)格的慢思考,更適合具有挑戰(zhàn)性的問題。
這就像是解題時的不同策略:簡單模式相當(dāng)于快速心算,中等模式相當(dāng)于用筆和紙計(jì)算,復(fù)雜模式則相當(dāng)于使用計(jì)算器或電腦輔助計(jì)算。
在推理過程中,模型默認(rèn)從復(fù)雜思維模式開始。在每一步推理完成后,系統(tǒng)會根據(jù)當(dāng)前步驟的PRM得分(反映了推理質(zhì)量)來動態(tài)調(diào)整下一步的思維模式:
如果當(dāng)前步驟的PRM得分很高(≥0.85),表明推理狀態(tài)良好,系統(tǒng)會逐漸過渡到更簡單的思維模式,以節(jié)省計(jì)算資源。例如,如果當(dāng)前是復(fù)雜模式,下一步會切換到中等模式;如果當(dāng)前是中等模式,下一步會切換到簡單模式。
如果當(dāng)前步驟的PRM得分較低(<0.75),表明推理狀態(tài)不佳,系統(tǒng)會立即切換到最復(fù)雜的思維模式,以避免錯誤累積。
如果當(dāng)前步驟的PRM得分處于中間狀態(tài),系統(tǒng)會保持當(dāng)前的思維模式不變。
此外,系統(tǒng)還引入了對特別糟糕步驟的懲罰機(jī)制。如果某一步的PRM得分非常低(<0.4),系統(tǒng)會立即懲罰當(dāng)前步驟,并以復(fù)雜模式重新思考這一步,而不是等到下一步再調(diào)整。這就像學(xué)生做題時發(fā)現(xiàn)一個明顯錯誤,立即擦除重做,而不是繼續(xù)往下做。為了避免在無法解決的步驟上陷入無限循環(huán),每個步驟最多只會被懲罰一次。
這種細(xì)粒度的控制使得模型能夠根據(jù)推理過程中的實(shí)際難度動態(tài)調(diào)整思考策略,既保證了準(zhǔn)確性,又提高了效率。
四、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
為了驗(yàn)證PATS方法的有效性,研究團(tuán)隊(duì)在多個數(shù)學(xué)推理基準(zhǔn)測試上進(jìn)行了廣泛的實(shí)驗(yàn),包括GSM8k、MATH500、Minerva Math、AMC23和AIME24,這些測試涵蓋了從基礎(chǔ)到高級的各種數(shù)學(xué)推理難度。
實(shí)驗(yàn)使用了不同參數(shù)規(guī)模的Qwen2.5系列模型作為策略模型,主要實(shí)驗(yàn)采用Qwen2.5-7B-Instruct模型。過程獎勵模型則選用了多種開源PRM,包括Math-Shepherd、Qwen2.5-Math-PRM-7B和Qwen2.5-Math-7B-PRM800K。
評估指標(biāo)包括兩個維度:準(zhǔn)確率(解答正確率)和效率(生成的輸出標(biāo)記數(shù)量)。
實(shí)驗(yàn)結(jié)果令人振奮。與固定思維模式的基線相比,PATS在準(zhǔn)確率和計(jì)算效率之間取得了出色的平衡:
平均而言,PATS的準(zhǔn)確率(61.3%)接近于始終使用復(fù)雜思維模式的設(shè)置(61.6%,僅低0.3個百分點(diǎn)),但標(biāo)記使用量僅為后者的55.4%。 與始終使用中等思維模式的設(shè)置相比,PATS的準(zhǔn)確率高出近3個百分點(diǎn),而標(biāo)記使用量相當(dāng)。 與始終使用簡單思維模式的設(shè)置相比,PATS的準(zhǔn)確率高出顯著的5.8個百分點(diǎn)。 這意味著,PATS能夠在保持高準(zhǔn)確率的同時,顯著降低計(jì)算資源的使用,就像一個既聰明又高效的問題解決者。
更重要的是,PATS明顯優(yōu)于粗粒度的解決方案級切換方法。與后者相比,PATS的平均準(zhǔn)確率高出4.4個百分點(diǎn),同時標(biāo)記使用量還減少了約7%。這證明了進(jìn)程級的推理策略調(diào)整優(yōu)于粗粒度的解決方案級切換,強(qiáng)調(diào)了在整個推理過程中及時調(diào)整策略的重要性。
五、深入分析與泛化性驗(yàn)證
研究團(tuán)隊(duì)進(jìn)行了一系列深入分析,以更好地理解PATS的工作機(jī)制和適用性。
首先,他們研究了不同初始思維模式在不同難度任務(wù)上的表現(xiàn)。結(jié)果表明,將初始思維模式與任務(wù)難度對齊能夠有效平衡準(zhǔn)確率和計(jì)算效率。對于簡單任務(wù),以簡單模式開始能夠達(dá)到最低的標(biāo)記使用量和可比的準(zhǔn)確率;對于中等難度任務(wù),中等模式能夠達(dá)到最高的準(zhǔn)確率和適中的標(biāo)記使用量;對于困難任務(wù),復(fù)雜模式明顯優(yōu)于其他模式。
其次,研究團(tuán)隊(duì)比較了不同難度任務(wù)的推理行為。他們選取MATH500作為較簡單任務(wù)的代表,AMC23作為較困難任務(wù)的代表,并將推理過程標(biāo)準(zhǔn)化為[0, 1]范圍,分為五個相等的階段。結(jié)果顯示,對于正確解決的問題,AMC23在推理中期到后期階段表現(xiàn)出更高比例的復(fù)雜思維模式,反映了更大的認(rèn)知努力,與AMC23問題的更高復(fù)雜性一致。這表明,更困難的任務(wù)需要更多的推理努力才能得到正確的解答,強(qiáng)調(diào)了根據(jù)推理難度動態(tài)分配計(jì)算資源的必要性。
關(guān)于懲罰糟糕推理步驟的必要性和適度性,研究團(tuán)隊(duì)比較了三種策略:無懲罰(糟糕步驟不處理)、無限懲罰(在復(fù)雜模式下反復(fù)重新思考糟糕步驟,直到分?jǐn)?shù)超過閾值)和PATS(一次性懲罰方法)。結(jié)果表明,PATS取得了最佳平衡,在達(dá)到最高準(zhǔn)確率的同時,比無限懲罰策略節(jié)省了大量標(biāo)記,與無懲罰策略相比標(biāo)記使用量相當(dāng)。這證明了懲罰次優(yōu)推理步驟對防止延遲糾正的重要性,同時也強(qiáng)調(diào)了對無法解決步驟避免過度重新思考的必要性。
最后,研究團(tuán)隊(duì)還驗(yàn)證了PATS在不同策略模型和過程獎勵模型上的泛化能力。結(jié)果表明,無論是在不同參數(shù)規(guī)模的策略模型(Qwen2.5-1.5B-Instruct和Qwen2.5-3B-Instruct)上,還是在不同的過程獎勵模型(Math-Shepherd和Qwen2.5-Math-7B-PRM800K)上,PATS都表現(xiàn)出強(qiáng)大的泛化能力。在所有情況下,PATS都始終在平均準(zhǔn)確率上優(yōu)于固定的簡單和中等思維模式,同時保持接近中等模式的適中標(biāo)記使用量。值得注意的是,在Math-Shepherd設(shè)置中,PATS甚至在準(zhǔn)確率上超過了始終使用復(fù)雜思維模式的設(shè)置。
這些結(jié)果突顯了PATS自適應(yīng)范式在各種策略模型和過程獎勵模型上的魯棒性,證明了它的廣泛適用性。
六、總結(jié)與啟示
南京大學(xué)研究團(tuán)隊(duì)提出的"進(jìn)程級自適應(yīng)思維模式切換"(PATS)方法為大型語言模型的推理過程提供了一種全新的范式。通過在推理過程中根據(jù)每一步的難度動態(tài)調(diào)整思維模式,PATS能夠在準(zhǔn)確率和計(jì)算效率之間取得出色的平衡。
這項(xiàng)研究的重要性在于,它摒棄了"一刀切"的固定推理策略,轉(zhuǎn)而采用更加靈活、適應(yīng)性更強(qiáng)的方法,更接近人類的思考方式。就像人類在解決問題時會根據(jù)難度靈活調(diào)整思考深度一樣,PATS讓大型語言模型能夠"因地制宜"地分配計(jì)算資源,對簡單步驟快速處理,對復(fù)雜步驟深入思考。
實(shí)驗(yàn)結(jié)果表明,這種方法不僅能夠保持高準(zhǔn)確率,還能顯著降低計(jì)算資源的使用,為大型語言模型的高效推理提供了新的思路。特別是在計(jì)算資源有限的場景下,這種方法的價值更加凸顯。
不過,研究團(tuán)隊(duì)也指出了一些局限性。由于計(jì)算資源的限制,他們的實(shí)驗(yàn)僅限于相對較小規(guī)模的策略模型(1.5B、3B和7B),尚未在更大規(guī)模的模型上驗(yàn)證。此外,他們的方法依賴于過程獎勵模型作為關(guān)鍵評估組件,未來可以考慮融入其他評估方法,如LLM-as-Judge或生成式獎勵模型,以擴(kuò)展實(shí)驗(yàn)的范圍。
這項(xiàng)研究為大型語言模型的推理過程提供了寶貴的見解,強(qiáng)調(diào)了基于過程級、難度感知的自適應(yīng)推理策略在平衡準(zhǔn)確率和效率方面的重要性。它不僅推動了大型語言模型推理技術(shù)的發(fā)展,也為構(gòu)建更加智能、高效的人工智能系統(tǒng)提供了新的思路。
未來,隨著研究的深入,我們可以期待看到更多基于這種思想的創(chuàng)新方法,使大型語言模型能夠更加靈活、高效地解決各種復(fù)雜問題,真正實(shí)現(xiàn)"既聰明又高效"的智能推理。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。