在2025年5月21日發(fā)表于arXiv的論文《When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning》中,來自美團(tuán)的研究團(tuán)隊(duì)包括張曉云、阮靜青(通訊作者)、馬星、朱雅文、趙昊東、李昊、陳建松(通訊作者)、曾科和蔡訓(xùn)良提出了一種名為"自適應(yīng)自恢復(fù)推理"(Adaptive Self-Recovery Reasoning,簡稱ASRR)的框架,用于解決大型推理模型在推理過程中過度思考的問題。
想象一下,你平時解決問題的方式:對于簡單問題(比如"0.9和0.11哪個更大?"),你可能一眼就能得出答案;而對于復(fù)雜問題(比如高等數(shù)學(xué)證明),你可能需要仔細(xì)思考,一步步推導(dǎo)。但如果有人不管問題難易,都要絞盡腦汁從基本原理推導(dǎo),豈不是太浪費(fèi)時間了?
這正是當(dāng)前大型推理模型(LRMs)面臨的問題。這些模型通過強(qiáng)化學(xué)習(xí)訓(xùn)練后,往往會生成不必要的長推理鏈,特別是在處理簡單問題時,造成大量計(jì)算資源的浪費(fèi)。理想情況下,模型應(yīng)該能夠動態(tài)調(diào)整推理長度,對復(fù)雜問題進(jìn)行詳細(xì)推理,對簡單問題只需簡單或無推理就能給出答案,從而實(shí)現(xiàn)效率最大化。
美團(tuán)研究團(tuán)隊(duì)通過系統(tǒng)分析,發(fā)現(xiàn)了LRMs具有一種"內(nèi)部自恢復(fù)機(jī)制",即模型在被抑制明確推理時,有時會在生成答案的過程中隱式地補(bǔ)充推理步驟,特別是在處理具有挑戰(zhàn)性的問題時。研究人員將這種現(xiàn)象稱為"繼續(xù)思考"(Continue-Thinking)。
然而,雖然這種自適應(yīng)行為很有前途,但研究分析表明,它有兩個主要限制: 1. 模型在處理更困難的問題時,往往無法充分進(jìn)行繼續(xù)思考行為,導(dǎo)致推理不完整,準(zhǔn)確率降低 2. 模型可能在簡單問題上不必要地調(diào)用繼續(xù)思考,導(dǎo)致過度思考和效率低下
為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了自適應(yīng)自恢復(fù)推理(ASRR)框架,指導(dǎo)LRMs根據(jù)問題難度動態(tài)調(diào)整推理長度。ASRR引入了一種基于準(zhǔn)確率閾值的獎勵機(jī)制:只有當(dāng)組內(nèi)達(dá)到足夠的準(zhǔn)確率時,才應(yīng)用長度懲罰,從而平衡效率和正確性。
讓我們通過一個簡單的比喻來理解ASRR框架的工作方式:想象一個學(xué)生在做不同難度的題目。對于簡單題,他可以直接寫出答案;對于難題,他需要詳細(xì)思考和推導(dǎo)。ASRR就像是一個聰明的教練,它教會模型判斷題目難度,簡單題直接答,難題詳細(xì)思考,從而節(jié)省整體解題時間,同時保證答題質(zhì)量。
在各種模型和基準(zhǔn)測試的實(shí)驗(yàn)中,ASRR顯著減少了推理長度,同時保持了高性能。此外,ASRR增強(qiáng)了"繼續(xù)思考"頻率與問題難度之間的相關(guān)性,反映了模型難度感知和預(yù)算分配能力的提升。
接下來,我們將深入了解這項(xiàng)研究的具體方法、實(shí)驗(yàn)設(shè)計(jì)和重要發(fā)現(xiàn)。無論你是AI領(lǐng)域的愛好者還是對高效推理感興趣的普通讀者,這項(xiàng)研究都提供了對大型語言模型思考過程的有趣見解。
一、研究背景和動機(jī)
想象你有一個非常聰明的朋友,他解決任何問題都要從宇宙大爆炸開始推導(dǎo),即使是"1+1=?"這樣的簡單問題。雖然他總能得出正確答案,但這種過度思考的習(xí)慣會浪費(fèi)大量時間和精力。這正是當(dāng)前大型推理模型(LRMs)面臨的問題。
近年來,像OpenAI-o1和DeepSeek-R1這樣的大型推理模型在復(fù)雜推理任務(wù)上取得了顯著進(jìn)步。它們通過生成長推理鏈來解決問題,效果確實(shí)很好。但問題在于,這些模型被強(qiáng)化學(xué)習(xí)訓(xùn)練后,往往會不管問題難易,都生成不必要的長推理鏈。先前的研究已經(jīng)指出了這種"過度思考"現(xiàn)象,即使對于"0.9和0.11哪個更大?"這樣的簡單問題,模型也會進(jìn)行冗長的推理。
理想情況下,推理模型應(yīng)該像人類一樣,能夠根據(jù)問題難度動態(tài)調(diào)整思考深度:復(fù)雜問題詳細(xì)分析,簡單問題快速解答。最近的研究探索了LRMs在"無思考模式"(No-Thinking)下的表現(xiàn),這種模式下模型不生成明確的推理鏈,直接給出答案。這些研究表明,在無思考模式下,LRMs仍然能夠達(dá)到高準(zhǔn)確率,尤其是當(dāng)并行樣本數(shù)量增加時。
美團(tuán)研究團(tuán)隊(duì)的實(shí)證分析揭示了一個有趣的現(xiàn)象:這部分是因?yàn)槟P陀袝r會在生成答案的過程中隱式地補(bǔ)充推理步驟,特別是對于具有挑戰(zhàn)性的問題。研究團(tuán)隊(duì)將這種現(xiàn)象稱為"繼續(xù)思考"(Continue-Thinking)。
如圖1所示,當(dāng)模型進(jìn)行繼續(xù)思考時,它能夠成功解答一個具有挑戰(zhàn)性的問題;而在模型未能繼續(xù)思考的情況下,它無法給出正確答案。研究團(tuán)隊(duì)將這種繼續(xù)思考現(xiàn)象稱為"內(nèi)部自恢復(fù)機(jī)制",這表明模型具有初步的難度感知能力和推理預(yù)算分配能力。
然而,雖然這種自適應(yīng)行為很有前途,但研究分析表明它有兩個主要限制:
首先,模型往往無法在更困難的問題上充分進(jìn)行繼續(xù)思考行為,導(dǎo)致推理不完整,準(zhǔn)確率降低;其次,模型可能在簡單問題上不必要地調(diào)用繼續(xù)思考,導(dǎo)致過度思考和效率低下。這些問題突顯了對更準(zhǔn)確的難度感知和更合理的推理資源分配的需求。
為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了自適應(yīng)自恢復(fù)推理(ASRR)框架,引導(dǎo)LRMs根據(jù)問題難度動態(tài)調(diào)整推理長度。ASRR引入了一種基于準(zhǔn)確率閾值的獎勵機(jī)制:只有當(dāng)組內(nèi)達(dá)到足夠的準(zhǔn)確率時,才應(yīng)用長度懲罰,平衡效率和正確性。
二、方法論:自適應(yīng)自恢復(fù)推理框架
研究團(tuán)隊(duì)首先進(jìn)行了系統(tǒng)分析,揭示了LRMs具有潛在能力,可以在答案生成過程中補(bǔ)充缺失的推理步驟,這一現(xiàn)象被稱為"內(nèi)部自恢復(fù)機(jī)制"?;谶@一觀察,他們提出了自適應(yīng)自恢復(fù)推理(ASRR)框架。
### 觀察與動機(jī)
研究團(tuán)隊(duì)分析了LRMs的"內(nèi)部自恢復(fù)機(jī)制",并探索了無思考前綴對模型性能的影響。他們在四個基準(zhǔn)測試上進(jìn)行了探索性實(shí)驗(yàn)和定量分析:AIME 2024、OlympiadBench、AMC 2023和MATH500。
他們評估了模型在兩種設(shè)置下的表現(xiàn):(1)長思考模式,包括完整推理過程和答案總結(jié)的響應(yīng);(2)無思考模式,在提示中附加非推理前綴(如"好的,我想我已經(jīng)完成思考")以阻止顯式推理。對于這兩種設(shè)置,他們進(jìn)行了256次并行前向傳播,并計(jì)算pass@256指標(biāo)。
令人驚訝的是,長思考和無思考模式在四個基準(zhǔn)測試中實(shí)現(xiàn)了幾乎相同的性能,平均pass@256分別為86.4%和84.98%。進(jìn)一步分析表明,這主要是由于在無思考模式下出現(xiàn)了繼續(xù)思考行為。
為了更好地理解這一效果,研究團(tuán)隊(duì)排除了表現(xiàn)出繼續(xù)思考行為的樣本,觀察到無思考模式的pass@256分?jǐn)?shù)顯著下降,平均從84.98%降至74.98%。最大降幅出現(xiàn)在AIME 2024上,從73.33%降至46.66%。此外,他們觀察到繼續(xù)思考行為的頻率與基準(zhǔn)測試的難度之間存在強(qiáng)烈的正相關(guān)性:在最困難的AIME 2024上,繼續(xù)思考比率為42.6%;在OlympiadBench上為19.7%;在AMC 2023上為22.2%;在最簡單的MATH500上僅為9.4%。
這些結(jié)果表明,模型固有地具有初步的難度感知和答案驗(yàn)證能力,繼續(xù)思考行為構(gòu)成了LRMs的"內(nèi)部自恢復(fù)機(jī)制"。
然而,LRMs當(dāng)前的難度感知和預(yù)算分配能力仍存在明顯局限性。研究團(tuán)隊(duì)分析了不同推理模式下的pass@1指標(biāo)。pass@256和pass@1的比較揭示了一個關(guān)鍵限制:雖然無思考模式在困難問題上的pass@256與長思考模式相近(例如,在AIME 2024上僅下降3.4%),但其pass@1性能下降更為顯著(下降16.9%)。這表明模型在單次通過設(shè)置中難以為困難問題持續(xù)補(bǔ)充推理。同時,在較簡單的基準(zhǔn)上,模型仍然生成不必要的冗長輸出,反映了持續(xù)的過度思考。
這些結(jié)果強(qiáng)調(diào)了需要機(jī)制使LRMs能夠根據(jù)問題難度動態(tài)調(diào)整推理深度,同時不犧牲整體性能。
### 自適應(yīng)自恢復(fù)推理框架
為了解決上述問題,研究團(tuán)隊(duì)提出了自適應(yīng)自恢復(fù)推理(ASRR)框架,這是一種動態(tài)推理優(yōu)化框架,利用LRMs的"內(nèi)部自恢復(fù)機(jī)制"。ASRR的核心目標(biāo)是在難度感知和推理預(yù)算分配之間取得平衡,通過顯式抑制不必要的推理,同時在需要時允許隱式恢復(fù)。
ASRR包括兩個主要組件:
第一個組件是在無思考模式下的顯式推理抑制和隱式自恢復(fù)。這個模塊使用特殊的輸出前綴激活簡化的推理模式,鼓勵模型跳過簡單問題的冗余推理步驟,但允許在更具挑戰(zhàn)性的情況下進(jìn)行隱式恢復(fù)。
第二個組件是動態(tài)長度懲罰(DLP)。這個模塊基于準(zhǔn)確率閾值應(yīng)用動態(tài)長度懲罰,僅當(dāng)模型在組級別達(dá)到足夠準(zhǔn)確率時,才自適應(yīng)地懲罰過度推理。
這個框架旨在增強(qiáng)LRMs在不同復(fù)雜性任務(wù)中的效率和準(zhǔn)確性。
#### 無思考模式下的顯式推理抑制和隱式自恢復(fù)
受模型繼續(xù)思考行為的觀察啟發(fā),研究團(tuán)隊(duì)發(fā)現(xiàn)LRMs即使在顯式推理被抑制時也能內(nèi)部恢復(fù)推理步驟。為了利用這一能力,他們引入了一種在無思考模式下的訓(xùn)練策略,通過在輸入提示中附加特殊前綴顯式抑制推理,同時仍然啟用隱式自恢復(fù)。
形式上,給定一個預(yù)訓(xùn)練的推理語言模型LLMθ和一個數(shù)據(jù)集D = {(xi, yi)},其中每個實(shí)例由輸入提示xi和最終答案yi(不包含中間推理痕跡)組成。對于每個輸入xi,他們通過無思考前綴注入構(gòu)建增強(qiáng)提示:
xi = xi ⊕ pterm, pterm = "好的,我已經(jīng)完成思考。"
其中⊕表示字符串連接,pterm表示無思考前綴。給定增強(qiáng)提示,模型根據(jù)條件概率生成輸出序列:
Pθ(y|xi) = ∏T Pθ(yt|xi, y<t)
通過這種設(shè)計(jì),研究團(tuán)隊(duì)期望無思考模式能夠?qū)崿F(xiàn)高效推理:
對于簡單輸入,前綴pterm旨在使模型偏向于生成直接答案,最小化預(yù)期的推理標(biāo)記數(shù)量;對于更困難的輸入,預(yù)期模型內(nèi)部激活潛在推理路徑,導(dǎo)致更長但必要的答案生成序列。
#### 動態(tài)長度懲罰(DLP):基于準(zhǔn)確率的獎勵調(diào)節(jié)
傳統(tǒng)的長度懲罰在所有情況下強(qiáng)制輸出縮短,但這通常會導(dǎo)致兩個問題:(a)模型為最小化長度而犧牲正確性,導(dǎo)致"短但錯誤"的輸出;(b)懲罰太弱,無法抑制過度思考,導(dǎo)致"準(zhǔn)確但冗長"的推理。
為了解決這一問題,研究團(tuán)隊(duì)設(shè)計(jì)了一種條件懲罰機(jī)制,平衡效率和準(zhǔn)確性。具體來說,他們動態(tài)調(diào)整長度懲罰的時機(jī)和強(qiáng)度:只有當(dāng)模型達(dá)到準(zhǔn)確率閾值τ時才激活懲罰,且其強(qiáng)度隨性能提高而逐漸增加。
研究團(tuán)隊(duì)將訓(xùn)練數(shù)據(jù)分成組G,并計(jì)算平均組準(zhǔn)確率AccG。只有當(dāng)AccG ≥ τ時,才激活長度懲罰,其中τ是預(yù)定義的閾值。
對于每個組,計(jì)算每個樣本i的超長比率Oi:
Oi = clip((Li - Lcorrect_shortest) / Lwindow, 0, 1)
其中Lcorrect_shortest是組內(nèi)正確回答樣本中的最小生成長度,Lwindow是常數(shù)長度懲罰窗口。然后,每個樣本的總體獎勵為:
Ri = I(yi = yi) - α · Oi
其中I(·)是答案正確性的指示函數(shù),α是懲罰強(qiáng)度系數(shù)。
懲罰系數(shù)α根據(jù)組準(zhǔn)確率動態(tài)調(diào)整:
α = { 0 如果 AccG < τ β·(AccG-τ+ε)/(1-τ+ε) 否則 }
其中β是設(shè)置懲罰上限的縮放因子,ε是確保數(shù)值穩(wěn)定性的小常數(shù)。
當(dāng)準(zhǔn)確率AccG低于閾值τ時,長度懲罰被禁用(α = 0),允許模型僅專注于最大化正確性,而不會因過早的長度優(yōu)化而承擔(dān)風(fēng)險。當(dāng)準(zhǔn)確率達(dá)到或超過閾值(AccG ≥ τ)時,長度懲罰逐漸引入,鼓勵模型減少冗余推理,同時仍然保持正確性。這種動態(tài)平衡機(jī)制允許模型首先掌握答案正確性,然后逐漸優(yōu)化效率,最終實(shí)現(xiàn)"簡短且準(zhǔn)確"的推理過程。
三、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn),以評估ASRR框架在不同模型和基準(zhǔn)測試上的有效性。實(shí)驗(yàn)結(jié)果表明,ASRR能夠在最小的性能犧牲下顯著減少推理長度,同時提高模型對問題難度的感知能力和推理資源的分配效率。
### 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)在兩個模型上進(jìn)行:DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B。這些模型在各種任務(wù)上展示了強(qiáng)大的能力,表明ASRR的通用性。
研究團(tuán)隊(duì)在五個基準(zhǔn)測試上進(jìn)行了全面實(shí)驗(yàn),包括主要結(jié)果和多維驗(yàn)證研究:MATH500、AIME2024、AMC2023、Olympiad Bench和GSM8K。此外,他們還在BeaverTails和HarmfulQA基準(zhǔn)測試上評估了模型對安全相關(guān)查詢的自適應(yīng)響應(yīng)能力。
基線包括:(1)原始模型,(2)使用GRPO增強(qiáng)的原始模型,(3)同時使用GRPO和無思考前綴的原始模型。由于ASRR能夠靈活調(diào)整準(zhǔn)確率閾值以平衡效率和性能,研究團(tuán)隊(duì)還將其與幾種代表性的長度減少技術(shù)進(jìn)行了比較,包括直接偏好優(yōu)化(DPO)、S1和基于長度約束的強(qiáng)化學(xué)習(xí)方法(L1、ThinkPrune和Kimi k1.5)。
### 在最小性能犧牲下實(shí)現(xiàn)預(yù)算控制
表1展示了ASRR框架在DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B上的主要結(jié)果。研究團(tuán)隊(duì)比較了四種設(shè)置:原始模型、GRPO長鏈推理、無思考提示(零樣本)和提出的ASRR。
結(jié)果顯示,GRPO顯著提高了模型的推理準(zhǔn)確率,但仍然產(chǎn)生長生成鏈。無思考提示大幅減少了輸出長度,但以犧牲大量準(zhǔn)確率為代價,特別是在具有挑戰(zhàn)性的基準(zhǔn)測試(如AIME和Olympiad Bench)上。相比之下,ASRR框架在保持高性能的同時實(shí)現(xiàn)了生成長度的顯著減少。
具體來說,在1.5B模型上,與GRPO相比,平均生成長度減少了32.5%,而pass@1準(zhǔn)確率僅下降了1.2個百分點(diǎn)。對于7B模型,生成長度減少了25.7%,而性能下降僅為0.6個百分點(diǎn)。
這些結(jié)果表明,ASRR能夠通過利用LRMs的"內(nèi)部自恢復(fù)機(jī)制"實(shí)現(xiàn)高效的預(yù)算分配:它抑制了簡單問題上的不必要推理,同時在更困難的實(shí)例上靈活觸發(fā)額外的推理步驟,以保持高準(zhǔn)確率。這驗(yàn)證了自適應(yīng)框架在平衡推理效率和性能方面的有效性,展示了其在實(shí)際應(yīng)用中的強(qiáng)大泛化能力和實(shí)用價值。
### 性能與效率之間的權(quán)衡
圖5展示了各種長度控制LRMs在推理時間思考長度和性能(pass@1準(zhǔn)確率)之間的權(quán)衡,研究團(tuán)隊(duì)在不同準(zhǔn)確率閾值(0%、25%、50%、75%、100%)下評估了DeepSeek-R1-Distill-Qwen-1.5B上的ASRR方法。圖上的每個點(diǎn)代表這些準(zhǔn)確率設(shè)置下ASRR方法在基準(zhǔn)測試上的推理結(jié)果。
研究團(tuán)隊(duì)將他們的方法與其他預(yù)算控制算法在AMC和AIME數(shù)據(jù)集上進(jìn)行了比較。ASRR在受限思考令牌預(yù)算內(nèi)顯著提高了性能。例如,在100%準(zhǔn)確率閾值下,相比其他預(yù)算約束方法,ASRR方法實(shí)現(xiàn)了更高的準(zhǔn)確率水平。這表明ASRR使模型能夠更高效地進(jìn)行推理,最大化有限令牌預(yù)算的有效性。
總之,ASRR不僅提高了準(zhǔn)確率,還通過根據(jù)任務(wù)需求智能分配令牌資源,優(yōu)化了計(jì)算效率,從而在性能和效率之間取得了平衡。
### 難度感知能力
圖6展示了ASRR方法在不同難度的數(shù)學(xué)推理任務(wù)上的動態(tài)思考能力。通過提出的"內(nèi)部自恢復(fù)機(jī)制",模型能夠根據(jù)感知到的問題復(fù)雜度自主調(diào)整思考鏈:
在最具挑戰(zhàn)性的AIME任務(wù)上,繼續(xù)思考比率達(dá)到了80.6%(1.5B)和81.5%(7B),相應(yīng)地在pass@1準(zhǔn)確率上獲得了75%(1.5B:從24.8%提升到43.3%)和110%(7B:從27.7%提升到58.1%)的相對改進(jìn),相比無思考模式。這證實(shí)了對復(fù)雜問題進(jìn)行延長思考鏈顯著增強(qiáng)了推理能力。
在基礎(chǔ)的GSM8K問題上,模型以85.4%(1.5B)和91.0%(7B)的高pass@1準(zhǔn)確率和最小的繼續(xù)思考比率(分別為2.6%和0.3%)保持高性能,表明有效的計(jì)算成本意識,不犧牲性能。
這些結(jié)果表明,ASRR方法使模型能夠自適應(yīng)地分配計(jì)算資源,集中資源在更困難的問題上,同時在簡單任務(wù)上保持高效。
### 安全對齊的改進(jìn)
最近的研究表明,LRMs在被提示進(jìn)行不必要或無關(guān)的推理鏈時,容易生成不安全或有害的輸出。研究團(tuán)隊(duì)提出的方法有選擇地使模型只在必要時進(jìn)行推理,同時避免在直接或潛在不安全的查詢上進(jìn)行擴(kuò)展推理。這種有針對性的推理機(jī)制顯著增強(qiáng)了LRMs的安全對齊。
如表2所示,在BeaverTails和HarmfulQA基準(zhǔn)測試上,ASRR方法在不同模型規(guī)模上實(shí)現(xiàn)了無害率的顯著提升。具體來說,對于DeepSeek-R1-Distill-Qwen-1.5B,ASRR方法將BeaverTails上的無害率從70.1%(GRPO)提高到83.2%,將HarmfulQA上的無害率從61.7%提高到83.4%,分別增加了+13.1%和+21.7%。同樣,對于7B模型,ASRR方法將BeaverTails上的無害率從86.8%提高到91.8%,將HarmfulQA上的無害率從90.4%提高到96.8%,相應(yīng)的改進(jìn)為+5.0%和+6.4%。
這些結(jié)果表明,ASRR的選擇性推理策略不僅保持或增強(qiáng)了任務(wù)性能,還是提高安全對齊的有效手段。通過減少不必要的推理,ASRR方法使LRMs在實(shí)際應(yīng)用中更加健壯和可信,有效降低了與過度思考或?qū)剐蕴崾鞠嚓P(guān)的潛在安全風(fēng)險。
四、研究結(jié)論與未來方向
美團(tuán)研究團(tuán)隊(duì)在這項(xiàng)工作中解決了大型推理模型(LRMs)中性能和效率之間的權(quán)衡問題。通過分析模型在長思考和無思考模式下的行為,他們發(fā)現(xiàn)了"內(nèi)部自恢復(fù)機(jī)制",并據(jù)此提出了自適應(yīng)自恢復(fù)推理(ASRR)框架。
ASRR框架通過抑制不必要的推理并啟用隱式恢復(fù),平衡了難度感知和推理預(yù)算分配。通過引入基于準(zhǔn)確率的長度獎勵調(diào)節(jié),ASRR根據(jù)問題難度自適應(yīng)地分配推理努力,以最小的性能犧牲實(shí)現(xiàn)高效率。
在多個基準(zhǔn)測試和模型上的實(shí)驗(yàn)表明,與GRPO相比,ASRR減少了推理預(yù)算(1.5B模型最高減少32.5%,7B模型減少25.7%),同時保持最小的準(zhǔn)確率損失(pass@1分別減少1.2%和0.6%),并顯著提高了安全基準(zhǔn)測試上的無害率(最高提升+21.7%)。
這些結(jié)果突顯了ASRR在實(shí)現(xiàn)高效、自適應(yīng)和更安全的LRMs推理方面的潛力。通過使模型能夠"知道何時該繼續(xù)思考",ASRR為構(gòu)建更加實(shí)用和可靠的推理系統(tǒng)鋪平了道路。
研究團(tuán)隊(duì)也提到了一些局限性,包括準(zhǔn)確率閾值調(diào)整(不同數(shù)據(jù)集或任務(wù)的最佳閾值可能不同,需要額外調(diào)整)、模型規(guī)模和架構(gòu)的有限評估(主要集中在DeepSeek-R1-Distill-Qwen模型上)以及人類評估的缺乏(目前主要依賴自動評估指標(biāo))。
未來的研究方向可能包括開發(fā)自適應(yīng)閾值調(diào)整策略,在更廣泛的模型架構(gòu)和規(guī)模上進(jìn)行系統(tǒng)評估,以及結(jié)合人類評估以獲得更深入的見解??傮w而言,這項(xiàng)研究為大型推理模型的高效設(shè)計(jì)提供了重要啟示,特別是在如何根據(jù)任務(wù)難度動態(tài)分配計(jì)算資源方面。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。