在人工智能快速發(fā)展的今天,大型語(yǔ)言模型(LLMs)的推理能力已經(jīng)取得了令人矚目的進(jìn)步。2025年6月,來(lái)自中國(guó)科學(xué)院人工智能學(xué)院、中國(guó)科學(xué)院自動(dòng)化研究所、美國(guó)加州大學(xué)洛杉磯分校(UCLA)、清華大學(xué)、微軟公司以及香港科技大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一篇題為《TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression》(太長(zhǎng)不讀:為高效大語(yǔ)言模型推理壓縮進(jìn)行重新權(quán)重分配)的研究論文。這項(xiàng)研究提出了一種動(dòng)態(tài)調(diào)整模型推理過(guò)程的方法,能夠大幅減少模型輸出的文本長(zhǎng)度,同時(shí)保持推理準(zhǔn)確性。有興趣深入了解的讀者可以通過(guò)論文存儲(chǔ)庫(kù)網(wǎng)址:https://github.com/zzli2022/TLDR 獲取更多信息。
一、為什么我們需要壓縮AI的"思考"過(guò)程?
想象一下,如果你請(qǐng)一位朋友幫你解一道簡(jiǎn)單的數(shù)學(xué)題,比如"2+3等于多少",你可能希望他直接告訴你"5",而不是聽(tīng)他絮絮叨叨地分析:"嗯,我們有2,然后加上3,讓我思考一下,2是1加1,3是2加1,所以2加3應(yīng)該是1加1再加2加1,也就是1加1加2加1,等于5。不對(duì),讓我再檢查一下..."
目前的推理型大語(yǔ)言模型就像這位過(guò)分謹(jǐn)慎的朋友。近年來(lái),研究人員開(kāi)發(fā)了具有強(qiáng)大推理能力的大語(yǔ)言模型,這些模型從簡(jiǎn)單的"系統(tǒng)1"思考模式(如GPT-4o、LLaMA-3等模型采用的快速直覺(jué)處理)發(fā)展到了"系統(tǒng)2"思考范式(如DeepSeek-R1等模型通過(guò)反復(fù)自我評(píng)估、錯(cuò)誤糾正和驗(yàn)證進(jìn)行深思熟慮的分析)。
雖然系統(tǒng)2模式的模型在復(fù)雜問(wèn)題上表現(xiàn)出色,但它們往往會(huì)在簡(jiǎn)單問(wèn)題上也進(jìn)行過(guò)度思考,導(dǎo)致不必要的探索和計(jì)劃,最終降低效率和實(shí)用性。就像一個(gè)優(yōu)秀的數(shù)學(xué)家解決"2+3"時(shí)也要寫(xiě)滿一整頁(yè)紙的推導(dǎo)過(guò)程,這顯然是資源的浪費(fèi)。
二、現(xiàn)有方法的局限性
目前已有多種方法試圖解決大模型的思考冗余問(wèn)題。無(wú)需訓(xùn)練的方法(如CoD、TALE-EP等)通過(guò)提示詞或基于置信度的技術(shù)來(lái)控制模型在推理過(guò)程中的內(nèi)部狀態(tài)。另一種思路是通過(guò)模型合并來(lái)干預(yù)推理模型的參數(shù),以產(chǎn)生相對(duì)簡(jiǎn)潔的解決方案?;谟?xùn)練的方法(如TOPS、CoT-Valve等)則主要通過(guò)強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào),使模型學(xué)會(huì)生成更簡(jiǎn)潔但仍然正確的推理路徑。
這些方法通常需要精心收集問(wèn)題并精確控制不同長(zhǎng)度數(shù)據(jù)的比例才能取得良好效果,導(dǎo)致參數(shù)調(diào)整和數(shù)據(jù)構(gòu)建過(guò)程復(fù)雜。例如,TOPS需要手動(dòng)標(biāo)記監(jiān)督微調(diào)數(shù)據(jù)以構(gòu)建長(zhǎng)度敏感的模型,而CoT-Valve則通過(guò)模型插值創(chuàng)建中間模型進(jìn)行采樣生成數(shù)據(jù)。這些構(gòu)建過(guò)程往往繁瑣、計(jì)算成本高或難以控制質(zhì)量。
三、揭秘短/長(zhǎng)推理鏈在大模型思考?jí)嚎s中的作用
研究團(tuán)隊(duì)首先探究了混合短推理鏈(Short CoT)和長(zhǎng)推理鏈(Long CoT)數(shù)據(jù)對(duì)壓縮推理過(guò)程的影響。他們發(fā)現(xiàn):
系統(tǒng)1數(shù)據(jù)(簡(jiǎn)單問(wèn)題上的短推理鏈)能夠減少所有難度級(jí)別問(wèn)題上的推理冗余。研究團(tuán)隊(duì)驚喜地發(fā)現(xiàn),這種長(zhǎng)度壓縮效果很好地泛化到了不同難度的問(wèn)題上。簡(jiǎn)單來(lái)說(shuō),就像學(xué)會(huì)用簡(jiǎn)潔方式解決簡(jiǎn)單問(wèn)題的經(jīng)驗(yàn),也能幫助我們?cè)诮鉀Q復(fù)雜問(wèn)題時(shí)減少不必要的步驟。
系統(tǒng)2數(shù)據(jù)(僅在難題上的長(zhǎng)推理鏈)有助于維持性能水平。研究表明,在混合數(shù)據(jù)中加入少量針對(duì)挑戰(zhàn)性問(wèn)題的長(zhǎng)推理鏈,可以減輕短推理鏈帶來(lái)的準(zhǔn)確度下降問(wèn)題。而在簡(jiǎn)單問(wèn)題上使用長(zhǎng)推理鏈則幫助不大。這就像在解決復(fù)雜謎題時(shí),我們確實(shí)需要一些詳細(xì)的思考步驟,但對(duì)于簡(jiǎn)單問(wèn)題,過(guò)度思考反而是浪費(fèi)。
這些發(fā)現(xiàn)引出了一個(gè)關(guān)鍵問(wèn)題:我們能否找到一個(gè)最佳的長(zhǎng)-短數(shù)據(jù)混合比例,在最大化推理效率的同時(shí)保持準(zhǔn)確性?
四、動(dòng)態(tài)思考長(zhǎng)度再權(quán)重方法(TLDR)
基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)直觀的方法:當(dāng)模型思考太長(zhǎng)時(shí),應(yīng)該重新加權(quán)更多直覺(jué)性推理路徑來(lái)簡(jiǎn)化思考過(guò)程;相反,當(dāng)思考太直接時(shí),應(yīng)該加入更多慢思考推理鏈來(lái)鼓勵(lì)更深入的思考。
他們將這一思想具體化為"思考長(zhǎng)度數(shù)據(jù)再權(quán)重"(Thinking Length Data Re-Weighting,TLDR)方法。這種方法通過(guò)系統(tǒng)1和系統(tǒng)2數(shù)據(jù)的動(dòng)態(tài)平衡,使模型能夠消除冗余的認(rèn)知過(guò)程。
具體實(shí)施步驟如下:
首先,研究者構(gòu)建了針對(duì)簡(jiǎn)單問(wèn)題的短推理鏈數(shù)據(jù)和針對(duì)復(fù)雜問(wèn)題的長(zhǎng)推理鏈數(shù)據(jù)。模型以初始比例開(kāi)始,使用混合數(shù)據(jù)進(jìn)行推理壓縮。完成一個(gè)壓縮周期后,模型會(huì)重新評(píng)估系統(tǒng)1和系統(tǒng)2數(shù)據(jù)的預(yù)期收益,以實(shí)現(xiàn)更好的性能。
與直覺(jué)相符,系統(tǒng)1數(shù)據(jù)(短推理鏈)可以提高效率,所以研究者使用效率指標(biāo)來(lái)衡量系統(tǒng)1數(shù)據(jù)的預(yù)期收益。而系統(tǒng)2數(shù)據(jù)(長(zhǎng)推理鏈)可以提高推理準(zhǔn)確性,因此用準(zhǔn)確性指標(biāo)來(lái)衡量系統(tǒng)2數(shù)據(jù)在推理能力方面的收益。
與需要不同推理長(zhǎng)度的精心設(shè)計(jì)的微調(diào)數(shù)據(jù)的其他方法相比,TLDR方法只需利用原始模型采樣的長(zhǎng)推理鏈和構(gòu)建的短推理鏈數(shù)據(jù),通過(guò)動(dòng)態(tài)學(xué)習(xí)比例實(shí)現(xiàn)高效推理。在DeepSeek-Distill-7B/14B模型上的實(shí)驗(yàn)表明,該模型在7B/14B模型上都取得了出色的壓縮結(jié)果,推理能力只有輕微下降。
五、TLDR的技術(shù)實(shí)現(xiàn)細(xì)節(jié)
為了形式化思考?jí)嚎s問(wèn)題,研究團(tuán)隊(duì)將其定義為一個(gè)優(yōu)化任務(wù),目標(biāo)是確定系統(tǒng)1和系統(tǒng)2推理之間的最佳比例。他們期望通過(guò)混合數(shù)據(jù)訓(xùn)練的模型能夠在特定評(píng)估指標(biāo)上接近系統(tǒng)1和系統(tǒng)2的性能上限。
模型優(yōu)化目標(biāo)為:最小化模型與系統(tǒng)1效率上限之間的差距,以及與系統(tǒng)2推理能力上限之間的差距,同時(shí)優(yōu)化模型參數(shù)以最大化推理性能和效率。
對(duì)于系統(tǒng)1/2混合數(shù)據(jù)的設(shè)置,研究團(tuán)隊(duì)利用短推理鏈模型來(lái)調(diào)制系統(tǒng)1模型的數(shù)據(jù),使用長(zhǎng)推理鏈模型從S1采樣難題提示,并只保留正確的回答。最終,他們獲得了<簡(jiǎn)單問(wèn)題,短推理鏈>和<難題,長(zhǎng)推理鏈>的指令數(shù)據(jù)對(duì)。
在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)不斷調(diào)整系統(tǒng)1和系統(tǒng)2數(shù)據(jù)在后訓(xùn)練階段的比例,確保模型保留原始長(zhǎng)推理鏈模型的推理能力,同時(shí)實(shí)現(xiàn)短推理鏈模型的效率。他們將準(zhǔn)確度上限設(shè)定為與原始長(zhǎng)推理鏈模型的準(zhǔn)確度相匹配,將代幣下限設(shè)定為與構(gòu)建的短推理鏈模型的數(shù)據(jù)下限相對(duì)應(yīng)。
六、實(shí)驗(yàn)結(jié)果與比較
研究團(tuán)隊(duì)在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上對(duì)TLDR方法進(jìn)行了驗(yàn)證,并使用多個(gè)難度不同的基準(zhǔn)測(cè)試集(包括ASDiv、GSM8K、MATH-500、AIME2024和AMC)進(jìn)行了評(píng)估。
實(shí)驗(yàn)結(jié)果表明,TLDR方法在保持推理準(zhǔn)確性的同時(shí),顯著減少了輸出令牌的數(shù)量,平均壓縮率接近40%。這意味著模型能夠用更少的"文字"表達(dá)相同的思考過(guò)程和得出正確答案。
與其他基線方法相比:
基于提示的方法(如TALE-EP、ConciseCoT):TLDR在保持類似準(zhǔn)確度的情況下實(shí)現(xiàn)了更高的壓縮率。
基于模型合并的方法(如平均合并、任務(wù)算術(shù)合并等):這些方法在挑戰(zhàn)性問(wèn)題上仍然面臨顯著的性能下降,而TLDR能夠在不同難度的數(shù)據(jù)集上保持準(zhǔn)確性。
基于獎(jiǎng)勵(lì)的方法(如ThinkPruner、Overthink):與CoT-Valve和ThinkPrune相比,TLDR在ASDiv和GSM8K等容易出現(xiàn)過(guò)度探索的數(shù)據(jù)集上實(shí)現(xiàn)了出色的壓縮率。
值得注意的是,CoT-Valve作為一種基于SFT的方法,需要精心設(shè)計(jì)的模型混合和構(gòu)建長(zhǎng)度多樣的數(shù)據(jù)集進(jìn)行動(dòng)態(tài)學(xué)習(xí)。相比之下,TLDR方法只需要直接的數(shù)據(jù)采樣和自適應(yīng)混合比例,以更簡(jiǎn)單的方式實(shí)現(xiàn)自適應(yīng)推理。
七、研究意義與未來(lái)展望
TLDR方法為大語(yǔ)言模型的推理壓縮提供了一種創(chuàng)新的解決方案。通過(guò)動(dòng)態(tài)再權(quán)重系統(tǒng)1(簡(jiǎn)潔推理)和系統(tǒng)2(詳細(xì)推理)數(shù)據(jù)在訓(xùn)練過(guò)程中的影響,TLDR使大語(yǔ)言模型能夠?yàn)楹?jiǎn)單問(wèn)題消除不必要的步驟,同時(shí)仍然能夠?yàn)閺?fù)雜任務(wù)進(jìn)行深入思考。
這種方法避免了其他壓縮方法通常需要的繁瑣數(shù)據(jù)收集和超參數(shù)調(diào)整,為開(kāi)發(fā)既高效又準(zhǔn)確的大語(yǔ)言模型提供了更實(shí)用的解決方案。
未來(lái)研究可能會(huì)探索將TLDR方法應(yīng)用于更廣泛的任務(wù)和模型架構(gòu),進(jìn)一步提高推理效率并減少計(jì)算資源消耗。這不僅可以降低大語(yǔ)言模型的運(yùn)行成本,還可以使它們?cè)谫Y源受限的環(huán)境中更加實(shí)用,如移動(dòng)設(shè)備或邊緣計(jì)算設(shè)備。
總之,TLDR方法代表了一種平衡效率和準(zhǔn)確性的新思路,為大語(yǔ)言模型的發(fā)展提供了有價(jià)值的貢獻(xiàn),使AI系統(tǒng)能夠更加智能地分配其"思考"資源,對(duì)簡(jiǎn)單問(wèn)題快速作出反應(yīng),對(duì)復(fù)雜問(wèn)題進(jìn)行深入思考,就像人類的思維過(guò)程一樣靈活和高效。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。