這項(xiàng)由清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系的文浩明、白宇昱等研究人員完成的研究,發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.25176v1),為大型推理模型的訓(xùn)練帶來(lái)了全新思路。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。
在人工智能飛速發(fā)展的今天,大型語(yǔ)言模型已經(jīng)能夠處理復(fù)雜的數(shù)學(xué)題、編程任務(wù)和邏輯推理。然而,這些模型在"思考"過(guò)程中往往顯得異常啰嗦,就像一個(gè)話癆學(xué)生,明明幾步就能解決的問(wèn)題,卻要絮絮叨叨寫上幾千個(gè)字。這種現(xiàn)象不僅浪費(fèi)計(jì)算資源,還增加了使用成本。更令人困惑的是,當(dāng)研究人員試圖讓這些模型"閉嘴",限制它們的輸出長(zhǎng)度時(shí),模型的準(zhǔn)確率往往會(huì)大幅下降,仿佛話說(shuō)得少了就不會(huì)思考了。
清華大學(xué)的研究團(tuán)隊(duì)想出了一個(gè)巧妙的解決方案,他們稱之為SIRI(Scaling Iterative Reinforcement Learning with Interleaved Compression)。這個(gè)方法的核心思想就像教導(dǎo)一個(gè)學(xué)生學(xué)會(huì)"張弛有度"——有時(shí)候要求學(xué)生簡(jiǎn)明扼要地回答問(wèn)題,鍛煉其精準(zhǔn)表達(dá)能力;有時(shí)候又允許學(xué)生充分發(fā)揮,展開(kāi)詳細(xì)論述。通過(guò)這種"收縮-擴(kuò)張"的交替訓(xùn)練,模型最終學(xué)會(huì)了在保持高準(zhǔn)確率的同時(shí)大幅減少?gòu)U話。
實(shí)驗(yàn)結(jié)果令人驚喜。在數(shù)學(xué)競(jìng)賽題AIME24的測(cè)試中,使用SIRI方法訓(xùn)練的1.5B參數(shù)模型,不僅準(zhǔn)確率提升了43.2%,同時(shí)還將輸出的文字?jǐn)?shù)量減少了46.9%。這就像一個(gè)學(xué)生不僅考試成績(jī)提高了,答題時(shí)間還縮短了一半,真正做到了事半功倍。
一、模型"話癆"問(wèn)題的根源與挑戰(zhàn)
當(dāng)前的大型推理模型在解決問(wèn)題時(shí),就像一個(gè)思維活躍但表達(dá)冗余的學(xué)生。它們會(huì)進(jìn)行大量的"內(nèi)心獨(dú)白"——反復(fù)驗(yàn)證答案、探索不同路徑、甚至重復(fù)已經(jīng)得出的結(jié)論。這種現(xiàn)象被稱為"測(cè)試時(shí)擴(kuò)展",雖然有助于提高準(zhǔn)確率,但也帶來(lái)了嚴(yán)重的效率問(wèn)題。
舉個(gè)簡(jiǎn)單的例子,當(dāng)我們要求模型計(jì)算2+3=?時(shí),一個(gè)正常的模型可能會(huì)直接回答5。但是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的推理模型可能會(huì)這樣回答:"讓我來(lái)計(jì)算2+3。首先,我知道2是一個(gè)正整數(shù),3也是一個(gè)正整數(shù)。加法是一種基本的算術(shù)運(yùn)算。2+3意味著我需要將2和3結(jié)合起來(lái)。我可以從2開(kāi)始,然后加上3。2+1=3,3+1=4,4+1=5。所以2+3=5。讓我驗(yàn)證一下這個(gè)答案:5-3=2,這是正確的。因此,2+3=5。"
這種冗長(zhǎng)的推理過(guò)程在簡(jiǎn)單問(wèn)題上顯得多余,但在復(fù)雜的數(shù)學(xué)證明或編程任務(wù)中,這種詳細(xì)的思考過(guò)程確實(shí)有助于避免錯(cuò)誤。問(wèn)題在于,模型往往無(wú)法自己判斷什么時(shí)候該詳細(xì)思考,什么時(shí)候該簡(jiǎn)潔回答。
之前的研究人員嘗試過(guò)多種方法來(lái)解決這個(gè)問(wèn)題。有些研究采用"長(zhǎng)度懲罰"的方式,在訓(xùn)練時(shí)對(duì)過(guò)長(zhǎng)的回答進(jìn)行懲罰,就像老師告訴學(xué)生"答案要簡(jiǎn)潔"。還有些研究直接設(shè)置輸出長(zhǎng)度上限,強(qiáng)制模型在指定字?jǐn)?shù)內(nèi)完成回答,就像限時(shí)考試一樣。然而,這些方法都面臨一個(gè)共同的困境:模型的準(zhǔn)確率會(huì)顯著下降。看起來(lái),要么接受模型的啰嗦,要么接受其準(zhǔn)確率的降低,似乎沒(méi)有兩全其美的辦法。
這種困境的根本原因在于,傳統(tǒng)的訓(xùn)練方法是"一刀切"的。它們要么始終鼓勵(lì)模型詳細(xì)思考,要么始終要求模型簡(jiǎn)潔回答,缺乏靈活性。就像一個(gè)老師要么總是要求學(xué)生寫詳細(xì)的論文,要么總是要求學(xué)生只寫一句話總結(jié),這樣的教學(xué)方式顯然不夠合理。
二、SIRI方法的核心創(chuàng)新:動(dòng)態(tài)的"張弛有度"
清華研究團(tuán)隊(duì)提出的SIRI方法,最大的創(chuàng)新在于引入了"動(dòng)態(tài)長(zhǎng)度調(diào)度"的概念。這就像一個(gè)智慧的老師,會(huì)根據(jù)學(xué)習(xí)進(jìn)度動(dòng)態(tài)調(diào)整對(duì)學(xué)生的要求。
SIRI方法的訓(xùn)練過(guò)程可以比作培養(yǎng)一個(gè)優(yōu)秀辯手的過(guò)程。在訓(xùn)練的某個(gè)階段,教練會(huì)嚴(yán)格限制辯手的發(fā)言時(shí)間,迫使其學(xué)會(huì)在有限時(shí)間內(nèi)抓住要點(diǎn)、精準(zhǔn)表達(dá)。這個(gè)階段被稱為"壓縮階段"。在另一個(gè)階段,教練會(huì)放寬時(shí)間限制,允許辯手充分展開(kāi)論述、探索各種論證路徑。這個(gè)階段被稱為"擴(kuò)張階段"。
更巧妙的是,SIRI方法將這兩個(gè)階段有機(jī)地交替進(jìn)行。在壓縮階段,模型被迫在較短的輸出長(zhǎng)度內(nèi)完成推理任務(wù),這迫使它學(xué)會(huì)識(shí)別和保留最關(guān)鍵的推理步驟,剔除冗余的思考過(guò)程。在擴(kuò)張階段,模型又獲得了充分的"思考空間",可以基于之前學(xué)到的精簡(jiǎn)推理模式進(jìn)一步探索和優(yōu)化。
這種交替訓(xùn)練的效果是漸進(jìn)式的改善。每經(jīng)過(guò)一輪"壓縮-擴(kuò)張"循環(huán),模型的表現(xiàn)都會(huì)有所提升。就像一個(gè)學(xué)生先學(xué)會(huì)了簡(jiǎn)潔表達(dá),然后在此基礎(chǔ)上學(xué)會(huì)了深度思考,再回過(guò)頭來(lái)進(jìn)一步精煉表達(dá),如此循環(huán)往復(fù),逐步達(dá)到既簡(jiǎn)潔又準(zhǔn)確的理想狀態(tài)。
研究團(tuán)隊(duì)設(shè)計(jì)了三種不同的長(zhǎng)度調(diào)度策略。第一種是"階梯式調(diào)度",就像開(kāi)關(guān)燈一樣,突然從允許長(zhǎng)輸出切換到要求短輸出,再突然切換回來(lái)。第二種是"余弦式調(diào)度",長(zhǎng)度限制的變化是平滑的,就像一天中陽(yáng)光強(qiáng)度的自然變化。第三種是"階梯-余弦混合調(diào)度",結(jié)合了前兩種的優(yōu)點(diǎn),既有平滑的過(guò)渡,又有穩(wěn)定的高低長(zhǎng)度平臺(tái)期。
實(shí)驗(yàn)結(jié)果顯示,640步長(zhǎng)的余弦調(diào)度效果最好。這個(gè)周期長(zhǎng)度確保了模型在壓縮階段有足夠時(shí)間適應(yīng)短輸出要求,在擴(kuò)張階段又有足夠空間探索新的推理模式。就像一個(gè)完整的學(xué)期,既有緊張的期中考試階段,也有相對(duì)寬松的期末復(fù)習(xí)階段。
三、訓(xùn)練過(guò)程的精妙設(shè)計(jì):如何實(shí)現(xiàn)"事半功倍"
SIRI方法的訓(xùn)練過(guò)程設(shè)計(jì)得如同一場(chǎng)精心編排的學(xué)習(xí)馬拉松。整個(gè)過(guò)程分為多個(gè)迭代周期,每個(gè)周期都包含壓縮和擴(kuò)張兩個(gè)階段,就像呼吸一樣自然而有節(jié)奏。
在壓縮階段,模型面臨的挑戰(zhàn)類似于"電報(bào)式寫作"的訓(xùn)練。就像過(guò)去發(fā)電報(bào)要按字收費(fèi),迫使人們用最少的字表達(dá)最多的信息一樣,模型在這個(gè)階段被嚴(yán)格限制輸出長(zhǎng)度。研究團(tuán)隊(duì)將最大輸出長(zhǎng)度從16384個(gè)token(大約相當(dāng)于一萬(wàn)多個(gè)漢字)壓縮到8192個(gè)token(大約五千多個(gè)漢字)。
這種壓縮并不是簡(jiǎn)單的截?cái)?,而是通過(guò)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制來(lái)實(shí)現(xiàn)。模型只有在指定長(zhǎng)度內(nèi)給出正確答案才能獲得獎(jiǎng)勵(lì),如果超出長(zhǎng)度限制,即使答案正確也得不到獎(jiǎng)勵(lì)。這就像一個(gè)嚴(yán)格的考試,不僅要答對(duì),還要在規(guī)定時(shí)間內(nèi)完成,培養(yǎng)了模型的"時(shí)間觀念"和效率意識(shí)。
在擴(kuò)張階段,限制被放寬,模型重新獲得了充足的"思考空間"。但這時(shí)的模型已經(jīng)不是之前那個(gè)啰嗦的模型了,它在壓縮階段學(xué)會(huì)了精準(zhǔn)定位關(guān)鍵信息,因此即使有了更多空間,也能更有效地利用這些空間進(jìn)行深度思考,而不是無(wú)意義的重復(fù)。
研究團(tuán)隊(duì)觀察到一個(gè)有趣的現(xiàn)象:模型的輸出長(zhǎng)度變化總是滯后于調(diào)度器的設(shè)定。當(dāng)調(diào)度器要求模型縮短輸出時(shí),模型并不會(huì)立即響應(yīng),而是需要100-200個(gè)訓(xùn)練步驟才能適應(yīng)新的長(zhǎng)度要求。這就像一個(gè)人改變說(shuō)話習(xí)慣需要時(shí)間一樣,模型也需要時(shí)間來(lái)調(diào)整其內(nèi)在的推理模式。
這種滯后效應(yīng)實(shí)際上是有益的,它給了模型充分的適應(yīng)時(shí)間,避免了因?yàn)橥蝗坏囊笞兓鴮?dǎo)致的性能急劇下降。就像一個(gè)好的健身教練不會(huì)突然大幅增加訓(xùn)練強(qiáng)度,而是循序漸進(jìn)地調(diào)整訓(xùn)練計(jì)劃。
四、實(shí)驗(yàn)驗(yàn)證:數(shù)據(jù)說(shuō)話的說(shuō)服力
研究團(tuán)隊(duì)在多個(gè)權(quán)威數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上驗(yàn)證了SIRI方法的效果,結(jié)果令人印象深刻。他們使用的基礎(chǔ)模型是DeepSeek-R1-Distill-Qwen,分別測(cè)試了1.5B和7B兩個(gè)不同規(guī)模的版本。
在最具挑戰(zhàn)性的AIME24數(shù)學(xué)競(jìng)賽題上,SIRI方法訓(xùn)練的1.5B模型表現(xiàn)驚人。與原始模型相比,SIRI-low版本(經(jīng)過(guò)三次迭代壓縮訓(xùn)練的版本)的準(zhǔn)確率從28.2%提升到40.4%,提升幅度達(dá)到43.2%。更令人驚喜的是,模型的平均輸出長(zhǎng)度從12333個(gè)token降低到7093個(gè)token,減少了42.4%。這就像一個(gè)學(xué)生不僅考試成績(jī)從28分提高到40分,答題時(shí)間還從原來(lái)的2小時(shí)縮短到1.5小時(shí)。
SIRI-high版本(經(jīng)過(guò)擴(kuò)張階段優(yōu)化的版本)的表現(xiàn)更加出色,準(zhǔn)確率達(dá)到43.6%,同時(shí)平均輸出長(zhǎng)度控制在10049個(gè)token。雖然比SIRI-low版本稍長(zhǎng),但仍然比原始模型短了18.5%,而準(zhǔn)確率提升幅度達(dá)到54.6%。
在其他測(cè)試集上,SIRI方法同樣表現(xiàn)優(yōu)異。在AIME25數(shù)據(jù)集上,SIRI-high版本的準(zhǔn)確率達(dá)到32.2%,比原始模型的21.5%提升了近50%。在相對(duì)簡(jiǎn)單的AMC數(shù)學(xué)競(jìng)賽題上,準(zhǔn)確率從61.8%提升到75.9%,在MATH500數(shù)據(jù)集上從82.4%提升到88.4%。
更重要的是,研究團(tuán)隊(duì)引入了一個(gè)新的評(píng)估指標(biāo):準(zhǔn)確率-壓縮比(Accuracy-CR ratio),用來(lái)綜合評(píng)估模型在準(zhǔn)確性和效率方面的整體改進(jìn)。SIRI方法在這個(gè)指標(biāo)上表現(xiàn)最優(yōu),達(dá)到0.47,遠(yuǎn)超其他比較方法。這個(gè)數(shù)字意味著SIRI方法在提升準(zhǔn)確率和減少輸出長(zhǎng)度方面取得了最佳的平衡。
五、深入機(jī)制分析:為什么SIRI如此有效
為了理解SIRI方法成功的內(nèi)在機(jī)制,研究團(tuán)隊(duì)進(jìn)行了深入的行為分析。他們發(fā)現(xiàn),SIRI訓(xùn)練主要影響了模型的"回溯驗(yàn)證"行為,這是一個(gè)關(guān)鍵發(fā)現(xiàn)。
通過(guò)分析模型在不同訓(xùn)練階段使用特定詞匯的頻率,研究團(tuán)隊(duì)發(fā)現(xiàn)了有趣的規(guī)律。代表回溯和驗(yàn)證的詞匯(如"等等"、"再檢查一下")在壓縮階段使用頻率顯著降低,而在擴(kuò)張階段又會(huì)增加。相比之下,代表一般推理的詞匯(如"因此"、"計(jì)算")的使用頻率基本保持穩(wěn)定。
這表明SIRI方法主要優(yōu)化的是模型的"質(zhì)疑和驗(yàn)證"行為,而不是基礎(chǔ)的推理能力。在壓縮階段,模型學(xué)會(huì)了減少不必要的反復(fù)驗(yàn)證和回溯,更加直接地進(jìn)行推理。在擴(kuò)張階段,模型又恢復(fù)了適度的驗(yàn)證行為,但這種驗(yàn)證變得更加有針對(duì)性和高效。
從信息論的角度來(lái)看,研究團(tuán)隊(duì)還分析了模型輸出的熵值變化。他們發(fā)現(xiàn),在壓縮階段,模型的輸出熵值會(huì)下降,表明模型的回答變得更加確定和集中。在擴(kuò)張階段,熵值又會(huì)適度上升,表明模型重新獲得了探索多種可能性的能力。但整個(gè)過(guò)程中,熵值始終保持在一個(gè)穩(wěn)定的范圍內(nèi),沒(méi)有出現(xiàn)崩塌現(xiàn)象,這說(shuō)明模型的多樣性得到了很好的保持。
這種熵值的周期性變化類似于一個(gè)人在思考問(wèn)題時(shí)的心理狀態(tài)變化。當(dāng)面臨嚴(yán)格的時(shí)間限制時(shí),人會(huì)快速收斂到最可能正確的答案;當(dāng)時(shí)間充裕時(shí),人又會(huì)重新考慮各種可能性。SIRI方法成功地在模型中復(fù)現(xiàn)了這種自然的認(rèn)知模式。
六、方法的普適性:不同規(guī)模模型的表現(xiàn)
SIRI方法的另一個(gè)重要優(yōu)勢(shì)是其良好的普適性。研究團(tuán)隊(duì)在不同規(guī)模的模型上都驗(yàn)證了方法的有效性,從1.5B參數(shù)的小型模型到7B參數(shù)的中型模型,SIRI都能帶來(lái)顯著的改進(jìn)。
在7B模型上,SIRI方法的改進(jìn)幅度雖然相對(duì)較?。ㄒ?yàn)榇竽P捅旧淼幕A(chǔ)性能已經(jīng)很好),但仍然非常明顯。原始7B模型在AIME24上的準(zhǔn)確率為53.5%,經(jīng)過(guò)SIRI訓(xùn)練后提升到57.1%,同時(shí)輸出長(zhǎng)度從10306個(gè)token減少到8585個(gè)token。這種改進(jìn)對(duì)于大模型來(lái)說(shuō)已經(jīng)相當(dāng)不錯(cuò),因?yàn)榇竽P偷男阅芴嵘ǔ1刃∧P透永щy。
更重要的是,SIRI方法在不同難度的任務(wù)上都表現(xiàn)穩(wěn)定。在相對(duì)簡(jiǎn)單的AMC和MATH500數(shù)據(jù)集上,方法能夠保持高準(zhǔn)確率的同時(shí)大幅減少輸出長(zhǎng)度。在困難的AIME24和AIME25數(shù)據(jù)集上,方法能夠顯著提升準(zhǔn)確率,同時(shí)實(shí)現(xiàn)適度的長(zhǎng)度壓縮。這種一致性表明SIRI方法捕捉到了推理過(guò)程中的一般性規(guī)律,而不是針對(duì)特定任務(wù)的偶然優(yōu)化。
研究團(tuán)隊(duì)還比較了SIRI方法與其他長(zhǎng)度壓縮方法的效果。傳統(tǒng)的長(zhǎng)度懲罰方法(如DAST)和"思考/不思考"切換方法(如AdaptThink)在某些指標(biāo)上可能表現(xiàn)不錯(cuò),但往往會(huì)在其他指標(biāo)上有所犧牲。只有SIRI方法能夠在準(zhǔn)確率和效率兩個(gè)維度上都取得顯著改進(jìn),真正實(shí)現(xiàn)了"魚與熊掌兼得"。
七、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)挑戰(zhàn)
SIRI方法雖然概念簡(jiǎn)單,但在實(shí)際實(shí)現(xiàn)中涉及許多技術(shù)細(xì)節(jié)。研究團(tuán)隊(duì)采用了改進(jìn)的強(qiáng)化學(xué)習(xí)算法GRPO(Group Relative Policy Optimization),這是一種比傳統(tǒng)PPO算法更適合大型語(yǔ)言模型訓(xùn)練的方法。
在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)上,研究團(tuán)隊(duì)采用了"長(zhǎng)度截?cái)嗒?jiǎng)勵(lì)"機(jī)制。具體來(lái)說(shuō),只有當(dāng)模型在指定長(zhǎng)度內(nèi)給出正確答案時(shí)才能獲得獎(jiǎng)勵(lì)。如果模型的輸出超過(guò)了長(zhǎng)度限制,即使最終答案正確,也會(huì)被截?cái)嗖⒈灰暈殄e(cuò)誤答案。這種嚴(yán)格的獎(jiǎng)勵(lì)機(jī)制迫使模型學(xué)會(huì)在有限空間內(nèi)完成推理。
長(zhǎng)度調(diào)度器的設(shè)計(jì)也經(jīng)過(guò)了精心優(yōu)化。研究團(tuán)隊(duì)發(fā)現(xiàn),調(diào)度周期的長(zhǎng)度對(duì)訓(xùn)練效果有重要影響。太短的周期(如320步)會(huì)導(dǎo)致模型在壓縮階段性能急劇下降,來(lái)不及恢復(fù)就又進(jìn)入下一輪壓縮。太長(zhǎng)的周期雖然避免了性能下降,但訓(xùn)練效率較低。640步的周期長(zhǎng)度經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證是最優(yōu)的選擇。
在實(shí)際訓(xùn)練中,研究團(tuán)隊(duì)使用了分布式訓(xùn)練系統(tǒng),1.5B模型使用8塊H100 GPU,7B模型使用16塊H100 GPU。整個(gè)訓(xùn)練過(guò)程需要大約2000個(gè)訓(xùn)練步驟,相當(dāng)于3-4天的連續(xù)訓(xùn)練時(shí)間。這種訓(xùn)練成本相比傳統(tǒng)方法并沒(méi)有顯著增加,但效果提升明顯。
八、實(shí)際應(yīng)用價(jià)值與影響
SIRI方法的成功不僅僅是學(xué)術(shù)研究的突破,更有著重要的實(shí)際應(yīng)用價(jià)值。在當(dāng)前AI服務(wù)商業(yè)化的背景下,計(jì)算成本是一個(gè)關(guān)鍵考量因素。API調(diào)用通常按照輸入和輸出的token數(shù)量收費(fèi),SIRI方法能夠在提升準(zhǔn)確率的同時(shí)減少輸出長(zhǎng)度,這直接意味著使用成本的降低。
對(duì)于企業(yè)用戶來(lái)說(shuō),SIRI訓(xùn)練的模型能夠提供更高質(zhì)量的服務(wù)。在數(shù)學(xué)教育、代碼生成、邏輯推理等需要精確答案的場(chǎng)景中,更高的準(zhǔn)確率意味著更少的錯(cuò)誤和返工。同時(shí),更簡(jiǎn)潔的輸出也提升了用戶體驗(yàn),減少了閱讀和理解的負(fù)擔(dān)。
從環(huán)境保護(hù)的角度來(lái)看,SIRI方法也具有積極意義。AI模型的能耗主要來(lái)自于計(jì)算量,而輸出長(zhǎng)度的減少直接對(duì)應(yīng)于計(jì)算量的降低。大規(guī)模部署SIRI訓(xùn)練的模型,可以顯著減少數(shù)據(jù)中心的能耗,這對(duì)于實(shí)現(xiàn)綠色AI具有重要意義。
對(duì)于AI研究社區(qū)來(lái)說(shuō),SIRI方法提供了一個(gè)新的研究范式。它表明,通過(guò)巧妙的訓(xùn)練策略設(shè)計(jì),可以同時(shí)優(yōu)化多個(gè)看似沖突的目標(biāo)。這種思路可能被推廣到其他AI任務(wù)中,如圖像生成、語(yǔ)音合成等,為整個(gè)AI領(lǐng)域的發(fā)展提供新的啟發(fā)。
研究團(tuán)隊(duì)已經(jīng)將訓(xùn)練好的模型公開(kāi)發(fā)布,使得其他研究者和開(kāi)發(fā)者可以直接使用或在此基礎(chǔ)上進(jìn)一步改進(jìn)。這種開(kāi)放的研究態(tài)度有助于加速整個(gè)領(lǐng)域的進(jìn)步,讓更多人能夠受益于這項(xiàng)技術(shù)突破。
說(shuō)到底,SIRI方法解決的是AI系統(tǒng)中一個(gè)看似矛盾的問(wèn)題:如何讓模型既聰明又簡(jiǎn)潔。這個(gè)問(wèn)題的解決不僅提升了AI系統(tǒng)的實(shí)用性,也為我們理解智能本身提供了新的視角。真正的智能也許不在于能夠產(chǎn)生多么復(fù)雜的思考過(guò)程,而在于能夠在恰當(dāng)?shù)臅r(shí)候選擇恰當(dāng)?shù)乃伎忌疃?。SIRI方法讓我們看到,通過(guò)合理的學(xué)習(xí)策略,AI系統(tǒng)確實(shí)可以學(xué)會(huì)這種"智慧的簡(jiǎn)潔"。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。它告訴我們,在AI迅速發(fā)展的今天,我們不應(yīng)該只追求模型的規(guī)模和復(fù)雜度,更應(yīng)該關(guān)注如何讓AI系統(tǒng)變得更加高效和實(shí)用。正如古人所說(shuō),"大道至簡(jiǎn)",最高明的技術(shù)往往體現(xiàn)在看似簡(jiǎn)單卻深刻有效的解決方案中。SIRI方法正是這樣一個(gè)例子,它用相對(duì)簡(jiǎn)單的訓(xùn)練策略解決了困擾AI社區(qū)已久的復(fù)雜問(wèn)題,這本身就是一種令人欽佩的智慧。
Q&A
Q1:SIRI方法是什么?它是如何工作的?
A:SIRI是清華大學(xué)開(kāi)發(fā)的一種AI模型訓(xùn)練方法,全稱是"交替壓縮的迭代強(qiáng)化學(xué)習(xí)"。它的核心思想是在訓(xùn)練過(guò)程中交替進(jìn)行"壓縮"和"擴(kuò)張"兩個(gè)階段。壓縮階段限制模型的輸出長(zhǎng)度,迫使其學(xué)會(huì)精準(zhǔn)表達(dá);擴(kuò)張階段放寬限制,讓模型充分思考。通過(guò)這種循環(huán)訓(xùn)練,模型最終學(xué)會(huì)了在保持高準(zhǔn)確率的同時(shí)大幅減少冗余內(nèi)容。
Q2:SIRI方法的訓(xùn)練效果有多好?
A:實(shí)驗(yàn)結(jié)果非常顯著。在數(shù)學(xué)競(jìng)賽AIME24測(cè)試中,使用SIRI方法訓(xùn)練的1.5B參數(shù)模型準(zhǔn)確率提升了43.2%,同時(shí)輸出文字減少了46.9%。在其他測(cè)試集上也有類似的改進(jìn),真正實(shí)現(xiàn)了"又快又準(zhǔn)"的效果。更重要的是,這種改進(jìn)在不同規(guī)模的模型上都得到了驗(yàn)證。
Q3:SIRI方法對(duì)普通用戶有什么實(shí)際好處?
A:對(duì)普通用戶來(lái)說(shuō),SIRI訓(xùn)練的模型意味著更好的使用體驗(yàn)和更低的成本。首先,模型回答更加簡(jiǎn)潔明了,減少了閱讀負(fù)擔(dān);其次,更高的準(zhǔn)確率意味著更少的錯(cuò)誤答案;最后,由于輸出長(zhǎng)度減少,API調(diào)用成本也會(huì)降低。這對(duì)于需要大量使用AI服務(wù)的企業(yè)和個(gè)人用戶都是實(shí)實(shí)在在的好處。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。
中國(guó)人民大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了Tool-Light框架,通過(guò)信息熵理論解決AI工具使用中的過(guò)度調(diào)用、調(diào)用不足和過(guò)度思考問(wèn)題。該框架采用熵引導(dǎo)采樣和兩階段自演化訓(xùn)練,讓AI學(xué)會(huì)合理使用外部工具。在10個(gè)推理任務(wù)測(cè)試中,Tool-Light顯著提升了AI的效率和準(zhǔn)確性,為AI工具集成推理提供了新的解決方案。