大模型的推理能力在近年來取得了顯著進步,但這些進步背后的機制我們卻知之甚少。來自阿里巴巴Qwen團隊和清華大學LeapLab的研究人員在2025年6月的最新研究中,通過探索一個全新視角——詞元(token)熵模式,揭示了強化學習在提升大模型推理能力過程中的工作原理。這項發(fā)表在arXiv(arXiv:2506.01939v1)的研究由Shenzhi Wang、Le Yu、Chang Gao等人完成,項目由Bowen Yu領導,Gao Huang和Junyang Lin擔任通訊作者。
當我們觀察大模型的思維鏈(Chain-of-Thought, CoT)推理過程時,你可能會驚訝地發(fā)現(xiàn):并非所有詞元都同等重要。想象一下在森林中徒步,大部分路徑是明確的小道,但偶爾會遇到岔路口,這些岔路口決定了你接下來的行進方向。在大模型的思維中也存在類似現(xiàn)象——研究團隊發(fā)現(xiàn),只有約20%的詞元具有高熵值(表示高不確定性),這些"高熵少數(shù)派"詞元就像思維路徑上的"岔路口",決定著推理的方向。而剩余80%的低熵詞元則像是沿著已確定道路前進的"跟隨者"。
通過分析詞元熵模式,研究人員發(fā)現(xiàn)當使用強化學習訓練模型(即RLVR,帶可驗證獎勵的強化學習)時,模型基本保持了基礎模型的熵模式,主要調(diào)整的是那些高熵詞元。這一發(fā)現(xiàn)促使研究團隊提出了一個革命性的想法:如果強化學習只針對這些"岔路口"詞元進行優(yōu)化,會發(fā)生什么?
令人驚訝的是,僅對20%的高熵詞元應用強化學習,不僅保持了與完全訓練相當?shù)男阅?,在大模型上甚至取得了更好的效果。在Qwen3-32B模型上,這種方法比傳統(tǒng)方法在AIME'25測試集上提高了11.04分,在AIME'24測試集上提高了7.71分。相比之下,如果僅對80%的低熵詞元應用強化學習,性能則顯著下降。這一發(fā)現(xiàn)甚至超越了經(jīng)典的80/20法則,表明在大模型的推理能力提升中,真正起決定性作用的是那些關鍵的"高熵少數(shù)派"詞元。
隨著模型規(guī)模增大,這種方法的效果更加明顯,暗示了強化學習在大模型上的縮放規(guī)律。這項研究不僅幫助我們理解大模型的推理機制,也為未來如何更高效地優(yōu)化大模型提供了新思路。
讓我們一起深入了解這項突破性研究的細節(jié),看看"高熵少數(shù)派"詞元如何引領大模型的推理革命。
一、研究背景:為何需要理解大模型的推理機制?
在人工智能的發(fā)展歷程中,大型語言模型(LLM)的推理能力已經(jīng)取得了長足進步,特別是在數(shù)學和編程等領域。這些進步很大程度上歸功于OpenAI的o1、Anthropic的Claude 3.7、DeepSeek R1、Kimi K1.5和Qwen3等模型采用的測試時縮放方法。這些模型的一個共同關鍵技術是"帶可驗證獎勵的強化學習"(Reinforcement Learning with Verifiable Rewards,簡稱RLVR),該方法通過與自動化正確性驗證相結合的強化學習目標來優(yōu)化模型輸出。
雖然RLVR已經(jīng)取得了顯著成功,但其背后的工作原理卻仍然是個謎。目前的實現(xiàn)方式通常是直接對所有詞元進行訓練,而不理解哪些詞元真正促進了推理能力的提升。這種方法忽略了詞元在推理過程中可能扮演的不同功能角色,可能阻礙了進一步的性能提升。
想象一下,如果你在教一個孩子解數(shù)學題,你會發(fā)現(xiàn)孩子在某些關鍵決策點上容易犯錯——比如選擇使用加法還是乘法,或者是否需要考慮負數(shù)情況。而在其他步驟,如簡單的計算執(zhí)行上,孩子可能相對輕松。那么,更有效的教學方法不是全面重復每一步,而是集中精力指導那些關鍵決策點。
這正是Shenzhi Wang和他的研究團隊的核心洞察。他們提出了一個新穎的視角:通過詞元熵模式來分析RLVR,研究不同熵值的詞元如何影響推理性能。詞元熵反映了模型在生成該詞元時的不確定性程度——高熵表示模型有多種可能的選擇且不確定選哪一個,低熵則表示模型對選擇非常確定。
就像在迷宮中,有些交叉路口(高熵點)決定了你最終能否到達目的地,而大部分直路(低熵點)只是執(zhí)行已經(jīng)決定的方向。理解這些"關鍵路口"的作用,可能是解鎖大模型推理能力的鑰匙。
二、詞元熵揭示的思維鏈奧秘
當我們觀察大模型生成的思維鏈時,會發(fā)現(xiàn)一個有趣的現(xiàn)象:不是所有詞元都是平等的。研究團隊使用Qwen3-8B模型生成了AIME'24和AIME'25測試集的回答,收集了超過100萬個響應詞元,然后分析了每個詞元的熵值分布。
這種分析揭示了兩個重要的熵模式:
首先,只有少數(shù)詞元具有高熵值,而大多數(shù)詞元的熵值很低。具體來說,超過50%的詞元熵值低于0.01,而只有20%的詞元熵值高于0.672。這就像一本書中,大多數(shù)句子都是按照語法規(guī)則和上下文流暢地展開,但偶爾會出現(xiàn)需要作者創(chuàng)造性決策的關鍵點。
其次,最高熵的詞元往往充當邏輯連接的橋梁,而最低熵的詞元則傾向于完成當前句子部分或構詞。通過分析出現(xiàn)頻率超過100次的詞元,研究人員發(fā)現(xiàn)高熵詞元通常是像"wait"(等等)、"however"(然而)、"unless"(除非)這樣表示轉(zhuǎn)折或轉(zhuǎn)變的連接詞,或者像"thus"(因此)、"also"(也)這樣表示進展或添加的詞,又或者像"since"(因為)、"because"(因為)這樣表示因果關系的詞。同樣,"suppose"(假設)、"assume"(假定)、"given"(給定)和"define"(定義)等詞在數(shù)學推導中經(jīng)常出現(xiàn),用于引入假設、已知條件或定義。
相比之下,低熵詞元通常是單詞后綴、源代碼片段或數(shù)學表達式組件,這些都表現(xiàn)出高度確定性。
這種分布模式讓研究人員想到了一個形象的比喻:高熵詞元就像是思維路徑上的"岔路口"(fork),在這些點上模型需要在多個可能的推理方向之間做出選擇。而低熵詞元則是在已經(jīng)選定的路徑上前進。
為了驗證高熵詞元作為"岔路口"的角色,研究團隊進行了一個巧妙的實驗:他們在生成過程中對高熵詞元和其他詞元分配不同的解碼溫度。溫度參數(shù)控制著生成過程的隨機性——溫度越高,生成越多樣;溫度越低,生成越確定。
實驗結果非常有說服力:降低高熵詞元的溫度會顯著降低性能,而降低低熵詞元的溫度影響較小。相反,提高高熵詞元的溫度會帶來明顯的性能提升,而提高低熵詞元的溫度甚至會導致模型生成無意義的輸出。這表明高熵"岔路口"詞元確實需要較高的探索性,而低熵"跟隨"詞元則需要保持確定性。
這就像在森林中徒步時,你希望在岔路口有足夠的探索精神去嘗試不同道路,但在確定的路徑上則希望穩(wěn)步前進而不是隨意游蕩。
三、強化學習如何塑造詞元熵模式
既然理解了思維鏈中的詞元熵模式,研究團隊進一步探索了RLVR訓練如何影響這些模式。他們對Qwen3-14B基礎模型應用DAPO(一種先進的RLVR算法)進行訓練,然后分析訓練過程中熵模式的演變。
研究發(fā)現(xiàn),雖然訓練會逐漸改變模型的熵模式,但基礎模型的熵模式大體上得到了保留。即使在訓練收斂后,基礎模型的高熵詞元位置與RLVR模型的重疊率仍然高達86.67%。這表明RLVR主要是在基礎模型已建立的熵模式框架內(nèi)工作,而不是創(chuàng)建全新的模式。
更有趣的是,RLVR主要調(diào)整的是高熵詞元,而低熵詞元的熵值變化相對較小。研究人員計算了RLVR前后每個5%熵百分位范圍內(nèi)的平均熵變化,發(fā)現(xiàn)基礎模型中熵值較高的詞元在RLVR后熵值增加更多。這就像是強化學習主要關注那些關鍵的決策點,而對于已經(jīng)相當確定的執(zhí)行步驟則較少干預。
這些觀察結果啟發(fā)研究人員提出了一個大膽的假設:如果RLVR主要影響高熵詞元,那么是否可以只針對這些"岔路口"詞元進行優(yōu)化,而忽略其他低熵詞元?
四、只優(yōu)化高熵少數(shù)派:突破性的RLVR改進
基于對高熵"岔路口"詞元重要性的認識,研究團隊開發(fā)了一種改進的RLVR方法。傳統(tǒng)RLVR對所有詞元的策略梯度進行更新,而改進后的方法只保留熵值最高的20%詞元的策略梯度,屏蔽其余80%詞元的梯度。
實驗設置遵循DAPO(Dynamic sAmpling Policy Optimization)的訓練方案,這是當前最先進的RLVR算法之一。為了公平比較,兩種方法使用相同的超參數(shù),包括clip-higher、動態(tài)采樣、詞元級策略梯度損失和超長獎勵塑形。研究使用DAPO-Math-17K作為訓練數(shù)據(jù)集,并在6個標準數(shù)學推理基準上進行評估:AIME'24、AIME'25、AMC'23、MATH500、Minerva和OlympiadBench。
實驗結果令人驚訝:只保留20%高熵詞元的策略梯度不僅沒有降低性能,反而在多個基準測試上帶來了性能提升。在Qwen3-32B基礎模型上,這種方法在AIME'24上提高了7.71分,在AIME'25上提高了11.04分。類似地,在Qwen3-14B上也觀察到了性能提升:AIME'24提高了5.21分,AIME'25提高了4.79分。而在Qwen3-8B上,性能基本保持不變。
相比之下,如果只對80%的低熵詞元應用強化學習,性能會顯著下降,這進一步證明了高熵詞元在推理能力提升中的關鍵作用。
研究團隊還嘗試了不同比例的高熵詞元,發(fā)現(xiàn)在合理范圍內(nèi),性能對比例的選擇相對不敏感。將比例從20%降低到10%會導致性能輕微下降,而將比例提高到100%(即傳統(tǒng)RLVR)則會導致明顯性能下降。這表明選擇適當比例的高熵詞元可以在探索和訓練穩(wěn)定性之間取得平衡。
通過分析訓練過程中的整體熵,研究人員發(fā)現(xiàn)保留約20%的高熵詞元可以促進有效的探索。將比例調(diào)整到10%、50%或100%都會導致整體熵較低,探索減少,性能下降。這表明只有一個關鍵子集的高熵詞元對強化學習中的探索有意義貢獻,而其他詞元可能中性或甚至有害。
更令人興奮的是,這種方法表現(xiàn)出強烈的規(guī)模擴展趨勢——隨著模型大小增加,性能提升越明顯。這暗示著只關注高熵"岔路口"詞元的策略在更大的模型上可能更加有效。
研究團隊還探索了這種方法在其他領域的泛化能力。雖然訓練主要在數(shù)學數(shù)據(jù)集上進行,但在對域外測試集如LiveCodeBench的評估中,僅保留10%或20%高熵詞元的DAPO仍然顯著優(yōu)于傳統(tǒng)DAPO。這表明高熵詞元可能與推理模型的泛化能力相關。
最后,研究人員將Qwen3-32B模型的最大響應長度從20480增加到29696,這進一步提高了AIME'24的得分,從63.54提升到68.12。這表明該方法的潛力可能尚未完全發(fā)揮,更長的上下文長度或更具挑戰(zhàn)性的訓練數(shù)據(jù)可能帶來更大的性能提升。
五、理解高熵少數(shù)派的重要性及其啟示
這項研究不僅提出了一種改進RLVR的方法,還為我們理解大模型的推理機制提供了新視角。研究團隊在論文討論部分提出了幾個有趣的見解:
首先,高熵少數(shù)派詞元可能是解釋為什么強化學習能夠泛化而監(jiān)督微調(diào)(SFT)容易記憶的關鍵因素。Chu等人的研究表明,強化學習對未見過的基于規(guī)則的任務表現(xiàn)出強大的泛化能力,而SFT傾向于記憶訓練數(shù)據(jù)。一個可能的原因是強化學習傾向于保持或增加岔路口詞元的熵,維持推理路徑的靈活性。相比之下,SFT將輸出逼向單一分布,降低了岔路口詞元的熵,導致推理路徑靈活性的喪失。
其次,與傳統(tǒng)強化學習不同,大模型推理融合了先驗知識并需要產(chǎn)生可讀輸出。這導致了思維鏈中低熵多數(shù)詞元和高熵少數(shù)詞元的混合,而傳統(tǒng)強化學習可以假設整個軌跡中的動作熵均勻。這種獨特的熵模式可能源于大模型對大規(guī)模先驗知識的預訓練和語言流暢性的需求,迫使大多數(shù)詞元與記憶的語言結構保持一致,產(chǎn)生低熵。只有預訓練語料庫中本來就不確定的少數(shù)詞元允許探索,因此表現(xiàn)出高熵。
第三,在RLVR中,熵獎勵可能并不是最佳選擇,因為它會增加低熵多數(shù)詞元的熵。相比之下,clip-higher機制(提高εhigh值)能更有效地提升高熵少數(shù)詞元的熵。實驗表明,具有高重要性比率的詞元往往具有更高的熵。通過在訓練中包含更多這些詞元,clip-higher增加了整體熵,而不顯著影響低熵詞元。
這些發(fā)現(xiàn)不僅幫助我們理解大模型的推理機制,也為未來的RLVR算法設計提供了指導。通過關注那些真正影響推理方向的高熵"岔路口"詞元,我們可能能夠開發(fā)出更高效、更有效的訓練方法。
六、研究局限性與未來方向
盡管這項研究取得了顯著成果,研究團隊也坦誠地指出了幾點局限性。首先,實驗主要集中在Qwen系列模型上,雖然他們嘗試在LLaMA-3.1-8B上進行了驗證,但該模型在AIME基準測試上的表現(xiàn)相對較差,使得結果不太具有說服力。
其次,實驗主要在數(shù)學領域進行,未來可以擴展到編程或更復雜的任務如ARC-AGI。此外,研究發(fā)現(xiàn)基于特定實驗設置,在不同RLVR場景中,觀察到的20%有效比例可能需要調(diào)整為不同的值。
未來研究方向包括開發(fā)新的RLVR算法以更好地利用高熵少數(shù)派詞元,并探索這些見解如何增強不僅是RLVR,還有監(jiān)督微調(diào)、蒸餾、推理和多模態(tài)訓練等其他方法。
七、結論:高熵少數(shù)派如何重塑大模型推理
這項研究強調(diào)了高熵少數(shù)派詞元在塑造大模型推理能力中的關鍵作用。通過詳細分析詞元熵模式,研究人員發(fā)現(xiàn)只有一小部分詞元表現(xiàn)出高熵,這些詞元充當推理路徑中的關鍵決策點或"岔路口"。
研究還揭示了RLVR訓練過程中熵模式的演變,發(fā)現(xiàn)強化學習主要是在基礎模型建立的熵模式框架內(nèi)工作,主要調(diào)整高熵詞元的熵值?;谶@些發(fā)現(xiàn),研究團隊開發(fā)了一種改進的RLVR方法,只針對20%的高熵詞元進行優(yōu)化,不僅保持了與傳統(tǒng)方法相當?shù)男阅?,在大模型上甚至取得了更好的效果?/p>
這些發(fā)現(xiàn)超越了經(jīng)典的80/20法則,表明在大模型的推理能力提升中,真正起決定性作用的是那些關鍵的"高熵少數(shù)派"詞元。這不僅幫助我們理解大模型的推理機制,也為未來如何更高效地優(yōu)化大模型提供了新思路。
研究團隊的工作強調(diào)了從詞元熵角度理解RLVR的潛力,并展示了如何通過利用高熵少數(shù)派詞元來進一步提升大模型的推理能力。這一視角可能為大模型訓練帶來范式轉(zhuǎn)變,使我們能夠更有針對性地優(yōu)化那些真正影響推理質(zhì)量的關鍵決策點。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。