這項由騰訊混元團隊的杜東、劉淑琳、楊濤、陳紹華、李楊等研究人員共同完成的研究發(fā)表于2025年7月,論文標題為《UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities》。有興趣深入了解的讀者可以通過論文鏈接https://github.com/liushulinle/ULORL獲取完整研究資料和開源代碼。
要理解這項研究的重要性,不妨從一個熟悉的場景說起。當你面臨一道復雜的數(shù)學題時,你會怎么做?你可能會在草稿紙上寫下大量計算過程,反復驗證每一步,甚至推翻重來,直到找到正確答案。這種深度思考的過程往往需要很長時間,但正是這種耐心細致的推理讓你最終解決了難題。
然而,當前的人工智能模型在處理復雜推理任務時卻面臨著一個有趣的困境:它們就像是那些習慣快速作答的學生,總是急于給出答案,卻缺乏深度思考的耐心。特別是當問題變得復雜時,這種"快進快出"的模式往往導致推理錯誤。騰訊混元團隊意識到,要讓AI真正具備類似人類專家的推理能力,就必須讓它學會"慢思考"——也就是生成更長、更詳細的推理過程。
這項研究的核心創(chuàng)新在于開發(fā)了一套名為UloRL(Ultra-Long Output Reinforcement Learning)的訓練方法,專門用于提升大語言模型在超長輸出情況下的推理能力。研究團隊在千文3-30B-A3B模型上進行了實驗,結果令人振奮:經過UloRL訓練后,模型在AIME2025數(shù)學競賽題目上的表現(xiàn)從70.9%提升到了85.1%,在BeyondAIME測試集上從50.7%提升到61.9%,甚至超越了參數(shù)量更大的千文3-235B-A22B模型。更令人印象深刻的是,這種方法將訓練速度提升了2.06倍,證明了其在實際應用中的可行性。
研究的意義不僅限于數(shù)學推理。在人工智能向著更加智能化發(fā)展的今天,推理能力被認為是衡量AI系統(tǒng)智能水平的關鍵指標。就像OpenAI的o1系列模型和DeepSeek的R1模型所展示的那樣,通過強化學習訓練出的"會思考"的AI正在各個領域展現(xiàn)出驚人的能力。騰訊混元團隊的這項研究為這一發(fā)展趨勢提供了重要的技術支撐,特別是在如何高效訓練超長推理鏈方面做出了突破性貢獻。
一、讓AI學會"深度思考":超長輸出的挑戰(zhàn)與機遇
在人工智能的發(fā)展歷程中,一個有趣的發(fā)現(xiàn)是:給AI更多的"思考時間"——也就是讓它生成更長的推理過程——往往能顯著提升其解決復雜問題的能力。這就像考試時,那些在草稿紙上寫滿計算步驟的學生通常比匆忙作答的學生表現(xiàn)更好。
當研究人員開始嘗試讓語言模型生成超長的推理鏈時,他們很快發(fā)現(xiàn)了一個技術難題。傳統(tǒng)的強化學習訓練方法就像是一個要求所有學生同時交卷的嚴格考官:在一個批次中,所有樣本都必須完成生成才能開始下一輪訓練。這種做法在處理短文本時還算合理,但當涉及超長輸出時就會遇到"長尾效應"的問題。
具體來說,在一個包含多個樣本的訓練批次中,可能80%的樣本只需要生成6萬個詞符就能完成推理,但剩下20%的樣本卻需要生成12萬個詞符。按照傳統(tǒng)方法,整個訓練過程必須等待那些最慢的樣本完成,這就像是整個班級都要等最慢的那幾個學生交卷才能下課。這種等待不僅浪費了大量計算資源,還大大降低了訓練效率。
騰訊混元團隊巧妙地解決了這個問題。他們提出了"分段生成"的策略,將超長的推理過程分割成多個較短的段落。每個段落的長度被限制在一個合理的范圍內,比如1.6萬個詞符。這樣,當某個樣本完成了一個段落的生成后,如果還沒有得出最終答案,就會被暫時"保存"起來,等待下一輪繼續(xù)生成。而那些已經完成推理的樣本則可以立即進入訓練流程。
這種方法的巧妙之處在于它大大提高了計算資源的利用效率。研究團隊的實驗表明,使用兩個段落的分段生成可以將訓練速度提升1.6倍,使用四個段落則可以提升2.06倍。這意味著原本需要一天完成的訓練任務,現(xiàn)在只需要半天就能完成,大大降低了訓練成本。
然而,分段生成帶來了一個新的技術挑戰(zhàn):如何確保訓練的準確性?在傳統(tǒng)方法中,每個樣本都是由同一個模型版本生成的,但在分段生成中,一個完整的推理鏈可能包含由不同版本模型生成的段落。這就像是一篇文章由不同時期的作者續(xù)寫,如何評估這樣的"混合作品"成為了一個關鍵問題。
研究團隊提出了兩種解決方案。第一種叫做"段落感知重要性采樣"(SAIS),它會精確地識別每個段落是由哪個版本的模型生成的,并相應地調整訓練權重。第二種方案更加簡潔,被稱為"偽在線重要性采樣"(POIS)。這種方法的核心思想是將所有段落都當作是由最新版本的模型生成的來處理,這樣可以簡化計算過程,同時保持訓練的穩(wěn)定性。
實驗結果顯示,POIS方法不僅計算更簡單,效果也更好。在4千詞符、3.2萬詞符和6.4萬詞符的輸出長度測試中,使用POIS的模型在推理準確性和訓練穩(wěn)定性方面都表現(xiàn)出色。這個發(fā)現(xiàn)對整個領域具有重要意義,因為它證明了在某些情況下,簡化的方法可能比復雜的精確方法效果更好。
二、解決"熵坍塌"問題:讓AI保持思維的多樣性
在訓練AI進行復雜推理的過程中,研究人員發(fā)現(xiàn)了一個令人困擾的現(xiàn)象:隨著訓練的進行,模型的輸出逐漸變得單一化,就像是一個原本思維活躍的學生慢慢變成了只會背標準答案的機器。這種現(xiàn)象在學術界被稱為"熵坍塌",它嚴重制約了模型的推理能力發(fā)展。
要理解熵坍塌,可以用一個生動的比喻。假設你在教一個學生解數(shù)學題,一開始他會嘗試各種不同的解題方法,思路很活躍。但如果你只表揚那些用標準方法得出正確答案的情況,久而久之,這個學生就會只使用那一種"安全"的方法,不再探索其他可能的解題路徑。雖然他的正確率可能在短期內有所提升,但長期來看,這種思維的僵化會限制他處理新穎問題的能力。
騰訊混元團隊深入分析了熵坍塌的根本原因,他們發(fā)現(xiàn)問題出在對"已掌握正面標記"(MPTs)的過度訓練上。簡單來說,就是模型對于那些它已經很有把握的正確表達方式進行了過度學習。當模型對某個表達的預測概率已經達到99%時,繼續(xù)強化訓練這些"已經會了"的部分反而會讓模型變得過于自信和僵化。
這種情況就像是一個鋼琴師已經能夠完美演奏某個片段,但老師還是要求他反復練習這個片段,結果不僅沒有提升整體演奏水平,反而讓演奏變得機械化,失去了音樂的靈活性和表現(xiàn)力。
為了解決這個問題,研究團隊提出了一個創(chuàng)新的"動態(tài)遮蔽已掌握正面標記"(DMMPTs)策略。這個策略的核心思想是智能地識別那些模型已經充分掌握的部分,并在適當?shù)臅r候將它們從訓練過程中暫時排除。
具體的工作機制是這樣的:系統(tǒng)會持續(xù)監(jiān)控模型輸出的多樣性水平,當發(fā)現(xiàn)多樣性下降到預設閾值以下時,就會自動識別并遮蔽那些模型預測概率超過99%的標記。這樣,模型的注意力就會轉向那些還需要進一步學習的部分,從而保持思維的活躍性和多樣性。當多樣性水平恢復到正常范圍后,這些被遮蔽的部分會重新加入訓練過程。
研究團隊在三個不同規(guī)模的模型上驗證了這種方法的有效性:千文3-4B、千文3-8B和千文3-30B-A3B。實驗結果表明,無論模型大小如何,DMMPTs策略都能有效地維持訓練過程中的多樣性水平,使其穩(wěn)定在預設的目標范圍內。這種穩(wěn)定性對于長期訓練至關重要,因為它確保了模型在獲得更強推理能力的同時,不會失去應對新穎問題的靈活性。
更重要的是,這種方法不需要引入額外的優(yōu)化目標,也不依賴復雜的重要性采樣機制,這使得它在實際應用中更加簡潔和可靠。相比之前的一些解決方案,比如直接在損失函數(shù)中添加熵正則項或調整訓練樣本權重,DMMPTs方法避免了這些方法可能帶來的性能下降問題。
三、構建更智能的評判系統(tǒng):生成式驗證器的應用
在訓練AI進行推理的過程中,一個關鍵挑戰(zhàn)是如何準確評判AI給出的答案是否正確。這個問題看似簡單,實際上卻充滿了微妙之處。傳統(tǒng)的基于規(guī)則的評判方法雖然嚴格,但往往過于機械化,容易出現(xiàn)誤判。
考慮這樣一個場景:當AI被要求計算"一個半徑為3厘米的圓的面積"時,它可能給出"28.27平方厘米"、"9π平方厘米"或"大約28.3平方厘米"等不同形式的答案。對于人類來說,這些答案顯然都是正確的,只是表達方式不同。但是傳統(tǒng)的規(guī)則匹配系統(tǒng)可能會認為只有完全符合預設格式的答案才是正確的,從而錯誤地懲罰那些實際正確但表達方式略有不同的回答。
更具挑戰(zhàn)性的是一些看似不同但實際等價的答案,比如"27厘米"和"0.27米",或者"1/2"和"二分之一"。這些情況需要系統(tǒng)具備更深層的理解能力,而不僅僅是簡單的字符串匹配。
騰訊混元團隊意識到這個問題的重要性,開發(fā)了一個基于生成式AI的智能驗證器。這個驗證器不是簡單地比較字符串,而是能夠理解答案的語義含義,判斷兩個看似不同的表達是否在數(shù)學或邏輯上等價。
這個生成式驗證器的工作原理有點像一個經驗豐富的老師閱卷。它不會因為學生沒有按照標準格式書寫答案就扣分,而是會仔細分析答案的實質內容,判斷學生是否真正理解了問題并給出了正確的解答。這種"理解式"的評判方法大大提高了獎勵信號的準確性,從而提升了整個訓練過程的質量。
除了改進驗證方法,研究團隊還對訓練數(shù)據(jù)進行了精心的清理和優(yōu)化。他們刪除了那些包含多個子問題的復雜題目,因為這類題目容易導致AI在回答不完整時被錯誤地判定為失敗。他們也將選擇題、證明題等轉換為簡答題格式,避免AI通過猜測獲得正確答案而沒有真正理解問題。
特別值得一提的是,研究團隊還利用多個先進模型的一致性來識別和刪除那些參考答案可能有誤的題目。當多個不同的先進模型都給出相同答案,但這個答案與提供的標準答案不符時,他們會認為標準答案可能存在錯誤,并將這類題目從訓練集中移除。這種"民主投票"的方式有效地提高了訓練數(shù)據(jù)的質量。
在處理超長回答的策略上,研究團隊選擇了一種簡潔直接的方法。對于那些因為達到長度限制而被截斷的回答,系統(tǒng)會直接將其標記為不正確。雖然這種做法可能會錯誤地懲罰一些實際上正確但表述冗長的回答,但實驗表明這種簡單策略的效果與更復雜的處理方法相當,同時大大簡化了系統(tǒng)的復雜度。
四、實驗驗證:從理論到實踐的轉化
理論的價值最終需要通過實際效果來證明。騰訊混元團隊在千文3-30B-A3B模型上進行了全面的實驗驗證,這個模型本身就是一個性能優(yōu)秀的大語言模型,為實驗提供了堅實的基礎。
實驗的設計考慮到了實際應用的各種需求。研究團隊設置了128k詞符的最大輸出長度,并將其分為8個段落,每個段落包含16k詞符。這種設置既能支持復雜問題的深度推理,又能保持訓練的效率。在訓練過程中,他們使用了AdamW優(yōu)化器,學習率設定為1×10^-6,這些參數(shù)經過精心調試以確保訓練的穩(wěn)定性。
為了確保結果的可靠性,每個測試都重復進行了32次,然后取平均值作為最終結果。這種做法類似于科學實驗中的多次重復驗證,可以有效消除隨機因素的影響,確保結論的可信度。
實驗結果令人印象深刻。經過UloRL訓練的模型在AIME2025數(shù)學競賽題目上的準確率從原來的70.9%提升到了85.1%,提升幅度達到了14.2個百分點。在BeyondAIME這個更具挑戰(zhàn)性的測試集上,準確率從50.7%提升到了61.9%,提升了11.2個百分點。這些提升不僅在統(tǒng)計上顯著,在實際應用中也具有重要意義。
更令人驚喜的是,經過訓練的30B參數(shù)模型甚至超越了參數(shù)量更大的千文3-235B-A22B模型。這個結果證明了UloRL方法的高效性:通過改進訓練方法,較小的模型可以達到甚至超越更大模型的性能,這對于實際部署具有重要的成本優(yōu)勢。
為了驗證各個組件的貢獻,研究團隊還進行了消融實驗。他們發(fā)現(xiàn),去除DMMPTs策略的模型在AIME2025上的表現(xiàn)降至78.6%,在BeyondAIME上降至57.1%,這證明了動態(tài)遮蔽策略的重要性。這種對比實驗清楚地展示了每個技術組件的價值。
研究團隊還探索了進一步擴展輸出長度的可能性。通過使用Yarn技術將輸出長度擴展到140k詞符,模型的性能得到了進一步提升,在AIME2025上達到85.1%,在BeyondAIME上達到61.9%。這個結果支持了"更長的推理鏈帶來更好性能"的假設。
特別值得關注的是不同輸出長度對性能的影響。實驗顯示,32k詞符的改進相對有限,這主要是因為基礎模型在這個長度下已經表現(xiàn)很好。但當輸出長度擴展到64k、96k和128k時,性能提升變得越來越明顯。這個趨勢表明,對于真正復雜的推理任務,更長的思考過程確實是必要的。
五、技術創(chuàng)新的深層意義:重新定義AI推理能力
騰訊混元團隊的這項研究不僅在技術層面取得了突破,更重要的是它為我們重新理解AI推理能力提供了新的視角。傳統(tǒng)觀念認為,AI應該快速給出答案,效率至上。但這項研究證明,有時候"慢就是快"——通過更深入的思考過程,AI可以達到更高的準確性。
這種轉變的意義是深遠的。在過去,人們常常批評AI缺乏真正的理解能力,只是在進行復雜的模式匹配。但當AI開始展現(xiàn)出詳細的推理過程,能夠像人類專家一樣步步為營地解決復雜問題時,這種批評就變得不那么有力了。雖然我們仍然不能確定AI是否真正"理解"了問題,但它確實展現(xiàn)出了與人類專家相似的問題解決策略。
從技術發(fā)展的角度看,這項研究為強化學習在自然語言處理領域的應用開辟了新的方向。以往的研究更多關注于如何優(yōu)化模型架構或增加模型參數(shù),而UloRL方法證明了通過改進訓練策略同樣可以獲得顯著的性能提升。這種思路對于那些計算資源有限的研究團隊和應用場景具有特別重要的意義。
分段生成策略的成功也為處理超長序列問題提供了新的思路。在自然語言處理的許多任務中,比如長文檔理解、代碼生成、創(chuàng)意寫作等,都面臨著類似的長序列處理挑戰(zhàn)。UloRL的技術框架為解決這些問題提供了可借鑒的方案。
DMMPTs策略的成功則揭示了一個重要的訓練原理:并不是所有的正確行為都需要持續(xù)強化。這個發(fā)現(xiàn)對于設計更高效的學習算法具有啟發(fā)意義。在很多機器學習任務中,模型往往會在已經掌握的簡單樣本上浪費過多的訓練資源,而DMMPTs策略提供了一種智能的資源分配方法。
生成式驗證器的應用也代表了一個重要趨勢:用AI來訓練AI。隨著AI能力的不斷提升,我們越來越多地看到AI被用作評判者、教師甚至是訓練數(shù)據(jù)的生成者。這種自我改進的循環(huán)可能會成為未來AI發(fā)展的重要模式。
從更廣闊的視角來看,這項研究體現(xiàn)了當前AI發(fā)展的一個重要特點:從追求通用性向追求專業(yè)性轉變。早期的AI研究更多關注如何讓機器在各種任務上都有不錯的表現(xiàn),而現(xiàn)在的趨勢是讓AI在特定領域達到專家級水平。UloRL方法在數(shù)學推理領域的成功就是這種趨勢的一個典型例子。
這種轉變對AI的實際應用具有重要意義。在教育、科研、工程設計等需要復雜推理的領域,具備深度思考能力的AI助手將能夠提供更有價值的幫助。它們不再只是簡單的信息檢索工具,而是能夠參與復雜問題解決過程的智能伙伴。
然而,這項研究也提出了一些值得思考的問題。隨著AI推理能力的不斷提升,我們需要重新考慮人機協(xié)作的模式。當AI能夠進行如此深入的推理時,人類的獨特價值在哪里?如何確保AI的推理過程是可解釋和可信的?這些問題將是未來研究需要關注的重點。
說到底,騰訊混元團隊的這項研究為我們展示了AI推理能力發(fā)展的一個重要里程碑。通過讓AI學會"慢思考",我們不僅提升了它們解決復雜問題的能力,也為人工智能向著更高層次的智能演進提供了新的路徑。雖然我們還不能說AI已經具備了人類般的智慧,但它們確實在某些特定領域展現(xiàn)出了令人印象深刻的專業(yè)能力。
這種進步對普通人的生活將產生深遠影響。在不久的將來,我們可能會看到能夠協(xié)助解決復雜數(shù)學問題的AI家教、能夠分析復雜法律案例的AI顧問、能夠設計復雜工程方案的AI助手。這些應用將不僅僅是效率的提升,更是認知能力的擴展,讓更多人能夠接觸到原本只有專家才能提供的高水平服務。
當然,技術的發(fā)展也伴隨著挑戰(zhàn)。如何確保AI推理的可靠性,如何防止AI被惡意利用,如何在提升AI能力的同時保持人類的主導地位,這些都是需要整個社會共同思考和解決的問題。但無論如何,UloRL研究為我們打開了一扇通向更智能AI的大門,讓我們對人工智能的未來充滿期待。
對于那些對技術細節(jié)感興趣的讀者,研究團隊已經將相關代碼和模型開源,這意味著全球的研究者和開發(fā)者都可以基于這項工作進行進一步的探索和改進。這種開放的態(tài)度體現(xiàn)了科學研究的合作精神,也將加速整個領域的發(fā)展進程。
Q&A
Q1:UloRL是什么?它解決了什么問題?
A:UloRL(超長輸出強化學習)是騰訊混元團隊開發(fā)的AI訓練方法,專門解決讓AI進行深度推理時面臨的效率問題。傳統(tǒng)方法訓練AI生成長推理鏈時,必須等所有樣本都完成才能開始下一輪訓練,就像全班都要等最慢學生交卷。UloRL通過分段生成,讓完成的樣本先進入訓練,大大提升了效率。
Q2:為什么讓AI生成更長的回答能提升推理能力?
A:這就像考試時在草稿紙上詳細寫出解題步驟的學生通常比匆忙作答的學生表現(xiàn)更好。AI通過生成詳細的推理過程,能夠更仔細地分析問題,驗證每個步驟,從而得出更準確的答案。實驗顯示,輸出長度從32k擴展到128k時,AI在數(shù)學題上的準確率顯著提升。
Q3:普通人什么時候能用到這種技術?會有什么具體應用?
A:這種技術將首先在需要復雜推理的專業(yè)領域應用,比如AI數(shù)學家教、法律咨詢助手、工程設計顧問等。隨著技術成熟,普通人可能在幾年內就能體驗到能夠深度思考的AI助手,它們不再只是簡單回答問題,而是能像專家一樣分析復雜情況并給出詳細建議。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。