這項由中國科學技術大學吳俊康、黃科欣、吳建燦、張安、王祥和何向南等研究者組成的團隊開展的研究,發(fā)表于2025年1月的arXiv預印本平臺,論文編號為arXiv:2509.22611v1。對于想要深入了解技術細節(jié)的讀者,可以通過該編號在arXiv平臺查詢完整論文內容。
當我們談論人工智能的訓練過程時,可以把它想象成教一個學生解數(shù)學題的過程。學生剛開始時會嘗試各種不同的方法,這種"試錯"的多樣性在AI領域被稱為"熵值"。就像學生需要保持足夠的好奇心去探索不同解題思路,但又不能毫無章法地胡亂嘗試一樣,AI系統(tǒng)在學習過程中也面臨著一個微妙的平衡問題。
中科大團隊發(fā)現(xiàn),現(xiàn)有的AI訓練方法存在一個嚴重問題:要么讓AI過早地固定在某種思維模式上(就像學生只會一種解題方法,遇到稍微不同的題目就束手無策),要么讓AI的思路過于發(fā)散(像一個注意力完全無法集中的學生,什么都想試但什么都做不好)。這種現(xiàn)象在AI訓練的專業(yè)術語中分別被稱為"熵值崩塌"和"熵值爆炸"。
研究團隊通過深入分析發(fā)現(xiàn),這個問題的根源在于現(xiàn)有訓練方法使用的"基準線"設定方式。這就好比老師在評判學生作業(yè)時,總是用班級平均分作為標準。當某個學生表現(xiàn)特別突出時,這個平均分就會被拉高,導致其他原本表現(xiàn)還不錯的學生突然被判定為"不及格",從而打擊了他們的學習積極性。
為了解決這個問題,研究團隊提出了一種名為"分位數(shù)優(yōu)勢估計"(Quantile Advantage Estimation,簡稱QAE)的新方法。這種方法的核心思想是,不再使用簡單的平均分作為評判標準,而是根據(jù)題目的難易程度采用不同的評判策略。
具體來說,這種新方法就像一位聰明的老師:當面對特別困難的題目時,只要學生能做出正確答案,哪怕過程不夠完美,老師也會給予鼓勵和正面反饋;而當面對相對簡單的題目時,老師會將注意力集中在那些仍然出錯的地方,幫助學生糾正錯誤。這種差異化的反饋機制確保了學習過程既不會過于保守,也不會過于激進。
研究團隊通過數(shù)學理論分析證明,這種新方法能夠為AI的學習過程提供"雙向安全保障"。簡單來說,就是為AI的探索行為設置了上下邊界:既防止AI過早地停止嘗試新方法,也防止AI的嘗試過于混亂無序。這就像給一輛汽車安裝了既能防止急剎車又能防止油門失控的安全系統(tǒng)。
為了驗證這種新方法的效果,研究團隊在多個數(shù)學推理任務上進行了實驗。他們使用了不同規(guī)模的AI模型,包括80億參數(shù)、140億參數(shù)和300億參數(shù)的版本,分別在2024年和2025年的美國數(shù)學邀請賽(AIME)以及2023年美國數(shù)學競賽(AMC)的題目上進行測試。
實驗結果令人振奮。采用新方法訓練的AI模型在解題準確率上獲得了顯著提升。以80億參數(shù)的模型為例,在AIME 2024的測試中,準確率從原來的39.69%提高到48.23%,提升幅度達到21.5%。更重要的是,這種改進不是以犧牲其他性能為代價的——模型在處理多次嘗試求解的能力(專業(yè)術語稱為pass@16)上保持了原有水平。
研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:使用新方法訓練的AI模型具有天然的"節(jié)約"特性。大約80%的訓練樣本會被自動分配為零優(yōu)勢值,這意味著只有約20%的樣本真正參與了模型的參數(shù)更新。這種現(xiàn)象類似于帕累托法則(也就是常說的"二八定律"),說明新方法能夠自動識別并專注于最有價值的學習樣本,從而提高了訓練效率。
從技術實現(xiàn)的角度來看,這種新方法的優(yōu)勢在于其簡單性和通用性。研究團隊只需要對現(xiàn)有訓練算法進行一行代碼的修改——將計算平均值的函數(shù)替換為計算分位數(shù)的函數(shù)。這種"一行代碼解決大問題"的優(yōu)雅性使得該方法可以很容易地集成到現(xiàn)有的各種AI訓練框架中。
研究團隊通過詳細的分析發(fā)現(xiàn),傳統(tǒng)方法在處理訓練過程中的"負優(yōu)勢樣本"(也就是那些表現(xiàn)不佳的嘗試)時存在系統(tǒng)性問題。當模型遇到一些異常出色的表現(xiàn)時,這些表現(xiàn)會拉高整體的期望值,導致許多原本還可以接受的嘗試被錯誤地標記為"失敗案例",從而受到懲罰。這就像一個班級里突然轉來了幾個學霸,導致原本成績中等的學生突然被認為是"差生"一樣不合理。
新方法通過引入分位數(shù)機制有效解決了這個問題。分位數(shù)是一種更加穩(wěn)健的統(tǒng)計量,不容易被極端值影響。舉個例子,如果我們要了解一個城市居民的收入水平,使用中位數(shù)(50%分位數(shù))比使用平均數(shù)更能反映真實情況,因為少數(shù)富豪的超高收入不會影響中位數(shù)的計算。
在具體的訓練動態(tài)分析中,研究團隊觀察到了一個兩階段的學習過程。第一階段是"協(xié)同增長期",AI模型的探索性(通過觀察某些特殊標記詞匯的使用頻率來衡量)和問題解決能力同時提升。第二階段是"解耦平臺期",傳統(tǒng)方法在這個階段會出現(xiàn)性能停滯,而新方法則能夠繼續(xù)保持改進。這種現(xiàn)象表明,新方法在訓練的后期階段仍能有效地指導AI進行有價值的學習。
研究團隊還進行了細致的消融實驗來驗證方法中各個組成部分的作用。他們發(fā)現(xiàn),根據(jù)不同的訓練配置(比如梯度裁剪的強度),新方法會自動調整其行為模式。當訓練過程容易出現(xiàn)"熵值爆炸"時,方法會更多地抑制負向更新;當訓練過程傾向于"熵值崩塌"時,方法則會更多地促進正向探索。這種自適應性證明了新方法的穩(wěn)健性。
從計算效率的角度來看,新方法帶來的額外計算成本幾乎可以忽略不計。計算分位數(shù)的復雜度與計算平均值相當,而且由于大約80%的樣本被自動過濾掉,實際的參數(shù)更新計算量反而減少了。這意味著新方法不僅提高了訓練效果,還在一定程度上提高了訓練效率。
研究團隊特別強調,他們的方法與現(xiàn)有的其他改進技術是兼容的。無論是針對特定token的處理技術,還是序列級別的優(yōu)化方法,都可以與新方法結合使用,進一步提升訓練效果。這種兼容性使得該方法具有很強的實用價值。
在理論分析方面,研究團隊提供了嚴格的數(shù)學證明,展示了新方法在"一階軟最大更新"條件下的雙向熵值安全性。這個證明表明,在低成功率的情況下,新方法能夠將熵值變化限制在最小范圍內(防止爆炸);在高成功率的情況下,新方法能夠確保熵值變化達到最大范圍(防止崩塌)。這種理論保證為方法的可靠性提供了堅實基礎。
值得注意的是,研究團隊將其方法的成功歸因于"基準線設計"而非傳統(tǒng)的"token級別調整"。這一觀點為AI訓練領域提供了新的研究方向,表明有時候解決復雜問題的關鍵不在于設計更復雜的機制,而在于重新思考問題的根本假設。
從實際應用的角度來看,這種新方法對于開發(fā)更強大的AI數(shù)學推理系統(tǒng)具有重要意義。隨著AI在教育、科研、工程等領域的應用越來越廣泛,提高AI的數(shù)學推理能力將直接影響這些應用的效果。新方法的成功實施為這一目標的實現(xiàn)提供了有力工具。
研究團隊在論文中也坦誠地討論了當前工作的局限性和未來發(fā)展方向。他們指出,目前的方法使用固定的分位數(shù)參數(shù),未來可以考慮根據(jù)訓練進度動態(tài)調整這個參數(shù),或者根據(jù)模型的實時狀態(tài)(如成功率、熵值、梯度方差等)自動選擇最優(yōu)參數(shù)。另外,如何將這種思想推廣到其他類型的強化學習算法(如PPO)中也是一個值得探索的方向。
說到底,這項研究的核心價值在于它揭示了一個簡單而深刻的道理:有時候,最有效的解決方案不是增加系統(tǒng)的復雜性,而是重新審視和改進系統(tǒng)的基礎組件。就像建筑師發(fā)現(xiàn),與其設計復雜的支撐結構,不如使用更好的基礎材料一樣,AI訓練領域也可能從重新思考基本假設中獲得突破性進展。
這種"化繁為簡"的研究思路對整個AI領域都有啟發(fā)意義。在追求更大模型、更復雜算法的潮流中,有時候一個看似微小的改進可能產生出人意料的巨大效果。對于普通人來說,這項研究的成果可能最終體現(xiàn)在更智能、更穩(wěn)定的AI助手和教育工具中,讓我們在日常生活和工作中能夠得到更可靠的AI支持。
未來,隨著這種訓練方法的推廣和進一步完善,我們有理由期待AI系統(tǒng)在數(shù)學推理、邏輯分析、問題解決等方面表現(xiàn)出更強的能力,同時保持更好的穩(wěn)定性和可靠性。這不僅將推動AI技術本身的發(fā)展,也將為教育、科研、工程等眾多領域帶來更強大的智能工具支持。
Q&A
Q1:什么是熵值崩塌和熵值爆炸,為什么這兩種現(xiàn)象對AI訓練有害?
A:熵值崩塌是指AI過早地固定在某種思維模式上,就像學生只會一種解題方法,遇到新題目就束手無策。熵值爆炸則是AI的思路過于發(fā)散,像注意力無法集中的學生什么都想試但什么都做不好。這兩種現(xiàn)象都會嚴重影響AI的學習效果和性能穩(wěn)定性。
Q2:分位數(shù)優(yōu)勢估計方法與傳統(tǒng)的平均值方法相比有什么具體優(yōu)勢?
A:分位數(shù)方法就像一位聰明的老師,會根據(jù)題目難度采用不同的評判策略:對困難題目,只要答對就給鼓勵;對簡單題目,重點糾正錯誤。而傳統(tǒng)的平均值方法容易被極端情況影響,就像班級平均分被學霸拉高后,原本不錯的學生也被誤判為差生。
Q3:這種新方法的訓練效率如何,是否會增加計算成本?
A:新方法不僅不會增加計算成本,反而在某些方面提高了效率。它具有天然的"節(jié)約"特性,約80%的訓練樣本會被自動過濾,只有20%真正參與參數(shù)更新。而且只需要修改一行代碼就能實現(xiàn),計算復雜度與原方法相當。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。