這項由上海人工智能實驗室聯(lián)合中國人民大學、清華大學和武漢大學的研究團隊于2025年9月完成的突破性研究,發(fā)表在計算機科學頂級會議上,提出了一個名為ScaleDiff的創(chuàng)新方案。有興趣深入了解的讀者可以通過arXiv:2509.21070v1查詢完整論文。
當前,像OpenAI的o1和DeepSeek的R1這樣的大型推理模型在解決復雜數(shù)學問題時展現(xiàn)出了令人驚嘆的能力。這些模型能夠進行試錯、自我反思,甚至像人類一樣進行迭代改進。然而,訓練這樣的模型需要大量高質(zhì)量的數(shù)學問題,特別是那些真正困難的題目。就像培養(yǎng)一個數(shù)學天才需要不斷挑戰(zhàn)更難的題目一樣,AI模型也需要在困難問題上進行訓練才能獲得真正的推理能力。
問題在于,創(chuàng)造高質(zhì)量的數(shù)學難題通常需要依賴人類專家手工編寫,或者使用昂貴的大型模型生成,這不僅成本高昂,而且難以大規(guī)模擴展。更重要的是,現(xiàn)有方法生成的問題往往難度有限,無法真正挑戰(zhàn)當前最先進的AI模型。
研究團隊巧妙地發(fā)現(xiàn)了一個關(guān)鍵洞察:并非所有數(shù)學問題都對模型訓練有同等價值。就像健身時,舉重10公斤和舉重50公斤對肌肉的鍛煉效果完全不同一樣,簡單的數(shù)學題對AI模型的推理能力提升作用微乎其微,真正有價值的是那些需要復雜推理鏈條的困難問題。
基于這個發(fā)現(xiàn),團隊設(shè)計了ScaleDiff這個簡潔而高效的流水線系統(tǒng)。整個過程可以比作一個智能的"題目工廠":首先使用一個特殊的"質(zhì)量檢測器"從現(xiàn)有數(shù)據(jù)集中識別出真正困難的題目,然后訓練一個專門的"題目生成器"來大批量生產(chǎn)類似難度的新題目,最后通過嚴格的篩選和驗證確保生成題目的質(zhì)量。
在識別困難題目這個環(huán)節(jié),研究團隊沒有采用傳統(tǒng)的多次測試方法(這就像讓學生反復做同一道題來判斷難度),而是借助了一個名為AdaptThink的聰明工具。這個工具有一個獨特能力:它能夠自動判斷一道題是否需要"深思熟慮"。當遇到簡單題目時,它會直接給出答案;當面對復雜題目時,它會自動切換到"思考模式",進行更深入的推理。通過觀察這個工具的行為模式,研究團隊只需要一次前向計算就能準確識別出哪些題目是真正困難的。
通過大量實驗驗證,團隊證實了這種識別方法的有效性。他們發(fā)現(xiàn),使用困難題目訓練的模型在各種數(shù)學推理基準測試上的表現(xiàn)顯著優(yōu)于使用簡單題目或隨機題目訓練的模型。更令人驚訝的是,僅使用19.2萬道困難題目訓練的模型,其表現(xiàn)幾乎與使用55.8萬道混合難度題目訓練的模型相當,這充分說明了題目質(zhì)量遠比數(shù)量更重要。
在題目生成階段,研究團隊訓練了一個專門的生成器模型DiffGen-8B。這個生成器就像一個專業(yè)的出題老師,專門擅長創(chuàng)造有挑戰(zhàn)性的數(shù)學問題。與傳統(tǒng)方法不同,這個生成器不需要復雜的提示工程或昂貴的API調(diào)用,就能高效地產(chǎn)生大量新的困難問題。
生成新題目后,團隊使用相對較小但高效的Qwen3-8B模型作為"老師"來為每道題目提供詳細的解答過程。這個選擇頗為巧妙:他們發(fā)現(xiàn),使用規(guī)模適中的模型作為教師,其效果與使用大型模型相差無幾,但成本卻大大降低。這就像發(fā)現(xiàn)一位經(jīng)驗豐富的中學老師在某些方面的教學效果并不遜色于大學教授一樣。
為了確保最終數(shù)據(jù)集的質(zhì)量,團隊設(shè)計了一套嚴格的篩選機制。首先是規(guī)則篩選,剔除那些存在明顯缺陷的解答,比如過度重復、推理過程冗長或最終答案格式不規(guī)范的情況。接著是模型篩選,如果基礎(chǔ)模型已經(jīng)能夠輕松解決某道題目,那么這道題就被認為不夠困難,會被排除在訓練集之外。通過這兩道篩選關(guān)卡,最終保留了約57%的高質(zhì)量題目-解答對。
最終構(gòu)建的ScaleDiff-Math數(shù)據(jù)集包含了170萬個數(shù)學題目-解答對,其中117萬個是新生成的困難問題。當研究團隊使用這個數(shù)據(jù)集對Qwen2.5-Math-7B-Instruct模型進行訓練時,結(jié)果令人振奮。
在多個權(quán)威數(shù)學競賽基準測試上,ScaleDiff模型都展現(xiàn)出了卓越的性能。在AIME 2024測試中達到了73.0%的準確率,在AIME 2025中達到58.7%,在HMMT-Feb 2025中達到43.3%,在BRUMO 2025中達到66.7%,在MATH500中達到95.2%。這些成績的平均值為65.9%,顯著超越了許多知名的強化學習和監(jiān)督學習模型,包括最近發(fā)布的OpenThinker3。
更重要的是,ScaleDiff相比于原始的AM-Qwen3-Distilled數(shù)據(jù)集實現(xiàn)了11.3%的相對性能提升。這個提升幅度看似不大,但在AI模型性能已經(jīng)相當高的基礎(chǔ)上,每一點提升都是極其珍貴的。
研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:模型性能與困難題目數(shù)量之間存在明顯的縮放關(guān)系。當他們逐步增加訓練數(shù)據(jù)中困難題目的數(shù)量時,模型在AIME等挑戰(zhàn)性測試中的表現(xiàn)持續(xù)改善。這種縮放現(xiàn)象表明,繼續(xù)增加高質(zhì)量困難題目的數(shù)量有望帶來進一步的性能提升。
特別值得一提的是,ScaleDiff在實現(xiàn)這些優(yōu)異成績的同時,其訓練成本相對較低。與許多依賴大型教師模型或需要多次采樣的方法不同,ScaleDiff每個問題只需要生成一個解答,大大降低了計算成本。雖然訓練數(shù)據(jù)中可能包含一些錯誤答案,但多樣化的推理軌跡仍然能夠有效提升模型的推理能力。
在深入分析生成問題的特征時,研究團隊發(fā)現(xiàn)了幾個有趣的規(guī)律。首先,通過AdaptThink識別的困難程度與解答長度存在強相關(guān)性:簡單問題通常只需要簡短的解答,而困難問題則需要更長、更詳細的推理過程。其次,DiffGen-8B生成的問題中約88%被驗證為困難問題,這說明專門的生成器確實學會了困難問題的分布特征。
此外,通過比較不同數(shù)據(jù)集的解答長度分布,團隊發(fā)現(xiàn)生成的困難問題往往比原始困難問題需要更長的解答,這暗示著生成的問題具有更高的內(nèi)在復雜性。這一發(fā)現(xiàn)得到了下游任務(wù)性能的印證:使用生成的困難問題訓練的模型確實比使用原始困難問題訓練的模型表現(xiàn)更好。
研究團隊還進行了詳細的消融實驗來驗證各個組件的貢獻。他們發(fā)現(xiàn),移除解答篩選步驟會導致性能下降,這說明質(zhì)量控制對于訓練數(shù)據(jù)的重要性。更重要的是,如果跳過困難問題識別步驟,直接在全部問題上訓練生成器,性能會有更顯著的下降,這進一步證實了專門針對困難問題進行生成的有效性。
在教師模型的選擇上,團隊比較了使用大型模型Qwen3-235B-A22B和較小模型Qwen3-8B作為教師的效果。結(jié)果顯示,雖然大型模型的表現(xiàn)略好,但差距并不顯著。這個發(fā)現(xiàn)具有重要的實用價值,因為它表明在資源有限的情況下,使用相對較小的模型作為教師仍能獲得不錯的效果。
研究團隊還探索了數(shù)據(jù)規(guī)模對模型性能的影響。通過變化增強數(shù)據(jù)集的大小,他們發(fā)現(xiàn)在更具挑戰(zhàn)性的AIME測試中,性能隨著困難問題數(shù)量的增加而持續(xù)提升,即使增強數(shù)據(jù)的規(guī)模達到原始數(shù)據(jù)的兩倍,性能增長仍未飽和。這個發(fā)現(xiàn)表明,繼續(xù)擴大困難問題的規(guī)模有望帶來更大的收益。
值得注意的是,在相對簡單的MATH500測試中,增加困難問題的數(shù)量對性能提升的作用有限。這個現(xiàn)象并不意外,因為當評估任務(wù)本身不夠困難時,額外的困難訓練數(shù)據(jù)自然難以發(fā)揮作用。這也從側(cè)面驗證了ScaleDiff方法的核心假設(shè):困難的訓練數(shù)據(jù)主要對提升復雜推理能力有幫助。
ScaleDiff的成功不僅在于其技術(shù)創(chuàng)新,更在于其實用性。整個方法簡潔明了,易于復現(xiàn)和擴展。研究團隊已經(jīng)開源了完整的數(shù)據(jù)集、模型和代碼,為社區(qū)提供了寶貴的資源。這種開放態(tài)度體現(xiàn)了學術(shù)研究的價值,讓更多研究者能夠在此基礎(chǔ)上進行進一步探索。
從更廣闊的視角來看,ScaleDiff代表了一種新的思路:通過精確識別和大規(guī)模生成困難樣本來提升AI模型的復雜推理能力。這種方法不僅適用于數(shù)學推理,在其他需要復雜推理的領(lǐng)域也可能有廣闊的應(yīng)用前景。
當然,這項研究也有一些局限性。目前,團隊主要關(guān)注解答的質(zhì)量控制,對于生成問題本身的數(shù)學正確性和可解性驗證仍然是一個挑戰(zhàn)。此外,如何評估和控制生成問題的多樣性,避免模式坍塌等問題,也需要進一步研究。
總的來說,ScaleDiff為構(gòu)建更強大的數(shù)學推理模型提供了一條清晰可行的路徑。它證明了通過聰明的方法選擇和生成困難訓練樣本,可以用相對較小的成本獲得顯著的性能提升。隨著這種方法的進一步發(fā)展和完善,我們有理由期待AI在數(shù)學推理能力上的進一步突破。
這項研究的影響已經(jīng)開始顯現(xiàn)。ScaleDiff不僅為學術(shù)界提供了新的研究方向,也為工業(yè)界開發(fā)更強大的AI數(shù)學助手提供了實用的技術(shù)路徑。隨著更多研究者采用和改進這種方法,我們可能很快就會看到AI在解決復雜數(shù)學問題上達到新的高度。
Q&A
Q1:ScaleDiff是什么?它與傳統(tǒng)的AI訓練方法有什么不同?
A:ScaleDiff是上海人工智能實驗室開發(fā)的一套專門用于提升AI數(shù)學推理能力的訓練方法。與傳統(tǒng)方法不同,ScaleDiff專門識別和生成困難的數(shù)學問題來訓練模型,就像專門用高難度題目來訓練奧數(shù)選手一樣。它通過一個智能識別系統(tǒng)找出真正困難的題目,然后訓練專門的生成器大批量創(chuàng)造類似難度的新題目,最后用這些高質(zhì)量的困難題目來訓練AI模型。
Q2:為什么困難的數(shù)學題目對AI訓練這么重要?
A:就像人類學習一樣,只有面對真正有挑戰(zhàn)性的問題,AI模型才能發(fā)展出復雜的推理能力。研究發(fā)現(xiàn),用困難題目訓練的模型比用簡單題目訓練的模型表現(xiàn)好很多。簡單題目就像小學加減法,雖然數(shù)量很多,但對提升高級推理能力幫助有限。困難題目需要模型進行多步推理、試錯和自我修正,這些正是復雜數(shù)學推理所必需的能力。
Q3:ScaleDiff訓練出的AI模型有多厲害?普通人能用嗎?
A:ScaleDiff訓練的模型在多個數(shù)學競賽測試中表現(xiàn)出色,比如在AIME 2024中達到73%的準確率,超越了許多知名的AI模型。不過這主要體現(xiàn)在解決高難度數(shù)學競賽題目上。對普通人來說,這意味著AI數(shù)學助手會變得更加智能,能夠處理更復雜的數(shù)學問題,比如高等數(shù)學、工程計算等。研究團隊已經(jīng)開源了相關(guān)技術(shù),預計很快就會有基于這種技術(shù)的實用產(chǎn)品出現(xiàn)。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。