這項由蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院的丁宇陽、史鑫宇、李俊濤、梁曉波、張民等研究者,以及騰訊公司的涂兆鵬共同完成的研究,發(fā)表于2025年第39屆神經(jīng)信息處理系統(tǒng)會議(NeurIPS 2025)。有興趣深入了解的讀者可以通過論文編號arXiv:2509.16548v1查詢完整論文。
當(dāng)前人工智能領(lǐng)域最熱門的話題之一,就是如何讓AI模型在數(shù)學(xué)推理方面變得更加聰明。就像OpenAI的o1模型和DeepSeek的R1模型一樣,這些系統(tǒng)能夠進(jìn)行深度思考,一步步解決復(fù)雜的數(shù)學(xué)問題。但這背后有一個關(guān)鍵技術(shù)叫做"過程獎勵模型",它就像一個嚴(yán)格的數(shù)學(xué)老師,能夠檢查學(xué)生解題過程中每一個步驟是否正確。
然而,訓(xùn)練這樣的"AI數(shù)學(xué)老師"面臨著一個巨大的挑戰(zhàn)。傳統(tǒng)方法需要人類專家逐步標(biāo)注每個解題步驟的對錯,這個過程不僅耗時耗力,成本也極其高昂。為了降低成本,研究者們開始嘗試用蒙特卡洛估計方法來自動生成訓(xùn)練數(shù)據(jù),但這種方法產(chǎn)生的數(shù)據(jù)噪聲很大,就像讓一個不太熟練的學(xué)生去批改作業(yè)一樣,經(jīng)常會出現(xiàn)誤判。
蘇州大學(xué)的研究團(tuán)隊深入分析了這個問題的根源,發(fā)現(xiàn)噪聲主要來自兩個方面:AI模型有時會低估步驟的正確性,有時又會高估。基于這個發(fā)現(xiàn),他們提出了一個名為SCAN(Self-Denoising Monte Carlo Annotation)的創(chuàng)新框架,這個方法就像給那個不太熟練的學(xué)生配備了一套自我糾錯的工具。
一、揭開噪聲分布的神秘面紗
研究團(tuán)隊首先做了一件非常重要的事情:他們要搞清楚AI模型在判斷數(shù)學(xué)步驟正確性時到底會犯哪些錯誤。這就像醫(yī)生在治病前先要做全面的診斷一樣。
他們選擇了四個代表性的開源模型進(jìn)行研究,包括Llama3.1-8B-Instruct、Llama3.2-3B-Instruct、Qwen2.5-Math-1.5B-Instruct和Qwen2.5-Math-7B-Instruct。研究對象是ProcessBench數(shù)據(jù)集,這個數(shù)據(jù)集包含了33,400個人工標(biāo)注的數(shù)學(xué)推理過程數(shù)據(jù)。
為了量化模型的判斷能力,研究團(tuán)隊引入了一個叫做"自信度"的概念。這個自信度就像學(xué)生對自己答案的把握程度一樣,通過讓模型多次嘗試解決同一個問題,然后看它成功的比例來計算。如果一個模型在某個問題上的自信度是80%,意味著它有8次能給出正確答案,2次會出錯。
通過大量實驗,研究團(tuán)隊發(fā)現(xiàn)了幾個重要規(guī)律。首先,當(dāng)模型對問題的自信度較低時,它往往會過早地認(rèn)為某個步驟是錯誤的,這就像一個缺乏自信的學(xué)生總是懷疑自己的答案一樣。其次,對于能力較強(qiáng)的模型,由于它們具有一定的糾錯能力,有時會在高自信度區(qū)域出現(xiàn)相反的問題——它們可能會忽略真正的錯誤,認(rèn)為后面的步驟還能挽救回來。
最有趣的是,研究團(tuán)隊發(fā)現(xiàn)干凈無噪聲的樣本主要集中在高自信度區(qū)域。這個發(fā)現(xiàn)為后續(xù)的去噪策略提供了重要指導(dǎo):應(yīng)該更多地信任模型在高自信度情況下的判斷。
二、SCAN框架的巧妙設(shè)計
基于對噪聲分布的深入理解,研究團(tuán)隊設(shè)計了SCAN框架,這個框架包含兩個核心模塊:高效的數(shù)據(jù)合成框架和魯棒的訓(xùn)練方法。
在數(shù)據(jù)合成階段,SCAN采用了一個非常聰明的策略。傳統(tǒng)方法需要對每個樣本的每個步驟都進(jìn)行詳細(xì)檢查,這就像要求老師批改每份作業(yè)的每一行字一樣費(fèi)時費(fèi)力。SCAN的做法更像是先快速篩選出可能有問題的作業(yè),然后只對這些作業(yè)進(jìn)行詳細(xì)批改。
具體來說,對于每個數(shù)學(xué)問題,系統(tǒng)首先生成多個解答方案,然后計算模型對這個問題的自信度。對于那些最終答案正確的解答,如果模型的自信度較高,系統(tǒng)就直接將其標(biāo)記為正確樣本,不再進(jìn)行逐步檢查。這樣做的理由是,根據(jù)前面的分析,高自信度的正確樣本包含的噪聲很少。
只有對于那些最終答案錯誤的樣本,系統(tǒng)才會進(jìn)行詳細(xì)的逐步檢查,找出具體在哪一步開始出錯。這種選擇性處理方式大大提高了效率,使得整個標(biāo)注過程只需要傳統(tǒng)方法6%的計算成本,卻能達(dá)到100%的樣本利用率。
在訓(xùn)練階段,SCAN引入了兩個關(guān)鍵的改進(jìn)策略。第一個是"容錯標(biāo)注",這就像給嚴(yán)格的數(shù)學(xué)老師增加了一點寬容度。當(dāng)模型預(yù)測某個位置有錯誤時,系統(tǒng)不會簡單地將這個位置標(biāo)記為錯誤,而是考慮到模型可能存在的判斷偏差,對錯誤位置附近的幾個步驟都給予一定的容錯空間,使用軟標(biāo)簽而不是硬標(biāo)簽。
第二個策略是"置信度重加權(quán)",這個方法試圖消除不同能力模型之間的偏差。就像不同水平的老師批改同一份作業(yè)可能給出不同分?jǐn)?shù)一樣,不同能力的AI模型對同一個步驟的正確性判斷也會有差異。SCAN通過模型的自信度來調(diào)整這種偏差,讓最終的訓(xùn)練數(shù)據(jù)更加公平和準(zhǔn)確。
三、令人矚目的實驗結(jié)果
研究團(tuán)隊構(gòu)建了兩個版本的數(shù)據(jù)集來驗證SCAN的效果。SCAN-Base數(shù)據(jù)集包含101,000個樣本,完全由一個只有15億參數(shù)的小模型Qwen2.5-Math-1.5B-Instruct生成。SCAN-Pro數(shù)據(jù)集則進(jìn)一步擴(kuò)展到197,000個樣本,融合了多個不同規(guī)模模型的標(biāo)注結(jié)果。
實驗結(jié)果令人印象深刻。在Best-of-8評估中,這種評估方式就像讓AI從8個候選答案中選出最好的一個,SCAN訓(xùn)練的模型表現(xiàn)出色。僅使用101,000個合成樣本的SCAN-Base模型就能達(dá)到與使用大規(guī)模人工標(biāo)注數(shù)據(jù)集PRM800K訓(xùn)練的模型相當(dāng)?shù)男阅堋6鳶CAN-Pro模型更是超越了PRM800K的表現(xiàn),在多個數(shù)學(xué)基準(zhǔn)測試中都取得了最佳成績。
在ProcessBench的步驟級錯誤檢測任務(wù)中,SCAN的優(yōu)勢更加明顯。這個任務(wù)要求模型準(zhǔn)確識別數(shù)學(xué)推理過程中第一個錯誤出現(xiàn)的位置,就像要求AI精確定位學(xué)生作業(yè)中的第一個計算錯誤一樣。SCAN-Base模型在這個任務(wù)上的F1分?jǐn)?shù)達(dá)到了56.8,而SCAN-Pro更是達(dá)到了59.1,相比基線方法的19.9有了巨大提升。
更令人驚喜的是,通過SCAN訓(xùn)練的模型甚至超越了一些大型批評模型的表現(xiàn)。比如,SCAN-Pro模型的錯誤檢測能力甚至超過了700億參數(shù)的Llama-3.3-70B-Instruct模型。這證明了通過精心設(shè)計的訓(xùn)練方法,小模型也能在特定任務(wù)上達(dá)到甚至超越大模型的性能。
四、深入的消融實驗分析
為了驗證SCAN框架中每個組件的作用,研究團(tuán)隊進(jìn)行了詳盡的消融實驗。這些實驗就像拆解一臺精密機(jī)器,逐個檢驗每個零件的功能一樣。
首先,他們驗證了容錯距離參數(shù)的選擇。容錯距離就是在預(yù)測錯誤位置附近給予軟標(biāo)簽的范圍。實驗發(fā)現(xiàn),當(dāng)容錯距離設(shè)為2時效果最佳。距離太?。?)相當(dāng)于使用硬標(biāo)簽,會導(dǎo)致嚴(yán)重的噪聲問題;距離太大則會引入過多的不確定性,同樣影響訓(xùn)練效果。
其次,實驗證明了置信度重加權(quán)策略的重要性。這個策略不僅提高了單個模型的性能,在整合多個不同能力模型的標(biāo)注結(jié)果時更是發(fā)揮了關(guān)鍵作用。通過這種重加權(quán),不同模型之間的能力差異得到了有效平衡,使得最終的訓(xùn)練數(shù)據(jù)更加一致和可靠。
研究團(tuán)隊還探索了不同數(shù)據(jù)源的影響。他們發(fā)現(xiàn),問題的難度和質(zhì)量是影響最終性能的兩個關(guān)鍵因素。相比于相對簡單的GSM8K數(shù)據(jù)集,MATH數(shù)據(jù)集由于其適中的難度水平和高質(zhì)量的問題答案對,更適合用于訓(xùn)練過程獎勵模型。
五、技術(shù)創(chuàng)新的深層意義
SCAN框架的成功不僅僅在于其優(yōu)異的實驗結(jié)果,更重要的是它為過程獎勵學(xué)習(xí)領(lǐng)域帶來了全新的思路。傳統(tǒng)方法要么依賴昂貴的人工標(biāo)注,要么需要大型模型的強(qiáng)監(jiān)督,而SCAN證明了通過深入理解噪聲分布和精心設(shè)計的魯棒學(xué)習(xí)策略,即使是小模型也能生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。
這種方法的另一個重要意義在于其可擴(kuò)展性。隨著合成數(shù)據(jù)規(guī)模的增加,SCAN訓(xùn)練的模型性能持續(xù)提升,這表明該方法具有良好的擴(kuò)展?jié)摿?。在計算資源有限的情況下,這種高效的數(shù)據(jù)合成和訓(xùn)練方法為更多研究者和開發(fā)者提供了可行的解決方案。
從更廣闊的視角來看,SCAN的成功也為其他需要大量標(biāo)注數(shù)據(jù)的AI任務(wù)提供了啟發(fā)。通過深入分析數(shù)據(jù)噪聲的來源和分布特征,設(shè)計針對性的去噪和魯棒學(xué)習(xí)策略,可能在很多領(lǐng)域都能取得類似的突破。
六、未來發(fā)展的無限可能
雖然SCAN已經(jīng)取得了顯著的成果,但研究團(tuán)隊也指出了一些未來可以繼續(xù)探索的方向。首先是如何進(jìn)一步提高數(shù)據(jù)合成的效率,雖然SCAN已經(jīng)將計算成本降低到了傳統(tǒng)方法的6%,但在面對更大規(guī)模的應(yīng)用時,效率仍然是一個重要考量。
其次是如何將SCAN的思路擴(kuò)展到其他類型的推理任務(wù)。目前的研究主要集中在數(shù)學(xué)推理上,但類似的噪聲問題在科學(xué)推理、邏輯推理等其他領(lǐng)域同樣存在。如何根據(jù)不同領(lǐng)域的特點調(diào)整SCAN框架,是一個值得深入研究的問題。
另一個有趣的方向是如何結(jié)合SCAN與其他先進(jìn)技術(shù)。比如,將SCAN與知識蒸餾方法結(jié)合,可能能夠進(jìn)一步提升模型性能。研究團(tuán)隊的初步實驗已經(jīng)顯示了這種結(jié)合的潛力,但還有很大的探索空間。
說到底,SCAN框架的成功證明了一個重要觀點:在AI發(fā)展的道路上,有時候深入理解問題的本質(zhì)比簡單地增加模型規(guī)?;驍?shù)據(jù)量更加重要。通過仔細(xì)分析噪聲分布,設(shè)計巧妙的去噪策略,即使是資源有限的小模型也能在特定任務(wù)上達(dá)到令人驚喜的性能。這種思路不僅為過程獎勵學(xué)習(xí)領(lǐng)域帶來了突破,也為整個AI研究社區(qū)提供了寶貴的啟示。
歸根結(jié)底,這項研究展示了科學(xué)研究中"知其然,知其所以然"的重要性。只有深入理解了問題的根源,才能設(shè)計出真正有效的解決方案。對于普通人來說,這意味著未來我們可能會看到更多高效、準(zhǔn)確的AI數(shù)學(xué)助手,它們不僅能夠解決復(fù)雜的數(shù)學(xué)問題,還能準(zhǔn)確指出推理過程中的錯誤,成為真正有用的學(xué)習(xí)伙伴。
Q&A
Q1:SCAN框架是什么?它解決了什么問題?
A:SCAN是蘇州大學(xué)團(tuán)隊開發(fā)的一種AI訓(xùn)練方法,專門用于訓(xùn)練能夠檢查數(shù)學(xué)推理步驟的AI模型。它主要解決了傳統(tǒng)方法需要大量人工標(biāo)注、成本高昂,以及自動生成數(shù)據(jù)噪聲過大的問題,讓小模型也能高效準(zhǔn)確地找出數(shù)學(xué)推理中的錯誤。
Q2:為什么SCAN能用小模型達(dá)到大模型的效果?
A:SCAN的關(guān)鍵在于深入分析了AI判斷錯誤的規(guī)律,發(fā)現(xiàn)了噪聲分布的特點,然后設(shè)計了針對性的去噪策略。通過"容錯標(biāo)注"和"置信度重加權(quán)"等方法,即使15億參數(shù)的小模型也能生成高質(zhì)量的訓(xùn)練數(shù)據(jù),最終訓(xùn)練出的模型甚至超越了700億參數(shù)大模型的表現(xiàn)。
Q3:SCAN方法的效率提升有多大?
A:SCAN將數(shù)據(jù)標(biāo)注的計算成本降低到了傳統(tǒng)方法的6%,同時實現(xiàn)了100%的樣本利用率。這意味著用更少的計算資源就能生成更多高質(zhì)量的訓(xùn)練數(shù)據(jù),大大降低了訓(xùn)練AI數(shù)學(xué)推理模型的門檻和成本。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。