這項由澳大利亞蒙納什大學數(shù)據(jù)科學與人工智能系的韓九洲、越南VinUniversity的Wray Buntine以及蒙納什大學的Ehsan Shareghi共同完成的研究,發(fā)表于2025年8月的arXiv預印本平臺(論文編號:arXiv:2508.01773v1)。對這項研究感興趣的讀者可以通過https://github.com/Jiuzhouh/UnPRM訪問相關(guān)代碼和數(shù)據(jù)。
當我們看到一個學生在解數(shù)學題時,通常能夠判斷他在哪一步開始出錯。但讓人工智能做到這一點卻困難得多。就像訓練一位新手偵探不僅要識別最終的破案結(jié)果,還要評估推理過程中每一個環(huán)節(jié)的正確性一樣,讓AI在復雜的數(shù)學推理中準確識別每個步驟的對錯,一直是個巨大挑戰(zhàn)。
目前的大語言模型在處理復雜數(shù)學問題時表現(xiàn)出色,但它們在多步驟推理過程中不可避免地會產(chǎn)生錯誤。這就好比一位經(jīng)驗豐富的偵探在調(diào)查復雜案件時,可能在某個關(guān)鍵線索的分析上出現(xiàn)偏差,從而影響整個推理鏈條。為了解決這個問題,研究人員開發(fā)了過程級獎勵模型(Process Reward Models,簡稱PRMs),這種模型能夠像資深督察一樣,對推理過程中的每個步驟進行監(jiān)督和評估,從而有效提升模型的推理能力。
然而,訓練有效的PRMs需要高質(zhì)量的過程獎勵數(shù)據(jù),而現(xiàn)有的數(shù)據(jù)構(gòu)建方法往往勞動密集且效率低下。這就像培訓一位督察需要大量經(jīng)過精心標記的案例一樣,傳統(tǒng)方法要么依賴昂貴的人工標注,要么使用計算成本高昂的自動化方法。蒙納什大學的研究團隊針對這一難題,提出了一套基于不確定性驅(qū)動的自動化過程獎勵數(shù)據(jù)構(gòu)建框架,同時開發(fā)了兩種創(chuàng)新的輸出聚合方法,顯著提升了數(shù)學推理的準確性和效率。
一、破解數(shù)據(jù)構(gòu)建難題:不確定性成為破案線索
在傳統(tǒng)的偵探工作中,經(jīng)驗豐富的老警探往往能夠憑借直覺察覺到證人證詞中的不確定之處,這些猶豫和矛盾往往指向案件的關(guān)鍵。研究團隊發(fā)現(xiàn),人工智能在數(shù)學推理中的不確定性同樣具有重要價值。當AI模型在某個推理步驟上表現(xiàn)出不確定性時,這個步驟很可能包含錯誤或存在問題。
研究團隊采用了基于熵的不確定性估計方法來量化每個候選解題方案的不確定性。具體來說,對于一個包含n個詞匯的解題方案,他們會提取模型為每個生成詞匯分配的對數(shù)概率。通過對這些概率應用softmax函數(shù),得到概率分布,然后計算整個序列的熵值作為不確定性分數(shù)。較高的熵值表明模型在生成過程中缺乏信心,而較低的值則表示更加確定和果斷的預測。
基于這種不確定性度量,研究團隊設計了創(chuàng)新的PRM數(shù)據(jù)生成過程。他們首先為每個數(shù)學問題采樣k個候選解答,并計算每個解答的不確定性分數(shù)。然后根據(jù)最終答案的正確性將解答分為正確和錯誤兩類。關(guān)鍵的創(chuàng)新在于,他們專門選擇不確定性最高的正確解答和錯誤解答來構(gòu)建訓練數(shù)據(jù)。這種策略就像專門收集那些看似正確但推理過程存在疑點的案例,以及那些明顯錯誤但具有迷惑性的案例,這樣的訓練數(shù)據(jù)能夠讓PRM學會更好地識別推理過程中的細微錯誤。
這種有針對性的采樣策略鼓勵PRM從模糊或具有挑戰(zhàn)性的推理軌跡中學習,從而提高其在推理過程中識別和區(qū)分步驟級正確性的能力。就像訓練偵探時專門選擇那些疑點重重的案例進行分析,這種方法能夠讓AI在面對復雜推理時具備更強的判斷力。
二、精準定位錯誤:不確定性驅(qū)動的自動標注
確定了要分析哪些案例后,下一步就是準確識別推理過程中的錯誤步驟。傳統(tǒng)方法通常尋找第一個錯誤步驟,就像偵探按時間順序?qū)ふ野讣械牡谝粋€疑點。但研究團隊提出了一種更加精準的方法:尋找不確定性最大的錯誤步驟。
他們的自動標注算法首先為所有正確解答中的每個步驟分配"正確"標簽,假設這些步驟都沒有錯誤。對于錯誤的解答,算法會計算每個步驟的不確定性,以及相鄰步驟之間的不確定性變化量(稱為不確定性增量)。這些增量能夠識別模型不確定性急劇增加的位置,這些位置往往對應著推理錯誤發(fā)生的地方。
接下來,算法按照不確定性增量的大小對步驟進行排序,優(yōu)先處理那些不確定性變化最大的步驟。對于每個候選步驟,算法采用自適應采樣策略,從該步驟開始生成N個新的解答補全。然后使用蒙特卡羅方法計算基于困惑度的評分,這個評分反映了從該步驟開始能夠得到正確最終答案的可能性。
如果某個步驟的蒙特卡羅困惑度評分低于預設閾值,就表明從這個步驟開始很難得到正確答案,因此將該步驟之前的所有步驟標記為正確,該步驟及之后的所有步驟標記為錯誤。這種方法不同于尋找第一個錯誤步驟的傳統(tǒng)做法,而是專門定位推理過程中最不確定的錯誤,這樣的訓練數(shù)據(jù)能夠幫助PRM更好地學會識別推理中的關(guān)鍵問題。
實驗結(jié)果表明,這種不確定性驅(qū)動的標注方法在保持標注質(zhì)量的同時,顯著減少了計算成本。與傳統(tǒng)的自適應二分搜索方法相比,新方法減少了52%的驗證步驟數(shù)、34%的采樣次數(shù)和40%的生成詞匯量,大大提高了標注效率。
三、智能輸出聚合:結(jié)合群體智慧與專家判斷
當多位偵探對同一案件給出不同的推理結(jié)論時,如何選擇最可靠的答案?傳統(tǒng)方法主要有兩種:多數(shù)表決(選擇大多數(shù)偵探支持的結(jié)論)和專家評判(選擇評分最高的專家意見)。但這兩種方法都有局限性。多數(shù)表決在意見高度分散或者大多數(shù)人都犯同樣錯誤時會失效,而專家評判可能在面對超出訓練范圍的新問題時判斷失誤。
研究團隊針對這些局限性,提出了兩種創(chuàng)新的不確定性感知輸出聚合策略:混合多數(shù)獎勵投票法(HMR)和加權(quán)獎勵頻率投票法(WRF)。這兩種方法巧妙地結(jié)合了群體智慧的隱性信心信號和專家評判的顯性步驟級反饋。
混合多數(shù)獎勵投票法采用了一種靈活的決策機制。當某個答案在所有候選方案中出現(xiàn)的頻率達到一半以上時,系統(tǒng)會直接選擇這個多數(shù)答案,相信群體的判斷。但如果沒有答案達到絕對多數(shù)(即最高頻答案的出現(xiàn)次數(shù)少于總數(shù)的一半),系統(tǒng)就會啟動專家評判模式。在這種情況下,PRM會為每個候選解答計算步驟級評分,選擇評分最高的解答對應的答案。這種策略結(jié)合了多數(shù)表決的穩(wěn)健性和PRM評估的精細性,在明確共識和模糊情況下都能做出合理決策。
加權(quán)獎勵頻率投票法則提供了更加精細的聚合機制。該方法將每個候選答案的頻率信息和PRM質(zhì)量評估進行綜合考慮。對于每個獨特的答案,算法計算其平均PRM獎勵分數(shù)和出現(xiàn)頻率,然后對這兩個指標進行歸一化處理,確保它們在同一尺度上比較。最終的綜合分數(shù)通過加權(quán)平均計算得出,其中權(quán)重參數(shù)α控制獎勵質(zhì)量和頻率信息的相對重要性。在實驗中,研究團隊將α設置為0.5,給兩個因素相等的權(quán)重。
這種方法的優(yōu)勢在于它能夠在不同情況下自動調(diào)整決策策略。當群體意見一致時,頻率信息占主導;當意見分散但某些解答質(zhì)量明顯更高時,PRM評分發(fā)揮更大作用。通過整合候選解答的共識程度和步驟級PRM獎勵得出的置信度,WRF投票方法為答案聚合提供了更加細致和精確的機制。
四、實驗驗證:三個測試場景全面驗證效果
為了驗證這套方法的有效性,研究團隊設計了全面的實驗評估體系,就像一次大規(guī)模的偵探技能測試。他們使用了MATH數(shù)據(jù)集中的3500個具有挑戰(zhàn)性的競賽級數(shù)學問題來構(gòu)建PRM訓練數(shù)據(jù)。為了增加解題方案的多樣性,團隊采用了三種不同的大語言模型:Llama-3.1-8B-Instruct、Qwen2.5-7B-Instruct和Mistral-7B-Instruct。
對于每個模型,研究團隊設置采樣溫度為0.8,為每個數(shù)學問題生成32個解答方案。然后應用不確定性驅(qū)動的PRM數(shù)據(jù)生成方法,選擇不確定性最高的2個正確解答和6個錯誤解答。經(jīng)過格式過濾和步驟分割后,他們使用自動化的不確定性驅(qū)動步驟標簽標注方法,為來自三個模型的候選解答分配真假標簽,最終產(chǎn)生了40000個標記訓練樣本,稱為UnPRM40K。
為了進行對比驗證,研究團隊還構(gòu)建了幾個基準數(shù)據(jù)集。SimPRM40K使用相似性而非不確定性作為選擇標準,選擇余弦相似度分數(shù)最低的候選解答,然后使用相同的不確定性驅(qū)動標注方法進行標注。EpicPRM40K對相同的40000個樣本使用自適應二分搜索方法重新標注,這種方法基于第一個錯誤步驟而非最不確定錯誤進行標注。RanPRM40K則隨機選擇錯誤步驟位置,作為控制組來評估錯誤步驟位置對模型性能的影響。
在PRM訓練方面,研究團隊使用Qwen2.5-Math-7B-Instruct作為基礎模型。訓練過程采用監(jiān)督微調(diào)方法,輸入包括問題陳述和中間推理步驟,各步驟之間用特殊標記分隔。模型使用二元交叉熵損失進行優(yōu)化,目標是預測每個標注步驟的正確性。所有PRM都在單個A100 GPU上使用LoRA技術(shù)進行參數(shù)高效適應,訓練三個周期。
實驗結(jié)果令人印象深刻。在所有配置下,UnPRM40K始終優(yōu)于SimPRM40K,證明了不確定性驅(qū)動的PRM數(shù)據(jù)生成比相似性驅(qū)動方法更有效。UnPRM40K的表現(xiàn)也與EpicPRM40K相當,驗證了不確定性驅(qū)動標注方法的效率和有效性。正如預期,RanPRM40K表現(xiàn)最差,但由于正確解答的準確標記,仍顯示出一定改進。
在輸出聚合策略的測試中,兩種不確定性感知方法(WRF和HMR)在所有PRM中都持續(xù)優(yōu)于標準多數(shù)表決和傳統(tǒng)PRM方法。性能隨樣本數(shù)量增加而提升。特別值得注意的是,當標準PRM方法表現(xiàn)不如多數(shù)表決時,使用HMR和WRF能帶來顯著的性能提升。在兩種不確定性感知聚合策略中,WRF在大多數(shù)場景下表現(xiàn)出更好的穩(wěn)健性。
五、深度分析:揭示不確定性的指導價值
為了更深入理解這套方法的工作機制,研究團隊進行了詳細的分析實驗。他們發(fā)現(xiàn),在使用Qwen2.5-Math-7B-Instruct在MATH數(shù)據(jù)集上的128個輸出樣本中,超過一半的問題模型都能在所有128次嘗試中consistently預測出正確答案。相反地,大約100個問題模型連一次都無法給出正確答案。這種分布顯示了廣泛的頻率范圍,表明相當比例的問題在答案選擇上并非簡單明了。
通過可視化分析四種輸出聚合方法(多數(shù)表決、PRM、HMR、WRF)在不同金標準答案頻率下的正確性,研究團隊發(fā)現(xiàn)了有趣的模式。當金標準答案出現(xiàn)頻率很高(超過60次)時,多數(shù)表決方法能夠可靠地選擇正確答案,顯示出強的模型置信度。然而,當金標準答案頻率降至20以下時,多數(shù)表決的性能急劇下降,經(jīng)常無法恢復正確響應。
相比之下,PRM方法即使在金標準答案不頻繁(低于20)時仍能識別一些正確答案,盡管在高頻場景下可能會犯錯誤。HMR和WRF策略通過整合多數(shù)表決和PRM信號,明顯減少了在高頻區(qū)域PRM單獨使用時的錯誤。此外,WRF在中頻范圍(20到40之間)優(yōu)于HMR,產(chǎn)生更多正確預測。
研究團隊還分析了標注數(shù)據(jù)集UnPRM40K的統(tǒng)計特性。該數(shù)據(jù)集是使用三種不同的大語言模型生成和標注的,統(tǒng)計數(shù)據(jù)顯示了算法的效率。平均采樣步驟數(shù)反映了不確定性驅(qū)動搜索算法平均需要驗證多少步驟才能定位到最不確定的錯誤步驟,其中1代表最優(yōu)效率。在所有三個模型中,結(jié)果都非常接近1,表明不確定性驅(qū)動搜索算法在精確定位最不確定錯誤方面高度高效。
平均錯誤步驟不確定性排名顯示了識別的錯誤步驟的不確定性排名,0為最優(yōu)值。結(jié)果在所有三個模型中都consistent接近0,證明不確定性確實是定位錯誤的有效代理。這些發(fā)現(xiàn)與直覺一致,即大語言模型更可能在輸出不太確定的地方犯錯誤。
六、計算效率的顯著提升
在實際應用中,計算效率往往決定了一種方法是否具有實用價值。研究團隊對兩種自動化PRM數(shù)據(jù)標注算法的計算成本進行了詳細比較。他們使用相同的1500個解答(包括460個正確解答和1040個錯誤解答)進行測試,兩種方法都在單個A100 GPU上運行。
自適應二分搜索方法(用于EpicPRM40K)通過二分搜索過程標注數(shù)據(jù),識別第一個錯誤步驟。相比之下,不確定性驅(qū)動搜索方法(用于UnPRM40K)定位最不確定的錯誤步驟進行標注。由于正確解答的標注不需要任何采樣,計算成本主要由錯誤解答的標注驅(qū)動。
結(jié)果顯示,不確定性驅(qū)動方法顯著減少了驗證步驟數(shù)(減少52%)、采樣實例數(shù)(減少34%)和生成詞匯數(shù)(減少40%)。這種計算效率的提升不僅使方法更具成本效益,同時還實現(xiàn)了與自適應二分搜索相當?shù)男阅堋?/p>
這種效率提升的原因在于不確定性驅(qū)動方法能夠更直接地定位到問題所在,而不需要按順序搜索每個可能的錯誤位置。就像經(jīng)驗豐富的偵探能夠根據(jù)線索直接鎖定關(guān)鍵疑點,而不需要逐一排查每個細節(jié)一樣,不確定性信號為錯誤定位提供了有效的導航。
七、局限性與未來展望
研究團隊客觀地指出了這套方法的局限性。雖然不確定性感知聚合方法整合了答案頻率信息,但它們的性能可能受到多數(shù)表決基線質(zhì)量的影響。在多數(shù)表決表現(xiàn)較差的場景中,將其與基于PRM的方法結(jié)合可能不會產(chǎn)生額外改進,甚至可能影響整體性能。
不過,研究發(fā)現(xiàn)這些聚合策略在多數(shù)表決表現(xiàn)更好或與PRM相當時特別有效。這就像在團隊決策中,當團隊成員意見相對一致時,結(jié)合個人專業(yè)判斷往往能取得更好效果;但當團隊整體判斷力較差時,簡單的組合可能不會帶來顯著改善。
盡管存在這些局限性,這項研究為提高大語言模型在數(shù)學推理任務中的性能開辟了新的方向。不確定性驅(qū)動的數(shù)據(jù)構(gòu)建框架不僅提高了效率,還為理解和改進AI推理能力提供了新的視角。兩種創(chuàng)新的輸出聚合策略展示了結(jié)合不同信息源進行決策的潛力,這種思路可能在其他需要復雜推理的任務中也具有應用價值。
說到底,這項研究就像為AI訓練了一套完整的"偵探技能"。通過不確定性這個關(guān)鍵線索,AI不僅能夠更有效地學習如何識別推理錯誤,還能在面對復雜問題時做出更可靠的判斷。隨著這些技術(shù)的進一步發(fā)展和完善,我們有理由相信,AI在數(shù)學推理等需要精密邏輯思維的領域?qū)⒄宫F(xiàn)出更加強大和可靠的能力。
對于普通讀者來說,這項研究的意義在于它讓我們看到了AI系統(tǒng)如何變得更加"智能"和"可靠"。當我們在日常生活中需要AI幫助解決復雜問題時,這種能夠自我監(jiān)督、自我糾錯的能力將使AI成為更值得信賴的助手。有興趣深入了解技術(shù)細節(jié)的讀者可以訪問研究團隊在GitHub上公開的代碼和數(shù)據(jù),親自體驗這項技術(shù)的實際效果。
Q&A
Q1:不確定性驅(qū)動的PRM數(shù)據(jù)構(gòu)建方法具體是如何工作的?
A:這種方法類似于訓練偵探時專門選擇疑點重重的案例。系統(tǒng)首先計算AI在每個解題步驟中的不確定性程度,然后專門挑選那些不確定性最高的正確答案和錯誤答案來訓練模型。這樣能讓AI學會識別推理過程中最容易出錯的關(guān)鍵環(huán)節(jié),就像讓偵探重點關(guān)注案件中最可疑的線索一樣。
Q2:混合多數(shù)獎勵投票法和加權(quán)獎勵頻率投票法有什么區(qū)別?
A:混合多數(shù)獎勵投票法像是有條件的民主決策:當超過一半的答案一致時就采用多數(shù)表決,否則就聽專家意見。而加權(quán)獎勵頻率投票法更像是綜合評議,同時考慮答案的流行度和專業(yè)評分,通過加權(quán)平均得出最終結(jié)論,通常在各種情況下都更穩(wěn)定可靠。
Q3:這項研究對普通人使用AI有什么實際意義?
A:這項研究讓AI在解決復雜數(shù)學問題時變得更加可靠和值得信賴。當我們需要AI幫助處理需要多步驟推理的問題時,比如財務計算、工程設計或?qū)W習輔導,AI將能夠更準確地識別自己的推理錯誤,給出更可靠的答案,減少因AI推理錯誤而產(chǎn)生的問題。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。