在大型語言模型(LLM)技術(shù)飛速發(fā)展的當(dāng)下,來自新加坡科技設(shè)計大學(xué)和Lambda Labs的研究團(tuán)隊在2025年5月26日發(fā)布了一項創(chuàng)新研究,論文名為《Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision》(通過錯誤類型化實現(xiàn)更智能的獎勵:利用錯誤感知的層次化監(jiān)督改進(jìn)過程獎勵模型)。這篇發(fā)表在arXiv預(yù)印本平臺上的研究(arXiv:2505.19706v1),由Tej Deep Pala、Panshul Sharma、Amir Zadeh、Chuan Li和Soujanya Poria共同完成,帶來了一種全新的方式來改進(jìn)大語言模型的數(shù)學(xué)推理能力。
一、研究背景:為什么我們需要更好的數(shù)學(xué)推理監(jiān)督?
想象一下,你請一位朋友幫你解一道復(fù)雜的數(shù)學(xué)題。這位朋友開始一步步推導(dǎo),但在中間某個環(huán)節(jié)出錯了。如果你只看最終答案并說"錯了,重做",這對朋友的幫助不大。相反,如果你能指出"你在第三步計算除法時算錯了"或"你在第四步與問題條件不符",這樣的反饋就能幫助朋友更準(zhǔn)確地修正錯誤。
這正是目前大語言模型在數(shù)學(xué)推理中面臨的挑戰(zhàn)。盡管現(xiàn)代LLM在許多自然語言任務(wù)上表現(xiàn)出色,但它們在解決需要多步推理的數(shù)學(xué)問題時仍容易出現(xiàn)"幻覺"和邏輯錯誤。特別是在像數(shù)學(xué)這樣需要嚴(yán)格、一絲不茍的推理領(lǐng)域,一個微小的計算錯誤或邏輯失誤就可能導(dǎo)致整個解題過程偏離正確軌道。
傳統(tǒng)上,研究人員使用"結(jié)果獎勵模型"(Outcome Reward Models)來評估LLM的數(shù)學(xué)解題能力,這類模型只檢查最終答案是否正確。這就像只告訴你朋友"答案錯了",而不指出具體哪一步出了問題。近年來,"過程獎勵模型"(Process Reward Models,簡稱PRMs)應(yīng)運而生,它們能夠?qū)忸}過程中的每一步進(jìn)行評分,從而更精細(xì)地指導(dǎo)模型生成連貫可靠的解題路徑。
然而,現(xiàn)有的PRMs在識別細(xì)微錯誤類型方面仍然存在局限。它們往往將錯誤檢測(這一步有沒有錯)和路徑優(yōu)化(這一步對解決問題有多大幫助)混為一談,導(dǎo)致每種信號都未被充分利用。
二、PathFinder-PRM:把"偵探"和"指導(dǎo)員"的工作分開
研究團(tuán)隊提出的PathFinder-PRM就像是將一個經(jīng)驗豐富的數(shù)學(xué)老師的工作分成了兩個清晰的步驟:首先像偵探一樣找出錯誤的類型,然后再像指導(dǎo)員一樣給出整體評價。
傳統(tǒng)的PRMs工作方式是這樣的:給定一個數(shù)學(xué)問題和學(xué)生的解題步驟,它們會直接給每一步分配一個獎勵分?jǐn)?shù)。這個分?jǐn)?shù)隱含地反映了該步驟是否存在錯誤以及它對解決問題的貢獻(xiàn)如何。
PathFinder-PRM則采取了層次化的方法,將獎勵分配分解為兩個連續(xù)的子任務(wù):
首先,它會分析每一步可能存在的兩類錯誤: 1. 數(shù)學(xué)錯誤:包括算術(shù)或代數(shù)運算錯誤、公式應(yīng)用不當(dāng)、或無效的推理。 2. 一致性錯誤:與問題、先前步驟或已建立的約束存在邏輯不一致。
接著,在第二步中,它會利用這些錯誤信息來估計步驟的整體獎勵分?jǐn)?shù)。
想象一個具體例子:一個學(xué)生在解決"王小姐每小時賺12美元做保姆。昨天,她只做了50分鐘的保姆工作。她賺了多少錢?"這道題時,寫下了以下步驟:
- 第1步:王小姐每分鐘賺12/60 = 0.2美元。(正確步驟) - 第2步:讓我們先計算王小姐每分鐘賺多少錢。(冗余步驟,因為第1步已經(jīng)計算過了) - 第3步:王小姐每分鐘賺12/60 = 0.4美元。(計算錯誤) - 第4步:王小姐賺了12/50 = 0.24美元每分鐘。(與問題不一致,混淆了時間單位)
傳統(tǒng)的PRMs會直接給每一步分配一個分?jǐn)?shù),比如第1步0.85分,第2步0.63分,第3步0.46分,第4步0.35分,但不會明確指出錯誤的類型。
相比之下,PathFinder-PRM會先進(jìn)行錯誤分類: - 第1步:數(shù)學(xué)√,一致性√ → 獎勵分?jǐn)?shù)0.95 - 第2步:數(shù)學(xué)√,一致性√ → 獎勵分?jǐn)?shù)0.37(盡管沒有錯誤,但步驟冗余) - 第3步:數(shù)學(xué)×,一致性√ → 獎勵分?jǐn)?shù)0 - 第4步:數(shù)學(xué)√,一致性× → 獎勵分?jǐn)?shù)0
這種方法不僅能更準(zhǔn)確地指出錯誤所在,還能提供更豐富的監(jiān)督信號,幫助模型更好地理解和改進(jìn)推理過程。
三、構(gòu)建更豐富的數(shù)據(jù)集:多維度的錯誤標(biāo)注
為了訓(xùn)練PathFinder-PRM,研究團(tuán)隊構(gòu)建了一個包含約40萬個數(shù)學(xué)推理軌跡樣本的新數(shù)據(jù)集,每個樣本都有三維度的步級標(biāo)簽:(1)數(shù)學(xué)推理準(zhǔn)確性,(2)與先前步驟和數(shù)學(xué)領(lǐng)域的一致性,以及(3)步驟正確性。
這個數(shù)據(jù)集的構(gòu)建利用了兩個現(xiàn)有數(shù)據(jù)集: 1. PRM800K:包含人類專家標(biāo)注的步級正確性標(biāo)簽 2. RLHFlow Mistral數(shù)據(jù):通過蒙特卡洛估計生成的步級標(biāo)簽
對于PRM800K中原始標(biāo)簽為1(正確且最優(yōu))的步驟,研究團(tuán)隊將其映射為三維類別得分向量(1, 1, 1)。對于標(biāo)簽為0(正確但次優(yōu))的步驟,則映射為(1, 1, 0)。這反映了團(tuán)隊對人類標(biāo)簽的理解:標(biāo)簽{0, 1}表示無錯誤推理,而標(biāo)簽0特指非最優(yōu)流程步驟。
對于錯誤步驟(標(biāo)簽為-1),原始正確性標(biāo)簽不足以確定三個評估類別的分?jǐn)?shù)。因此,團(tuán)隊使用DeepSeek-R1-Distill-Qwen-32B模型為這些步驟生成二元類別標(biāo)簽。為保持?jǐn)?shù)據(jù)質(zhì)量,他們過濾掉了與-1人類標(biāo)注標(biāo)簽不一致的類別分?jǐn)?shù)向量樣本。
同樣,由于RLHFlow Mistral數(shù)據(jù)集缺乏金標(biāo)準(zhǔn)步級正確性標(biāo)簽,研究團(tuán)隊使用了相同的模型為隨機選擇的過程步驟子集分配二元類別標(biāo)簽,并實施了一致性過濾機制,刪除了與現(xiàn)有蒙特卡洛估計標(biāo)簽邏輯不兼容的分?jǐn)?shù)分配。
最終,PathFinder-PRM數(shù)據(jù)集包含了約40萬個推理軌跡樣本,其中約34.5萬來自PRM800K,另外5.5萬來自RLHFlow Mistral數(shù)據(jù)。研究團(tuán)隊訓(xùn)練了兩個模型變體:完整的PathFinder-PRM-7B和僅在PRM800K子集上訓(xùn)練的PathFinder-PRM-7B-PRM800k。
四、模型訓(xùn)練與設(shè)計:利用數(shù)學(xué)特長構(gòu)建更好的評估者
先前的研究表明,模型的數(shù)學(xué)推理能力與其作為過程獎勵模型的表現(xiàn)密切相關(guān)。基于這一發(fā)現(xiàn),研究團(tuán)隊選擇了Qwen2.5-Math-7B-Instruct作為初始模型,這個模型在多個數(shù)學(xué)基準(zhǔn)測試上已經(jīng)取得了最先進(jìn)的結(jié)果。
與最近的PRMs不同,后者會將語言建模頭替換為標(biāo)量值頭,PathFinder-PRM保留了原始的語言模型架構(gòu),并擴(kuò)展了標(biāo)記器,增加了兩個特殊標(biāo)記<+>和<->,分別表示正面和負(fù)面步驟標(biāo)簽。
訓(xùn)練目標(biāo)分為兩部分,模擬推理過程中的兩次前向傳遞: 1. 錯誤檢測目標(biāo):模型需要預(yù)測"數(shù)學(xué):<+>/<->"和"一致性:<+>/<->" 2. 獎勵估計目標(biāo):在預(yù)測的錯誤標(biāo)簽之后,模型需要預(yù)測"正確性:<+>/<->"
對于每個樣本,模型只計算這些標(biāo)簽標(biāo)記上的交叉熵?fù)p失。
五、實驗結(jié)果:細(xì)致的錯誤分類帶來全面性能提升
研究團(tuán)隊在多個評估基準(zhǔn)上測試了PathFinder-PRM的性能,包括ProcessBench、PRMBench以及一系列數(shù)學(xué)推理基準(zhǔn)測試。
在PRMBench上,PathFinder-PRM-7B取得了67.7的最高總體PRM得分,超過了先前最佳的Qwen2.5-Math-PRM-7B(65.5分)和ReasonEval-7B(60.0分)。即使是僅在PRM800K數(shù)據(jù)子集上訓(xùn)練的PathFinder-PRM-7B-PRM800K變體也達(dá)到了65.0的競爭性得分。值得注意的是,PathFinder-PRM-7B的表現(xiàn)超過了幾乎所有LLM-as-Judge模型,包括GPT-4o、QwQ-Preview-32B和Gemini-2.0-flash-exp。
在ProcessBench上,當(dāng)僅在PRM800K上訓(xùn)練時,PathFinder-PRM-7B-PRM800K獲得了65.2的平均F1分?jǐn)?shù),比之前最好的模型(Qwen2.5-Math-7B-PRM800K,58.5分)高出6.7分,并在所有類別中都超過了其他僅基于PRM800K的基準(zhǔn):GSM8K(+5.9)、MATH(+8.7)、Olympiad Bench(+8.0)和OmniMath(+12.3)。
利用更大的混合人工+自動標(biāo)注數(shù)據(jù)集進(jìn)一步提升了性能。PathFinder-PRM-7B達(dá)到了69.5的平均F1分?jǐn)?shù),創(chuàng)下了混合數(shù)據(jù)模型中的新記錄,并縮小了與頂級自動標(biāo)注模型(Qwen2.5-Math-PRM-7B,73.5分)的差距至僅4分。
更重要的是,研究團(tuán)隊評估了PathFinder-PRM在引導(dǎo)解決方案搜索中的實用性。使用Qwen2.5-Instruct-7B作為生成器,并使用PRMs對采樣步驟進(jìn)行排名,結(jié)果表明PathFinder-PRM-7B產(chǎn)生了最高的平均prm@8得分(48.25),超過了Qwen2.5-Math-PRM-7B(46.8)。這一優(yōu)勢在各個任務(wù)中都得到了保持,包括具有挑戰(zhàn)性的子集,如AIME24和College MATH,表明該模型與地面真實解決方案質(zhì)量有更好的歸納偏差和一致性。
特別值得注意的是,盡管Qwen2.5-Math-PRM-7B是在約150萬個自動標(biāo)注上訓(xùn)練的,但PathFinder-PRM-7B僅使用約40萬個樣本(約為前者的1/3),卻在關(guān)鍵基準(zhǔn)測試和獎勵引導(dǎo)搜索中達(dá)到或超過了其性能。在ProcessBench上,PathFinder-PRM-7B的表現(xiàn)與Qwen2.5-Math-PRM-7B相當(dāng)(平均F1分?jǐn)?shù)69.5比73.5),在PRMBench上表現(xiàn)更佳(67.7比65.5),并在獎勵引導(dǎo)貪婪搜索中產(chǎn)生更高的pass@8(48.3比46.8)。這表明層次化、錯誤感知的訓(xùn)練產(chǎn)生了更高效、更穩(wěn)健的PRMs,使用更少的樣本實現(xiàn)了更優(yōu)的過程監(jiān)督。
六、深入理解:為什么分解錯誤類型和任務(wù)能夠提升性能?
為了驗證研究的核心假設(shè),即錯誤檢測和值估計是互補但不同的目標(biāo),團(tuán)隊進(jìn)行了消融實驗,修改了方法的部分內(nèi)容:
1. 移除單獨的子任務(wù)預(yù)測:遵循現(xiàn)有PRM方法,團(tuán)隊訓(xùn)練模型只使用步驟正確性標(biāo)簽共同學(xué)習(xí)錯誤檢測和正確路徑引導(dǎo)。
2. 移除單獨的錯誤類別:在這種方法中,模型仍然進(jìn)行層次化預(yù)測,但在第一步中,它將錯誤類別組合起來,預(yù)測步驟中是否存在錯誤,而不是區(qū)分錯誤類型。
實驗結(jié)果證實了分離錯誤類別的益處:在ProcessBench上,明確區(qū)分?jǐn)?shù)學(xué)和一致性錯誤帶來了明顯的整體提升——PathFinder-PRM-7B的得分為69.5平均F1,而沒有單獨錯誤類別的版本僅為67.0。在PRMBench上也觀察到類似的性能下降。
更關(guān)鍵的是,獎勵引導(dǎo)搜索突顯了錯誤類型分類的實際影響:在對八個候選解決方案進(jìn)行排名時,PathFinder-PRM-7B實現(xiàn)了48.3的prm@8,而沒有單獨錯誤類別的PathFinder-PRM僅為45.4(+2.9分)。這種在實際問題解決性能上的躍升表明,細(xì)粒度的錯誤信號不僅改進(jìn)了診斷指標(biāo),還能直接轉(zhuǎn)化為選擇更高質(zhì)量解決路徑的能力。
PathFinder-PRM也從錯誤感知的層次化監(jiān)督中受益:在ProcessBench、PRMBench和獎勵引導(dǎo)搜索中,PathFinder-PRM始終優(yōu)于沒有單獨子任務(wù)預(yù)測的PathFinder-PRM,凸顯了分解反饋預(yù)測為離散推理組件的價值。
七、結(jié)論與未來發(fā)展
這項研究表明,通過將錯誤檢測與步驟優(yōu)化性指導(dǎo)分離,并進(jìn)一步區(qū)分不同類型的錯誤,可以顯著提升大語言模型在數(shù)學(xué)推理中的表現(xiàn)。PathFinder-PRM的設(shè)計類似于優(yōu)秀數(shù)學(xué)教師的工作方式:先指出錯誤的具體類型,然后再給予整體評價和改進(jìn)建議。
從更廣泛的角度看,這一研究成果對于提升LLM的推理能力具有重要意義。隨著像DeepSeek-R1和OpenAI的GPT-o系列等顯式推理中心LLM的興起,這類過程監(jiān)督技術(shù)將變得越來越關(guān)鍵——它們不僅能驗證最終答案,還能在每一步引導(dǎo)和糾正推理過程,確保整個過程的邏輯連貫性和事實準(zhǔn)確性。
PathFinder-PRM展示的方法不僅提高了錯誤檢測的細(xì)粒度能力,還顯著改善了端到端、獎勵引導(dǎo)的數(shù)學(xué)推理,同時具有更高的數(shù)據(jù)效率。這一成果為未來構(gòu)建更強大、更可靠的推理系統(tǒng)提供了寶貴思路。
對于普通用戶來說,這意味著未來的AI助手在幫助解決數(shù)學(xué)問題時,將能夠提供更準(zhǔn)確、更具教育意義的指導(dǎo)——不僅告訴你答案是否正確,還能指出具體哪一步出了問題,以及問題的具體類型,就像一位耐心的數(shù)學(xué)家教一樣。
研究團(tuán)隊認(rèn)為,這種錯誤感知的層次化獎勵生成方法是構(gòu)建更強健、更可解釋的過程獎勵模型的一個有前途的方向,并期待隨著擴(kuò)展到更大架構(gòu)時取得更多進(jìn)展。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。