av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

讓AI判斷推理中的錯誤更精準(zhǔn)：PathFinder-PRM如何通過分步解析優(yōu)化大語言模型的數(shù)學(xué)推理過程

人工智能數(shù)學(xué)推理過程獎勵模型

讓AI判斷推理中的錯誤更精準(zhǔn)：PathFinder-PRM如何通過分步解析優(yōu)化大語言模型的數(shù)學(xué)推理過程

作者：科技行者

2025-05-29 12:48

分享至：

這項研究提出了PathFinder-PRM，一種創(chuàng)新的層次化過程獎勵模型，通過先分類數(shù)學(xué)和一致性錯誤，再估算步驟獎勵分?jǐn)?shù)，從而提升大語言模型的數(shù)學(xué)推理能力。研究團(tuán)隊構(gòu)建了40萬樣本的數(shù)據(jù)集，使用細(xì)粒度錯誤標(biāo)簽訓(xùn)練模型，在多個基準(zhǔn)測試上超越了現(xiàn)有最佳模型，并以更高的數(shù)據(jù)效率實現(xiàn)了更好的端到端數(shù)學(xué)問題解決能力。這種方法像經(jīng)驗豐富的數(shù)學(xué)老師一樣，不僅指出錯誤所在，還能提供更精確的改進(jìn)指導(dǎo)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 12:48 ? 科技行者

在大型語言模型（LLM）技術(shù)飛速發(fā)展的當(dāng)下，來自新加坡科技設(shè)計大學(xué)和Lambda Labs的研究團(tuán)隊在2025年5月26日發(fā)布了一項創(chuàng)新研究，論文名為《Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision》（通過錯誤類型化實現(xiàn)更智能的獎勵：利用錯誤感知的層次化監(jiān)督改進(jìn)過程獎勵模型）。這篇發(fā)表在arXiv預(yù)印本平臺上的研究（arXiv:2505.19706v1），由Tej Deep Pala、Panshul Sharma、Amir Zadeh、Chuan Li和Soujanya Poria共同完成，帶來了一種全新的方式來改進(jìn)大語言模型的數(shù)學(xué)推理能力。

一、研究背景：為什么我們需要更好的數(shù)學(xué)推理監(jiān)督？

想象一下，你請一位朋友幫你解一道復(fù)雜的數(shù)學(xué)題。這位朋友開始一步步推導(dǎo)，但在中間某個環(huán)節(jié)出錯了。如果你只看最終答案并說"錯了，重做"，這對朋友的幫助不大。相反，如果你能指出"你在第三步計算除法時算錯了"或"你在第四步與問題條件不符"，這樣的反饋就能幫助朋友更準(zhǔn)確地修正錯誤。

這正是目前大語言模型在數(shù)學(xué)推理中面臨的挑戰(zhàn)。盡管現(xiàn)代LLM在許多自然語言任務(wù)上表現(xiàn)出色，但它們在解決需要多步推理的數(shù)學(xué)問題時仍容易出現(xiàn)"幻覺"和邏輯錯誤。特別是在像數(shù)學(xué)這樣需要嚴(yán)格、一絲不茍的推理領(lǐng)域，一個微小的計算錯誤或邏輯失誤就可能導(dǎo)致整個解題過程偏離正確軌道。

傳統(tǒng)上，研究人員使用"結(jié)果獎勵模型"（Outcome Reward Models）來評估LLM的數(shù)學(xué)解題能力，這類模型只檢查最終答案是否正確。這就像只告訴你朋友"答案錯了"，而不指出具體哪一步出了問題。近年來，"過程獎勵模型"（Process Reward Models，簡稱PRMs）應(yīng)運而生，它們能夠?qū)忸}過程中的每一步進(jìn)行評分，從而更精細(xì)地指導(dǎo)模型生成連貫可靠的解題路徑。

然而，現(xiàn)有的PRMs在識別細(xì)微錯誤類型方面仍然存在局限。它們往往將錯誤檢測（這一步有沒有錯）和路徑優(yōu)化（這一步對解決問題有多大幫助）混為一談，導(dǎo)致每種信號都未被充分利用。

二、PathFinder-PRM：把"偵探"和"指導(dǎo)員"的工作分開

研究團(tuán)隊提出的PathFinder-PRM就像是將一個經(jīng)驗豐富的數(shù)學(xué)老師的工作分成了兩個清晰的步驟：首先像偵探一樣找出錯誤的類型，然后再像指導(dǎo)員一樣給出整體評價。

傳統(tǒng)的PRMs工作方式是這樣的：給定一個數(shù)學(xué)問題和學(xué)生的解題步驟，它們會直接給每一步分配一個獎勵分?jǐn)?shù)。這個分?jǐn)?shù)隱含地反映了該步驟是否存在錯誤以及它對解決問題的貢獻(xiàn)如何。

PathFinder-PRM則采取了層次化的方法，將獎勵分配分解為兩個連續(xù)的子任務(wù)：

首先，它會分析每一步可能存在的兩類錯誤： 1. 數(shù)學(xué)錯誤：包括算術(shù)或代數(shù)運算錯誤、公式應(yīng)用不當(dāng)、或無效的推理。 2. 一致性錯誤：與問題、先前步驟或已建立的約束存在邏輯不一致。

接著，在第二步中，它會利用這些錯誤信息來估計步驟的整體獎勵分?jǐn)?shù)。

想象一個具體例子：一個學(xué)生在解決"王小姐每小時賺12美元做保姆。昨天，她只做了50分鐘的保姆工作。她賺了多少錢？"這道題時，寫下了以下步驟：

- 第1步：王小姐每分鐘賺12/60 = 0.2美元。（正確步驟） - 第2步：讓我們先計算王小姐每分鐘賺多少錢。（冗余步驟，因為第1步已經(jīng)計算過了） - 第3步：王小姐每分鐘賺12/60 = 0.4美元。（計算錯誤） - 第4步：王小姐賺了12/50 = 0.24美元每分鐘。（與問題不一致，混淆了時間單位）

傳統(tǒng)的PRMs會直接給每一步分配一個分?jǐn)?shù)，比如第1步0.85分，第2步0.63分，第3步0.46分，第4步0.35分，但不會明確指出錯誤的類型。

相比之下，PathFinder-PRM會先進(jìn)行錯誤分類： - 第1步：數(shù)學(xué)√，一致性√ → 獎勵分?jǐn)?shù)0.95 - 第2步：數(shù)學(xué)√，一致性√ → 獎勵分?jǐn)?shù)0.37（盡管沒有錯誤，但步驟冗余） - 第3步：數(shù)學(xué)×，一致性√ → 獎勵分?jǐn)?shù)0 - 第4步：數(shù)學(xué)√，一致性× → 獎勵分?jǐn)?shù)0

這種方法不僅能更準(zhǔn)確地指出錯誤所在，還能提供更豐富的監(jiān)督信號，幫助模型更好地理解和改進(jìn)推理過程。

三、構(gòu)建更豐富的數(shù)據(jù)集：多維度的錯誤標(biāo)注

為了訓(xùn)練PathFinder-PRM，研究團(tuán)隊構(gòu)建了一個包含約40萬個數(shù)學(xué)推理軌跡樣本的新數(shù)據(jù)集，每個樣本都有三維度的步級標(biāo)簽：(1)數(shù)學(xué)推理準(zhǔn)確性，(2)與先前步驟和數(shù)學(xué)領(lǐng)域的一致性，以及(3)步驟正確性。

這個數(shù)據(jù)集的構(gòu)建利用了兩個現(xiàn)有數(shù)據(jù)集： 1. PRM800K：包含人類專家標(biāo)注的步級正確性標(biāo)簽 2. RLHFlow Mistral數(shù)據(jù)：通過蒙特卡洛估計生成的步級標(biāo)簽

對于PRM800K中原始標(biāo)簽為1（正確且最優(yōu)）的步驟，研究團(tuán)隊將其映射為三維類別得分向量(1, 1, 1)。對于標(biāo)簽為0（正確但次優(yōu)）的步驟，則映射為(1, 1, 0)。這反映了團(tuán)隊對人類標(biāo)簽的理解：標(biāo)簽{0, 1}表示無錯誤推理，而標(biāo)簽0特指非最優(yōu)流程步驟。

對于錯誤步驟（標(biāo)簽為-1），原始正確性標(biāo)簽不足以確定三個評估類別的分?jǐn)?shù)。因此，團(tuán)隊使用DeepSeek-R1-Distill-Qwen-32B模型為這些步驟生成二元類別標(biāo)簽。為保持?jǐn)?shù)據(jù)質(zhì)量，他們過濾掉了與-1人類標(biāo)注標(biāo)簽不一致的類別分?jǐn)?shù)向量樣本。

同樣，由于RLHFlow Mistral數(shù)據(jù)集缺乏金標(biāo)準(zhǔn)步級正確性標(biāo)簽，研究團(tuán)隊使用了相同的模型為隨機選擇的過程步驟子集分配二元類別標(biāo)簽，并實施了一致性過濾機制，刪除了與現(xiàn)有蒙特卡洛估計標(biāo)簽邏輯不兼容的分?jǐn)?shù)分配。

最終，PathFinder-PRM數(shù)據(jù)集包含了約40萬個推理軌跡樣本，其中約34.5萬來自PRM800K，另外5.5萬來自RLHFlow Mistral數(shù)據(jù)。研究團(tuán)隊訓(xùn)練了兩個模型變體：完整的PathFinder-PRM-7B和僅在PRM800K子集上訓(xùn)練的PathFinder-PRM-7B-PRM800k。

四、模型訓(xùn)練與設(shè)計：利用數(shù)學(xué)特長構(gòu)建更好的評估者

先前的研究表明，模型的數(shù)學(xué)推理能力與其作為過程獎勵模型的表現(xiàn)密切相關(guān)。基于這一發(fā)現(xiàn)，研究團(tuán)隊選擇了Qwen2.5-Math-7B-Instruct作為初始模型，這個模型在多個數(shù)學(xué)基準(zhǔn)測試上已經(jīng)取得了最先進(jìn)的結(jié)果。

與最近的PRMs不同，后者會將語言建模頭替換為標(biāo)量值頭，PathFinder-PRM保留了原始的語言模型架構(gòu)，并擴(kuò)展了標(biāo)記器，增加了兩個特殊標(biāo)記<+>和<->，分別表示正面和負(fù)面步驟標(biāo)簽。

訓(xùn)練目標(biāo)分為兩部分，模擬推理過程中的兩次前向傳遞： 1. 錯誤檢測目標(biāo)：模型需要預(yù)測"數(shù)學(xué)：<+>/<->"和"一致性：<+>/<->" 2. 獎勵估計目標(biāo)：在預(yù)測的錯誤標(biāo)簽之后，模型需要預(yù)測"正確性：<+>/<->"

對于每個樣本，模型只計算這些標(biāo)簽標(biāo)記上的交叉熵?fù)p失。

五、實驗結(jié)果：細(xì)致的錯誤分類帶來全面性能提升

研究團(tuán)隊在多個評估基準(zhǔn)上測試了PathFinder-PRM的性能，包括ProcessBench、PRMBench以及一系列數(shù)學(xué)推理基準(zhǔn)測試。

在PRMBench上，PathFinder-PRM-7B取得了67.7的最高總體PRM得分，超過了先前最佳的Qwen2.5-Math-PRM-7B（65.5分）和ReasonEval-7B（60.0分）。即使是僅在PRM800K數(shù)據(jù)子集上訓(xùn)練的PathFinder-PRM-7B-PRM800K變體也達(dá)到了65.0的競爭性得分。值得注意的是，PathFinder-PRM-7B的表現(xiàn)超過了幾乎所有LLM-as-Judge模型，包括GPT-4o、QwQ-Preview-32B和Gemini-2.0-flash-exp。

在ProcessBench上，當(dāng)僅在PRM800K上訓(xùn)練時，PathFinder-PRM-7B-PRM800K獲得了65.2的平均F1分?jǐn)?shù)，比之前最好的模型（Qwen2.5-Math-7B-PRM800K，58.5分）高出6.7分，并在所有類別中都超過了其他僅基于PRM800K的基準(zhǔn)：GSM8K（+5.9）、MATH（+8.7）、Olympiad Bench（+8.0）和OmniMath（+12.3）。

利用更大的混合人工+自動標(biāo)注數(shù)據(jù)集進(jìn)一步提升了性能。PathFinder-PRM-7B達(dá)到了69.5的平均F1分?jǐn)?shù)，創(chuàng)下了混合數(shù)據(jù)模型中的新記錄，并縮小了與頂級自動標(biāo)注模型（Qwen2.5-Math-PRM-7B，73.5分）的差距至僅4分。

更重要的是，研究團(tuán)隊評估了PathFinder-PRM在引導(dǎo)解決方案搜索中的實用性。使用Qwen2.5-Instruct-7B作為生成器，并使用PRMs對采樣步驟進(jìn)行排名，結(jié)果表明PathFinder-PRM-7B產(chǎn)生了最高的平均prm@8得分（48.25），超過了Qwen2.5-Math-PRM-7B（46.8）。這一優(yōu)勢在各個任務(wù)中都得到了保持，包括具有挑戰(zhàn)性的子集，如AIME24和College MATH，表明該模型與地面真實解決方案質(zhì)量有更好的歸納偏差和一致性。

特別值得注意的是，盡管Qwen2.5-Math-PRM-7B是在約150萬個自動標(biāo)注上訓(xùn)練的，但PathFinder-PRM-7B僅使用約40萬個樣本（約為前者的1/3），卻在關(guān)鍵基準(zhǔn)測試和獎勵引導(dǎo)搜索中達(dá)到或超過了其性能。在ProcessBench上，PathFinder-PRM-7B的表現(xiàn)與Qwen2.5-Math-PRM-7B相當(dāng)（平均F1分?jǐn)?shù)69.5比73.5），在PRMBench上表現(xiàn)更佳（67.7比65.5），并在獎勵引導(dǎo)貪婪搜索中產(chǎn)生更高的pass@8（48.3比46.8）。這表明層次化、錯誤感知的訓(xùn)練產(chǎn)生了更高效、更穩(wěn)健的PRMs，使用更少的樣本實現(xiàn)了更優(yōu)的過程監(jiān)督。

六、深入理解：為什么分解錯誤類型和任務(wù)能夠提升性能？

為了驗證研究的核心假設(shè)，即錯誤檢測和值估計是互補但不同的目標(biāo)，團(tuán)隊進(jìn)行了消融實驗，修改了方法的部分內(nèi)容：

1. 移除單獨的子任務(wù)預(yù)測：遵循現(xiàn)有PRM方法，團(tuán)隊訓(xùn)練模型只使用步驟正確性標(biāo)簽共同學(xué)習(xí)錯誤檢測和正確路徑引導(dǎo)。

2. 移除單獨的錯誤類別：在這種方法中，模型仍然進(jìn)行層次化預(yù)測，但在第一步中，它將錯誤類別組合起來，預(yù)測步驟中是否存在錯誤，而不是區(qū)分錯誤類型。

實驗結(jié)果證實了分離錯誤類別的益處：在ProcessBench上，明確區(qū)分?jǐn)?shù)學(xué)和一致性錯誤帶來了明顯的整體提升——PathFinder-PRM-7B的得分為69.5平均F1，而沒有單獨錯誤類別的版本僅為67.0。在PRMBench上也觀察到類似的性能下降。

更關(guān)鍵的是，獎勵引導(dǎo)搜索突顯了錯誤類型分類的實際影響：在對八個候選解決方案進(jìn)行排名時，PathFinder-PRM-7B實現(xiàn)了48.3的prm@8，而沒有單獨錯誤類別的PathFinder-PRM僅為45.4（+2.9分）。這種在實際問題解決性能上的躍升表明，細(xì)粒度的錯誤信號不僅改進(jìn)了診斷指標(biāo)，還能直接轉(zhuǎn)化為選擇更高質(zhì)量解決路徑的能力。

PathFinder-PRM也從錯誤感知的層次化監(jiān)督中受益：在ProcessBench、PRMBench和獎勵引導(dǎo)搜索中，PathFinder-PRM始終優(yōu)于沒有單獨子任務(wù)預(yù)測的PathFinder-PRM，凸顯了分解反饋預(yù)測為離散推理組件的價值。

七、結(jié)論與未來發(fā)展

這項研究表明，通過將錯誤檢測與步驟優(yōu)化性指導(dǎo)分離，并進(jìn)一步區(qū)分不同類型的錯誤，可以顯著提升大語言模型在數(shù)學(xué)推理中的表現(xiàn)。PathFinder-PRM的設(shè)計類似于優(yōu)秀數(shù)學(xué)教師的工作方式：先指出錯誤的具體類型，然后再給予整體評價和改進(jìn)建議。

從更廣泛的角度看，這一研究成果對于提升LLM的推理能力具有重要意義。隨著像DeepSeek-R1和OpenAI的GPT-o系列等顯式推理中心LLM的興起，這類過程監(jiān)督技術(shù)將變得越來越關(guān)鍵——它們不僅能驗證最終答案，還能在每一步引導(dǎo)和糾正推理過程，確保整個過程的邏輯連貫性和事實準(zhǔn)確性。

PathFinder-PRM展示的方法不僅提高了錯誤檢測的細(xì)粒度能力，還顯著改善了端到端、獎勵引導(dǎo)的數(shù)學(xué)推理，同時具有更高的數(shù)據(jù)效率。這一成果為未來構(gòu)建更強大、更可靠的推理系統(tǒng)提供了寶貴思路。

對于普通用戶來說，這意味著未來的AI助手在幫助解決數(shù)學(xué)問題時，將能夠提供更準(zhǔn)確、更具教育意義的指導(dǎo)——不僅告訴你答案是否正確，還能指出具體哪一步出了問題，以及問題的具體類型，就像一位耐心的數(shù)學(xué)家教一樣。

研究團(tuán)隊認(rèn)為，這種錯誤感知的層次化獎勵生成方法是構(gòu)建更強健、更可解釋的過程獎勵模型的一個有前途的方向，并期待隨著擴(kuò)展到更大架構(gòu)時取得更多進(jìn)展。

人工智能數(shù)學(xué)推理過程獎勵模型

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<blockquote id="jqxol"><dfn id="jqxol"></dfn></blockquote>

<sub id="jqxol"></sub>