在人工智能快速發(fā)展的今天,多模態(tài)大語言模型(MLLMs)在視覺-語言理解方面取得了令人矚目的進(jìn)展,但在處理復(fù)雜的多步驟推理任務(wù)時(shí),它們?nèi)匀幻媾R著巨大挑戰(zhàn)。這些模型往往會(huì)產(chǎn)生邏輯不一致或部分正確的解決方案,就像一個(gè)學(xué)生解數(shù)學(xué)題時(shí),雖然有時(shí)能得到正確答案,但中間過程卻充滿錯(cuò)誤。為什么會(huì)出現(xiàn)這種情況呢?上海人工智能實(shí)驗(yàn)室、上海創(chuàng)新研究院和上海交通大學(xué)的研究團(tuán)隊(duì)在2025年5月發(fā)布的論文《MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision》中指出,這主要是因?yàn)槿狈?duì)中間推理步驟的細(xì)粒度監(jiān)督。
想象一下,如果你在教一個(gè)孩子解決數(shù)學(xué)問題,你通常不會(huì)只關(guān)注最終答案是否正確,而是會(huì)檢查每一個(gè)解題步驟。這正是研究團(tuán)隊(duì)提出的MM-PRM(多模態(tài)過程獎(jiǎng)勵(lì)模型)所做的事情。這個(gè)模型就像一位耐心的數(shù)學(xué)老師,能夠評(píng)估解題過程中每一步的質(zhì)量,而不僅僅是對(duì)最終答案打分。
研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)名為MM-Policy的強(qiáng)大多模態(tài)模型,通過在各種數(shù)學(xué)推理數(shù)據(jù)上進(jìn)行訓(xùn)練。然后,他們精心策劃了一個(gè)包含10,000個(gè)多模態(tài)數(shù)學(xué)問題的數(shù)據(jù)集MM-K12,這些問題都有可驗(yàn)證的答案,作為種子數(shù)據(jù)。接下來,利用一種基于蒙特卡洛樹搜索(MCTS)的流程,他們自動(dòng)生成了超過70萬個(gè)步驟級(jí)別的標(biāo)注,而無需人工標(biāo)注。這就像是創(chuàng)建了一個(gè)自動(dòng)駕駛的批改系統(tǒng),能夠識(shí)別并標(biāo)記解題過程中的每一個(gè)步驟是否正確。
最終訓(xùn)練出的MM-PRM被用來在Best-of-N推理設(shè)置中對(duì)候選推理路徑進(jìn)行評(píng)分,并在多個(gè)基準(zhǔn)測(cè)試中取得了顯著的提升。例如,在MM-K12測(cè)試集上,準(zhǔn)確率從33.92%提高到了42.80%;在MathVista上,從62.93%提高到67.60%;在OlympiadBench上,從15.41%提高到24.00%。這些提升證明了過程監(jiān)督是增強(qiáng)多模態(tài)推理系統(tǒng)邏輯穩(wěn)健性的強(qiáng)大工具。
研究團(tuán)隊(duì)還發(fā)現(xiàn),軟標(biāo)簽(與硬標(biāo)簽相比)、較小的學(xué)習(xí)率以及路徑多樣性是優(yōu)化PRM性能的關(guān)鍵因素。就像烹飪一樣,不僅需要優(yōu)質(zhì)的原料(數(shù)據(jù)),還需要適當(dāng)?shù)幕鸷颍▽W(xué)習(xí)率)和多樣的味道(路徑多樣性)才能做出美味佳肴。
讓我們深入了解這項(xiàng)研究的細(xì)節(jié),看看研究團(tuán)隊(duì)是如何一步步改進(jìn)多模態(tài)數(shù)學(xué)推理能力的。
一、研究背景與挑戰(zhàn)
在我們?nèi)粘I钪?,許多問題需要多步驟的邏輯推理才能解決。想象一下,當(dāng)你計(jì)劃一次旅行,需要考慮預(yù)算、時(shí)間、交通和住宿等多個(gè)因素。大語言模型(LLMs)如OpenAI的GPT-4、Qwen、InternLM等在處理這類需要一般推理和數(shù)學(xué)問題解決的任務(wù)上取得了顯著進(jìn)步。同時(shí),多模態(tài)大語言模型(MLLMs)如InternVL、Qwen-VL等也在視覺-語言理解方面展現(xiàn)出令人矚目的能力。
然而,當(dāng)面對(duì)需要復(fù)雜多步驟推理的數(shù)學(xué)問題時(shí),特別是包含圖像的問題,這些模型仍然表現(xiàn)不佳。它們常常會(huì)出現(xiàn)邏輯鏈斷裂、中間步驟不準(zhǔn)確,或者有時(shí)雖然得到了正確的最終答案,但中間步驟卻是錯(cuò)誤的——這種現(xiàn)象引入了高假陽性率,并且削弱了模型解釋性。
為了解決這個(gè)問題,獎(jiǎng)勵(lì)建模(reward modeling)成為了一個(gè)有前途的方法。獎(jiǎng)勵(lì)模型在基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)中扮演著核心角色,也可以在推理時(shí)使用測(cè)試時(shí)縮放(TTS)策略如Best-of-N(BoN)來選擇多個(gè)候選響應(yīng)中的最佳答案。
獎(jiǎng)勵(lì)模型主要分為兩類:結(jié)果獎(jiǎng)勵(lì)模型(ORMs)和過程獎(jiǎng)勵(lì)模型(PRMs)。結(jié)果獎(jiǎng)勵(lì)模型只對(duì)最終答案提供評(píng)分,忽略了中間推理步驟的質(zhì)量,這限制了它們引導(dǎo)模型走向穩(wěn)健推理路徑的能力。相比之下,過程獎(jiǎng)勵(lì)模型提供了更細(xì)粒度的方法,通過評(píng)估每個(gè)推理步驟,實(shí)現(xiàn)更準(zhǔn)確和可解釋的反饋。
近期,一些研究探索了純文本數(shù)學(xué)推理中的過程獎(jiǎng)勵(lì)模型。PRM800k手動(dòng)構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集,包含步驟級(jí)別的正確性標(biāo)簽,但這種方法難以擴(kuò)展。MathShepherd通過評(píng)估給定步驟的延續(xù)是否能夠?qū)蛘_答案來標(biāo)記推理步驟,但其效率相對(duì)較低。OmegaPRM引入了基于蒙特卡洛樹搜索(MCTS)的框架,能夠高效自動(dòng)生成過程監(jiān)督數(shù)據(jù)。然而,所有這些工作都集中在純文本數(shù)學(xué)推理上。在多模態(tài)數(shù)學(xué)推理領(lǐng)域,如何設(shè)計(jì)一個(gè)高效的框架來生成過程監(jiān)督數(shù)據(jù)并穩(wěn)定地訓(xùn)練過程獎(jiǎng)勵(lì)模型仍然是一個(gè)具有挑戰(zhàn)性的問題。
二、MM-PRM:多模態(tài)過程獎(jiǎng)勵(lì)模型的創(chuàng)新方法
為了解決上述挑戰(zhàn),研究團(tuán)隊(duì)提出了MM-PRM,這是一個(gè)強(qiáng)大的過程獎(jiǎng)勵(lì)模型,能夠有效處理域內(nèi)和域外問題。具體來說,他們?cè)O(shè)計(jì)了一個(gè)由三個(gè)相互連接的階段組成的結(jié)構(gòu)化流程:
首先,在**策略模型構(gòu)建**階段,他們訓(xùn)練了一個(gè)多模態(tài)策略模型,按照思維鏈(CoT)范式生成高質(zhì)量的推理軌跡。
接著,在**過程監(jiān)督數(shù)據(jù)生成**階段,他們使用基于MCTS的引擎OmegaPRM來高效識(shí)別推理缺陷并大規(guī)模生成步驟級(jí)別的獎(jiǎng)勵(lì)標(biāo)簽。
最后,在**過程獎(jiǎng)勵(lì)模型訓(xùn)練**階段,他們訓(xùn)練了一個(gè)PRM來評(píng)估每個(gè)推理步驟并提供密集反饋。
這個(gè)端到端的設(shè)計(jì)確保了過程監(jiān)督可以被生成、建模和應(yīng)用在一個(gè)完全閉環(huán)中。這顯著提高了推理質(zhì)量和穩(wěn)健性,特別是在需要長(zhǎng)邏輯鏈的任務(wù)中。
### 策略模型構(gòu)建
策略模型是整個(gè)框架的基礎(chǔ),負(fù)責(zé)生成給定多模態(tài)數(shù)學(xué)問題的候選推理軌跡。這些軌跡后續(xù)會(huì)被評(píng)估和標(biāo)記,形成用于訓(xùn)練PRM的步驟級(jí)別監(jiān)督。因此,確保策略模型產(chǎn)生邏輯連貫和結(jié)構(gòu)完整的輸出對(duì)整個(gè)系統(tǒng)的有效性至關(guān)重要。
為了訓(xùn)練策略模型,研究團(tuán)隊(duì)整理了一個(gè)大規(guī)模、高質(zhì)量的數(shù)學(xué)問題數(shù)據(jù)集,涵蓋了廣泛的主題和難度級(jí)別。該數(shù)據(jù)集整合了來自十幾個(gè)公共數(shù)學(xué)數(shù)據(jù)集的樣本,包括R-CoT、MAVIS、MathV360K、NuminaMath和DART-Math等,問題范圍從小學(xué)算術(shù)到高級(jí)幾何和統(tǒng)計(jì)學(xué)。
收集后,所有數(shù)據(jù)都經(jīng)過嚴(yán)格的清洗和格式標(biāo)準(zhǔn)化。視覺和文本內(nèi)容被明確配對(duì),推理軌跡被重新格式化,遵循結(jié)構(gòu)化的CoT模式,每個(gè)邏輯步驟都使用結(jié)構(gòu)化標(biāo)簽如``清晰標(biāo)記,最終結(jié)論用``標(biāo)注。為了提高質(zhì)量和清晰度,他們利用了一個(gè)強(qiáng)大的指令調(diào)整語言模型(Qwen2.5-72B-Instruct)來解析原始解決方案并將它們重構(gòu)為連貫、模塊化的步驟。這種結(jié)構(gòu)化表示不僅增強(qiáng)了模型的可學(xué)習(xí)性,還為下一階段生成步驟級(jí)別獎(jiǎng)勵(lì)標(biāo)簽奠定了基礎(chǔ)。
有了這個(gè)經(jīng)過清洗和注釋的語料庫(超過500萬個(gè)例子),研究團(tuán)隊(duì)使用監(jiān)督學(xué)習(xí)對(duì)一個(gè)強(qiáng)大的開源多模態(tài)模型InternVL2.5-8B進(jìn)行了微調(diào)。這確保了模型學(xué)會(huì)產(chǎn)生符合CoT推理模式的邏輯合理且結(jié)構(gòu)良好的輸出。
### 過程監(jiān)督數(shù)據(jù)生成
為了實(shí)現(xiàn)步驟級(jí)別推理的細(xì)粒度監(jiān)督,研究團(tuán)隊(duì)采用了基于OmegaPRM框架的自動(dòng)化過程注釋流程。OmegaPRM引入了一種基于MCTS的機(jī)制,用于高效識(shí)別和標(biāo)記中間推理步驟并附帶置信度估計(jì)。雖然最初是為文本數(shù)學(xué)推理開發(fā)的,但他們對(duì)這個(gè)框架進(jìn)行了調(diào)整和擴(kuò)展,以處理多模態(tài)輸入。
他們的過程從收集一個(gè)精心策劃的10,000個(gè)多模態(tài)數(shù)學(xué)問題數(shù)據(jù)集MM-K12開始,包括5,000個(gè)填空題和5,000個(gè)多選題。這些問題涵蓋了從小學(xué)到高中的各種課程主題,作為過程監(jiān)督生成的種子實(shí)例。MM-K12中的所有例子都經(jīng)過仔細(xì)篩選,確保每個(gè)問題包含有意義的視覺輸入和一個(gè)唯一的、可驗(yàn)證的答案,使它們非常適合結(jié)構(gòu)化推理和獎(jiǎng)勵(lì)建模。此外,MM-K12還提供了一個(gè)獨(dú)立的500個(gè)問題的測(cè)試集,按照相同標(biāo)準(zhǔn)構(gòu)建,用于后續(xù)評(píng)估域內(nèi)性能。對(duì)于每個(gè)問題,策略模型按照CoT范式生成多個(gè)候選解決方案,這些推理路徑構(gòu)成了后續(xù)獎(jiǎng)勵(lì)注釋的原始材料。
為了評(píng)估每個(gè)中間步驟的正確性,他們遵循OmegaPRM的分層展開和搜索協(xié)議。具體來說,他們從部分前綴生成多個(gè)完成(展開),并基于其下游完成是否達(dá)到正確的最終答案來估計(jì)給定步驟的正確性。通過應(yīng)用二分搜索,算法能夠高效定位推理開始偏離的最早步驟。這些監(jiān)督信號(hào)然后被聚合到一個(gè)結(jié)構(gòu)化的狀態(tài)-動(dòng)作樹中,該樹記錄了每個(gè)推理狀態(tài)的蒙特卡洛(MC)估計(jì)和其他統(tǒng)計(jì)數(shù)據(jù)。在他們的實(shí)現(xiàn)中,他們?cè)谡麄€(gè)樹構(gòu)建和搜索過程中保持完整的多模態(tài)上下文——包括文本和視覺組件。
重要的是,他們的調(diào)整保留了OmegaPRM的分治搜索效率,同時(shí)實(shí)現(xiàn)了對(duì)以復(fù)雜視覺刺激為條件的推理步驟的獎(jiǎng)勵(lì)監(jiān)督。通過這個(gè)流程,他們僅從10k個(gè)種子問題生成了超過70萬個(gè)步驟級(jí)別的注釋,無需手動(dòng)標(biāo)注。由此產(chǎn)生的數(shù)據(jù)集提供了與真實(shí)多模態(tài)推理一致的密集、高質(zhì)量的過程監(jiān)督。
### 過程獎(jiǎng)勵(lì)模型訓(xùn)練
有了大規(guī)模的步驟級(jí)別監(jiān)督,他們繼續(xù)訓(xùn)練一個(gè)PRM,能夠評(píng)估給定多模態(tài)上下文的推理步驟質(zhì)量。PRM被設(shè)計(jì)為一個(gè)細(xì)粒度的評(píng)論者,為每個(gè)中間步驟分配一個(gè)獎(jiǎng)勵(lì)分?jǐn)?shù),條件是其前面的推理上下文,這使得測(cè)試時(shí)縮放和潛在的RL應(yīng)用成為可能。
在PRM訓(xùn)練中的一個(gè)核心設(shè)計(jì)決策在于如何從MC估計(jì)中制定監(jiān)督信號(hào)。與采用硬二元標(biāo)簽(例如,$\hat{y} = 1[MC(s) > \tau]$)不同,他們使用軟標(biāo)簽,直接將MC分?jǐn)?shù)作為連續(xù)監(jiān)督目標(biāo)。
這一選擇的動(dòng)機(jī)是觀察到MC分?jǐn)?shù)反映的不僅僅是中間步驟的正確性。它還編碼了諸如問題難度、步驟關(guān)鍵性以及策略模型展開中的分布不確定性等因素。例如,高度模糊或視覺復(fù)雜問題中的推理步驟可能會(huì)產(chǎn)生較低的MC分?jǐn)?shù),即使邏輯在根本上是合理的。在這種情況下,硬閾值可能會(huì)錯(cuò)誤表示步驟的質(zhì)量,給訓(xùn)練引入噪音。相比之下,軟標(biāo)簽保留了概率性細(xì)微差別,使學(xué)習(xí)動(dòng)態(tài)更加平滑。
形式上,對(duì)于路徑$x = [x_1, x_2, \ldots, x_T]$中的每個(gè)推理步驟$x_t$,他們分配了一個(gè)監(jiān)督目標(biāo)$\hat{y}_t = MC(x_{<t}) \in [0, 1]$,其中$MC(x_{<t})$表示從這個(gè)部分路徑可以達(dá)到正確最終答案的估計(jì)概率。
為了建模預(yù)測(cè)任務(wù),他們將PRM視為一個(gè)在每個(gè)推理步驟上操作的分類器。給定一個(gè)多模態(tài)輸入$q$和一個(gè)生成的推理軌跡$[x_1, x_2, \ldots, x_T]$,他們?cè)诿總€(gè)步驟之后插入一個(gè)特殊標(biāo)記,表示為$\sigma$,產(chǎn)生形式為$[q, x_1, \sigma, x_2, \sigma, \ldots, x_T, \sigma]$的輸入序列。在他們的實(shí)現(xiàn)中,$\sigma$被實(shí)例化為標(biāo)記``。在每次出現(xiàn)$\sigma$時(shí),模型的任務(wù)是產(chǎn)生一個(gè)標(biāo)量置信度分?jǐn)?shù),表示前面的步驟在邏輯上是否正確。
通過訓(xùn)練目標(biāo)是最小化預(yù)測(cè)分?jǐn)?shù)$p^{(i)}$和軟標(biāo)簽$\hat{y}^{(i)}$之間的交叉熵?fù)p失,跨越所有評(píng)分點(diǎn):
$L_{PRM} = -\sum_{i=1}^{T} \left[ \hat{y}^{(i)} \cdot \log p^{(i)} + (1 - \hat{y}^{(i)}) \cdot \log(1 - p^{(i)}) \right]$
這個(gè)公式引導(dǎo)模型對(duì)推理步驟進(jìn)行細(xì)粒度評(píng)估,將更高的置信度分配給那些有更強(qiáng)正確性證據(jù)的步驟。
三、實(shí)驗(yàn)設(shè)置與評(píng)估方法
為了驗(yàn)證MM-PRM的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn),這些實(shí)驗(yàn)經(jīng)過精心配置,以確保公平、可擴(kuò)展和可重現(xiàn)的結(jié)果。
### 實(shí)驗(yàn)設(shè)置
**策略模型構(gòu)建**:他們的策略模型(MM-Policy)從多模態(tài)主干InternVL 2.5-8B初始化,并使用約400萬個(gè)經(jīng)過清洗、結(jié)構(gòu)化的數(shù)學(xué)問題進(jìn)行微調(diào)。模型訓(xùn)練了1個(gè)epoch,批大小為128,學(xué)習(xí)率為4e-5,只更新語言模塊,同時(shí)保持視覺編碼器凍結(jié)。
**過程監(jiān)督數(shù)據(jù)生成**:他們調(diào)整了OmegaPRM流程用于多模態(tài)推理,并將其應(yīng)用于MM-K12(10k樣本)。使用基于MCTS的結(jié)構(gòu)化展開,他們生成了約747,000個(gè)步驟級(jí)別的注釋。采樣參數(shù)調(diào)整為平衡多樣性和效率:溫度=1.0,topk=50,topp=0.9,探索系數(shù)cpuct=0.125,最多200個(gè)搜索步驟或每個(gè)問題1,000個(gè)總展開。
**過程獎(jiǎng)勵(lì)模型訓(xùn)練**:他們從微調(diào)后的策略模型初始化PRM,并訓(xùn)練了1個(gè)epoch,批大小為512,學(xué)習(xí)率為4e-6。
### 評(píng)估策略與基準(zhǔn)
為了評(píng)估MM-PRM在提高推理質(zhì)量方面的有效性,他們采用了BoN評(píng)估協(xié)議。對(duì)于每個(gè)測(cè)試問題,策略模型獨(dú)立生成N=16個(gè)候選推理路徑。然后PRM對(duì)每個(gè)路徑逐步評(píng)分,產(chǎn)生一系列浮點(diǎn)值,表示每個(gè)中間步驟的預(yù)測(cè)質(zhì)量,具有最高分?jǐn)?shù)的路徑被選為最終答案。
由于PRM為每個(gè)候選路徑輸出一個(gè)步驟級(jí)置信度分?jǐn)?shù)向量,他們的評(píng)估中的一個(gè)關(guān)鍵組成部分是用于將該向量壓縮為標(biāo)量的聚合函數(shù)。他們探索了一組多樣化的聚合函數(shù),包括Min、Average、Max、SumLogPr(對(duì)數(shù)概率之和)、SumLogOdds(對(duì)數(shù)幾率之和)和MeanOdds(平均幾率),每個(gè)函數(shù)捕獲路徑質(zhì)量的不同方面。此外,他們使用了一個(gè)隨機(jī)基線進(jìn)行比較,其中最終答案是從同一組16個(gè)候選項(xiàng)中隨機(jī)抽樣的。
他們使用答案準(zhǔn)確率來評(píng)估性能,定義為最終選擇的答案與真值匹配的比例。這個(gè)指標(biāo)直接反映了MM-PRM在引導(dǎo)選擇正確推理路徑方面的效用。
為了全面評(píng)估模型的性能和泛化能力,他們?cè)谝幌盗卸嗄B(tài)數(shù)學(xué)基準(zhǔn)上進(jìn)行了實(shí)驗(yàn),包括MM-K12(測(cè)試集)、OlympiadBench(OE_MM_maths_en_COMP)、MathVista(testmini)、MathVerse(testmini)和MathVision(test)。MM-K12測(cè)試集作為域內(nèi)評(píng)估。對(duì)于域外評(píng)估,他們使用了OlympiadBench的OE_MM_maths_en_COMP分割,其中包含來自國際數(shù)學(xué)競(jìng)賽的開放式多模態(tài)問題,在格式上與MM-K12密切相關(guān)但明顯更難。為了進(jìn)一步測(cè)試泛化性,他們包括了MathVista,它涵蓋了廣泛的視覺數(shù)學(xué)任務(wù);MathVerse,它強(qiáng)調(diào)結(jié)構(gòu)化視覺內(nèi)容的理解;以及MathVision,它針對(duì)抽象視覺推理。這些基準(zhǔn)提供了一個(gè)多樣化和嚴(yán)格的設(shè)置,來測(cè)量他們的過程獎(jiǎng)勵(lì)建??蚣艿男阅芎头夯?。
四、實(shí)驗(yàn)結(jié)果與分析
研究團(tuán)隊(duì)通過將MM-PRM應(yīng)用于一系列策略模型并測(cè)試其在多個(gè)多模態(tài)數(shù)學(xué)基準(zhǔn)上的影響,評(píng)估了MM-PRM的有效性。
### 量化結(jié)果
在所有模型上,MM-PRM都帶來了顯著的性能提升。例如,當(dāng)應(yīng)用于MM-K12測(cè)試集上的MM-Policy時(shí),準(zhǔn)確率從33.92%提高到了42.80%,類似的提升也在InternVL2.5-8B上觀察到,性能從27.01%提高到37.80%。這些結(jié)果證實(shí)了MM-PRM在識(shí)別高質(zhì)量推理路徑方面非常有效。
除了域內(nèi)設(shè)置外,還觀察到MM-PRM在更大的模型和更具挑戰(zhàn)性的數(shù)據(jù)集上也表現(xiàn)出良好的泛化能力。例如,將MM-PRM應(yīng)用于InternVL2.5-78B,在OlympiadBench上的準(zhǔn)確率從30.98%提高到了34.67%,在MathVerse上從50.18%提高到了54.47%。盡管僅使用來自MM-K12種子數(shù)據(jù)集的過程數(shù)據(jù)進(jìn)行訓(xùn)練,MM-PRM在各種基準(zhǔn)和模型上始終提高了推理準(zhǔn)確率。這表明可擴(kuò)展的步驟級(jí)別獎(jiǎng)勵(lì)建模能夠以模型無關(guān)和數(shù)據(jù)高效的方式提高數(shù)學(xué)推理能力。不同聚合函數(shù)的詳細(xì)評(píng)估結(jié)果可以在論文的附錄部分中找到。
### 質(zhì)性分析
為了進(jìn)一步說明MM-PRM的行為,研究團(tuán)隊(duì)展示了一個(gè)涉及平行線和角平分線的幾何問題的質(zhì)性例子。在這個(gè)例子中,策略模型生成了一個(gè)四步推理路徑,最終導(dǎo)致了錯(cuò)誤的最終答案。
PRM對(duì)前兩個(gè)步驟給予了高分(0.83和0.68),表明它們?cè)谶壿嬌鲜呛侠淼?。相反,第三步得分很低?.02),表明模型已經(jīng)識(shí)別出了這一點(diǎn)的重大推理錯(cuò)誤。這個(gè)有缺陷的步驟直接導(dǎo)致了第四步中的錯(cuò)誤結(jié)論。
這個(gè)例子表明,MM-PRM能夠檢測(cè)到推理鏈中的局部邏輯錯(cuò)誤,這種細(xì)粒度的判斷在選擇高質(zhì)量的推理軌跡和過濾掉那些具有微妙但關(guān)鍵缺陷的軌跡中至關(guān)重要。
### 進(jìn)一步研究與討論
研究團(tuán)隊(duì)還深入探討了幾個(gè)關(guān)鍵因素,這些因素對(duì)于理解和優(yōu)化PRM的性能至關(guān)重要。
**候選路徑對(duì)PRM性能的影響**:由于PRM在BoN框架中純粹作為選擇器,其性能在本質(zhì)上受到策略模型產(chǎn)生的候選推理路徑的多樣性和質(zhì)量的限制。換句話說,PRM無法改進(jìn)BoN中的有缺陷生成——它只能在可用選項(xiàng)中進(jìn)行選擇。因此,每個(gè)問題生成的推理路徑數(shù)量直接影響其識(shí)別正確和連貫解決方案的潛力。
當(dāng)研究團(tuán)隊(duì)改變生成的推理路徑數(shù)量N(2, 4, 8, 16),并衡量相應(yīng)的在MeanOdds聚合策略下的答案準(zhǔn)確率時(shí),發(fā)現(xiàn)隨著N的增加,MM-PRM的性能在兩個(gè)測(cè)試集上都一致提高。在MM-K12測(cè)試集上,準(zhǔn)確率從N=2時(shí)的38.6%提高到N=16時(shí)的42.8%,收益在N=8之后趨于平緩。相比之下,在OlympiadBench上,隨著N的增長(zhǎng),準(zhǔn)確率更穩(wěn)定地從18.4%增加到24.0%。這表明對(duì)于更難、更多樣化的任務(wù),擁有更大的推理路徑池對(duì)PRM識(shí)別有效解決方案至關(guān)重要。
**學(xué)習(xí)率的影響**:正如PRM800k研究中所指出的,微調(diào)PRM將語言模型的目標(biāo)從生成轉(zhuǎn)變?yōu)榕袆e,這使得學(xué)習(xí)率成為一個(gè)關(guān)鍵因素。通常更傾向于使用較小的學(xué)習(xí)率以保持穩(wěn)定性并保留預(yù)訓(xùn)練知識(shí)。
當(dāng)研究團(tuán)隊(duì)在MM-K12測(cè)試集上使用MeanOdds聚合器評(píng)估不同學(xué)習(xí)率下訓(xùn)練的MM-PRM時(shí),發(fā)現(xiàn)性能在4e-6時(shí)達(dá)到峰值——約為監(jiān)督微調(diào)中通常使用的學(xué)習(xí)率的十分之一——然后在更高值時(shí)急劇下降。這證實(shí)了中等、保守的學(xué)習(xí)率會(huì)導(dǎo)致更好的訓(xùn)練,而過大的值則會(huì)降低準(zhǔn)確率。
**軟標(biāo)簽與硬標(biāo)簽的比較**:在訓(xùn)練PRM時(shí),研究團(tuán)隊(duì)采用了軟標(biāo)簽——即實(shí)值MC分?jǐn)?shù)——作為步驟級(jí)別獎(jiǎng)勵(lì)建模的監(jiān)督。與硬標(biāo)簽不同,軟標(biāo)簽保留了不確定性,并允許模型學(xué)習(xí)推理質(zhì)量的更細(xì)微表示。
為了評(píng)估這一設(shè)計(jì)選擇,研究團(tuán)隊(duì)將軟標(biāo)簽與硬標(biāo)簽閾值進(jìn)行了比較,在硬標(biāo)簽中,MC>0的步驟被視為正確,其他步驟被視為不正確,遵循OmegaPRM中的協(xié)議。結(jié)果表明,軟標(biāo)簽訓(xùn)練在所有聚合策略中始終優(yōu)于硬標(biāo)簽訓(xùn)練。例如,在Average聚合器下,軟標(biāo)簽在MM-K12測(cè)試集上產(chǎn)生了43%的準(zhǔn)確率,而硬標(biāo)簽為34.4%。SumLogOdds(43.2%對(duì)33.8%)和MeanOdds(42.8%對(duì)37.0%)也觀察到類似的改進(jìn)。
五、總結(jié)與未來展望
這項(xiàng)研究提出了MM-PRM,這是一個(gè)基于可擴(kuò)展框架的過程獎(jiǎng)勵(lì)模型,用于多模態(tài)數(shù)學(xué)過程獎(jiǎng)勵(lì)建模,能夠?qū)崿F(xiàn)無需人工注釋的步驟級(jí)別監(jiān)督。通過利用多模態(tài)策略模型和基于MCTS的數(shù)據(jù)生成流程,研究團(tuán)隊(duì)從MM-K12數(shù)據(jù)集中僅10k個(gè)數(shù)學(xué)問題構(gòu)建了超過70萬個(gè)過程級(jí)別的標(biāo)簽。他們訓(xùn)練的PRM在BoN推理中顯著提高了各種基準(zhǔn)上的推理準(zhǔn)確率,并表現(xiàn)出對(duì)新數(shù)據(jù)集和模型的強(qiáng)大泛化能力。廣泛的分析進(jìn)一步證實(shí)了軟標(biāo)簽、保守學(xué)習(xí)率和足夠路徑多樣性對(duì)優(yōu)化PRM性能的重要性。MM-PRM突顯了過程監(jiān)督對(duì)增強(qiáng)多模態(tài)數(shù)學(xué)問題解決的價(jià)值。
這項(xiàng)研究的局限性主要在于兩個(gè)方面:一是由于計(jì)算限制,研究團(tuán)隊(duì)僅在具有8B參數(shù)的InternVL系列上進(jìn)行訓(xùn)練,沒有探索更大的模型或來自其他模型家族的架構(gòu)。這限制了他們充分評(píng)估PRM訓(xùn)練行為如何隨模型大小縮放或跨不同主干模型泛化的能力。二是用于過程監(jiān)督生成的種子數(shù)據(jù)在多樣性上有限,因?yàn)樗鼉H由K-12級(jí)別的數(shù)學(xué)問題組成。因此,PRM可能不太接觸到超出標(biāo)準(zhǔn)教育設(shè)置范圍的高級(jí)數(shù)學(xué)領(lǐng)域或視覺格式。
盡管有這些局限性,這項(xiàng)研究為多模態(tài)數(shù)學(xué)推理中的過程監(jiān)督提供了寶貴的見解和一個(gè)可行的框架。作為未來工作的方向,研究更廣泛的模型覆蓋和更多樣化的種子數(shù)據(jù)構(gòu)建是有前途的。此外,將MM-PRM集成到端到端的訓(xùn)練流程中,例如通過強(qiáng)化學(xué)習(xí)優(yōu)化策略模型本身,可能會(huì)帶來更顯著的性能提升。
總的來說,MM-PRM展示了過程級(jí)別監(jiān)督在提高多模態(tài)數(shù)學(xué)推理能力方面的強(qiáng)大潛力,尤其是在沒有昂貴人工注釋的情況下。這個(gè)框架不僅提高了答案準(zhǔn)確率,還增強(qiáng)了推理路徑的邏輯一致性和可解釋性,這對(duì)于教育和科學(xué)發(fā)現(xiàn)等應(yīng)用來說是至關(guān)重要的特性。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。