av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 SRPO:通過反思增強強化學習,讓多模態(tài)大語言模型推理能力更上一層樓

SRPO:通過反思增強強化學習,讓多模態(tài)大語言模型推理能力更上一層樓

2025-06-05 15:21
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 15:21 ? 科技行者

在2025年6月發(fā)布于arXiv預印本平臺的一項最新研究中,由俄亥俄州立大學的萬忠偉(Zhongwei Wan)領銜,聯(lián)合來自凱斯西儲大學、帝國理工學院、杜克大學等多家知名院校的研究團隊開發(fā)了一種名為SRPO的創(chuàng)新技術。這項研究的全稱是"SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning",主要解決了多模態(tài)大語言模型在復雜推理任務中的自我反思和自我糾錯能力不足的問題。有興趣深入了解的讀者可以通過arXiv:2506.01713v1訪問完整論文。

為什么我們需要會"反思"的AI?

想象一下,你正在解決一道復雜的數(shù)學題。第一次嘗試后,你可能會停下來思考:"等等,我這個解法對嗎?我是不是忽略了什么關鍵條件?"這種自我檢查和反思的能力對人類解決復雜問題至關重要。然而,目前的多模態(tài)大語言模型(也就是那些既能理解圖像又能處理文字的AI系統(tǒng))卻缺乏這種能力。

研究團隊發(fā)現(xiàn),現(xiàn)有的多模態(tài)大語言模型在解決需要復雜推理的問題時,往往表現(xiàn)不佳,特別是與僅處理文本的模型相比。這些模型通常按照馬爾可夫過程一個接一個地生成文字,只關注局部依賴關系,導致它們的推理過程可能冗余、重復甚至出現(xiàn)錯誤。例如,GPT-o1盡管擁有結構化的推理路徑,但在MathVista基準測試上的準確率只有73.9%,甚至低于Qwen-2.5-VL-72B的74.8%。

這就像一個學生在解題時只顧著一步步往前走,不懂得停下來回頭檢查自己的思路是否正確。研究團隊認為,這些模型缺乏的正是"自我反思"能力——檢查、評估并修正自己推理過程的能力。

雖然之前已有研究嘗試通過直接提示或強化學習來增強模型的自我反思能力,但這些方法的有效性受限于模型在預訓練階段就已經確定的內在能力邊界。簡單來說,這就像試圖教會一個只學過加減法的學生解微積分——如果沒有必要的基礎知識,單靠鼓勵和引導是不夠的。

SRPO:教會AI思考、反思再思考

針對這一挑戰(zhàn),研究團隊提出了SRPO(多模態(tài)自我反思增強推理與群組相對策略優(yōu)化)框架,這是一個專門設計的兩階段反思感知強化學習方法。簡單來說,SRPO就像是給AI配備了一個內置的"質疑者",不斷地審視自己的推理過程,并在必要時進行修正。

這個框架分為兩個主要階段:

首先是"反思導向的冷啟動初始化"階段。想象一下教練在訓練新手時,先示范正確的動作,然后指出常見錯誤。類似地,研究團隊利用一個高級多模態(tài)大語言模型(如GPT-o4-mini)基于政策模型的輸出和標準答案之間的差異生成反思內容。這個過程中,模型會自主評估多個生成的回答,識別錯誤,并通過反思性推理迭代修改它們。隨后,這些高質量的反思數(shù)據(jù)集被用于執(zhí)行多模態(tài)反思式監(jiān)督微調,為后續(xù)的強化學習提供一個良好的起點。

第二階段是"反思感知強化學習"。這就像是在實戰(zhàn)中訓練,但有一個特別的獎勵機制,鼓勵模型不僅要解決問題,還要反思自己的解決方案。研究團隊基于群組相對策略優(yōu)化(GRPO)算法設計了一個新的獎勵機制,積極鼓勵簡潔、任務導向的反思步驟,同時明確懲罰過于冗長或冗余的反思,從而有效地引導多模態(tài)大語言模型通過強化學習階段采用有意義的反思行為。

為了更具體地理解SRPO的工作原理,我們可以看一個例子。假設模型正在解決一個關于柵欄成本計算的問題。使用標準GRPO方法時,模型可能會計算出"總成本為555 + 37x",但沒有任何自主反思和改進的機會。而在SRPO框架下,模型不僅會給出初步答案,還會反思:"我的初步推理誤判了周長的結構...為了糾正推理...",并在反思的指導下重新計算,得出正確答案"777"。

如何構建高質量的反思數(shù)據(jù)集?

在實際實施SRPO時,構建高質量的反思數(shù)據(jù)集是關鍵的第一步。研究團隊采用了"少即是多"的策略,精心挑選了約10,000個多模態(tài)推理樣本,這些樣本來自三個大型數(shù)據(jù)集:LLaVA-CoT(10萬個樣本)、Mulberry(26萬個樣本)和MathV360K。

這些樣本涵蓋了多個領域,包括物理學、數(shù)學和一般知識?;谶@個子集,研究團隊構建了自我反思數(shù)據(jù)集,采用兩種互補策略:

一是"正確思維鏈的精煉"。想象你解出了一道數(shù)學題,然后老師幫你把解題過程簡化,去除不必要的步驟,使其更加清晰。在這種情況下,盡管初始答案是正確的,但推理過程可能過于冗長或復雜。

二是"錯誤思維鏈的修正"。這就像是老師指出你解題過程中的錯誤,并引導你找到正確的方法。對于每個樣本,研究團隊首先通過思維鏈提示獲取政策模型生成的初始回答。然后,以標準答案為指導,使用更大的多模態(tài)大語言模型(如GPT-o4-mini)生成自我反思,這些反思要么修正有缺陷的推理,要么簡化正確但冗長的輸出。

最終的每個樣本包含三個組成部分:初始回答、生成的自我反思和標準答案。在研究團隊精心策劃的數(shù)據(jù)中,大約30%的初始回答是正確的,而剩余70%包含推理錯誤,這突顯了自我反思對于錯誤解答糾正和正確問題精煉的必要性。

反思感知的強化學習:如何獎勵有效的反思?

在SRPO的第二階段,研究團隊開發(fā)了一種基于GRPO的強化學習方法,配備了明確的獎勵函數(shù)來激勵有意義的反思性推理。

這個獎勵函數(shù)可以分為兩部分:任務獎勵和反思獎勵。

任務獎勵結合了格式獎勵和準確性獎勵。格式獎勵鼓勵模型在`...`標簽內包含其推理過程。準確性獎勵驗證預測答案是否與標準答案匹配,引導模型產生邏輯一致且正確的輸出。這種重復監(jiān)督有助于增強模型的推理能力。

反思獎勵則是SRPO的核心創(chuàng)新。它包括幾個組成部分:一個指示反思段落是否正確格式化的指標(使用``標簽),一個鼓勵適當長度的反思簡潔性獎勵,以及一個反思有效性指標。

特別值得注意的是反思有效性指標,它根據(jù)反思對答案正確性的影響提供額外獎勵:如果反思保持正確答案,得0.25分;如果反思成功糾正錯誤答案,得0.5分;如果反思未能糾正錯誤答案,不得分;如果反思誤導正確答案變?yōu)殄e誤,扣0.25分。這種設計鼓勵模型將反思不僅作為一種形式,而是作為一種改進推理質量和避免冗余的工具。

與標準GRPO相比,SRPO的增強反思感知框架引入了幾個關鍵改進:通過強制結構化反思格式,引導模型生成一致且可識別的反思段落;通過引入平滑、可微分的長度獎勵,鼓勵生成簡潔但信息豐富的反思;通過有效性獎勵直接將獎勵信號與功能改進對齊;通過明確獎勵反思效用而非僅僅存在,阻止獎勵博弈行為,如空或冗長的反思。

SRPO的實驗評估:會反思的AI確實表現(xiàn)更好

研究團隊在多個廣泛采用的多模態(tài)推理基準測試上評估了SRPO,這些基準包括數(shù)學推理(MathVista、MathVerse、MathVision、OlympiadBench、WeMath)、通用推理(MMMU-Pro、MMMU、EMMA)和跨學科推理(MMK12,涵蓋物理、化學和生物任務)。

實驗結果令人印象深刻:SRPO在所有測試基準上都顯著優(yōu)于現(xiàn)有最先進的模型。例如,SRPO-7B在MathVista上達到75.8%的準確率,超過了GRPO-7B的72.3%和基礎Qwen-2.5-VL-7B的68.2%。在物理領域,SRPO-7B的分數(shù)達到60.6分,大幅領先于GRPO-7B的53.5分和Qwen-2.5-VL-7B的45.4分。

更值得注意的是,即使與領先的封閉源多模態(tài)大語言模型相比,SRPO也表現(xiàn)出高度的競爭力。例如,SRPO-32B在EMMA基準測試上的表現(xiàn)超過了Gemini2-flash 4.6分。

研究團隊還進行了消融研究,探討了SRPO在RL訓練數(shù)據(jù)大小和自我反思組件方面的表現(xiàn)敏感性。通過從原始37K數(shù)據(jù)集中抽樣15K和7K子集,研究團隊發(fā)現(xiàn)SRPO的性能隨著數(shù)據(jù)增加而穩(wěn)步提升。值得注意的是,即使在5K樣本的情況下,SRPO仍然顯著優(yōu)于Qwen-2.5-VL-7B和標準GRPO,在物理基準測試上超過GRPO 7.1分。這表明,即使在有限數(shù)據(jù)的情況下,增強RL中的自我反思也能有效提升推理能力。

進一步研究SRPO內部各個自我反思組件的有效性,研究團隊發(fā)現(xiàn),移除自我反思SFT會顯著降低性能,但仍然保持對標準GRPO在物理測試上5.1分的優(yōu)勢。相反,去除自我反思RL幾乎不會帶來相對于Qwen-2.5-VL-7B的改進,表明僅在SFT階段進行反思訓練是不夠的。因此,在RL期間明確獎勵反思質量對于實現(xiàn)多模態(tài)推理的最佳效果至關重要。

直觀理解SRPO的實際效果

為了更具體地理解SRPO的工作方式,研究團隊提供了幾個生動的例子,展示了SRPO如何在實際推理任務中發(fā)揮作用。

在一個關于角度測量的幾何問題中,使用標準GRPO訓練的模型錯誤地假設角1和角11是對應角,并得出不正確的答案"57°"。然而,使用SRPO訓練的模型不僅給出了初步答案,還進行了反思:"原始推理有一個重大缺陷:它錯誤地將角1和角11識別為由平行線與截線形成的對應角..."基于這一反思,模型重新評估了幾何關系,并正確得出答案"123°"。

在另一個關于固體表面積計算的問題中,GRPO模型計算得出"7525.44"的錯誤答案。而SRPO模型通過反思:"第一個推理步驟錯誤地計算了側面積...",并在反思的指導下重新計算,得出正確答案"8090.80"。

這些例子生動地展示了SRPO如何使模型能夠識別和糾正自己推理中的錯誤,從而提高最終準確性。此外,研究團隊還觀察到,即使在推理正確的情況下,SRPO也能通過反思提煉和簡化推理過程,使其更加簡潔和清晰。

總結:反思使AI的推理能力更上一層樓

這項研究向我們展示了,就像人類一樣,AI也能通過自我反思和自我糾錯來提高解決復雜問題的能力。SRPO框架通過系統(tǒng)地生成高質量的反思訓練數(shù)據(jù)并設計專門的獎勵機制來鼓勵有效的自我反思,成功地增強了多模態(tài)大語言模型的推理能力。

歸根結底,SRPO的成功告訴我們,為AI提供反思能力不僅可以幫助它們糾正錯誤,還可以使它們的思考過程更加清晰和高效。這種方法的優(yōu)勢在于,它不僅改進了模型的最終準確性,還提高了推理過程的質量和可解釋性。

對于普通用戶來說,這意味著未來的AI助手將能夠更準確地幫助解決涉及視覺和文本的復雜問題,比如解釋科學圖表、進行幾何推理或理解復雜的圖像-文本理解任務。而且,由于這些AI具有自我反思的能力,它們的回答將更加可靠,錯誤率更低。

當然,這項研究也有其局限性。研究團隊主要評估了SRPO在7B和32B規(guī)模的密集多模態(tài)大語言模型上的有效性,沒有在專家混合模型或擴散語言模型架構上進行擴展實驗。此外,強化學習訓練數(shù)據(jù)僅從公開可用的多模態(tài)推理數(shù)據(jù)集中選擇,沒有探索更大規(guī)模的商業(yè)推理數(shù)據(jù)集。

隨著這一領域的不斷發(fā)展,我們可以期待看到更多基于反思的學習方法,幫助AI系統(tǒng)突破預訓練階段設定的固有認知邊界,實現(xiàn)更強大、更可靠的推理能力。如果你對這項研究感興趣,可以通過論文中提供的網站https://srpo.pages.dev了解更多詳細信息。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-