av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) Sherlock:讓視覺-語言模型學(xué)會(huì)自我糾錯(cuò)推理的突破

Sherlock:讓視覺-語言模型學(xué)會(huì)自我糾錯(cuò)推理的突破

2025-06-03 07:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 07:42 ? 科技行者

近日,來自普渡大學(xué)計(jì)算機(jī)科學(xué)系的研究者Yi Ding和Ruqi Zhang發(fā)表了一項(xiàng)令人矚目的研究成果《Sherlock: Self-Correcting Reasoning in Vision-Language Models》。這篇論文于2025年5月28日在arXiv平臺(tái)上發(fā)布(arXiv:2505.22651v1),探索了如何讓視覺-語言模型(VLMs)具備自我糾錯(cuò)能力,從而提升模型在復(fù)雜多模態(tài)任務(wù)中的表現(xiàn)。有興趣深入了解的讀者可以通過論文項(xiàng)目頁(yè)面(https://dripnowhy.github.io/Sherlock/)獲取更多信息。

為什么我們需要會(huì)自我糾錯(cuò)的AI?

想象一下,你正在向一個(gè)朋友講解一道復(fù)雜的數(shù)學(xué)題。在解題過程中,你突然意識(shí)到自己前面的計(jì)算有誤,于是你會(huì)說"等等,我算錯(cuò)了",然后重新修正你的推理過程。這種"意識(shí)到錯(cuò)誤并糾正"的能力對(duì)人類來說再自然不過,但對(duì)AI模型卻是一項(xiàng)巨大的挑戰(zhàn)。

當(dāng)前的視覺-語言模型(VLMs)在處理圖像和文本的復(fù)雜任務(wù)上已經(jīng)取得了顯著進(jìn)步,特別是一些具備推理能力的模型可以像人類一樣,通過分步思考來解決復(fù)雜問題。然而,這些模型面臨三個(gè)主要挑戰(zhàn):首先,它們對(duì)推理錯(cuò)誤極為敏感——一旦在多步推理過程中出現(xiàn)一個(gè)錯(cuò)誤,這個(gè)錯(cuò)誤就會(huì)像滾雪球一樣影響后續(xù)步驟,最終導(dǎo)致錯(cuò)誤的結(jié)論;其次,它們需要大量標(biāo)注數(shù)據(jù)或精確的驗(yàn)證器才能取得一致的改進(jìn);第三,它們難以泛化到缺乏精確監(jiān)督的更廣泛領(lǐng)域。

普渡大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)引人深思的問題:如果我們能教會(huì)這些模型自我糾錯(cuò),是否能同時(shí)解決上述所有挑戰(zhàn)?

Sherlock:像偵探一樣自我糾錯(cuò)的AI

研究團(tuán)隊(duì)設(shè)計(jì)的系統(tǒng)被命名為"Sherlock",這個(gè)名字靈感來自于著名的偵探夏洛克·福爾摩斯,寓意這個(gè)系統(tǒng)能夠像偵探一樣發(fā)現(xiàn)并糾正自身的推理錯(cuò)誤。

在深入了解Sherlock之前,研究團(tuán)隊(duì)首先對(duì)現(xiàn)有推理VLMs的自我糾錯(cuò)能力進(jìn)行了詳細(xì)分析,發(fā)現(xiàn)了幾個(gè)關(guān)鍵問題:

當(dāng)前的推理VLMs,無論是通過監(jiān)督微調(diào)(SFT)還是強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的,都基本上不具備有效的自我糾錯(cuò)能力。他們的實(shí)驗(yàn)表明,即使在模型出現(xiàn)明顯錯(cuò)誤的情況下,這些模型也很少能觸發(fā)自我反思機(jī)制(少于10%的案例),而且即使出現(xiàn)自我反思,也只有一半能夠?qū)е抡_的最終答案。更糟糕的是,當(dāng)被明確提示進(jìn)行自我糾正時(shí),這些模型的表現(xiàn)不僅沒有提高,反而可能會(huì)下降。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了Sherlock框架,它包含三個(gè)訓(xùn)練階段,每個(gè)階段都有其獨(dú)特的功能:

第一階段是"SFT冷啟動(dòng)"。團(tuán)隊(duì)首先從LLaVA-CoT數(shù)據(jù)集中隨機(jī)抽取10,000個(gè)樣本,用這些樣本訓(xùn)練一個(gè)基礎(chǔ)的VLM,然后再抽取另外10,000個(gè)樣本,構(gòu)建一個(gè)包含低質(zhì)量推理和高質(zhì)量推理的數(shù)據(jù)集。通過同時(shí)優(yōu)化推理和自我糾正兩個(gè)目標(biāo),模型初步具備了這兩種能力。

第二階段是"離線偏好訓(xùn)練"。這個(gè)階段的關(guān)鍵創(chuàng)新在于,Sherlock引入了"軌跡級(jí)自我糾正目標(biāo)",它只關(guān)注修正錯(cuò)誤的推理步驟,而不是重寫整個(gè)答案。這樣做的好處是可以保留正確的推理部分,只針對(duì)錯(cuò)誤部分進(jìn)行精確修正。此外,他們還設(shè)計(jì)了一種基于視覺擾動(dòng)的偏好數(shù)據(jù)構(gòu)建方法,通過向圖像添加隨機(jī)噪聲來生成質(zhì)量差異可控的樣本對(duì)。最后,他們引入了動(dòng)態(tài)β參數(shù),根據(jù)樣本對(duì)之間的質(zhì)量差距自適應(yīng)地調(diào)整學(xué)習(xí)信號(hào)的強(qiáng)度。

第三階段是"在線自我改進(jìn)"。一旦模型掌握了自我糾正能力,它就能在沒有外部監(jiān)督的情況下繼續(xù)自我改進(jìn)。在每次迭代中,模型對(duì)隨機(jī)抽取的問題生成初始回答,然后進(jìn)行三輪自我糾正。如果三輪糾正后的答案一致,那么最終答案被視為高質(zhì)量參考,而初始回答則被降級(jí)為低質(zhì)量樣本。這樣構(gòu)建的偏好數(shù)據(jù)集被用于進(jìn)一步訓(xùn)練模型,使其在沒有任何外部標(biāo)注的情況下不斷提升性能。

Sherlock如何像偵探一樣工作?

為了幫助理解Sherlock的工作原理,讓我們來看一個(gè)實(shí)際例子。假設(shè)模型需要回答關(guān)于著名的Chubb錯(cuò)覺的問題:"圖像中左側(cè)的中心區(qū)域是否比右側(cè)的中心區(qū)域?。?

在直接生成回答時(shí),模型對(duì)圖像進(jìn)行了錯(cuò)誤的理解,它寫道:"兩側(cè)圖像中的中心圓的大小相同。然而,右側(cè)中心圓嵌入在繁忙的黑白圖案中,這可能造成大小的錯(cuò)覺...盡管有這種視覺效果,中心圓的物理尺寸并沒有改變,并且它仍然小于整個(gè)右半部分的圖像。"最后得出了錯(cuò)誤的結(jié)論:"是的。"

但在進(jìn)行自我糾正后,模型重新審視了圖像,并正確地分析道:"為了評(píng)估中心區(qū)域的大小,我將比較兩者:左側(cè)的圓形圖案在灰色背景上清晰可見,暗示其較??;右側(cè)的中心區(qū)域由黑白圖案中的低密度區(qū)域定義,暗示其具有更大的視覺影響。然而,兩個(gè)區(qū)域的物理尺寸是相同的。"從而得出了正確的結(jié)論:"否。"

這個(gè)例子展示了Sherlock的核心能力:它能夠發(fā)現(xiàn)自己的推理錯(cuò)誤,然后有針對(duì)性地修正這些錯(cuò)誤,最終得出正確的結(jié)論。

Sherlock的性能表現(xiàn)令人印象深刻

研究團(tuán)隊(duì)在八個(gè)具有挑戰(zhàn)性的多模態(tài)基準(zhǔn)測(cè)試上評(píng)估了Sherlock的表現(xiàn),包括綜合視覺問答基準(zhǔn)(MMBench-V1.1、MMVet、MME、MMStar)、數(shù)學(xué)和科學(xué)基準(zhǔn)(MathVista、AI2D、MMMU)以及幻覺基準(zhǔn)(HallusionBench)。

實(shí)驗(yàn)結(jié)果令人驚嘆:基于Llama3.2-Vision-11B模型構(gòu)建的Sherlock在直接生成回答時(shí)平均準(zhǔn)確率達(dá)到了64.1%,經(jīng)過自我糾正后進(jìn)一步提升至65.4%。這超過了使用更多標(biāo)注數(shù)據(jù)訓(xùn)練的模型,如LLaVA-CoT(準(zhǔn)確率63.2%,使用了100,000個(gè)標(biāo)注樣本)、Mulberry(準(zhǔn)確率63.9%,使用了260,000個(gè)標(biāo)注樣本)和LlamaV-o1(準(zhǔn)確率63.4%,使用了175,000個(gè)標(biāo)注樣本)。而Sherlock僅使用了20,000個(gè)隨機(jī)抽樣的標(biāo)注數(shù)據(jù),不到這些模型使用數(shù)據(jù)量的20%。

更令人驚訝的是,當(dāng)Sherlock配合驗(yàn)證器作為停止標(biāo)準(zhǔn)時(shí),它可以減少40%的GPU使用量,同時(shí)實(shí)現(xiàn)更高的準(zhǔn)確率(從54.0%提升到55.9%)。這種組合方法在推理時(shí)先生成一個(gè)回答,然后使用驗(yàn)證器檢查是否正確;如果不正確,就引導(dǎo)下一輪自我糾正,直到得到正確答案或達(dá)到最大嘗試次數(shù)。

Sherlock的秘密武器

深入分析Sherlock的設(shè)計(jì),我們可以發(fā)現(xiàn)幾個(gè)關(guān)鍵的創(chuàng)新點(diǎn):

首先是軌跡級(jí)自我糾正目標(biāo)。傳統(tǒng)的自我糾正方法要求模型重寫整個(gè)回答,這可能會(huì)引入噪聲,因?yàn)槟P涂赡軙?huì)被迫修改已經(jīng)正確的部分。相比之下,Sherlock只要求模型修正錯(cuò)誤的后綴部分,保留前面正確的推理步驟。這種精細(xì)的修正方式提供了更清晰的學(xué)習(xí)信號(hào)。

其次是基于視覺擾動(dòng)的偏好數(shù)據(jù)構(gòu)建方法。研究團(tuán)隊(duì)通過向圖像添加隨機(jī)噪聲來生成質(zhì)量可控的推理軌跡,這些軌跡形成了天然的偏好對(duì),其中沒有噪聲的推理被視為優(yōu)質(zhì),有噪聲的推理被視為劣質(zhì)。這種方法不需要大量人工標(biāo)注的數(shù)據(jù),大大降低了訓(xùn)練成本。

第三是動(dòng)態(tài)β設(shè)計(jì)。在偏好學(xué)習(xí)中,β參數(shù)控制著模型對(duì)偏好信號(hào)的敏感度。Sherlock根據(jù)樣本的截?cái)嗖襟E和視覺擾動(dòng)強(qiáng)度動(dòng)態(tài)調(diào)整β值,為質(zhì)量差距大的樣本對(duì)分配較大的β,鼓勵(lì)更謹(jǐn)慎的更新;為質(zhì)量差距小的樣本對(duì)分配較小的β,鼓勵(lì)更積極地從微妙的偏好中學(xué)習(xí)。

最后,自我改進(jìn)框架使模型能夠在沒有外部監(jiān)督的情況下持續(xù)提升性能。模型生成的原始回答和糾正后的回答自然形成偏好對(duì),這些自生成的數(shù)據(jù)被用于進(jìn)一步訓(xùn)練模型,形成一個(gè)良性循環(huán)。

Sherlock啟示錄:對(duì)AI未來的思考

Sherlock研究帶給我們幾點(diǎn)深刻啟示:

首先,自我糾錯(cuò)和推理能力并不是相互獨(dú)立的,而是相互促進(jìn)的:學(xué)習(xí)一種能力會(huì)提升另一種能力。研究表明,即使只使用自我糾正目標(biāo)訓(xùn)練的模型,其直接推理能力也能達(dá)到與使用全部目標(biāo)訓(xùn)練的模型相當(dāng)?shù)乃健_@表明教會(huì)模型如何批判性地審視自己的答案,可以間接提升其初次回答的質(zhì)量。

其次,軌跡級(jí)自我糾正比全回答糾正更有效。在在線迭代中,使用全回答糾正策略的模型自我糾正能力反而下降,而使用軌跡級(jí)糾正策略的模型持續(xù)提升。這說明精確定位和修正錯(cuò)誤比重寫整個(gè)答案更有效。

第三,自我糾正為模型提供了一種高效的推理時(shí)間縮放策略。通過多輪自我糾正,模型可以在不增加參數(shù)量的情況下顯著提升性能。這種方法比傳統(tǒng)的集成方法(如生成多個(gè)獨(dú)立回答然后投票)更高效,使用更少的計(jì)算資源達(dá)到相同甚至更好的效果。

最后,Sherlock證明了我們可以用更少的標(biāo)注數(shù)據(jù)訓(xùn)練出更好的模型。通過充分利用自我糾正和自我改進(jìn)機(jī)制,Sherlock僅使用20,000個(gè)隨機(jī)標(biāo)注樣本就超越了使用多達(dá)260,000個(gè)標(biāo)注樣本訓(xùn)練的模型。這對(duì)于資源有限的研究團(tuán)隊(duì)和應(yīng)用場(chǎng)景具有重要意義。

未來展望:自我糾錯(cuò)AI的可能性

Sherlock研究開啟了視覺-語言模型自我糾錯(cuò)的新篇章,但這僅僅是開始。未來的研究方向可能包括:

將Sherlock的自我糾錯(cuò)框架擴(kuò)展到其他類型的推理模型,如純文本大語言模型或多模態(tài)模型。Sherlock的設(shè)計(jì)原則是通用的,可以適應(yīng)不同的模型架構(gòu)和任務(wù)領(lǐng)域。

探索步級(jí)自我糾正與軌跡級(jí)自我糾正的結(jié)合。目前的Sherlock主要關(guān)注軌跡級(jí)自我糾正,未來的研究可以探索如何在單次推理過程中實(shí)現(xiàn)更精細(xì)的自我糾正,進(jìn)一步提高效率。

研究自我糾錯(cuò)與外部知識(shí)整合的協(xié)同效應(yīng)。如何讓模型在自我糾正過程中有效利用外部知識(shí)源,是一個(gè)值得深入探索的方向。

開發(fā)更高效的驗(yàn)證機(jī)制,使模型能夠更準(zhǔn)確地判斷自己的推理是否正確。這可以進(jìn)一步減少不必要的糾正嘗試,提高整體效率。

正如著名的偵探夏洛克·福爾摩斯擅長(zhǎng)從錯(cuò)誤中學(xué)習(xí)并不斷完善自己的推理,Sherlock系統(tǒng)展示了AI也可以具備這種能力。當(dāng)AI能夠像偵探一樣發(fā)現(xiàn)并糾正自己的錯(cuò)誤時(shí),它們將變得更加可靠、高效,并能夠處理更加復(fù)雜的任務(wù)。這項(xiàng)研究不僅推進(jìn)了視覺-語言模型的發(fā)展,也為我們構(gòu)建更加智能、更具自主性的AI系統(tǒng)提供了新的思路。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-