av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 深思不見(jiàn)?探究多模態(tài)推理模型中放大的幻覺(jué)問(wèn)題——加州大學(xué)圣克魯茲和斯坦福大學(xué)的最新發(fā)現(xiàn)

深思不見(jiàn)?探究多模態(tài)推理模型中放大的幻覺(jué)問(wèn)題——加州大學(xué)圣克魯茲和斯坦福大學(xué)的最新發(fā)現(xiàn)

2025-06-05 09:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 09:33 ? 科技行者

在人工智能迅猛發(fā)展的今天,由加州大學(xué)圣克魯茲和斯坦福大學(xué)的研究團(tuán)隊(duì)共同完成的一項(xiàng)重要研究引起了廣泛關(guān)注。這項(xiàng)研究由劉成智、徐鐘行、魏青月等人領(lǐng)導(dǎo),于2025年5月23日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.21523v1),深入探討了多模態(tài)推理模型中的幻覺(jué)問(wèn)題。

研究背景:推理能力增強(qiáng),但"視覺(jué)忠誠(chéng)度"下降?

想象一下,你使用一個(gè)先進(jìn)的AI助手來(lái)分析一張棒球比賽的照片。這個(gè)AI告訴你:"雖然照片中沒(méi)有明確顯示棒球,但根據(jù)比賽場(chǎng)景,我可以推斷球一定存在,所以答案是'是的,照片中有球'"。但實(shí)際上,照片中根本沒(méi)有球。這就是研究團(tuán)隊(duì)發(fā)現(xiàn)的問(wèn)題:當(dāng)多模態(tài)大語(yǔ)言模型(能同時(shí)處理圖像和文字的AI)被訓(xùn)練得更擅長(zhǎng)"思考"和推理時(shí),它們反而更容易產(chǎn)生與圖像不符的"幻覺(jué)"。

近年來(lái),研究人員通過(guò)增加測(cè)試時(shí)計(jì)算量,讓多模態(tài)大語(yǔ)言模型能夠生成更長(zhǎng)的推理鏈,在數(shù)學(xué)推理等任務(wù)上取得了顯著進(jìn)步。但研究團(tuán)隊(duì)發(fā)現(xiàn),隨著這些推理鏈變得更長(zhǎng),模型往往會(huì)偏離圖像內(nèi)容,更多地依賴語(yǔ)言先驗(yàn)知識(shí),導(dǎo)致對(duì)圖像內(nèi)容的錯(cuò)誤描述增多。簡(jiǎn)單來(lái)說(shuō),就是模型"想得越多,看得越少"。

一、為什么推理模型會(huì)產(chǎn)生更多幻覺(jué)?

研究團(tuán)隊(duì)通過(guò)對(duì)比不同模型的表現(xiàn),發(fā)現(xiàn)了一個(gè)一致且顯著的現(xiàn)象:雖然具備推理能力的模型能生成更詳細(xì)的推理鏈,但它們?cè)诟兄蝿?wù)中引入的幻覺(jué)也比非推理模型更多。這就像一個(gè)人過(guò)度思考問(wèn)題時(shí),反而會(huì)忽略眼前的明顯事實(shí)。

為了理解這一現(xiàn)象,研究者分析了模型的注意力機(jī)制(模型關(guān)注輸入信息的方式)。結(jié)果表明,推理模型對(duì)視覺(jué)信息的關(guān)注明顯減少,而對(duì)指令文本的關(guān)注增加。這相當(dāng)于AI在回答問(wèn)題時(shí),更多地依賴它已經(jīng)"學(xué)到"的知識(shí),而不是"看到"的圖像內(nèi)容。

通過(guò)對(duì)注意力分布的可視化分析,研究者發(fā)現(xiàn)非推理模型會(huì)逐漸聚焦于圖像中語(yǔ)義上重要的區(qū)域,而推理模型的注意力分散且不連貫,無(wú)法持續(xù)關(guān)注關(guān)鍵視覺(jué)區(qū)域。這種現(xiàn)象表明,推理能力的增強(qiáng)削弱了模型對(duì)視覺(jué)信息的有效處理能力。

更令人擔(dān)憂的是,隨著推理鏈變得更長(zhǎng),模型對(duì)視覺(jué)信息的關(guān)注進(jìn)一步減少。就像一個(gè)人陷入深思時(shí)可能會(huì)"走神",忽略眼前的視覺(jué)信息一樣,模型在生成更長(zhǎng)的推理鏈時(shí),對(duì)圖像的關(guān)注度會(huì)不斷下降,導(dǎo)致更多幻覺(jué)的產(chǎn)生。

二、推理長(zhǎng)度如何影響推理-幻覺(jué)平衡?

研究團(tuán)隊(duì)還發(fā)現(xiàn),推理鏈長(zhǎng)度與模型在推理和感知任務(wù)上的表現(xiàn)之間存在非單調(diào)關(guān)系。這就像烹飪一樣,火候太短食物沒(méi)熟,火候太長(zhǎng)又會(huì)燒焦,只有適中的火候才能做出美味佳肴。

通過(guò)三種控制推理長(zhǎng)度的策略(預(yù)算強(qiáng)制、測(cè)試時(shí)擴(kuò)展和潛在狀態(tài)引導(dǎo)),研究者探索了不同推理長(zhǎng)度對(duì)模型性能的影響。結(jié)果顯示,適度的推理深度往往能產(chǎn)生最佳性能,而過(guò)短或過(guò)長(zhǎng)的推理鏈都會(huì)導(dǎo)致性能下降。

有趣的是,最佳推理長(zhǎng)度因任務(wù)而異。數(shù)學(xué)推理等推理任務(wù)通常從更長(zhǎng)的推理鏈中受益,而感知和幻覺(jué)導(dǎo)向的任務(wù)在較短或中等長(zhǎng)度時(shí)表現(xiàn)最佳。這表明推理深度與性能之間的平衡是任務(wù)特定的,統(tǒng)一的長(zhǎng)度控制策略不太可能在所有任務(wù)類型上都有效。

另外,研究者還探索了"零思考"條件——保留推理結(jié)構(gòu)但缺乏實(shí)質(zhì)性內(nèi)容。結(jié)果表明,這種設(shè)置導(dǎo)致模型在推理和感知基準(zhǔn)測(cè)試上的性能一致下降,明顯低于正常推理長(zhǎng)度下的結(jié)果。這表明,推理內(nèi)容的缺失會(huì)削弱推理模型在感知和推理兩方面的性能。

三、RH-AUC:評(píng)估推理-幻覺(jué)平衡的新指標(biāo)

傳統(tǒng)指標(biāo)如推理準(zhǔn)確率和幻覺(jué)率,在固定的生成長(zhǎng)度下計(jì)算,無(wú)法捕捉更深入推理與感知之間的動(dòng)態(tài)平衡。為解決這一問(wèn)題,研究團(tuán)隊(duì)提出了RH-AUC(Reasoning-Hallucination Area Under Curve)指標(biāo)。

想象一下測(cè)量一個(gè)學(xué)生的全面能力:不僅要看他在數(shù)學(xué)上的表現(xiàn),還要看他在語(yǔ)文上的表現(xiàn),以及兩者的平衡性。RH-AUC就像是這樣一個(gè)綜合評(píng)分,它通過(guò)計(jì)算由推理性能和幻覺(jué)性能在不同推理長(zhǎng)度下形成的曲線下面積來(lái)得出。簡(jiǎn)單來(lái)說(shuō),這個(gè)指標(biāo)衡量模型在變化的推理深度下保持良好推理能力和低幻覺(jué)率的能力,值越高表示平衡越好。

除了新指標(biāo),研究團(tuán)隊(duì)還發(fā)布了RH-Bench,一個(gè)包含1000個(gè)樣本的診斷基準(zhǔn),覆蓋各種推理和感知任務(wù),每個(gè)任務(wù)都包括多項(xiàng)選擇題和開(kāi)放式問(wèn)題。這個(gè)基準(zhǔn)測(cè)試專為評(píng)估推理能力和感知幻覺(jué)的集成而設(shè)計(jì),為分析推理能力和感知幻覺(jué)提供了強(qiáng)大基礎(chǔ)。

四、關(guān)鍵發(fā)現(xiàn):影響推理-幻覺(jué)平衡的因素

通過(guò)RH-Bench的評(píng)估,研究團(tuán)隊(duì)得出了三個(gè)關(guān)鍵發(fā)現(xiàn):

首先,模型規(guī)模越大,推理-幻覺(jué)平衡通常越好。就像一個(gè)經(jīng)驗(yàn)豐富的人比新手更能同時(shí)處理多種信息一樣,大模型通常表現(xiàn)出更強(qiáng)的魯棒性和適應(yīng)性,特別是在處理較長(zhǎng)推理鏈時(shí)。較小的模型在性能上顯示出明顯的下降,而較大模型能夠維持更高的穩(wěn)定性。

其次,訓(xùn)練范式對(duì)平衡至關(guān)重要。純強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型比先進(jìn)行監(jiān)督微調(diào)再?gòu)?qiáng)化學(xué)習(xí)(SFT+RL)的模型展現(xiàn)出更好的平衡。比如,雖然OpenVLThinker模型維持更長(zhǎng)的推理鏈,但引入的冗余推理會(huì)干擾視覺(jué)感知,導(dǎo)致錯(cuò)誤的推斷。相比之下,純RL訓(xùn)練的Ocean-R1模型使用更短的推理鏈,能更有效地捕捉關(guān)鍵視覺(jué)特征,避免不必要的復(fù)雜推理步驟。這表明,雖然SFT幫助模型學(xué)習(xí)推理格式,但可能引入僵化的模仿推理路徑,限制模型對(duì)動(dòng)態(tài)任務(wù)的適應(yīng)性。相反,RL鼓勵(lì)模型生成更適應(yīng)性的推理行為,增強(qiáng)推理與感知的整合。

最后,訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量對(duì)推理-幻覺(jué)平衡起著關(guān)鍵作用。研究發(fā)現(xiàn):更多的視覺(jué)感知數(shù)據(jù)不一定改善推理和感知之間的平衡;通過(guò)特定領(lǐng)域數(shù)據(jù)訓(xùn)練可以實(shí)現(xiàn)感知和推理的平衡;訓(xùn)練數(shù)據(jù)的規(guī)模并不總是推理-感知平衡的保證。例如,ThinkLite-VL模型在大規(guī)模視覺(jué)感知數(shù)據(jù)的支持下展示了強(qiáng)大的幻覺(jué)和推理平衡。同樣,Ocean-R1模型采用兩階段訓(xùn)練策略,先增強(qiáng)推理能力,然后加強(qiáng)視覺(jué)感知,在RH-bench上取得了最高的RH-AUC。然而,盡管R1-OneVision模型使用大量視覺(jué)感知數(shù)據(jù),它在推理和感知之間的平衡較弱,這可能歸因于其訓(xùn)練范式設(shè)計(jì)的局限性。

五、研究意義與未來(lái)方向

這項(xiàng)研究揭示了多模態(tài)大語(yǔ)言模型在增強(qiáng)推理能力的同時(shí)可能犧牲感知準(zhǔn)確性的重要問(wèn)題。就像人類專注于深度思考時(shí)可能會(huì)忽略周圍環(huán)境一樣,這些模型在"思考"時(shí)也會(huì)減少對(duì)"看到"內(nèi)容的關(guān)注。

研究團(tuán)隊(duì)提出的RH-AUC指標(biāo)和RH-Bench基準(zhǔn)為全面評(píng)估多模態(tài)推理模型提供了新的工具,有助于開(kāi)發(fā)既能進(jìn)行復(fù)雜推理又能保持感知可靠性的平衡模型。這對(duì)于未來(lái)需要在復(fù)雜任務(wù)中保持視覺(jué)信息準(zhǔn)確性的應(yīng)用(如自動(dòng)駕駛、醫(yī)療診斷、智能監(jiān)控等)至關(guān)重要。

雖然這項(xiàng)研究主要基于Qwen2.5-VL骨干模型進(jìn)行,可能限制了發(fā)現(xiàn)的普適性,且關(guān)于訓(xùn)練數(shù)據(jù)影響的分析主要基于技術(shù)報(bào)告而非受控再訓(xùn)練實(shí)驗(yàn),但它為理解和改進(jìn)多模態(tài)推理模型提供了寶貴見(jiàn)解。

未來(lái)的研究方向可能包括:開(kāi)發(fā)能夠動(dòng)態(tài)調(diào)整推理長(zhǎng)度的模型,根據(jù)任務(wù)類型自動(dòng)找到最佳平衡點(diǎn);設(shè)計(jì)新的訓(xùn)練方法,在增強(qiáng)推理能力的同時(shí)保持視覺(jué)信息的準(zhǔn)確處理;以及探索更多樣化的模型架構(gòu),尋找更好的多模態(tài)融合機(jī)制。

簡(jiǎn)而言之,這項(xiàng)研究不僅揭示了現(xiàn)有多模態(tài)推理模型的局限性,還為未來(lái)更平衡、更可靠的AI系統(tǒng)指明了方向。正如研究者所強(qiáng)調(diào)的,我們需要評(píng)估框架同時(shí)考慮推理質(zhì)量和感知可靠性,而不是僅僅追求其中一方面的卓越表現(xiàn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-