在人工智能迅猛發(fā)展的今天,由加州大學(xué)圣克魯茲和斯坦福大學(xué)的研究團(tuán)隊(duì)共同完成的一項(xiàng)重要研究引起了廣泛關(guān)注。這項(xiàng)研究由劉成智、徐鐘行、魏青月等人領(lǐng)導(dǎo),于2025年5月23日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.21523v1),深入探討了多模態(tài)推理模型中的幻覺(jué)問(wèn)題。
研究背景:推理能力增強(qiáng),但"視覺(jué)忠誠(chéng)度"下降?
想象一下,你使用一個(gè)先進(jìn)的AI助手來(lái)分析一張棒球比賽的照片。這個(gè)AI告訴你:"雖然照片中沒(méi)有明確顯示棒球,但根據(jù)比賽場(chǎng)景,我可以推斷球一定存在,所以答案是'是的,照片中有球'"。但實(shí)際上,照片中根本沒(méi)有球。這就是研究團(tuán)隊(duì)發(fā)現(xiàn)的問(wèn)題:當(dāng)多模態(tài)大語(yǔ)言模型(能同時(shí)處理圖像和文字的AI)被訓(xùn)練得更擅長(zhǎng)"思考"和推理時(shí),它們反而更容易產(chǎn)生與圖像不符的"幻覺(jué)"。
近年來(lái),研究人員通過(guò)增加測(cè)試時(shí)計(jì)算量,讓多模態(tài)大語(yǔ)言模型能夠生成更長(zhǎng)的推理鏈,在數(shù)學(xué)推理等任務(wù)上取得了顯著進(jìn)步。但研究團(tuán)隊(duì)發(fā)現(xiàn),隨著這些推理鏈變得更長(zhǎng),模型往往會(huì)偏離圖像內(nèi)容,更多地依賴語(yǔ)言先驗(yàn)知識(shí),導(dǎo)致對(duì)圖像內(nèi)容的錯(cuò)誤描述增多。簡(jiǎn)單來(lái)說(shuō),就是模型"想得越多,看得越少"。
一、為什么推理模型會(huì)產(chǎn)生更多幻覺(jué)?
研究團(tuán)隊(duì)通過(guò)對(duì)比不同模型的表現(xiàn),發(fā)現(xiàn)了一個(gè)一致且顯著的現(xiàn)象:雖然具備推理能力的模型能生成更詳細(xì)的推理鏈,但它們?cè)诟兄蝿?wù)中引入的幻覺(jué)也比非推理模型更多。這就像一個(gè)人過(guò)度思考問(wèn)題時(shí),反而會(huì)忽略眼前的明顯事實(shí)。
為了理解這一現(xiàn)象,研究者分析了模型的注意力機(jī)制(模型關(guān)注輸入信息的方式)。結(jié)果表明,推理模型對(duì)視覺(jué)信息的關(guān)注明顯減少,而對(duì)指令文本的關(guān)注增加。這相當(dāng)于AI在回答問(wèn)題時(shí),更多地依賴它已經(jīng)"學(xué)到"的知識(shí),而不是"看到"的圖像內(nèi)容。
通過(guò)對(duì)注意力分布的可視化分析,研究者發(fā)現(xiàn)非推理模型會(huì)逐漸聚焦于圖像中語(yǔ)義上重要的區(qū)域,而推理模型的注意力分散且不連貫,無(wú)法持續(xù)關(guān)注關(guān)鍵視覺(jué)區(qū)域。這種現(xiàn)象表明,推理能力的增強(qiáng)削弱了模型對(duì)視覺(jué)信息的有效處理能力。
更令人擔(dān)憂的是,隨著推理鏈變得更長(zhǎng),模型對(duì)視覺(jué)信息的關(guān)注進(jìn)一步減少。就像一個(gè)人陷入深思時(shí)可能會(huì)"走神",忽略眼前的視覺(jué)信息一樣,模型在生成更長(zhǎng)的推理鏈時(shí),對(duì)圖像的關(guān)注度會(huì)不斷下降,導(dǎo)致更多幻覺(jué)的產(chǎn)生。
二、推理長(zhǎng)度如何影響推理-幻覺(jué)平衡?
研究團(tuán)隊(duì)還發(fā)現(xiàn),推理鏈長(zhǎng)度與模型在推理和感知任務(wù)上的表現(xiàn)之間存在非單調(diào)關(guān)系。這就像烹飪一樣,火候太短食物沒(méi)熟,火候太長(zhǎng)又會(huì)燒焦,只有適中的火候才能做出美味佳肴。
通過(guò)三種控制推理長(zhǎng)度的策略(預(yù)算強(qiáng)制、測(cè)試時(shí)擴(kuò)展和潛在狀態(tài)引導(dǎo)),研究者探索了不同推理長(zhǎng)度對(duì)模型性能的影響。結(jié)果顯示,適度的推理深度往往能產(chǎn)生最佳性能,而過(guò)短或過(guò)長(zhǎng)的推理鏈都會(huì)導(dǎo)致性能下降。
有趣的是,最佳推理長(zhǎng)度因任務(wù)而異。數(shù)學(xué)推理等推理任務(wù)通常從更長(zhǎng)的推理鏈中受益,而感知和幻覺(jué)導(dǎo)向的任務(wù)在較短或中等長(zhǎng)度時(shí)表現(xiàn)最佳。這表明推理深度與性能之間的平衡是任務(wù)特定的,統(tǒng)一的長(zhǎng)度控制策略不太可能在所有任務(wù)類型上都有效。
另外,研究者還探索了"零思考"條件——保留推理結(jié)構(gòu)但缺乏實(shí)質(zhì)性內(nèi)容。結(jié)果表明,這種設(shè)置導(dǎo)致模型在推理和感知基準(zhǔn)測(cè)試上的性能一致下降,明顯低于正常推理長(zhǎng)度下的結(jié)果。這表明,推理內(nèi)容的缺失會(huì)削弱推理模型在感知和推理兩方面的性能。
三、RH-AUC:評(píng)估推理-幻覺(jué)平衡的新指標(biāo)
傳統(tǒng)指標(biāo)如推理準(zhǔn)確率和幻覺(jué)率,在固定的生成長(zhǎng)度下計(jì)算,無(wú)法捕捉更深入推理與感知之間的動(dòng)態(tài)平衡。為解決這一問(wèn)題,研究團(tuán)隊(duì)提出了RH-AUC(Reasoning-Hallucination Area Under Curve)指標(biāo)。
想象一下測(cè)量一個(gè)學(xué)生的全面能力:不僅要看他在數(shù)學(xué)上的表現(xiàn),還要看他在語(yǔ)文上的表現(xiàn),以及兩者的平衡性。RH-AUC就像是這樣一個(gè)綜合評(píng)分,它通過(guò)計(jì)算由推理性能和幻覺(jué)性能在不同推理長(zhǎng)度下形成的曲線下面積來(lái)得出。簡(jiǎn)單來(lái)說(shuō),這個(gè)指標(biāo)衡量模型在變化的推理深度下保持良好推理能力和低幻覺(jué)率的能力,值越高表示平衡越好。
除了新指標(biāo),研究團(tuán)隊(duì)還發(fā)布了RH-Bench,一個(gè)包含1000個(gè)樣本的診斷基準(zhǔn),覆蓋各種推理和感知任務(wù),每個(gè)任務(wù)都包括多項(xiàng)選擇題和開(kāi)放式問(wèn)題。這個(gè)基準(zhǔn)測(cè)試專為評(píng)估推理能力和感知幻覺(jué)的集成而設(shè)計(jì),為分析推理能力和感知幻覺(jué)提供了強(qiáng)大基礎(chǔ)。
四、關(guān)鍵發(fā)現(xiàn):影響推理-幻覺(jué)平衡的因素
通過(guò)RH-Bench的評(píng)估,研究團(tuán)隊(duì)得出了三個(gè)關(guān)鍵發(fā)現(xiàn):
首先,模型規(guī)模越大,推理-幻覺(jué)平衡通常越好。就像一個(gè)經(jīng)驗(yàn)豐富的人比新手更能同時(shí)處理多種信息一樣,大模型通常表現(xiàn)出更強(qiáng)的魯棒性和適應(yīng)性,特別是在處理較長(zhǎng)推理鏈時(shí)。較小的模型在性能上顯示出明顯的下降,而較大模型能夠維持更高的穩(wěn)定性。
其次,訓(xùn)練范式對(duì)平衡至關(guān)重要。純強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型比先進(jìn)行監(jiān)督微調(diào)再?gòu)?qiáng)化學(xué)習(xí)(SFT+RL)的模型展現(xiàn)出更好的平衡。比如,雖然OpenVLThinker模型維持更長(zhǎng)的推理鏈,但引入的冗余推理會(huì)干擾視覺(jué)感知,導(dǎo)致錯(cuò)誤的推斷。相比之下,純RL訓(xùn)練的Ocean-R1模型使用更短的推理鏈,能更有效地捕捉關(guān)鍵視覺(jué)特征,避免不必要的復(fù)雜推理步驟。這表明,雖然SFT幫助模型學(xué)習(xí)推理格式,但可能引入僵化的模仿推理路徑,限制模型對(duì)動(dòng)態(tài)任務(wù)的適應(yīng)性。相反,RL鼓勵(lì)模型生成更適應(yīng)性的推理行為,增強(qiáng)推理與感知的整合。
最后,訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量對(duì)推理-幻覺(jué)平衡起著關(guān)鍵作用。研究發(fā)現(xiàn):更多的視覺(jué)感知數(shù)據(jù)不一定改善推理和感知之間的平衡;通過(guò)特定領(lǐng)域數(shù)據(jù)訓(xùn)練可以實(shí)現(xiàn)感知和推理的平衡;訓(xùn)練數(shù)據(jù)的規(guī)模并不總是推理-感知平衡的保證。例如,ThinkLite-VL模型在大規(guī)模視覺(jué)感知數(shù)據(jù)的支持下展示了強(qiáng)大的幻覺(jué)和推理平衡。同樣,Ocean-R1模型采用兩階段訓(xùn)練策略,先增強(qiáng)推理能力,然后加強(qiáng)視覺(jué)感知,在RH-bench上取得了最高的RH-AUC。然而,盡管R1-OneVision模型使用大量視覺(jué)感知數(shù)據(jù),它在推理和感知之間的平衡較弱,這可能歸因于其訓(xùn)練范式設(shè)計(jì)的局限性。
五、研究意義與未來(lái)方向
這項(xiàng)研究揭示了多模態(tài)大語(yǔ)言模型在增強(qiáng)推理能力的同時(shí)可能犧牲感知準(zhǔn)確性的重要問(wèn)題。就像人類專注于深度思考時(shí)可能會(huì)忽略周圍環(huán)境一樣,這些模型在"思考"時(shí)也會(huì)減少對(duì)"看到"內(nèi)容的關(guān)注。
研究團(tuán)隊(duì)提出的RH-AUC指標(biāo)和RH-Bench基準(zhǔn)為全面評(píng)估多模態(tài)推理模型提供了新的工具,有助于開(kāi)發(fā)既能進(jìn)行復(fù)雜推理又能保持感知可靠性的平衡模型。這對(duì)于未來(lái)需要在復(fù)雜任務(wù)中保持視覺(jué)信息準(zhǔn)確性的應(yīng)用(如自動(dòng)駕駛、醫(yī)療診斷、智能監(jiān)控等)至關(guān)重要。
雖然這項(xiàng)研究主要基于Qwen2.5-VL骨干模型進(jìn)行,可能限制了發(fā)現(xiàn)的普適性,且關(guān)于訓(xùn)練數(shù)據(jù)影響的分析主要基于技術(shù)報(bào)告而非受控再訓(xùn)練實(shí)驗(yàn),但它為理解和改進(jìn)多模態(tài)推理模型提供了寶貴見(jiàn)解。
未來(lái)的研究方向可能包括:開(kāi)發(fā)能夠動(dòng)態(tài)調(diào)整推理長(zhǎng)度的模型,根據(jù)任務(wù)類型自動(dòng)找到最佳平衡點(diǎn);設(shè)計(jì)新的訓(xùn)練方法,在增強(qiáng)推理能力的同時(shí)保持視覺(jué)信息的準(zhǔn)確處理;以及探索更多樣化的模型架構(gòu),尋找更好的多模態(tài)融合機(jī)制。
簡(jiǎn)而言之,這項(xiàng)研究不僅揭示了現(xiàn)有多模態(tài)推理模型的局限性,還為未來(lái)更平衡、更可靠的AI系統(tǒng)指明了方向。正如研究者所強(qiáng)調(diào)的,我們需要評(píng)估框架同時(shí)考慮推理質(zhì)量和感知可靠性,而不是僅僅追求其中一方面的卓越表現(xiàn)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。