av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

深思不見？探究多模態(tài)推理模型中放大的幻覺問題——加州大學(xué)圣克魯茲和斯坦福大學(xué)的最新發(fā)現(xiàn)

多模態(tài)大語言模型視覺幻覺人工智能評(píng)估

深思不見？探究多模態(tài)推理模型中放大的幻覺問題——加州大學(xué)圣克魯茲和斯坦福大學(xué)的最新發(fā)現(xiàn)

作者：科技行者

2025-06-05 09:33

分享至：

這項(xiàng)研究探討了多模態(tài)大語言模型在增強(qiáng)推理能力時(shí)出現(xiàn)的視覺幻覺問題。研究發(fā)現(xiàn)，模型生成更長推理鏈時(shí)，對(duì)視覺信息的關(guān)注減少，導(dǎo)致幻覺增加。研究者提出RH-AUC指標(biāo)和RH-Bench基準(zhǔn)來評(píng)估模型在推理與幻覺間的平衡，發(fā)現(xiàn)較大模型表現(xiàn)更好，純強(qiáng)化學(xué)習(xí)訓(xùn)練優(yōu)于監(jiān)督微調(diào)加強(qiáng)化學(xué)習(xí)，且訓(xùn)練數(shù)據(jù)的類型比數(shù)量更重要。這些發(fā)現(xiàn)對(duì)開發(fā)既具推理能力又保持視覺準(zhǔn)確性的AI系統(tǒng)具有重要意義。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 09:33 ? 科技行者

在人工智能迅猛發(fā)展的今天，由加州大學(xué)圣克魯茲和斯坦福大學(xué)的研究團(tuán)隊(duì)共同完成的一項(xiàng)重要研究引起了廣泛關(guān)注。這項(xiàng)研究由劉成智、徐鐘行、魏青月等人領(lǐng)導(dǎo)，于2025年5月23日發(fā)表在arXiv預(yù)印本平臺(tái)（arXiv:2505.21523v1），深入探討了多模態(tài)推理模型中的幻覺問題。

研究背景：推理能力增強(qiáng)，但"視覺忠誠度"下降？

想象一下，你使用一個(gè)先進(jìn)的AI助手來分析一張棒球比賽的照片。這個(gè)AI告訴你："雖然照片中沒有明確顯示棒球，但根據(jù)比賽場(chǎng)景，我可以推斷球一定存在，所以答案是'是的，照片中有球'"。但實(shí)際上，照片中根本沒有球。這就是研究團(tuán)隊(duì)發(fā)現(xiàn)的問題：當(dāng)多模態(tài)大語言模型（能同時(shí)處理圖像和文字的AI）被訓(xùn)練得更擅長"思考"和推理時(shí)，它們反而更容易產(chǎn)生與圖像不符的"幻覺"。

近年來，研究人員通過增加測(cè)試時(shí)計(jì)算量，讓多模態(tài)大語言模型能夠生成更長的推理鏈，在數(shù)學(xué)推理等任務(wù)上取得了顯著進(jìn)步。但研究團(tuán)隊(duì)發(fā)現(xiàn)，隨著這些推理鏈變得更長，模型往往會(huì)偏離圖像內(nèi)容，更多地依賴語言先驗(yàn)知識(shí)，導(dǎo)致對(duì)圖像內(nèi)容的錯(cuò)誤描述增多。簡單來說，就是模型"想得越多，看得越少"。

一、為什么推理模型會(huì)產(chǎn)生更多幻覺？

研究團(tuán)隊(duì)通過對(duì)比不同模型的表現(xiàn)，發(fā)現(xiàn)了一個(gè)一致且顯著的現(xiàn)象：雖然具備推理能力的模型能生成更詳細(xì)的推理鏈，但它們?cè)诟兄蝿?wù)中引入的幻覺也比非推理模型更多。這就像一個(gè)人過度思考問題時(shí)，反而會(huì)忽略眼前的明顯事實(shí)。

為了理解這一現(xiàn)象，研究者分析了模型的注意力機(jī)制（模型關(guān)注輸入信息的方式）。結(jié)果表明，推理模型對(duì)視覺信息的關(guān)注明顯減少，而對(duì)指令文本的關(guān)注增加。這相當(dāng)于AI在回答問題時(shí)，更多地依賴它已經(jīng)"學(xué)到"的知識(shí)，而不是"看到"的圖像內(nèi)容。

通過對(duì)注意力分布的可視化分析，研究者發(fā)現(xiàn)非推理模型會(huì)逐漸聚焦于圖像中語義上重要的區(qū)域，而推理模型的注意力分散且不連貫，無法持續(xù)關(guān)注關(guān)鍵視覺區(qū)域。這種現(xiàn)象表明，推理能力的增強(qiáng)削弱了模型對(duì)視覺信息的有效處理能力。

更令人擔(dān)憂的是，隨著推理鏈變得更長，模型對(duì)視覺信息的關(guān)注進(jìn)一步減少。就像一個(gè)人陷入深思時(shí)可能會(huì)"走神"，忽略眼前的視覺信息一樣，模型在生成更長的推理鏈時(shí)，對(duì)圖像的關(guān)注度會(huì)不斷下降，導(dǎo)致更多幻覺的產(chǎn)生。

二、推理長度如何影響推理-幻覺平衡？

研究團(tuán)隊(duì)還發(fā)現(xiàn)，推理鏈長度與模型在推理和感知任務(wù)上的表現(xiàn)之間存在非單調(diào)關(guān)系。這就像烹飪一樣，火候太短食物沒熟，火候太長又會(huì)燒焦，只有適中的火候才能做出美味佳肴。

通過三種控制推理長度的策略（預(yù)算強(qiáng)制、測(cè)試時(shí)擴(kuò)展和潛在狀態(tài)引導(dǎo)），研究者探索了不同推理長度對(duì)模型性能的影響。結(jié)果顯示，適度的推理深度往往能產(chǎn)生最佳性能，而過短或過長的推理鏈都會(huì)導(dǎo)致性能下降。

有趣的是，最佳推理長度因任務(wù)而異。數(shù)學(xué)推理等推理任務(wù)通常從更長的推理鏈中受益，而感知和幻覺導(dǎo)向的任務(wù)在較短或中等長度時(shí)表現(xiàn)最佳。這表明推理深度與性能之間的平衡是任務(wù)特定的，統(tǒng)一的長度控制策略不太可能在所有任務(wù)類型上都有效。

另外，研究者還探索了"零思考"條件——保留推理結(jié)構(gòu)但缺乏實(shí)質(zhì)性內(nèi)容。結(jié)果表明，這種設(shè)置導(dǎo)致模型在推理和感知基準(zhǔn)測(cè)試上的性能一致下降，明顯低于正常推理長度下的結(jié)果。這表明，推理內(nèi)容的缺失會(huì)削弱推理模型在感知和推理兩方面的性能。

三、RH-AUC：評(píng)估推理-幻覺平衡的新指標(biāo)

傳統(tǒng)指標(biāo)如推理準(zhǔn)確率和幻覺率，在固定的生成長度下計(jì)算，無法捕捉更深入推理與感知之間的動(dòng)態(tài)平衡。為解決這一問題，研究團(tuán)隊(duì)提出了RH-AUC（Reasoning-Hallucination Area Under Curve）指標(biāo)。

想象一下測(cè)量一個(gè)學(xué)生的全面能力：不僅要看他在數(shù)學(xué)上的表現(xiàn)，還要看他在語文上的表現(xiàn)，以及兩者的平衡性。RH-AUC就像是這樣一個(gè)綜合評(píng)分，它通過計(jì)算由推理性能和幻覺性能在不同推理長度下形成的曲線下面積來得出。簡單來說，這個(gè)指標(biāo)衡量模型在變化的推理深度下保持良好推理能力和低幻覺率的能力，值越高表示平衡越好。

除了新指標(biāo)，研究團(tuán)隊(duì)還發(fā)布了RH-Bench，一個(gè)包含1000個(gè)樣本的診斷基準(zhǔn)，覆蓋各種推理和感知任務(wù)，每個(gè)任務(wù)都包括多項(xiàng)選擇題和開放式問題。這個(gè)基準(zhǔn)測(cè)試專為評(píng)估推理能力和感知幻覺的集成而設(shè)計(jì)，為分析推理能力和感知幻覺提供了強(qiáng)大基礎(chǔ)。

四、關(guān)鍵發(fā)現(xiàn)：影響推理-幻覺平衡的因素

通過RH-Bench的評(píng)估，研究團(tuán)隊(duì)得出了三個(gè)關(guān)鍵發(fā)現(xiàn)：

首先，模型規(guī)模越大，推理-幻覺平衡通常越好。就像一個(gè)經(jīng)驗(yàn)豐富的人比新手更能同時(shí)處理多種信息一樣，大模型通常表現(xiàn)出更強(qiáng)的魯棒性和適應(yīng)性，特別是在處理較長推理鏈時(shí)。較小的模型在性能上顯示出明顯的下降，而較大模型能夠維持更高的穩(wěn)定性。

其次，訓(xùn)練范式對(duì)平衡至關(guān)重要。純強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練的模型比先進(jìn)行監(jiān)督微調(diào)再強(qiáng)化學(xué)習(xí)（SFT+RL）的模型展現(xiàn)出更好的平衡。比如，雖然OpenVLThinker模型維持更長的推理鏈，但引入的冗余推理會(huì)干擾視覺感知，導(dǎo)致錯(cuò)誤的推斷。相比之下，純RL訓(xùn)練的Ocean-R1模型使用更短的推理鏈，能更有效地捕捉關(guān)鍵視覺特征，避免不必要的復(fù)雜推理步驟。這表明，雖然SFT幫助模型學(xué)習(xí)推理格式，但可能引入僵化的模仿推理路徑，限制模型對(duì)動(dòng)態(tài)任務(wù)的適應(yīng)性。相反，RL鼓勵(lì)模型生成更適應(yīng)性的推理行為，增強(qiáng)推理與感知的整合。

最后，訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量對(duì)推理-幻覺平衡起著關(guān)鍵作用。研究發(fā)現(xiàn)：更多的視覺感知數(shù)據(jù)不一定改善推理和感知之間的平衡；通過特定領(lǐng)域數(shù)據(jù)訓(xùn)練可以實(shí)現(xiàn)感知和推理的平衡；訓(xùn)練數(shù)據(jù)的規(guī)模并不總是推理-感知平衡的保證。例如，ThinkLite-VL模型在大規(guī)模視覺感知數(shù)據(jù)的支持下展示了強(qiáng)大的幻覺和推理平衡。同樣，Ocean-R1模型采用兩階段訓(xùn)練策略，先增強(qiáng)推理能力，然后加強(qiáng)視覺感知，在RH-bench上取得了最高的RH-AUC。然而，盡管R1-OneVision模型使用大量視覺感知數(shù)據(jù)，它在推理和感知之間的平衡較弱，這可能歸因于其訓(xùn)練范式設(shè)計(jì)的局限性。

五、研究意義與未來方向

這項(xiàng)研究揭示了多模態(tài)大語言模型在增強(qiáng)推理能力的同時(shí)可能犧牲感知準(zhǔn)確性的重要問題。就像人類專注于深度思考時(shí)可能會(huì)忽略周圍環(huán)境一樣，這些模型在"思考"時(shí)也會(huì)減少對(duì)"看到"內(nèi)容的關(guān)注。

研究團(tuán)隊(duì)提出的RH-AUC指標(biāo)和RH-Bench基準(zhǔn)為全面評(píng)估多模態(tài)推理模型提供了新的工具，有助于開發(fā)既能進(jìn)行復(fù)雜推理又能保持感知可靠性的平衡模型。這對(duì)于未來需要在復(fù)雜任務(wù)中保持視覺信息準(zhǔn)確性的應(yīng)用（如自動(dòng)駕駛、醫(yī)療診斷、智能監(jiān)控等）至關(guān)重要。

雖然這項(xiàng)研究主要基于Qwen2.5-VL骨干模型進(jìn)行，可能限制了發(fā)現(xiàn)的普適性，且關(guān)于訓(xùn)練數(shù)據(jù)影響的分析主要基于技術(shù)報(bào)告而非受控再訓(xùn)練實(shí)驗(yàn)，但它為理解和改進(jìn)多模態(tài)推理模型提供了寶貴見解。

未來的研究方向可能包括：開發(fā)能夠動(dòng)態(tài)調(diào)整推理長度的模型，根據(jù)任務(wù)類型自動(dòng)找到最佳平衡點(diǎn)；設(shè)計(jì)新的訓(xùn)練方法，在增強(qiáng)推理能力的同時(shí)保持視覺信息的準(zhǔn)確處理；以及探索更多樣化的模型架構(gòu)，尋找更好的多模態(tài)融合機(jī)制。

簡而言之，這項(xiàng)研究不僅揭示了現(xiàn)有多模態(tài)推理模型的局限性，還為未來更平衡、更可靠的AI系統(tǒng)指明了方向。正如研究者所強(qiáng)調(diào)的，我們需要評(píng)估框架同時(shí)考慮推理質(zhì)量和感知可靠性，而不是僅僅追求其中一方面的卓越表現(xiàn)。

多模態(tài)大語言模型視覺幻覺人工智能評(píng)估

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<tt id="bxvi5"><b id="bxvi5"></b></tt>