av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<tfoot id="nun4o"><rt id="nun4o"></rt></tfoot>

<sub id="nun4o"><i id="nun4o"></i></sub><cite id="nun4o"></cite>

<sub id="nun4o"></sub>

<s id="nun4o"><abbr id="nun4o"></abbr></s>

<sub id="nun4o"><p id="nun4o"></p></sub>

<bdo id="nun4o"></bdo>

<ol id="nun4o"><span id="nun4o"></span></ol>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

多模態(tài)大語言模型的偏好如何影響決策？哈工大與鵬城實(shí)驗室揭示與控制模型"偏聽偏信"的機(jī)制

人工智能多模態(tài)大語言模型表示工程

多模態(tài)大語言模型的偏好如何影響決策？哈工大與鵬城實(shí)驗室揭示與控制模型"偏聽偏信"的機(jī)制

作者：科技行者

2025-06-05 09:31

分享至：

哈爾濱工業(yè)大學(xué)和鵬城實(shí)驗室的研究團(tuán)隊開發(fā)了一種評估多模態(tài)大語言模型模態(tài)偏好的新方法，并證實(shí)這些模型在處理圖像和文本信息沖突時確實(shí)存在偏好現(xiàn)象。研究者通過構(gòu)建MC?基準(zhǔn)測試，發(fā)現(xiàn)模型偏好受多種因素影響，并能通過表示空間操作進(jìn)行控制。這種基于表示工程的方法不需額外訓(xùn)練，即可靈活調(diào)節(jié)模型偏好，有效應(yīng)用于減少幻覺和提升多模態(tài)翻譯等實(shí)際任務(wù)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 09:31 ? 科技行者

當(dāng)面對文字和圖像同時提供的信息時，多模態(tài)大語言模型（MLLMs）會更相信哪一種？它們是否像人類一樣會產(chǎn)生"偏聽偏信"的現(xiàn)象？這個問題看似簡單，卻關(guān)系到AI如何在復(fù)雜世界中做出決策的核心機(jī)制。

來自哈爾濱工業(yè)大學(xué)（深圳）和鵬城實(shí)驗室的研究團(tuán)隊在2025年5月發(fā)表的論文《Evaluating and Steering Modality Preferences in Multimodal Large Language Model》中，通過精心設(shè)計的實(shí)驗揭示了多模態(tài)大語言模型在處理沖突信息時的偏好傾向，并提出了一種無需額外訓(xùn)練就能調(diào)控這種偏好的方法。該研究成果已發(fā)布在arXiv預(yù)印本平臺（arXiv:2505.20977v1）。

為何要研究模態(tài)偏好？

想象一下這個場景：你向AI助手展示一張有四個人在玩飛盤的照片，但同時文字描述卻說"有三個男孩在玩飛盤，角落里還有一個男孩蹲下系鞋帶，總共四個人"。當(dāng)你問"照片中有多少人？"時，AI會依據(jù)圖像回答"五人"，還是依據(jù)文字回答"四人"？

這就是模態(tài)偏好（Modality Preference）問題的核心：當(dāng)多模態(tài)大語言模型面對來自不同模態(tài)（如圖像和文字）的沖突信息時，它會更傾向于相信哪一種。這不僅是一個理論問題，更關(guān)系到AI在自動駕駛、醫(yī)療診斷等關(guān)鍵應(yīng)用中的可靠性。如果模型過度依賴某一種輸入模態(tài)而忽視其他重要信息，可能導(dǎo)致錯誤判斷，甚至產(chǎn)生嚴(yán)重后果。

如何科學(xué)評估模態(tài)偏好？

研究團(tuán)隊首創(chuàng)了一個名為MC?（Modality Context Conflict）的評估基準(zhǔn)，專門用來測試模型在面對模態(tài)沖突時的決策偏好。這個方法就像是一場精心設(shè)計的"誰更有說服力"的測試：

1. **沖突場景設(shè)計**：研究者為每個測試樣本準(zhǔn)備了兩種沖突證據(jù) - 一種來自視覺（圖像），另一種來自文本（文字描述），這兩種證據(jù)會指向不同的答案。

2. **排除干擾因素**：為確保實(shí)驗公平，研究者精心篩選樣本，確保模型能夠正確理解問題，并且能夠單獨(dú)基于圖像或文本正確回答問題，這樣就排除了理解能力或單模態(tài)處理能力的干擾。

3. **多樣化任務(wù)覆蓋**：評測涵蓋了8種不同類型的任務(wù)，包括計數(shù)、顏色識別、屬性識別、情感分析、位置推理、活動識別、體育識別和物體識別，共計2000個精心挑選的樣本。

這種設(shè)計就像是給AI出一道選擇題："你更相信眼睛看到的，還是耳朵聽到的？"通過觀察模型的選擇，研究者可以量化其模態(tài)偏好程度。

多模態(tài)模型真的有"偏聽偏信"嗎？

研究團(tuán)隊對18個代表性的多模態(tài)大語言模型進(jìn)行了全面測試，結(jié)果令人驚訝：

**所有測試模型都展現(xiàn)出明顯的模態(tài)偏好**。不同于人類可能會根據(jù)情境靈活調(diào)整信任度，AI模型往往系統(tǒng)性地偏向某一種模態(tài)。例如，LLaVA1.5-13B模型在回答問題時，有高達(dá)81.3%的情況下更相信文本而非圖像信息；而Qwen2.5VL-7B則相反，有52.2%的情況更相信圖像。

有趣的是，模型的偏好還會隨任務(wù)類型而變化。在體育識別和物體識別等高級任務(wù)中，像Qwen2.5VL和InternVL3這樣的模型表現(xiàn)出更強(qiáng)的視覺偏好；而在情感分析、位置推理和計數(shù)等需要復(fù)雜推理的任務(wù)中，所有模型普遍更依賴文本信息。

研究還發(fā)現(xiàn)，隨著模型參數(shù)規(guī)模增大，所有模型家族都表現(xiàn)出視覺偏好增強(qiáng)的趨勢。這暗示著更強(qiáng)大的模型可能會發(fā)展出更復(fù)雜的多模態(tài)處理能力，不再過度依賴文本信息。

模型的"偏聽偏信"能被改變嗎？

研究團(tuán)隊進(jìn)一步探索了如何影響和控制模型的模態(tài)偏好，發(fā)現(xiàn)了兩種有效方法：

1. **調(diào)整輸入質(zhì)量**：當(dāng)研究者給圖像添加噪聲時，模型會明顯轉(zhuǎn)向更依賴文本；當(dāng)在文本中引入語法或拼寫錯誤時，模型則更傾向于信任圖像。這表明模型會將表面質(zhì)量作為一種隱含的可靠性信號。

2. **指令引導(dǎo)**：通過在提示中明確指導(dǎo)模型"應(yīng)該更依賴圖像/文本內(nèi)容"，可以有效地引導(dǎo)模型的注意力。有趣的是，引導(dǎo)向文本的效果通常比引導(dǎo)向圖像更明顯，這可能反映了模型在訓(xùn)練中接觸文本指令的頻率更高。

更深入的分析顯示，這些偏好在模型的內(nèi)部表示空間中形成了可識別的幾何模式。研究者通過主成分分析（PCA）發(fā)現(xiàn)，不同模態(tài)偏好對應(yīng)的模型狀態(tài)在表示空間中形成了清晰可分的簇。換句話說，模型的"偏聽偏信"實(shí)際上反映在其神經(jīng)網(wǎng)絡(luò)的激活模式中。

如何控制模型的"偏聽偏信"傾向？

基于對模態(tài)偏好方向的理解，研究團(tuán)隊開發(fā)了一種名為"模態(tài)偏好探測與引導(dǎo)"的方法。這種方法就像是為模型裝上了一個可調(diào)節(jié)的"注意力控制器"：

1. **模態(tài)偏好探測（MPP）**：首先，通過輸入偏向不同模態(tài)的提示，收集模型在特定層的神經(jīng)活動，計算出代表模態(tài)偏好方向的向量。這就像是找出模型"大腦"中控制"信任傾向"的特定區(qū)域。

2. **模態(tài)偏好引導(dǎo)（MPS）**：然后，在模型處理新輸入時，研究者可以向選定層的表示添加經(jīng)過縮放的偏好方向向量，從而引導(dǎo)模型更關(guān)注某一特定模態(tài)。

最令人印象深刻的是，這種方法不需要額外的微調(diào)或精心設(shè)計的提示，只需要兩輪推理：一輪用于探測偏好方向，另一輪用于實(shí)際引導(dǎo)。通過這種方式，研究者能夠有效地控制模型的模態(tài)偏好，使其朝著期望的方向變化。

實(shí)際應(yīng)用：減少幻覺和提升翻譯質(zhì)量

模態(tài)偏好控制不只是理論上有趣，它在實(shí)際應(yīng)用中也展現(xiàn)出巨大價值：

1. **減少視覺幻覺**：通過引導(dǎo)模型更依賴視覺信息，研究團(tuán)隊成功減少了多模態(tài)大語言模型在PhD數(shù)據(jù)集上的幻覺現(xiàn)象。在測試中，他們的方法明顯優(yōu)于其他基線方法，尤其是在有誤導(dǎo)性文本輸入的情況下。

2. **改進(jìn)多模態(tài)機(jī)器翻譯**：通過引導(dǎo)模型更關(guān)注文本模態(tài)，他們改進(jìn)了AmbigCaps數(shù)據(jù)集上的多模態(tài)機(jī)器翻譯性能。這種方法防止了模型過度關(guān)注視覺信息而在翻譯中添加不必要的細(xì)節(jié)，在英土雙向翻譯中取得了顯著提升。

這項研究的意義

這項研究不僅揭示了多模態(tài)大語言模型的一個基本特性——模態(tài)偏好，還提供了一種簡單有效的方法來控制這種偏好，使模型能夠更靈活地適應(yīng)不同任務(wù)需求。

對于研究人員來說，這項工作提供了理解和分析多模態(tài)模型內(nèi)部工作機(jī)制的新視角；對于開發(fā)者來說，模態(tài)偏好控制技術(shù)可以幫助提升模型在各種應(yīng)用中的性能；而對于普通用戶來說，這意味著未來的AI助手可能會更加可靠，能夠在多種信息來源中做出更明智的判斷。

隨著多模態(tài)AI系統(tǒng)在自動駕駛、醫(yī)療診斷、教育輔助等領(lǐng)域的應(yīng)用日益廣泛，理解和控制模型的"偏聽偏信"傾向?qū)⒆兊迷絹碓街匾＿@項研究正是朝著更可靠、更可控的多模態(tài)AI邁出的重要一步。

人工智能多模態(tài)大語言模型表示工程

分享至

0贊

好文章，需要你的鼓勵

推薦文章

計算機(jī)視覺
注意力機(jī)制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

這項研究提出了"高效探測"方法，解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制，該方法在減少90%參數(shù)的同時實(shí)現(xiàn)10倍速度提升，在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼，推動技術(shù)普及應(yīng)用。
檢索增強(qiáng)生成
層次化分析
爭議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng)，通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架，識別不同觀點(diǎn)及其支撐證據(jù)，為科學(xué)和政治爭議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
人工智能
情感認(rèn)知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu)，在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
人工智能
多智能體強(qiáng)化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力，在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<cite id="3jub1"></cite>