
這項(xiàng)由中國科學(xué)技術(shù)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院張宗萌、周文罡、李厚強(qiáng),以及華為技術(shù)有限公司趙潔組成的研究團(tuán)隊(duì)完成的研究,發(fā)表于2025年第42屆國際機(jī)器學(xué)習(xí)大會(ICML 2025)。感興趣的讀者可以通過https://github.com/zmzhang2000/MMMC獲取相關(guān)代碼和數(shù)據(jù)集。
當(dāng)下最火熱的多模態(tài)大語言模型就像是擁有了視覺能力的超級助手,它們能夠同時(shí)理解圖片和文字,回答各種復(fù)雜的問題。然而,這些看似聰明的AI系統(tǒng)卻存在著一個(gè)令人擔(dān)憂的問題:當(dāng)它們面對圖片和文字信息相互矛盾的情況時(shí),經(jīng)常會產(chǎn)生錯(cuò)誤的理解,甚至"編造"出根本不存在的內(nèi)容。
設(shè)想這樣一個(gè)場景:你向AI展示一張狗在海邊沖浪的照片,然后詢問"圖片中的球是什么顏色?"顯然,照片里根本沒有球,但是這些多模態(tài)AI系統(tǒng)卻可能會一本正經(jīng)地告訴你"圖片中的球是綠色的",仿佛真的看到了一個(gè)綠色的球。這種現(xiàn)象在AI領(lǐng)域被稱為"幻覺",而中科大的研究團(tuán)隊(duì)深入探究了這種幻覺產(chǎn)生的根本原因。
研究團(tuán)隊(duì)發(fā)現(xiàn),導(dǎo)致這種問題的根源在于"模態(tài)沖突"——也就是視覺信息和文字信息之間存在根本性的矛盾。以往的研究主要關(guān)注AI的回答與輸入信息之間的沖突,但這項(xiàng)研究首次系統(tǒng)性地關(guān)注了輸入信息本身內(nèi)部的沖突問題。當(dāng)圖片顯示的內(nèi)容與問題中假設(shè)的內(nèi)容不一致時(shí),AI系統(tǒng)就會陷入困境,往往選擇相信文字而忽視視覺證據(jù),從而產(chǎn)生錯(cuò)誤的回答。
為了深入研究這個(gè)問題,團(tuán)隊(duì)構(gòu)建了一個(gè)名為"多模態(tài)模態(tài)沖突"(MMMC)的專門數(shù)據(jù)集,包含了2萬個(gè)精心設(shè)計(jì)的圖片-問題-答案組合。這些樣本專門設(shè)計(jì)來測試AI在面對模態(tài)沖突時(shí)的表現(xiàn)。研究團(tuán)隊(duì)將模態(tài)沖突分為三個(gè)主要類型:對象沖突、屬性沖突和關(guān)系沖突。
對象沖突就像是在一張只有貓的照片前問"狗在哪里"——問題中提到的對象在圖片中根本不存在。屬性沖突則是指同一個(gè)對象在圖片和文字中被描述為具有不同的特征,比如圖片中是紅蘋果,但問題詢問綠蘋果的相關(guān)信息。關(guān)系沖突涉及對象之間位置或相互關(guān)系的不一致,例如圖片顯示貓?jiān)谧雷由?,但問題卻詢問貓?jiān)诘匕迳系那闆r。
通過在這個(gè)數(shù)據(jù)集上測試當(dāng)前最先進(jìn)的多模態(tài)AI系統(tǒng),包括InstructBLIP、LLaVA系列、Qwen2-VL以及GPT-4o等知名模型,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人震驚的事實(shí):所有被測試的模型都表現(xiàn)出極高的幻覺率,超過40%的情況下會產(chǎn)生錯(cuò)誤的回答。即使是被譽(yù)為最強(qiáng)AI的GPT-4o,在面對模態(tài)沖突時(shí)也顯得力不從心。
面對這個(gè)問題,研究團(tuán)隊(duì)提出了三種不同的解決方案。第一種是提示工程方法,通過改進(jìn)給AI的指令來提醒它首先檢查圖片中是否真的包含問題所詢問的內(nèi)容。這就像是在問AI問題之前先提醒它"請仔細(xì)看看圖片再回答"。這種方法簡單易行,不需要額外的計(jì)算資源,但效果很大程度上取決于AI模型本身的能力。
第二種方法是監(jiān)督微調(diào),類似于給AI進(jìn)行專門的訓(xùn)練課程。研究團(tuán)隊(duì)使用MMMC數(shù)據(jù)集中的正確答案來訓(xùn)練AI,讓它學(xué)會在面對模態(tài)沖突時(shí)給出正確的回應(yīng)。這種方法就像是反復(fù)練習(xí)一種特定技能,直到形成肌肉記憶。監(jiān)督微調(diào)表現(xiàn)出了穩(wěn)定且顯著的改進(jìn)效果,能夠有效降低AI的幻覺率。
第三種也是效果最好的方法是強(qiáng)化學(xué)習(xí)。這種方法讓AI在訓(xùn)練過程中不斷嘗試回答問題,當(dāng)它給出正確答案時(shí)就獲得獎勵(lì),給出錯(cuò)誤答案時(shí)就受到懲罰。通過這種獎懲機(jī)制,AI逐漸學(xué)會了更好地處理模態(tài)沖突。強(qiáng)化學(xué)習(xí)方法就像是讓AI在一個(gè)虛擬的游戲環(huán)境中不斷練習(xí),通過試錯(cuò)來掌握正確的判斷方式。
實(shí)驗(yàn)結(jié)果顯示,強(qiáng)化學(xué)習(xí)方法在減少幻覺方面效果最為顯著,能夠?qū)㈠e(cuò)誤率降低10%到50%不等。不過,這種方法也帶來了一些挑戰(zhàn),比如訓(xùn)練過程相對不穩(wěn)定,有時(shí)候AI模型會出現(xiàn)"崩潰"現(xiàn)象,開始生成冗長而重復(fù)的無意義回答。
研究團(tuán)隊(duì)還深入分析了不同類型沖突的難易程度。他們發(fā)現(xiàn),對象沖突是最容易被AI識別的,因?yàn)榕袛嘁粋€(gè)物體是否存在相對簡單。屬性沖突處于中等難度,需要AI仔細(xì)比較圖片中物體的特征與問題中描述的特征。而關(guān)系沖突則是最具挑戰(zhàn)性的,因?yàn)樗驛I準(zhǔn)確理解多個(gè)對象之間復(fù)雜的空間或邏輯關(guān)系。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。隨著多模態(tài)AI在自動駕駛、醫(yī)療診斷、教育輔助等關(guān)鍵領(lǐng)域的廣泛應(yīng)用,確保這些系統(tǒng)能夠準(zhǔn)確理解和處理多模態(tài)信息變得至關(guān)重要。當(dāng)一個(gè)醫(yī)療AI在分析X光片時(shí)產(chǎn)生幻覺,或者自動駕駛系統(tǒng)誤判路況信息時(shí),后果可能是災(zāi)難性的。
研究團(tuán)隊(duì)在測試過程中還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同的AI模型對于訓(xùn)練方法的適應(yīng)性存在顯著差異。有些模型在經(jīng)過改進(jìn)后能夠在多個(gè)任務(wù)上保持穩(wěn)定表現(xiàn),而有些模型則會出現(xiàn)"對齊稅"問題——在解決模態(tài)沖突的同時(shí),在其他任務(wù)上的表現(xiàn)有所下降。這就像是專門訓(xùn)練某項(xiàng)技能可能會影響其他能力的發(fā)揮。
特別值得關(guān)注的是,研究團(tuán)隊(duì)發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)方法雖然效果最好,但訓(xùn)練過程需要格外小心。在某些情況下,AI模型會在訓(xùn)練過程中突然開始生成極長的重復(fù)性回答,仿佛陷入了某種循環(huán)思維模式。這種現(xiàn)象提醒我們,在追求AI性能提升的同時(shí),必須時(shí)刻關(guān)注模型的穩(wěn)定性和可靠性。
從更廣闊的視角來看,這項(xiàng)研究揭示了當(dāng)前AI技術(shù)發(fā)展中的一個(gè)根本性挑戰(zhàn):如何讓機(jī)器真正理解多模態(tài)信息之間的一致性和矛盾性。人類在面對沖突信息時(shí)會本能地進(jìn)行判斷和質(zhì)疑,但AI系統(tǒng)往往缺乏這種批判性思維能力。這不僅是一個(gè)技術(shù)問題,更是一個(gè)關(guān)于如何讓AI具備更接近人類認(rèn)知能力的深層次挑戰(zhàn)。
研究結(jié)果還表明,解決模態(tài)沖突問題需要在數(shù)據(jù)質(zhì)量、訓(xùn)練方法和模型架構(gòu)等多個(gè)層面進(jìn)行系統(tǒng)性改進(jìn)。單純依靠某一種方法很難徹底解決問題,需要多種技術(shù)手段的有機(jī)結(jié)合。這就像是治療一種復(fù)雜疾病需要綜合治療方案一樣。
值得一提的是,這項(xiàng)研究的方法論也為未來的相關(guān)研究提供了重要參考。通過構(gòu)建專門的測試數(shù)據(jù)集來系統(tǒng)性評估AI的特定能力,這種做法可以推廣到其他AI安全和可靠性問題的研究中。研究團(tuán)隊(duì)公開了所有相關(guān)代碼和數(shù)據(jù),為學(xué)術(shù)界和產(chǎn)業(yè)界進(jìn)一步改進(jìn)多模態(tài)AI系統(tǒng)提供了寶貴資源。
對于普通用戶而言,這項(xiàng)研究提醒我們在使用多模態(tài)AI系統(tǒng)時(shí)需要保持適度的警惕。雖然這些系統(tǒng)在大多數(shù)情況下表現(xiàn)良好,但在面對復(fù)雜或矛盾的信息時(shí)可能會出現(xiàn)錯(cuò)誤。了解AI的局限性有助于我們更好地利用這些工具,同時(shí)避免過度依賴可能導(dǎo)致的問題。
說到底,這項(xiàng)研究為我們描繪了一幅多模態(tài)AI發(fā)展的真實(shí)圖景:既有令人振奮的進(jìn)步,也有需要認(rèn)真對待的挑戰(zhàn)。通過深入理解和解決模態(tài)沖突問題,我們正在向更加可靠、更加智能的AI系統(tǒng)邁進(jìn)。這不僅是技術(shù)進(jìn)步的體現(xiàn),更是對AI安全和可信賴性的重要貢獻(xiàn)。隨著相關(guān)技術(shù)的不斷成熟,我們有理由相信未來的多模態(tài)AI將能夠更好地理解和處理復(fù)雜的現(xiàn)實(shí)世界信息,為人類社會帶來更大的價(jià)值。
Q&A
Q1:什么是模態(tài)沖突?為什么會讓AI產(chǎn)生幻覺? A:模態(tài)沖突是指圖片和文字信息之間存在矛盾的情況。比如圖片顯示一只狗,但問題卻詢問貓的信息。AI在面對這種沖突時(shí)往往會偏信文字而忽視圖片證據(jù),從而"編造"出不存在的內(nèi)容,產(chǎn)生幻覺現(xiàn)象。
Q2:目前的多模態(tài)AI有多容易產(chǎn)生這種錯(cuò)誤? A:研究發(fā)現(xiàn),包括GPT-4o在內(nèi)的所有主流多模態(tài)AI都存在這個(gè)問題,錯(cuò)誤率超過40%。這意味著在近一半涉及模態(tài)沖突的情況下,AI會給出錯(cuò)誤答案,這個(gè)比例相當(dāng)高。
Q3:有什么方法可以解決這個(gè)問題嗎? A:研究團(tuán)隊(duì)提出了三種解決方案:改進(jìn)提示詞、專門訓(xùn)練和強(qiáng)化學(xué)習(xí)。其中強(qiáng)化學(xué)習(xí)效果最好,能將錯(cuò)誤率降低10-50%,但訓(xùn)練過程較為復(fù)雜。目前這些方法都在不斷完善中。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。