這項(xiàng)由哥本哈根大學(xué)的李文燕、微軟的拉斐爾·唐以及劍橋大學(xué)的李成組、張才琪和伊萬·武利奇共同完成的重要研究,發(fā)表于2025年9月的計(jì)算機(jī)視覺頂級(jí)會(huì)議論文中。對(duì)這一前沿研究感興趣的讀者可以通過GitHub代碼庫https://github.com/lyan62/vlm-info-loss獲取完整的研究資料和實(shí)現(xiàn)代碼。
當(dāng)我們使用手機(jī)拍照后讓AI描述圖片內(nèi)容時(shí),看似簡單的過程背后其實(shí)隱藏著一個(gè)復(fù)雜的"翻譯"過程。就像把中文翻譯成英文時(shí)可能會(huì)丟失一些微妙的含義一樣,AI在將圖像信息轉(zhuǎn)換成文字描述時(shí),也會(huì)不可避免地丟失一些重要信息。這個(gè)問題比我們想象的更加嚴(yán)重和普遍。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人擔(dān)憂的現(xiàn)象:目前主流的視覺語言模型在處理圖像時(shí),會(huì)丟失高達(dá)40%到60%的視覺信息。這就好比你把一張清晰的照片交給朋友描述,結(jié)果朋友只看到了一張模糊不清的圖片。更令人驚訝的是,這種信息丟失并不是隨機(jī)的,而是有規(guī)律可循的,研究者們甚至可以預(yù)測AI在哪些圖片區(qū)域會(huì)"看不清楚"。
這項(xiàng)研究的重要性不僅在于揭示了問題的存在,更在于提供了一套全新的"診斷工具",能夠精確定位AI視覺系統(tǒng)的薄弱環(huán)節(jié)。研究團(tuán)隊(duì)開發(fā)了兩種互補(bǔ)的方法來量化這種信息丟失:一種方法關(guān)注整體的"鄰居關(guān)系"變化,另一種方法則能夠精確到圖像的每個(gè)小塊區(qū)域。這就像同時(shí)擁有了顯微鏡和望遠(yuǎn)鏡,既能看到宏觀趨勢,也能觀察微觀細(xì)節(jié)。
一、視覺語言模型的工作原理:一場復(fù)雜的"接力賽"
要理解信息丟失的原因,我們需要先了解視覺語言模型是如何工作的。整個(gè)過程就像一場精心設(shè)計(jì)的接力賽,每個(gè)環(huán)節(jié)都至關(guān)重要。
當(dāng)你給AI展示一張圖片時(shí),系統(tǒng)首先會(huì)使用專門的"視覺編碼器"來理解圖片內(nèi)容。這個(gè)編碼器就像一位經(jīng)驗(yàn)豐富的攝影師,能夠快速識(shí)別圖片中的各種元素:人物、物體、顏色、形狀等等。攝影師會(huì)將這些視覺信息轉(zhuǎn)換成一種特殊的"編碼語言",用數(shù)字的方式記錄下來。
然后,這些數(shù)字化的視覺信息需要傳遞給"語言模型",讓它能夠用文字來描述圖片內(nèi)容。但這里出現(xiàn)了一個(gè)關(guān)鍵問題:視覺編碼器說的是"視覺語言",而語言模型只懂"文字語言"。這就像一個(gè)說中文的人要和一個(gè)只懂英文的人交流一樣,需要一個(gè)翻譯官。
在視覺語言模型中,這個(gè)翻譯官被稱為"連接器"。連接器的任務(wù)是將視覺編碼器產(chǎn)生的數(shù)字化視覺信息轉(zhuǎn)換成語言模型能夠理解的格式。這個(gè)轉(zhuǎn)換過程看似簡單,實(shí)際上卻是整個(gè)系統(tǒng)最容易出問題的環(huán)節(jié)。
研究團(tuán)隊(duì)重點(diǎn)關(guān)注了三種不同類型的連接器。第一種是LLaVA模型使用的簡單多層感知機(jī),就像一個(gè)直接的翻譯器,保持信息的原有數(shù)量但改變表達(dá)方式。第二種是Idefics2模型使用的感知器重采樣器,它會(huì)壓縮信息量,就像把一本厚書總結(jié)成摘要。第三種是Qwen2.5-VL模型使用的補(bǔ)丁合并器,它會(huì)將相鄰的視覺信息塊合并處理,類似于將幾張相似的照片拼貼成一張。
二、信息丟失的"診斷工具":兩把精準(zhǔn)的測量尺
為了量化視覺語言模型中的信息丟失程度,研究團(tuán)隊(duì)開發(fā)了兩種創(chuàng)新的測量方法,就像給醫(yī)生配備了兩種不同的診斷設(shè)備。
第一種方法被稱為"k-最近鄰重疊比率"。這個(gè)方法的工作原理就像觀察朋友圈的變化。假設(shè)你有一張自己的照片,在社交網(wǎng)絡(luò)中,與你相似的朋友會(huì)自然地聚集在你周圍,形成一個(gè)朋友圈?,F(xiàn)在,如果有人對(duì)你的照片進(jìn)行了某種處理(比如調(diào)整了顏色或清晰度),你的朋友圈可能會(huì)發(fā)生變化:原來的好友可能變得疏遠(yuǎn),而原本不太熟悉的人可能突然變得相似。
研究團(tuán)隊(duì)通過比較圖像在連接器處理前后的"朋友圈"變化,來衡量信息保持的程度。如果處理后的圖像仍然能夠保持原有的相似性關(guān)系,說明信息丟失較少;反之,如果"朋友圈"發(fā)生了顯著變化,則表明大量信息在轉(zhuǎn)換過程中丟失了。
實(shí)驗(yàn)結(jié)果令人震驚。在對(duì)SeedBench、VQAv2和VizWiz等多個(gè)數(shù)據(jù)集的測試中,研究團(tuán)隊(duì)發(fā)現(xiàn)即使是表現(xiàn)最好的模型,其鄰居重疊比率也只有約60%。這意味著經(jīng)過連接器處理后,圖像失去了40%的鄰居關(guān)系信息。更令人擔(dān)憂的是,某些模型如Qwen2.5-VL的重疊比率甚至低至10%,這意味著高達(dá)90%的結(jié)構(gòu)化信息在轉(zhuǎn)換過程中丟失了。
第二種方法叫做"嵌入重建",這種方法就像訓(xùn)練一名"信息恢復(fù)專家"。研究團(tuán)隊(duì)訓(xùn)練了專門的神經(jīng)網(wǎng)絡(luò)模型,讓它們嘗試從連接器輸出的信息中恢復(fù)出原始的視覺信息。這個(gè)過程就像讓一名高級(jí)技師嘗試從壓縮后的音頻文件中恢復(fù)出原始的高保真音質(zhì)。
恢復(fù)的效果如何,直接反映了信息丟失的程度。如果能夠完美恢復(fù),說明沒有信息丟失;如果恢復(fù)效果很差,則表明大量關(guān)鍵信息在轉(zhuǎn)換過程中永遠(yuǎn)丟失了。更有趣的是,這種方法不僅能夠量化整體的信息丟失程度,還能夠精確定位到圖像的具體區(qū)域,告訴我們哪些部分的信息丟失最嚴(yán)重。
三、驚人的發(fā)現(xiàn):信息丟失如何影響AI的表現(xiàn)
通過這兩種診斷工具,研究團(tuán)隊(duì)揭示了許多令人意外的發(fā)現(xiàn)。首先,他們發(fā)現(xiàn)信息丟失的程度遠(yuǎn)比預(yù)期的嚴(yán)重。即使是目前最先進(jìn)的視覺語言模型,在圖像檢索任務(wù)中的性能也會(huì)因?yàn)檫B接器的信息丟失而大幅下降。
在對(duì)CUB-200-2011鳥類數(shù)據(jù)集的測試中,LLaVA模型的檢索準(zhǔn)確率下降了41.4%,Idefics2下降了18.8%。這就好比原本能夠準(zhǔn)確識(shí)別不同鳥類的專家,突然變得近視模糊,識(shí)別能力大幅下降。
更有意思的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)看似矛盾的現(xiàn)象:Qwen2.5-VL模型雖然在鄰居重疊比率上表現(xiàn)最差(丟失了90%的結(jié)構(gòu)信息),但在某些任務(wù)上的表現(xiàn)反而有所提升。深入分析后,研究者們發(fā)現(xiàn)這是因?yàn)樵撃P驮谟?xùn)練過程中對(duì)視覺編碼器進(jìn)行了持續(xù)優(yōu)化,雖然丟失了原有的結(jié)構(gòu)信息,但創(chuàng)造了新的、可能更適合特定任務(wù)的表示方式。
這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)某位翻譯官雖然不能逐字翻譯,但卻能更好地傳達(dá)文章的核心意思。雖然表面上看起來信息丟失更嚴(yán)重,但實(shí)際效果可能更好。這提醒我們,評(píng)估AI系統(tǒng)的性能需要多角度、多層次的分析。
在圖像描述任務(wù)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了信息丟失與模型表現(xiàn)之間的明確關(guān)聯(lián)。通過分析COCO和Flickr30k數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,他們發(fā)現(xiàn)平均重建誤差較低的模型往往能夠生成更高質(zhì)量的圖像描述。具體來說,LLaVA模型的重建誤差最低(0.087),對(duì)應(yīng)的描述質(zhì)量得分也最高(81.28),而Qwen2.5-VL的重建誤差最高(1.069),描述質(zhì)量得分最低(13.04)。
四、精準(zhǔn)定位問題區(qū)域:AI的"盲點(diǎn)"可視化
研究最激動(dòng)人心的部分是能夠?qū)⒊橄蟮男畔G失問題可視化呈現(xiàn)。研究團(tuán)隊(duì)開發(fā)了一種方法,可以在圖像上精確標(biāo)出AI"看不清楚"的區(qū)域,就像給醫(yī)生提供了一張?jiān)敿?xì)的X光片。
在對(duì)VizWiz視覺問答數(shù)據(jù)集的分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要規(guī)律:AI在回答問題時(shí)的錯(cuò)誤往往可以通過信息丟失的分布來預(yù)測。當(dāng)圖像中與問題答案相關(guān)的區(qū)域出現(xiàn)高信息丟失時(shí),AI回答錯(cuò)誤的概率會(huì)顯著增加。
例如,在一個(gè)關(guān)于"第五個(gè)數(shù)字是什么"的問題中,LLaVA模型錯(cuò)誤地回答了"18"而不是正確答案"8"。通過信息丟失可視化,研究團(tuán)隊(duì)發(fā)現(xiàn)數(shù)字"8"所在的區(qū)域確實(shí)出現(xiàn)了嚴(yán)重的信息丟失,這直接解釋了模型錯(cuò)誤的根本原因。
這種可視化方法的價(jià)值不僅在于事后分析,更在于為AI系統(tǒng)的改進(jìn)提供了明確的方向。開發(fā)者可以根據(jù)這些"熱力圖"來優(yōu)化連接器的設(shè)計(jì),重點(diǎn)保護(hù)那些對(duì)任務(wù)最關(guān)鍵的視覺信息。
研究團(tuán)隊(duì)還發(fā)現(xiàn),不同模型的"盲點(diǎn)"模式存在顯著差異。LLaVA模型主要在回答相關(guān)區(qū)域出現(xiàn)信息丟失時(shí)表現(xiàn)下降,而在無關(guān)區(qū)域的信息丟失甚至可能略微提升表現(xiàn)。Idefics2模型則對(duì)任何區(qū)域的信息丟失都比較敏感。這些發(fā)現(xiàn)為針對(duì)性優(yōu)化不同模型提供了重要指導(dǎo)。
五、更深層的分析:線性變換的局限性
為了更深入理解信息丟失的本質(zhì),研究團(tuán)隊(duì)還嘗試了一種叫做"普氏分析"的方法。這種方法試圖找到一個(gè)最優(yōu)的幾何變換,將處理后的視覺信息重新對(duì)齊到原始狀態(tài),就像試圖找到一把萬能鑰匙來恢復(fù)丟失的信息。
結(jié)果表明,即使使用最優(yōu)的線性變換方法,也無法有效恢復(fù)丟失的信息。LLaVA模型的對(duì)齊誤差高達(dá)16.62,Qwen2.5-VL為4.41,這些數(shù)值遠(yuǎn)高于可接受的范圍。這個(gè)發(fā)現(xiàn)證明了信息丟失的不可逆性:一旦信息在連接器中丟失,就幾乎不可能通過簡單的數(shù)學(xué)變換來恢復(fù)。
這個(gè)結(jié)果解釋了為什么研究團(tuán)隊(duì)提出的非線性重建方法能夠取得更好的效果。復(fù)雜的神經(jīng)網(wǎng)絡(luò)重建模型雖然不能完全恢復(fù)丟失的信息,但至少能夠部分補(bǔ)償線性變換的不足。
六、模型架構(gòu)的影響:大小不是關(guān)鍵
一個(gè)有趣的發(fā)現(xiàn)是,連接器的規(guī)模大小并不直接決定其性能。研究團(tuán)隊(duì)測試了不同規(guī)模的重建模型,發(fā)現(xiàn)27M參數(shù)的三層模型與39M參數(shù)的五層模型在重建效果上相差無幾,而40M參數(shù)的Transformer模型反而表現(xiàn)更差。
這個(gè)發(fā)現(xiàn)提醒我們,AI系統(tǒng)的優(yōu)化不能簡單地依靠增加參數(shù)數(shù)量,而需要更加精巧的設(shè)計(jì)。就像烹飪一道菜,關(guān)鍵不在于用料多少,而在于配比是否合理、火候是否恰當(dāng)。
同時(shí),研究團(tuán)隊(duì)也嘗試了直接從視覺信息重建原始圖像的實(shí)驗(yàn)。雖然這種方法在技術(shù)上可行,但受到圖像生成模型本身局限性的影響,結(jié)果并不如嵌入重建方法那樣可靠和有說服力。
七、實(shí)際應(yīng)用的啟示:如何改進(jìn)AI視覺系統(tǒng)
這項(xiàng)研究的價(jià)值不僅在于發(fā)現(xiàn)問題,更在于為改進(jìn)AI視覺系統(tǒng)提供了明確的方向。首先,研究表明了評(píng)估連接器性能需要多維度的指標(biāo)。傳統(tǒng)的評(píng)估方法主要關(guān)注最終任務(wù)的表現(xiàn),而忽略了中間環(huán)節(jié)的信息保持程度。
其次,研究揭示了不同連接器架構(gòu)的優(yōu)缺點(diǎn)。簡單的多層感知機(jī)雖然保持了信息量,但可能無法進(jìn)行有效的模態(tài)對(duì)齊。壓縮型連接器雖然丟失了大量信息,但可能提取了更加緊湊和任務(wù)相關(guān)的特征。這為設(shè)計(jì)者提供了權(quán)衡的依據(jù)。
最重要的是,研究提出的可視化方法為AI系統(tǒng)的調(diào)試和優(yōu)化提供了強(qiáng)有力的工具。開發(fā)者可以實(shí)時(shí)監(jiān)控信息丟失的分布,針對(duì)性地改進(jìn)模型設(shè)計(jì)。這就像給汽車裝上了儀表盤,讓駕駛員能夠隨時(shí)了解引擎的運(yùn)行狀態(tài)。
研究還暗示了一個(gè)有趣的改進(jìn)方向:將信息重建損失作為訓(xùn)練過程中的正則化項(xiàng)。通過在訓(xùn)練時(shí)明確要求模型保持視覺信息的完整性,可能能夠顯著改善連接器的性能。這種方法就像在訓(xùn)練翻譯員時(shí)不僅要求翻譯準(zhǔn)確,還要求保持原文的風(fēng)格和細(xì)節(jié)。
說到底,這項(xiàng)研究為我們揭開了AI視覺理解過程中一個(gè)重要但長期被忽視的問題。雖然目前的視覺語言模型在許多任務(wù)上表現(xiàn)出色,但它們?cè)谛畔鬟f過程中的"失真"問題卻比我們想象的更加嚴(yán)重。正如研究團(tuán)隊(duì)指出的,一個(gè)理想的連接器應(yīng)該既能保持視覺信息的完整性,又能提取與文本內(nèi)容最相關(guān)的特征。
這個(gè)發(fā)現(xiàn)對(duì)普通用戶意味著什么呢?當(dāng)我們使用AI來描述圖片或回答關(guān)于圖像的問題時(shí),需要意識(shí)到AI可能"看不清"某些重要細(xì)節(jié)。特別是對(duì)于需要精確視覺信息的任務(wù),比如醫(yī)學(xué)圖像分析或技術(shù)圖紙解讀,這種信息丟失可能會(huì)帶來嚴(yán)重后果。
同時(shí),這項(xiàng)研究也為AI技術(shù)的未來發(fā)展指明了方向。隨著研究者們對(duì)信息丟失機(jī)制理解的深入,我們有望看到更加高效和可靠的視覺語言模型。這些改進(jìn)后的模型將能夠更完整地保持視覺信息,為用戶提供更準(zhǔn)確和詳細(xì)的服務(wù)。
對(duì)于技術(shù)開發(fā)者來說,這項(xiàng)研究提供的診斷工具和分析框架將成為改進(jìn)AI系統(tǒng)的重要參考。通過定期檢查和優(yōu)化連接器的信息傳遞效率,開發(fā)者可以構(gòu)建出更加可靠和高效的AI應(yīng)用。
最終,這項(xiàng)研究提醒我們,AI技術(shù)的進(jìn)步不僅需要追求表面的性能提升,更需要深入理解系統(tǒng)內(nèi)部的工作機(jī)制。只有這樣,我們才能構(gòu)建出真正可靠和值得信賴的人工智能系統(tǒng)。感興趣的讀者可以通過訪問研究團(tuán)隊(duì)提供的GitHub鏈接https://github.com/lyan62/vlm-info-loss來獲取詳細(xì)的代碼實(shí)現(xiàn)和實(shí)驗(yàn)數(shù)據(jù),進(jìn)一步探索這一重要課題。
Q&A
Q1:什么是視覺語言模型中的連接器,它為什么會(huì)導(dǎo)致信息丟失?
A:連接器是視覺語言模型中負(fù)責(zé)將圖像信息轉(zhuǎn)換為文字模型能理解格式的"翻譯官"。由于視覺編碼器和語言模型使用不同的信息表示方式,連接器需要進(jìn)行格式轉(zhuǎn)換和維度調(diào)整,這個(gè)過程中不可避免地會(huì)丟失一些原始的視覺細(xì)節(jié),就像把高清圖片壓縮成小文件時(shí)會(huì)損失畫質(zhì)一樣。
Q2:信息丟失程度有多嚴(yán)重,會(huì)對(duì)AI的實(shí)際表現(xiàn)產(chǎn)生什么影響?
A:研究發(fā)現(xiàn)即使最好的模型也會(huì)丟失40%到60%的視覺結(jié)構(gòu)信息,有些模型甚至丟失高達(dá)90%。這直接導(dǎo)致AI在圖像檢索任務(wù)中準(zhǔn)確率下降18%-41%,在圖像描述和視覺問答任務(wù)中也會(huì)出現(xiàn)明顯的性能下降,特別是當(dāng)關(guān)鍵信息區(qū)域出現(xiàn)高損失時(shí),AI很容易給出錯(cuò)誤答案。
Q3:這項(xiàng)研究提出的可視化方法有什么實(shí)用價(jià)值?
A:研究開發(fā)的可視化方法能夠在圖像上精確標(biāo)出AI"看不清"的區(qū)域,就像醫(yī)學(xué)X光片一樣直觀。這不僅能幫助開發(fā)者理解AI出錯(cuò)的具體原因,還能為優(yōu)化模型設(shè)計(jì)提供明確方向。用戶也可以通過這種方法了解AI在處理哪些圖像區(qū)域時(shí)可能不太可靠。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。