av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 視覺(jué)密碼破解:清華大學(xué)團(tuán)隊(duì)揭示多模態(tài)大語(yǔ)言模型中的視覺(jué)頭稀疏性現(xiàn)象

視覺(jué)密碼破解:清華大學(xué)團(tuán)隊(duì)揭示多模態(tài)大語(yǔ)言模型中的視覺(jué)頭稀疏性現(xiàn)象

2025-06-09 15:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 15:31 ? 科技行者

這項(xiàng)由清華大學(xué)的王佳慧、劉祖燕、饒勇明和陸繼文教授領(lǐng)導(dǎo)的研究發(fā)表于2025年6月的arXiv預(yù)印本(arXiv:2506.05344v1),探討了一個(gè)引人入勝的發(fā)現(xiàn):多模態(tài)大語(yǔ)言模型(MLLMs)在處理視覺(jué)信息時(shí),只有極少數(shù)的注意力頭真正"看懂"了圖像。有興趣深入了解的讀者可以通過(guò)項(xiàng)目主頁(yè)https://github.com/CR400AFA/SparseMM獲取更多信息。

從文字到圖像:大語(yǔ)言模型如何學(xué)會(huì)"看"世界

想象一下,你正在教一個(gè)只會(huì)閱讀文字的朋友如何理解圖片。這個(gè)朋友非常聰明,能夠流利地閱讀和理解各種復(fù)雜的文章,但從未見(jiàn)過(guò)任何圖像。你該如何教會(huì)他"看"?

這正是人工智能研究者們面臨的挑戰(zhàn)。近年來(lái),大語(yǔ)言模型(LLMs)如LLaMA和Qwen系列在純文本任務(wù)上表現(xiàn)出色,但它們本質(zhì)上是"盲人"——它們不理解圖像、視頻或其他視覺(jué)信息。為了讓這些強(qiáng)大的語(yǔ)言模型獲得"視覺(jué)能力",研究人員將它們與視覺(jué)編碼器(如CLIP或SigLIP)結(jié)合,創(chuàng)建了多模態(tài)大語(yǔ)言模型(MLLMs),比如LLaVA和Qwen-VL系列。

但一個(gè)關(guān)鍵問(wèn)題始終懸而未決:這些語(yǔ)言模型究竟是如何學(xué)會(huì)"看"的?當(dāng)我們向原本只懂文字的模型灌輸視覺(jué)能力時(shí),模型內(nèi)部究竟發(fā)生了什么變化?清華大學(xué)的研究團(tuán)隊(duì)決定深入探索這一謎題,就像神經(jīng)學(xué)家研究大腦中視覺(jué)處理區(qū)域一樣,他們想了解MLLMs內(nèi)部負(fù)責(zé)視覺(jué)處理的"神經(jīng)元"。

視覺(jué)頭稀疏性:只有不到5%的"神經(jīng)元"真正看懂圖片

研究團(tuán)隊(duì)的第一個(gè)重大發(fā)現(xiàn)令人驚訝:在MLLMs中,只有不到5%的注意力頭(attention heads)積極參與視覺(jué)理解過(guò)程,研究者將這些特殊的注意力頭稱(chēng)為"視覺(jué)頭"(visual heads)。

為了理解這一發(fā)現(xiàn)的意義,讓我們先簡(jiǎn)單解釋一下"注意力頭"的概念。在大語(yǔ)言模型中,注意力機(jī)制就像是模型的"眼睛",它決定了模型在生成下一個(gè)詞時(shí)應(yīng)該"看"輸入序列的哪些部分。每個(gè)模型通常有數(shù)百個(gè)這樣的"眼睛"(注意力頭),理論上它們都可以參與處理各種輸入信息。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)模型處理圖像時(shí),大多數(shù)注意力頭實(shí)際上仍然專(zhuān)注于文本,只有極少數(shù)注意力頭被重新訓(xùn)練為專(zhuān)門(mén)處理視覺(jué)信息。這就像一個(gè)100人的團(tuán)隊(duì)中,只有5個(gè)人負(fù)責(zé)所有的視覺(jué)任務(wù),而其他95個(gè)人仍然專(zhuān)注于他們熟悉的文字工作。

更有趣的是,這種視覺(jué)頭稀疏性現(xiàn)象在各種MLLMs架構(gòu)中普遍存在,無(wú)論是基于傳統(tǒng)多頭注意力(MHA)的Vicuna模型,還是使用分組查詢(xún)注意力(GQA)的Mistral和Qwen2模型。這就像是無(wú)論組織結(jié)構(gòu)如何變化,總是只有少數(shù)"特殊員工"負(fù)責(zé)處理視覺(jué)信息。

如何找到這些視覺(jué)專(zhuān)家?OCR任務(wù)揭示視覺(jué)頭的秘密

既然知道了只有少數(shù)注意力頭負(fù)責(zé)視覺(jué)理解,下一個(gè)問(wèn)題是:如何找到這些"視覺(jué)專(zhuān)家"?

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。他們選擇了光學(xué)字符識(shí)別(OCR)作為錨定任務(wù),因?yàn)镺CR提供了圖像區(qū)域和文字輸出之間的精確對(duì)應(yīng)關(guān)系。簡(jiǎn)單來(lái)說(shuō),當(dāng)模型看到圖片中的文字并正確輸出它時(shí),我們可以追蹤是哪些注意力頭在關(guān)注圖片中的那個(gè)文字區(qū)域。

想象你給一個(gè)人看一張寫(xiě)有"咖啡"二字的杯子照片,讓他描述看到了什么。如果他說(shuō)"我看到一個(gè)寫(xiě)著'咖啡'的杯子",你就知道他不僅看到了杯子,還讀出了上面的文字。類(lèi)似地,研究團(tuán)隊(duì)通過(guò)追蹤模型在生成與圖像內(nèi)容相關(guān)的文字時(shí)激活的注意力頭,找出了那些真正"看懂"圖像的視覺(jué)頭。

具體來(lái)說(shuō),研究方法包括以下步驟:首先,他們向模型展示包含文本的圖像;然后,對(duì)于模型生成的每個(gè)輸出詞,確定這個(gè)詞對(duì)應(yīng)圖像中的哪個(gè)區(qū)域;接著,識(shí)別哪些注意力頭在生成這個(gè)詞時(shí)最關(guān)注相應(yīng)的圖像區(qū)域;最后,統(tǒng)計(jì)各個(gè)注意力頭的"命中率",得出一個(gè)"視覺(jué)分?jǐn)?shù)"矩陣,用于排名各個(gè)注意力頭對(duì)視覺(jué)信息的響應(yīng)程度。

通過(guò)分析1000張OCR圖像的結(jié)果,研究團(tuán)隊(duì)成功繪制出了一張"視覺(jué)頭分布圖",清晰地顯示了哪些注意力頭最積極參與視覺(jué)理解。

屏蔽實(shí)驗(yàn):證明視覺(jué)頭的關(guān)鍵作用

為了驗(yàn)證這些視覺(jué)頭確實(shí)對(duì)視覺(jué)理解至關(guān)重要,研究團(tuán)隊(duì)進(jìn)行了一系列"屏蔽實(shí)驗(yàn)"。他們選擇性地屏蔽一定比例的視覺(jué)頭,然后測(cè)量模型在OCRBench和TextVQA等基準(zhǔn)測(cè)試上的表現(xiàn)。

結(jié)果令人震驚:對(duì)于LLaVA-NeXT-Vicuna-7B模型,僅屏蔽2%的高分視覺(jué)頭就導(dǎo)致性能下降50%,而屏蔽10%則導(dǎo)致性能暴跌75%。相比之下,隨機(jī)屏蔽相同比例的注意力頭產(chǎn)生的影響要小得多——例如,在Qwen2-VL-7B-Instruct模型中,隨機(jī)屏蔽10%的注意力頭僅導(dǎo)致性能下降7%。

這就像在一個(gè)大型翻譯團(tuán)隊(duì)中,屏蔽少數(shù)關(guān)鍵專(zhuān)家會(huì)導(dǎo)致翻譯質(zhì)量大幅下降,而隨機(jī)屏蔽同等數(shù)量的普通成員則影響不大。這些實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí)了視覺(jué)頭的稀疏分布和關(guān)鍵作用。

SparseMM:利用視覺(jué)頭稀疏性加速多模態(tài)模型推理

基于視覺(jué)頭稀疏性的發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)名為SparseMM的KV緩存優(yōu)化策略,用于加速M(fèi)LLMs的推理過(guò)程。

KV緩存是什么?想象你在閱讀一本長(zhǎng)篇小說(shuō),為了提高閱讀速度,你可能會(huì)在重要段落做標(biāo)記或?qū)懝P記。下次再讀到相關(guān)內(nèi)容時(shí),你不必重新思考,只需參考之前的筆記。在大語(yǔ)言模型中,KV緩存扮演類(lèi)似角色,它存儲(chǔ)了模型處理過(guò)的內(nèi)容,以便在生成后續(xù)文本時(shí)快速檢索,而不必重新計(jì)算。

隨著多模態(tài)輸入變得越來(lái)越復(fù)雜——包括多輪對(duì)話、高分辨率圖像和密集視頻序列——維護(hù)完整的KV緩存會(huì)消耗大量計(jì)算資源?,F(xiàn)有的壓縮方法通常均勻地處理所有注意力頭,忽視了視覺(jué)頭在編碼視覺(jué)語(yǔ)義中的關(guān)鍵作用。

SparseMM通過(guò)不對(duì)稱(chēng)地分配KV緩存預(yù)算來(lái)解決這個(gè)問(wèn)題:視覺(jué)頭獲得優(yōu)先保留,而非視覺(jué)頭則進(jìn)行積極壓縮。具體而言,SparseMM采用三部分分配機(jī)制:

首先是"局部窗口緩存",為每個(gè)頭分配固定大小的近鄰窗口緩存,默認(rèn)為32個(gè)token。這就像確保每個(gè)團(tuán)隊(duì)成員都能記住最近討論的內(nèi)容。

其次是"均勻基礎(chǔ)緩存",從剩余預(yù)算中均勻分配一小部分給每個(gè)頭,默認(rèn)比例為10%。這相當(dāng)于為每個(gè)團(tuán)隊(duì)成員提供一個(gè)基本的筆記本。

最后是"基于分?jǐn)?shù)的緩存",剩余預(yù)算根據(jù)各頭的視覺(jué)分?jǐn)?shù)按比例分配。這就像根據(jù)專(zhuān)業(yè)程度為團(tuán)隊(duì)成員分配額外的資源——視覺(jué)專(zhuān)家獲得更多資源。

這種混合方法確保了更好的準(zhǔn)確率-效率平衡,視覺(jué)頭保留更多計(jì)算資源,而其他頭則動(dòng)態(tài)調(diào)整。

實(shí)驗(yàn)結(jié)果:速度更快,內(nèi)存更少,性能不變

研究團(tuán)隊(duì)在多個(gè)多模態(tài)基準(zhǔn)測(cè)試上評(píng)估了SparseMM的性能,包括DocVQA、OCRBench、TextVQA、ChartQA和TextCaps等。結(jié)果表明,與其他強(qiáng)基線相比,SparseMM在極端緩存預(yù)算限制下表現(xiàn)尤為出色。

例如,在使用LLaVA-NeXT-Vicuna-7B模型處理TextVQA任務(wù)時(shí),僅使用256的KV緩存預(yù)算(約占平均2376個(gè)token的10.77%)就能達(dá)到與完整緩存相當(dāng)?shù)男阅?,而AdaKV等方法則準(zhǔn)確率下降約3%。類(lèi)似地,Qwen2-VL-7B-Instruct在DocVQA任務(wù)上,僅使用256的緩存預(yù)算(僅占平均4830個(gè)token的5.3%)就能保持性能,而其他方法則性能下降5%至17%。

在效率評(píng)估方面,SparseMM顯著降低了解碼延遲和峰值內(nèi)存使用。例如,當(dāng)輸入序列長(zhǎng)度為8K時(shí),LLaVA-NeXT-Vicuna-7B模型加速了1.16倍,而在32K輸入長(zhǎng)度時(shí),加速提高到1.87倍。內(nèi)存使用方面也有顯著改善——對(duì)于32K輸入序列長(zhǎng)度,使用完整KV緩存的LLaVA-NeXT-Vicuna-7B需要32.87GB內(nèi)存,而使用SparseMM后僅需17.38GB,減少了約50%的內(nèi)存開(kāi)銷(xiāo)。

這就像一個(gè)高效團(tuán)隊(duì),不僅完成同樣的工作,還使用了更少的資源和時(shí)間。SparseMM證明,通過(guò)理解和利用視覺(jué)頭的稀疏性,我們可以顯著提高M(jìn)LLMs的推理效率,而不犧牲性能。

為什么這項(xiàng)研究很重要?

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)層面的優(yōu)化。首先,它揭示了MLLMs內(nèi)部處理視覺(jué)信息的機(jī)制,幫助我們理解這些模型如何從"只懂文字"變成"能看懂圖像"。這就像揭開(kāi)了人工智能"大腦"的一個(gè)神秘面紗,讓我們窺見(jiàn)其內(nèi)部工作原理。

其次,SparseMM提供了一種實(shí)用的方法來(lái)加速多模態(tài)模型推理,這對(duì)于在資源有限的環(huán)境中部署這些模型至關(guān)重要。隨著多模態(tài)AI應(yīng)用日益普及,從智能手機(jī)上的視覺(jué)助手到醫(yī)療圖像分析系統(tǒng),更高效的推理方法將使這些技術(shù)更加普及和實(shí)用。

最后,這項(xiàng)研究開(kāi)啟了對(duì)多模態(tài)模型內(nèi)部機(jī)制更深入研究的大門(mén)。了解視覺(jué)頭的分布和功能可能啟發(fā)未來(lái)更高效的模型架構(gòu)設(shè)計(jì),就像了解人類(lèi)視覺(jué)系統(tǒng)幫助我們?cè)O(shè)計(jì)更好的計(jì)算機(jī)視覺(jué)算法一樣。

總之,清華大學(xué)研究團(tuán)隊(duì)的工作不僅提供了技術(shù)創(chuàng)新,還加深了我們對(duì)多模態(tài)人工智能內(nèi)部工作機(jī)制的理解。隨著這一領(lǐng)域的不斷發(fā)展,我們可以期待更高效、更強(qiáng)大的AI系統(tǒng),能夠更自然地理解和交互于我們這個(gè)充滿文字和圖像的世界。

對(duì)于想要深入了解這項(xiàng)研究的讀者,可以通過(guò)https://github.com/CR400AFA/SparseMM訪問(wèn)項(xiàng)目主頁(yè),獲取更多技術(shù)細(xì)節(jié)和代碼實(shí)現(xiàn)。這項(xiàng)工作再次證明,有時(shí)候理解AI系統(tǒng)的內(nèi)部機(jī)制,與創(chuàng)造新的AI系統(tǒng)同樣重要。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-