av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 中科院團隊破解AI視覺"分心"難題:讓機器像人類一樣專注看圖

中科院團隊破解AI視覺"分心"難題:讓機器像人類一樣專注看圖

2025-09-22 10:27
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-22 10:27 ? 科技行者

說起看圖識物這件事,我們?nèi)祟惼鋵嵱袀€很有趣的本領(lǐng)。當(dāng)你走進一家擁擠的便利店,想找一瓶特定品牌的飲料時,盡管貨架上擺滿了各種花花綠綠的商品,你的眼睛卻能夠自動"屏蔽"那些無關(guān)的干擾,快速定位到目標(biāo)。但對于人工智能來說,這個看似簡單的任務(wù)卻成了一個不小的挑戰(zhàn)。

中國科學(xué)院計算技術(shù)研究所的葛宇瑤、劉勝華等研究人員在2024年9月發(fā)表了一項重要研究成果,專門解決AI視覺模型在復(fù)雜場景中"分心"的問題。這項研究以"FOCUSING BY CONTRASTIVE ATTENTION: ENHANCING VLMS' VISUAL REASONING"為題發(fā)表在arXiv預(yù)印本平臺上,有興趣深入了解的讀者可以通過論文編號arXiv:2509.06461v2訪問完整論文。研究團隊還包括來自加州大學(xué)美熹德分校的王藝維博士,以及中科院計算所的梅令瑞、畢寶龍、周玄山、姚家宇、郭嘉豐、程學(xué)旗等多位研究人員。

目前的AI視覺語言模型就像一個容易被周圍環(huán)境干擾的學(xué)生。當(dāng)你給它看一張復(fù)雜的圖片,比如一個擺滿商品的超市貨架,然后問它"紅色標(biāo)簽的瓶子是什么牌子"時,這個AI學(xué)生往往會被貨架上其他花花綠綠的商品吸引注意力,最終給出錯誤答案。研究團隊發(fā)現(xiàn),視覺場景越復(fù)雜,AI的注意力就越分散,就像人在嘈雜環(huán)境中難以集中精神一樣。

為了解決這個問題,研究團隊開發(fā)了一種名為CARVE(Contrastive Attention Refinement for Visual Enhancement,對比注意力視覺增強)的創(chuàng)新方法。這種方法的巧妙之處在于,它不需要重新訓(xùn)練AI模型,而是通過一種對比機制來幫助AI篩選出真正重要的視覺信息。具體來說,CARVE會讓AI分別在兩種不同的提示下觀看同一張圖片:一次是給出通用的描述指令,另一次是針對具體任務(wù)的提問。通過對比這兩次觀看時AI的注意力分布差異,CARVE能夠識別出哪些區(qū)域是任務(wù)相關(guān)的重要信息,哪些是可以忽略的視覺噪音。

實驗結(jié)果令人印象深刻。在多個標(biāo)準(zhǔn)測試數(shù)據(jù)集上,CARVE都顯著提升了AI模型的表現(xiàn)。特別是在一些能力相對有限的開源模型上,性能提升幅度達(dá)到了75%。這就好比給一個近視的學(xué)生配上了合適的眼鏡,讓他能夠清晰地看到黑板上的重點內(nèi)容。

一、視覺復(fù)雜度如何影響AI的"專注力"

要理解CARVE的工作原理,我們首先需要明白什么是視覺復(fù)雜度。就像人眼在觀看不同場景時會有不同的感受一樣,圖像也有簡單和復(fù)雜之分。研究團隊將視覺復(fù)雜度分解為兩個維度:紋理復(fù)雜度和顏色復(fù)雜度。

紋理復(fù)雜度可以想象成圖片中邊緣和輪廓線條的密集程度。一張簡單的白墻照片紋理復(fù)雜度很低,而一張森林或城市街景的照片就會有很高的紋理復(fù)雜度。研究團隊使用了一種叫做Canny邊緣檢測的技術(shù)來量化這種復(fù)雜度,這個方法就像用特殊的濾鏡來突出圖片中所有的邊界線條。

顏色復(fù)雜度則反映了圖片中色彩的豐富程度。一張只有黑白兩色的簡筆畫色彩復(fù)雜度很低,而一幅充滿各種色彩的油畫作品色彩復(fù)雜度就很高。研究團隊通過分析圖片中色相的分布情況來計算這個指標(biāo),就像統(tǒng)計一個調(diào)色盤上用了多少種不同的顏色。

接下來,研究團隊做了一個關(guān)鍵發(fā)現(xiàn)。他們測量了AI模型在觀看不同復(fù)雜度圖片時的注意力分布,發(fā)現(xiàn)了一個有趣的規(guī)律:視覺復(fù)雜度越高,AI的注意力就越分散。這種分散程度可以用數(shù)學(xué)中的熵來衡量,熵值越高表示注意力越不集中。

這個發(fā)現(xiàn)解釋了為什么AI在復(fù)雜場景中表現(xiàn)不佳。當(dāng)面對一張包含大量視覺元素的圖片時,AI就像置身于一個熱鬧的集市,到處都有吸引眼球的東西,結(jié)果反而找不到真正需要關(guān)注的重點。研究團隊通過大量實驗證實,注意力熵值與AI回答問題的準(zhǔn)確率呈現(xiàn)明顯的負(fù)相關(guān)關(guān)系——注意力越分散,回答越容易出錯。

更深入的分析揭示了AI注意力在不同網(wǎng)絡(luò)層次中的演化規(guī)律。在網(wǎng)絡(luò)的淺層,AI的注意力表現(xiàn)出全局掃描的特征,就像初來乍到的游客在大致瀏覽一個新環(huán)境。隨著網(wǎng)絡(luò)層次的加深,注意力逐漸從區(qū)域定位轉(zhuǎn)向重點聚焦。在網(wǎng)絡(luò)深層,注意力通常會收斂到最相關(guān)的區(qū)域上。然而,這種收斂的程度很大程度上取決于輸入圖像的視覺復(fù)雜度。對于簡單清晰的圖像,AI能夠順利實現(xiàn)注意力收斂;但對于復(fù)雜場景,即使在網(wǎng)絡(luò)深層,注意力仍然保持相對分散的狀態(tài)。

二、CARVE方法的核心創(chuàng)新

基于對AI注意力機制的深入理解,研究團隊開發(fā)了CARVE方法。這個方法的核心思想可以用一個簡單的類比來解釋:當(dāng)你想在嘈雜的餐廳里聽清朋友說話時,你會下意識地過濾掉周圍的背景噪音,專注于朋友的聲音。CARVE做的事情本質(zhì)上是類似的——幫助AI過濾掉視覺噪音,專注于任務(wù)相關(guān)的信息。

CARVE的工作流程包含三個關(guān)鍵步驟。第一步是讓AI用通用指令觀看圖片,比如"請描述這張圖片"。在這種通用指令下,AI的注意力主要受到圖像本身的視覺特征影響,研究團隊稱這種注意力為"視覺噪音注意力"。第二步是讓AI用具體的任務(wù)指令觀看同一張圖片,比如"圖片中紅色標(biāo)簽的瓶子是什么牌子"。這時AI的注意力會結(jié)合任務(wù)需求和視覺信息,研究團隊稱之為"任務(wù)導(dǎo)向注意力"。

第三步是CARVE的關(guān)鍵創(chuàng)新所在。通過對比這兩種注意力分布,CARVE能夠提取出純粹的任務(wù)相關(guān)信息。這個過程就像從一杯混合果汁中分離出你最喜歡的那種水果味道。具體的數(shù)學(xué)操作是將任務(wù)導(dǎo)向注意力除以視覺噪音注意力,再加上一個調(diào)節(jié)參數(shù)。這個簡單卻巧妙的公式能夠有效抑制視覺噪音的影響,突出任務(wù)相關(guān)的語義信號。

研究團隊從理論上證明了這種對比機制的有效性。他們證明,AI的注意力分布可以分解為兩個獨立成分的乘積:一個是純粹由圖像視覺特征決定的"視覺噪音因子",另一個是由任務(wù)和圖像語義關(guān)系決定的"語義信號因子"。當(dāng)使用通用指令時,語義信號因子趨向于均勻分布,這意味著注意力主要由視覺噪音因子主導(dǎo)。而CARVE的對比操作正是利用了這一特性,通過數(shù)學(xué)變換將兩個因子分離開來。

得到對比注意力圖后,CARVE會將其轉(zhuǎn)換為實際的視覺掩碼。這個過程就像用畫筆在圖片上涂掉不重要的部分,只保留關(guān)鍵區(qū)域。CARVE會根據(jù)注意力分?jǐn)?shù)選擇最重要的幾個區(qū)域,然后將這些區(qū)域裁剪出來并放大到原始尺寸。這樣處理后的圖片消除了大部分視覺干擾,讓AI能夠集中精力處理真正重要的內(nèi)容。

三、令人矚目的實驗成果

研究團隊在多個標(biāo)準(zhǔn)數(shù)據(jù)集上測試了CARVE的效果,結(jié)果令人印象深刻。這些數(shù)據(jù)集涵蓋了不同類型的視覺推理任務(wù):A-OKVQA測試常識推理能力,POPE測試對象識別準(zhǔn)確性,V*測試細(xì)粒度視覺搜索,TextVQA測試圖像中的文字識別能力。

測試涉及了四個不同的AI模型:兩個來自阿里巴巴的QWEN2.5-VL模型(3B和7B參數(shù)版本)以及兩個經(jīng)典的LLAVA-1.5模型(7B和13B參數(shù)版本)。有趣的是,CARVE對不同模型的提升效果呈現(xiàn)出明顯的差異化特征。能力相對有限的早期模型獲得了顯著更大的改善,而較新的先進模型雖然也有提升,但幅度相對較小。

具體來看,LLAVA1.5-7B模型在V*數(shù)據(jù)集上的表現(xiàn)提升最為顯著,準(zhǔn)確率從38.7%躍升至66.5%,相對提升幅度達(dá)到71.83%。這個結(jié)果特別有意義,因為V*數(shù)據(jù)集專門測試模型在復(fù)雜場景中定位小目標(biāo)的能力,正是CARVE設(shè)計要解決的核心問題。在TextVQA數(shù)據(jù)集上,同一模型的準(zhǔn)確率從47.8%提升到58.2%,提升了21.76%。這表明CARVE不僅能幫助模型更好地處理視覺干擾,還能提高對圖像中文字信息的識別準(zhǔn)確性。

相比之下,較新的QWEN2.5-VL-7B模型在各項測試中也都有穩(wěn)定的改善,但提升幅度相對溫和。在TextVQA上從75.0%提升到81.9%,在V*上從50.8%提升到59.7%。這個差異反映了一個重要現(xiàn)象:能力較弱的模型更容易受到視覺復(fù)雜度的干擾,因此從CARVE的對比注意力機制中獲益更多。

研究團隊還深入分析了CARVE中不同組件的作用效果。他們發(fā)現(xiàn),使用網(wǎng)絡(luò)深層的注意力信息比淺層更有效,這與前面關(guān)于注意力層次演化的發(fā)現(xiàn)一致。在時間維度上,使用生成序列末尾的注意力信息通常比開頭的效果更好,因為末尾的注意力包含了更多上下文信息。

特別值得注意的是,CARVE方法具有很好的魯棒性。研究團隊測試了不同的掩碼生成參數(shù),發(fā)現(xiàn)在保留圖像20%-60%區(qū)域、選擇2-3個主要區(qū)域的設(shè)置下,模型都能獲得穩(wěn)定的性能提升。過度激進的掩碼(只保留20%以下的區(qū)域或只選擇一個區(qū)域)會導(dǎo)致性能下降,因為這樣可能會丟失重要的視覺信息。

四、與其他方法的對比優(yōu)勢

為了驗證CARVE的獨特價值,研究團隊將其與幾種現(xiàn)有的視覺增強方法進行了對比。這些方法包括使用SAM(Segment Anything Model)進行圖像分割、使用YOLO進行目標(biāo)檢測、使用CLIP進行視覺-語言匹配,以及最近提出的ViCrop裁剪方法。

在TextVQA數(shù)據(jù)集上的對比結(jié)果顯示,CARVE以58.2%的準(zhǔn)確率顯著領(lǐng)先于所有對比方法。ViCrop作為最接近的競爭者,準(zhǔn)確率為56.06%,而基于SAM的方法只達(dá)到49.42%,YOLO方法為48.84%,CLIP方法為48.55%。這些結(jié)果表明,專門針對AI注意力機制設(shè)計的CARVE方法確實比通用的視覺處理工具更有效。

從計算效率角度看,CARVE的處理時間為每張圖片1.34秒,雖然比最快的YOLO方法(0.35秒)慢一些,但比需要復(fù)雜分割的SAM方法(3.33秒)要快得多,在實際應(yīng)用中具有很好的實用性。更重要的是,CARVE是一種無需訓(xùn)練的方法,可以直接應(yīng)用于現(xiàn)有的任何視覺語言模型,而不需要額外的模型訓(xùn)練或參數(shù)調(diào)整。

外部工具方法的一個根本限制是它們?nèi)狈唧w問題的理解。比如SAM雖然能夠精確分割圖像中的各種物體,但它不知道哪個物體與當(dāng)前問題相關(guān)。YOLO能夠檢測出圖像中的各種目標(biāo),但同樣無法判斷哪個目標(biāo)是用戶真正關(guān)心的。相比之下,CARVE通過對比不同指令下的注意力分布,能夠直接識別與特定問題相關(guān)的視覺區(qū)域,這種任務(wù)感知能力是外部工具方法無法比擬的。

五、理論基礎(chǔ)和技術(shù)細(xì)節(jié)

CARVE方法的成功不是偶然的,而是建立在堅實的理論基礎(chǔ)之上。研究團隊從數(shù)學(xué)角度嚴(yán)格證明了注意力分解機制的合理性,這為方法的可靠性提供了有力支撐。

核心理論從一個關(guān)鍵觀察開始:AI模型的注意力分布可以看作是兩個因素的乘積。第一個因素是"視覺噪音因子",它完全由圖像的視覺特征決定,與具體任務(wù)無關(guān)。這個因子反映了圖像中不同區(qū)域天然的視覺突出度,比如亮度對比強烈的區(qū)域或紋理復(fù)雜的區(qū)域天然更容易吸引注意。第二個因素是"語義信號因子",它編碼了圖像內(nèi)容與當(dāng)前任務(wù)之間的相關(guān)程度。

當(dāng)AI接收通用指令(如"描述這張圖片")時,由于沒有特定的任務(wù)導(dǎo)向,語義信號因子會趨向于在所有區(qū)域上均勻分布。這意味著通用指令下的注意力主要由視覺噪音因子決定。而在具體任務(wù)指令下,語義信號因子會在任務(wù)相關(guān)區(qū)域呈現(xiàn)較高數(shù)值,在無關(guān)區(qū)域保持較低數(shù)值。

基于這個理論,CARVE設(shè)計了一個簡單而有效的數(shù)學(xué)操作:將任務(wù)導(dǎo)向注意力除以通用指令注意力,再加上一個正則化參數(shù)。這個操作的巧妙之處在于,當(dāng)視覺噪音因子較大時(即該區(qū)域視覺突出但與任務(wù)無關(guān)),除法操作會削弱其影響;而當(dāng)語義信號因子較大時(即該區(qū)域與任務(wù)高度相關(guān)),該區(qū)域在結(jié)果中會得到強化。

研究團隊進一步證明了這個優(yōu)化問題存在唯一的全局最優(yōu)解,并給出了閉式解的表達(dá)。這種理論保證意味著CARVE的結(jié)果是穩(wěn)定和可靠的,不會因為初始條件或隨機因素的影響而產(chǎn)生大幅波動。

在實際實現(xiàn)中,CARVE需要進行三次推理過程。前兩次推理用于提取注意力信息,可以在網(wǎng)絡(luò)的中間層提前終止,無需完成整個生成過程,這大大降低了計算開銷。第三次推理使用處理后的圖像進行最終的問答任務(wù)。研究團隊還提出了注意力緩存機制,對于同一張圖片的多個問題,可以重復(fù)使用通用指令的注意力信息,進一步提高計算效率。

六、方法的適用性和局限性

CARVE方法展現(xiàn)出了很好的通用性和魯棒性,但也存在一些值得注意的局限性。從適用范圍來看,CARVE可以直接應(yīng)用于任何基于Transformer架構(gòu)的視覺語言模型,無需對模型結(jié)構(gòu)進行修改或重新訓(xùn)練。這種即插即用的特性使其具有很強的實用價值。

方法的魯棒性體現(xiàn)在多個方面。首先,在不同的數(shù)據(jù)集和任務(wù)類型上,CARVE都表現(xiàn)出了一致的性能提升,這說明其改進機制不是針對特定任務(wù)的過度擬合,而是抓住了視覺推理的本質(zhì)問題。其次,對于不同規(guī)模和架構(gòu)的模型,雖然提升幅度有所差異,但都能觀察到積極的效果。最后,方法對超參數(shù)的設(shè)置不過分敏感,在合理的參數(shù)范圍內(nèi)都能獲得穩(wěn)定的結(jié)果。

然而,CARVE也面臨一些挑戰(zhàn)。最主要的限制是計算開銷的增加。雖然研究團隊提出了早期終止和注意力緩存等優(yōu)化策略,但相比直接推理,CARVE仍然需要額外的計算資源。在實時應(yīng)用場景中,這種開銷可能成為限制因素。

另一個潛在局限是對通用指令選擇的依賴。CARVE的效果很大程度上取決于通用指令能否真正引導(dǎo)模型產(chǎn)生與任務(wù)無關(guān)的注意力分布。研究團隊通過實驗確定了"寫出圖片的大致描述"作為最優(yōu)的通用指令,但在不同語言或文化背景下,這種選擇是否依然最優(yōu)還需要進一步驗證。

對于一些極端復(fù)雜的場景,比如包含數(shù)百個小物體的密集圖像,CARVE可能仍然難以完全消除視覺干擾。這時可能需要結(jié)合其他技術(shù)手段,比如多尺度處理或?qū)哟位⒁饬C制。

此外,CARVE主要針對單輪問答任務(wù)設(shè)計,對于需要多輪交互或上下文記憶的復(fù)雜對話場景,其效果可能會有所降低。未來的研究可能需要考慮如何將對比注意力機制擴展到更復(fù)雜的交互模式中。

盡管存在這些局限,CARVE仍然為解決AI視覺推理中的注意力分散問題提供了一個有效且實用的解決方案。其簡潔的設(shè)計理念和堅實的理論基礎(chǔ)為后續(xù)研究奠定了良好的基礎(chǔ)。

說到底,CARVE方法的成功在于它抓住了一個關(guān)鍵問題:在復(fù)雜視覺環(huán)境中,如何幫助AI模型像人類一樣專注于重要信息而忽略干擾。這個看似簡單的想法,通過巧妙的技術(shù)實現(xiàn)和嚴(yán)格的理論分析,轉(zhuǎn)化為了一個實用的解決方案。雖然距離完全解決AI視覺推理的挑戰(zhàn)還有距離,但CARVE為這個方向的研究提供了寶貴的洞察和有效的工具。

對于普通用戶而言,CARVE的意義在于它讓AI助手在處理復(fù)雜視覺場景時變得更加可靠和準(zhǔn)確。無論是幫助視障人士理解周圍環(huán)境,還是協(xié)助醫(yī)生分析復(fù)雜的醫(yī)學(xué)影像,或者是幫助學(xué)生解答包含圖表的習(xí)題,更專注的AI視覺能力都將帶來實實在在的便利。隨著這類技術(shù)的不斷發(fā)展和完善,我們有理由相信,AI將在視覺理解和推理方面越來越接近人類水平,為我們的日常生活帶來更多幫助。

Q&A

Q1:CARVE方法的核心原理是什么?

A:CARVE通過讓AI分別用通用指令和具體任務(wù)指令觀看同一張圖片,然后對比兩次注意力分布的差異。這就像讓AI先隨意瀏覽圖片,再帶著問題專注查看,通過對比找出真正與任務(wù)相關(guān)的區(qū)域,過濾掉視覺干擾。

Q2:CARVE需要重新訓(xùn)練AI模型嗎?

A:完全不需要。CARVE是一種無需訓(xùn)練的方法,可以直接應(yīng)用于現(xiàn)有的任何視覺語言模型。它只是在推理過程中增加了注意力對比和圖像掩碼處理步驟,不需要修改模型參數(shù)或結(jié)構(gòu)。

Q3:CARVE方法的計算開銷大嗎?

A:CARVE需要進行三次推理,會增加一定計算開銷,平均每張圖片處理時間約1.34秒。不過研究團隊提出了優(yōu)化策略,前兩次推理可以提前終止,通用指令的結(jié)果還可以緩存重復(fù)使用,實際應(yīng)用中開銷是可控的。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-