av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 DOVE:加州大學(xué)團(tuán)隊(duì)推出"圖像信息量自適應(yīng)表示法",讓AI更智能地理解圖片

DOVE:加州大學(xué)團(tuán)隊(duì)推出"圖像信息量自適應(yīng)表示法",讓AI更智能地理解圖片

2025-06-10 09:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 09:24 ? 科技行者

長久以來,我們使用相機(jī)捕捉世界的瞬間,無論拍攝的是簡單的白墻還是繁忙的街景,每張照片在計算機(jī)看來都被強(qiáng)制轉(zhuǎn)換為相同長度的數(shù)據(jù)表示。這就像是無論你要記錄一個簡單的購物清單還是整部戰(zhàn)爭與和平,都被要求使用恰好100個單詞一樣不合理。加州大學(xué)圣地亞哥分校、加州大學(xué)伯克利分校和華盛頓大學(xué)的研究團(tuán)隊(duì)在2025年6月發(fā)表的論文《Images are Worth Variable Length of Representations》(圖像值得擁有可變長度的表示)中,提出了一個突破性的解決方案,讓計算機(jī)能夠根據(jù)圖像的復(fù)雜程度自動調(diào)整表示長度。

這篇發(fā)表于arXiv預(yù)印本平臺(arXiv:2506.03643v2)的研究由林俊毛(Lingjun Mao)、Rodolfo Corona、Xin Liang、嚴(yán)文浩(Wenhao Yan)和唐子能(Zineng Tang)共同完成,他們開發(fā)的動態(tài)視覺編碼器DOVE(Dynamic Output Vision Encoder)能夠根據(jù)圖像的復(fù)雜度生成長短不一的表示序列。想象一下,一張簡單的白墻照片可能只需要20個"視覺單詞"就能描述清楚,而一個雜亂的客廳可能需要150個"視覺單詞"才能準(zhǔn)確表達(dá)。DOVE正是這樣工作的,它根據(jù)圖像的復(fù)雜性動態(tài)調(diào)整表示長度,就像我們在日常生活中,描述簡單事物用簡短語句,描述復(fù)雜事物則需要更詳細(xì)的解釋。

在視覺表示學(xué)習(xí)領(lǐng)域,現(xiàn)有的方法大多會將圖像轉(zhuǎn)換為固定長度的序列,這就像是強(qiáng)制每個人無論說什么內(nèi)容都必須使用相同數(shù)量的單詞。研究團(tuán)隊(duì)指出,這種做法忽略了一個基本事實(shí):不同圖像包含的信息量是不同的。例如,一個雜亂的房間(比如你忘記打掃的臥室)天然比一面空白的墻包含更多的視覺信息,因此理應(yīng)使用更多的表示單元來描述。

DOVE的核心創(chuàng)新在于它能夠生成"結(jié)束符號"(EOS,就像句子結(jié)束時的句號),在表示序列中的任何位置終止輸出。系統(tǒng)會在訓(xùn)練過程中同時優(yōu)化圖像重建質(zhì)量和EOS標(biāo)記的預(yù)測,根據(jù)重建誤差動態(tài)決定需要多少個表示單元。當(dāng)系統(tǒng)認(rèn)為已經(jīng)捕捉到足夠的圖像信息時,就會生成EOS標(biāo)記,從而產(chǎn)生長度可變的表示序列。

研究結(jié)果令人驚喜。與固定長度的表示方法相比,DOVE能夠在使用更少表示單元的同時,保持甚至提高圖像重建質(zhì)量。在分類、問答等下游任務(wù)中,DOVE明顯優(yōu)于其他自編碼器方法,即使使用遠(yuǎn)少于對手的表示單元也能表現(xiàn)出更強(qiáng)的語義理解能力。

此外,研究團(tuán)隊(duì)還開發(fā)了DOVE的一個變種——Q-DOVE,它能夠根據(jù)文本查詢生成條件化的表示。想象你問"圖中有幾個人?",Q-DOVE會集中精力表示圖像中與人相關(guān)的區(qū)域,忽略背景中的無關(guān)細(xì)節(jié)。這種查詢條件化的表示進(jìn)一步提高了表示效率,平均可以節(jié)省68%的表示單元,同時展現(xiàn)出更強(qiáng)的語義理解能力。

一、DOVE:動態(tài)視覺編碼器的工作原理

想象你是一位專業(yè)攝影師,需要描述不同場景的照片。對于一張簡單的藍(lán)天白云照片,你可能只需幾句話就能描述清楚;而對于一張繁忙的城市街景,則需要更多細(xì)節(jié)和描述。DOVE系統(tǒng)正是基于這樣的直覺設(shè)計的——復(fù)雜圖像需要更多的"描述詞",簡單圖像只需少量"描述詞"。

DOVE的架構(gòu)由四個主要組件構(gòu)成:VQGAN編碼器、變換器(Transformer)動態(tài)標(biāo)記生成器、變換器標(biāo)記解碼器和VQGAN解碼器。整個過程像是一條信息處理流水線,讓我們用做菜的過程來理解它:

首先,VQGAN編碼器就像廚師初步處理食材,它將原始圖像轉(zhuǎn)換為初步的表示序列。接著,時間編碼(就像菜譜中的步驟編號)被添加到這些表示中。然后,動態(tài)標(biāo)記生成器(相當(dāng)于主廚)開始工作,它能夠根據(jù)當(dāng)前已經(jīng)生成的信息決定是否繼續(xù)添加更多細(xì)節(jié),或者認(rèn)為"菜已經(jīng)做好了"并生成一個"結(jié)束"標(biāo)記。最后,標(biāo)記解碼器和VQGAN解碼器(像是裝盤和最終調(diào)味)將這些表示轉(zhuǎn)回為可視圖像。

系統(tǒng)通過聯(lián)合訓(xùn)練方式優(yōu)化兩個關(guān)鍵目標(biāo):圖像重建質(zhì)量和動態(tài)長度控制。圖像重建使用均方誤差、感知損失和輕量級對抗性損失的組合,確保重建圖像既準(zhǔn)確又自然。動態(tài)長度控制則通過比較當(dāng)前重建損失與平均重建損失來實(shí)現(xiàn):如果當(dāng)前損失較高(意味著需要更多表示單元來改善重建),系統(tǒng)會推遲生成EOS標(biāo)記;如果損失已經(jīng)較低(表明當(dāng)前表示單元已足夠),系統(tǒng)則會鼓勵生成EOS標(biāo)記。

這種自適應(yīng)機(jī)制使DOVE能夠智能地分配計算資源——為復(fù)雜圖像提供更多表示單元,為簡單圖像分配較少單元。研究團(tuán)隊(duì)發(fā)現(xiàn),大多數(shù)圖像的表示長度都小于100個單元,只有極少數(shù)復(fù)雜圖像需要接近最大限制的256個單元。這意味著平均而言,DOVE能夠顯著減少處理圖像所需的計算資源,同時保持甚至提升表示質(zhì)量。

二、查詢條件化:讓AI"看"得更有重點(diǎn)

人類視覺是一個主動的、任務(wù)驅(qū)動的過程。當(dāng)我們試圖回答"桌子上有幾個蘋果?"這樣的問題時,我們會自然地將注意力集中在桌子區(qū)域,而忽略圖像中的其他部分?;谶@種人類視覺系統(tǒng)的特性,研究團(tuán)隊(duì)開發(fā)了DOVE的查詢條件化變體——Q-DOVE。

Q-DOVE接受文本查詢作為輸入,并學(xué)習(xí)將重建注意力集中在與查詢相關(guān)的圖像區(qū)域。這就像是在告訴系統(tǒng):"嘿,看看這個特定區(qū)域,這里有你需要回答問題的關(guān)鍵信息。"在訓(xùn)練過程中,Q-DOVE學(xué)習(xí)使用更多資源表示查詢相關(guān)區(qū)域,同時對無關(guān)區(qū)域使用更少資源。

具體來說,Q-DOVE在訓(xùn)練時接收圖像、文本查詢和與答案相關(guān)的邊界框數(shù)據(jù)。系統(tǒng)會增加對邊界框內(nèi)區(qū)域重建質(zhì)量的權(quán)重,同時大幅降低對框外區(qū)域的重建要求。這種有針對性的訓(xùn)練策略使Q-DOVE能夠進(jìn)一步減少生成的表示單元數(shù)量,平均可以節(jié)省約68%的單元,同時在下游視覺-語言任務(wù)中展現(xiàn)出更強(qiáng)的性能。

值得注意的是,Q-DOVE在推理時只需要圖像和查詢文本,不需要邊界框信息。這意味著它已經(jīng)學(xué)會了如何根據(jù)查詢自動找到圖像中的相關(guān)區(qū)域——就像我們?nèi)祟愒诨卮饐栴}時自然而然地將注意力集中在相關(guān)視覺區(qū)域一樣。

三、實(shí)驗(yàn)結(jié)果:更少的信息單元,更好的理解能力

研究團(tuán)隊(duì)在多個層面評估了DOVE的性能,包括重建質(zhì)量、表示長度分布以及在下游視覺語言任務(wù)中的有效性。結(jié)果顯示,DOVE不僅能夠顯著減少表示單元數(shù)量,還能捕獲更豐富的語義信息。

在圖像重建質(zhì)量方面,隨著表示單元數(shù)量的增加,DOVE的重建質(zhì)量穩(wěn)步提升。即使在使用相對較少的表示單元時(如32或64個),DOVE也能產(chǎn)生結(jié)構(gòu)上和語義上較為忠實(shí)的重建結(jié)果。這與另一種動態(tài)視覺編碼器ALIT形成鮮明對比,后者在低表示單元數(shù)量時會產(chǎn)生嚴(yán)重的對象變形。例如,當(dāng)表示單元限制為32個時,ALIT重建的變色龍和甲蟲會出現(xiàn)明顯的變形,而DOVE則能保持結(jié)構(gòu)完整性,只是細(xì)節(jié)略顯模糊。

在分類任務(wù)中,DOVE作為一個現(xiàn)成的、凍結(jié)的骨干網(wǎng)絡(luò)在CIFAR-100、ImageNet-100和STL-10等三個標(biāo)準(zhǔn)識別基準(zhǔn)上進(jìn)行了評估。研究發(fā)現(xiàn),隨著表示單元數(shù)量的增加,DOVE和ALIT的分類準(zhǔn)確率都穩(wěn)步提升。然而,DOVE始終以顯著優(yōu)勢超越所有其他視覺表示方法。即使僅使用32個表示單元,DOVE也能實(shí)現(xiàn)比所有競爭方法更高的分類準(zhǔn)確率。研究團(tuán)隊(duì)將這一優(yōu)勢歸因于DOVE的動態(tài)重建訓(xùn)練目標(biāo),這使模型能夠在表示學(xué)習(xí)過程中捕獲額外的語義信息。

在視覺問答評估中,研究人員將不同的視覺編碼器集成到視覺語言模型中,并在多個基準(zhǔn)測試上評估它們的性能。結(jié)果顯示,配備DOVE的視覺語言模型在所有數(shù)據(jù)集上顯著優(yōu)于其他模型,而集成Q-DOVE則進(jìn)一步提高了準(zhǔn)確率。通過利用DOVE的EOS標(biāo)記作為截斷點(diǎn),系統(tǒng)能夠在保持與完整256個表示單元相當(dāng)?shù)男阅艿耐瑫r,大幅減少表示單元數(shù)量。對于Q-DOVE,研究者嘗試了兩種輸入策略:提供實(shí)際問題或直接輸入"null"。雖然"null"設(shè)置在性能上略優(yōu)于問題引導(dǎo)策略,但問題引導(dǎo)策略能夠在保持相當(dāng)準(zhǔn)確率的同時進(jìn)一步減少表示單元長度。

此外,研究團(tuán)隊(duì)還對模型的推理時間和浮點(diǎn)運(yùn)算量進(jìn)行了測量。結(jié)果表明,DOVE和ALIT都能通過縮短視覺表示序列長度有效減少浮點(diǎn)運(yùn)算量。然而,由于ALIT使用循環(huán)蒸餾(通過對VQGAN標(biāo)記進(jìn)行多次傳遞生成動態(tài)標(biāo)記),其推理速度受到不利影響,盡管序列長度減少。相比之下,DOVE依靠單次前向傳遞,因此推理速度更快。

四、語義的自然浮現(xiàn):意外的發(fā)現(xiàn)

通過之前的實(shí)驗(yàn),研究團(tuán)隊(duì)觀察到DOVE生成的視覺表示在分類和下游多模態(tài)任務(wù)中顯著優(yōu)于固定長度的自編碼器表示方法。在本節(jié)中,他們進(jìn)一步探索了這種語義涌現(xiàn)現(xiàn)象。

研究者通過對模型隱藏層而非生成的視覺標(biāo)記進(jìn)行線性探測,評估了學(xué)習(xí)表示的質(zhì)量。他們在七個基準(zhǔn)數(shù)據(jù)集上比較了DOVE、Q-DOVE和其他固定長度自編碼器表示方法:CIFAR-10、CIFAR-100、DTD(可描述紋理數(shù)據(jù)集)、FGVC(細(xì)粒度視覺分類)、Food101、STL-10和SUN397。對于Q-DOVE,他們將所有文本查詢設(shè)置為"null"以模擬無條件設(shè)置。

結(jié)果表明,DOVE在所有數(shù)據(jù)集上以大幅優(yōu)勢持續(xù)超越其他方法,而Q-DOVE則進(jìn)一步提高了DOVE的性能。為了深入了解學(xué)習(xí)表示的結(jié)構(gòu),研究者應(yīng)用主成分分析(PCA)進(jìn)行降維并在圖像空間中可視化結(jié)果。如圖8所示,與VQGAN相比,DOVE產(chǎn)生了語義上更連貫的分割,而Q-DOVE則展現(xiàn)出更強(qiáng)的語義對齊和清晰度。

這種語義的自然浮現(xiàn)令人驚訝,因?yàn)镈OVE原本只是被設(shè)計用來根據(jù)圖像復(fù)雜性生成變長表示的。研究團(tuán)隊(duì)推測,這可能是因?yàn)閯討B(tài)長度訓(xùn)練迫使模型更加高效地編碼語義信息,從而學(xué)習(xí)到了更有意義的表示結(jié)構(gòu)。簡單來說,當(dāng)系統(tǒng)被要求"精打細(xì)算"地使用表示單元時,它學(xué)會了更聰明地組織信息,自然地形成了更有語義意義的結(jié)構(gòu)。

五、相關(guān)工作與DOVE的創(chuàng)新點(diǎn)

在深入了解DOVE的工作原理和實(shí)驗(yàn)結(jié)果后,我們來看看它與現(xiàn)有研究的關(guān)系,以及它帶來的獨(dú)特創(chuàng)新。

圖像表示學(xué)習(xí)是計算機(jī)視覺的基礎(chǔ),現(xiàn)有的方法大致分為兩類:語義特征學(xué)習(xí)(如CLIP、DINO)和基于自編碼器的圖像標(biāo)記化(如VQGAN、VAE)。這些方法都旨在生成固定長度的序列。然而,研究表明視覺標(biāo)記存在信息冗余問題。DOVE團(tuán)隊(duì)推測,不同圖像具有不同的復(fù)雜度,因此可以用不同長度的標(biāo)記序列進(jìn)行重建。

與標(biāo)記剪枝和壓縮方法不同,這些方法通過在變換器層之間迭代減少要處理的標(biāo)記集來降低計算成本,DOVE產(chǎn)生可變數(shù)量的標(biāo)記,允許它直接集成到模型預(yù)訓(xùn)練和微調(diào)流程中。另一些工作通過在輸入級別壓縮標(biāo)記集來降低計算成本。Perceiver架構(gòu)使用變換器將輸入標(biāo)記壓縮為更小的固定潛在標(biāo)記集。類似地,TiTok將圖像塊壓縮為小型潛在標(biāo)記集,然后量化用于圖像重建或其他下游任務(wù)。

與DOVE最接近的是ALIT,它使用循環(huán)過程將2D標(biāo)記蒸餾為1D潛在標(biāo)記集。雖然這種迭代過程允許圖像以可變數(shù)量的標(biāo)記表示,但這只是通過事后分析證明的,ALIT并未提出在推理時動態(tài)確定表示圖像所需標(biāo)記數(shù)量的自動方法。DOVE的關(guān)鍵創(chuàng)新之一是使用動態(tài)EOS預(yù)測機(jī)制,該機(jī)制在推理時用于根據(jù)圖像和下游任務(wù)復(fù)雜性生成每個圖像的可變長度標(biāo)記序列。DOVE使用并行變換器前向傳遞生成可變數(shù)量的標(biāo)記,這比ALIT的循環(huán)公式更高效。

六、結(jié)論與未來展望

DOVE代表了視覺表示學(xué)習(xí)的一個重要進(jìn)步。通過根據(jù)圖像復(fù)雜性動態(tài)生成可變長度的標(biāo)記序列,它解決了固定長度表示方法中的效率和語義理解問題。研究結(jié)果表明,DOVE不僅能夠顯著減少處理圖像所需的計算資源,還能捕獲更豐富的語義信息,在分類和視覺語言任務(wù)中展現(xiàn)出強(qiáng)大的性能。

從更廣泛的角度來看,DOVE的設(shè)計理念反映了一個更為普遍的趨勢:計算系統(tǒng)應(yīng)該適應(yīng)內(nèi)容的復(fù)雜性,而不是強(qiáng)制內(nèi)容適應(yīng)系統(tǒng)的固定結(jié)構(gòu)。就像人類在描述簡單和復(fù)雜場景時自然地使用不同長度的描述一樣,AI系統(tǒng)也應(yīng)該具備這種靈活性。

查詢條件化變體Q-DOVE進(jìn)一步擴(kuò)展了這一理念,通過根據(jù)用戶查詢動態(tài)調(diào)整圖像表示,實(shí)現(xiàn)了更高效、更有針對性的視覺語義提取。這種方法不僅提高了計算效率,還增強(qiáng)了系統(tǒng)理解用戶意圖的能力,為更自然、更智能的人機(jī)交互奠定了基礎(chǔ)。

未來的研究方向可能包括將DOVE的動態(tài)表示理念擴(kuò)展到其他模態(tài),如音頻和視頻;探索更復(fù)雜的條件化策略,使系統(tǒng)能夠根據(jù)更廣泛的上下文信息調(diào)整表示;以及研究如何將DOVE集成到更大規(guī)模的多模態(tài)系統(tǒng)中,以提高整體效率和性能。

值得一提的是,這項(xiàng)研究成果的代碼和檢查點(diǎn)已在https://dove-encoder.github.io/dove-encoder開放獲取,這將有助于社區(qū)進(jìn)一步探索和擴(kuò)展這一創(chuàng)新技術(shù)。對于那些對計算機(jī)視覺和多模態(tài)學(xué)習(xí)感興趣的研究者和開發(fā)者來說,DOVE提供了一個有價值的新工具,幫助他們構(gòu)建更高效、更智能的視覺理解系統(tǒng)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-