2025年6月,來(lái)自圖賓根大學(xué)AI中心的Christian Schlarmann、EPFL的Francesco Croce和Nicolas Flammarion,以及圖賓根大學(xué)的Matthias Hein共同發(fā)表了一篇題為"FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens"的研究論文。這項(xiàng)研究旨在解決多模態(tài)嵌入的關(guān)鍵挑戰(zhàn),論文已發(fā)布在arXiv上(arXiv:2506.03096v1)。
一、研究背景:為什么我們需要更好的多模態(tài)理解方法?
想象一下,你和一位外國(guó)朋友在逛商場(chǎng),你朋友不懂中文,指著一件衣服問(wèn):"這件衣服是什么顏色?"這時(shí),你的大腦會(huì)同時(shí)處理兩種信息——視覺(jué)信息(看到的衣服)和語(yǔ)言信息(聽(tīng)到的問(wèn)題),然后回答:"藍(lán)色"。這種同時(shí)處理多種模態(tài)信息的能力對(duì)人類(lèi)來(lái)說(shuō)非常自然,但對(duì)計(jì)算機(jī)來(lái)說(shuō)卻是一個(gè)巨大的挑戰(zhàn)。
在人工智能領(lǐng)域,CLIP(對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練)是一種非常流行的方法,它能夠?qū)⑽谋竞蛨D像映射到同一個(gè)特征空間中,使計(jì)算機(jī)能夠理解"貓"這個(gè)詞與貓的圖像之間的關(guān)系。但是,傳統(tǒng)的CLIP模型有一個(gè)明顯的局限性:它使用兩個(gè)完全獨(dú)立的編碼器來(lái)分別處理文本和圖像,就像兩個(gè)專(zhuān)家各自獨(dú)立工作而不互相交流一樣。當(dāng)我們需要同時(shí)理解圖像和相關(guān)文本(例如前面提到的"這件衣服是什么顏色?"的問(wèn)題)時(shí),這種方法就顯得不夠理想了。
為了解決這個(gè)問(wèn)題,研究人員通常會(huì)采用"后期融合"的方法——先讓文本編碼器和圖像編碼器各自獨(dú)立工作,然后再用額外的模塊將它們的輸出合并起來(lái)。這就像兩個(gè)專(zhuān)家各自完成報(bào)告后,再由第三個(gè)人來(lái)整合他們的結(jié)論。這種方法雖然有效,但存在效率低下的問(wèn)題,而且可能會(huì)丟失一些重要的交互信息。
二、FuseLIP:一種創(chuàng)新的早期融合方法
圖賓根大學(xué)和EPFL的研究團(tuán)隊(duì)提出了一種全新的方法——FuseLIP,它采用"早期融合"的策略,就像讓兩位專(zhuān)家從一開(kāi)始就一起工作,共同分析問(wèn)題。這種方法的核心創(chuàng)新點(diǎn)在于使用單一編碼器同時(shí)處理圖像和文本,而不是分別使用兩個(gè)獨(dú)立的編碼器。
具體來(lái)說(shuō),F(xiàn)useLIP的工作原理可以分為以下幾個(gè)步驟:
首先,研究團(tuán)隊(duì)利用了最近在離散圖像標(biāo)記化(discrete image tokenization)領(lǐng)域的進(jìn)展。你可以把這個(gè)過(guò)程想象成將圖像轉(zhuǎn)換為一種特殊的"圖像語(yǔ)言"。就像我們可以將"貓"這個(gè)概念轉(zhuǎn)換為字母"c"、"a"、"t"一樣,F(xiàn)useLIP使用的圖像標(biāo)記器(tokenizer)可以將圖像轉(zhuǎn)換為一系列離散的標(biāo)記(tokens)。
這一步非常關(guān)鍵,因?yàn)樗寛D像和文本都轉(zhuǎn)換成了同一種"語(yǔ)言"——離散標(biāo)記的序列。這就像把兩種不同的語(yǔ)言(如中文和英文)都翻譯成了一種通用的語(yǔ)言(如世界語(yǔ)),使得后續(xù)的處理變得更加統(tǒng)一和高效。
接下來(lái),這些來(lái)自圖像和文本的標(biāo)記被連接起來(lái),形成一個(gè)統(tǒng)一的序列。圖像標(biāo)記在前,文本標(biāo)記在后,中間使用特殊的開(kāi)始和結(jié)束標(biāo)記(、)來(lái)分隔不同的模態(tài)。如果輸入中缺少某種模態(tài)(例如只有圖像沒(méi)有文本),則會(huì)省略缺失的模態(tài)。
最后,這個(gè)統(tǒng)一的標(biāo)記序列被送入一個(gè)基于Transformer的編碼器進(jìn)行處理。由于圖像和文本信息從一開(kāi)始就被融合在一起,它們可以在編碼的每一層相互交流和影響,這就是所謂的"早期融合"。最終的嵌入表示對(duì)應(yīng)于標(biāo)記的輸出。
三、訓(xùn)練目標(biāo):結(jié)合對(duì)比學(xué)習(xí)和掩碼建模
FuseLIP的訓(xùn)練過(guò)程也非常創(chuàng)新,它結(jié)合了兩種不同的訓(xùn)練目標(biāo):對(duì)比損失(contrastive loss)和掩碼多模態(tài)建模損失(masked multimodal modeling loss)。
對(duì)比損失類(lèi)似于傳統(tǒng)CLIP模型的訓(xùn)練方式,目的是讓相關(guān)的圖像-文本對(duì)在特征空間中靠近,而不相關(guān)的對(duì)則遠(yuǎn)離。具體來(lái)說(shuō),研究團(tuán)隊(duì)采用了SigLIP中的sigmoid損失函數(shù),它比CLIP的原始對(duì)比損失表現(xiàn)更好。這個(gè)過(guò)程就像教會(huì)模型識(shí)別"這幅畫(huà)中有一只貓"和實(shí)際含有貓的圖像應(yīng)該聯(lián)系在一起,而與"這幅畫(huà)中有一只狗"的描述應(yīng)該區(qū)分開(kāi)來(lái)。
掩碼多模態(tài)建模損失則是一種自監(jiān)督學(xué)習(xí)方法,類(lèi)似于我們玩填字游戲。在訓(xùn)練過(guò)程中,隨機(jī)遮擋(掩碼)輸入序列中的一些標(biāo)記,然后讓模型預(yù)測(cè)這些被遮擋的標(biāo)記。這就像給模型一個(gè)句子"我喜歡吃___",然后讓它猜測(cè)被遮擋的詞是什么(比如"蘋(píng)果")。
FuseLIP的一個(gè)重要優(yōu)勢(shì)是,由于使用了離散的圖像標(biāo)記,它可以非常自然地應(yīng)用掩碼建模損失,而不需要像FLAVA這樣的方法那樣使用額外的模塊或計(jì)算開(kāi)銷(xiāo)。模型在訓(xùn)練時(shí)會(huì)同時(shí)使用這兩種損失函數(shù),以獲得更好的性能。
四、數(shù)據(jù)集:?jiǎn)文B(tài)與多模態(tài)訓(xùn)練數(shù)據(jù)的創(chuàng)新組合
為了全面評(píng)估FuseLIP的性能,研究團(tuán)隊(duì)收集并創(chuàng)建了各種單模態(tài)和多模態(tài)數(shù)據(jù)集。
單模態(tài)數(shù)據(jù)是指圖像-文本對(duì)的數(shù)據(jù),不需要聯(lián)合編碼來(lái)自不同模態(tài)的輸入。研究團(tuán)隊(duì)使用了CC3M和CC12M數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集提供了高質(zhì)量的圖像和對(duì)應(yīng)的描述文本。
然而,多模態(tài)數(shù)據(jù)(需要同時(shí)處理圖像和文本輸入的數(shù)據(jù))相對(duì)較少。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了幾種方法來(lái)從現(xiàn)有的單模態(tài)數(shù)據(jù)中生成多模態(tài)任務(wù):
1. 文本引導(dǎo)的圖像變換(TGIT):研究團(tuán)隊(duì)對(duì)CC3M和CC12M中的圖像應(yīng)用了各種變換(如隨機(jī)裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、顏色調(diào)整等),并用文本描述這些變換。例如,一個(gè)樣本可能包括原始圖像、描述變換的文本(如"向左旋轉(zhuǎn)45度")以及變換后的圖像。這樣的任務(wù)要求模型必須同時(shí)理解圖像內(nèi)容和文本指令,才能正確識(shí)別變換后的圖像。
2. 從圖像-文本數(shù)據(jù)集生成的視覺(jué)問(wèn)答(VQA)數(shù)據(jù):研究團(tuán)隊(duì)使用大型語(yǔ)言模型(Llama-3.1-8B-Instruct)將CC3M中的圖像描述重寫(xiě)為問(wèn)答對(duì)。例如,將"一只貓坐在沙發(fā)上"轉(zhuǎn)換為問(wèn)題"什么動(dòng)物坐在沙發(fā)上?"和答案"貓"。
3. 視覺(jué)基因組(Visual Genome)中的VQA數(shù)據(jù):研究團(tuán)隊(duì)使用了Visual Genome數(shù)據(jù)集中現(xiàn)有的VQA樣本。
4. 視覺(jué)定位(Visual Grounding):利用Visual Genome中的區(qū)域描述,研究團(tuán)隊(duì)創(chuàng)建了VG-Crop數(shù)據(jù)集。給定一張圖像和某個(gè)區(qū)域的文本描述,模型需要找到圖像中對(duì)應(yīng)的區(qū)域。
5. HQ-Edit:這個(gè)數(shù)據(jù)集包含合成生成的圖像編輯。模型需要根據(jù)原始圖像和編輯描述,找到正確編輯后的圖像。
此外,研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了"硬負(fù)樣本"(hard negatives)在訓(xùn)練中的重要性。硬負(fù)樣本是指與正樣本非常相似但標(biāo)簽不同的樣本,例如同一圖像的不同變換版本,或者來(lái)自同一查詢(xún)圖像但描述不同區(qū)域的樣本。這些硬負(fù)樣本有助于模型學(xué)習(xí)更細(xì)微的區(qū)別,提高性能。
五、實(shí)驗(yàn)設(shè)置:模型架構(gòu)與基線(xiàn)比較
研究團(tuán)隊(duì)訓(xùn)練了兩個(gè)版本的FuseLIP模型:FuseLIP-S使用TiTok-S標(biāo)記器和較小的Transformer編碼器,而FuseLIP-B使用TiTok-B標(biāo)記器和較大的Transformer編碼器。
為了進(jìn)行公平比較,研究團(tuán)隊(duì)還實(shí)現(xiàn)了兩種基于后期融合的基線(xiàn)方法:
1. 分?jǐn)?shù)融合(Score Fusion,SF):簡(jiǎn)單地將來(lái)自文本和圖像編碼器的單模態(tài)嵌入相加,得到多模態(tài)嵌入。這就像兩個(gè)專(zhuān)家各自給出評(píng)分,然后簡(jiǎn)單地將這些評(píng)分相加得到最終結(jié)果。
2. MagicLens融合(Magic Lens Fusion,MLF):使用基于Transformer的模塊來(lái)合并單模態(tài)嵌入向量。這相當(dāng)于有一個(gè)專(zhuān)門(mén)的"翻譯"專(zhuān)家,負(fù)責(zé)整合兩位專(zhuān)家的意見(jiàn)。
所有模型都使用相同的數(shù)據(jù)集和訓(xùn)練策略,包括硬負(fù)樣本和(對(duì)于FuseLIP)掩碼建模損失。這確保了比較的公平性。
在訓(xùn)練資源方面,F(xiàn)useLIP表現(xiàn)出明顯的優(yōu)勢(shì)。由于圖像標(biāo)記器在訓(xùn)練過(guò)程中保持凍結(jié)狀態(tài),F(xiàn)useLIP的可訓(xùn)練參數(shù)數(shù)量顯著少于基線(xiàn)方法。例如,F(xiàn)useLIP-B雖然總參數(shù)數(shù)量與B尺寸的基線(xiàn)相當(dāng),但可訓(xùn)練參數(shù)數(shù)量卻與S尺寸的基線(xiàn)相當(dāng)。這使得FuseLIP在訓(xùn)練時(shí)更快,需要的GPU內(nèi)存也更少。
六、評(píng)估任務(wù):全面測(cè)試多模態(tài)理解能力
為了全面評(píng)估模型的性能,研究團(tuán)隊(duì)設(shè)計(jì)了一系列多樣化的任務(wù):
1. 大規(guī)模多模態(tài)嵌入基準(zhǔn)(MMEB):這個(gè)基準(zhǔn)包含36個(gè)子任務(wù),分為分類(lèi)、視覺(jué)問(wèn)答、檢索和定位四類(lèi),涵蓋多種模態(tài)。每個(gè)子任務(wù)包含1000個(gè)樣本,模型需要從1000個(gè)候選項(xiàng)中選擇正確答案。
2. 使用OpenImages的視覺(jué)定位(OI-Crop和OI-Pos):在OI-Crop任務(wù)中,模型需要根據(jù)物體名稱(chēng)(如"瓶子")從圖像中選擇正確的區(qū)域。候選項(xiàng)包括來(lái)自查詢(xún)圖像的五個(gè)其他物體區(qū)域和來(lái)自其他圖像的五個(gè)相同物體區(qū)域。在OI-Pos任務(wù)中,模型需要根據(jù)左/右位置指令(如"右邊的貓")從包含同一物體兩次出現(xiàn)的圖像中選擇正確的區(qū)域。
3. VG-Crop:使用Visual Genome驗(yàn)證集中的1574個(gè)樣本,測(cè)試模型在視覺(jué)定位任務(wù)上的性能。
4. CC3M-TGIT:使用CC3M-TGIT驗(yàn)證集測(cè)試模型在識(shí)別文本引導(dǎo)的圖像變換方面的能力。對(duì)于不同的變換(如裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、顏色調(diào)整等),模型需要從一組候選圖像中選擇正確變換后的圖像。
5. ImageNet:在完整的ImageNet-1k驗(yàn)證集上進(jìn)行評(píng)估,使用OpenAI提示模板集合。
七、實(shí)驗(yàn)結(jié)果:早期融合的顯著優(yōu)勢(shì)
研究結(jié)果非常令人鼓舞,F(xiàn)useLIP-B在幾乎所有任務(wù)上都取得了最好的結(jié)果,尤其是在多模態(tài)任務(wù)上。
在CC3M+多模態(tài)數(shù)據(jù)上訓(xùn)練時(shí),F(xiàn)useLIP-B在9個(gè)基準(zhǔn)測(cè)試中的8個(gè)上表現(xiàn)最佳;在CC12M+多模態(tài)數(shù)據(jù)上訓(xùn)練時(shí),F(xiàn)useLIP-B在7個(gè)基準(zhǔn)測(cè)試上表現(xiàn)最佳。值得注意的是,雖然FuseLIP-B的總參數(shù)數(shù)量與B尺寸的基線(xiàn)相當(dāng),但它的可訓(xùn)練參數(shù)數(shù)量顯著更少。
特別引人注目的是FuseLIP在CC3M-TGIT任務(wù)上的出色表現(xiàn)。即使是較小的FuseLIP-S也比SigLIP-BMLF高出9-10個(gè)百分點(diǎn),比SigLIP-BSF高出22-24個(gè)百分點(diǎn)。這一顯著差異主要出現(xiàn)在需要識(shí)別裁剪、旋轉(zhuǎn)或翻轉(zhuǎn)后的正確圖像的任務(wù)中。與基線(xiàn)方法不同,F(xiàn)useLIP幾乎可以完美地解決這些任務(wù)。
研究團(tuán)隊(duì)認(rèn)為,這種性能差異源于任務(wù)的性質(zhì)。這些任務(wù)依賴(lài)于捕捉視覺(jué)結(jié)構(gòu)而非語(yǔ)義內(nèi)容。單模態(tài)編碼器往往提取語(yǔ)義信息,而在更深層次上可能會(huì)以犧牲視覺(jué)信息為代價(jià)。此外,這些任務(wù)需要同時(shí)關(guān)注圖像和文本,不能僅依靠其中一種模態(tài)解決。后期融合模型可能無(wú)法獲取解決任務(wù)所需的信息,而早期融合方法可以輕松學(xué)習(xí)這些關(guān)系。這一解釋也能解釋為什么FuseLIP在OI-Pos任務(wù)(需要區(qū)分同一物體的左右實(shí)例)上表現(xiàn)更好。
八、消融實(shí)驗(yàn):硬負(fù)樣本和掩碼建模的重要性
為了更好地理解FuseLIP的各個(gè)組成部分的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了一系列消融實(shí)驗(yàn),重點(diǎn)關(guān)注硬負(fù)樣本和掩碼多模態(tài)建模損失的影響。
實(shí)驗(yàn)結(jié)果表明,不在批次中包含硬負(fù)樣本會(huì)導(dǎo)致在VG-Crop、OI-Crop和特別是CC3M-TGIT任務(wù)上的性能大幅下降。例如,對(duì)于FuseLIP-B,在CC3M-TGIT上的準(zhǔn)確率從94.3%下降到13.6%。這表明硬負(fù)樣本對(duì)于學(xué)習(xí)這些多模態(tài)任務(wù)至關(guān)重要。有趣的是,添加硬負(fù)樣本不會(huì)影響FuseLIP-B在其他任務(wù)上的性能,對(duì)較小的FuseLIP-S只有輕微的負(fù)面影響。
同樣,掩碼多模態(tài)建模損失也被證明是非常重要的。僅使用SigLIP損失(沒(méi)有任何掩碼)訓(xùn)練會(huì)導(dǎo)致在所有任務(wù)上的性能顯著下降,特別是對(duì)于較大的FuseLIP-B模型。這表明掩碼建模損失對(duì)于學(xué)習(xí)豐富的多模態(tài)表示非常有價(jià)值。
九、研究意義與展望
這項(xiàng)研究有幾個(gè)重要的啟示:
首先,研究表明可以使用單一編碼器訓(xùn)練類(lèi)似CLIP的模型(無(wú)論是在單模態(tài)還是多模態(tài)數(shù)據(jù)上),而不需要像標(biāo)準(zhǔn)CLIP模型那樣使用單獨(dú)的文本和圖像編碼器。這是一個(gè)概念上的突破,簡(jiǎn)化了模型架構(gòu)。
其次,F(xiàn)useLIP架構(gòu)自然支持多模態(tài)嵌入,并能無(wú)縫集成對(duì)比和掩碼建模目標(biāo)。這大大簡(jiǎn)化了像FLAVA這樣的訓(xùn)練設(shè)置,證明兩種目標(biāo)可以結(jié)合使用,而不需要單獨(dú)的前向傳遞。此外,F(xiàn)useLIP可以使用標(biāo)準(zhǔn)的訓(xùn)練方法實(shí)現(xiàn)穩(wěn)定的訓(xùn)練。
第三,研究結(jié)果強(qiáng)調(diào)了早期融合在某些任務(wù)(如文本引導(dǎo)的圖像變換)上顯著優(yōu)于后期融合的任務(wù)上。由于解決此類(lèi)任務(wù)是全面多模態(tài)編碼器的一部分,這表明早期融合對(duì)于多模態(tài)嵌入特別有前景。
最后,研究團(tuán)隊(duì)預(yù)計(jì)FuseLIP可以自然地?cái)U(kuò)展到新的應(yīng)用,包括編碼多個(gè)圖像或交錯(cuò)的圖像-文本輸入。
總的來(lái)說(shuō),這項(xiàng)研究提供了一種新穎而有效的方法來(lái)解決多模態(tài)嵌入的挑戰(zhàn),開(kāi)辟了未來(lái)研究的新方向。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀(guān)點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話(huà)題的分析框架,識(shí)別不同觀(guān)點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀(guān)的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。