在人工智能視覺(jué)語(yǔ)言模型的發(fā)展中,如何讓計(jì)算機(jī)理解圖像與文本之間的關(guān)系一直是一個(gè)核心挑戰(zhàn)。2024年6月,來(lái)自加州大學(xué)伯克利分校和香港大學(xué)的研究團(tuán)隊(duì)在arXiv上發(fā)表了一篇題為《Language-Image Alignment with Fixed Text Encoders》(使用固定文本編碼器的語(yǔ)言-圖像對(duì)齊)的研究論文,對(duì)當(dāng)前主流的視覺(jué)語(yǔ)言模型訓(xùn)練方法提出了質(zhì)疑和創(chuàng)新。論文的主要作者包括Jingfeng Yang、Ziyang Wu、Yue Zhao和Yi Ma,他們的研究代碼和模型已在GitHub上開(kāi)源(https://github.com/Jingfeng0705/LIFT)。
一、CLIP模型的問(wèn)題:昂貴且不夠理解復(fù)雜關(guān)系
想象一下,你有一位朋友可以準(zhǔn)確地把任何圖片和文字描述配對(duì)起來(lái)。這位朋友是如何學(xué)會(huì)這項(xiàng)技能的?在人工智能領(lǐng)域,目前的主流方法就像是強(qiáng)迫兩個(gè)初學(xué)者(一個(gè)負(fù)責(zé)理解圖像,一個(gè)負(fù)責(zé)理解文本)從零開(kāi)始一起學(xué)習(xí),直到他們能夠默契配合。這種方法被稱(chēng)為CLIP(Contrastive Language-Image Pre-training,對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練),由OpenAI在2021年推出。
CLIP模型就像兩個(gè)大腦同時(shí)學(xué)習(xí):一個(gè)圖像大腦和一個(gè)文本大腦,它們一起被訓(xùn)練來(lái)理解"這張圖片和這段文字是否匹配"。這種方法雖然有效,但存在兩個(gè)明顯的問(wèn)題:
首先,這種"雙腦"同時(shí)訓(xùn)練非常昂貴。想象一下同時(shí)培訓(xùn)兩位專(zhuān)家而不是一位,這需要大量的計(jì)算資源和訓(xùn)練數(shù)據(jù)。研究表明,CLIP模型需要極大的批處理大小和海量的訓(xùn)練樣本才能達(dá)到良好效果。
其次,CLIP模型在理解復(fù)雜的組合信息方面表現(xiàn)不佳。比如,它難以準(zhǔn)確理解文本中的詞序("貓追狗"和"狗追貓"是不同的)、圖像中的空間位置關(guān)系("蘋(píng)果在盤(pán)子上"和"盤(pán)子在蘋(píng)果上"是不同的)、對(duì)象與屬性的關(guān)聯(lián)("紅色的車(chē)和藍(lán)色的房子"與"藍(lán)色的車(chē)和紅色的房子"是不同的)以及物體之間的關(guān)系。這就像是能認(rèn)出畫(huà)面中有"狗"和"球",但分不清"狗在玩球"和"球在狗上面"的區(qū)別。
為什么會(huì)這樣?研究人員認(rèn)為,CLIP的訓(xùn)練方式鼓勵(lì)模型采取"捷徑策略"——它傾向于丟棄與組合信息相關(guān)的特征,只關(guān)注簡(jiǎn)單的對(duì)象識(shí)別。
二、LIFT:只訓(xùn)練一個(gè)大腦,讓另一個(gè)專(zhuān)家來(lái)指導(dǎo)
伯克利大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)有趣的問(wèn)題:我們真的需要同時(shí)訓(xùn)練兩個(gè)大腦嗎?如果我們已經(jīng)有了一個(gè)精通語(yǔ)言的專(zhuān)家(大型語(yǔ)言模型,LLM),為什么不直接讓它來(lái)指導(dǎo)圖像理解呢?
這就是他們提出的LIFT(Language-Image alignment with a Fixed Text encoder,使用固定文本編碼器的語(yǔ)言-圖像對(duì)齊)方法的核心思想。LIFT就像是讓一位已經(jīng)精通多國(guó)語(yǔ)言的翻譯(LLM)來(lái)教導(dǎo)一位攝影師(圖像編碼器)理解照片的含義。具體來(lái)說(shuō):
1. 使用一個(gè)預(yù)先訓(xùn)練好并微調(diào)過(guò)的大型語(yǔ)言模型作為固定的文本編碼器 2. 在訓(xùn)練開(kāi)始前,用這個(gè)文本編碼器預(yù)先處理所有文本描述,得到它們的語(yǔ)義表示 3. 只訓(xùn)練圖像編碼器,讓它學(xué)習(xí)將圖像映射到與對(duì)應(yīng)文本描述相匹配的表示空間
這種方法有點(diǎn)像老師(LLM文本編碼器)已經(jīng)準(zhǔn)備好了所有的答案(文本嵌入),學(xué)生(圖像編碼器)只需要學(xué)習(xí)如何將自己的理解(圖像嵌入)與老師的答案對(duì)齊。
研究團(tuán)隊(duì)的核心假設(shè)是:大型語(yǔ)言模型已經(jīng)具備足夠好的文本理解能力,可以為視覺(jué)表示學(xué)習(xí)提供良好的指導(dǎo),無(wú)需再?gòu)念^訓(xùn)練文本編碼器。
三、LIFT方法的技術(shù)細(xì)節(jié):簡(jiǎn)單而高效
從技術(shù)角度看,LIFT采用了與CLIP相似的雙編碼器架構(gòu),但有一個(gè)關(guān)鍵區(qū)別:LIFT使用預(yù)訓(xùn)練的LLM(具體是NV-Embed-V2)作為固定的文本編碼器,只訓(xùn)練圖像編碼器部分。
在訓(xùn)練流程上,LIFT首先離線計(jì)算所有訓(xùn)練文本的嵌入表示。具體來(lái)說(shuō),對(duì)于每段文本T,使用固定的文本編碼器ftext生成其嵌入表示zT。然后,在實(shí)際訓(xùn)練過(guò)程中,LIFT只優(yōu)化圖像編碼器fimg和投影頭fhead,讓它們學(xué)習(xí)將圖像I映射到與對(duì)應(yīng)文本嵌入相匹配的表示空間zI。
這種預(yù)計(jì)算文本嵌入的方法帶來(lái)了顯著的效率提升。數(shù)據(jù)顯示,與CLIP相比,LIFT在處理短文本描述時(shí)可減少約25.5%的計(jì)算量(FLOPs),處理長(zhǎng)文本描述時(shí)可減少約35.7%的計(jì)算量。內(nèi)存使用方面,LIFT比CLIP分別節(jié)省了6.8%(短文本)和12.6%(長(zhǎng)文本)。
更重要的是,當(dāng)文本長(zhǎng)度增加時(shí),CLIP的計(jì)算復(fù)雜度呈平方增長(zhǎng)O(n?),而LIFT則保持恒定O(1),因?yàn)槲谋揪幋a是預(yù)先完成的。這使得LIFT特別適合處理長(zhǎng)文本描述的情況。
四、實(shí)驗(yàn)結(jié)果:LIFT在多項(xiàng)任務(wù)上優(yōu)于CLIP
研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn),使用ViT-B/16作為視覺(jué)骨干網(wǎng)絡(luò),在包含4億文本-圖像對(duì)的數(shù)據(jù)集上訓(xùn)練模型。每張圖像有兩種文本描述:一種是從網(wǎng)絡(luò)抓取的短描述,另一種是由模型生成的長(zhǎng)描述。為確保公平比較,LIFT和CLIP使用完全相同的超參數(shù)訓(xùn)練。
研究發(fā)現(xiàn),LIFT在以下幾個(gè)方面表現(xiàn)優(yōu)異:
1. **組合理解能力**:在SugarCrepe基準(zhǔn)測(cè)試的七個(gè)任務(wù)上,LIFT平均比CLIP高出6.8%的準(zhǔn)確率。特別是在涉及屬性添加、屬性替換和關(guān)系替換的任務(wù)上,LIFT表現(xiàn)出顯著優(yōu)勢(shì)。這表明LIFT能更好地理解對(duì)象與屬性的關(guān)聯(lián)以及對(duì)象間的關(guān)系。
例如,給定一張時(shí)鐘掛在建筑物角落的圖片,LIFT能正確選擇"A large four sided clock hangs on the corner of the building"(一個(gè)大型四面鐘掛在建筑物的角落),而CLIP錯(cuò)誤地選擇了"A large four sided clock leans against the corner of the building"(一個(gè)大型四面鐘靠在建筑物的角落)。
2. **下游任務(wù)表現(xiàn)**:當(dāng)作為L(zhǎng)LaVA多模態(tài)大模型的視覺(jué)塔時(shí),LIFT在六項(xiàng)下游任務(wù)中的五項(xiàng)上超過(guò)了CLIP。特別是在MMBench(英語(yǔ)和中文)測(cè)試中,LIFT表現(xiàn)出色,在屬性推理、精細(xì)感知和關(guān)系推理等子任務(wù)上取得顯著提升。
3. **零樣本檢索能力**:在ImageNet-1K分類(lèi)和跨模態(tài)檢索任務(wù)上,當(dāng)訓(xùn)練在短文本描述上時(shí),LIFT與CLIP表現(xiàn)相當(dāng);但當(dāng)訓(xùn)練在長(zhǎng)文本描述上時(shí),LIFT在所有這些任務(wù)上平均領(lǐng)先CLIP 11.0%。
這些結(jié)果表明,LIFT不僅計(jì)算效率更高,而且在多種任務(wù)上表現(xiàn)更好,特別是在需要理解復(fù)雜組合信息的場(chǎng)景中。
五、為什么LIFT比CLIP更擅長(zhǎng)處理長(zhǎng)文本?
研究團(tuán)隊(duì)深入分析了為什么LIFT在長(zhǎng)文本描述上比CLIP表現(xiàn)更好。他們發(fā)現(xiàn)了兩個(gè)關(guān)鍵因素:
第一個(gè)因素是"逆效應(yīng)"(inverse effect)。這種現(xiàn)象指的是CLIP在完整長(zhǎng)度的合成文本描述上訓(xùn)練時(shí)會(huì)產(chǎn)生次優(yōu)的零樣本性能,但隨著文本描述逐步截?cái)?,性能?huì)有明顯提升。這可能是因?yàn)楹铣晌谋久枋觯ㄍǔS晌⒄{(diào)過(guò)的視覺(jué)語(yǔ)言模型生成)具有同質(zhì)的語(yǔ)法結(jié)構(gòu),這會(huì)扭曲原始文本分布并成為模型的"捷徑特征"。
研究人員發(fā)現(xiàn),CLIP的文本編碼器在從頭訓(xùn)練時(shí)容易被這種捷徑特征誤導(dǎo)。通過(guò)計(jì)算從Recap-DataComp-1B隨機(jī)抽取的1000個(gè)文本描述的平均成對(duì)余弦相似度,他們發(fā)現(xiàn)CLIP的文本編碼器過(guò)度強(qiáng)調(diào)語(yǔ)法相似性,對(duì)語(yǔ)法相似但語(yǔ)義不同的文本對(duì)給出較高的相似度分?jǐn)?shù)(平均24.0)。相比之下,LIFT使用預(yù)訓(xùn)練在大規(guī)模數(shù)據(jù)上的LLM作為文本編碼器,產(chǎn)生的嵌入空間對(duì)語(yǔ)法同質(zhì)性更具魯棒性,更專(zhuān)注于語(yǔ)義內(nèi)容,對(duì)這類(lèi)誤導(dǎo)性文本對(duì)給出顯著更低的相似度分?jǐn)?shù)(平均19.0)。
第二個(gè)因素是文本編碼器的表達(dá)能力。LIFT使用的NV-Embed-V2有70億參數(shù),而CLIP的文本編碼器只有6300萬(wàn)參數(shù)。盡管LIFT的文本編碼器規(guī)模更大,但由于使用離線嵌入,在處理長(zhǎng)文本描述時(shí)仍比CLIP更高效。
六、什么樣的LLM文本編碼器適合LIFT?
研究團(tuán)隊(duì)還探討了哪些設(shè)計(jì)選擇能讓LLM成為L(zhǎng)IFT的有效文本編碼器。他們測(cè)試了五種代表性的LLM:
1. 兩種原始LLM:Mistral-7B-V0.1和Vicuna-7B-V0.1 2. 三種經(jīng)過(guò)對(duì)比學(xué)習(xí)微調(diào)的LLM:SFR-Embed-Mistral、Linq-Embed-Mistral和NV-Embed-V2
實(shí)驗(yàn)結(jié)果顯示,兩種原始LLM的表現(xiàn)明顯落后于微調(diào)后的模型。例如,在ImageNet-1K零樣本分類(lèi)任務(wù)上,它們平均準(zhǔn)確率低22.8%。原始的Mistral-7B-V0.1在SugarCrepe的replace relation任務(wù)上甚至表現(xiàn)不如隨機(jī)猜測(cè)。
這表明LLM并非天生就是有效的文本編碼器,對(duì)比學(xué)習(xí)微調(diào)是必要的。另一方面,三種經(jīng)過(guò)微調(diào)的模型表現(xiàn)相當(dāng),這表明句子結(jié)束標(biāo)記就能準(zhǔn)確編碼輸入文本,而NV-Embed-V2的額外潛在注意力層等高級(jí)嵌入提取機(jī)制可能不是必需的。
七、簡(jiǎn)化對(duì)比學(xué)習(xí):余弦相似度損失也有效
研究團(tuán)隊(duì)還探討了是否可以簡(jiǎn)化LIFT的訓(xùn)練目標(biāo)。傳統(tǒng)上,CLIP使用對(duì)比InfoNCE損失來(lái)避免模式崩潰(即無(wú)論輸入如何,文本和圖像編碼器都輸出相同的結(jié)果)。這種方法計(jì)算密集,F(xiàn)LOPs和內(nèi)存消耗隨批量大小B的平方增長(zhǎng)O(B?),同時(shí)還需要大批量以確保足夠的負(fù)樣本。
由于LIFT的文本嵌入空間是固定的,模式崩潰不再是問(wèn)題。因此,研究人員嘗試了一個(gè)簡(jiǎn)單的余弦相似度損失,它只計(jì)算正文本-圖像對(duì)之間的相似度,不涉及負(fù)樣本。這種簡(jiǎn)單損失的FLOPs和內(nèi)存復(fù)雜度僅隨批量大小線性增長(zhǎng)O(B),并且不依賴(lài)負(fù)樣本,從而減輕了批量大小的限制。
實(shí)驗(yàn)表明,這種簡(jiǎn)單的余弦相似度損失在組合理解任務(wù)和LLaVA下游任務(wù)上表現(xiàn)與對(duì)比損失相當(dāng)。特別是在長(zhǎng)文本訓(xùn)練時(shí),使用簡(jiǎn)單余弦相似度損失的LIFT在英文和中文MMBench上甚至優(yōu)于其對(duì)比損失變體。然而,在零樣本檢索任務(wù)上,特別是在短網(wǎng)絡(luò)抓取文本上訓(xùn)練時(shí),它的表現(xiàn)明顯下降。這可能是因?yàn)閷?duì)比損失通過(guò)使用負(fù)樣本鼓勵(lì)更具判別性的表示,這對(duì)分類(lèi)和檢索任務(wù)有利。
八、LIFT的局限性與未來(lái)方向
盡管LIFT表現(xiàn)出色,研究人員也坦誠(chéng)承認(rèn)其局限性。LIFT在捕捉組合信息方面的能力仍然不完整,特別是在交換對(duì)象(swap object)和交換屬性(swap attribute)任務(wù)上,相比其他SugarCrepe任務(wù),準(zhǔn)確率相對(duì)較低。研究人員認(rèn)為這一局限可能源于對(duì)比學(xué)習(xí)目標(biāo)仍然主要關(guān)注對(duì)齊低階統(tǒng)計(jì)信息。應(yīng)對(duì)這一挑戰(zhàn)需要探索更精細(xì)的信息論度量來(lái)進(jìn)行語(yǔ)言-圖像對(duì)齊,這是未來(lái)工作的一個(gè)重要方向。
此外,由于計(jì)算資源限制,研究團(tuán)隊(duì)無(wú)法評(píng)估LIFT在超過(guò)12.8億訓(xùn)練樣本時(shí)的可擴(kuò)展性。他們承認(rèn)CLIP及其變體可能表現(xiàn)出更有利的擴(kuò)展行為,因?yàn)樗鼈兟?lián)合訓(xùn)練文本和圖像編碼器,而LIFT保持其文本編碼器凍結(jié)。先前研究表明,選擇性解凍LLM的最后四層可以顯著提高圖像編碼器的可擴(kuò)展性,而不會(huì)產(chǎn)生過(guò)高的計(jì)算成本。如何在主流語(yǔ)言-圖像對(duì)齊管道中高效微調(diào)LLM仍是未來(lái)工作的重要方向。
九、總結(jié):文本編碼器不必從零訓(xùn)練
歸根結(jié)底,伯克利大學(xué)的這項(xiàng)研究挑戰(zhàn)了視覺(jué)語(yǔ)言模型訓(xùn)練的核心假設(shè)——文本和圖像編碼器必須從頭開(kāi)始聯(lián)合訓(xùn)練才能達(dá)到最佳的語(yǔ)言-圖像對(duì)齊效果。LIFT證明,使用預(yù)訓(xùn)練的LLM作為固定文本編碼器,只訓(xùn)練圖像編碼器就能達(dá)到甚至超越CLIP的效果,特別是在需要理解組合信息和處理長(zhǎng)文本描述的場(chǎng)景中。
這種方法不僅大幅提高了計(jì)算效率,還在多項(xiàng)任務(wù)上取得了卓越表現(xiàn)。特別是,LIFT解決了CLIP在處理組合信息方面的短板,如空間位置、對(duì)象-屬性關(guān)聯(lián)和對(duì)象-對(duì)象關(guān)系的理解。
LIFT的成功啟示我們,大型語(yǔ)言模型已經(jīng)捕獲了豐富的語(yǔ)言表示,可以有效指導(dǎo)視覺(jué)表示學(xué)習(xí),而無(wú)需從頭訓(xùn)練文本編碼器。這種方法為視覺(jué)語(yǔ)言模型的發(fā)展提供了一條更高效、更有效的路徑。
對(duì)于研究人員和工程師來(lái)說(shuō),LIFT提供了一種新的思路:利用現(xiàn)有的強(qiáng)大語(yǔ)言模型來(lái)指導(dǎo)其他模態(tài)的表示學(xué)習(xí),而不是每次都從零開(kāi)始。這種方法可能適用于更廣泛的多模態(tài)學(xué)習(xí)場(chǎng)景,如音頻-文本對(duì)齊、視頻-文本對(duì)齊等。
對(duì)于普通用戶(hù)來(lái)說(shuō),LIFT的進(jìn)步意味著未來(lái)的AI系統(tǒng)將更好地理解圖像中的復(fù)雜關(guān)系和細(xì)節(jié),能夠更準(zhǔn)確地回答關(guān)于圖像中"誰(shuí)在做什么"、"什么在哪里"等問(wèn)題,從而提供更自然、更智能的人機(jī)交互體驗(yàn)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。