這項(xiàng)由香港中文大學(xué)多媒體實(shí)驗(yàn)室的韓佳明和字節(jié)跳動(dòng)種子實(shí)驗(yàn)室的陳昊領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)表于2025年6月的arXiv預(yù)印本服務(wù)器,有興趣深入了解的讀者可以通過(guò)https://tar.csuhan.com訪(fǎng)問(wèn)完整論文和相關(guān)代碼。
在人工智能的世界里,一直存在著一個(gè)有趣的現(xiàn)象。當(dāng)我們要求AI看懂一張圖片時(shí),它需要用一種方式來(lái)理解圖像;而當(dāng)我們要求它畫(huà)出一張圖片時(shí),它又需要用另一種完全不同的方式來(lái)生成圖像。這就像是一個(gè)人在理解漢語(yǔ)時(shí)用漢語(yǔ)思維,但在說(shuō)英語(yǔ)時(shí)卻必須切換到英語(yǔ)思維一樣,顯得既復(fù)雜又低效。
研究團(tuán)隊(duì)把這個(gè)問(wèn)題想象成了一個(gè)有趣的比喻:如果把視覺(jué)理解和圖像生成看作是兩種不同的"方言",那么能不能找到一種通用的"普通話(huà)"讓AI在處理這兩種任務(wù)時(shí)都能流利交流呢?他們的答案是開(kāi)發(fā)一種叫做"文本對(duì)齊表示"(Text-aligned representation,簡(jiǎn)稱(chēng)Tar)的方法,就像是給AI裝上了一個(gè)萬(wàn)能翻譯器。
這個(gè)研究的核心創(chuàng)新在于設(shè)計(jì)了一個(gè)名為"文本對(duì)齊分詞器"(TA-Tok)的系統(tǒng)。如果把傳統(tǒng)的AI處理圖像比作兩個(gè)不同的廚師,一個(gè)專(zhuān)門(mén)品嘗食物(理解圖像),另一個(gè)專(zhuān)門(mén)制作食物(生成圖像),那么TA-Tok就像是一本通用的菜譜,讓同一個(gè)廚師既能品嘗出食物的精妙,又能按照同樣的標(biāo)準(zhǔn)制作出美味佳肴。
研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是如何讓AI用同一種"語(yǔ)言"來(lái)處理看圖和畫(huà)圖這兩個(gè)看似截然不同的任務(wù)。傳統(tǒng)方法就像是讓一個(gè)翻譯官在中文和英文之間反復(fù)切換,不僅效率低下,還容易出錯(cuò)。他們的解決方案是創(chuàng)建一個(gè)基于大語(yǔ)言模型詞匯表的統(tǒng)一表示空間,這就像是建立了一個(gè)所有語(yǔ)言都能理解的通用符號(hào)系統(tǒng)。
具體來(lái)說(shuō),TA-Tok的工作原理可以這樣理解:當(dāng)你給它一張照片時(shí),它首先用一個(gè)叫做SigLIP2的視覺(jué)編碼器將圖像轉(zhuǎn)換成連續(xù)的特征表示,就像是把一幅畫(huà)描述成一系列詳細(xì)的文字。然后,這些描述會(huì)通過(guò)一個(gè)"規(guī)模自適應(yīng)池化"的過(guò)程進(jìn)行調(diào)整,這個(gè)過(guò)程就像是用不同的放大鏡來(lái)觀察同一個(gè)物體,可以選擇看大致輪廓還是精細(xì)細(xì)節(jié)。
接下來(lái)是最關(guān)鍵的步驟:文本對(duì)齊編碼本的運(yùn)用。研究團(tuán)隊(duì)沒(méi)有使用隨機(jī)初始化的編碼本,而是直接借用了大語(yǔ)言模型中已經(jīng)訓(xùn)練好的詞匯嵌入。這就像是不重新發(fā)明輪子,而是直接使用已經(jīng)成熟的零件來(lái)組裝新機(jī)器。他們從Qwen2.5語(yǔ)言模型的15萬(wàn)個(gè)詞匯中精選出6萬(wàn)5千個(gè)最具代表性的詞嵌入,然后通過(guò)一個(gè)可學(xué)習(xí)的投影矩陣將視覺(jué)特征映射到這些詞嵌入空間中。
這種設(shè)計(jì)帶來(lái)了一個(gè)巧妙的效果:圖像中的每個(gè)部分都能用語(yǔ)言模型能夠理解的"詞匯"來(lái)表示,這樣AI在處理圖像時(shí)就能像處理文字一樣自然流暢。研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)規(guī)模自適應(yīng)解碼器來(lái)確保這個(gè)轉(zhuǎn)換過(guò)程的準(zhǔn)確性,它會(huì)重建出原始的視覺(jué)特征,并與教師模型的輸出進(jìn)行對(duì)比,確保信息沒(méi)有丟失。
為了解決從這些語(yǔ)義詞匯回到真實(shí)圖像的問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了兩種互補(bǔ)的"生成式去分詞器"。第一種是自回歸去分詞器,它的工作方式就像是一個(gè)畫(huà)家按照既定順序一筆一劃地繪制圖像,每一筆都基于前面已經(jīng)畫(huà)好的內(nèi)容。這種方法的優(yōu)點(diǎn)是速度快,且與語(yǔ)言模型的工作方式完全一致。
第二種是擴(kuò)散去分詞器,它的工作原理更像是先在畫(huà)布上鋪一層噪聲,然后逐漸去除噪聲來(lái)顯現(xiàn)出最終的圖像。這種方法的優(yōu)勢(shì)在于能夠利用現(xiàn)有的強(qiáng)大擴(kuò)散模型,只需要簡(jiǎn)單地將原本的文本條件替換為T(mén)A-Tok生成的視覺(jué)詞匯即可。雖然這種方法在推理時(shí)需要更多計(jì)算資源,但它能夠生成質(zhì)量極高的圖像,特別適合處理復(fù)雜場(chǎng)景。
研究團(tuán)隊(duì)在統(tǒng)一多模態(tài)建模方面也有重要?jiǎng)?chuàng)新。他們將文本和圖像都表示為共享詞匯表中的離散標(biāo)記,通過(guò)擴(kuò)展語(yǔ)言模型的文本嵌入矩陣來(lái)包含視覺(jué)標(biāo)記集合。這個(gè)過(guò)程就像是在原有的字典中添加新的詞匯條目,讓AI能夠在同一個(gè)"語(yǔ)言"框架內(nèi)理解和生成不同類(lèi)型的內(nèi)容。
特別值得注意的是,研究團(tuán)隊(duì)在預(yù)訓(xùn)練階段引入了兩種新的任務(wù)類(lèi)型:圖像到圖像生成和文本圖像到圖像生成。第一種任務(wù)讓AI學(xué)會(huì)根據(jù)一張圖像生成類(lèi)似的圖像,這就像是讓畫(huà)家學(xué)會(huì)臨摹和風(fēng)格遷移。第二種任務(wù)更加復(fù)雜,它要求AI同時(shí)理解文本描述和參考圖像,然后生成符合要求的新圖像,這就像是給畫(huà)家一個(gè)詳細(xì)的委托和一張參考圖片,讓他創(chuàng)作出既符合要求又保持風(fēng)格一致的作品。
在數(shù)據(jù)準(zhǔn)備方面,研究團(tuán)隊(duì)采用了一個(gè)高效的合成數(shù)據(jù)生成流程。他們首先使用Qwen2.5-VL模型為各種圖像數(shù)據(jù)集生成豐富詳細(xì)的描述,然后使用FLUX模型根據(jù)這些描述生成高質(zhì)量的圖像。這個(gè)過(guò)程就像是先讓一個(gè)文學(xué)家描述畫(huà)作,然后讓另一個(gè)畫(huà)家根據(jù)這些描述重新創(chuàng)作,最終獲得了2300萬(wàn)個(gè)高質(zhì)量的文本-圖像對(duì)用于訓(xùn)練。
研究結(jié)果顯示,Tar模型在各種視覺(jué)理解和生成任務(wù)上都取得了令人矚目的表現(xiàn)。在視覺(jué)理解方面,1.5B參數(shù)的Tar模型超越了大多數(shù)同規(guī)模的理解專(zhuān)用模型和統(tǒng)一模型,7B參數(shù)的模型更是達(dá)到了與Janus-Pro-7B相當(dāng)?shù)男阅芩?。這證明了使用完全離散的語(yǔ)義表示進(jìn)行統(tǒng)一建模的可行性。
在視覺(jué)生成方面,Tar在GenEval和DPG Bench兩個(gè)基準(zhǔn)測(cè)試中都表現(xiàn)出色。特別是在GenEval測(cè)試中,Tar-7B達(dá)到了0.84的總體得分,在DPG Bench中也取得了84.19的優(yōu)異成績(jī)。研究團(tuán)隊(duì)還開(kāi)發(fā)了一種"自我反思"策略,利用模型自身的視覺(jué)理解能力來(lái)評(píng)估生成圖像與文本提示的匹配度,進(jìn)一步提升了生成質(zhì)量。
為了驗(yàn)證設(shè)計(jì)選擇的有效性,研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們比較了文本對(duì)齊表示與其他幾種視覺(jué)表示方法,包括傳統(tǒng)的VQVAE、Janus風(fēng)格的分離表示和混合表示。結(jié)果顯示,文本對(duì)齊表示在視覺(jué)生成任務(wù)上明顯優(yōu)于其他方法,同時(shí)在理解任務(wù)上也能保持競(jìng)爭(zhēng)力。
研究團(tuán)隊(duì)還發(fā)現(xiàn),使用文本對(duì)齊編碼本初始化多模態(tài)語(yǔ)言模型的視覺(jué)嵌入比隨機(jī)初始化效果更好,這驗(yàn)證了他們?cè)O(shè)計(jì)思路的正確性。此外,規(guī)模自適應(yīng)池化的設(shè)計(jì)讓模型能夠根據(jù)不同任務(wù)的需求靈活調(diào)整視覺(jué)細(xì)節(jié)的粒度,這在實(shí)際應(yīng)用中非常有價(jià)值。
在技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)使用siglip2-so400m-patch14-384作為視覺(jué)編碼器,采用三層ViT結(jié)構(gòu)作為解碼器。他們從Qwen2.5的詞匯表中選擇了65536個(gè)標(biāo)記作為文本對(duì)齊編碼本的基礎(chǔ)。對(duì)于不同分辨率的圖像,系統(tǒng)可以生成不同數(shù)量的標(biāo)記:384×384的圖像在不同尺度下可以生成729、169或81個(gè)標(biāo)記。
自回歸去分詞器采用LLaMA架構(gòu)實(shí)現(xiàn),從頭開(kāi)始訓(xùn)練。研究團(tuán)隊(duì)首先在256像素分辨率上訓(xùn)練基礎(chǔ)模型,然后逐步微調(diào)到512像素和1024像素。擴(kuò)散去分詞器則基于預(yù)訓(xùn)練的SANA-0.6B模型,只需要微調(diào)交叉注意力和條件嵌入層即可。
在訓(xùn)練數(shù)據(jù)方面,TA-Tok使用了來(lái)自L(fǎng)AION的2億張圖像進(jìn)行訓(xùn)練,其中包括1億張?jiān)季W(wǎng)絡(luò)圖像和1億張美學(xué)過(guò)濾圖像,以平衡模型在通用圖像理解和高質(zhì)量圖像生成方面的能力。自回歸去分詞器使用5000萬(wàn)張美學(xué)圖像和2300萬(wàn)張合成圖像進(jìn)行訓(xùn)練,而擴(kuò)散去分詞器主要在2300萬(wàn)張合成圖像上進(jìn)行微調(diào)。
多模態(tài)語(yǔ)言模型的預(yù)訓(xùn)練采用了多種數(shù)據(jù)類(lèi)型的混合,包括標(biāo)準(zhǔn)的圖像到文本、文本到圖像任務(wù),以及新提出的圖像到圖像和文本圖像到圖像任務(wù)。在監(jiān)督微調(diào)階段,研究團(tuán)隊(duì)使用了來(lái)自L(fǎng)LaVA系列的指令調(diào)優(yōu)數(shù)據(jù)集,以及從預(yù)訓(xùn)練數(shù)據(jù)中篩選出的高質(zhì)量子集。
通過(guò)詳細(xì)的消融實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了各個(gè)設(shè)計(jì)組件的重要性。他們發(fā)現(xiàn),相比傳統(tǒng)的隨機(jī)初始化編碼本,文本對(duì)齊編碼本在理解任務(wù)上帶來(lái)了顯著提升,在生成任務(wù)上也保持了競(jìng)爭(zhēng)力。規(guī)模自適應(yīng)池化讓模型能夠在效率和細(xì)節(jié)之間找到最佳平衡點(diǎn),而兩種去分詞器的組合則提供了速度和質(zhì)量之間的靈活選擇。
研究還揭示了一個(gè)有趣的現(xiàn)象:當(dāng)使用共享表示進(jìn)行聯(lián)合訓(xùn)練時(shí),視覺(jué)理解和生成任務(wù)能夠相互促進(jìn)。這與一些使用分離表示的方法形成鮮明對(duì)比,后者在聯(lián)合訓(xùn)練時(shí)往往無(wú)法獲得這種互益效果。這進(jìn)一步證明了統(tǒng)一表示方法的優(yōu)勢(shì)。
值得一提的是,通過(guò)引入新的預(yù)訓(xùn)練任務(wù),Tar模型展現(xiàn)出了一些令人驚喜的涌現(xiàn)能力,比如主體驅(qū)動(dòng)生成和基于參考的風(fēng)格遷移。這些能力讓模型能夠理解和操作圖像中的語(yǔ)義概念,為未來(lái)的應(yīng)用開(kāi)辟了新的可能性。
在實(shí)際應(yīng)用中,Tar模型的靈活性體現(xiàn)在多個(gè)方面。它可以根據(jù)計(jì)算預(yù)算和質(zhì)量要求選擇不同的配置:使用較少的視覺(jué)標(biāo)記以獲得更快的推理速度,或使用更多標(biāo)記以獲得更精細(xì)的細(xì)節(jié)。兩種去分詞器的存在也為不同應(yīng)用場(chǎng)景提供了選擇:自回歸版本適合需要快速響應(yīng)的應(yīng)用,而擴(kuò)散版本則適合對(duì)圖像質(zhì)量有更高要求的場(chǎng)景。
研究團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)有趣的"自我反思"機(jī)制,讓模型能夠評(píng)估自己生成的圖像質(zhì)量。這個(gè)機(jī)制利用了統(tǒng)一模型既能理解又能生成圖像的特性,讓AI能夠像人類(lèi)藝術(shù)家一樣審視自己的作品并進(jìn)行改進(jìn)。這種能力在提升生成質(zhì)量的同時(shí),也為模型的自我改進(jìn)提供了新的途徑。
在模型的可擴(kuò)展性方面,研究結(jié)果表明,隨著訓(xùn)練數(shù)據(jù)量的增加,文本對(duì)齊表示展現(xiàn)出了良好的擴(kuò)展性。這一點(diǎn)對(duì)于實(shí)際應(yīng)用非常重要,因?yàn)樗馕吨P偷男阅軙?huì)隨著更多數(shù)據(jù)的加入而持續(xù)改善。
說(shuō)到底,這項(xiàng)研究最讓人興奮的地方在于它展示了一種全新的思路來(lái)解決多模態(tài)AI的統(tǒng)一問(wèn)題。通過(guò)巧妙地利用語(yǔ)言模型的詞匯空間作為視覺(jué)和文本的橋梁,研究團(tuán)隊(duì)不僅簡(jiǎn)化了模型架構(gòu),還提升了性能。這就像是找到了一種通用語(yǔ)言,讓不同類(lèi)型的AI任務(wù)能夠在同一個(gè)框架內(nèi)協(xié)同工作。
當(dāng)然,這個(gè)方法也有一些局限性。由于使用了向量量化技術(shù),不可避免地會(huì)引入一些量化誤差,這在需要精細(xì)視覺(jué)理解的任務(wù)(如光學(xué)字符識(shí)別)中可能會(huì)造成一定影響。此外,使用生成模型作為去分詞器雖然能產(chǎn)生高質(zhì)量圖像,但在重建輸入圖像的準(zhǔn)確性方面還有改進(jìn)空間。
歸根結(jié)底,這項(xiàng)研究為多模態(tài)AI的發(fā)展開(kāi)辟了一條新路徑。它展示了統(tǒng)一表示的強(qiáng)大潛力,也為未來(lái)的研究提供了寶貴的經(jīng)驗(yàn)和啟發(fā)。隨著技術(shù)的不斷改進(jìn)和完善,我們有理由相信,這種"視覺(jué)方言"的統(tǒng)一方法將在更多領(lǐng)域發(fā)揮重要作用,讓AI在理解和創(chuàng)造視覺(jué)內(nèi)容方面變得更加智能和高效。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以訪(fǎng)問(wèn)https://tar.csuhan.com獲取完整的代碼、模型和數(shù)據(jù)資源。
Q&A
Q1:什么是文本對(duì)齊表示(Tar),它能解決什么問(wèn)題? A:Tar是一種讓AI用同一種"語(yǔ)言"既能看懂圖片又能畫(huà)出圖片的技術(shù)。傳統(tǒng)方法需要兩套不同的系統(tǒng)分別處理理解和生成任務(wù),而Tar通過(guò)統(tǒng)一的表示方法讓一個(gè)模型就能勝任兩種工作,就像給AI裝上了萬(wàn)能翻譯器,提高了效率和性能。
Q2:這個(gè)技術(shù)會(huì)不會(huì)讓AI畫(huà)圖變得更簡(jiǎn)單? A:是的,Tar讓AI畫(huà)圖變得更加智能化。它不僅能生成高質(zhì)量圖像,還能理解文本描述并據(jù)此創(chuàng)作,甚至能夠評(píng)估自己畫(huà)作的質(zhì)量。這為藝術(shù)創(chuàng)作、設(shè)計(jì)制作等領(lǐng)域提供了強(qiáng)大工具,讓非專(zhuān)業(yè)人士也能輕松獲得專(zhuān)業(yè)級(jí)的視覺(jué)創(chuàng)作能力。
Q3:普通人能使用這項(xiàng)技術(shù)嗎?有什么實(shí)際用途? A:雖然目前還是研究階段,但技術(shù)已經(jīng)相當(dāng)成熟。未來(lái)可能應(yīng)用于智能設(shè)計(jì)助手、教育工具、內(nèi)容創(chuàng)作等多個(gè)領(lǐng)域。比如幫助老師制作教學(xué)圖片、協(xié)助設(shè)計(jì)師快速構(gòu)思方案,或者讓普通人通過(guò)文字描述就能生成所需的圖像內(nèi)容。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話(huà)題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。