這項(xiàng)由香港大學(xué)的鄭安麟、溫鑫、馬承凡和祁小娟教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì),聯(lián)合StepFun公司的張軒陽、張向宇、余剛,以及Dexmal公司的王天才和MEGVII科技的相關(guān)研究人員,于2025年1月發(fā)表了一篇名為"Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation"的論文。這項(xiàng)研究已提交至學(xué)術(shù)會(huì)議進(jìn)行同行評(píng)議,感興趣的讀者可以通過arXiv:2507.08441v1訪問完整論文。
要理解這項(xiàng)研究的重要性,我們需要先了解一個(gè)背景故事?,F(xiàn)在的AI圖像生成技術(shù)就像一個(gè)復(fù)雜的翻譯過程:首先需要把圖像"翻譯"成計(jì)算機(jī)能理解的數(shù)字代碼,然后AI根據(jù)這些代碼生成新的圖像。這個(gè)過程中最關(guān)鍵的工具叫做"圖像分詞器",它就像是圖像世界的翻譯官。
傳統(tǒng)的圖像分詞器存在一個(gè)嚴(yán)重問題,就像用一個(gè)只會(huì)基礎(chǔ)詞匯的翻譯官來處理復(fù)雜文獻(xiàn)一樣。它們雖然能把圖像轉(zhuǎn)換成數(shù)字代碼,但往往抓不住圖像的深層含義,只能記住一些表面的細(xì)節(jié)。這就導(dǎo)致AI生成圖像時(shí)既慢又不夠準(zhǔn)確,還需要額外的"輔助工具"來提高質(zhì)量。
鄭安麟團(tuán)隊(duì)的突破性發(fā)現(xiàn)是:與其從零開始訓(xùn)練一個(gè)新的翻譯官,不如直接使用那些已經(jīng)在圖像理解方面表現(xiàn)出色的"資深專家"——這些專家就是預(yù)訓(xùn)練的視覺基礎(chǔ)模型,比如DINOv2、CLIP和SigLIP等。這些模型就像是在圖像世界里浸淫多年的老手,對(duì)圖像的理解遠(yuǎn)比傳統(tǒng)分詞器深刻。
研究團(tuán)隊(duì)的創(chuàng)新之處在于,他們不僅僅是簡(jiǎn)單地使用這些專家模型,還為它們?cè)O(shè)計(jì)了一套全新的工作方式。傳統(tǒng)方法就像把一張圖片均勻切成許多小方塊,無論這些方塊里的內(nèi)容是否重要都一視同仁。而他們的新方法VFMTok則更加智能,它會(huì)像一個(gè)經(jīng)驗(yàn)豐富的攝影師一樣,自動(dòng)識(shí)別圖像中的重要區(qū)域,然后有選擇性地提取這些區(qū)域的特征。
具體來說,VFMTok的工作過程可以比作一個(gè)三步走的精妙流程。第一步是"智能觀察",它使用凍結(jié)的視覺基礎(chǔ)模型來觀察圖像,就像一個(gè)藝術(shù)鑒賞家仔細(xì)端詳一幅畫作。第二步是"區(qū)域適應(yīng)性采樣",這是整個(gè)系統(tǒng)的核心創(chuàng)新。它不會(huì)機(jī)械地把圖像切成規(guī)則的小塊,而是會(huì)根據(jù)圖像內(nèi)容的相似性和重要性,靈活地選擇那些真正有意義的區(qū)域。這就像一個(gè)聰明的攝影師會(huì)重點(diǎn)關(guān)注畫面中的主要對(duì)象,而不是平均分配注意力。
這種區(qū)域適應(yīng)性采樣的巧妙之處在于,它使用了一種叫做"可變形注意力"的技術(shù)??梢园堰@種技術(shù)想象成一個(gè)擁有柔性觸手的機(jī)器人,它的觸手可以根據(jù)需要伸向圖像的任何位置,重點(diǎn)抓取那些相似或相關(guān)的區(qū)域。比如,在一張水晶球的圖片中,它會(huì)發(fā)現(xiàn)水晶球上部的紋理和透明度具有一致性,石頭上的苔蘚也有相似的質(zhì)地結(jié)構(gòu),然后將這些具有相似特征的區(qū)域組合在一起形成一個(gè)"區(qū)域適應(yīng)性令牌"。
第三步是"雙重重建",這是VFMTok的另一個(gè)關(guān)鍵創(chuàng)新。傳統(tǒng)方法只關(guān)心能否重建出原始圖像,而VFMTok還會(huì)同時(shí)嘗試重建視覺基礎(chǔ)模型的內(nèi)部特征。這就像一個(gè)畫家不僅要畫出物體的外觀,還要理解和表達(dá)物體的內(nèi)在精神。通過這種雙重重建,VFMTok能夠確保生成的代碼既能準(zhǔn)確重現(xiàn)圖像細(xì)節(jié),又能保持深層的語義理解。
實(shí)驗(yàn)結(jié)果令人印象深刻。在圖像重建質(zhì)量測(cè)試中,VFMTok僅用256個(gè)令牌就達(dá)到了0.89的rFID分?jǐn)?shù),顯著優(yōu)于使用576個(gè)令牌的傳統(tǒng)VQGAN方法。更重要的是,VFMTok實(shí)現(xiàn)了100%的碼本利用率,這意味著它的每一個(gè)數(shù)字代碼都被有效使用,沒有任何浪費(fèi)。
在圖像生成速度方面,VFMTok展現(xiàn)出了驚人的效率提升。由于它使用的令牌數(shù)量更少,AI生成圖像的速度提高了3倍。這就像從一個(gè)需要處理576個(gè)詞匯的復(fù)雜句子,簡(jiǎn)化為只需要處理256個(gè)詞匯的精煉表達(dá),不僅速度更快,理解也更準(zhǔn)確。
更令人興奮的是,VFMTok在圖像生成質(zhì)量方面也取得了突破性進(jìn)展。在ImageNet基準(zhǔn)測(cè)試中,使用VFMTok的3B參數(shù)模型達(dá)到了2.07的gFID分?jǐn)?shù),創(chuàng)造了新的最先進(jìn)記錄。這個(gè)分?jǐn)?shù)超過了許多廣泛使用的擴(kuò)散模型,證明了VFMTok方法的有效性。
**一、從"笨拙翻譯官"到"資深專家"的跨越**
要理解VFMTok的革命性意義,我們需要深入了解傳統(tǒng)圖像分詞器的局限性。傳統(tǒng)的分詞器就像一個(gè)剛?cè)腴T的翻譯新手,它們通常從零開始學(xué)習(xí)如何理解圖像。這個(gè)過程不僅耗時(shí)耗力,而且往往只能抓住圖像的表面信息,比如顏色、紋理等低層特征,卻很難理解圖像的深層含義和語義信息。
這種局限性帶來了多個(gè)問題。首先是訓(xùn)練時(shí)間長(zhǎng),就像培養(yǎng)一個(gè)新手翻譯官需要多年的學(xué)習(xí)和實(shí)踐。其次是理解能力有限,傳統(tǒng)分詞器生成的數(shù)字代碼往往充滿冗余信息,卻缺乏有意義的語義表達(dá)。最后是生成質(zhì)量不穩(wěn)定,AI模型需要依賴額外的"分類器自由引導(dǎo)"技術(shù)來提高圖像生成的保真度,這進(jìn)一步增加了推理時(shí)間。
研究團(tuán)隊(duì)意識(shí)到,與其從頭訓(xùn)練一個(gè)新的翻譯官,不如直接借用那些已經(jīng)在圖像理解領(lǐng)域表現(xiàn)出色的"資深專家"。這些專家就是預(yù)訓(xùn)練的視覺基礎(chǔ)模型,它們已經(jīng)在大規(guī)模數(shù)據(jù)集上進(jìn)行了充分訓(xùn)練,具備了強(qiáng)大的圖像理解能力。
為了驗(yàn)證這個(gè)想法,研究團(tuán)隊(duì)首先進(jìn)行了一系列初步實(shí)驗(yàn)。他們將不同的視覺基礎(chǔ)模型(包括DINOv2、CLIP和SigLIP2)作為VQGAN分詞器的編碼器,然后測(cè)試它們?cè)趫D像重建和生成任務(wù)上的表現(xiàn)。結(jié)果顯示,這些基于視覺基礎(chǔ)模型的分詞器不僅能夠?qū)崿F(xiàn)與傳統(tǒng)VQGAN相當(dāng)甚至更好的性能,還顯著提升了生成圖像的語義一致性。
特別值得注意的是,使用SigLIP2的分詞器在保持與原始VQGAN相同重建質(zhì)量的同時(shí),表現(xiàn)出了更強(qiáng)的語義表達(dá)能力和更好的生成性能。這個(gè)發(fā)現(xiàn)為后續(xù)的VFMTok開發(fā)奠定了堅(jiān)實(shí)的理論基礎(chǔ)。
**二、區(qū)域適應(yīng)性采樣:智能的圖像理解新方式**
VFMTok的核心創(chuàng)新在于其區(qū)域適應(yīng)性采樣策略。傳統(tǒng)的圖像分詞方法采用固定的2D網(wǎng)格結(jié)構(gòu),就像用一個(gè)規(guī)則的篩子來過濾圖像信息。這種方法雖然簡(jiǎn)單直接,但忽略了自然圖像中存在的大量空間冗余和語義相關(guān)性。
自然圖像往往包含許多具有相似視覺模式的不規(guī)則區(qū)域。比如,在一張森林的照片中,不同位置的樹葉可能具有相似的紋理和顏色;在一張海灘的圖片中,沙灘的不同部分可能呈現(xiàn)出相似的質(zhì)感。傳統(tǒng)方法會(huì)機(jī)械地將這些相似區(qū)域分別處理,造成大量的信息冗余。
VFMTok的區(qū)域適應(yīng)性采樣就像一個(gè)聰明的圖像分析師,它能夠識(shí)別和利用這些空間冗余。具體來說,它使用一組可學(xué)習(xí)的錨點(diǎn)查詢,這些查詢就像是靈活的"觸手",可以根據(jù)圖像內(nèi)容自適應(yīng)地采樣相關(guān)區(qū)域。
這個(gè)過程的實(shí)現(xiàn)依賴于可變形交叉注意力機(jī)制。在每個(gè)注意力層中,錨點(diǎn)查詢會(huì)預(yù)測(cè)每個(gè)視覺基礎(chǔ)模型特征層的采樣偏移量,使得系統(tǒng)能夠從不規(guī)則的、數(shù)據(jù)依賴的位置進(jìn)行采樣。這些采樣到的特征隨后通過注意力權(quán)重進(jìn)行加權(quán)聚合,最終更新查詢狀態(tài)。
通過多層的迭代精煉,這些錨點(diǎn)查詢逐漸演化為能夠捕獲語義相關(guān)、區(qū)域特定信息的區(qū)域適應(yīng)性令牌。這種方法相比固定的2D特征網(wǎng)格,能夠顯著減少冗余信息,實(shí)現(xiàn)更高效的圖像表征。
實(shí)驗(yàn)結(jié)果證明了這種方法的有效性。VFMTok僅使用256個(gè)語義豐富的令牌就能實(shí)現(xiàn)高保真度的重建和生成,而傳統(tǒng)方法通常需要576個(gè)令牌。這種令牌數(shù)量的減少不僅提高了計(jì)算效率,還為后續(xù)的自回歸生成提供了更緊湊、更有意義的表征。
**三、雙重重建目標(biāo):保持語義保真度的關(guān)鍵**
VFMTok的另一個(gè)重要?jiǎng)?chuàng)新在于其雙重重建目標(biāo)設(shè)計(jì)。傳統(tǒng)的圖像分詞器只關(guān)注圖像像素的重建質(zhì)量,這就像一個(gè)畫家只關(guān)心畫作的外觀相似度,而忽略了對(duì)象的內(nèi)在精神和深層含義。
VFMTok采用了一種更加全面的重建策略。除了傳統(tǒng)的圖像像素重建外,它還引入了視覺基礎(chǔ)模型特征重建目標(biāo)。這意味著系統(tǒng)不僅要能夠重建出原始圖像,還要能夠重建出凍結(jié)的視覺基礎(chǔ)模型提取的深層特征。
這種雙重重建的設(shè)計(jì)具有深刻的意義。圖像像素重建確保了生成圖像的視覺質(zhì)量,而特征重建則保證了令牌的語義保真度。通過要求系統(tǒng)同時(shí)滿足這兩個(gè)目標(biāo),VFMTok能夠?qū)W習(xí)到既能準(zhǔn)確重現(xiàn)圖像細(xì)節(jié),又能保持深層語義理解的表征。
在實(shí)現(xiàn)上,VFMTok使用了一個(gè)共享的輕量級(jí)Vision Transformer來處理去量化后的區(qū)域適應(yīng)性令牌。這個(gè)Transformer采用因果自注意力機(jī)制,使其潛在空間與自回歸模型的結(jié)構(gòu)保持一致。通過引入掩碼令牌和位置嵌入,系統(tǒng)能夠?qū)⒉灰?guī)則的區(qū)域級(jí)特征對(duì)齊到規(guī)則的2D圖像網(wǎng)格。
為了進(jìn)一步提升表征學(xué)習(xí)效果,VFMTok還借鑒了DINOv2的經(jīng)驗(yàn),在輸入序列中加入了CLS令牌和若干寄存器令牌。這些額外的令牌有助于捕獲全局上下文信息,提高表征的全面性和魯棒性。
在損失函數(shù)設(shè)計(jì)上,VFMTok將傳統(tǒng)的VQGAN損失與特征重建損失相結(jié)合。特征重建損失通過計(jì)算重建特征與凍結(jié)視覺基礎(chǔ)模型特征之間的余弦相似度來實(shí)現(xiàn)。這種設(shè)計(jì)確保了令牌在保持重建質(zhì)量的同時(shí),也能維持與原始視覺基礎(chǔ)模型特征的語義一致性。
**四、突破性的實(shí)驗(yàn)結(jié)果與性能表現(xiàn)**
VFMTok在多個(gè)關(guān)鍵指標(biāo)上都取得了令人矚目的成果。在圖像重建質(zhì)量方面,VFMTok使用256個(gè)令牌就達(dá)到了0.89的rFID分?jǐn)?shù),顯著優(yōu)于使用576個(gè)令牌的傳統(tǒng)VQGAN方法的0.95分?jǐn)?shù)。更重要的是,VFMTok在rIS(重建Inception Score)指標(biāo)上達(dá)到了215.4,遠(yuǎn)超其他方法。
rIS指標(biāo)特別重要,因?yàn)樗饬康氖侵亟▓D像與原始圖像在語義層面的一致性。高rIS分?jǐn)?shù)表明VFMTok重建的圖像不僅在視覺上相似,更在語義理解上保持了高度的一致性。這種語義一致性的提升直接轉(zhuǎn)化為了更好的圖像生成質(zhì)量。
在自回歸圖像生成方面,VFMTok展現(xiàn)出了卓越的性能。研究團(tuán)隊(duì)訓(xùn)練了不同規(guī)模的生成模型,從111M參數(shù)的VFMTok-B到3.1B參數(shù)的VFMTok-3B。在ImageNet 256×256類條件圖像生成任務(wù)中,VFMTok-3B模型達(dá)到了2.07的gFID分?jǐn)?shù),創(chuàng)造了新的最先進(jìn)記錄。
這個(gè)成果的意義在于,它超越了許多廣泛使用的擴(kuò)散模型。比如,流行的DiT模型在相同任務(wù)上的gFID分?jǐn)?shù)為2.27,而VFMTok-3B不僅性能更優(yōu),還具有更快的推理速度和更低的計(jì)算成本。
更令人印象深刻的是,VFMTok在不使用分類器自由引導(dǎo)的情況下仍能保持高質(zhì)量的圖像生成。傳統(tǒng)方法通常需要依賴CFG技術(shù)來提高生成質(zhì)量,但這會(huì)顯著增加推理時(shí)間。VFMTok的1.4B參數(shù)模型在無CFG情況下達(dá)到了1.95的gFID分?jǐn)?shù),遠(yuǎn)優(yōu)于LlamaGen-3B模型在無CFG情況下的9.38分?jǐn)?shù)。
這種無需CFG的高質(zhì)量生成能力源于VFMTok令牌的豐富語義內(nèi)容。由于每個(gè)令牌都承載了更多的語義信息,AI模型能夠更好地理解和控制生成過程,從而在不需要額外引導(dǎo)的情況下產(chǎn)生高保真度的圖像。
**五、訓(xùn)練效率和推理速度的革命性提升**
VFMTok在計(jì)算效率方面帶來了顯著的改進(jìn)。首先,由于使用了預(yù)訓(xùn)練的凍結(jié)視覺基礎(chǔ)模型作為編碼器,VFMTok的訓(xùn)練過程比傳統(tǒng)方法更加高效。傳統(tǒng)VQGAN需要從零開始訓(xùn)練編碼器,這個(gè)過程不僅耗時(shí),還容易陷入局部最優(yōu)解。
VFMTok的訓(xùn)練過程可以分為兩個(gè)階段。第一階段是分詞器訓(xùn)練,在ImageNet訓(xùn)練集上進(jìn)行,使用336×336分辨率的圖像。整個(gè)訓(xùn)練過程只需要50個(gè)epoch,相比傳統(tǒng)方法的數(shù)百個(gè)epoch有了大幅縮短。訓(xùn)練設(shè)置包括恒定學(xué)習(xí)率10^-4、AdamW優(yōu)化器、批量大小256等。在16塊Nvidia H800 GPU上,VFMTok的訓(xùn)練只需要1.5天。
第二階段是自回歸模型訓(xùn)練,這個(gè)過程也展現(xiàn)出了顯著的效率提升。由于VFMTok提供了更加語義豐富和結(jié)構(gòu)化的令牌表征,自回歸模型能夠更快地學(xué)習(xí)到圖像生成的規(guī)律。實(shí)驗(yàn)顯示,使用VFMTok的自回歸模型收斂速度比傳統(tǒng)方法快3倍。
在推理速度方面,VFMTok的優(yōu)勢(shì)更加明顯。由于使用的令牌數(shù)量從576減少到256,推理時(shí)間獲得了顯著的減少。自回歸模型的生成時(shí)間與令牌數(shù)量成二次關(guān)系,因此令牌數(shù)量的減半帶來了4倍的推理速度提升。加上無需CFG的特性,VFMTok在實(shí)際應(yīng)用中的推理效率遠(yuǎn)超傳統(tǒng)方法。
這種效率提升對(duì)實(shí)際應(yīng)用具有重要意義。在相同的計(jì)算資源下,VFMTok能夠生成更多的高質(zhì)量圖像,或者在相同的生成需求下使用更少的計(jì)算資源。這使得高質(zhì)量的AI圖像生成技術(shù)更容易部署到實(shí)際應(yīng)用中,降低了技術(shù)門檻和成本。
**六、深度消融實(shí)驗(yàn):揭示成功的關(guān)鍵因素**
為了深入理解VFMTok成功的原因,研究團(tuán)隊(duì)進(jìn)行了一系列詳細(xì)的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像醫(yī)生通過各種檢查來診斷病因一樣,幫助研究者理解每個(gè)組件對(duì)整體性能的貢獻(xiàn)。
第一個(gè)重要發(fā)現(xiàn)是凍結(jié)視覺基礎(chǔ)模型的關(guān)鍵作用。當(dāng)研究團(tuán)隊(duì)將凍結(jié)的DINOv2-L替換為隨機(jī)初始化的編碼器時(shí),重建質(zhì)量顯著下降,語義表征能力也大幅降低。這證明了預(yù)訓(xùn)練視覺基礎(chǔ)模型提供的語義先驗(yàn)對(duì)于構(gòu)建高質(zhì)量分詞器至關(guān)重要。
區(qū)域適應(yīng)性采樣的效果也得到了驗(yàn)證。相比使用固定2D網(wǎng)格的傳統(tǒng)方法,區(qū)域適應(yīng)性采樣在減少令牌數(shù)量的同時(shí)還能提升性能。具體來說,從576個(gè)令牌減少到256個(gè)令牌,不僅沒有損害性能,反而在某些指標(biāo)上有所提升。這表明智能的區(qū)域采樣策略能夠有效去除冗余信息,保留最有用的語義特征。
多層級(jí)特征的重要性也得到了證實(shí)。僅使用最后一層特征的單層級(jí)配置相比多層級(jí)特征配置性能明顯下降。這是因?yàn)闇\層特征包含了重要的細(xì)節(jié)信息,深層特征則提供了高級(jí)語義信息。多層級(jí)特征的融合使得VFMTok能夠同時(shí)捕獲低層細(xì)節(jié)和高層語義,實(shí)現(xiàn)更全面的圖像表征。
特征重建目標(biāo)的作用也非常關(guān)鍵。當(dāng)移除特征重建目標(biāo),僅保留圖像重建目標(biāo)時(shí),模型的語義表征能力顯著下降。這個(gè)發(fā)現(xiàn)強(qiáng)調(diào)了雙重重建策略的必要性:圖像重建確保視覺質(zhì)量,特征重建保證語義保真度。
在架構(gòu)設(shè)計(jì)方面,共享Vision Transformer的設(shè)計(jì)也被證明是有效的。相比使用獨(dú)立的Transformer處理圖像重建和特征重建,共享架構(gòu)不僅減少了參數(shù)量,還提升了整體性能。這種設(shè)計(jì)迫使模型學(xué)習(xí)到更加通用和魯棒的表征。
**七、與其他方法的全面比較**
VFMTok的性能優(yōu)勢(shì)在與其他先進(jìn)方法的比較中得到了充分體現(xiàn)。在圖像重建任務(wù)上,VFMTok與TiTok、ImageFolder、各種VQGAN變體以及其他先進(jìn)分詞器進(jìn)行了全面比較。結(jié)果顯示,VFMTok在使用最少令牌數(shù)量的情況下達(dá)到了最優(yōu)的重建質(zhì)量。
特別值得注意的是與TiTok的比較。TiTok是另一個(gè)先進(jìn)的1D分詞器,它使用256個(gè)令牌但需要復(fù)雜的兩階段訓(xùn)練過程(預(yù)熱和微調(diào)),總訓(xùn)練時(shí)間長(zhǎng)達(dá)200個(gè)epoch。相比之下,VFMTok只需要50個(gè)epoch的簡(jiǎn)單訓(xùn)練過程,就能達(dá)到更好的重建質(zhì)量和語義表征能力。
在自回歸圖像生成任務(wù)上,VFMTok與多種主流生成模型進(jìn)行了比較,包括擴(kuò)散模型、掩碼生成模型和其他自回歸模型。在ImageNet 256×256基準(zhǔn)測(cè)試中,VFMTok-3B不僅超越了所有自回歸模型,還超越了許多擴(kuò)散模型的性能。
與擴(kuò)散模型的比較特別有意義。擴(kuò)散模型如DiT、SiT等在圖像生成質(zhì)量上一直處于領(lǐng)先地位,但它們的推理速度相對(duì)較慢。VFMTok在達(dá)到相當(dāng)甚至更好的生成質(zhì)量的同時(shí),推理速度更快,這使得它在實(shí)際應(yīng)用中具有更大的優(yōu)勢(shì)。
與其他自回歸模型如LlamaGen的比較也很有啟發(fā)性。在相同的參數(shù)量下,VFMTok的性能始終優(yōu)于LlamaGen。更重要的是,VFMTok的1.4B參數(shù)模型甚至超越了LlamaGen的3B參數(shù)模型,這表明VFMTok的架構(gòu)設(shè)計(jì)更加高效。
**八、技術(shù)實(shí)現(xiàn)細(xì)節(jié)與可復(fù)現(xiàn)性**
VFMTok的實(shí)現(xiàn)涉及多個(gè)技術(shù)細(xì)節(jié),這些細(xì)節(jié)對(duì)于方法的成功至關(guān)重要。在視覺基礎(chǔ)模型選擇方面,研究團(tuán)隊(duì)主要使用了DINOv2-L模型,這是一個(gè)包含24個(gè)Transformer層的大型模型。為了構(gòu)建多層級(jí)特征,他們從第6、12、18和24層提取特征,這樣的設(shè)計(jì)既包含了細(xì)節(jié)信息又包含了語義信息。
在量化器設(shè)計(jì)上,VFMTok采用了12維的碼本向量和16384的碼本大小。這種設(shè)計(jì)在重建質(zhì)量和碼本利用率之間取得了良好的平衡。碼本向量使用L2歸一化,這有助于提高訓(xùn)練穩(wěn)定性和量化效果。
可變形注意力機(jī)制的實(shí)現(xiàn)是VFMTok的核心技術(shù)挑戰(zhàn)。研究團(tuán)隊(duì)使用了6層的可變形Transformer,每層都包含多頭注意力機(jī)制。錨點(diǎn)查詢的初始化采用2D網(wǎng)格布局,然后通過學(xué)習(xí)過程逐漸適應(yīng)到最優(yōu)的采樣位置。
在損失函數(shù)設(shè)計(jì)上,VFMTok綜合了多種損失項(xiàng)。圖像重建損失包括L2重建損失、LPIPS感知損失和對(duì)抗損失。特征重建損失使用余弦相似度計(jì)算。研究團(tuán)隊(duì)還將傳統(tǒng)的PatchGAN判別器替換為預(yù)訓(xùn)練的DINOv1-S模型,這種替換提供了更有意義的語義級(jí)別的對(duì)抗訓(xùn)練。
為了確保方法的可復(fù)現(xiàn)性,研究團(tuán)隊(duì)詳細(xì)記錄了所有超參數(shù)設(shè)置。分詞器訓(xùn)練使用恒定學(xué)習(xí)率10^-4,AdamW優(yōu)化器(β1=0.9,β2=0.95,權(quán)重衰減=0.05),批量大小256。自回歸模型訓(xùn)練也采用類似的設(shè)置,但根據(jù)模型大小調(diào)整了訓(xùn)練輪數(shù)。
**九、廣泛的適應(yīng)性和擴(kuò)展性驗(yàn)證**
VFMTok的一個(gè)重要優(yōu)勢(shì)是其對(duì)不同視覺基礎(chǔ)模型的廣泛適應(yīng)性。研究團(tuán)隊(duì)不僅測(cè)試了DINOv2,還驗(yàn)證了CLIP、SigLIP、SigLIP2等多種基礎(chǔ)模型的效果。結(jié)果顯示,VFMTok框架對(duì)不同的基礎(chǔ)模型都能取得良好的效果,這證明了方法的通用性。
使用SigLIP2的VFMTok變體在多個(gè)指標(biāo)上都表現(xiàn)出色。VFMTok-L(SigLIP2)達(dá)到了2.69的gFID分?jǐn)?shù),VFMTok-XXL(SigLIP2)達(dá)到了2.16的gFID分?jǐn)?shù)。這些結(jié)果與使用DINOv2的版本相當(dāng),證明了VFMTok框架的魯棒性。
在不同分辨率的適應(yīng)性方面,VFMTok也展現(xiàn)出了良好的擴(kuò)展性。雖然主要實(shí)驗(yàn)在336×336分辨率上進(jìn)行,但研究團(tuán)隊(duì)也測(cè)試了256×256分辨率的性能。結(jié)果顯示,VFMTok在不同分辨率下都能保持優(yōu)秀的性能,這為實(shí)際應(yīng)用提供了更大的靈活性。
令牌數(shù)量的可調(diào)性是VFMTok的另一個(gè)優(yōu)勢(shì)。研究團(tuán)隊(duì)測(cè)試了從36到576個(gè)令牌的不同配置,發(fā)現(xiàn)144個(gè)令牌就足以在ImageNet上實(shí)現(xiàn)良好的圖像表征。這種可調(diào)性使得用戶可以根據(jù)應(yīng)用需求在質(zhì)量和效率之間進(jìn)行平衡。
在碼本大小的選擇上,VFMTok也展現(xiàn)出了良好的適應(yīng)性。不同的碼本大小配置都能取得較好的效果,這為實(shí)際部署提供了更多選擇。研究團(tuán)隊(duì)還驗(yàn)證了不同的碼本初始化策略,證明了方法的魯棒性。
**十、面向未來的技術(shù)展望與應(yīng)用前景**
VFMTok的成功不僅在于其當(dāng)前的性能表現(xiàn),更在于它為AI圖像生成領(lǐng)域開辟了新的技術(shù)路徑。這種基于預(yù)訓(xùn)練視覺基礎(chǔ)模型的分詞器設(shè)計(jì)思路,為構(gòu)建更高效、更智能的圖像生成系統(tǒng)提供了重要啟示。
在技術(shù)發(fā)展方向上,VFMTok的成功表明,利用預(yù)訓(xùn)練模型的語義先驗(yàn)是提升圖像生成質(zhì)量的有效途徑。未來的研究可能會(huì)進(jìn)一步探索如何更好地利用這些先驗(yàn)知識(shí),比如通過多模態(tài)基礎(chǔ)模型來實(shí)現(xiàn)文本到圖像的更精確控制。
區(qū)域適應(yīng)性采樣策略的成功也為圖像表征學(xué)習(xí)提供了新的思路。傳統(tǒng)的固定網(wǎng)格表征方法可能會(huì)被更加靈活、智能的采樣策略所取代。這種變化不僅能提高表征效率,還能更好地捕獲圖像的語義結(jié)構(gòu)。
在應(yīng)用前景方面,VFMTok的高效性和高質(zhì)量使其在多個(gè)領(lǐng)域都有廣闊的應(yīng)用空間。在內(nèi)容創(chuàng)作領(lǐng)域,VFMTok能夠幫助藝術(shù)家和設(shè)計(jì)師更快速地生成高質(zhì)量的圖像素材。在教育領(lǐng)域,它可以用于生成教學(xué)用的圖像資源。在游戲開發(fā)中,VFMTok可以用于自動(dòng)生成游戲場(chǎng)景和角色。
VFMTok的無CFG高質(zhì)量生成特性使其特別適合實(shí)時(shí)應(yīng)用。在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,系統(tǒng)需要快速生成大量高質(zhì)量的圖像內(nèi)容,VFMTok的高效性正好滿足這種需求。
從更廣闊的角度看,VFMTok代表了AI圖像生成技術(shù)向著更智能、更高效方向發(fā)展的重要步驟。它證明了通過巧妙的架構(gòu)設(shè)計(jì)和對(duì)預(yù)訓(xùn)練模型的有效利用,可以在不增加計(jì)算成本的情況下顯著提升性能。這種思路對(duì)于推動(dòng)AI技術(shù)的產(chǎn)業(yè)化應(yīng)用具有重要意義。
研究團(tuán)隊(duì)已經(jīng)承諾將代碼公開發(fā)布,這將有助于更多研究者和開發(fā)者使用和改進(jìn)這一技術(shù)。開源的做法不僅能推動(dòng)技術(shù)的快速發(fā)展,還能促進(jìn)整個(gè)AI圖像生成領(lǐng)域的進(jìn)步。
說到底,VFMTok的成功展示了AI研究中一個(gè)重要的發(fā)展趨勢(shì):通過更智能的設(shè)計(jì)而不是簡(jiǎn)單的規(guī)模擴(kuò)大來提升性能。這種思路不僅更加環(huán)保和經(jīng)濟(jì),也為未來AI技術(shù)的發(fā)展指明了方向。歸根結(jié)底,VFMTok不僅是一個(gè)技術(shù)突破,更是AI圖像生成領(lǐng)域向著更加智能、高效、實(shí)用方向發(fā)展的重要里程碑。對(duì)于普通用戶來說,這意味著未來我們將能夠更快速、更便捷地獲得高質(zhì)量的AI生成圖像,這將深刻改變我們創(chuàng)作、學(xué)習(xí)和娛樂的方式。
Q&A
Q1:VFMTok是什么?它解決了什么問題? A:VFMTok是香港大學(xué)團(tuán)隊(duì)開發(fā)的新型圖像分詞器,專門用于AI圖像生成。它解決了傳統(tǒng)分詞器訓(xùn)練時(shí)間長(zhǎng)、生成速度慢、需要額外工具提高質(zhì)量等問題。VFMTok直接使用預(yù)訓(xùn)練的視覺基礎(chǔ)模型,只需256個(gè)令牌就能實(shí)現(xiàn)高質(zhì)量圖像生成,速度提升3倍。
Q2:VFMTok會(huì)不會(huì)讓AI圖像生成變得更容易使用? A:會(huì)的。VFMTok的主要優(yōu)勢(shì)是生成速度快、質(zhì)量高,而且不需要復(fù)雜的調(diào)參過程。它能在不使用額外引導(dǎo)技術(shù)的情況下生成高質(zhì)量圖像,這意味著普通用戶可以更簡(jiǎn)單地使用AI生成圖像功能,而不需要專業(yè)的技術(shù)背景。
Q3:VFMTok的技術(shù)能應(yīng)用到哪些實(shí)際場(chǎng)景中? A:VFMTok可以廣泛應(yīng)用于內(nèi)容創(chuàng)作、游戲開發(fā)、教育資源制作、虛擬現(xiàn)實(shí)等領(lǐng)域。由于其高效性和高質(zhì)量,特別適合需要實(shí)時(shí)生成大量圖像的應(yīng)用場(chǎng)景。研究團(tuán)隊(duì)已承諾開源代碼,這將讓更多開發(fā)者能夠?qū)⑦@項(xiàng)技術(shù)集成到自己的產(chǎn)品中。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。