近日,來自字節(jié)跳動(dòng)(ByteDance)的研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性研究成果——DetailFlow,這是一種全新的圖像生成方法,顛覆了傳統(tǒng)的AI圖像生成技術(shù)。該研究由Yiheng Liu、Liao Qu、Huichao Zhang等多位研究者共同完成,于2025年5月27日在arXiv預(yù)印本平臺(tái)發(fā)布(arXiv:2505.21473v1),研究代碼已在GitHub上開源(https://github.com/ByteFlow-AI/DetailFlow)。
想象一下,你在玩一款拼圖游戲。傳統(tǒng)的AI圖像生成就像一次性把所有拼圖塊打亂放在桌上,然后逐塊拼接。而DetailFlow則采取了一種全新的思路:先用幾塊大拼圖搭建出畫面的整體框架,再逐漸加入越來越多的小拼圖塊,使畫面細(xì)節(jié)逐漸豐富起來。這種從粗到細(xì)的生成方式不僅更符合人類創(chuàng)作圖像的思維習(xí)慣,還大大提高了圖像生成的效率和質(zhì)量。
在人工智能領(lǐng)域,自回歸模型(Autoregressive Model)已經(jīng)在自然語言處理領(lǐng)域取得了驚人的成功。這類模型就像寫作時(shí)一個(gè)詞接一個(gè)詞地創(chuàng)作,具有出色的靈活性和創(chuàng)造力。研究人員們一直希望將這種技術(shù)應(yīng)用到圖像生成領(lǐng)域,但遇到了一個(gè)關(guān)鍵問題:如何將二維的圖像信息轉(zhuǎn)化為一維的序列,以便自回歸模型能夠處理?
傳統(tǒng)方法通常采用"光柵掃描"方式,就像打印機(jī)一行一行地打印圖像那樣,把圖像平鋪成一維序列。但這種方法忽略了圖像的空間結(jié)構(gòu),使模型難以理解圖像的整體布局。近期的Visual Autoregressive Modeling (VAR)方法則采用了從粗到細(xì)的預(yù)測(cè)框架,但它需要大量的多尺度令牌(token),特別是在高分辨率圖像生成時(shí),計(jì)算成本非常高。
DetailFlow團(tuán)隊(duì)別出心裁,開發(fā)了一種一維的"從粗到細(xì)"自回歸圖像生成方法。他們的方法建立在一個(gè)新穎的"下一細(xì)節(jié)預(yù)測(cè)"策略之上,通過學(xué)習(xí)一個(gè)與分辨率相關(guān)的令牌序列,使模型能夠從全局結(jié)構(gòu)開始,逐漸細(xì)化到精細(xì)的細(xì)節(jié)。
具體來說,DetailFlow的工作原理就像一位畫家創(chuàng)作一幅畫:先畫出大致輪廓,然后逐步添加細(xì)節(jié)。模型首先生成幾個(gè)描述圖像整體結(jié)構(gòu)的令牌,然后預(yù)測(cè)更多的令牌來填充更細(xì)致的細(xì)節(jié)。這種方法不僅在理論上更符合人類的認(rèn)知過程,還在實(shí)踐中取得了優(yōu)異的效果。
在ImageNet 256×256基準(zhǔn)測(cè)試中,DetailFlow僅使用128個(gè)令牌就實(shí)現(xiàn)了2.96的gFID分?jǐn)?shù)(gFID是衡量生成圖像質(zhì)量的指標(biāo),數(shù)值越低表示質(zhì)量越高),超越了需要680個(gè)令牌的VAR(3.3 FID)和FlexVAR(3.05 FID)。更重要的是,由于大幅減少了令牌數(shù)量并引入了并行推理機(jī)制,DetailFlow的推理速度比VAR和FlexVAR快了近2倍。
一、從粗到細(xì)的一維令牌表示:解決圖像信息壓縮難題
人類感知和創(chuàng)作圖像的過程本質(zhì)上是分層的:我們先看到整體結(jié)構(gòu),然后才關(guān)注細(xì)節(jié)。DetailFlow巧妙地將這一認(rèn)知過程融入到AI模型中,設(shè)計(jì)了一種一維令牌的從粗到細(xì)信息排序方法,使模型能夠從整體到局部,逐步生成圖像。
想象一個(gè)孩子在學(xué)畫畫的過程:先畫出物體的大致輪廓,然后逐步添加更多細(xì)節(jié)。DetailFlow的工作原理與此類似。它利用圖像分辨率和語義粒度之間的關(guān)聯(lián)性,設(shè)計(jì)了一個(gè)分辨率映射函數(shù)R(n),將使用的令牌數(shù)量n與目標(biāo)分辨率關(guān)聯(lián)起來。早期的令牌被訓(xùn)練用于捕捉低分辨率下的粗略結(jié)構(gòu),而后續(xù)的令牌則逐步細(xì)化高頻細(xì)節(jié)。
為了實(shí)現(xiàn)這一點(diǎn),研究團(tuán)隊(duì)在編碼器中使用了單向(因果)注意力機(jī)制,使令牌之間形成明確的依賴關(guān)系:后面的令牌可以看到前面的令牌信息,但前面的令牌看不到后面的信息。這就像我們?cè)诿枋鲆粋€(gè)場景時(shí),先介紹整體畫面,再逐步添加細(xì)節(jié),前后信息是有序的。
在訓(xùn)練過程中,模型會(huì)隨機(jī)選擇使用n個(gè)令牌(n從1到總令牌數(shù)N不等)來重建不同分辨率的圖像。這確保了模型能夠?qū)W習(xí)到一個(gè)連續(xù)的、分辨率感知的令牌序列,使生成過程自然地從粗略到精細(xì)。
從信息論的角度看,每個(gè)令牌z_i都貢獻(xiàn)了一定的增量信息,這可以用條件熵H(z_i | Z_{1:i-1})來量化。隨著令牌數(shù)量的增加,可重建的圖像分辨率和細(xì)節(jié)也相應(yīng)提高。研究表明,圖像在分辨率r×r下的總熵與r的平方成正比,這啟發(fā)了研究團(tuán)隊(duì)設(shè)計(jì)出非線性的分辨率映射函數(shù)。
二、并行推理加速:讓圖像生成更快速
生成高分辨率圖像往往需要數(shù)千個(gè)令牌,如果完全按照傳統(tǒng)的一個(gè)接一個(gè)預(yù)測(cè)令牌的方式,效率會(huì)非常低。為了解決這個(gè)問題,DetailFlow團(tuán)隊(duì)開發(fā)了一種并行推理機(jī)制。
具體來說,他們將一維令牌序列分成M組,每組包含g個(gè)令牌。在對(duì)第一組令牌進(jìn)行傳統(tǒng)的依次預(yù)測(cè)后,后續(xù)組內(nèi)的令牌可以并行生成,大大加快了推理速度。這就像一個(gè)裝配線:第一個(gè)工作站需要按部就班地完成每一步,但后續(xù)的工作站可以同時(shí)并行工作,大幅提高整體效率。
然而,這種并行生成方式會(huì)帶來一個(gè)新問題:組內(nèi)令牌的獨(dú)立采樣會(huì)破壞令牌之間的依賴關(guān)系,導(dǎo)致采樣錯(cuò)誤。傳統(tǒng)的"教師強(qiáng)制"訓(xùn)練范式并不能使自回歸模型具備自我糾錯(cuò)的能力。
為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了一種自我糾錯(cuò)訓(xùn)練策略。他們?cè)诹炕^程中向特定的令牌組注入隨機(jī)擾動(dòng),然后訓(xùn)練后續(xù)令牌來糾正這些不準(zhǔn)確信息。這就像教一個(gè)學(xué)生在前人犯錯(cuò)的基礎(chǔ)上繼續(xù)工作并糾正錯(cuò)誤,而不是從頭開始。
具體來說,他們會(huì)隨機(jī)選擇一個(gè)令牌組,在量化過程中對(duì)每個(gè)令牌從50個(gè)最接近的編碼本條目中進(jìn)行采樣,產(chǎn)生帶噪聲的令牌組。然后將這些帶噪聲的令牌與前面的干凈令牌一起輸入編碼器,生成后續(xù)的糾正令牌。這樣,模型就學(xué)會(huì)了如何根據(jù)可能包含錯(cuò)誤的前序信息生成正確的后續(xù)內(nèi)容。
這種自我糾錯(cuò)機(jī)制使DetailFlow在并行推理時(shí)能夠維持高質(zhì)量的圖像生成,推理速度提高了約8倍,同時(shí)有效減輕了自回歸模型中常見的錯(cuò)誤累積問題。
三、訓(xùn)練目標(biāo)與技術(shù)細(xì)節(jié):確保高質(zhì)量圖像生成
由于早期令牌編碼全局結(jié)構(gòu)至關(guān)重要,研究團(tuán)隊(duì)采取了多種策略來增強(qiáng)這些令牌的可靠性。
首先,他們明確地將第一個(gè)潛在令牌z_1與預(yù)訓(xùn)練的Siglip2模型提取的全局特征對(duì)齊。這就像給畫家一個(gè)草圖作為參考,確保整體結(jié)構(gòu)的準(zhǔn)確性。具體來說,第一個(gè)令牌通過一個(gè)三層MLP(多層感知機(jī))進(jìn)行投影,然后通過余弦相似度與Siglip2提取的特征對(duì)齊。
此外,最終的訓(xùn)練目標(biāo)還包括重建損失、感知損失、對(duì)抗損失和VQ編碼本損失,遵循SoftVQ-VAE中使用的實(shí)現(xiàn)和權(quán)重方案。這些多樣化的損失函數(shù)確保了生成圖像的高質(zhì)量和逼真度。
在實(shí)驗(yàn)實(shí)現(xiàn)方面,編碼器基于Siglip2-NaFlex初始化,包含12層,參數(shù)量為184M。解碼器則從頭開始訓(xùn)練,包含86M參數(shù)。離散潛在空間由一個(gè)包含8,192個(gè)條目、維度為8的編碼本定義。
訓(xùn)練過程在ImageNet-1K上進(jìn)行,使用256×256分辨率的輸入送入編碼器,解碼器輸出的分辨率則動(dòng)態(tài)變化(最高到256×256)。為確保對(duì)整個(gè)潛在令牌序列的穩(wěn)健建模,研究團(tuán)隊(duì)以80%的概率重建全分辨率圖像,以20%的概率隨機(jī)重建較低分辨率的圖像。
對(duì)于下游生成任務(wù),研究團(tuán)隊(duì)采用了基于LlamaGen架構(gòu)的自回歸模型。該模型在ImageNet-1K上訓(xùn)練300個(gè)周期,其中30%的訓(xùn)練數(shù)據(jù)由精心策劃的自我糾錯(cuò)令牌序列組成。在推理階段,采用Top-K=8192和Top-P=1的采樣策略,輔以無分類器指導(dǎo)(Classifier-Free Guidance)技術(shù)來平衡生成多樣性和保真度。
四、實(shí)驗(yàn)結(jié)果與對(duì)比分析:卓越的圖像生成性能
DetailFlow在ImageNet 256×256基準(zhǔn)測(cè)試中展現(xiàn)出卓越的性能。與傳統(tǒng)的二維令牌化器相比,DetailFlow在使用更短序列長度的情況下實(shí)現(xiàn)了更高的圖像質(zhì)量。
具體來說,DetailFlow-16(使用16組,每組8個(gè)令牌,共128個(gè)令牌)實(shí)現(xiàn)了2.96的gFID分?jǐn)?shù),超越了VAR(3.3 FID)和FlexVAR(3.05 FID),而后兩者都需要680個(gè)令牌。此外,由于大幅減少了令牌數(shù)量并引入了并行推理機(jī)制,DetailFlow的推理速度幾乎是VAR和FlexVAR的兩倍。
與現(xiàn)有的一維令牌化器(如TiTok和FlexTok)相比,DetailFlow解決了幾個(gè)關(guān)鍵限制。TiTok缺乏令牌的明確順序結(jié)構(gòu),這對(duì)自回歸建模至關(guān)重要;而FlexTok雖然采用了"尾部丟棄"訓(xùn)練策略來強(qiáng)制信息集中在早期令牌,但在令牌數(shù)量增加時(shí)性能會(huì)下降。相比之下,DetailFlow支持從粗到細(xì)的圖像生成,允許預(yù)測(cè)更多令牌以解碼更高分辨率的圖像。
研究團(tuán)隊(duì)還進(jìn)行了大量消融實(shí)驗(yàn)來評(píng)估各個(gè)組件的貢獻(xiàn)。從一個(gè)將圖像編碼為無序令牌序列的基線開始,他們逐步添加模塊以測(cè)量其效果。
首先,引入因果編碼器建立了令牌之間的簡單順序,這顯著提高了模型的自回歸生成能力。在此基礎(chǔ)上,實(shí)施從粗到細(xì)的令牌化器訓(xùn)練策略,在多個(gè)分辨率上監(jiān)督重建,將gFID從3.66提升到3.33,驗(yàn)證了強(qiáng)制執(zhí)行這種從粗到細(xì)的語義排序既有效又有優(yōu)勢(shì)。
接下來,探索令牌組的并行預(yù)測(cè)。雖然這一設(shè)計(jì)將推理步驟從128減少到32,但由于組間采樣錯(cuò)誤的累積,導(dǎo)致生成質(zhì)量下降。為緩解這一問題,研究團(tuán)隊(duì)引入了自我糾錯(cuò)機(jī)制,顯著恢復(fù)了合成質(zhì)量,將gFID從4.11降低到3.68。這表明自我糾錯(cuò)訓(xùn)練有效地減輕了采樣錯(cuò)誤的影響。
此外,通過特別為第一組令牌應(yīng)用因果下一令牌預(yù)測(cè),gFID進(jìn)一步提升了0.09。最后,通過對(duì)齊損失將第一個(gè)令牌的表示與Siglip2全局圖像特征對(duì)齊,將gFID從3.59降低到3.35,表明將初始令牌錨定到全局結(jié)構(gòu)信息為整個(gè)生成過程提供了更強(qiáng)的指導(dǎo)。
五、DetailFlow的未來展望與局限性
雖然DetailFlow在圖像生成任務(wù)中展現(xiàn)出卓越的性能,但研究團(tuán)隊(duì)也坦誠地指出了一些局限性。
DetailFlow通過查詢令牌驅(qū)動(dòng)的令牌化器將二維圖像信息嵌入到一維從粗到細(xì)的令牌序列中,實(shí)現(xiàn)了高效的令牌壓縮。然而,這種設(shè)計(jì)在高分辨率圖像重建方面面臨挑戰(zhàn)。捕捉細(xì)粒度的視覺細(xì)節(jié)通常需要數(shù)千個(gè)潛在令牌,這大大增加了令牌化器在訓(xùn)練期間的計(jì)算成本。
相比之下,傳統(tǒng)的二維令牌化器采用空間一致的策略,可以在低分辨率圖像上訓(xùn)練,并有效地推廣到更高分辨率。一維令牌化器缺乏這種可擴(kuò)展性,使其在高分辨率環(huán)境中效率較低。
為了緩解高訓(xùn)練成本,漸進(jìn)式訓(xùn)練策略被證明是有效的。由于編碼器和解碼器都支持可變輸入分辨率,訓(xùn)練可以從低分辨率圖像和較少的潛在令牌開始,建立穩(wěn)健的編碼和解碼基礎(chǔ)。然后,模型可以在高分辨率數(shù)據(jù)上進(jìn)行微調(diào),使其適應(yīng)更細(xì)膩的空間細(xì)節(jié),而無需從頭開始重新訓(xùn)練。這種方法在保持模型跨分辨率的靈活性的同時(shí),提高了訓(xùn)練效率。
盡管存在這些局限性,DetailFlow仍為未來的研究開辟了新的方向。研究團(tuán)隊(duì)指出,這種一維令牌化方法可以擴(kuò)展到生成不同縱橫比的圖像,通過在訓(xùn)練和推理過程中使用自然語言提示或特殊令牌來編碼目標(biāo)縱橫比。此外,根據(jù)圖像分辨率和令牌數(shù)量之間的關(guān)系,模型可以被指導(dǎo)預(yù)測(cè)特定數(shù)量的潛在令牌,對(duì)應(yīng)于所需的分辨率和縱橫比。
六、總結(jié):DetailFlow的革命性貢獻(xiàn)
DetailFlow的提出標(biāo)志著自回歸圖像生成領(lǐng)域的一個(gè)重要里程碑。通過引入從粗到細(xì)的一維令牌表示和下一細(xì)節(jié)預(yù)測(cè)策略,它有效地解決了自回歸圖像生成中的效率和質(zhì)量問題。
首先,DetailFlow的核心創(chuàng)新在于其"下一細(xì)節(jié)預(yù)測(cè)"范式,使模型能夠從全局結(jié)構(gòu)開始,逐步細(xì)化到精細(xì)細(xì)節(jié)。這種方法不僅在理論上更符合人類的認(rèn)知過程,還在實(shí)踐中證明了其優(yōu)越性。
其次,DetailFlow顯著減少了令牌需求,在ImageNet 256×256基準(zhǔn)測(cè)試中僅使用128個(gè)令牌就實(shí)現(xiàn)了2.96的gFID,超越了需要680個(gè)令牌的現(xiàn)有方法。這種高效性使得自回歸模型在圖像生成任務(wù)中更具競爭力。
第三,通過并行解碼機(jī)制和自我糾錯(cuò)訓(xùn)練策略,DetailFlow將推理速度提高了約8倍,同時(shí)有效減輕了自回歸模型中常見的錯(cuò)誤累積問題。
最后,DetailFlow獨(dú)特地支持一維令牌化器中的動(dòng)態(tài)分辨率,采用單一的一維令牌化器能夠生成可變長度的令牌序列,從而在不需要額外重新訓(xùn)練的情況下實(shí)現(xiàn)多種分辨率的靈活圖像解碼。
總的來說,DetailFlow在平衡訓(xùn)練成本、推理效率和圖像質(zhì)量方面取得了有效的平衡,為高分辨率、自回歸圖像合成提供了一個(gè)可擴(kuò)展的解決方案。隨著這一技術(shù)的不斷發(fā)展,我們可以期待未來會(huì)有更多基于DetailFlow的應(yīng)用,為計(jì)算機(jī)視覺和圖像生成領(lǐng)域帶來更多突破。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。