一個(gè)圖像生成的驚人突破:當(dāng)"老技術(shù)"煥發(fā)新生
這項(xiàng)由中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院大學(xué)和ByteDance聯(lián)合開發(fā)的研究于2025年5月發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.11196v1),論文標(biāo)題為《DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling》。研究團(tuán)隊(duì)由袁艾、范棋航、胡雪峰、楊振恒、何冉和黃懷波組成,其中黃懷波擔(dān)任通訊作者。論文代碼和模型已在GitHub上開源:https://github.com/shallowdream204/DiCo
在人工智能領(lǐng)域,生成模型尤其是擴(kuò)散模型已經(jīng)成為創(chuàng)建高質(zhì)量圖像的主流技術(shù)。近年來(lái),基于Transformer架構(gòu)的擴(kuò)散模型(如Diffusion Transformer,簡(jiǎn)稱DiT)展示了強(qiáng)大的生成能力,但同時(shí)也帶來(lái)了巨大的計(jì)算開銷。在這個(gè)計(jì)算資源日益珍貴的時(shí)代,如何在保持高質(zhì)量生成效果的同時(shí)提高模型效率,成為了一個(gè)亟待解決的問題。
想象一下,如果你是一家餐廳的主廚,你可以選擇使用一套昂貴復(fù)雜的烹飪工具制作精美的菜肴,但這需要大量的時(shí)間和資源?;蛘?,你可以回歸到傳統(tǒng)的烹飪方式,但進(jìn)行創(chuàng)新改良,既能做出同樣美味的菜肴,又能節(jié)省時(shí)間和成本。ByteDance和中國(guó)科學(xué)院的研究團(tuán)隊(duì)就做了類似的事情——他們沒有一味追求最新的復(fù)雜技術(shù),而是重新審視了一個(gè)被許多研究者視為"過(guò)時(shí)"的技術(shù):卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)。
一、為什么要重新審視卷積神經(jīng)網(wǎng)絡(luò)?
在深入了解這項(xiàng)研究之前,我們需要理解一個(gè)背景:近年來(lái),基于自注意力(self-attention)機(jī)制的Transformer架構(gòu)在各種AI任務(wù)中取得了巨大成功,包括圖像生成領(lǐng)域。這使得傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)似乎顯得有些"過(guò)時(shí)"。然而,ByteDance團(tuán)隊(duì)進(jìn)行了一項(xiàng)有趣的發(fā)現(xiàn),促使他們重新思考卷積網(wǎng)絡(luò)的潛力。
想象你在看一幅畫。當(dāng)你欣賞這幅畫時(shí),你的注意力是如何分配的?大多數(shù)情況下,你可能會(huì)關(guān)注畫中的某個(gè)局部區(qū)域,然后再移動(dòng)到其他區(qū)域,而不是同時(shí)關(guān)注整幅畫的所有細(xì)節(jié)。ByteDance團(tuán)隊(duì)發(fā)現(xiàn),在圖像生成任務(wù)中,Transformer模型中的自注意力機(jī)制也表現(xiàn)出類似的行為模式——雖然理論上它能夠捕捉全局信息,但實(shí)際上卻主要關(guān)注局部模式。
研究人員通過(guò)分析預(yù)訓(xùn)練的DiT模型(包括DiT-XL/2、PixArt-α和FLUX.1-dev),發(fā)現(xiàn)當(dāng)查詢一個(gè)錨點(diǎn)位置時(shí),注意力主要集中在附近的空間位置上,而基本忽略了遠(yuǎn)處的位置。這意味著,在圖像生成任務(wù)中,計(jì)算全局注意力可能存在大量冗余。與識(shí)別任務(wù)不同,圖像生成似乎更強(qiáng)調(diào)局部細(xì)節(jié)和紋理的保真度,而非全局語(yǔ)義推理。
這一發(fā)現(xiàn)啟發(fā)研究團(tuán)隊(duì)思考:如果Transformer在圖像生成中主要捕捉局部信息,那么天生善于處理局部特征的卷積神經(jīng)網(wǎng)絡(luò)是否可以作為一個(gè)更高效的替代方案?畢竟,卷積操作在硬件上更為高效,特別是對(duì)于大規(guī)模部署和資源受限的場(chǎng)景。
二、從DiT到DiCo:設(shè)計(jì)之路上的挑戰(zhàn)與突破
帶著對(duì)卷積網(wǎng)絡(luò)潛力的新認(rèn)識(shí),研究團(tuán)隊(duì)開始設(shè)計(jì)一種名為"Diffusion ConvNet"(簡(jiǎn)稱DiCo)的新架構(gòu)。然而,他們很快發(fā)現(xiàn),簡(jiǎn)單地用卷積層替換Transformer中的自注意力層并不能保持相同的性能水平。
想象你用普通的鍋碗瓢盆替換了一套高級(jí)廚具,卻發(fā)現(xiàn)做出的菜肴味道大不相同。研究團(tuán)隊(duì)也面臨類似的問題:簡(jiǎn)單的替換導(dǎo)致了性能下降。通過(guò)深入分析,他們發(fā)現(xiàn)了問題所在——通道冗余(channel redundancy)。
如果將神經(jīng)網(wǎng)絡(luò)中的通道比作樂隊(duì)中的樂器,那么在理想情況下,每個(gè)"樂器"都應(yīng)該貢獻(xiàn)不同的"聲音",共同創(chuàng)造豐富的"音樂"。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),在簡(jiǎn)單替換后的卷積模型中,許多通道保持不活躍狀態(tài),就像一些樂器沒有演奏一樣,導(dǎo)致"音樂"不夠豐富。
通過(guò)可視化分析,他們觀察到使用傳統(tǒng)卷積替換自注意力后,模型的通道激活得分分布較為均勻,但大多處于較低水平,表明存在嚴(yán)重的通道冗余。這一現(xiàn)象可能源于自注意力機(jī)制天生具有更強(qiáng)的表示能力,而卷積操作相對(duì)靜態(tài)和固定。
為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了一個(gè)創(chuàng)新性的組件:緊湊通道注意力(Compact Channel Attention,簡(jiǎn)稱CCA)機(jī)制。這個(gè)機(jī)制就像一個(gè)智能指揮,能夠根據(jù)輸入內(nèi)容動(dòng)態(tài)地激活最有信息量的通道,提高特征多樣性。
CCA的工作原理非常巧妙:首先通過(guò)全局平均池化(Global Average Pooling)聚合特征,然后應(yīng)用一個(gè)可學(xué)習(xí)的1×1卷積層,最后通過(guò)sigmoid激活函數(shù)生成通道注意力權(quán)重。這個(gè)簡(jiǎn)單而高效的設(shè)計(jì)顯著減少了特征冗余,增強(qiáng)了模型的表示能力。
三、DiCo的架構(gòu):簡(jiǎn)潔而強(qiáng)大
DiCo的整體架構(gòu)采用了U形設(shè)計(jì),由三個(gè)階段組成,每個(gè)階段都堆疊了多個(gè)DiCo塊。與認(rèn)知任務(wù)中強(qiáng)調(diào)的大型、昂貴的卷積核不同,DiCo采用了一種簡(jiǎn)化設(shè)計(jì),主要基于高效的1×1點(diǎn)卷積和3×3深度卷積。
想象一下建造一座房子,DiCo就像是選擇使用標(biāo)準(zhǔn)化、易于獲取但經(jīng)過(guò)精心設(shè)計(jì)的建材,而不是昂貴的定制材料。這種設(shè)計(jì)理念使得DiCo在保持強(qiáng)大生成性能的同時(shí),具有極高的計(jì)算效率。
具體來(lái)說(shuō),DiCo的核心組件是"Conv Module",它首先應(yīng)用1×1卷積聚合像素級(jí)的跨通道信息,然后使用3×3深度卷積捕獲通道級(jí)的空間上下文。接著,GELU激活函數(shù)提供非線性變換,最后是前面提到的緊湊通道注意力(CCA)機(jī)制,用于激活更多信息豐富的通道。
為了適應(yīng)多種規(guī)模的模型需求,研究團(tuán)隊(duì)設(shè)計(jì)了多個(gè)變體,包括DiCo-S、DiCo-B、DiCo-L和DiCo-XL,其參數(shù)數(shù)量分別與DiT-S/2、DiT-B/2、DiT-L/2和DiT-XL/2相當(dāng)。與DiT相比,DiCo模型在計(jì)算量(GFLOPs)方面實(shí)現(xiàn)了顯著降低,僅為DiT模型的70.1%至74.6%。此外,研究團(tuán)隊(duì)還擴(kuò)展出了一個(gè)擁有10億參數(shù)的更大模型DiCo-H,以探索該架構(gòu)的擴(kuò)展?jié)摿Α?/p>
四、驚人的實(shí)驗(yàn)結(jié)果:效率與性能的雙贏
在ImageNet 256×256和512×512基準(zhǔn)測(cè)試中,DiCo模型表現(xiàn)出色,超越了現(xiàn)有的最先進(jìn)擴(kuò)散模型,同時(shí)保持高效率。
首先看256×256分辨率的結(jié)果:DiCo-XL模型在FID(Fréchet Inception Distance,衡量生成圖像質(zhì)量的指標(biāo),越低越好)方面達(dá)到了2.05,優(yōu)于DiT-XL/2的2.27和DiG-XL/2的2.07。同時(shí),DiCo-XL的推理速度比DiT-XL/2快2.7倍,比具有CUDA優(yōu)化的Flash Linear Attention的DiG-XL/2快2.9倍。
更令人印象深刻的是,研究團(tuán)隊(duì)的最大模型DiCo-H(10億參數(shù))在ImageNet 256×256上實(shí)現(xiàn)了1.90的FID,這一成績(jī)是在沒有任何額外監(jiān)督的情況下取得的,超過(guò)了現(xiàn)有的所有擴(kuò)散模型。
在512×512高分辨率圖像生成方面,DiCo的優(yōu)勢(shì)更為明顯。DiCo-XL實(shí)現(xiàn)了2.53的FID,同時(shí)比DiT-XL/2快3.1倍,比基于Mamba的DiM-H和DiS-H/2模型分別快7.8倍和6.7倍。這一結(jié)果充分證明了DiCo在高分辨率圖像生成場(chǎng)景中的卓越效率。
研究團(tuán)隊(duì)還進(jìn)行了大量消融實(shí)驗(yàn),分析了DiCo各個(gè)組件的貢獻(xiàn)。結(jié)果表明,緊湊通道注意力(CCA)機(jī)制對(duì)模型性能有顯著提升,帶來(lái)了4.81點(diǎn)的FID改進(jìn)。通過(guò)特征可視化,可以清楚地看到CCA顯著增強(qiáng)了特征多樣性。
此外,研究還比較了不同架構(gòu)設(shè)計(jì)的影響,證明DiCo在各種結(jié)構(gòu)下都優(yōu)于DiT,同時(shí)保持顯著的效率優(yōu)勢(shì)。在不同模型規(guī)模下,DiCo也表現(xiàn)出良好的可擴(kuò)展性,參數(shù)量越大,性能越好。
五、更廣泛的對(duì)比:在生成模型家族中的地位
除了與其他擴(kuò)散模型對(duì)比外,研究團(tuán)隊(duì)還將DiCo與更廣泛的生成模型家族進(jìn)行了比較,包括基于GAN、掩碼預(yù)測(cè)、自回歸和視覺自回歸的方法。
在ImageNet 256×256基準(zhǔn)測(cè)試中,DiCo-XL和DiCo-H的表現(xiàn)與最先進(jìn)的視覺自回歸模型(如VAR-d30,擁有20億參數(shù))相當(dāng)甚至更好,而DiCo模型的參數(shù)量要少得多。這一結(jié)果證明了DiCo架構(gòu)的高效性和有效性。
同樣,在ImageNet 512×512基準(zhǔn)測(cè)試中,DiCo-XL(僅有7億參數(shù))的性能超過(guò)了具有23億參數(shù)的VAR-d36-s模型,再次證明了其架構(gòu)的優(yōu)越性。
六、未來(lái)展望與局限性
雖然DiCo在類條件圖像生成任務(wù)上取得了令人矚目的成功,但研究團(tuán)隊(duì)也認(rèn)識(shí)到了一些局限性。由于計(jì)算資源有限,他們的實(shí)驗(yàn)主要集中在ImageNet類條件生成上,而沒有探索文本到圖像生成等任務(wù)。此外,雖然他們將模型擴(kuò)展到了10億參數(shù),但與一些擁有更多參數(shù)的生成模型相比,規(guī)模仍然較小。
研究團(tuán)隊(duì)展望未來(lái),計(jì)劃進(jìn)一步擴(kuò)展DiCo模型的規(guī)模,并將其應(yīng)用于更廣泛的生成任務(wù),如文本到圖像生成。他們相信,這種高效的卷積架構(gòu)有潛力成為各種生成應(yīng)用的強(qiáng)大基礎(chǔ)。
七、結(jié)論:當(dāng)"老技術(shù)"煥發(fā)新生
ByteDance和中國(guó)科學(xué)院團(tuán)隊(duì)的這項(xiàng)研究向我們展示了一個(gè)重要的科學(xué)啟示:有時(shí)候,創(chuàng)新并不一定意味著拋棄舊有技術(shù),而是重新審視它們的潛力,并通過(guò)創(chuàng)新的組合和改進(jìn),賦予它們新的生命。
在這個(gè)深度學(xué)習(xí)技術(shù)迅速迭代的時(shí)代,卷積神經(jīng)網(wǎng)絡(luò)作為一項(xiàng)"老技術(shù)",被證明仍然具有巨大的潛力。通過(guò)精心設(shè)計(jì)和創(chuàng)新的組件(如緊湊通道注意力機(jī)制),DiCo成功地證明了純卷積架構(gòu)能夠在擴(kuò)散模型中實(shí)現(xiàn)最先進(jìn)的性能,同時(shí)顯著提高效率。
從更廣泛的角度來(lái)看,這項(xiàng)研究也提醒我們,在追求最新技術(shù)的同時(shí),不應(yīng)忽視基礎(chǔ)技術(shù)的價(jià)值和潛力。有時(shí)候,解決問題的最佳方案可能不是最復(fù)雜或最新的技術(shù),而是經(jīng)過(guò)精心改進(jìn)的成熟技術(shù)。
對(duì)于普通用戶和開發(fā)者來(lái)說(shuō),DiCo的出現(xiàn)意味著更高效的圖像生成模型,這可能帶來(lái)更快的圖像創(chuàng)建體驗(yàn)、更低的計(jì)算成本,以及在資源受限設(shè)備上部署高質(zhì)量生成模型的可能性。隨著生成AI技術(shù)的日益普及,這些改進(jìn)將使更多人能夠訪問和使用這些強(qiáng)大的創(chuàng)意工具。
論文代碼和模型已在GitHub上開源(https://github.com/shallowdream204/DiCo),有興趣的讀者可以親自嘗試這個(gè)高效強(qiáng)大的圖像生成模型。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。