av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) DiCo:ByteDance團(tuán)隊(duì)重新激活卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)高效率擴(kuò)展的擴(kuò)散模型

DiCo:ByteDance團(tuán)隊(duì)重新激活卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)高效率擴(kuò)展的擴(kuò)散模型

2025-05-28 07:37
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 07:37 ? 科技行者

一個(gè)圖像生成的驚人突破:當(dāng)"老技術(shù)"煥發(fā)新生

這項(xiàng)由中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院大學(xué)和ByteDance聯(lián)合開發(fā)的研究于2025年5月發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.11196v1),論文標(biāo)題為《DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling》。研究團(tuán)隊(duì)由袁艾、范棋航、胡雪峰、楊振恒、何冉和黃懷波組成,其中黃懷波擔(dān)任通訊作者。論文代碼和模型已在GitHub上開源:https://github.com/shallowdream204/DiCo

在人工智能領(lǐng)域,生成模型尤其是擴(kuò)散模型已經(jīng)成為創(chuàng)建高質(zhì)量圖像的主流技術(shù)。近年來(lái),基于Transformer架構(gòu)的擴(kuò)散模型(如Diffusion Transformer,簡(jiǎn)稱DiT)展示了強(qiáng)大的生成能力,但同時(shí)也帶來(lái)了巨大的計(jì)算開銷。在這個(gè)計(jì)算資源日益珍貴的時(shí)代,如何在保持高質(zhì)量生成效果的同時(shí)提高模型效率,成為了一個(gè)亟待解決的問題。

想象一下,如果你是一家餐廳的主廚,你可以選擇使用一套昂貴復(fù)雜的烹飪工具制作精美的菜肴,但這需要大量的時(shí)間和資源?;蛘?,你可以回歸到傳統(tǒng)的烹飪方式,但進(jìn)行創(chuàng)新改良,既能做出同樣美味的菜肴,又能節(jié)省時(shí)間和成本。ByteDance和中國(guó)科學(xué)院的研究團(tuán)隊(duì)就做了類似的事情——他們沒有一味追求最新的復(fù)雜技術(shù),而是重新審視了一個(gè)被許多研究者視為"過(guò)時(shí)"的技術(shù):卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)。

一、為什么要重新審視卷積神經(jīng)網(wǎng)絡(luò)?

在深入了解這項(xiàng)研究之前,我們需要理解一個(gè)背景:近年來(lái),基于自注意力(self-attention)機(jī)制的Transformer架構(gòu)在各種AI任務(wù)中取得了巨大成功,包括圖像生成領(lǐng)域。這使得傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)似乎顯得有些"過(guò)時(shí)"。然而,ByteDance團(tuán)隊(duì)進(jìn)行了一項(xiàng)有趣的發(fā)現(xiàn),促使他們重新思考卷積網(wǎng)絡(luò)的潛力。

想象你在看一幅畫。當(dāng)你欣賞這幅畫時(shí),你的注意力是如何分配的?大多數(shù)情況下,你可能會(huì)關(guān)注畫中的某個(gè)局部區(qū)域,然后再移動(dòng)到其他區(qū)域,而不是同時(shí)關(guān)注整幅畫的所有細(xì)節(jié)。ByteDance團(tuán)隊(duì)發(fā)現(xiàn),在圖像生成任務(wù)中,Transformer模型中的自注意力機(jī)制也表現(xiàn)出類似的行為模式——雖然理論上它能夠捕捉全局信息,但實(shí)際上卻主要關(guān)注局部模式。

研究人員通過(guò)分析預(yù)訓(xùn)練的DiT模型(包括DiT-XL/2、PixArt-α和FLUX.1-dev),發(fā)現(xiàn)當(dāng)查詢一個(gè)錨點(diǎn)位置時(shí),注意力主要集中在附近的空間位置上,而基本忽略了遠(yuǎn)處的位置。這意味著,在圖像生成任務(wù)中,計(jì)算全局注意力可能存在大量冗余。與識(shí)別任務(wù)不同,圖像生成似乎更強(qiáng)調(diào)局部細(xì)節(jié)和紋理的保真度,而非全局語(yǔ)義推理。

這一發(fā)現(xiàn)啟發(fā)研究團(tuán)隊(duì)思考:如果Transformer在圖像生成中主要捕捉局部信息,那么天生善于處理局部特征的卷積神經(jīng)網(wǎng)絡(luò)是否可以作為一個(gè)更高效的替代方案?畢竟,卷積操作在硬件上更為高效,特別是對(duì)于大規(guī)模部署和資源受限的場(chǎng)景。

二、從DiT到DiCo:設(shè)計(jì)之路上的挑戰(zhàn)與突破

帶著對(duì)卷積網(wǎng)絡(luò)潛力的新認(rèn)識(shí),研究團(tuán)隊(duì)開始設(shè)計(jì)一種名為"Diffusion ConvNet"(簡(jiǎn)稱DiCo)的新架構(gòu)。然而,他們很快發(fā)現(xiàn),簡(jiǎn)單地用卷積層替換Transformer中的自注意力層并不能保持相同的性能水平。

想象你用普通的鍋碗瓢盆替換了一套高級(jí)廚具,卻發(fā)現(xiàn)做出的菜肴味道大不相同。研究團(tuán)隊(duì)也面臨類似的問題:簡(jiǎn)單的替換導(dǎo)致了性能下降。通過(guò)深入分析,他們發(fā)現(xiàn)了問題所在——通道冗余(channel redundancy)。

如果將神經(jīng)網(wǎng)絡(luò)中的通道比作樂隊(duì)中的樂器,那么在理想情況下,每個(gè)"樂器"都應(yīng)該貢獻(xiàn)不同的"聲音",共同創(chuàng)造豐富的"音樂"。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),在簡(jiǎn)單替換后的卷積模型中,許多通道保持不活躍狀態(tài),就像一些樂器沒有演奏一樣,導(dǎo)致"音樂"不夠豐富。

通過(guò)可視化分析,他們觀察到使用傳統(tǒng)卷積替換自注意力后,模型的通道激活得分分布較為均勻,但大多處于較低水平,表明存在嚴(yán)重的通道冗余。這一現(xiàn)象可能源于自注意力機(jī)制天生具有更強(qiáng)的表示能力,而卷積操作相對(duì)靜態(tài)和固定。

為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了一個(gè)創(chuàng)新性的組件:緊湊通道注意力(Compact Channel Attention,簡(jiǎn)稱CCA)機(jī)制。這個(gè)機(jī)制就像一個(gè)智能指揮,能夠根據(jù)輸入內(nèi)容動(dòng)態(tài)地激活最有信息量的通道,提高特征多樣性。

CCA的工作原理非常巧妙:首先通過(guò)全局平均池化(Global Average Pooling)聚合特征,然后應(yīng)用一個(gè)可學(xué)習(xí)的1×1卷積層,最后通過(guò)sigmoid激活函數(shù)生成通道注意力權(quán)重。這個(gè)簡(jiǎn)單而高效的設(shè)計(jì)顯著減少了特征冗余,增強(qiáng)了模型的表示能力。

三、DiCo的架構(gòu):簡(jiǎn)潔而強(qiáng)大

DiCo的整體架構(gòu)采用了U形設(shè)計(jì),由三個(gè)階段組成,每個(gè)階段都堆疊了多個(gè)DiCo塊。與認(rèn)知任務(wù)中強(qiáng)調(diào)的大型、昂貴的卷積核不同,DiCo采用了一種簡(jiǎn)化設(shè)計(jì),主要基于高效的1×1點(diǎn)卷積和3×3深度卷積。

想象一下建造一座房子,DiCo就像是選擇使用標(biāo)準(zhǔn)化、易于獲取但經(jīng)過(guò)精心設(shè)計(jì)的建材,而不是昂貴的定制材料。這種設(shè)計(jì)理念使得DiCo在保持強(qiáng)大生成性能的同時(shí),具有極高的計(jì)算效率。

具體來(lái)說(shuō),DiCo的核心組件是"Conv Module",它首先應(yīng)用1×1卷積聚合像素級(jí)的跨通道信息,然后使用3×3深度卷積捕獲通道級(jí)的空間上下文。接著,GELU激活函數(shù)提供非線性變換,最后是前面提到的緊湊通道注意力(CCA)機(jī)制,用于激活更多信息豐富的通道。

為了適應(yīng)多種規(guī)模的模型需求,研究團(tuán)隊(duì)設(shè)計(jì)了多個(gè)變體,包括DiCo-S、DiCo-B、DiCo-L和DiCo-XL,其參數(shù)數(shù)量分別與DiT-S/2、DiT-B/2、DiT-L/2和DiT-XL/2相當(dāng)。與DiT相比,DiCo模型在計(jì)算量(GFLOPs)方面實(shí)現(xiàn)了顯著降低,僅為DiT模型的70.1%至74.6%。此外,研究團(tuán)隊(duì)還擴(kuò)展出了一個(gè)擁有10億參數(shù)的更大模型DiCo-H,以探索該架構(gòu)的擴(kuò)展?jié)摿Α?/p>

四、驚人的實(shí)驗(yàn)結(jié)果:效率與性能的雙贏

在ImageNet 256×256和512×512基準(zhǔn)測(cè)試中,DiCo模型表現(xiàn)出色,超越了現(xiàn)有的最先進(jìn)擴(kuò)散模型,同時(shí)保持高效率。

首先看256×256分辨率的結(jié)果:DiCo-XL模型在FID(Fréchet Inception Distance,衡量生成圖像質(zhì)量的指標(biāo),越低越好)方面達(dá)到了2.05,優(yōu)于DiT-XL/2的2.27和DiG-XL/2的2.07。同時(shí),DiCo-XL的推理速度比DiT-XL/2快2.7倍,比具有CUDA優(yōu)化的Flash Linear Attention的DiG-XL/2快2.9倍。

更令人印象深刻的是,研究團(tuán)隊(duì)的最大模型DiCo-H(10億參數(shù))在ImageNet 256×256上實(shí)現(xiàn)了1.90的FID,這一成績(jī)是在沒有任何額外監(jiān)督的情況下取得的,超過(guò)了現(xiàn)有的所有擴(kuò)散模型。

在512×512高分辨率圖像生成方面,DiCo的優(yōu)勢(shì)更為明顯。DiCo-XL實(shí)現(xiàn)了2.53的FID,同時(shí)比DiT-XL/2快3.1倍,比基于Mamba的DiM-H和DiS-H/2模型分別快7.8倍和6.7倍。這一結(jié)果充分證明了DiCo在高分辨率圖像生成場(chǎng)景中的卓越效率。

研究團(tuán)隊(duì)還進(jìn)行了大量消融實(shí)驗(yàn),分析了DiCo各個(gè)組件的貢獻(xiàn)。結(jié)果表明,緊湊通道注意力(CCA)機(jī)制對(duì)模型性能有顯著提升,帶來(lái)了4.81點(diǎn)的FID改進(jìn)。通過(guò)特征可視化,可以清楚地看到CCA顯著增強(qiáng)了特征多樣性。

此外,研究還比較了不同架構(gòu)設(shè)計(jì)的影響,證明DiCo在各種結(jié)構(gòu)下都優(yōu)于DiT,同時(shí)保持顯著的效率優(yōu)勢(shì)。在不同模型規(guī)模下,DiCo也表現(xiàn)出良好的可擴(kuò)展性,參數(shù)量越大,性能越好。

五、更廣泛的對(duì)比:在生成模型家族中的地位

除了與其他擴(kuò)散模型對(duì)比外,研究團(tuán)隊(duì)還將DiCo與更廣泛的生成模型家族進(jìn)行了比較,包括基于GAN、掩碼預(yù)測(cè)、自回歸和視覺自回歸的方法。

在ImageNet 256×256基準(zhǔn)測(cè)試中,DiCo-XL和DiCo-H的表現(xiàn)與最先進(jìn)的視覺自回歸模型(如VAR-d30,擁有20億參數(shù))相當(dāng)甚至更好,而DiCo模型的參數(shù)量要少得多。這一結(jié)果證明了DiCo架構(gòu)的高效性和有效性。

同樣,在ImageNet 512×512基準(zhǔn)測(cè)試中,DiCo-XL(僅有7億參數(shù))的性能超過(guò)了具有23億參數(shù)的VAR-d36-s模型,再次證明了其架構(gòu)的優(yōu)越性。

六、未來(lái)展望與局限性

雖然DiCo在類條件圖像生成任務(wù)上取得了令人矚目的成功,但研究團(tuán)隊(duì)也認(rèn)識(shí)到了一些局限性。由于計(jì)算資源有限,他們的實(shí)驗(yàn)主要集中在ImageNet類條件生成上,而沒有探索文本到圖像生成等任務(wù)。此外,雖然他們將模型擴(kuò)展到了10億參數(shù),但與一些擁有更多參數(shù)的生成模型相比,規(guī)模仍然較小。

研究團(tuán)隊(duì)展望未來(lái),計(jì)劃進(jìn)一步擴(kuò)展DiCo模型的規(guī)模,并將其應(yīng)用于更廣泛的生成任務(wù),如文本到圖像生成。他們相信,這種高效的卷積架構(gòu)有潛力成為各種生成應(yīng)用的強(qiáng)大基礎(chǔ)。

七、結(jié)論:當(dāng)"老技術(shù)"煥發(fā)新生

ByteDance和中國(guó)科學(xué)院團(tuán)隊(duì)的這項(xiàng)研究向我們展示了一個(gè)重要的科學(xué)啟示:有時(shí)候,創(chuàng)新并不一定意味著拋棄舊有技術(shù),而是重新審視它們的潛力,并通過(guò)創(chuàng)新的組合和改進(jìn),賦予它們新的生命。

在這個(gè)深度學(xué)習(xí)技術(shù)迅速迭代的時(shí)代,卷積神經(jīng)網(wǎng)絡(luò)作為一項(xiàng)"老技術(shù)",被證明仍然具有巨大的潛力。通過(guò)精心設(shè)計(jì)和創(chuàng)新的組件(如緊湊通道注意力機(jī)制),DiCo成功地證明了純卷積架構(gòu)能夠在擴(kuò)散模型中實(shí)現(xiàn)最先進(jìn)的性能,同時(shí)顯著提高效率。

從更廣泛的角度來(lái)看,這項(xiàng)研究也提醒我們,在追求最新技術(shù)的同時(shí),不應(yīng)忽視基礎(chǔ)技術(shù)的價(jià)值和潛力。有時(shí)候,解決問題的最佳方案可能不是最復(fù)雜或最新的技術(shù),而是經(jīng)過(guò)精心改進(jìn)的成熟技術(shù)。

對(duì)于普通用戶和開發(fā)者來(lái)說(shuō),DiCo的出現(xiàn)意味著更高效的圖像生成模型,這可能帶來(lái)更快的圖像創(chuàng)建體驗(yàn)、更低的計(jì)算成本,以及在資源受限設(shè)備上部署高質(zhì)量生成模型的可能性。隨著生成AI技術(shù)的日益普及,這些改進(jìn)將使更多人能夠訪問和使用這些強(qiáng)大的創(chuàng)意工具。

論文代碼和模型已在GitHub上開源(https://github.com/shallowdream204/DiCo),有興趣的讀者可以親自嘗試這個(gè)高效強(qiáng)大的圖像生成模型。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-