av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<track id="zfhx4"><ol id="zfhx4"></ol></track>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

DiCo：ByteDance團(tuán)隊重新激活卷積神經(jīng)網(wǎng)絡(luò)，實現(xiàn)高效率擴展的擴散模型

人工智能生成擴散模型卷積神經(jīng)網(wǎng)絡(luò)

DiCo：ByteDance團(tuán)隊重新激活卷積神經(jīng)網(wǎng)絡(luò)，實現(xiàn)高效率擴展的擴散模型

作者：科技行者

2025-05-28 07:37

分享至：

ByteDance和中國科學(xué)院的研究團(tuán)隊提出了Diffusion ConvNet (DiCo)，一種完全基于卷積神經(jīng)網(wǎng)絡(luò)的擴散模型架構(gòu)，實現(xiàn)了圖像生成任務(wù)中質(zhì)量與效率的雙重突破。研究發(fā)現(xiàn)DiT模型中的全局自注意力機制存在冗余，通過引入緊湊通道注意力機制，解決了卷積模型中的通道冗余問題。在ImageNet基準(zhǔn)測試中，DiCo-XL比DiT-XL/2生成速度快2.7-3.1倍，同時實現(xiàn)了更優(yōu)的圖像質(zhì)量，證明了純卷積架構(gòu)在擴散模型中的巨大潛力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-28 07:37 ? 科技行者

一個圖像生成的驚人突破：當(dāng)"老技術(shù)"煥發(fā)新生

這項由中國科學(xué)院自動化研究所、中國科學(xué)院大學(xué)和ByteDance聯(lián)合開發(fā)的研究于2025年5月發(fā)表在arXiv預(yù)印本平臺（arXiv:2505.11196v1），論文標(biāo)題為《DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling》。研究團(tuán)隊由袁艾、范棋航、胡雪峰、楊振恒、何冉和黃懷波組成，其中黃懷波擔(dān)任通訊作者。論文代碼和模型已在GitHub上開源：https://github.com/shallowdream204/DiCo

在人工智能領(lǐng)域，生成模型尤其是擴散模型已經(jīng)成為創(chuàng)建高質(zhì)量圖像的主流技術(shù)。近年來，基于Transformer架構(gòu)的擴散模型（如Diffusion Transformer，簡稱DiT）展示了強大的生成能力，但同時也帶來了巨大的計算開銷。在這個計算資源日益珍貴的時代，如何在保持高質(zhì)量生成效果的同時提高模型效率，成為了一個亟待解決的問題。

想象一下，如果你是一家餐廳的主廚，你可以選擇使用一套昂貴復(fù)雜的烹飪工具制作精美的菜肴，但這需要大量的時間和資源?；蛘?，你可以回歸到傳統(tǒng)的烹飪方式，但進(jìn)行創(chuàng)新改良，既能做出同樣美味的菜肴，又能節(jié)省時間和成本。ByteDance和中國科學(xué)院的研究團(tuán)隊就做了類似的事情——他們沒有一味追求最新的復(fù)雜技術(shù)，而是重新審視了一個被許多研究者視為"過時"的技術(shù)：卷積神經(jīng)網(wǎng)絡(luò)（ConvNets）。

一、為什么要重新審視卷積神經(jīng)網(wǎng)絡(luò)？

在深入了解這項研究之前，我們需要理解一個背景：近年來，基于自注意力（self-attention）機制的Transformer架構(gòu)在各種AI任務(wù)中取得了巨大成功，包括圖像生成領(lǐng)域。這使得傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)（ConvNets）似乎顯得有些"過時"。然而，ByteDance團(tuán)隊進(jìn)行了一項有趣的發(fā)現(xiàn)，促使他們重新思考卷積網(wǎng)絡(luò)的潛力。

想象你在看一幅畫。當(dāng)你欣賞這幅畫時，你的注意力是如何分配的？大多數(shù)情況下，你可能會關(guān)注畫中的某個局部區(qū)域，然后再移動到其他區(qū)域，而不是同時關(guān)注整幅畫的所有細(xì)節(jié)。ByteDance團(tuán)隊發(fā)現(xiàn)，在圖像生成任務(wù)中，Transformer模型中的自注意力機制也表現(xiàn)出類似的行為模式——雖然理論上它能夠捕捉全局信息，但實際上卻主要關(guān)注局部模式。

研究人員通過分析預(yù)訓(xùn)練的DiT模型（包括DiT-XL/2、PixArt-α和FLUX.1-dev），發(fā)現(xiàn)當(dāng)查詢一個錨點位置時，注意力主要集中在附近的空間位置上，而基本忽略了遠(yuǎn)處的位置。這意味著，在圖像生成任務(wù)中，計算全局注意力可能存在大量冗余。與識別任務(wù)不同，圖像生成似乎更強調(diào)局部細(xì)節(jié)和紋理的保真度，而非全局語義推理。

這一發(fā)現(xiàn)啟發(fā)研究團(tuán)隊思考：如果Transformer在圖像生成中主要捕捉局部信息，那么天生善于處理局部特征的卷積神經(jīng)網(wǎng)絡(luò)是否可以作為一個更高效的替代方案？畢竟，卷積操作在硬件上更為高效，特別是對于大規(guī)模部署和資源受限的場景。

二、從DiT到DiCo：設(shè)計之路上的挑戰(zhàn)與突破

帶著對卷積網(wǎng)絡(luò)潛力的新認(rèn)識，研究團(tuán)隊開始設(shè)計一種名為"Diffusion ConvNet"（簡稱DiCo）的新架構(gòu)。然而，他們很快發(fā)現(xiàn)，簡單地用卷積層替換Transformer中的自注意力層并不能保持相同的性能水平。

想象你用普通的鍋碗瓢盆替換了一套高級廚具，卻發(fā)現(xiàn)做出的菜肴味道大不相同。研究團(tuán)隊也面臨類似的問題：簡單的替換導(dǎo)致了性能下降。通過深入分析，他們發(fā)現(xiàn)了問題所在——通道冗余（channel redundancy）。

如果將神經(jīng)網(wǎng)絡(luò)中的通道比作樂隊中的樂器，那么在理想情況下，每個"樂器"都應(yīng)該貢獻(xiàn)不同的"聲音"，共同創(chuàng)造豐富的"音樂"。然而，研究團(tuán)隊發(fā)現(xiàn)，在簡單替換后的卷積模型中，許多通道保持不活躍狀態(tài)，就像一些樂器沒有演奏一樣，導(dǎo)致"音樂"不夠豐富。

通過可視化分析，他們觀察到使用傳統(tǒng)卷積替換自注意力后，模型的通道激活得分分布較為均勻，但大多處于較低水平，表明存在嚴(yán)重的通道冗余。這一現(xiàn)象可能源于自注意力機制天生具有更強的表示能力，而卷積操作相對靜態(tài)和固定。

為了解決這個問題，研究團(tuán)隊引入了一個創(chuàng)新性的組件：緊湊通道注意力（Compact Channel Attention，簡稱CCA）機制。這個機制就像一個智能指揮，能夠根據(jù)輸入內(nèi)容動態(tài)地激活最有信息量的通道，提高特征多樣性。

CCA的工作原理非常巧妙：首先通過全局平均池化（Global Average Pooling）聚合特征，然后應(yīng)用一個可學(xué)習(xí)的1×1卷積層，最后通過sigmoid激活函數(shù)生成通道注意力權(quán)重。這個簡單而高效的設(shè)計顯著減少了特征冗余，增強了模型的表示能力。

三、DiCo的架構(gòu)：簡潔而強大

DiCo的整體架構(gòu)采用了U形設(shè)計，由三個階段組成，每個階段都堆疊了多個DiCo塊。與認(rèn)知任務(wù)中強調(diào)的大型、昂貴的卷積核不同，DiCo采用了一種簡化設(shè)計，主要基于高效的1×1點卷積和3×3深度卷積。

想象一下建造一座房子，DiCo就像是選擇使用標(biāo)準(zhǔn)化、易于獲取但經(jīng)過精心設(shè)計的建材，而不是昂貴的定制材料。這種設(shè)計理念使得DiCo在保持強大生成性能的同時，具有極高的計算效率。

具體來說，DiCo的核心組件是"Conv Module"，它首先應(yīng)用1×1卷積聚合像素級的跨通道信息，然后使用3×3深度卷積捕獲通道級的空間上下文。接著，GELU激活函數(shù)提供非線性變換，最后是前面提到的緊湊通道注意力（CCA）機制，用于激活更多信息豐富的通道。

為了適應(yīng)多種規(guī)模的模型需求，研究團(tuán)隊設(shè)計了多個變體，包括DiCo-S、DiCo-B、DiCo-L和DiCo-XL，其參數(shù)數(shù)量分別與DiT-S/2、DiT-B/2、DiT-L/2和DiT-XL/2相當(dāng)。與DiT相比，DiCo模型在計算量（GFLOPs）方面實現(xiàn)了顯著降低，僅為DiT模型的70.1%至74.6%。此外，研究團(tuán)隊還擴展出了一個擁有10億參數(shù)的更大模型DiCo-H，以探索該架構(gòu)的擴展?jié)摿Α?/p>

四、驚人的實驗結(jié)果：效率與性能的雙贏

在ImageNet 256×256和512×512基準(zhǔn)測試中，DiCo模型表現(xiàn)出色，超越了現(xiàn)有的最先進(jìn)擴散模型，同時保持高效率。

首先看256×256分辨率的結(jié)果：DiCo-XL模型在FID（Fréchet Inception Distance，衡量生成圖像質(zhì)量的指標(biāo)，越低越好）方面達(dá)到了2.05，優(yōu)于DiT-XL/2的2.27和DiG-XL/2的2.07。同時，DiCo-XL的推理速度比DiT-XL/2快2.7倍，比具有CUDA優(yōu)化的Flash Linear Attention的DiG-XL/2快2.9倍。

更令人印象深刻的是，研究團(tuán)隊的最大模型DiCo-H（10億參數(shù)）在ImageNet 256×256上實現(xiàn)了1.90的FID，這一成績是在沒有任何額外監(jiān)督的情況下取得的，超過了現(xiàn)有的所有擴散模型。

在512×512高分辨率圖像生成方面，DiCo的優(yōu)勢更為明顯。DiCo-XL實現(xiàn)了2.53的FID，同時比DiT-XL/2快3.1倍，比基于Mamba的DiM-H和DiS-H/2模型分別快7.8倍和6.7倍。這一結(jié)果充分證明了DiCo在高分辨率圖像生成場景中的卓越效率。

研究團(tuán)隊還進(jìn)行了大量消融實驗，分析了DiCo各個組件的貢獻(xiàn)。結(jié)果表明，緊湊通道注意力（CCA）機制對模型性能有顯著提升，帶來了4.81點的FID改進(jìn)。通過特征可視化，可以清楚地看到CCA顯著增強了特征多樣性。

此外，研究還比較了不同架構(gòu)設(shè)計的影響，證明DiCo在各種結(jié)構(gòu)下都優(yōu)于DiT，同時保持顯著的效率優(yōu)勢。在不同模型規(guī)模下，DiCo也表現(xiàn)出良好的可擴展性，參數(shù)量越大，性能越好。

五、更廣泛的對比：在生成模型家族中的地位

除了與其他擴散模型對比外，研究團(tuán)隊還將DiCo與更廣泛的生成模型家族進(jìn)行了比較，包括基于GAN、掩碼預(yù)測、自回歸和視覺自回歸的方法。

在ImageNet 256×256基準(zhǔn)測試中，DiCo-XL和DiCo-H的表現(xiàn)與最先進(jìn)的視覺自回歸模型（如VAR-d30，擁有20億參數(shù)）相當(dāng)甚至更好，而DiCo模型的參數(shù)量要少得多。這一結(jié)果證明了DiCo架構(gòu)的高效性和有效性。

同樣，在ImageNet 512×512基準(zhǔn)測試中，DiCo-XL（僅有7億參數(shù)）的性能超過了具有23億參數(shù)的VAR-d36-s模型，再次證明了其架構(gòu)的優(yōu)越性。

六、未來展望與局限性

雖然DiCo在類條件圖像生成任務(wù)上取得了令人矚目的成功，但研究團(tuán)隊也認(rèn)識到了一些局限性。由于計算資源有限，他們的實驗主要集中在ImageNet類條件生成上，而沒有探索文本到圖像生成等任務(wù)。此外，雖然他們將模型擴展到了10億參數(shù)，但與一些擁有更多參數(shù)的生成模型相比，規(guī)模仍然較小。

研究團(tuán)隊展望未來，計劃進(jìn)一步擴展DiCo模型的規(guī)模，并將其應(yīng)用于更廣泛的生成任務(wù)，如文本到圖像生成。他們相信，這種高效的卷積架構(gòu)有潛力成為各種生成應(yīng)用的強大基礎(chǔ)。

七、結(jié)論：當(dāng)"老技術(shù)"煥發(fā)新生

ByteDance和中國科學(xué)院團(tuán)隊的這項研究向我們展示了一個重要的科學(xué)啟示：有時候，創(chuàng)新并不一定意味著拋棄舊有技術(shù)，而是重新審視它們的潛力，并通過創(chuàng)新的組合和改進(jìn)，賦予它們新的生命。

在這個深度學(xué)習(xí)技術(shù)迅速迭代的時代，卷積神經(jīng)網(wǎng)絡(luò)作為一項"老技術(shù)"，被證明仍然具有巨大的潛力。通過精心設(shè)計和創(chuàng)新的組件（如緊湊通道注意力機制），DiCo成功地證明了純卷積架構(gòu)能夠在擴散模型中實現(xiàn)最先進(jìn)的性能，同時顯著提高效率。

從更廣泛的角度來看，這項研究也提醒我們，在追求最新技術(shù)的同時，不應(yīng)忽視基礎(chǔ)技術(shù)的價值和潛力。有時候，解決問題的最佳方案可能不是最復(fù)雜或最新的技術(shù)，而是經(jīng)過精心改進(jìn)的成熟技術(shù)。

對于普通用戶和開發(fā)者來說，DiCo的出現(xiàn)意味著更高效的圖像生成模型，這可能帶來更快的圖像創(chuàng)建體驗、更低的計算成本，以及在資源受限設(shè)備上部署高質(zhì)量生成模型的可能性。隨著生成AI技術(shù)的日益普及，這些改進(jìn)將使更多人能夠訪問和使用這些強大的創(chuàng)意工具。

論文代碼和模型已在GitHub上開源（https://github.com/shallowdream204/DiCo），有興趣的讀者可以親自嘗試這個高效強大的圖像生成模型。

人工智能生成擴散模型卷積神經(jīng)網(wǎng)絡(luò)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊提出SIRI方法，通過"壓縮-擴張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<tt id="9gwkv"></tt>