av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 降低復(fù)雜度,加速生成:對(duì)擴(kuò)散模型采樣的可微分求解器搜索方法

降低復(fù)雜度,加速生成:對(duì)擴(kuò)散模型采樣的可微分求解器搜索方法

2025-06-04 09:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 09:15 ? 科技行者

在2025年第42屆國(guó)際機(jī)器學(xué)習(xí)會(huì)議(ICML 2025)上,來自南京大學(xué)的王帥、宋天輝、王立民,以及阿里巴巴淘寶天貓集團(tuán)的李澤賢、張啟鵬、李旭彬、葛鐵政、鄭博等研究人員發(fā)表了一篇題為《Differentiable Solver Search for Fast Diffusion Sampling》(擴(kuò)散采樣的可微分求解器搜索)的研究論文。這項(xiàng)研究旨在解決擴(kuò)散模型采樣過程中計(jì)算成本高的問題,幫助我們以更少的計(jì)算步驟獲得高質(zhì)量的生成圖像。

一、研究背景:為什么擴(kuò)散模型需要加速?

想象一下你在使用一臺(tái)老式照片沖洗機(jī)。傳統(tǒng)方式需要經(jīng)過顯影、定影、水洗等十幾個(gè)步驟,耗時(shí)一小時(shí)才能得到一張照片。擴(kuò)散模型就像這樣的沖洗過程——雖然最終能得到精美的照片(即高質(zhì)量生成圖像),但過程繁瑣且耗時(shí)。

擴(kuò)散模型已經(jīng)成為圖像生成領(lǐng)域的佼佼者,它能產(chǎn)生比GAN模型和自回歸模型更高質(zhì)量的圖像。然而,擴(kuò)散模型有一個(gè)明顯的缺點(diǎn):它們?cè)谕评恚ㄉ蓤D像)階段需要進(jìn)行大量的去噪步驟,這意味著需要反復(fù)運(yùn)行神經(jīng)網(wǎng)絡(luò),導(dǎo)致計(jì)算成本高昂,生成一張圖像可能需要幾分鐘甚至更長(zhǎng)時(shí)間。這嚴(yán)重限制了預(yù)訓(xùn)練擴(kuò)散模型的廣泛應(yīng)用。

為了加速擴(kuò)散模型的采樣過程,研究人員主要探索了兩種方法:基于訓(xùn)練的方法和基于求解器的方法?;谟?xùn)練的方法(如LCM、ConsistencyModels等)通過重新訓(xùn)練模型來減少所需的采樣步驟,但這會(huì)改變模型參數(shù),可能無法充分發(fā)揮預(yù)訓(xùn)練模型的性能。而基于求解器的方法不需要改變模型參數(shù),它們通過設(shè)計(jì)高效的數(shù)值求解器來加速采樣過程,這使得它們可以直接應(yīng)用于任何預(yù)訓(xùn)練的擴(kuò)散模型。

二、研究人員發(fā)現(xiàn)了什么問題?

想象你正在使用導(dǎo)航軟件。傳統(tǒng)導(dǎo)航可能會(huì)嚴(yán)格按照固定路線指引你,但這條路線未必是最適合當(dāng)前交通狀況的。同樣,現(xiàn)有的擴(kuò)散模型求解器(如DPM-Solver++、UniPC等)主要基于Adams多步法,它們使用拉格朗日插值函數(shù)來估計(jì)中間狀態(tài),但這種方法可能并不是擴(kuò)散模型的最佳選擇。

研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前最先進(jìn)的擴(kuò)散求解器(如DPM-Solver++、UniPC)主要受到Adams多步法的啟發(fā),嚴(yán)重依賴于基于t(時(shí)間)的拉格朗日插值。然而,研究人員指出,這種插值方法對(duì)擴(kuò)散模型來說并不是最優(yōu)的。具體來說,這些求解器沒有考慮到擴(kuò)散模型的特殊性質(zhì),也沒有充分利用數(shù)據(jù)驅(qū)動(dòng)的方法來優(yōu)化求解過程。

研究人員還發(fā)現(xiàn),對(duì)于給定的預(yù)訓(xùn)練去噪函數(shù)及其對(duì)應(yīng)的噪聲調(diào)度器,最優(yōu)的求解器應(yīng)該是量身定制的,而不是采用通用的數(shù)值方法。這就像為特定道路狀況定制的導(dǎo)航路線會(huì)比通用路線更高效。

三、研究團(tuán)隊(duì)提出了什么創(chuàng)新方法?

研究團(tuán)隊(duì)提出了一種名為"可微分求解器搜索"的方法,就像是為擴(kuò)散模型定制了一個(gè)智能導(dǎo)航系統(tǒng),能夠找到最短、最高效的路徑。

首先,研究人員分析了擴(kuò)散ODE(常微分方程)采樣過程中的誤差來源。他們指出,插值函數(shù)的具體形式并不重要,關(guān)鍵在于將其簡(jiǎn)化為一組系數(shù)。這就像發(fā)現(xiàn)導(dǎo)航中真正重要的不是具體的轉(zhuǎn)彎指令,而是整體的路線規(guī)劃策略。

接著,他們定義了一個(gè)緊湊的搜索空間,主要包括兩類參數(shù): 1. 時(shí)間步長(zhǎng)(timesteps):決定在擴(kuò)散過程中何時(shí)進(jìn)行采樣 2. 求解器系數(shù)(solver coefficients):決定如何結(jié)合先前采樣點(diǎn)的信息

基于這一分析,研究團(tuán)隊(duì)提出了一種新穎的可微分求解器搜索算法。這個(gè)算法能夠在定義的搜索空間中找到最優(yōu)的求解器參數(shù),類似于自動(dòng)駕駛系統(tǒng)能根據(jù)實(shí)時(shí)交通狀況找到最佳路線。

具體來說,他們的算法包括以下幾個(gè)關(guān)鍵部分:

首先是參數(shù)化處理。研究人員使用無界參數(shù)作為優(yōu)化對(duì)象,通過softmax歸一化將其轉(zhuǎn)換為時(shí)間步長(zhǎng)。對(duì)于求解器系數(shù),他們巧妙地重新參數(shù)化對(duì)角線值,以滿足隱含的約束條件。

其次是單調(diào)對(duì)齊監(jiān)督。他們使用L步歐拉求解器的ODE軌跡作為參考,通過最小化目標(biāo)軌跡與源軌跡之間的差距來訓(xùn)練參數(shù),同時(shí)采用Huber損失作為輔助監(jiān)督。

最后,他們還將方法擴(kuò)展到DDPM/VP框架。由于DDPM是離散的,直接應(yīng)用可微分求解器搜索是不可行的。但研究人員發(fā)現(xiàn),每個(gè)DDPM都有對(duì)應(yīng)的連續(xù)VP調(diào)度器,因此可以將搜索空間從不可行的離散空間轉(zhuǎn)換為連續(xù)的SDE對(duì)應(yīng)物,從而應(yīng)用他們的方法。

四、實(shí)驗(yàn)結(jié)果展示了什么?

研究團(tuán)隊(duì)在多種擴(kuò)散模型上進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果令人印象深刻,就像一輛經(jīng)過優(yōu)化的汽車在相同的油量下能跑更遠(yuǎn)的距離。

在ImageNet 256×256數(shù)據(jù)集上,使用研究人員搜索的求解器: - 修正流模型SiT-XL/2在僅使用10步采樣的情況下,F(xiàn)ID分?jǐn)?shù)達(dá)到了2.40 - FlowDCN-XL/2在相同步數(shù)下,F(xiàn)ID分?jǐn)?shù)達(dá)到了2.35 - DDPM模型DiT-XL/2在10步采樣下,F(xiàn)ID分?jǐn)?shù)達(dá)到了2.33

這些成績(jī)大幅超越了傳統(tǒng)求解器(如DPM-Solver++和UniPC),甚至勝過了一些基于蒸餾的方法。特別值得注意的是,在配備優(yōu)化的高階求解器后,DDPM模型的性能能夠與修正流模型相媲美甚至超越,這打破了人們認(rèn)為修正流模型在有限步驟采樣下更強(qiáng)的常規(guī)認(rèn)知。

研究團(tuán)隊(duì)還將他們的方法應(yīng)用于文本到圖像的擴(kuò)散模型,如FLUX、SD3和PixArt-Σ。即使是在搜索于ImageNet-256×256上的求解器,在應(yīng)用于這些文本到圖像模型時(shí),也始終產(chǎn)生比傳統(tǒng)求解器更好的圖像。

此外,他們還分析了搜索得到的求解器參數(shù)。他們發(fā)現(xiàn)DDPM/VP和修正流模型的系數(shù)模式有所不同——DDPM/VP的系數(shù)更集中在對(duì)角線上,表明其采樣路徑更為曲折;而修正流模型則展現(xiàn)出更平坦的分布。時(shí)間步長(zhǎng)方面,與DDPM/VP相比,修正流模型更關(guān)注噪聲較大的區(qū)域,在開始階段展現(xiàn)出較小的時(shí)間間隔。

五、這項(xiàng)研究的意義與局限性

這項(xiàng)研究的意義在于,它提供了一種方法,可以大大加速擴(kuò)散模型的采樣過程,而不需要重新訓(xùn)練模型。這就像是找到了一條捷徑,讓我們能夠更快速地獲得高質(zhì)量的生成圖像,從而降低了使用擴(kuò)散模型的門檻。

研究的一個(gè)重要發(fā)現(xiàn)是,不同的擴(kuò)散模型可能需要不同的求解器策略。這打破了"一刀切"的思維方式,提示我們應(yīng)該為不同的模型量身定制求解方法。

當(dāng)然,這項(xiàng)研究也存在一些局限性。研究人員在論文中指出,他們提出的方法在使用較大的CFG(條件引導(dǎo)尺度)值時(shí)表現(xiàn)不佳。這可能是由于當(dāng)前樸素的求解器結(jié)構(gòu)和搜索技術(shù)的限制。他們猜測(cè),結(jié)合預(yù)測(cè)器-校正器求解器結(jié)構(gòu)可能會(huì)增強(qiáng)數(shù)值穩(wěn)定性,產(chǎn)生更好的圖像。此外,在訓(xùn)練過程中加入CFG可能也會(huì)有所幫助。

六、未來的研究方向

雖然該研究團(tuán)隊(duì)已經(jīng)取得了顯著的進(jìn)展,但仍有許多值得探索的方向。

首先,他們可以探索更復(fù)雜的求解器結(jié)構(gòu),如預(yù)測(cè)器-校正器框架,以提高大CFG值下的性能。這就像是在現(xiàn)有的導(dǎo)航系統(tǒng)基礎(chǔ)上增加實(shí)時(shí)交通預(yù)測(cè)功能。

其次,他們可以嘗試結(jié)合基于訓(xùn)練的方法和基于求解器的方法,創(chuàng)建混合加速系統(tǒng)。這就像是結(jié)合了衛(wèi)星導(dǎo)航和本地知識(shí)的導(dǎo)航系統(tǒng),能夠更智能地規(guī)劃路線。

最后,他們可以將研究擴(kuò)展到更多類型的生成模型,如文本生成、音頻生成等,探索可微分求解器搜索在更廣泛領(lǐng)域的應(yīng)用。

總的來說,這項(xiàng)研究為擴(kuò)散模型的高效采樣開辟了新的道路。隨著計(jì)算資源的不斷增長(zhǎng)和擴(kuò)散模型的廣泛應(yīng)用,這種加速技術(shù)將變得越來越重要,使生成AI更加貼近日常應(yīng)用場(chǎng)景。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-