在2025年第42屆國(guó)際機(jī)器學(xué)習(xí)會(huì)議(ICML 2025)上,來自南京大學(xué)的王帥、宋天輝、王立民,以及阿里巴巴淘寶天貓集團(tuán)的李澤賢、張啟鵬、李旭彬、葛鐵政、鄭博等研究人員發(fā)表了一篇題為《Differentiable Solver Search for Fast Diffusion Sampling》(擴(kuò)散采樣的可微分求解器搜索)的研究論文。這項(xiàng)研究旨在解決擴(kuò)散模型采樣過程中計(jì)算成本高的問題,幫助我們以更少的計(jì)算步驟獲得高質(zhì)量的生成圖像。
一、研究背景:為什么擴(kuò)散模型需要加速?
想象一下你在使用一臺(tái)老式照片沖洗機(jī)。傳統(tǒng)方式需要經(jīng)過顯影、定影、水洗等十幾個(gè)步驟,耗時(shí)一小時(shí)才能得到一張照片。擴(kuò)散模型就像這樣的沖洗過程——雖然最終能得到精美的照片(即高質(zhì)量生成圖像),但過程繁瑣且耗時(shí)。
擴(kuò)散模型已經(jīng)成為圖像生成領(lǐng)域的佼佼者,它能產(chǎn)生比GAN模型和自回歸模型更高質(zhì)量的圖像。然而,擴(kuò)散模型有一個(gè)明顯的缺點(diǎn):它們?cè)谕评恚ㄉ蓤D像)階段需要進(jìn)行大量的去噪步驟,這意味著需要反復(fù)運(yùn)行神經(jīng)網(wǎng)絡(luò),導(dǎo)致計(jì)算成本高昂,生成一張圖像可能需要幾分鐘甚至更長(zhǎng)時(shí)間。這嚴(yán)重限制了預(yù)訓(xùn)練擴(kuò)散模型的廣泛應(yīng)用。
為了加速擴(kuò)散模型的采樣過程,研究人員主要探索了兩種方法:基于訓(xùn)練的方法和基于求解器的方法?;谟?xùn)練的方法(如LCM、ConsistencyModels等)通過重新訓(xùn)練模型來減少所需的采樣步驟,但這會(huì)改變模型參數(shù),可能無法充分發(fā)揮預(yù)訓(xùn)練模型的性能。而基于求解器的方法不需要改變模型參數(shù),它們通過設(shè)計(jì)高效的數(shù)值求解器來加速采樣過程,這使得它們可以直接應(yīng)用于任何預(yù)訓(xùn)練的擴(kuò)散模型。
二、研究人員發(fā)現(xiàn)了什么問題?
想象你正在使用導(dǎo)航軟件。傳統(tǒng)導(dǎo)航可能會(huì)嚴(yán)格按照固定路線指引你,但這條路線未必是最適合當(dāng)前交通狀況的。同樣,現(xiàn)有的擴(kuò)散模型求解器(如DPM-Solver++、UniPC等)主要基于Adams多步法,它們使用拉格朗日插值函數(shù)來估計(jì)中間狀態(tài),但這種方法可能并不是擴(kuò)散模型的最佳選擇。
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前最先進(jìn)的擴(kuò)散求解器(如DPM-Solver++、UniPC)主要受到Adams多步法的啟發(fā),嚴(yán)重依賴于基于t(時(shí)間)的拉格朗日插值。然而,研究人員指出,這種插值方法對(duì)擴(kuò)散模型來說并不是最優(yōu)的。具體來說,這些求解器沒有考慮到擴(kuò)散模型的特殊性質(zhì),也沒有充分利用數(shù)據(jù)驅(qū)動(dòng)的方法來優(yōu)化求解過程。
研究人員還發(fā)現(xiàn),對(duì)于給定的預(yù)訓(xùn)練去噪函數(shù)及其對(duì)應(yīng)的噪聲調(diào)度器,最優(yōu)的求解器應(yīng)該是量身定制的,而不是采用通用的數(shù)值方法。這就像為特定道路狀況定制的導(dǎo)航路線會(huì)比通用路線更高效。
三、研究團(tuán)隊(duì)提出了什么創(chuàng)新方法?
研究團(tuán)隊(duì)提出了一種名為"可微分求解器搜索"的方法,就像是為擴(kuò)散模型定制了一個(gè)智能導(dǎo)航系統(tǒng),能夠找到最短、最高效的路徑。
首先,研究人員分析了擴(kuò)散ODE(常微分方程)采樣過程中的誤差來源。他們指出,插值函數(shù)的具體形式并不重要,關(guān)鍵在于將其簡(jiǎn)化為一組系數(shù)。這就像發(fā)現(xiàn)導(dǎo)航中真正重要的不是具體的轉(zhuǎn)彎指令,而是整體的路線規(guī)劃策略。
接著,他們定義了一個(gè)緊湊的搜索空間,主要包括兩類參數(shù): 1. 時(shí)間步長(zhǎng)(timesteps):決定在擴(kuò)散過程中何時(shí)進(jìn)行采樣 2. 求解器系數(shù)(solver coefficients):決定如何結(jié)合先前采樣點(diǎn)的信息
基于這一分析,研究團(tuán)隊(duì)提出了一種新穎的可微分求解器搜索算法。這個(gè)算法能夠在定義的搜索空間中找到最優(yōu)的求解器參數(shù),類似于自動(dòng)駕駛系統(tǒng)能根據(jù)實(shí)時(shí)交通狀況找到最佳路線。
具體來說,他們的算法包括以下幾個(gè)關(guān)鍵部分:
首先是參數(shù)化處理。研究人員使用無界參數(shù)作為優(yōu)化對(duì)象,通過softmax歸一化將其轉(zhuǎn)換為時(shí)間步長(zhǎng)。對(duì)于求解器系數(shù),他們巧妙地重新參數(shù)化對(duì)角線值,以滿足隱含的約束條件。
其次是單調(diào)對(duì)齊監(jiān)督。他們使用L步歐拉求解器的ODE軌跡作為參考,通過最小化目標(biāo)軌跡與源軌跡之間的差距來訓(xùn)練參數(shù),同時(shí)采用Huber損失作為輔助監(jiān)督。
最后,他們還將方法擴(kuò)展到DDPM/VP框架。由于DDPM是離散的,直接應(yīng)用可微分求解器搜索是不可行的。但研究人員發(fā)現(xiàn),每個(gè)DDPM都有對(duì)應(yīng)的連續(xù)VP調(diào)度器,因此可以將搜索空間從不可行的離散空間轉(zhuǎn)換為連續(xù)的SDE對(duì)應(yīng)物,從而應(yīng)用他們的方法。
四、實(shí)驗(yàn)結(jié)果展示了什么?
研究團(tuán)隊(duì)在多種擴(kuò)散模型上進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果令人印象深刻,就像一輛經(jīng)過優(yōu)化的汽車在相同的油量下能跑更遠(yuǎn)的距離。
在ImageNet 256×256數(shù)據(jù)集上,使用研究人員搜索的求解器: - 修正流模型SiT-XL/2在僅使用10步采樣的情況下,F(xiàn)ID分?jǐn)?shù)達(dá)到了2.40 - FlowDCN-XL/2在相同步數(shù)下,F(xiàn)ID分?jǐn)?shù)達(dá)到了2.35 - DDPM模型DiT-XL/2在10步采樣下,F(xiàn)ID分?jǐn)?shù)達(dá)到了2.33
這些成績(jī)大幅超越了傳統(tǒng)求解器(如DPM-Solver++和UniPC),甚至勝過了一些基于蒸餾的方法。特別值得注意的是,在配備優(yōu)化的高階求解器后,DDPM模型的性能能夠與修正流模型相媲美甚至超越,這打破了人們認(rèn)為修正流模型在有限步驟采樣下更強(qiáng)的常規(guī)認(rèn)知。
研究團(tuán)隊(duì)還將他們的方法應(yīng)用于文本到圖像的擴(kuò)散模型,如FLUX、SD3和PixArt-Σ。即使是在搜索于ImageNet-256×256上的求解器,在應(yīng)用于這些文本到圖像模型時(shí),也始終產(chǎn)生比傳統(tǒng)求解器更好的圖像。
此外,他們還分析了搜索得到的求解器參數(shù)。他們發(fā)現(xiàn)DDPM/VP和修正流模型的系數(shù)模式有所不同——DDPM/VP的系數(shù)更集中在對(duì)角線上,表明其采樣路徑更為曲折;而修正流模型則展現(xiàn)出更平坦的分布。時(shí)間步長(zhǎng)方面,與DDPM/VP相比,修正流模型更關(guān)注噪聲較大的區(qū)域,在開始階段展現(xiàn)出較小的時(shí)間間隔。
五、這項(xiàng)研究的意義與局限性
這項(xiàng)研究的意義在于,它提供了一種方法,可以大大加速擴(kuò)散模型的采樣過程,而不需要重新訓(xùn)練模型。這就像是找到了一條捷徑,讓我們能夠更快速地獲得高質(zhì)量的生成圖像,從而降低了使用擴(kuò)散模型的門檻。
研究的一個(gè)重要發(fā)現(xiàn)是,不同的擴(kuò)散模型可能需要不同的求解器策略。這打破了"一刀切"的思維方式,提示我們應(yīng)該為不同的模型量身定制求解方法。
當(dāng)然,這項(xiàng)研究也存在一些局限性。研究人員在論文中指出,他們提出的方法在使用較大的CFG(條件引導(dǎo)尺度)值時(shí)表現(xiàn)不佳。這可能是由于當(dāng)前樸素的求解器結(jié)構(gòu)和搜索技術(shù)的限制。他們猜測(cè),結(jié)合預(yù)測(cè)器-校正器求解器結(jié)構(gòu)可能會(huì)增強(qiáng)數(shù)值穩(wěn)定性,產(chǎn)生更好的圖像。此外,在訓(xùn)練過程中加入CFG可能也會(huì)有所幫助。
六、未來的研究方向
雖然該研究團(tuán)隊(duì)已經(jīng)取得了顯著的進(jìn)展,但仍有許多值得探索的方向。
首先,他們可以探索更復(fù)雜的求解器結(jié)構(gòu),如預(yù)測(cè)器-校正器框架,以提高大CFG值下的性能。這就像是在現(xiàn)有的導(dǎo)航系統(tǒng)基礎(chǔ)上增加實(shí)時(shí)交通預(yù)測(cè)功能。
其次,他們可以嘗試結(jié)合基于訓(xùn)練的方法和基于求解器的方法,創(chuàng)建混合加速系統(tǒng)。這就像是結(jié)合了衛(wèi)星導(dǎo)航和本地知識(shí)的導(dǎo)航系統(tǒng),能夠更智能地規(guī)劃路線。
最后,他們可以將研究擴(kuò)展到更多類型的生成模型,如文本生成、音頻生成等,探索可微分求解器搜索在更廣泛領(lǐng)域的應(yīng)用。
總的來說,這項(xiàng)研究為擴(kuò)散模型的高效采樣開辟了新的道路。隨著計(jì)算資源的不斷增長(zhǎng)和擴(kuò)散模型的廣泛應(yīng)用,這種加速技術(shù)將變得越來越重要,使生成AI更加貼近日常應(yīng)用場(chǎng)景。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。