av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<wbr id="t1agx"><var id="t1agx"></var></wbr>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

降低復(fù)雜度，加速生成：對(duì)擴(kuò)散模型采樣的可微分求解器搜索方法

擴(kuò)散模型數(shù)值求解器圖像生成

降低復(fù)雜度，加速生成：對(duì)擴(kuò)散模型采樣的可微分求解器搜索方法

作者：科技行者

2025-06-04 09:15

分享至：

這項(xiàng)研究提出了一種可微分求解器搜索方法，通過優(yōu)化時(shí)間步長(zhǎng)和求解器系數(shù)，顯著加速擴(kuò)散模型的采樣過程。在僅使用10步采樣的情況下，該方法使修正流模型和DDPM模型在ImageNet數(shù)據(jù)集上的FID得分分別達(dá)到2.40和2.33，大幅超越傳統(tǒng)求解器。研究發(fā)現(xiàn)在配備優(yōu)化求解器后，DDPM模型性能可與修正流模型相媲美，打破了以往認(rèn)知。該方法無需重新訓(xùn)練模型，可廣泛應(yīng)用于各種預(yù)訓(xùn)練擴(kuò)散模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-04 09:15 ? 科技行者

在2025年第42屆國(guó)際機(jī)器學(xué)習(xí)會(huì)議(ICML 2025)上，來自南京大學(xué)的王帥、宋天輝、王立民，以及阿里巴巴淘寶天貓集團(tuán)的李澤賢、張啟鵬、李旭彬、葛鐵政、鄭博等研究人員發(fā)表了一篇題為《Differentiable Solver Search for Fast Diffusion Sampling》(擴(kuò)散采樣的可微分求解器搜索)的研究論文。這項(xiàng)研究旨在解決擴(kuò)散模型采樣過程中計(jì)算成本高的問題，幫助我們以更少的計(jì)算步驟獲得高質(zhì)量的生成圖像。

一、研究背景：為什么擴(kuò)散模型需要加速？

想象一下你在使用一臺(tái)老式照片沖洗機(jī)。傳統(tǒng)方式需要經(jīng)過顯影、定影、水洗等十幾個(gè)步驟，耗時(shí)一小時(shí)才能得到一張照片。擴(kuò)散模型就像這樣的沖洗過程——雖然最終能得到精美的照片（即高質(zhì)量生成圖像），但過程繁瑣且耗時(shí)。

擴(kuò)散模型已經(jīng)成為圖像生成領(lǐng)域的佼佼者，它能產(chǎn)生比GAN模型和自回歸模型更高質(zhì)量的圖像。然而，擴(kuò)散模型有一個(gè)明顯的缺點(diǎn)：它們?cè)谕评恚ㄉ蓤D像）階段需要進(jìn)行大量的去噪步驟，這意味著需要反復(fù)運(yùn)行神經(jīng)網(wǎng)絡(luò)，導(dǎo)致計(jì)算成本高昂，生成一張圖像可能需要幾分鐘甚至更長(zhǎng)時(shí)間。這嚴(yán)重限制了預(yù)訓(xùn)練擴(kuò)散模型的廣泛應(yīng)用。

為了加速擴(kuò)散模型的采樣過程，研究人員主要探索了兩種方法：基于訓(xùn)練的方法和基于求解器的方法?；谟?xùn)練的方法（如LCM、ConsistencyModels等）通過重新訓(xùn)練模型來減少所需的采樣步驟，但這會(huì)改變模型參數(shù)，可能無法充分發(fā)揮預(yù)訓(xùn)練模型的性能。而基于求解器的方法不需要改變模型參數(shù)，它們通過設(shè)計(jì)高效的數(shù)值求解器來加速采樣過程，這使得它們可以直接應(yīng)用于任何預(yù)訓(xùn)練的擴(kuò)散模型。

二、研究人員發(fā)現(xiàn)了什么問題？

想象你正在使用導(dǎo)航軟件。傳統(tǒng)導(dǎo)航可能會(huì)嚴(yán)格按照固定路線指引你，但這條路線未必是最適合當(dāng)前交通狀況的。同樣，現(xiàn)有的擴(kuò)散模型求解器（如DPM-Solver++、UniPC等）主要基于Adams多步法，它們使用拉格朗日插值函數(shù)來估計(jì)中間狀態(tài)，但這種方法可能并不是擴(kuò)散模型的最佳選擇。

研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)前最先進(jìn)的擴(kuò)散求解器（如DPM-Solver++、UniPC）主要受到Adams多步法的啟發(fā)，嚴(yán)重依賴于基于t（時(shí)間）的拉格朗日插值。然而，研究人員指出，這種插值方法對(duì)擴(kuò)散模型來說并不是最優(yōu)的。具體來說，這些求解器沒有考慮到擴(kuò)散模型的特殊性質(zhì)，也沒有充分利用數(shù)據(jù)驅(qū)動(dòng)的方法來優(yōu)化求解過程。

研究人員還發(fā)現(xiàn)，對(duì)于給定的預(yù)訓(xùn)練去噪函數(shù)及其對(duì)應(yīng)的噪聲調(diào)度器，最優(yōu)的求解器應(yīng)該是量身定制的，而不是采用通用的數(shù)值方法。這就像為特定道路狀況定制的導(dǎo)航路線會(huì)比通用路線更高效。

三、研究團(tuán)隊(duì)提出了什么創(chuàng)新方法？

研究團(tuán)隊(duì)提出了一種名為"可微分求解器搜索"的方法，就像是為擴(kuò)散模型定制了一個(gè)智能導(dǎo)航系統(tǒng)，能夠找到最短、最高效的路徑。

首先，研究人員分析了擴(kuò)散ODE（常微分方程）采樣過程中的誤差來源。他們指出，插值函數(shù)的具體形式并不重要，關(guān)鍵在于將其簡(jiǎn)化為一組系數(shù)。這就像發(fā)現(xiàn)導(dǎo)航中真正重要的不是具體的轉(zhuǎn)彎指令，而是整體的路線規(guī)劃策略。

接著，他們定義了一個(gè)緊湊的搜索空間，主要包括兩類參數(shù)： 1. 時(shí)間步長(zhǎng)（timesteps）：決定在擴(kuò)散過程中何時(shí)進(jìn)行采樣 2. 求解器系數(shù)（solver coefficients）：決定如何結(jié)合先前采樣點(diǎn)的信息

基于這一分析，研究團(tuán)隊(duì)提出了一種新穎的可微分求解器搜索算法。這個(gè)算法能夠在定義的搜索空間中找到最優(yōu)的求解器參數(shù)，類似于自動(dòng)駕駛系統(tǒng)能根據(jù)實(shí)時(shí)交通狀況找到最佳路線。

具體來說，他們的算法包括以下幾個(gè)關(guān)鍵部分：

首先是參數(shù)化處理。研究人員使用無界參數(shù)作為優(yōu)化對(duì)象，通過softmax歸一化將其轉(zhuǎn)換為時(shí)間步長(zhǎng)。對(duì)于求解器系數(shù)，他們巧妙地重新參數(shù)化對(duì)角線值，以滿足隱含的約束條件。

其次是單調(diào)對(duì)齊監(jiān)督。他們使用L步歐拉求解器的ODE軌跡作為參考，通過最小化目標(biāo)軌跡與源軌跡之間的差距來訓(xùn)練參數(shù)，同時(shí)采用Huber損失作為輔助監(jiān)督。

最后，他們還將方法擴(kuò)展到DDPM/VP框架。由于DDPM是離散的，直接應(yīng)用可微分求解器搜索是不可行的。但研究人員發(fā)現(xiàn)，每個(gè)DDPM都有對(duì)應(yīng)的連續(xù)VP調(diào)度器，因此可以將搜索空間從不可行的離散空間轉(zhuǎn)換為連續(xù)的SDE對(duì)應(yīng)物，從而應(yīng)用他們的方法。

四、實(shí)驗(yàn)結(jié)果展示了什么？

研究團(tuán)隊(duì)在多種擴(kuò)散模型上進(jìn)行了廣泛的實(shí)驗(yàn)，結(jié)果令人印象深刻，就像一輛經(jīng)過優(yōu)化的汽車在相同的油量下能跑更遠(yuǎn)的距離。

在ImageNet 256×256數(shù)據(jù)集上，使用研究人員搜索的求解器： - 修正流模型SiT-XL/2在僅使用10步采樣的情況下，F(xiàn)ID分?jǐn)?shù)達(dá)到了2.40 - FlowDCN-XL/2在相同步數(shù)下，F(xiàn)ID分?jǐn)?shù)達(dá)到了2.35 - DDPM模型DiT-XL/2在10步采樣下，F(xiàn)ID分?jǐn)?shù)達(dá)到了2.33

這些成績(jī)大幅超越了傳統(tǒng)求解器（如DPM-Solver++和UniPC），甚至勝過了一些基于蒸餾的方法。特別值得注意的是，在配備優(yōu)化的高階求解器后，DDPM模型的性能能夠與修正流模型相媲美甚至超越，這打破了人們認(rèn)為修正流模型在有限步驟采樣下更強(qiáng)的常規(guī)認(rèn)知。

研究團(tuán)隊(duì)還將他們的方法應(yīng)用于文本到圖像的擴(kuò)散模型，如FLUX、SD3和PixArt-Σ。即使是在搜索于ImageNet-256×256上的求解器，在應(yīng)用于這些文本到圖像模型時(shí)，也始終產(chǎn)生比傳統(tǒng)求解器更好的圖像。

此外，他們還分析了搜索得到的求解器參數(shù)。他們發(fā)現(xiàn)DDPM/VP和修正流模型的系數(shù)模式有所不同——DDPM/VP的系數(shù)更集中在對(duì)角線上，表明其采樣路徑更為曲折；而修正流模型則展現(xiàn)出更平坦的分布。時(shí)間步長(zhǎng)方面，與DDPM/VP相比，修正流模型更關(guān)注噪聲較大的區(qū)域，在開始階段展現(xiàn)出較小的時(shí)間間隔。

五、這項(xiàng)研究的意義與局限性

這項(xiàng)研究的意義在于，它提供了一種方法，可以大大加速擴(kuò)散模型的采樣過程，而不需要重新訓(xùn)練模型。這就像是找到了一條捷徑，讓我們能夠更快速地獲得高質(zhì)量的生成圖像，從而降低了使用擴(kuò)散模型的門檻。

研究的一個(gè)重要發(fā)現(xiàn)是，不同的擴(kuò)散模型可能需要不同的求解器策略。這打破了"一刀切"的思維方式，提示我們應(yīng)該為不同的模型量身定制求解方法。

當(dāng)然，這項(xiàng)研究也存在一些局限性。研究人員在論文中指出，他們提出的方法在使用較大的CFG（條件引導(dǎo)尺度）值時(shí)表現(xiàn)不佳。這可能是由于當(dāng)前樸素的求解器結(jié)構(gòu)和搜索技術(shù)的限制。他們猜測(cè)，結(jié)合預(yù)測(cè)器-校正器求解器結(jié)構(gòu)可能會(huì)增強(qiáng)數(shù)值穩(wěn)定性，產(chǎn)生更好的圖像。此外，在訓(xùn)練過程中加入CFG可能也會(huì)有所幫助。

六、未來的研究方向

雖然該研究團(tuán)隊(duì)已經(jīng)取得了顯著的進(jìn)展，但仍有許多值得探索的方向。

首先，他們可以探索更復(fù)雜的求解器結(jié)構(gòu)，如預(yù)測(cè)器-校正器框架，以提高大CFG值下的性能。這就像是在現(xiàn)有的導(dǎo)航系統(tǒng)基礎(chǔ)上增加實(shí)時(shí)交通預(yù)測(cè)功能。

其次，他們可以嘗試結(jié)合基于訓(xùn)練的方法和基于求解器的方法，創(chuàng)建混合加速系統(tǒng)。這就像是結(jié)合了衛(wèi)星導(dǎo)航和本地知識(shí)的導(dǎo)航系統(tǒng)，能夠更智能地規(guī)劃路線。

最后，他們可以將研究擴(kuò)展到更多類型的生成模型，如文本生成、音頻生成等，探索可微分求解器搜索在更廣泛領(lǐng)域的應(yīng)用。

總的來說，這項(xiàng)研究為擴(kuò)散模型的高效采樣開辟了新的道路。隨著計(jì)算資源的不斷增長(zhǎng)和擴(kuò)散模型的廣泛應(yīng)用，這種加速技術(shù)將變得越來越重要，使生成AI更加貼近日常應(yīng)用場(chǎng)景。

擴(kuò)散模型數(shù)值求解器圖像生成

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

計(jì)算機(jī)視覺
注意力機(jī)制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會(huì)聰明地觀察世界

這項(xiàng)研究提出了"高效探測(cè)"方法，解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制，該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升，在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼，推動(dòng)技術(shù)普及應(yīng)用。
檢索增強(qiáng)生成
層次化分析
爭(zhēng)議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭(zhēng)議，不再簡(jiǎn)單判"真假"

伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng)，通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架，識(shí)別不同觀點(diǎn)及其支撐證據(jù)，為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
人工智能
情感認(rèn)知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu)，在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
人工智能
多智能體強(qiáng)化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會(huì)復(fù)雜推理

哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力，在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會(huì)聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會(huì)聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭(zhēng)議，不再簡(jiǎn)單判"真假"

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭(zhēng)議，不再簡(jiǎn)單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會(huì)復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會(huì)復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<center id="mqrwd"><tbody id="mqrwd"></tbody></center>