這項由俄羅斯Yandex研究院的Nikita Starodubcev、Denis Kuznedelev、Artem Babenko和Dmitry Baranchuk團隊完成的研究發(fā)表于2025年3月,有興趣深入了解的讀者可以通過arXiv:2503.16397訪問完整論文。
當你用AI生成一張精美圖片時,是否曾經(jīng)為漫長的等待時間而煩惱?一張高質(zhì)量的1024×1024圖片,傳統(tǒng)AI可能需要幾十秒甚至更長時間才能完成。就像用傳統(tǒng)膠片相機拍照,你需要耐心等待每一個步驟的完成。但是,如果告訴你有一種方法能讓這個過程快上10倍,同時保持幾乎相同的圖片質(zhì)量,你會不會覺得不可思議?
Yandex研究院的科學家們就做到了這一點。他們開發(fā)出一種叫做SWD(Scale-wise Distillation,分辨率階梯蒸餾)的新技術(shù),徹底改變了AI繪畫的工作方式。這就像是給AI畫家發(fā)明了一種全新的作畫方法——不再從一開始就在巨大的畫布上細致入微地描繪每個像素,而是先在小紙片上勾勒出大致輪廓,然后逐步在更大的畫布上添加細節(jié)。
這個發(fā)現(xiàn)的靈感來源于一個有趣的觀察。當你在霧蒙蒙的早晨看遠山時,你首先看到的是山的大致輪廓,而不是山上的每一棵樹。同樣,當AI在生成圖片的早期階段時,圖像中充滿了"噪聲"(可以想象成霧氣),這時候處理高頻細節(jié)(比如樹葉的紋理)其實是沒有意義的,因為這些細節(jié)會被噪聲掩蓋。
研究團隊通過對現(xiàn)有AI繪畫模型的深入分析發(fā)現(xiàn),傳統(tǒng)的擴散模型在整個生成過程中都使用相同的高分辨率,這就像是一個畫家從頭到尾都在用最細的畫筆在巨大畫布上工作,即使在只需要勾勒大致形狀的階段也是如此。這種做法不僅浪費計算資源,還會拖慢整個過程。
一、從光譜分析中發(fā)現(xiàn)的秘密
研究人員首先做了一件非常聰明的事情——他們分析了AI繪畫過程中圖像的"頻譜特性"。這聽起來很復(fù)雜,但其實可以用音樂來類比。就像一首樂曲包含低音(基礎(chǔ)旋律)和高音(裝飾音符)一樣,圖像也包含低頻信息(大致形狀和顏色分布)和高頻信息(細節(jié)紋理和邊緣)。
他們發(fā)現(xiàn)了一個關(guān)鍵現(xiàn)象:在AI繪畫的早期階段,當圖像中還有很多"噪聲"時,高頻信息實際上被這些噪聲完全掩蓋了。這就好比在嘈雜的音樂會現(xiàn)場,你根本聽不清樂器的細微顫音,只能聽到主要的旋律線條。既然如此,為什么還要在這個階段費力處理這些聽不見的細節(jié)呢?
通過對兩個主流AI繪畫模型SDXL和SD3.5的詳細分析,研究團隊繪制出了不同生成階段的頻譜分布圖。結(jié)果令人震驚:在高噪聲階段,圖像可以安全地降采樣到32×32或甚至16×16的分辨率,而不會丟失任何有用信息。這個發(fā)現(xiàn)為他們的新方法奠定了堅實的理論基礎(chǔ)。
這個發(fā)現(xiàn)的意義就像是發(fā)現(xiàn)了一個隱藏的捷徑。以前人們以為必須從頭到尾都走寬闊但擁擠的大路,現(xiàn)在發(fā)現(xiàn)在旅程的前半段,其實有一條更快的小徑可以走,而且最終能到達同樣的目的地。
二、革命性的"階梯式"生成方法
基于這個發(fā)現(xiàn),研究團隊設(shè)計出了SWD方法。這種方法的核心思想非常直觀:讓AI在生成圖像時采用"階梯式"的分辨率策略,從小尺寸開始,逐步增加到目標分辨率。
具體來說,他們設(shè)計了一個精巧的時間表和分辨率表。比如,一個6步生成過程可能這樣安排:第一步在256×256分辨率下工作,第二步升級到384×384,第三步到512×512,依此類推,直到最后一步達到完整的1024×1024分辨率。這就像是一個畫家先用粗筆在小畫布上畫出基本構(gòu)圖,然后換到稍大的畫布上添加更多細節(jié),最后在完整尺寸的畫布上完成所有精細工作。
但是,這個看似簡單的想法在實際實現(xiàn)時遇到了不少技術(shù)挑戰(zhàn)。最大的問題是如何在不同分辨率之間進行平滑過渡。研究團隊發(fā)現(xiàn),關(guān)鍵在于正確處理"噪聲注入"的時機。
他們通過實驗發(fā)現(xiàn),最佳策略是先對低分辨率的"干凈"圖像進行放大,然后再添加適當?shù)脑肼?,而不是先添加噪聲再放大。這個細節(jié)看似微不足道,實際上對最終效果有著巨大影響。通過對比實驗,他們證明了這種方法能夠顯著減少放大過程中產(chǎn)生的偽影和失真。
為了讓這種新方法發(fā)揮最佳效果,研究團隊還對時間調(diào)度進行了特殊優(yōu)化。他們將整個生成過程的時間步驟向更高噪聲水平偏移,進一步增強了噪聲在掩蓋高頻細節(jié)方面的作用。這樣做的結(jié)果是讓低分辨率階段能夠更長時間地專注于建立圖像的基本結(jié)構(gòu),而不被不必要的細節(jié)分散注意力。
三、創(chuàng)新的訓(xùn)練策略
要讓AI學會這種新的繪畫方式,研究團隊設(shè)計了一套創(chuàng)新的訓(xùn)練方法。傳統(tǒng)的AI繪畫模型通常只學習在固定分辨率下工作,就像是只會用一種尺寸畫筆的畫家。而SWD需要訓(xùn)練一個"多才多藝"的模型,它既要是一個優(yōu)秀的低分辨率生成器,也要是一個出色的圖像放大器。
訓(xùn)練過程采用了一種巧妙的策略。在每個訓(xùn)練步驟中,系統(tǒng)會隨機選擇一對相鄰的分辨率級別,比如從256×256到512×512。然后,它會拿一張高質(zhì)量的訓(xùn)練圖片,將其分別縮放到這兩個分辨率,接著對較小的版本進行放大和加噪處理,最后訓(xùn)練模型從這個噪聲版本生成清晰的高分辨率目標圖像。
這種訓(xùn)練方式的精妙之處在于,它讓模型學會了一種雙重技能:既能理解圖像在不同分辨率下的表現(xiàn)特征,又能掌握從低分辨率到高分辨率的平滑過渡技巧。就像訓(xùn)練一個畫家不僅要會畫畫,還要會根據(jù)畫布大小調(diào)整自己的畫法。
研究團隊還發(fā)現(xiàn),使用合成數(shù)據(jù)進行訓(xùn)練比使用真實數(shù)據(jù)效果更好。這聽起來可能有些反直覺,但其實很好理解。合成數(shù)據(jù)是由已經(jīng)訓(xùn)練好的"老師"模型生成的,質(zhì)量更加穩(wěn)定一致,就像是用標準化的教材來教學生,比用五花八門的課外讀物效果更好。
四、突破性的分片分布匹配技術(shù)
除了核心的階梯式生成方法,研究團隊還開發(fā)了一項名為"分片分布匹配"(PDM)的輔助技術(shù)。這項技術(shù)解決了一個重要問題:如何確保生成的圖像在質(zhì)量上與原始高分辨率方法保持一致。
傳統(tǒng)的方法通常比較整張圖片的全局特征,這就像是比較兩幅畫的整體印象。而PDM采用了更精細的策略,它將圖像分解成許多小塊(就像拼圖的碎片),然后比較每個對應(yīng)小塊的特征分布。這種方法能夠捕捉到更細致的局部差異,確保生成的圖像在每個細節(jié)區(qū)域都達到應(yīng)有的質(zhì)量標準。
PDM的技術(shù)實現(xiàn)相當巧妙。它利用AI模型內(nèi)部的特征表示(可以想象成模型"大腦"中對圖像的理解),計算生成圖像和目標圖像在這些特征空間中的距離。具體來說,它使用了一種叫做"最大均值差異"的數(shù)學工具來衡量兩個分布之間的相似程度。
這種方法的優(yōu)勢在于它不需要額外的計算模型,就像是利用現(xiàn)有的工具箱中的工具,而不需要購買新設(shè)備。相比之下,傳統(tǒng)方法通常需要訓(xùn)練額外的判別器網(wǎng)絡(luò),這不僅增加了計算負擔,還可能引入新的訓(xùn)練不穩(wěn)定性。
實驗結(jié)果顯示,PDM不僅可以作為SWD的有效補充,甚至可以單獨使用作為一種簡單而有效的圖像生成優(yōu)化方法。這種多功能性使得它在各種應(yīng)用場景中都能發(fā)揮價值。
五、令人驚嘆的實驗結(jié)果
研究團隊在多個主流AI繪畫模型上測試了SWD方法,結(jié)果令人印象深刻。以SD3.5 Medium模型為例,傳統(tǒng)的6步生成過程需要約0.38秒,而使用SWD的6步過程僅需0.17秒,速度提升超過一倍。更令人驚訝的是,在保持相同時間預(yù)算的情況下,SWD能夠執(zhí)行更多的生成步驟,從而獲得更好的圖像質(zhì)量。
在圖像質(zhì)量評估方面,研究團隊使用了多種客觀指標和人工評估。客觀指標包括廣泛使用的FID評分、CLIP相似度評分等,這些就像是給圖像質(zhì)量打分的標準化考試。結(jié)果顯示,SWD在大多數(shù)指標上都達到或超過了傳統(tǒng)方法的表現(xiàn)。
更有說服力的是人工評估結(jié)果。研究團隊邀請專業(yè)評估員從四個維度對生成圖像進行比較:與文本描述的相關(guān)性、圖像缺陷程度、美學質(zhì)量和圖像復(fù)雜度。在這些"真人裁判"的評估中,SWD在圖像復(fù)雜度和美學質(zhì)量方面明顯勝出,在文本相關(guān)性方面表現(xiàn)相當,只在缺陷控制方面略有不足。
研究團隊還進行了詳細的消除實驗,驗證了方法中每個組件的重要性。他們發(fā)現(xiàn)時間調(diào)度偏移是成功的關(guān)鍵因素之一,沒有這個調(diào)整,效果會顯著下降。同樣,階梯式訓(xùn)練策略也證明是不可或缺的,使用傳統(tǒng)訓(xùn)練方法的模型無法很好地適應(yīng)新的生成流程。
特別值得注意的是,SWD方法在處理一些"困難"場景時表現(xiàn)出了意外的魯棒性。比如,當原始模型在低分辨率下生成的圖像存在明顯缺陷時,SWD仍然能夠產(chǎn)生可接受的結(jié)果。這就像是一個經(jīng)驗豐富的修復(fù)師,即使面對殘破的原稿,也能恢復(fù)出不錯的作品。
六、與競爭方法的全面對比
為了充分驗證SWD的優(yōu)勢,研究團隊將其與當前最先進的多種快速圖像生成方法進行了全面比較。這些競爭方法包括傳統(tǒng)的擴散模型蒸餾技術(shù)(如SDXL-Turbo、DMD2-SDXL)以及新興的下一尺度預(yù)測模型(如Switti、Infinity)。
在速度對比中,SWD展現(xiàn)出了明顯優(yōu)勢。以SD3.5 Large模型為例,SWD的6步生成只需0.41秒,而傳統(tǒng)的DMD2方法需要約0.63秒,原始教師模型則需要4.42秒。這意味著SWD實現(xiàn)了10倍以上的加速,同時保持了接近原始模型的質(zhì)量水平。
在質(zhì)量對比中,SWD在多個評估指標上都取得了最佳或接近最佳的成績。特別是在PickScore(反映人類偏好的評分)和ImageReward(圖像質(zhì)量評分)等指標上,SWD始終位居前列。這種一致性的優(yōu)秀表現(xiàn)證明了方法的可靠性和實用性。
更有趣的是與下一尺度預(yù)測模型的比較。這些模型采用了與SWD類似的逐步放大策略,但它們通?;陔x散的圖像表示(類似像素藝術(shù)的概念),而SWD工作在連續(xù)的潛在空間中。實驗結(jié)果顯示,SWD在保持高質(zhì)量的同時,速度優(yōu)勢更加明顯,證明了連續(xù)表示方法的優(yōu)越性。
研究團隊還測試了SWD在不同文本提示下的表現(xiàn)穩(wěn)定性。從簡單的物體描述到復(fù)雜的場景敘述,從寫實風格到藝術(shù)創(chuàng)作,SWD都能保持穩(wěn)定的性能表現(xiàn)。這種通用性使得它不僅僅是一個實驗室里的技術(shù)演示,而是一個真正實用的解決方案。
七、深入的技術(shù)細節(jié)剖析
SWD方法的成功離不開許多精心設(shè)計的技術(shù)細節(jié)。研究團隊在論文中詳細分析了每個設(shè)計選擇的理由和效果,為后續(xù)研究提供了寶貴的指導(dǎo)。
在分辨率調(diào)度策略方面,研究人員發(fā)現(xiàn)并非所有的調(diào)度方案都能取得良好效果。他們測試了多種不同的分辨率序列,發(fā)現(xiàn)最佳策略是采用相對均勻的步長增加,同時確保最后一步達到完整的目標分辨率。過于激進的跳躍式增長會導(dǎo)致質(zhì)量損失,而過于保守的漸進式增長則無法充分發(fā)揮速度優(yōu)勢。
在噪聲處理方面,研究團隊發(fā)現(xiàn)了一個非常微妙但重要的技術(shù)要點。在從低分辨率圖像過渡到高分辨率時,噪聲的添加時機和強度都需要精確控制。他們通過大量實驗確定了最優(yōu)的噪聲調(diào)度參數(shù),這些參數(shù)的設(shè)定需要在保持生成質(zhì)量和避免放大偽影之間找到平衡點。
訓(xùn)練數(shù)據(jù)的選擇也經(jīng)過了仔細考慮。研究團隊發(fā)現(xiàn),使用合成數(shù)據(jù)訓(xùn)練的模型在實際應(yīng)用中表現(xiàn)更好,這主要是因為合成數(shù)據(jù)的質(zhì)量更加可控,能夠避免真實數(shù)據(jù)中存在的各種噪聲和不一致性。他們還發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)的多樣性對模型的泛化能力有著重要影響。
模型架構(gòu)的適配也是成功的關(guān)鍵因素之一。SWD特別適合基于Transformer架構(gòu)的擴散模型,因為這些模型的注意力機制具有二次計算復(fù)雜度,在高分辨率下的計算負擔特別重。通過降低早期步驟的分辨率,SWD能夠顯著減少這部分的計算開銷。
八、實際應(yīng)用價值和未來前景
SWD技術(shù)的意義遠不止于提升AI繪畫的速度。在當今數(shù)字內(nèi)容創(chuàng)作日益重要的時代,這種技術(shù)突破具有廣泛的應(yīng)用價值和深遠的影響。
在內(nèi)容創(chuàng)作領(lǐng)域,SWD能夠讓設(shè)計師和藝術(shù)家更快速地進行創(chuàng)意迭代。以前需要等待幾十秒才能看到一個創(chuàng)意的視覺效果,現(xiàn)在只需要幾秒鐘。這種效率提升不僅僅是時間的節(jié)省,更重要的是它改變了創(chuàng)作流程,讓創(chuàng)作者能夠在更短時間內(nèi)嘗試更多想法,從而產(chǎn)生更好的作品。
在商業(yè)應(yīng)用方面,SWD的快速生成能力使得實時個性化內(nèi)容制作成為可能。電商平臺可以根據(jù)用戶偏好快速生成商品展示圖,廣告公司可以實時創(chuàng)建針對性的視覺內(nèi)容,游戲開發(fā)者可以動態(tài)生成游戲場景和角色。這些應(yīng)用場景都需要在保證質(zhì)量的前提下實現(xiàn)快速響應(yīng),而SWD正好滿足了這種需求。
從技術(shù)發(fā)展的角度來看,SWD代表了一種新的優(yōu)化思路。傳統(tǒng)的模型加速方法主要關(guān)注于減少計算步驟或簡化模型結(jié)構(gòu),而SWD通過改變計算的"維度"來實現(xiàn)加速。這種思路可能啟發(fā)更多類似的創(chuàng)新,比如在視頻生成、3D建模等其他領(lǐng)域應(yīng)用類似的多尺度策略。
研究團隊也誠實地指出了當前方法的一些局限性。SWD在處理某些特定類型的圖像時可能會出現(xiàn)輕微的質(zhì)量損失,特別是那些包含大量高頻細節(jié)的圖像。此外,當前的實現(xiàn)主要針對特定的模型架構(gòu)進行了優(yōu)化,在其他類型的生成模型上的表現(xiàn)還需要進一步驗證。
展望未來,研究團隊提出了幾個有趣的發(fā)展方向。首先是自適應(yīng)分辨率調(diào)度,根據(jù)圖像內(nèi)容的復(fù)雜程度動態(tài)調(diào)整分辭率序列。其次是擴展到視頻生成領(lǐng)域,在時間維度上應(yīng)用類似的多尺度策略。還有就是與其他加速技術(shù)的結(jié)合,可能產(chǎn)生疊加的性能提升效果。
SWD技術(shù)的開源特性也值得稱贊。研究團隊承諾將完整的代碼和模型權(quán)重公開發(fā)布,這不僅有助于學術(shù)界的進一步研究,也為工業(yè)界的實際應(yīng)用鋪平了道路。這種開放的態(tài)度體現(xiàn)了科研工作的本質(zhì)價值,即通過知識共享推動整個領(lǐng)域的進步。
說到底,SWD技術(shù)的價值不僅在于其技術(shù)創(chuàng)新本身,更在于它所代表的思維方式轉(zhuǎn)變。在追求AI性能提升的道路上,有時候最有效的方法不是簡單的暴力堆砌,而是深入理解問題本質(zhì),找到巧妙的解決路徑。正如這項研究所展示的,通過觀察自然現(xiàn)象(圖像頻譜在噪聲環(huán)境下的表現(xiàn)),結(jié)合理論分析和實驗驗證,最終能夠得到既簡單又有效的解決方案。
這種"少即是多"的哲學在AI發(fā)展史上并不少見,但每次看到這樣的例子,都讓人感嘆人類智慧的力量。在計算資源日益昂貴、環(huán)境影響日益受到關(guān)注的今天,像SWD這樣的高效技術(shù)顯得更加珍貴。它提醒我們,有時候最好的前進方式不是更快更猛,而是更聰明更巧妙。
對于普通用戶來說,SWD技術(shù)的普及意味著更流暢的AI創(chuàng)作體驗,更低的使用成本,以及更廣泛的應(yīng)用可能性。當AI繪畫變得像拍照一樣快速便捷時,我們可以期待看到更多創(chuàng)意的涌現(xiàn),更多問題的解決,以及更多美好事物的誕生。這或許就是技術(shù)進步最大的意義所在——不是讓機器變得更強大,而是讓人類變得更自由,更有創(chuàng)造力。
Q&A
Q1:SWD技術(shù)是什么?它能讓AI繪畫快多少? A:SWD是一種讓AI繪畫從低分辨率逐步升級到高分辨率的新技術(shù),就像畫家先畫草圖再添細節(jié)。它能讓AI繪畫速度提升2-10倍,一張原本需要幾十秒的圖片現(xiàn)在只需幾秒就能完成,同時保持幾乎相同的質(zhì)量。
Q2:為什么SWD比傳統(tǒng)方法更快?原理是什么? A:傳統(tǒng)AI從頭到尾都用最高分辨率工作,就像一直用最細畫筆畫巨幅畫布。SWD發(fā)現(xiàn)在早期階段圖像模糊時,細節(jié)信息被"噪聲"掩蓋了,所以先用低分辨率處理基本形狀,最后才處理細節(jié),大大節(jié)省了計算量。
Q3:普通人現(xiàn)在能用到SWD技術(shù)嗎?會不會影響圖片質(zhì)量? A:研究團隊已承諾開源SWD技術(shù),未來會逐步應(yīng)用到各種AI繪畫工具中。在質(zhì)量方面,SWD在大多數(shù)指標上與傳統(tǒng)方法相當甚至更好,只在極細節(jié)處理上可能有輕微差異,但對普通使用來說基本察覺不到。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。