在人工智能繪畫越來越普及的今天,我們經(jīng)常會(huì)遇到這樣的困擾:要么生成的圖片模糊不清,要么需要等待很長時(shí)間才能得到滿意的結(jié)果。最近,來自ETH蘇黎世和迪士尼研究院的科學(xué)家們提出了一個(gè)巧妙的解決方案,他們開發(fā)出一種名為"歷史引導(dǎo)采樣"(HiGS)的新技術(shù),能讓AI在更短時(shí)間內(nèi)生成更清晰、更精細(xì)的圖像。這項(xiàng)研究由ETH蘇黎世的Seyedmorteza Sadat以及迪士尼研究院的Farnood Salehi和Romann M. Weber共同完成,于2025年9月發(fā)表在arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2509.22300v1。
當(dāng)前的AI繪畫技術(shù)就像一位畫家在創(chuàng)作時(shí)需要反復(fù)修改和完善,每一步都要仔細(xì)思考下一筆該怎么畫。然而,這個(gè)過程往往需要很多步驟才能完成一幅精美的作品。如果我們想要快速得到結(jié)果,就不得不減少繪畫步驟,但這樣往往會(huì)導(dǎo)致畫面模糊、缺乏細(xì)節(jié)。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI在繪畫過程中會(huì)產(chǎn)生大量的"草稿",而這些草稿中蘊(yùn)含著豐富的信息,如果能巧妙地利用這些信息,就能顯著提升最終作品的質(zhì)量。
這項(xiàng)研究的核心創(chuàng)新在于提出了一種全新的采樣策略,它不需要重新訓(xùn)練模型,也不會(huì)增加計(jì)算成本,卻能顯著改善圖像生成的效果。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)證明,這種方法在各種不同的模型和設(shè)置下都能帶來一致的改善,特別是在快速生成和低引導(dǎo)強(qiáng)度的情況下效果更加明顯。更令人驚喜的是,使用這種技術(shù),他們?cè)贗mageNet數(shù)據(jù)集上創(chuàng)造了新的記錄,僅用30步就達(dá)到了1.61的FID分?jǐn)?shù),而傳統(tǒng)方法需要250步才能達(dá)到類似效果。
一、從數(shù)學(xué)優(yōu)化角度重新理解AI繪畫過程
要理解這項(xiàng)技術(shù)的巧妙之處,我們首先需要了解AI是如何"畫畫"的。傳統(tǒng)的擴(kuò)散模型生成圖像的過程可以比作一位雕塑家從一塊粗糙的石頭開始,逐步雕琢出精美的藝術(shù)品。每一步雕琢都需要雕塑家判斷下一刀該往哪里切,這個(gè)判斷過程就相當(dāng)于AI模型的"神經(jīng)網(wǎng)絡(luò)評(píng)估"。
研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)雕琢過程實(shí)際上可以用數(shù)學(xué)中的"隨機(jī)梯度下降"來理解。簡(jiǎn)單來說,就像我們?cè)谂郎綍r(shí)需要選擇最佳路徑到達(dá)山頂一樣,AI在生成圖像時(shí)也在尋找通往最佳結(jié)果的路徑。傳統(tǒng)方法就像一個(gè)人獨(dú)自爬山,只根據(jù)當(dāng)前位置決定下一步怎么走。而HiGS技術(shù)則像是給這個(gè)爬山者配備了一個(gè)智能向?qū)?,這個(gè)向?qū)?huì)記住之前走過的路徑,并根據(jù)歷史經(jīng)驗(yàn)提供更好的方向指引。
具體來說,研究團(tuán)隊(duì)將擴(kuò)散模型的歐拉采樣器重新解釋為在時(shí)變能量函數(shù)上執(zhí)行隨機(jī)梯度下降。這種理解方式啟發(fā)他們借鑒了優(yōu)化理論中的STORM算法思想,該算法通過利用連續(xù)步驟之間的梯度差異來減少方差,從而獲得更穩(wěn)定的更新方向。當(dāng)應(yīng)用到擴(kuò)散采樣中時(shí),這意味著可以利用模型在不同時(shí)間步的預(yù)測(cè)差異來改善當(dāng)前的采樣方向。
更進(jìn)一步,研究團(tuán)隊(duì)證明了HiGS能夠?qū)W拉求解器的局部截?cái)嗾`差從O(h²)改善到O(h³),其中h是步長。這種改善直接轉(zhuǎn)化為全局誤差從O(h)提升到O(h²),意味著在相同的采樣步數(shù)下能獲得更高的精度,或者在更少的步數(shù)下達(dá)到相同的精度。這就像是給雕塑家提供了更精確的工具,讓每一刀都更加準(zhǔn)確有效。
二、歷史信息的巧妙運(yùn)用策略
HiGS技術(shù)的核心思想是充分利用AI在生成過程中產(chǎn)生的歷史預(yù)測(cè)信息。這就像一位經(jīng)驗(yàn)豐富的廚師在烹飪時(shí)不僅關(guān)注當(dāng)前的火候,還會(huì)回顧之前每個(gè)步驟的狀態(tài)變化,從而做出更精準(zhǔn)的調(diào)整。
在具體實(shí)現(xiàn)上,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)滑動(dòng)窗口機(jī)制來存儲(chǔ)最近幾步的模型預(yù)測(cè)結(jié)果。這個(gè)窗口的大小可以調(diào)節(jié),就像調(diào)節(jié)廚師的"記憶長度"一樣。對(duì)于存儲(chǔ)在歷史緩沖區(qū)中的信息,他們采用了指數(shù)移動(dòng)平均的方式來計(jì)算加權(quán)平均值,這樣可以確保最近的預(yù)測(cè)獲得更高的權(quán)重,而較早的預(yù)測(cè)影響逐漸減弱。
當(dāng)使用分類器自由引導(dǎo)(CFG)時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)存儲(chǔ)CFG引導(dǎo)后的預(yù)測(cè)比存儲(chǔ)原始條件輸出更有效。這是因?yàn)镃FG引導(dǎo)后的預(yù)測(cè)已經(jīng)包含了條件信息的增強(qiáng),能夠提供更豐富的指導(dǎo)信號(hào)。然后,他們計(jì)算當(dāng)前預(yù)測(cè)與歷史加權(quán)平均之間的差異,這個(gè)差異向量就成為了改善采樣質(zhì)量的關(guān)鍵指導(dǎo)信號(hào)。
為了最大化這種歷史信息的效用,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)時(shí)間相關(guān)的權(quán)重調(diào)度策略。他們發(fā)現(xiàn)HiGS的效果在采樣的早期和中期階段最為明顯,而在后期階段可能會(huì)引入不必要的噪聲。因此,他們采用了一個(gè)平方根調(diào)度函數(shù),在指定的時(shí)間區(qū)間內(nèi)逐漸調(diào)整歷史信息的影響強(qiáng)度,確保在最需要的時(shí)候發(fā)揮最大作用。
三、解決色彩失真和過飽和問題的技術(shù)細(xì)節(jié)
在實(shí)際應(yīng)用中,研究團(tuán)隊(duì)發(fā)現(xiàn)直接使用歷史差異信號(hào)有時(shí)會(huì)導(dǎo)致顏色組合不真實(shí)或過飽和的問題。為了解決這些問題,他們開發(fā)了兩個(gè)重要的技術(shù)改進(jìn)。
第一個(gè)改進(jìn)是正交投影技術(shù)。研究團(tuán)隊(duì)發(fā)現(xiàn),歷史差異向量中包含兩個(gè)成分:一個(gè)是與當(dāng)前預(yù)測(cè)平行的成分,另一個(gè)是垂直的成分。平行成分往往會(huì)導(dǎo)致過飽和,而垂直成分則有助于增強(qiáng)細(xì)節(jié)和結(jié)構(gòu)。因此,他們?cè)O(shè)計(jì)了一個(gè)投影機(jī)制,可以選擇性地減弱平行成分的影響,同時(shí)保留垂直成分的貢獻(xiàn)。這就像調(diào)節(jié)畫筆的力度,既要保持色彩的鮮艷,又要避免過度渲染。
第二個(gè)改進(jìn)是頻域?yàn)V波技術(shù)。研究團(tuán)隊(duì)觀察到,不真實(shí)的顏色組合主要對(duì)應(yīng)圖像的低頻成分,而細(xì)節(jié)和紋理信息則對(duì)應(yīng)高頻成分?;谶@個(gè)觀察,他們采用離散余弦變換(DCT)將更新向量轉(zhuǎn)換到頻域,然后使用sigmoid高通濾波器來衰減低頻信號(hào),保留高頻信息。這個(gè)過程就像音響系統(tǒng)中的均衡器,可以選擇性地調(diào)節(jié)不同頻率成分的強(qiáng)度。
濾波器的設(shè)計(jì)采用了徑向頻率的概念,通過調(diào)節(jié)截止閾值和過渡銳度參數(shù),可以精確控制哪些頻率成分被保留或衰減。這種頻域處理有效地消除了顏色偏移問題,同時(shí)保持了圖像的細(xì)節(jié)增強(qiáng)效果。最終的更新規(guī)則將CFG預(yù)測(cè)、時(shí)間權(quán)重調(diào)度、正交投影和頻域?yàn)V波有機(jī)結(jié)合,形成了一個(gè)完整的HiGS采樣框架。
四、多樣化實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)
為了全面驗(yàn)證HiGS技術(shù)的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)評(píng)估,涵蓋了多種不同的模型架構(gòu)、數(shù)據(jù)集和評(píng)估指標(biāo)。這些實(shí)驗(yàn)就像對(duì)一款新藥進(jìn)行臨床試驗(yàn),需要在各種不同的條件下測(cè)試其安全性和有效性。
在文本到圖像生成任務(wù)上,研究團(tuán)隊(duì)主要使用了Stable Diffusion系列模型,包括Stable Diffusion XL、Stable Diffusion 3和Stable Diffusion 3.5。他們采用HPSv2作為主要的質(zhì)量和提示對(duì)齊評(píng)估指標(biāo),因?yàn)檫@個(gè)指標(biāo)與人類判斷的一致性最高。同時(shí),他們還報(bào)告了ImageReward和CLIP Score等補(bǔ)充指標(biāo),以確保評(píng)估的全面性。
實(shí)驗(yàn)結(jié)果顯示,HiGS在所有測(cè)試的引導(dǎo)強(qiáng)度范圍內(nèi)都能帶來顯著改善。特別值得注意的是,在低引導(dǎo)強(qiáng)度的情況下,HiGS的優(yōu)勢(shì)更加明顯。這對(duì)實(shí)際應(yīng)用具有重要意義,因?yàn)榈鸵龑?dǎo)強(qiáng)度可以避免過飽和和多樣性降低的問題,而HiGS正好補(bǔ)償了低引導(dǎo)強(qiáng)度下圖像質(zhì)量的不足。
在采樣步數(shù)的實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)HiGS在各種步數(shù)設(shè)置下都能提供一致的改善。無論是10步的快速生成還是30步的高質(zhì)量生成,HiGS都能顯著提升最終結(jié)果的質(zhì)量。這種一致性表明HiGS是一個(gè)真正通用的增強(qiáng)技術(shù),不依賴于特定的采樣預(yù)算。
五、ImageNet基準(zhǔn)測(cè)試中的突破性成果
在類條件圖像生成的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中,HiGS展現(xiàn)出了令人矚目的性能提升。研究團(tuán)隊(duì)使用了最新的SiT-XL模型配合REPA技術(shù),在ImageNet 256×256數(shù)據(jù)集上進(jìn)行了全面測(cè)試。
最令人印象深刻的結(jié)果是在無引導(dǎo)生成(即不使用CFG)的情況下,HiGS將最先進(jìn)的FID分?jǐn)?shù)從1.83提升到1.61,而且只需要30個(gè)采樣步驟,相比傳統(tǒng)方法的250步實(shí)現(xiàn)了超過8倍的加速。這個(gè)成果就像在賽車比賽中不僅跑得更快,還能保持更好的操控性能。
在有引導(dǎo)的生成任務(wù)中,HiGS同樣表現(xiàn)出色。它能夠在僅用40步的情況下達(dá)到與傳統(tǒng)250步方法相當(dāng)?shù)男阅?,這意味著在保持相同質(zhì)量的前提下,生成速度提升了6倍以上。這種加速對(duì)于實(shí)際應(yīng)用具有重要價(jià)值,特別是在需要實(shí)時(shí)或近實(shí)時(shí)生成的場(chǎng)景中。
除了FID分?jǐn)?shù)的改善,HiGS在其他評(píng)估指標(biāo)上也表現(xiàn)出一致的提升。Inception Score、Precision和Recall等指標(biāo)都顯示出明顯的改善,表明HiGS不僅提高了圖像質(zhì)量,還保持了良好的多樣性。這種全方位的改善證明了HiGS技術(shù)的穩(wěn)健性和可靠性。
六、與蒸餾模型的兼容性驗(yàn)證
現(xiàn)代AI圖像生成領(lǐng)域的一個(gè)重要趨勢(shì)是模型蒸餾,即訓(xùn)練一個(gè)更小、更快的"學(xué)生"模型來模仿大型"教師"模型的行為。研究團(tuán)隊(duì)特別測(cè)試了HiGS與這類蒸餾模型的兼容性,結(jié)果表明兩種技術(shù)可以很好地協(xié)同工作。
在SDXL-Flash和SDXL-Lightning等蒸餾模型上的測(cè)試顯示,HiGS能夠進(jìn)一步提升這些已經(jīng)優(yōu)化過的模型的性能。這就像給一輛已經(jīng)調(diào)校過的賽車再安裝一個(gè)渦輪增壓器,能夠在現(xiàn)有優(yōu)化的基礎(chǔ)上獲得額外的性能提升。
這種兼容性對(duì)于實(shí)際部署具有重要意義。許多商業(yè)應(yīng)用為了降低計(jì)算成本和提高響應(yīng)速度,會(huì)選擇使用蒸餾模型。HiGS的加入意味著這些應(yīng)用可以在不增加計(jì)算開銷的情況下獲得更好的圖像質(zhì)量,這為HiGS的廣泛應(yīng)用奠定了基礎(chǔ)。
測(cè)試結(jié)果顯示,即使在蒸餾模型已經(jīng)大幅減少采樣步數(shù)的情況下,HiGS仍然能夠帶來顯著的質(zhì)量提升。這表明HiGS捕獲和利用歷史信息的機(jī)制是獨(dú)立于模型架構(gòu)和訓(xùn)練策略的,具有很強(qiáng)的通用性。
七、技術(shù)實(shí)現(xiàn)的簡(jiǎn)潔性與實(shí)用性
HiGS技術(shù)最吸引人的特點(diǎn)之一是其實(shí)現(xiàn)的簡(jiǎn)潔性。整個(gè)方法不需要重新訓(xùn)練模型,不需要額外的神經(jīng)網(wǎng)絡(luò)評(píng)估,也不會(huì)增加顯著的計(jì)算開銷。這就像給現(xiàn)有的汽車安裝一個(gè)簡(jiǎn)單的導(dǎo)航系統(tǒng),不需要改動(dòng)引擎或其他核心部件,卻能顯著改善駕駛體驗(yàn)。
從計(jì)算復(fù)雜度的角度來看,HiGS只需要維護(hù)一個(gè)小的歷史緩沖區(qū)和進(jìn)行簡(jiǎn)單的數(shù)學(xué)運(yùn)算。存儲(chǔ)開銷與輸入圖像的大小成正比,而計(jì)算開銷主要是一些基本的向量運(yùn)算和DCT變換。相比于模型的前向傳播計(jì)算,這些額外開銷幾乎可以忽略不計(jì)。
研究團(tuán)隊(duì)提供的偽代碼顯示,HiGS的集成過程非常直觀。開發(fā)者只需要在現(xiàn)有的采樣循環(huán)中添加幾行代碼,就能享受到HiGS帶來的性能提升。這種即插即用的特性大大降低了技術(shù)采用的門檻,使得各種現(xiàn)有的擴(kuò)散模型應(yīng)用都能輕松受益。
更重要的是,HiGS與現(xiàn)有的各種采樣器都兼容,包括DDIM、DPM++等流行的求解器。這意味著無論用戶當(dāng)前使用什么采樣策略,都可以無縫地集成HiGS來獲得額外的性能提升。
八、深入的消融實(shí)驗(yàn)與設(shè)計(jì)選擇分析
為了深入理解HiGS各個(gè)組件的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像拆解一臺(tái)精密機(jī)器,逐個(gè)檢驗(yàn)每個(gè)零件的作用,確保最終設(shè)計(jì)的每個(gè)部分都是必要且有效的。
關(guān)于歷史窗口大小的選擇,實(shí)驗(yàn)顯示適中的窗口大?。ㄍǔ?-5步)能夠提供最佳的性能平衡。窗口太小會(huì)丟失有用的歷史信息,而窗口太大則可能引入過時(shí)的信息,反而影響當(dāng)前預(yù)測(cè)的準(zhǔn)確性。這就像選擇合適的記憶長度,既要記住有用的經(jīng)驗(yàn),又不能被過去的信息束縛。
指數(shù)移動(dòng)平均中的衰減參數(shù)α的選擇也經(jīng)過了仔細(xì)調(diào)優(yōu)。實(shí)驗(yàn)表明,α值在0.6到0.8之間時(shí)效果最佳,這個(gè)范圍能夠在保留足夠歷史信息的同時(shí),確保最近的預(yù)測(cè)獲得適當(dāng)?shù)臋?quán)重。過小的α值會(huì)使歷史信息影響過大,而過大的α值則會(huì)削弱歷史信息的作用。
時(shí)間權(quán)重調(diào)度的設(shè)計(jì)同樣經(jīng)過了精心優(yōu)化。研究團(tuán)隊(duì)測(cè)試了多種不同的調(diào)度函數(shù),包括線性、指數(shù)和平方根函數(shù)。結(jié)果顯示,平方根調(diào)度在大多數(shù)情況下表現(xiàn)最佳,因?yàn)樗軌蛟诓蓸拥年P(guān)鍵階段提供適當(dāng)?shù)囊龑?dǎo)強(qiáng)度,同時(shí)在后期階段逐漸減弱影響以避免引入噪聲。
九、與其他先進(jìn)技術(shù)的對(duì)比與融合
研究團(tuán)隊(duì)還將HiGS與其他最新的擴(kuò)散模型增強(qiáng)技術(shù)進(jìn)行了對(duì)比,結(jié)果顯示HiGS不僅能夠獨(dú)立提供顯著改善,還能與其他技術(shù)協(xié)同工作,產(chǎn)生疊加效應(yīng)。
與自引導(dǎo)(Autoguidance)技術(shù)的對(duì)比顯示,雖然兩種方法都利用了"較弱"模型的信息來改善生成質(zhì)量,但HiGS的優(yōu)勢(shì)在于不需要訓(xùn)練額外的模型。HiGS通過歷史預(yù)測(cè)隱式地構(gòu)造了一個(gè)"較弱"的參考,這個(gè)參考完全來自于模型自身的預(yù)測(cè)歷史,因此具有更好的適應(yīng)性和通用性。
在與自適應(yīng)投影引導(dǎo)(APG)的結(jié)合實(shí)驗(yàn)中,HiGS展現(xiàn)出良好的兼容性。兩種技術(shù)可以同時(shí)應(yīng)用,各自發(fā)揮獨(dú)特的作用:APG主要解決過飽和問題,而HiGS則專注于利用歷史信息改善細(xì)節(jié)和結(jié)構(gòu)。這種互補(bǔ)性使得組合使用能夠獲得更好的整體效果。
與引導(dǎo)區(qū)間(Guidance Interval)技術(shù)的結(jié)合也證明了HiGS的靈活性。引導(dǎo)區(qū)間技術(shù)通過在特定時(shí)間段內(nèi)應(yīng)用CFG來優(yōu)化采樣過程,而HiGS可以在這個(gè)框架內(nèi)進(jìn)一步利用歷史信息,兩者的結(jié)合產(chǎn)生了協(xié)同效應(yīng)。
十、實(shí)際應(yīng)用場(chǎng)景與未來發(fā)展方向
HiGS技術(shù)的實(shí)用價(jià)值在多個(gè)實(shí)際應(yīng)用場(chǎng)景中都得到了體現(xiàn)。在內(nèi)容創(chuàng)作領(lǐng)域,創(chuàng)作者經(jīng)常需要快速生成大量的概念圖或草圖,HiGS能夠在保證質(zhì)量的前提下顯著加快生成速度,提高創(chuàng)作效率。
在商業(yè)應(yīng)用中,許多公司需要為產(chǎn)品生成大量的營銷素材或產(chǎn)品展示圖像。傳統(tǒng)方法要么生成速度慢,要么質(zhì)量不夠理想。HiGS提供了一個(gè)很好的解決方案,能夠在有限的計(jì)算預(yù)算下生成高質(zhì)量的圖像,這對(duì)于成本控制和效率提升都具有重要意義。
對(duì)于移動(dòng)設(shè)備和邊緣計(jì)算場(chǎng)景,計(jì)算資源的限制使得快速生成變得尤為重要。HiGS的低開銷特性使其特別適合這些場(chǎng)景,能夠在不增加顯著計(jì)算負(fù)擔(dān)的情況下改善用戶體驗(yàn)。
從技術(shù)發(fā)展的角度來看,HiGS開啟了利用采樣歷史信息的新研究方向。未來的研究可能會(huì)探索更復(fù)雜的歷史信息利用策略,比如自適應(yīng)窗口大小、動(dòng)態(tài)權(quán)重調(diào)整,或者與強(qiáng)化學(xué)習(xí)結(jié)合的在線優(yōu)化方法。
研究團(tuán)隊(duì)也指出了當(dāng)前方法的一些局限性。HiGS仍然繼承了底層擴(kuò)散模型的偏見和限制,雖然程度有所減輕。此外,在某些特殊場(chǎng)景下,歷史信息可能會(huì)引入不期望的相關(guān)性,這需要進(jìn)一步的研究來解決。
說到底,這項(xiàng)研究為我們展示了一個(gè)重要的思路:有時(shí)候最好的改進(jìn)不是從零開始重新設(shè)計(jì),而是巧妙地利用現(xiàn)有系統(tǒng)中被忽視的信息。HiGS技術(shù)通過充分挖掘AI繪畫過程中的歷史信息,在不增加計(jì)算成本的前提下顯著提升了生成質(zhì)量和效率。這種"四兩撥千斤"的技術(shù)思路不僅在當(dāng)前具有重要的實(shí)用價(jià)值,也為未來的技術(shù)發(fā)展提供了有益的啟示。
對(duì)于普通用戶而言,HiGS意味著能夠更快地獲得更好的AI生成圖像,無論是用于個(gè)人創(chuàng)作還是商業(yè)用途。對(duì)于研究者和開發(fā)者來說,這項(xiàng)技術(shù)提供了一個(gè)簡(jiǎn)單而有效的工具來改善現(xiàn)有的擴(kuò)散模型應(yīng)用。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和普及,我們有理由期待AI圖像生成領(lǐng)域?qū)⒂瓉硇碌耐黄坪蛻?yīng)用可能。如果讀者對(duì)這項(xiàng)研究的技術(shù)細(xì)節(jié)感興趣,可以通過論文編號(hào)arXiv:2509.22300v1查閱完整的研究報(bào)告。
Q&A
Q1:HiGS技術(shù)是什么?它是如何工作的?
A:HiGS(歷史引導(dǎo)采樣)是一種新的AI圖像生成優(yōu)化技術(shù),它通過記住AI在繪畫過程中之前幾步的"草稿"信息,然后利用這些歷史信息來指導(dǎo)當(dāng)前步驟的繪畫方向。就像一個(gè)畫家會(huì)參考之前的筆觸來決定下一筆怎么畫一樣,HiGS讓AI能夠從自己的繪畫歷史中學(xué)習(xí),從而生成更清晰、更精細(xì)的圖像。
Q2:使用HiGS技術(shù)需要重新訓(xùn)練AI模型嗎?
A:不需要。HiGS最大的優(yōu)勢(shì)就是它是一個(gè)"即插即用"的技術(shù),不需要重新訓(xùn)練任何模型,也不會(huì)增加計(jì)算成本。它就像給現(xiàn)有的汽車安裝一個(gè)導(dǎo)航系統(tǒng),不需要改動(dòng)引擎,卻能顯著改善駕駛體驗(yàn)。任何現(xiàn)有的擴(kuò)散模型都可以直接使用HiGS來提升性能。
Q3:HiGS技術(shù)在實(shí)際應(yīng)用中能帶來多大的改善?
A:根據(jù)研究結(jié)果,HiGS能夠?qū)D像生成速度提升6-8倍,同時(shí)保持甚至改善圖像質(zhì)量。在ImageNet數(shù)據(jù)集上,它創(chuàng)造了新的記錄,僅用30步就達(dá)到了傳統(tǒng)方法需要250步才能達(dá)到的效果。對(duì)于普通用戶來說,這意味著能夠更快地獲得更高質(zhì)量的AI生成圖像。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。