在2025年5月,TapTap公司的錢(qián)震研究員和浙江大學(xué)的劉本同學(xué)共同發(fā)表了一篇題為《使用GS-Jacobi迭代加速TarFlow采樣》的研究論文。這項(xiàng)研究發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.12849v1),為當(dāng)下熱門(mén)的圖像生成模型TarFlow提供了一種顯著提升生成速度的解決方案。
圖像生成模型已經(jīng)在各種場(chǎng)景中得到廣泛應(yīng)用。作為其中的佼佼者,TarFlow模型巧妙地將Transformer架構(gòu)與規(guī)范化流(Normalizing Flow)模型相結(jié)合,在多個(gè)基準(zhǔn)測(cè)試中取得了最先進(jìn)的成果。然而,由于其因果注意力機(jī)制需要順序計(jì)算,TarFlow的采樣過(guò)程極其緩慢。就像一個(gè)繁忙的生產(chǎn)線,每個(gè)工人必須等前一個(gè)工人完全完成工作才能開(kāi)始自己的任務(wù),這種嚴(yán)格的串行工作方式大大降低了效率。
想象你在組裝一個(gè)復(fù)雜的樂(lè)高積木模型,如果你必須嚴(yán)格按照說(shuō)明書(shū)一步一步來(lái),不能并行工作,那么整個(gè)過(guò)程將會(huì)非常耗時(shí)。TarFlow的采樣過(guò)程就面臨著類(lèi)似的挑戰(zhàn)。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)一系列創(chuàng)新的優(yōu)化策略,可以大大加快TarFlow的采樣速度。
在這項(xiàng)研究中,作者首先將TarFlow采樣階段的非線性循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為對(duì)角化的非線性系統(tǒng),然后應(yīng)用了高斯-賽德?tīng)?雅可比(Gauss-Seidel-Jacobi,簡(jiǎn)稱(chēng)GS-Jacobi)迭代方法進(jìn)行求解。你可以把這個(gè)過(guò)程想象成重新組織樂(lè)高積木的組裝方式,使得多個(gè)部件可以同時(shí)組裝,而不必嚴(yán)格按照原來(lái)的順序。
通過(guò)細(xì)致的分析,研究人員發(fā)現(xiàn)TarFlow模型中的各個(gè)模塊具有不同的重要性。就像一支足球隊(duì)中,有些核心球員對(duì)比賽結(jié)果起著決定性作用,而其他球員則相對(duì)貢獻(xiàn)較小。具體來(lái)說(shuō),TarFlow模型中少數(shù)幾個(gè)模塊在圖像生成任務(wù)中扮演著主要角色,而其他模塊的貢獻(xiàn)相對(duì)較?。荒承┠K對(duì)初始值敏感且容易出現(xiàn)數(shù)值溢出,而其他模塊則相對(duì)穩(wěn)健。
基于這兩個(gè)特性,研究團(tuán)隊(duì)提出了收斂排名指標(biāo)(Convergence Ranking Metric,CRM)和初始猜測(cè)指標(biāo)(Initial Guessing Metric,IGM)。CRM用于識(shí)別一個(gè)TarFlow模塊是"簡(jiǎn)單的"(僅需少量迭代即可收斂)還是"困難的"(需要更多迭代);IGM則用于評(píng)估迭代的初始值是否合適。這就像在學(xué)習(xí)一門(mén)新技能時(shí),有些部分你可能一學(xué)就會(huì),而有些部分則需要反復(fù)練習(xí);同時(shí),一個(gè)好的起點(diǎn)會(huì)讓整個(gè)學(xué)習(xí)過(guò)程更加順利。
研究團(tuán)隊(duì)在四個(gè)TarFlow模型上進(jìn)行了實(shí)驗(yàn),結(jié)果表明GS-Jacobi采樣可以顯著提升采樣效率,同時(shí)保持生成圖像的質(zhì)量。具體來(lái)說(shuō),在Img128cond模型上實(shí)現(xiàn)了4.53倍的加速,在AFHQ模型上實(shí)現(xiàn)了5.32倍的加速,在Img64uncond模型上實(shí)現(xiàn)了2.96倍的加速,在Img64cond模型上實(shí)現(xiàn)了2.51倍的加速,而且所有這些加速都沒(méi)有降低FID評(píng)分或樣本質(zhì)量。
這項(xiàng)研究的代碼和檢查點(diǎn)可以通過(guò)GitHub獲?。篽ttps://github.com/encoreus/GS-Jacobi_for_TarFlow。
一、從圖像生成模型到TarFlow:技術(shù)背景
在圖像生成領(lǐng)域,已經(jīng)有多種方法被提出。從像素遞歸神經(jīng)網(wǎng)絡(luò)(PixelRNN)、生成對(duì)抗網(wǎng)絡(luò)(GANs)到擴(kuò)散概率模型(DDPM)和穩(wěn)定擴(kuò)散(Stable Diffusion),各種模型層出不窮。雖然擴(kuò)散模型似乎主導(dǎo)了這一領(lǐng)域,但規(guī)范化流仍然提供了一些獨(dú)特的優(yōu)勢(shì)。
規(guī)范化流就像是一個(gè)神奇的翻譯器,它可以將簡(jiǎn)單的隨機(jī)噪聲精確地轉(zhuǎn)換為復(fù)雜的真實(shí)圖像。想象你有一團(tuán)隨機(jī)的彩色顆粒,通過(guò)一系列特殊的變換,這些顆??梢灾饾u排列成一張清晰的貓咪照片。這種方法的優(yōu)勢(shì)在于其精確的可逆性,使其能夠進(jìn)行準(zhǔn)確的密度估計(jì),實(shí)現(xiàn)高效的單步采樣,并支持具有可解釋性的潛在空間操作。
最初的規(guī)范化流模型如NICE引入了加性耦合層。為了增強(qiáng)非線性能力,RealNVP整合了縮放和平移到非體積保持變換中,形成了仿射耦合層。Glow通過(guò)引入可逆的1×1卷積進(jìn)一步改進(jìn)了圖像生成,而Flow++則包含了注意力機(jī)制。這些模型的最大優(yōu)勢(shì)在于其逆函數(shù)是顯式的,雅可比矩陣是下三角形的,避免了一般可逆ResNet框架中的復(fù)雜計(jì)算。然而,過(guò)于簡(jiǎn)單的結(jié)構(gòu)使得這些流模型的非線性能力有限。
為了改進(jìn)這一點(diǎn),規(guī)范化流被與自回歸模型結(jié)合起來(lái)。IAF開(kāi)創(chuàng)了基于前置維度條件的維度方向仿射變換,以改進(jìn)變分推斷。MAF利用MADE創(chuàng)建可逆的自回歸映射。NAF用每維單調(diào)神經(jīng)網(wǎng)絡(luò)替代MAF的仿射變換以增強(qiáng)表達(dá)能力。T-NAF通過(guò)整合單個(gè)自回歸Transformer增強(qiáng)了NAF,而B(niǎo)lock神經(jīng)自回歸流采用了端到端的自回歸單調(diào)網(wǎng)絡(luò)設(shè)計(jì)。
TarFlow作為本文研究對(duì)象,提出了一個(gè)基于Transformer的架構(gòu),結(jié)合了一系列技術(shù)來(lái)訓(xùn)練高性能的規(guī)范化流模型,并在多個(gè)領(lǐng)域展示了最先進(jìn)的結(jié)果。然而,TarFlow的采樣效率受到了關(guān)鍵瓶頸的限制:每個(gè)自回歸塊內(nèi)的因果注意力結(jié)構(gòu)形成了一個(gè)非線性RNN,這迫使在采樣過(guò)程中進(jìn)行嚴(yán)格的順序計(jì)算,大大降低了大規(guī)模圖像生成任務(wù)的計(jì)算效率。
線性或非線性系統(tǒng)的并行求解是科學(xué)計(jì)算中的一個(gè)重要問(wèn)題。對(duì)于線性系統(tǒng),Saad建立了雅可比、高斯-賽德?tīng)?、連續(xù)過(guò)度松弛(SOR)和克里洛夫子空間技術(shù)等方法。塊雅可比迭代利用GPU并行化求解線性/非線性方程。作為一個(gè)特殊情況,當(dāng)方程采取自回歸形式時(shí),許多方法被提出來(lái)加速自回歸計(jì)算。例如,Oord提出了概率密度蒸餾,用于將知識(shí)從慢速自回歸模型轉(zhuǎn)移到更快的計(jì)算中。MintNet開(kāi)發(fā)了一種專(zhuān)門(mén)的基于牛頓-拉普森的定點(diǎn)迭代方法來(lái)加速自回歸反演。
二、GS-Jacobi迭代:巧妙解決TarFlow的速度瓶頸
在傳統(tǒng)的TarFlow模型中,一個(gè)自回歸塊的前向和反向計(jì)算可以用數(shù)學(xué)公式表示如下:
前向過(guò)程:zt = exp(-s(x<t))(xt - u(x<t)) 反向過(guò)程:xt = exp(s(x<t))zt + u(x<t))
其中t從1到T,x<t表示t時(shí)刻之前的歷史數(shù)據(jù),s(x<t)和u(x<t)由因果注意力塊生成。在前向方向,所有xt都是已知的,所以所有s(x<t)和u(x<t)可以并行計(jì)算。但在反向方向,xt只能在x<t被求解后才能順序計(jì)算。這就像是在玩多米諾骨牌,每一塊都必須等前一塊倒下才能繼續(xù),無(wú)法同時(shí)推倒所有骨牌。據(jù)作者測(cè)試,這種串行采樣方式在單個(gè)A800 GPU上生成100張128×128的圖像需要約213秒。
為了加速這一過(guò)程,研究團(tuán)隊(duì)首先將這個(gè)過(guò)程轉(zhuǎn)化為矩陣形式,然后將其視為一個(gè)非線性系統(tǒng):
前向:Z = Σ^(-1)(X)(X - μ(X)) 反向:X = Σ(X)Z + μ(X)
對(duì)于反向過(guò)程,可以將目標(biāo)X*視為非線性系統(tǒng)g(X) = Σ^(-1)(X)Z + μ(X)的不動(dòng)點(diǎn),然后使用非線性雅可比迭代求解:
X^(k+1) = Σ(X^(k))Z + μ(X^(k))
這就像是在解一個(gè)復(fù)雜的方程,我們不斷地進(jìn)行猜測(cè)和修正,直到找到一個(gè)足夠接近正確答案的解。研究團(tuán)隊(duì)提出了一個(gè)命題來(lái)解釋這種非線性系統(tǒng)下雅可比模式迭代的收斂性和誤差傳播情況。
這種迭代方法涉及兩個(gè)關(guān)鍵組件:初始值X^(0)和最大迭代次數(shù)。正如實(shí)驗(yàn)中所示,不同的初始化策略會(huì)導(dǎo)致不同的收斂效果,不良的策略甚至?xí)?dǎo)致模型崩潰。此外,不同的塊以不同的速度收斂,有些塊快速收斂,而其他塊則較慢,這表明我們應(yīng)該為不同的塊采用不同的迭代策略。為了解決這兩個(gè)問(wèn)題,作者分別提出了初始猜測(cè)指標(biāo)(IGM)和收斂排名指標(biāo)(CRM)。
三、巧妙的初始值選擇:初始猜測(cè)指標(biāo)(IGM)
常見(jiàn)的初始化選擇是將X^(0) = Z,也就是前一個(gè)塊的輸出,基于TarFlow"逐漸"轉(zhuǎn)換圖像的直覺(jué)。正如實(shí)驗(yàn)中所示,從噪聲到圖像的變化在大多數(shù)步驟中是漸進(jìn)的,Z位于X*的鄰域內(nèi),這可能是一個(gè)很好的初始猜測(cè)。
然而,在實(shí)踐中,研究團(tuán)隊(duì)發(fā)現(xiàn)在Img64模型的Block0中,將所有X^(0) = Z會(huì)導(dǎo)致數(shù)值崩潰。這就像是在烹飪一道精致的菜肴時(shí),選擇了錯(cuò)誤的起點(diǎn),導(dǎo)致整個(gè)烹飪過(guò)程都無(wú)法挽回。
另一種可行的猜測(cè)是X^(0) = Z0 = [z1, 0, ..., 0]',因?yàn)橄袼刂捣秶鷱?1到1,中心在0。一個(gè)自然的策略是比較Z和Z0,選擇較好的一個(gè)。由于最嚴(yán)重的膨脹發(fā)生在前幾次迭代,作者定義了以下"初始猜測(cè)指標(biāo)":
IGM(X^(0)) = ||Σ(X^(0))Z + μ(X^(0)) - X*||2
用于測(cè)量初始值與目標(biāo)之間的粗略距離,X^(0)從{Z, Z0}中選擇。在論文的附錄中,不同的范數(shù)顯示了類(lèi)似的結(jié)果,譜范數(shù)稍好一些,因此作者在本文中使用了譜范數(shù)。
IGM可以被視為一種模型屬性,一旦訓(xùn)練完成就確定了。因此,不需要在每次采樣時(shí)重復(fù)計(jì)算,而是可以使用以下步驟:
1. 從訓(xùn)練集中選擇一批圖像,將其補(bǔ)丁化為大小(B, T, C),即X*; 2. 將X*通過(guò)TarFlow塊前向傳遞,得到Z = Σ^(-1)(X*)(X* - μ(X*)); 3. 使用{Z, Z0}兩種初始值計(jì)算殘差Σ(X^(0))Z + μ(X^(0)) - X*; 4. 計(jì)算B維度上殘差的均值,計(jì)算(T, C)矩陣的范數(shù)。
四、智能迭代控制:收斂排名指標(biāo)(CRM)
當(dāng)使用雅可比迭代采樣時(shí),盡管所有塊最終都會(huì)收斂,但有些塊只需很少的迭代k就能得到不錯(cuò)的解,而其他塊則需要接近T-1的迭代。如實(shí)驗(yàn)所示,Img128cond的Block6、AFHQ的Block7、Img64cond的Block0和Img64uncond的Block6相比其他塊表現(xiàn)更差。為了度量這種差異,作者提出了以下收斂排名指標(biāo):
CRM = ||Σ^(-1)(X)X||2 * ||Ws||2 + ||Wu||2
其中Ws和Wu是s(x<t)和u(x<t)的投影輸出層的權(quán)重矩陣。Ws度量方差的變化;Wu度量均值,Σ^(-1)(X)X度量非體積保持性。
這個(gè)指標(biāo)并不嚴(yán)格測(cè)量收斂率,而只代表TarFlow塊之間的相對(duì)收斂排名,因此被稱(chēng)為排名指標(biāo)。在實(shí)驗(yàn)中,不同的矩陣范數(shù)在相對(duì)排名上表現(xiàn)相似,因此作者使用了譜范數(shù)。
通過(guò)CRM,可以知道一個(gè)塊是能夠快速收斂還是緩慢收斂,從而大致確定雅可比迭代的次數(shù)。在表格中顯示CRM值較大的塊在實(shí)驗(yàn)中收斂較慢。在實(shí)踐中,盡管TarFlow中只有很少的塊收斂緩慢,但這嚴(yán)重影響了雅可比迭代方法的速度和有效性:對(duì)于"困難"的塊,較少的迭代會(huì)導(dǎo)致生成質(zhì)量不佳,而更多的迭代雖然改進(jìn)了模型但同時(shí)失去了速度優(yōu)勢(shì)。
五、模塊化高斯-賽德?tīng)?雅可比迭代:最佳解決方案
對(duì)于(B, T, C)張量,雅可比迭代一次更新所有T個(gè)單元,而傳統(tǒng)的"For"循環(huán)一次更新1個(gè)單元,串行運(yùn)行T-1次。自然地,一種中間方法是在一次迭代中并行(使用雅可比)更新一組單元,然后串行到另一組,這就是所謂的高斯-賽德?tīng)?雅可比迭代。
設(shè)X := {xt}^T_{t=1},{Gg}^G_{g=1}是時(shí)間步索引1:T的非遞減分段,Xg := {xt|t ∈ Gg}^G_{g=1},X:g := ∪^g_{i=1} Xi,以及{Z, zt}、{Σ, σt}、{μ, ut}的類(lèi)似定義。
所有關(guān)于雅可比模式迭代的分析都適用于GS-雅可比采樣的模塊。作者指出,GS-雅可比可以有效地改進(jìn)具有大CRM值的塊的解決方案:
1. 由于初始猜測(cè)值導(dǎo)致的數(shù)值溢出概率大大降低。誤差矩陣的大小更小,因此誤差累加也減少; 2. 每個(gè)子雅可比的收斂將被加速,因?yàn)楦咏竺娴哪K將有一個(gè)更準(zhǔn)確的初始值; 3. 適當(dāng)?shù)腉S-雅可比策略(選擇Gg和最大雅可比迭代次數(shù))可以實(shí)現(xiàn)既準(zhǔn)確又快速的解決方案。
研究團(tuán)隊(duì)將困難塊分成8個(gè)相等的模塊并應(yīng)用GS-雅可比迭代。結(jié)果顯示,純雅可比迭代對(duì)于困難塊需要50到150次才能收斂,而GS-雅可比方法將這個(gè)數(shù)字降低到大約30次,而且通常只有模塊1遇到更困難的收斂軌跡。
因此,一個(gè)合適的策略可以利用這種模塊化迭代方法。理想情況下,應(yīng)該為每個(gè)GS-雅可比模塊計(jì)算IGM和CRM,以判斷它是否困難。然后,為每個(gè)模塊分配更多迭代給大CRM,反之亦然。這可以看作是一種自適應(yīng)策略。
在實(shí)踐中,等大小分段和相同的雅可比次數(shù)通常就足夠了。策略可以用[Stack-GS-J-Else]格式表示:Stack表示應(yīng)該分段的困難塊;GS表示相等大小分段的數(shù)量,長(zhǎng)度為T(mén)//GS;J表示每個(gè)模塊的最大雅可比次數(shù);Else表示其他具有小CRM的塊的最大雅可比次數(shù)。
要確定哪些塊需要堆疊,可以一個(gè)接一個(gè)地選擇具有大CRM的塊,直到剩余集合中沒(méi)有主導(dǎo)塊。根據(jù)實(shí)驗(yàn)結(jié)果,作者堆疊了Img128cond中的Block6、AFHQ中的Block7、Img64uncond中的Block0&6以及Img64cond中的Block0&7。
六、實(shí)驗(yàn)結(jié)果:速度與質(zhì)量的完美平衡
研究團(tuán)隊(duì)訓(xùn)練了四個(gè)由Zhai等人給出的模型:用于條件ImageNet 128×128的TARFLOW [4-1024-8-8-N(0, 0.15^2)];用于AFHQ 256×256的TARFLOW [8-768-8-8-N(0, 0.07^2)];用于無(wú)條件ImageNet 64×64的TARFLOW [2-768-8-8-N(0, 0.05^2)];用于條件ImageNet 64×64的TARFLOW [4-1024-8-8-N(0, 0.05^2)]。前三個(gè)模型的T=1024,最后一個(gè)的T=256,所有四個(gè)模型都有8個(gè)TarFlow塊。為方便起見(jiàn),這些模型分別被稱(chēng)為Img128cond、AFHQ、Img64uncond和Img64cond。
首先,研究團(tuán)隊(duì)使用128個(gè)訓(xùn)練圖像計(jì)算了四個(gè)模型的IGM。結(jié)果顯示,Img128cond和AFHQ在兩種初始化方法之間沒(méi)有顯著差異,而Img64cond和Img64uncond在將所有塊的X^(0)設(shè)為Z時(shí)會(huì)崩潰。這在表格中很明顯,因?yàn)槭褂肵^(0)=Z時(shí),Img64cond和Img64uncond中Block0的IGM值異常高,而設(shè)置X^(0)=Z0可以緩解這一問(wèn)題。
IGM與迭代過(guò)程中可能出現(xiàn)的最大值高度相關(guān)。研究發(fā)現(xiàn),Img64cond和Img64uncond對(duì)初始值更加敏感。這可能是因?yàn)榈头直媛蕡D像更容易在像素之間發(fā)生突變,導(dǎo)致注意力層參數(shù)出現(xiàn)巨大波動(dòng)。在實(shí)踐中,GS-雅可比分段可以大大改善數(shù)值溢出的問(wèn)題,因此簡(jiǎn)單地根據(jù)IGM初始化Z或Z0就足夠了。
接下來(lái),研究團(tuán)隊(duì)計(jì)算了四個(gè)模型的CRM。結(jié)果與實(shí)驗(yàn)觀察一致,遵循簡(jiǎn)單規(guī)則:CRM越大,收斂所需的雅可比次數(shù)越多,反之亦然。
一個(gè)重要的特性是,TarFlow模型中只有很少的塊具有相對(duì)較大的CRM。這可能是因?yàn)門(mén)arFlow或其他基于規(guī)范化流的生成模型是過(guò)度確定的,這意味著參數(shù)量相對(duì)于生成能力是冗余的,許多塊并沒(méi)有顯著修改圖像,只是精心調(diào)整。從實(shí)驗(yàn)可視化結(jié)果可以看出,許多中間塊沒(méi)有明顯的變化,這為GS-雅可比加速提供了可能性。
最后,研究團(tuán)隊(duì)調(diào)整了超參數(shù)cfg(無(wú)分類(lèi)器引導(dǎo))、lr(去噪學(xué)習(xí)率)、attntemp(注意力溫度),使用"For"迭代采樣了50,000張圖像,以恢復(fù)Zhai等人的FID結(jié)果。將其視為目標(biāo)FID,然后保持超參數(shù)一致,使用不同的GS-雅可比策略進(jìn)行采樣,記錄FID、相對(duì)誤差(%)、運(yùn)行時(shí)間(100秒)和加速率。相對(duì)誤差小于1%的速率被加粗顯示。所有采樣都在8個(gè)具有80G內(nèi)存的A800 GPU上進(jìn)行。
在Img128cond上,保持困難塊Block6的"For"迭代,對(duì)其他塊使用少量純雅可比就足以獲得良好的FID,如[6-1024-1-10],速度提升3.67倍。然后,研究團(tuán)隊(duì)固定Block6的總雅可比次數(shù)為128和256,嘗試不同的[GS-J]對(duì)。結(jié)果發(fā)現(xiàn),簡(jiǎn)單策略如[6-8-32-10]可以實(shí)現(xiàn)相對(duì)誤差<1%的結(jié)果和驚人的速度提升。
AFHQ的采樣結(jié)果類(lèi)似。由于這兩個(gè)模型都只有一個(gè)困難塊,加速率表現(xiàn)相似。對(duì)于Img64模型,情況有所不同。在Img64uncond中,由于堆疊了Block0和6,加速率不如單一困難塊模型高,但仍能提速約3倍。
在Img64uncond中,由于兩個(gè)困難塊的CRM沒(méi)有絕對(duì)差距,研究團(tuán)隊(duì)將它們視為相等。對(duì)于Img64cond,研究團(tuán)隊(duì)首先將Block0和Block7都堆疊到原始"For"循環(huán)中,得到2.31的速率。然后,保持Block0不變,嘗試不同的Block7策略,速率可以提高到2.42。根據(jù)實(shí)驗(yàn)結(jié)果,研究團(tuán)隊(duì)注意到Block0的行為比其他任何塊都更困難,因此將Block0分成更多模塊,獲得了2.51倍的速度提升。
基于所有實(shí)驗(yàn),研究團(tuán)隊(duì)得出結(jié)論:具有主導(dǎo)CRM的塊越少,補(bǔ)丁化后的時(shí)間步越長(zhǎng),GS-雅可比采樣能夠?qū)崿F(xiàn)的加速就越明顯。這與直覺(jué)一致。GS-雅可比通過(guò)并行迭代一批方程來(lái)實(shí)現(xiàn)加速,避免了"For"循環(huán)中重復(fù)串行更新kv緩存。
七、結(jié)論與未來(lái)展望
本研究全面優(yōu)化了TarFlow模型的采樣過(guò)程。通過(guò)識(shí)別TarFlow塊中的非均勻轉(zhuǎn)換模式并提出IGM和CRM,研究團(tuán)隊(duì)有效地解決了初始值選擇和收斂率差異的問(wèn)題。GS-雅可比迭代的引入及其深入的誤差傳播分析為T(mén)arFlow采樣提供了實(shí)用且高效的解決方案。
多個(gè)TarFlow模型上的實(shí)驗(yàn)結(jié)果表明了所提出方法的優(yōu)越性。GS-雅可比采樣在不降低樣本質(zhì)量的情況下,在Img128cond上實(shí)現(xiàn)了4.53倍的加速,在AFHQ上實(shí)現(xiàn)了5.32倍的加速,在Img64uncond上實(shí)現(xiàn)了2.96倍的加速,在Img64cond上實(shí)現(xiàn)了2.51倍的加速,這對(duì)TarFlow模型的應(yīng)用具有重要意義。
然而,仍有一些方面可以進(jìn)一步改進(jìn)。計(jì)算CRM的強(qiáng)假設(shè)需要更多的理論驗(yàn)證。此外,當(dāng)前確定GS-雅可比參數(shù)的方法相對(duì)簡(jiǎn)單,未來(lái)有望開(kāi)發(fā)出更智能和自適應(yīng)的策略。
這項(xiàng)研究不僅提供了一種加速TarFlow采樣的實(shí)用方法,還為理解和優(yōu)化復(fù)雜生成模型的采樣過(guò)程提供了有價(jià)值的見(jiàn)解。隨著人工智能圖像生成技術(shù)的不斷發(fā)展,這種優(yōu)化技術(shù)將對(duì)提高模型的實(shí)用性和效率產(chǎn)生重要影響。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。