av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 視頻加速革命:圣地亞哥大學(xué)團(tuán)隊(duì)打造可訓(xùn)練稀疏注意力機(jī)制,讓視頻生成更快更強(qiáng)

視頻加速革命:圣地亞哥大學(xué)團(tuán)隊(duì)打造可訓(xùn)練稀疏注意力機(jī)制,讓視頻生成更快更強(qiáng)

2025-05-23 07:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:47 ? 科技行者

在人工智能快速發(fā)展的今天,高質(zhì)量視頻生成技術(shù)已經(jīng)成為研究熱點(diǎn),但長時(shí)間高分辨率視頻的生成依然面臨巨大挑戰(zhàn)。2025年5月,來自加州大學(xué)圣地亞哥分校的Peiyuan Zhang、Haofeng Huang、Yongqi Chen、Will Lin與MBZUAI的Zhengzhong Liu、加州大學(xué)伯克利分校的Ion Stoica、MBZUAI的Eric P. Xing以及加州大學(xué)圣地亞哥分校的Hao Zhang共同發(fā)表了一篇題為《Faster Video Diffusion with Trainable Sparse Attention》的研究論文,提出了一種名為VSA(Video Sparse Attention)的創(chuàng)新稀疏注意力機(jī)制,為視頻擴(kuò)散模型(Video Diffusion Transformers,簡稱DiT)的訓(xùn)練和推理帶來了顯著的速度提升。這篇論文已經(jīng)在arXiv預(yù)印本平臺(tái)上發(fā)布(arXiv:2505.13389v1),為視頻生成領(lǐng)域帶來了令人振奮的進(jìn)展。

想象一下,即使是一段短短5秒的720p視頻,當(dāng)展開成序列時(shí)也會(huì)包含超過10萬個(gè)標(biāo)記(tokens)。這就像是要同時(shí)跟蹤一本厚厚的百科全書中的每一個(gè)詞,并理解它們之間的所有關(guān)系!這使得視頻DiT模型在處理全分辨率、長序列數(shù)據(jù)時(shí)面臨巨大的計(jì)算挑戰(zhàn)。

但研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在這些模型中,注意力矩陣(想象成一個(gè)巨大的"重要性表格",記錄了每個(gè)視頻元素與其他元素之間的關(guān)聯(lián)程度)大部分值接近于零。換句話說,在生成視頻時(shí),只有少數(shù)"關(guān)鍵元素"真正重要,而大多數(shù)元素的影響微乎其微。

這就像是在人山人海的音樂會(huì)上,雖然周圍有成千上萬的人,但你真正會(huì)關(guān)注的可能只有舞臺(tái)上的表演者和你周圍的幾個(gè)朋友?;谶@一洞察,研究團(tuán)隊(duì)設(shè)計(jì)了VSA,一種可訓(xùn)練的稀疏注意力機(jī)制,它能夠自動(dòng)識(shí)別這些"關(guān)鍵元素",并僅在這些元素上進(jìn)行計(jì)算,從而大幅提高處理效率。

與之前的方法不同,VSA不是在模型訓(xùn)練完成后才應(yīng)用稀疏注意力(這種做法會(huì)導(dǎo)致訓(xùn)練和測(cè)試不一致),而是從一開始就將稀疏注意力融入訓(xùn)練過程。這就像是一開始就教會(huì)運(yùn)動(dòng)員使用更高效的動(dòng)作,而不是讓他們用低效方式訓(xùn)練完成后再糾正。

VSA的核心設(shè)計(jì)非常巧妙:它將視頻分割成小立方體,先在粗粒度層面快速識(shí)別重要區(qū)域,再在這些區(qū)域內(nèi)進(jìn)行細(xì)粒度的精確計(jì)算。整個(gè)過程端到端可訓(xùn)練,無需后期調(diào)整,并且與GPU硬件高度兼容,確保理論上的計(jì)算節(jié)省能真正轉(zhuǎn)化為實(shí)際的速度提升。

研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn),從6千萬到14億參數(shù)不等的模型訓(xùn)練,結(jié)果表明VSA能在不損失生成質(zhì)量的情況下,將注意力計(jì)算量減少8倍,總訓(xùn)練計(jì)算量減少2.53倍。當(dāng)將VSA應(yīng)用于現(xiàn)有的開源模型Wan-2.1時(shí),注意力計(jì)算速度提升了6倍,整體生成時(shí)間從31秒減少到18秒,同時(shí)保持相當(dāng)?shù)纳少|(zhì)量。

這項(xiàng)研究的意義在于,它不僅提供了一種實(shí)用的稀疏注意力訓(xùn)練方法,更為視頻擴(kuò)散模型的進(jìn)一步擴(kuò)展和應(yīng)用鋪平了道路。隨著VSA等技術(shù)的發(fā)展,我們距離高質(zhì)量、高效率的視頻生成又邁進(jìn)了一大步。

一、為什么視頻生成如此困難?理解問題的本質(zhì)

想象你正在制作一部動(dòng)畫電影。每一幀都需要與前后幀保持連貫,人物、背景和動(dòng)作都需要流暢自然。現(xiàn)在,假設(shè)這部電影有24幀/秒,時(shí)長5分鐘,那就是7200多幀畫面需要協(xié)調(diào)一致。這就是視頻生成面臨的基本挑戰(zhàn)。

在技術(shù)層面,最先進(jìn)的視頻生成模型采用了名為"視頻擴(kuò)散變換器"(Video Diffusion Transformers,簡稱DiT)的架構(gòu)。這些模型使用"注意力機(jī)制"來處理視頻中的依賴關(guān)系,就像一個(gè)超級(jí)協(xié)調(diào)員,確保視頻中的每個(gè)元素(像素或區(qū)域)都能"關(guān)注"到其他相關(guān)元素,從而維持連貫性和一致性。

然而,這種注意力機(jī)制的計(jì)算復(fù)雜度是平方級(jí)的。具體來說,如果視頻有L個(gè)標(biāo)記(tokens,可以理解為視頻的基本單位),那么注意力計(jì)算的復(fù)雜度就是O(L?)。對(duì)于一個(gè)短短5秒的720p視頻,展開后會(huì)有超過10萬個(gè)標(biāo)記,這意味著需要計(jì)算100億級(jí)別的關(guān)聯(lián)!這就是為什么即使是最先進(jìn)的視頻生成模型,如Wan2.1、Hunyuan Video等,在生成高分辨率長視頻時(shí)仍然非常緩慢。

有趣的是,研究人員觀察到一個(gè)重要現(xiàn)象:在這些注意力計(jì)算中,大部分計(jì)算結(jié)果接近于零,只有少數(shù)"關(guān)鍵標(biāo)記"之間的關(guān)聯(lián)真正重要。這就像是在人群中,你主要關(guān)注說話的人和你直接互動(dòng)的人,而不是每個(gè)路過的行人。

這一觀察為優(yōu)化提供了方向:如果能夠準(zhǔn)確識(shí)別這些關(guān)鍵標(biāo)記,并且只計(jì)算它們之間的注意力,就可以大大減少計(jì)算量而不明顯影響生成質(zhì)量。這正是VSA(Video Sparse Attention)要解決的問題。

二、VSA如何巧妙解決"雞與蛋"困境?

設(shè)計(jì)可訓(xùn)練的稀疏注意力機(jī)制面臨一個(gè)根本性的"雞與蛋"困境:要準(zhǔn)確找出關(guān)鍵標(biāo)記,傳統(tǒng)方法需要先計(jì)算完整的注意力矩陣,但這樣做就失去了使用稀疏注意力的意義;而如果使用簡單的啟發(fā)式方法(比如固定的窗口注意力),又可能會(huì)遺漏重要信息。更重要的是,任何實(shí)用的注意力實(shí)現(xiàn)都必須符合現(xiàn)代GPU內(nèi)核(如Flash Attention)所期望的塊稀疏布局,否則理論上的計(jì)算節(jié)省無法轉(zhuǎn)化為實(shí)際的速度提升。

VSA通過一個(gè)巧妙的兩階段設(shè)計(jì)解決了這一困境:

首先是粗粒度階段(coarse stage)。VSA將視頻潛在表示劃分為多個(gè)4×4×4的立方體。每個(gè)立方體包含64個(gè)標(biāo)記,通過平均池化操作將其壓縮為一個(gè)單一表示。這樣,一個(gè)擁有10萬標(biāo)記的視頻就被壓縮成約1500個(gè)立方體級(jí)表示。然后,VSA在這些壓縮表示上執(zhí)行全連接注意力,這一計(jì)算非常輕量級(jí),但足以捕捉全局上下文并準(zhǔn)確預(yù)測(cè)哪些立方體包含關(guān)鍵標(biāo)記。

接著是細(xì)粒度階段(fine stage)。根據(jù)粗粒度階段的預(yù)測(cè)結(jié)果,VSA選擇Top-K個(gè)最重要的立方體(默認(rèn)K=32),并只在這些立方體內(nèi)的標(biāo)記上執(zhí)行標(biāo)記級(jí)別的注意力計(jì)算。這確保了計(jì)算資源集中在最有影響的區(qū)域,同時(shí)嚴(yán)格遵循硬件友好的塊計(jì)算布局。

最后,VSA通過一個(gè)可微分的門控機(jī)制結(jié)合兩個(gè)階段的輸出,得到最終的注意力結(jié)果。整個(gè)過程端到端可訓(xùn)練,不依賴于后期剖析,且能保持Flash Attention 3的約85%計(jì)算效率。

VSA的一個(gè)關(guān)鍵設(shè)計(jì)參數(shù)是立方體大小。小立方體讓粗粒度階段能更精確地定位關(guān)鍵標(biāo)記,但會(huì)導(dǎo)致工作分散到更多小塊,降低GPU吞吐量。大立方體則提升計(jì)算強(qiáng)度,但可能在一個(gè)立方體內(nèi)包含過多非關(guān)鍵標(biāo)記,從而模糊了稀疏性。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),64大小的立方體(對(duì)應(yīng)4×4×4標(biāo)記)提供了表達(dá)能力和效率之間的最佳平衡。

三、VSA的設(shè)計(jì)空間探索:尋找最佳配置

在確定VSA最終設(shè)計(jì)之前,研究團(tuán)隊(duì)進(jìn)行了詳盡的設(shè)計(jì)空間探索,通過系統(tǒng)性實(shí)驗(yàn)解答了幾個(gè)關(guān)鍵問題:數(shù)據(jù)依賴的可訓(xùn)練稀疏性是否優(yōu)于固定模式?全局信息和局部信息各自的重要性如何?最佳的立方體大小應(yīng)該是多少?

首先,研究團(tuán)隊(duì)比較了VSA與現(xiàn)有稀疏注意力方法。實(shí)驗(yàn)表明,在計(jì)算最優(yōu)的訓(xùn)練預(yù)算(4.5×10^20 FLOPS)下,現(xiàn)有稀疏方法如壓縮KV(Compress KV)、時(shí)空注意力(Spatial Temporal)等初期表現(xiàn)優(yōu)于全注意力(Full Attention),但隨著訓(xùn)練的延長(4×10^21 FLOPS),全注意力最終超越了這些固定模式方法。而VSA在兩種訓(xùn)練預(yù)算下都保持領(lǐng)先,證明了數(shù)據(jù)依賴的可訓(xùn)練稀疏性的優(yōu)勢(shì)。

其次,研究團(tuán)隊(duì)分析了不同注意力組件的貢獻(xiàn)。他們對(duì)比了使用固定局部模式("L",使用3×3×3窗口)與數(shù)據(jù)依賴模式的效果,同時(shí)考察了粗粒度階段("C")對(duì)最終注意力輸出的影響。結(jié)果顯示,數(shù)據(jù)依賴模式始終優(yōu)于固定模式,而包含粗粒度階段輸出的模型表現(xiàn)更佳,證明了全局信息的必要性和自適應(yīng)稀疏性的優(yōu)勢(shì)。

研究團(tuán)隊(duì)還測(cè)試了三種加入局部上下文的方法:添加單獨(dú)的局部階段(3×3×3窗口注意力)、明確排除局部階段選擇的立方體、強(qiáng)制細(xì)粒度階段包含局部立方體。所有三種變體表現(xiàn)相近,表明顯式局部建模提供的益處有限。這一發(fā)現(xiàn)與直覺相反,因?yàn)橐曈X模型通常從局部先驗(yàn)中獲益。

關(guān)于立方體大小,實(shí)驗(yàn)結(jié)果證實(shí)了理論預(yù)期:較小的立方體確實(shí)通過更精細(xì)的注意力粒度降低模型損失,但以犧牲GPU吞吐量為代價(jià)。當(dāng)立方體大小從256(4×8×8)減小到16(2×4×2)時(shí),模型損失穩(wěn)步下降,但TFLOPS(每秒萬億次浮點(diǎn)運(yùn)算)從478降至181,意味著實(shí)際運(yùn)行速度大幅下降。研究團(tuán)隊(duì)最終選擇了64(4×4×4)作為默認(rèn)配置,在表達(dá)能力和效率之間取得良好平衡。

在預(yù)測(cè)關(guān)鍵標(biāo)記方面,平均池化(Average Pooling)優(yōu)于最大池化(Max Pooling)和卷積方法(Conv),后者甚至導(dǎo)致訓(xùn)練不穩(wěn)定。這一結(jié)果令人驚訝,因?yàn)橹庇X上,最大池化或更復(fù)雜的卷積應(yīng)該能更好地捕捉關(guān)鍵特征。

這些發(fā)現(xiàn)表明,VSA的最佳配置是結(jié)合全局粗粒度階段和自由選擇的細(xì)粒度階段,使用64大小的立方體和87.5%的注意力稀疏性,不需要特意注入局部性先驗(yàn)。所有這些設(shè)計(jì)選擇在保持高效內(nèi)核執(zhí)行的同時(shí)實(shí)現(xiàn)了與全注意力相當(dāng)?shù)男阅堋?/p>

四、VSA的擴(kuò)展性研究與實(shí)際應(yīng)用

為了驗(yàn)證VSA的實(shí)際效果和擴(kuò)展性,研究團(tuán)隊(duì)進(jìn)行了一系列從6千萬到14億參數(shù)的模型訓(xùn)練實(shí)驗(yàn),并將VSA應(yīng)用于現(xiàn)有的開源模型。

首先,研究團(tuán)隊(duì)預(yù)訓(xùn)練了一個(gè)4.1億參數(shù)的視頻DiT模型,處理16×32×32形狀的潛在表示(共16,384個(gè)標(biāo)記)。結(jié)果表明,盡管VSA具有87.5%的稀疏性(在256個(gè)立方體中只選擇Top-32),它仍然達(dá)到了與全注意力幾乎相同的損失值,同時(shí)將注意力計(jì)算量減少了8倍,整體訓(xùn)練計(jì)算量減少了2.53倍。進(jìn)一步的擴(kuò)展實(shí)驗(yàn)(從6千萬到14億參數(shù),最高達(dá)4×10^21 FLOPS的訓(xùn)練計(jì)算量)證實(shí),VSA在各種規(guī)模下都能保持這一優(yōu)勢(shì),產(chǎn)生優(yōu)于全注意力的Pareto前沿。

一個(gè)重要的設(shè)計(jì)問題是確定最佳稀疏水平(通過Top-K參數(shù)控制)。研究團(tuán)隊(duì)發(fā)現(xiàn),在固定訓(xùn)練預(yù)算(4.5×10^20 FLOPS)下,K=32對(duì)8192、16384和24675的序列長度都表現(xiàn)良好,但在61440序列長度下表現(xiàn)不如K=16。這一發(fā)現(xiàn)與常規(guī)直覺相反,常規(guī)直覺認(rèn)為更長的序列需要更高的K值。進(jìn)一步研究顯示,隨著訓(xùn)練計(jì)算量增加到1×10^21 FLOPS,K=32最終超過了K=16,表明最佳K值取決于序列長度和訓(xùn)練預(yù)算的組合。

在實(shí)際應(yīng)用方面,研究團(tuán)隊(duì)將VSA應(yīng)用于預(yù)訓(xùn)練的Wan-1.3B模型(原始訓(xùn)練使用全注意力)。為確保平穩(wěn)過渡,他們開發(fā)了一種退火策略:初始化粗粒度門控權(quán)重為零,移除細(xì)粒度門控(等效于設(shè)置為1),并從低稀疏度開始(相當(dāng)于全注意力),然后逐漸增加稀疏度。微調(diào)后的模型在VBench基準(zhǔn)測(cè)試中取得了與原始模型相當(dāng)?shù)姆謹(jǐn)?shù),證明VSA能保持生成質(zhì)量。與SVG(一種訓(xùn)練后稀疏化方法)相比,即使在更高稀疏度下,VSA也獲得了更多用戶偏好。

在核心性能方面,VSA的細(xì)粒度塊稀疏核心在長序列上接近理論極限,比FlashAttention-3快近7倍,即使考慮粗粒度階段計(jì)算,仍保持6倍以上的加速。相比之下,使用相同塊稀疏掩碼(64×64塊大小)的FlexAttention僅實(shí)現(xiàn)了2倍加速。將VSA應(yīng)用于Wan-1.3B和Hunyuan帶來了2-3倍的推理加速。

通過檢查微調(diào)后的1.3B模型生成的塊稀疏注意力圖,研究人員確認(rèn)了VSA的注意力模式高度動(dòng)態(tài),證實(shí)了數(shù)據(jù)依賴的稀疏性的必要性。不同注意力頭展現(xiàn)出明顯不同的行為,有些類似于滑動(dòng)窗口注意力(專注于查詢附近的標(biāo)記),有些類似于時(shí)空注意力(專注于同一幀內(nèi)或同一時(shí)間-寬度平面上的標(biāo)記),而其他一些則顯示出全局特性或局部與全局的混合。

關(guān)鍵標(biāo)記預(yù)測(cè)的準(zhǔn)確率分析顯示,VSA能夠始終保持高準(zhǔn)確率,在大多數(shù)層和時(shí)間步上達(dá)到至少60%,最高達(dá)90%。相比之下,隨機(jī)選擇386個(gè)立方體中的32個(gè)僅能捕捉8%的注意力分?jǐn)?shù)。這證明了VSA強(qiáng)大的關(guān)鍵標(biāo)記識(shí)別能力。此外,即使細(xì)粒度階段遺漏了部分注意力權(quán)重,粗粒度階段的直接輸出也能潛在地彌補(bǔ)這一缺失。

五、VSA為視頻生成帶來的變革與未來展望

VSA的出現(xiàn)標(biāo)志著視頻擴(kuò)散模型邁向更高效率的重要一步。與以往方法不同,VSA不僅僅是對(duì)預(yù)訓(xùn)練模型的后期加速,而是從根本上改變了視頻DiT的訓(xùn)練和推理方式。

傳統(tǒng)上,視頻生成面臨著一個(gè)兩難困境:要么犧牲分辨率和長度以保持計(jì)算可行性,要么投入大量算力用于訓(xùn)練全注意力模型。VSA提供了一條中間道路,通過智能地識(shí)別和專注于關(guān)鍵標(biāo)記,實(shí)現(xiàn)了計(jì)算效率和生成質(zhì)量的雙贏。

相比語言模型領(lǐng)域,視頻DiT對(duì)可訓(xùn)練稀疏注意力的需求更為緊迫。首先,視頻DiT處理的序列更長——即使100K標(biāo)記的上下文僅能生成5秒視頻,遠(yuǎn)低于日常使用所需。其次,與語言模型不同,最先進(jìn)的視頻DiT主要將計(jì)算用于全分辨率、長序列訓(xùn)練,沒有"先短后長"的適應(yīng)范式。因此,這些模型在訓(xùn)練和推理階段都受限于二次方復(fù)雜度的注意力計(jì)算。

VSA的創(chuàng)新在于其端到端訓(xùn)練方法和硬件對(duì)齊設(shè)計(jì)。通過粗粒度和細(xì)粒度兩階段的層次化注意力,VSA能夠在不損失生成質(zhì)量的情況下顯著降低計(jì)算復(fù)雜度。與此同時(shí),VSA的塊稀疏模式專為現(xiàn)代GPU優(yōu)化,確保理論上的FLOPS減少能轉(zhuǎn)化為實(shí)際的墻鐘時(shí)間加速。

實(shí)際應(yīng)用證明,VSA能將Wan-1.3B模型的推理延遲從31秒(使用torch compile的全注意力)降至18秒,同時(shí)保持相當(dāng)?shù)纳少|(zhì)量。這一加速可能聽起來不算太多,但對(duì)于日常用戶而言,將等待時(shí)間從半分鐘縮短到不到20秒,意味著生成體驗(yàn)從"需要耐心等待"變?yōu)?幾乎即時(shí)響應(yīng)",這對(duì)提升用戶體驗(yàn)和擴(kuò)大應(yīng)用場景具有重要意義。

VSA目前存在一些局限性。它使用固定的(4,4,4)立方體大小,要求視頻潛在維度能被4整除。雖然這可能限制了兼容分辨率的集合,但在實(shí)踐中可以通過生成稍大的潛在表示并裁剪到目標(biāo)形狀來解決。另一個(gè)開放問題是如何確定最佳稀疏度。雖然縮放實(shí)驗(yàn)提供了初步見解,但完整理解可能需要擴(kuò)展縮放定律,在模型大小和訓(xùn)練計(jì)算量之外,明確考慮稀疏度因素。

從更廣泛的角度看,VSA的成功表明,可訓(xùn)練的稀疏注意力不僅是對(duì)現(xiàn)有技術(shù)的輔助優(yōu)化,而是視頻DiT設(shè)計(jì)的核心組成部分。隨著VSA等技術(shù)的發(fā)展,我們可以期待視頻生成技術(shù)在效率和質(zhì)量上的進(jìn)一步飛躍,最終實(shí)現(xiàn)真正高質(zhì)量、高效率的長視頻生成。

研究團(tuán)隊(duì)表示,希望這項(xiàng)工作能夠確立可訓(xùn)練稀疏注意力作為全注意力的實(shí)用和可擴(kuò)展替代方案,并為視頻DiT的進(jìn)一步擴(kuò)展奠定基礎(chǔ)。從長遠(yuǎn)來看,VSA的思想可能擴(kuò)展到其他涉及長序列處理的領(lǐng)域,為各種多模態(tài)生成任務(wù)帶來新的可能性。

歸根結(jié)底,VSA的關(guān)鍵貢獻(xiàn)在于它證明了一個(gè)重要觀點(diǎn):通過精心設(shè)計(jì)的可訓(xùn)練稀疏注意力機(jī)制,我們可以在不犧牲質(zhì)量的情況下大幅提升效率。這不僅為視頻生成技術(shù)帶來了實(shí)質(zhì)性進(jìn)步,也為解決AI領(lǐng)域普遍存在的計(jì)算瓶頸提供了一種新的思路。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-