av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 視頻加速革命:圣地亞哥大學團隊打造可訓練稀疏注意力機制,讓視頻生成更快更強

視頻加速革命:圣地亞哥大學團隊打造可訓練稀疏注意力機制,讓視頻生成更快更強

2025-05-23 07:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:47 ? 科技行者

在人工智能快速發(fā)展的今天,高質(zhì)量視頻生成技術已經(jīng)成為研究熱點,但長時間高分辨率視頻的生成依然面臨巨大挑戰(zhàn)。2025年5月,來自加州大學圣地亞哥分校的Peiyuan Zhang、Haofeng Huang、Yongqi Chen、Will Lin與MBZUAI的Zhengzhong Liu、加州大學伯克利分校的Ion Stoica、MBZUAI的Eric P. Xing以及加州大學圣地亞哥分校的Hao Zhang共同發(fā)表了一篇題為《Faster Video Diffusion with Trainable Sparse Attention》的研究論文,提出了一種名為VSA(Video Sparse Attention)的創(chuàng)新稀疏注意力機制,為視頻擴散模型(Video Diffusion Transformers,簡稱DiT)的訓練和推理帶來了顯著的速度提升。這篇論文已經(jīng)在arXiv預印本平臺上發(fā)布(arXiv:2505.13389v1),為視頻生成領域帶來了令人振奮的進展。

想象一下,即使是一段短短5秒的720p視頻,當展開成序列時也會包含超過10萬個標記(tokens)。這就像是要同時跟蹤一本厚厚的百科全書中的每一個詞,并理解它們之間的所有關系!這使得視頻DiT模型在處理全分辨率、長序列數(shù)據(jù)時面臨巨大的計算挑戰(zhàn)。

但研究人員發(fā)現(xiàn)了一個有趣的現(xiàn)象:在這些模型中,注意力矩陣(想象成一個巨大的"重要性表格",記錄了每個視頻元素與其他元素之間的關聯(lián)程度)大部分值接近于零。換句話說,在生成視頻時,只有少數(shù)"關鍵元素"真正重要,而大多數(shù)元素的影響微乎其微。

這就像是在人山人海的音樂會上,雖然周圍有成千上萬的人,但你真正會關注的可能只有舞臺上的表演者和你周圍的幾個朋友?;谶@一洞察,研究團隊設計了VSA,一種可訓練的稀疏注意力機制,它能夠自動識別這些"關鍵元素",并僅在這些元素上進行計算,從而大幅提高處理效率。

與之前的方法不同,VSA不是在模型訓練完成后才應用稀疏注意力(這種做法會導致訓練和測試不一致),而是從一開始就將稀疏注意力融入訓練過程。這就像是一開始就教會運動員使用更高效的動作,而不是讓他們用低效方式訓練完成后再糾正。

VSA的核心設計非常巧妙:它將視頻分割成小立方體,先在粗粒度層面快速識別重要區(qū)域,再在這些區(qū)域內(nèi)進行細粒度的精確計算。整個過程端到端可訓練,無需后期調(diào)整,并且與GPU硬件高度兼容,確保理論上的計算節(jié)省能真正轉(zhuǎn)化為實際的速度提升。

研究團隊進行了大量實驗,從6千萬到14億參數(shù)不等的模型訓練,結(jié)果表明VSA能在不損失生成質(zhì)量的情況下,將注意力計算量減少8倍,總訓練計算量減少2.53倍。當將VSA應用于現(xiàn)有的開源模型Wan-2.1時,注意力計算速度提升了6倍,整體生成時間從31秒減少到18秒,同時保持相當?shù)纳少|(zhì)量。

這項研究的意義在于,它不僅提供了一種實用的稀疏注意力訓練方法,更為視頻擴散模型的進一步擴展和應用鋪平了道路。隨著VSA等技術的發(fā)展,我們距離高質(zhì)量、高效率的視頻生成又邁進了一大步。

一、為什么視頻生成如此困難?理解問題的本質(zhì)

想象你正在制作一部動畫電影。每一幀都需要與前后幀保持連貫,人物、背景和動作都需要流暢自然?,F(xiàn)在,假設這部電影有24幀/秒,時長5分鐘,那就是7200多幀畫面需要協(xié)調(diào)一致。這就是視頻生成面臨的基本挑戰(zhàn)。

在技術層面,最先進的視頻生成模型采用了名為"視頻擴散變換器"(Video Diffusion Transformers,簡稱DiT)的架構(gòu)。這些模型使用"注意力機制"來處理視頻中的依賴關系,就像一個超級協(xié)調(diào)員,確保視頻中的每個元素(像素或區(qū)域)都能"關注"到其他相關元素,從而維持連貫性和一致性。

然而,這種注意力機制的計算復雜度是平方級的。具體來說,如果視頻有L個標記(tokens,可以理解為視頻的基本單位),那么注意力計算的復雜度就是O(L?)。對于一個短短5秒的720p視頻,展開后會有超過10萬個標記,這意味著需要計算100億級別的關聯(lián)!這就是為什么即使是最先進的視頻生成模型,如Wan2.1、Hunyuan Video等,在生成高分辨率長視頻時仍然非常緩慢。

有趣的是,研究人員觀察到一個重要現(xiàn)象:在這些注意力計算中,大部分計算結(jié)果接近于零,只有少數(shù)"關鍵標記"之間的關聯(lián)真正重要。這就像是在人群中,你主要關注說話的人和你直接互動的人,而不是每個路過的行人。

這一觀察為優(yōu)化提供了方向:如果能夠準確識別這些關鍵標記,并且只計算它們之間的注意力,就可以大大減少計算量而不明顯影響生成質(zhì)量。這正是VSA(Video Sparse Attention)要解決的問題。

二、VSA如何巧妙解決"雞與蛋"困境?

設計可訓練的稀疏注意力機制面臨一個根本性的"雞與蛋"困境:要準確找出關鍵標記,傳統(tǒng)方法需要先計算完整的注意力矩陣,但這樣做就失去了使用稀疏注意力的意義;而如果使用簡單的啟發(fā)式方法(比如固定的窗口注意力),又可能會遺漏重要信息。更重要的是,任何實用的注意力實現(xiàn)都必須符合現(xiàn)代GPU內(nèi)核(如Flash Attention)所期望的塊稀疏布局,否則理論上的計算節(jié)省無法轉(zhuǎn)化為實際的速度提升。

VSA通過一個巧妙的兩階段設計解決了這一困境:

首先是粗粒度階段(coarse stage)。VSA將視頻潛在表示劃分為多個4×4×4的立方體。每個立方體包含64個標記,通過平均池化操作將其壓縮為一個單一表示。這樣,一個擁有10萬標記的視頻就被壓縮成約1500個立方體級表示。然后,VSA在這些壓縮表示上執(zhí)行全連接注意力,這一計算非常輕量級,但足以捕捉全局上下文并準確預測哪些立方體包含關鍵標記。

接著是細粒度階段(fine stage)。根據(jù)粗粒度階段的預測結(jié)果,VSA選擇Top-K個最重要的立方體(默認K=32),并只在這些立方體內(nèi)的標記上執(zhí)行標記級別的注意力計算。這確保了計算資源集中在最有影響的區(qū)域,同時嚴格遵循硬件友好的塊計算布局。

最后,VSA通過一個可微分的門控機制結(jié)合兩個階段的輸出,得到最終的注意力結(jié)果。整個過程端到端可訓練,不依賴于后期剖析,且能保持Flash Attention 3的約85%計算效率。

VSA的一個關鍵設計參數(shù)是立方體大小。小立方體讓粗粒度階段能更精確地定位關鍵標記,但會導致工作分散到更多小塊,降低GPU吞吐量。大立方體則提升計算強度,但可能在一個立方體內(nèi)包含過多非關鍵標記,從而模糊了稀疏性。研究團隊通過大量實驗發(fā)現(xiàn),64大小的立方體(對應4×4×4標記)提供了表達能力和效率之間的最佳平衡。

三、VSA的設計空間探索:尋找最佳配置

在確定VSA最終設計之前,研究團隊進行了詳盡的設計空間探索,通過系統(tǒng)性實驗解答了幾個關鍵問題:數(shù)據(jù)依賴的可訓練稀疏性是否優(yōu)于固定模式?全局信息和局部信息各自的重要性如何?最佳的立方體大小應該是多少?

首先,研究團隊比較了VSA與現(xiàn)有稀疏注意力方法。實驗表明,在計算最優(yōu)的訓練預算(4.5×10^20 FLOPS)下,現(xiàn)有稀疏方法如壓縮KV(Compress KV)、時空注意力(Spatial Temporal)等初期表現(xiàn)優(yōu)于全注意力(Full Attention),但隨著訓練的延長(4×10^21 FLOPS),全注意力最終超越了這些固定模式方法。而VSA在兩種訓練預算下都保持領先,證明了數(shù)據(jù)依賴的可訓練稀疏性的優(yōu)勢。

其次,研究團隊分析了不同注意力組件的貢獻。他們對比了使用固定局部模式("L",使用3×3×3窗口)與數(shù)據(jù)依賴模式的效果,同時考察了粗粒度階段("C")對最終注意力輸出的影響。結(jié)果顯示,數(shù)據(jù)依賴模式始終優(yōu)于固定模式,而包含粗粒度階段輸出的模型表現(xiàn)更佳,證明了全局信息的必要性和自適應稀疏性的優(yōu)勢。

研究團隊還測試了三種加入局部上下文的方法:添加單獨的局部階段(3×3×3窗口注意力)、明確排除局部階段選擇的立方體、強制細粒度階段包含局部立方體。所有三種變體表現(xiàn)相近,表明顯式局部建模提供的益處有限。這一發(fā)現(xiàn)與直覺相反,因為視覺模型通常從局部先驗中獲益。

關于立方體大小,實驗結(jié)果證實了理論預期:較小的立方體確實通過更精細的注意力粒度降低模型損失,但以犧牲GPU吞吐量為代價。當立方體大小從256(4×8×8)減小到16(2×4×2)時,模型損失穩(wěn)步下降,但TFLOPS(每秒萬億次浮點運算)從478降至181,意味著實際運行速度大幅下降。研究團隊最終選擇了64(4×4×4)作為默認配置,在表達能力和效率之間取得良好平衡。

在預測關鍵標記方面,平均池化(Average Pooling)優(yōu)于最大池化(Max Pooling)和卷積方法(Conv),后者甚至導致訓練不穩(wěn)定。這一結(jié)果令人驚訝,因為直覺上,最大池化或更復雜的卷積應該能更好地捕捉關鍵特征。

這些發(fā)現(xiàn)表明,VSA的最佳配置是結(jié)合全局粗粒度階段和自由選擇的細粒度階段,使用64大小的立方體和87.5%的注意力稀疏性,不需要特意注入局部性先驗。所有這些設計選擇在保持高效內(nèi)核執(zhí)行的同時實現(xiàn)了與全注意力相當?shù)男阅堋?/p>

四、VSA的擴展性研究與實際應用

為了驗證VSA的實際效果和擴展性,研究團隊進行了一系列從6千萬到14億參數(shù)的模型訓練實驗,并將VSA應用于現(xiàn)有的開源模型。

首先,研究團隊預訓練了一個4.1億參數(shù)的視頻DiT模型,處理16×32×32形狀的潛在表示(共16,384個標記)。結(jié)果表明,盡管VSA具有87.5%的稀疏性(在256個立方體中只選擇Top-32),它仍然達到了與全注意力幾乎相同的損失值,同時將注意力計算量減少了8倍,整體訓練計算量減少了2.53倍。進一步的擴展實驗(從6千萬到14億參數(shù),最高達4×10^21 FLOPS的訓練計算量)證實,VSA在各種規(guī)模下都能保持這一優(yōu)勢,產(chǎn)生優(yōu)于全注意力的Pareto前沿。

一個重要的設計問題是確定最佳稀疏水平(通過Top-K參數(shù)控制)。研究團隊發(fā)現(xiàn),在固定訓練預算(4.5×10^20 FLOPS)下,K=32對8192、16384和24675的序列長度都表現(xiàn)良好,但在61440序列長度下表現(xiàn)不如K=16。這一發(fā)現(xiàn)與常規(guī)直覺相反,常規(guī)直覺認為更長的序列需要更高的K值。進一步研究顯示,隨著訓練計算量增加到1×10^21 FLOPS,K=32最終超過了K=16,表明最佳K值取決于序列長度和訓練預算的組合。

在實際應用方面,研究團隊將VSA應用于預訓練的Wan-1.3B模型(原始訓練使用全注意力)。為確保平穩(wěn)過渡,他們開發(fā)了一種退火策略:初始化粗粒度門控權(quán)重為零,移除細粒度門控(等效于設置為1),并從低稀疏度開始(相當于全注意力),然后逐漸增加稀疏度。微調(diào)后的模型在VBench基準測試中取得了與原始模型相當?shù)姆謹?shù),證明VSA能保持生成質(zhì)量。與SVG(一種訓練后稀疏化方法)相比,即使在更高稀疏度下,VSA也獲得了更多用戶偏好。

在核心性能方面,VSA的細粒度塊稀疏核心在長序列上接近理論極限,比FlashAttention-3快近7倍,即使考慮粗粒度階段計算,仍保持6倍以上的加速。相比之下,使用相同塊稀疏掩碼(64×64塊大?。┑腇lexAttention僅實現(xiàn)了2倍加速。將VSA應用于Wan-1.3B和Hunyuan帶來了2-3倍的推理加速。

通過檢查微調(diào)后的1.3B模型生成的塊稀疏注意力圖,研究人員確認了VSA的注意力模式高度動態(tài),證實了數(shù)據(jù)依賴的稀疏性的必要性。不同注意力頭展現(xiàn)出明顯不同的行為,有些類似于滑動窗口注意力(專注于查詢附近的標記),有些類似于時空注意力(專注于同一幀內(nèi)或同一時間-寬度平面上的標記),而其他一些則顯示出全局特性或局部與全局的混合。

關鍵標記預測的準確率分析顯示,VSA能夠始終保持高準確率,在大多數(shù)層和時間步上達到至少60%,最高達90%。相比之下,隨機選擇386個立方體中的32個僅能捕捉8%的注意力分數(shù)。這證明了VSA強大的關鍵標記識別能力。此外,即使細粒度階段遺漏了部分注意力權(quán)重,粗粒度階段的直接輸出也能潛在地彌補這一缺失。

五、VSA為視頻生成帶來的變革與未來展望

VSA的出現(xiàn)標志著視頻擴散模型邁向更高效率的重要一步。與以往方法不同,VSA不僅僅是對預訓練模型的后期加速,而是從根本上改變了視頻DiT的訓練和推理方式。

傳統(tǒng)上,視頻生成面臨著一個兩難困境:要么犧牲分辨率和長度以保持計算可行性,要么投入大量算力用于訓練全注意力模型。VSA提供了一條中間道路,通過智能地識別和專注于關鍵標記,實現(xiàn)了計算效率和生成質(zhì)量的雙贏。

相比語言模型領域,視頻DiT對可訓練稀疏注意力的需求更為緊迫。首先,視頻DiT處理的序列更長——即使100K標記的上下文僅能生成5秒視頻,遠低于日常使用所需。其次,與語言模型不同,最先進的視頻DiT主要將計算用于全分辨率、長序列訓練,沒有"先短后長"的適應范式。因此,這些模型在訓練和推理階段都受限于二次方復雜度的注意力計算。

VSA的創(chuàng)新在于其端到端訓練方法和硬件對齊設計。通過粗粒度和細粒度兩階段的層次化注意力,VSA能夠在不損失生成質(zhì)量的情況下顯著降低計算復雜度。與此同時,VSA的塊稀疏模式專為現(xiàn)代GPU優(yōu)化,確保理論上的FLOPS減少能轉(zhuǎn)化為實際的墻鐘時間加速。

實際應用證明,VSA能將Wan-1.3B模型的推理延遲從31秒(使用torch compile的全注意力)降至18秒,同時保持相當?shù)纳少|(zhì)量。這一加速可能聽起來不算太多,但對于日常用戶而言,將等待時間從半分鐘縮短到不到20秒,意味著生成體驗從"需要耐心等待"變?yōu)?幾乎即時響應",這對提升用戶體驗和擴大應用場景具有重要意義。

VSA目前存在一些局限性。它使用固定的(4,4,4)立方體大小,要求視頻潛在維度能被4整除。雖然這可能限制了兼容分辨率的集合,但在實踐中可以通過生成稍大的潛在表示并裁剪到目標形狀來解決。另一個開放問題是如何確定最佳稀疏度。雖然縮放實驗提供了初步見解,但完整理解可能需要擴展縮放定律,在模型大小和訓練計算量之外,明確考慮稀疏度因素。

從更廣泛的角度看,VSA的成功表明,可訓練的稀疏注意力不僅是對現(xiàn)有技術的輔助優(yōu)化,而是視頻DiT設計的核心組成部分。隨著VSA等技術的發(fā)展,我們可以期待視頻生成技術在效率和質(zhì)量上的進一步飛躍,最終實現(xiàn)真正高質(zhì)量、高效率的長視頻生成。

研究團隊表示,希望這項工作能夠確立可訓練稀疏注意力作為全注意力的實用和可擴展替代方案,并為視頻DiT的進一步擴展奠定基礎。從長遠來看,VSA的思想可能擴展到其他涉及長序列處理的領域,為各種多模態(tài)生成任務帶來新的可能性。

歸根結(jié)底,VSA的關鍵貢獻在于它證明了一個重要觀點:通過精心設計的可訓練稀疏注意力機制,我們可以在不犧牲質(zhì)量的情況下大幅提升效率。這不僅為視頻生成技術帶來了實質(zhì)性進步,也為解決AI領域普遍存在的計算瓶頸提供了一種新的思路。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-