近日,由加州大學(xué)伯克利分校、麻省理工學(xué)院(MIT)和斯坦福大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了一項(xiàng)名為"Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation"(通過語(yǔ)義感知排列的稀疏注意力機(jī)制加速視頻生成)的重要研究成果。這篇論文發(fā)表于2025年5月24日的arXiv預(yù)印本平臺(tái)(arXiv:2505.18875v1),該研究由Shuo Yang、Haocheng Xi等人共同完成,為當(dāng)前計(jì)算密集型的視頻生成技術(shù)帶來了顯著的效率提升。
想象一下,如果你要生成一段五秒鐘的高質(zhì)量視頻,使用現(xiàn)有的最先進(jìn)技術(shù)可能需要近一個(gè)小時(shí)。這就像你想快速烤一個(gè)蛋糕,卻發(fā)現(xiàn)預(yù)熱烤箱就要花掉你大半天時(shí)間!這種效率問題嚴(yán)重阻礙了視頻生成技術(shù)在實(shí)際場(chǎng)景中的應(yīng)用。然而,伯克利和MIT的研究團(tuán)隊(duì)發(fā)現(xiàn)了一條捷徑,讓這個(gè)過程大大加速,最高可提速2.3倍,同時(shí)保持幾乎相同的視頻質(zhì)量。
一、為什么視頻生成如此耗時(shí)?從擴(kuò)散變換器說起
現(xiàn)代視頻生成技術(shù)主要依賴于一種叫做"擴(kuò)散變換器"(Diffusion Transformers,簡(jiǎn)稱DiTs)的技術(shù)。這些模型就像是數(shù)字世界中的魔術(shù)師,能夠根據(jù)文字描述或單張圖片創(chuàng)造出栩栩如生的視頻。然而,這種魔法的背后是極其龐大的計(jì)算量,特別是其中的"注意力機(jī)制"(Attention)部分。
想象一下,如果視頻中的每一個(gè)像素點(diǎn)都需要"關(guān)注"其他所有像素點(diǎn),以決定自己應(yīng)該呈現(xiàn)什么顏色和形態(tài),這就像是一個(gè)有成千上萬人參加的會(huì)議,每個(gè)人都需要聽取其他所有人的意見才能做決定。在計(jì)算機(jī)術(shù)語(yǔ)中,這種關(guān)系的計(jì)算復(fù)雜度是"二次方"的,這意味著當(dāng)視頻分辨率或長(zhǎng)度增加時(shí),計(jì)算量會(huì)爆炸式增長(zhǎng)。
以現(xiàn)有的技術(shù)為例,使用華為的"薈源視頻"(HunyuanVideo)模型在NVIDIA A100 GPU上生成一段五秒鐘的視頻需要將近一個(gè)小時(shí),其中80%的時(shí)間都花在了這種"注意力"計(jì)算上。
二、發(fā)現(xiàn)突破口:注意力機(jī)制的"稀疏性"特質(zhì)
研究人員發(fā)現(xiàn)了一個(gè)關(guān)鍵的規(guī)律:在視頻生成過程中,并非所有像素點(diǎn)之間的關(guān)系都同等重要。事實(shí)上,對(duì)于每個(gè)像素點(diǎn)來說,只有一小部分其他像素點(diǎn)的信息是真正有價(jià)值的。這就像在一個(gè)擁擠的派對(duì)上,雖然房間里有上百人,但每個(gè)人實(shí)際上只會(huì)與少數(shù)幾個(gè)人進(jìn)行有意義的交流。
這種特性在技術(shù)上被稱為"稀疏性"。研究人員通過實(shí)驗(yàn)證明,在典型情況下,只需計(jì)算約13%的"注意力關(guān)系",就能捕捉到95%的關(guān)鍵信息,產(chǎn)生的視頻質(zhì)量幾乎不受影響。這個(gè)發(fā)現(xiàn)為大幅提升計(jì)算效率提供了理論基礎(chǔ)。
三、現(xiàn)有方法的局限性:錯(cuò)失真正的加速機(jī)會(huì)
盡管研究人員發(fā)現(xiàn)了注意力機(jī)制的稀疏特性,但如何高效地識(shí)別和只計(jì)算那些關(guān)鍵的"注意力關(guān)系"仍然是一個(gè)挑戰(zhàn)?,F(xiàn)有的稀疏注意力方法存在兩個(gè)主要問題:
首先是"識(shí)別不準(zhǔn)確"問題?,F(xiàn)有方法通常基于像素在圖像中的位置(而非語(yǔ)義含義)來對(duì)像素進(jìn)行分組,然后對(duì)每組進(jìn)行整體評(píng)估。這就像是按照座位位置(而非興趣愛好)給派對(duì)參與者分組,然后假設(shè)同一組的人有相似的交流需求。這種基于位置的分組方法忽略了像素之間的語(yǔ)義關(guān)系,導(dǎo)致關(guān)鍵像素被錯(cuò)誤地忽略。
其次是"計(jì)算浪費(fèi)"問題。即使能夠完美識(shí)別出關(guān)鍵像素,現(xiàn)有方法仍然無法充分利用GPU等硬件的特性。這是因?yàn)镚PU擅長(zhǎng)處理連續(xù)的數(shù)據(jù)塊,而關(guān)鍵像素通常散布在整個(gè)圖像中。這就像在超市購(gòu)物時(shí),你的購(gòu)物清單上的物品散布在整個(gè)超市的不同角落,迫使你走遍整個(gè)超市,即使你只需要少數(shù)幾件商品。
四、SVG2的創(chuàng)新解決方案:語(yǔ)義感知排列
為了解決上述問題,研究團(tuán)隊(duì)提出了一種名為"Sparse VideoGen2"(SVG2)的全新框架。SVG2的核心創(chuàng)新在于"語(yǔ)義感知排列"(Semantic-Aware Permutation),這一技術(shù)同時(shí)解決了識(shí)別不準(zhǔn)確和計(jì)算浪費(fèi)兩個(gè)問題。
語(yǔ)義感知排列的工作原理是什么呢?想象你在整理一堆彩色積木。傳統(tǒng)方法可能按照積木的物理位置(從左到右)來處理它們。而SVG2則先對(duì)積木按顏色分類,把相同顏色的積木放在一起處理。具體來說,SVG2使用了一種叫做"k-means聚類"的技術(shù),基于像素的語(yǔ)義特性(而非位置)將它們分組。
這種方法帶來了兩個(gè)關(guān)鍵優(yōu)勢(shì):
首先,由于同一組內(nèi)的像素共享相似的語(yǔ)義特性,它們的代表值(如平均值)能更準(zhǔn)確地反映組內(nèi)所有像素的特性,從而提高了關(guān)鍵像素的識(shí)別準(zhǔn)確率。
其次,通過將語(yǔ)義相似的像素重新排列到連續(xù)的位置,SVG2創(chuàng)造了一種"密集布局",讓GPU等硬件能夠高效處理這些數(shù)據(jù),大大減少了計(jì)算浪費(fèi)。就像是將超市重新布局,把你購(gòu)物清單上的所有物品都集中在一個(gè)區(qū)域,讓你只需在一個(gè)小范圍內(nèi)完成所有購(gòu)物。
五、技術(shù)細(xì)節(jié):如何實(shí)現(xiàn)語(yǔ)義感知排列?
SVG2的實(shí)現(xiàn)涉及三個(gè)關(guān)鍵技術(shù):
首先是語(yǔ)義感知排列的具體實(shí)現(xiàn)。在每個(gè)注意力層和注意力頭部,SVG2對(duì)查詢(Query)、鍵(Key)和值(Value)向量應(yīng)用k-means聚類,然后將同一聚類中的令牌重新排列為連續(xù)布局。這確保了語(yǔ)義相似的令牌被分組在一起,從而提高了識(shí)別準(zhǔn)確率并減少了計(jì)算浪費(fèi)。
其次是動(dòng)態(tài)預(yù)算控制。SVG2采用了一種"Top-p"選擇策略,通過聚類的中心點(diǎn)來估算每個(gè)聚類的關(guān)鍵程度,然后按重要性順序選擇聚類,直到累積重要性達(dá)到預(yù)設(shè)閾值p。這種方法允許在不同場(chǎng)景下動(dòng)態(tài)調(diào)整計(jì)算預(yù)算,無需手動(dòng)干預(yù)。
最后是定制內(nèi)核實(shí)現(xiàn)。由于語(yǔ)義感知排列產(chǎn)生的聚類大小自然多變,SVG2引入了支持動(dòng)態(tài)塊大小的定制內(nèi)核實(shí)現(xiàn),以高效處理這種變化。
六、快速k-means與中心點(diǎn)緩存
盡管k-means聚類對(duì)于語(yǔ)義感知排列至關(guān)重要,但其迭代過程可能引入大量延遲。例如,使用最先進(jìn)的GPU實(shí)現(xiàn)k-means++算法,在收斂前可能需要超過100次迭代,消耗50%甚至與注意力計(jì)算相當(dāng)?shù)臅r(shí)間。
幸運(yùn)的是,研究人員發(fā)現(xiàn)擴(kuò)散變換器在連續(xù)去噪步驟之間具有相似性,這使得可以重用前一步的中心點(diǎn)作為下一步k-means的快速初始化?;谶@一觀察,SVG2實(shí)現(xiàn)了一個(gè)中心點(diǎn)緩存,可自動(dòng)緩存和重用連續(xù)步驟之間的中心點(diǎn)。這一技術(shù)將k-means的運(yùn)行時(shí)間減少了高達(dá)76倍。
七、性能評(píng)估:更快、更好的視頻生成
研究團(tuán)隊(duì)在兩個(gè)代表性視頻生成模型上評(píng)估了SVG2的質(zhì)量和效率:華為的"薈源視頻"(HunyuanVideo)和"萬"(Wan 2.1)。結(jié)果表明,SVG2在任何給定的計(jì)算預(yù)算下始終實(shí)現(xiàn)了優(yōu)越的生成質(zhì)量。
具體來說,SVG2在保持高視覺質(zhì)量的同時(shí),實(shí)現(xiàn)了高達(dá)2.30倍和1.89倍的端到端加速,PSNR(一種圖像質(zhì)量評(píng)估指標(biāo))高達(dá)30和26。這意味著,原本需要30分鐘的視頻生成過程,現(xiàn)在只需13-16分鐘就能完成,且視頻質(zhì)量幾乎不受影響。
通過與現(xiàn)有方法的對(duì)比,研究人員發(fā)現(xiàn)SVG2一致地處于質(zhì)量-效率權(quán)衡的帕累托前沿,在相同密度下提供更高的PSNR。特別是,SVG2在維持相同PSNR的同時(shí),將密度減少了高達(dá)2.3倍。
八、應(yīng)用案例展示
研究論文展示了幾個(gè)應(yīng)用案例,包括文本到視頻和圖像到視頻的生成。例如,根據(jù)"一個(gè)冬季運(yùn)動(dòng)場(chǎng)景的生動(dòng)照片,展示著一個(gè)靠在潔白雪山背景下的黑色滑雪板。一只毛茸茸的白色狗正歡快地?fù)u著尾巴,追逐著在雪地里滾動(dòng)的彩色網(wǎng)球"這樣的文本提示,SVG2能夠以幾乎原始質(zhì)量的同時(shí),將生成時(shí)間從30分鐘減少到16分鐘。
同樣,對(duì)于"一艘白色的游艇在熱帶天堂的清澈碧藍(lán)海水上優(yōu)雅滑行,其拋光表面反射著正午的燦爛陽(yáng)光。上方,一架條紋鮮紅與白色的老式雙翼飛機(jī)在湛藍(lán)的天空中優(yōu)雅飛翔"這樣的復(fù)雜場(chǎng)景,SVG2將生成時(shí)間從30分鐘減少到13分鐘,同時(shí)保持了極高的圖像質(zhì)量。
九、總結(jié)與展望
SVG2代表了視頻生成技術(shù)在效率方面的重大進(jìn)步。通過巧妙利用注意力機(jī)制的稀疏特性,結(jié)合語(yǔ)義感知排列的創(chuàng)新方法,研究團(tuán)隊(duì)成功地在保持高質(zhì)量視頻輸出的同時(shí),顯著減少了計(jì)算時(shí)間和資源消耗。
這項(xiàng)技術(shù)對(duì)于視頻生成的實(shí)際應(yīng)用具有重要意義。它使得高質(zhì)量視頻內(nèi)容的創(chuàng)建變得更加實(shí)用和可行,為內(nèi)容創(chuàng)作者、廣告制作、教育資源開發(fā)等領(lǐng)域提供了新的可能性。隨著這一技術(shù)的進(jìn)一步發(fā)展和優(yōu)化,我們可以期待視頻生成技術(shù)在更廣泛的領(lǐng)域中的應(yīng)用和普及。
對(duì)于那些對(duì)此研究感興趣并希望深入了解的讀者,可以通過arXiv:2505.18875v1訪問完整論文。無論是從技術(shù)角度還是應(yīng)用前景來看,SVG2都代表了視頻生成領(lǐng)域一個(gè)令人興奮的新方向。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。