av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

SVG2: 通過語(yǔ)義感知排列實(shí)現(xiàn)視頻生成加速，伯克利與MIT團(tuán)隊(duì)帶來視頻AI重大突破

視頻生成稀疏注意力語(yǔ)義感知排列

SVG2: 通過語(yǔ)義感知排列實(shí)現(xiàn)視頻生成加速，伯克利與MIT團(tuán)隊(duì)帶來視頻AI重大突破

作者：科技行者

2025-05-30 15:07

分享至：

加州大學(xué)伯克利分校、MIT和斯坦福聯(lián)合研發(fā)的SVG2技術(shù)通過語(yǔ)義感知排列實(shí)現(xiàn)了視頻生成的重大加速。該方法巧妙解決了現(xiàn)有稀疏注意力機(jī)制中的兩大瓶頸：識(shí)別不準(zhǔn)確和計(jì)算浪費(fèi)。通過k-means聚類對(duì)像素按語(yǔ)義特性分組并重排，SVG2在保持高質(zhì)量的同時(shí)將生成速度提升至2.3倍，使原本需30分鐘的視頻生成縮短至13分鐘，為實(shí)用化AI視頻創(chuàng)作鋪平了道路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 15:07 ? 科技行者

近日，由加州大學(xué)伯克利分校、麻省理工學(xué)院(MIT)和斯坦福大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了一項(xiàng)名為"Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation"（通過語(yǔ)義感知排列的稀疏注意力機(jī)制加速視頻生成）的重要研究成果。這篇論文發(fā)表于2025年5月24日的arXiv預(yù)印本平臺(tái)(arXiv:2505.18875v1)，該研究由Shuo Yang、Haocheng Xi等人共同完成，為當(dāng)前計(jì)算密集型的視頻生成技術(shù)帶來了顯著的效率提升。

想象一下，如果你要生成一段五秒鐘的高質(zhì)量視頻，使用現(xiàn)有的最先進(jìn)技術(shù)可能需要近一個(gè)小時(shí)。這就像你想快速烤一個(gè)蛋糕，卻發(fā)現(xiàn)預(yù)熱烤箱就要花掉你大半天時(shí)間！這種效率問題嚴(yán)重阻礙了視頻生成技術(shù)在實(shí)際場(chǎng)景中的應(yīng)用。然而，伯克利和MIT的研究團(tuán)隊(duì)發(fā)現(xiàn)了一條捷徑，讓這個(gè)過程大大加速，最高可提速2.3倍，同時(shí)保持幾乎相同的視頻質(zhì)量。

一、為什么視頻生成如此耗時(shí)？從擴(kuò)散變換器說起

現(xiàn)代視頻生成技術(shù)主要依賴于一種叫做"擴(kuò)散變換器"(Diffusion Transformers，簡(jiǎn)稱DiTs)的技術(shù)。這些模型就像是數(shù)字世界中的魔術(shù)師，能夠根據(jù)文字描述或單張圖片創(chuàng)造出栩栩如生的視頻。然而，這種魔法的背后是極其龐大的計(jì)算量，特別是其中的"注意力機(jī)制"(Attention)部分。

想象一下，如果視頻中的每一個(gè)像素點(diǎn)都需要"關(guān)注"其他所有像素點(diǎn)，以決定自己應(yīng)該呈現(xiàn)什么顏色和形態(tài)，這就像是一個(gè)有成千上萬人參加的會(huì)議，每個(gè)人都需要聽取其他所有人的意見才能做決定。在計(jì)算機(jī)術(shù)語(yǔ)中，這種關(guān)系的計(jì)算復(fù)雜度是"二次方"的，這意味著當(dāng)視頻分辨率或長(zhǎng)度增加時(shí)，計(jì)算量會(huì)爆炸式增長(zhǎng)。

以現(xiàn)有的技術(shù)為例，使用華為的"薈源視頻"(HunyuanVideo)模型在NVIDIA A100 GPU上生成一段五秒鐘的視頻需要將近一個(gè)小時(shí)，其中80%的時(shí)間都花在了這種"注意力"計(jì)算上。

二、發(fā)現(xiàn)突破口：注意力機(jī)制的"稀疏性"特質(zhì)

研究人員發(fā)現(xiàn)了一個(gè)關(guān)鍵的規(guī)律：在視頻生成過程中，并非所有像素點(diǎn)之間的關(guān)系都同等重要。事實(shí)上，對(duì)于每個(gè)像素點(diǎn)來說，只有一小部分其他像素點(diǎn)的信息是真正有價(jià)值的。這就像在一個(gè)擁擠的派對(duì)上，雖然房間里有上百人，但每個(gè)人實(shí)際上只會(huì)與少數(shù)幾個(gè)人進(jìn)行有意義的交流。

這種特性在技術(shù)上被稱為"稀疏性"。研究人員通過實(shí)驗(yàn)證明，在典型情況下，只需計(jì)算約13%的"注意力關(guān)系"，就能捕捉到95%的關(guān)鍵信息，產(chǎn)生的視頻質(zhì)量幾乎不受影響。這個(gè)發(fā)現(xiàn)為大幅提升計(jì)算效率提供了理論基礎(chǔ)。

三、現(xiàn)有方法的局限性：錯(cuò)失真正的加速機(jī)會(huì)

盡管研究人員發(fā)現(xiàn)了注意力機(jī)制的稀疏特性，但如何高效地識(shí)別和只計(jì)算那些關(guān)鍵的"注意力關(guān)系"仍然是一個(gè)挑戰(zhàn)?，F(xiàn)有的稀疏注意力方法存在兩個(gè)主要問題：

首先是"識(shí)別不準(zhǔn)確"問題?，F(xiàn)有方法通常基于像素在圖像中的位置（而非語(yǔ)義含義）來對(duì)像素進(jìn)行分組，然后對(duì)每組進(jìn)行整體評(píng)估。這就像是按照座位位置（而非興趣愛好）給派對(duì)參與者分組，然后假設(shè)同一組的人有相似的交流需求。這種基于位置的分組方法忽略了像素之間的語(yǔ)義關(guān)系，導(dǎo)致關(guān)鍵像素被錯(cuò)誤地忽略。

其次是"計(jì)算浪費(fèi)"問題。即使能夠完美識(shí)別出關(guān)鍵像素，現(xiàn)有方法仍然無法充分利用GPU等硬件的特性。這是因?yàn)镚PU擅長(zhǎng)處理連續(xù)的數(shù)據(jù)塊，而關(guān)鍵像素通常散布在整個(gè)圖像中。這就像在超市購(gòu)物時(shí)，你的購(gòu)物清單上的物品散布在整個(gè)超市的不同角落，迫使你走遍整個(gè)超市，即使你只需要少數(shù)幾件商品。

四、SVG2的創(chuàng)新解決方案：語(yǔ)義感知排列

為了解決上述問題，研究團(tuán)隊(duì)提出了一種名為"Sparse VideoGen2"(SVG2)的全新框架。SVG2的核心創(chuàng)新在于"語(yǔ)義感知排列"(Semantic-Aware Permutation)，這一技術(shù)同時(shí)解決了識(shí)別不準(zhǔn)確和計(jì)算浪費(fèi)兩個(gè)問題。

語(yǔ)義感知排列的工作原理是什么呢？想象你在整理一堆彩色積木。傳統(tǒng)方法可能按照積木的物理位置（從左到右）來處理它們。而SVG2則先對(duì)積木按顏色分類，把相同顏色的積木放在一起處理。具體來說，SVG2使用了一種叫做"k-means聚類"的技術(shù)，基于像素的語(yǔ)義特性（而非位置）將它們分組。

這種方法帶來了兩個(gè)關(guān)鍵優(yōu)勢(shì)：

首先，由于同一組內(nèi)的像素共享相似的語(yǔ)義特性，它們的代表值（如平均值）能更準(zhǔn)確地反映組內(nèi)所有像素的特性，從而提高了關(guān)鍵像素的識(shí)別準(zhǔn)確率。

其次，通過將語(yǔ)義相似的像素重新排列到連續(xù)的位置，SVG2創(chuàng)造了一種"密集布局"，讓GPU等硬件能夠高效處理這些數(shù)據(jù)，大大減少了計(jì)算浪費(fèi)。就像是將超市重新布局，把你購(gòu)物清單上的所有物品都集中在一個(gè)區(qū)域，讓你只需在一個(gè)小范圍內(nèi)完成所有購(gòu)物。

五、技術(shù)細(xì)節(jié)：如何實(shí)現(xiàn)語(yǔ)義感知排列？

SVG2的實(shí)現(xiàn)涉及三個(gè)關(guān)鍵技術(shù)：

首先是語(yǔ)義感知排列的具體實(shí)現(xiàn)。在每個(gè)注意力層和注意力頭部，SVG2對(duì)查詢(Query)、鍵(Key)和值(Value)向量應(yīng)用k-means聚類，然后將同一聚類中的令牌重新排列為連續(xù)布局。這確保了語(yǔ)義相似的令牌被分組在一起，從而提高了識(shí)別準(zhǔn)確率并減少了計(jì)算浪費(fèi)。

其次是動(dòng)態(tài)預(yù)算控制。SVG2采用了一種"Top-p"選擇策略，通過聚類的中心點(diǎn)來估算每個(gè)聚類的關(guān)鍵程度，然后按重要性順序選擇聚類，直到累積重要性達(dá)到預(yù)設(shè)閾值p。這種方法允許在不同場(chǎng)景下動(dòng)態(tài)調(diào)整計(jì)算預(yù)算，無需手動(dòng)干預(yù)。

最后是定制內(nèi)核實(shí)現(xiàn)。由于語(yǔ)義感知排列產(chǎn)生的聚類大小自然多變，SVG2引入了支持動(dòng)態(tài)塊大小的定制內(nèi)核實(shí)現(xiàn)，以高效處理這種變化。

六、快速k-means與中心點(diǎn)緩存

盡管k-means聚類對(duì)于語(yǔ)義感知排列至關(guān)重要，但其迭代過程可能引入大量延遲。例如，使用最先進(jìn)的GPU實(shí)現(xiàn)k-means++算法，在收斂前可能需要超過100次迭代，消耗50%甚至與注意力計(jì)算相當(dāng)?shù)臅r(shí)間。

幸運(yùn)的是，研究人員發(fā)現(xiàn)擴(kuò)散變換器在連續(xù)去噪步驟之間具有相似性，這使得可以重用前一步的中心點(diǎn)作為下一步k-means的快速初始化?；谶@一觀察，SVG2實(shí)現(xiàn)了一個(gè)中心點(diǎn)緩存，可自動(dòng)緩存和重用連續(xù)步驟之間的中心點(diǎn)。這一技術(shù)將k-means的運(yùn)行時(shí)間減少了高達(dá)76倍。

七、性能評(píng)估：更快、更好的視頻生成

研究團(tuán)隊(duì)在兩個(gè)代表性視頻生成模型上評(píng)估了SVG2的質(zhì)量和效率：華為的"薈源視頻"(HunyuanVideo)和"萬"(Wan 2.1)。結(jié)果表明，SVG2在任何給定的計(jì)算預(yù)算下始終實(shí)現(xiàn)了優(yōu)越的生成質(zhì)量。

具體來說，SVG2在保持高視覺質(zhì)量的同時(shí)，實(shí)現(xiàn)了高達(dá)2.30倍和1.89倍的端到端加速，PSNR（一種圖像質(zhì)量評(píng)估指標(biāo)）高達(dá)30和26。這意味著，原本需要30分鐘的視頻生成過程，現(xiàn)在只需13-16分鐘就能完成，且視頻質(zhì)量幾乎不受影響。

通過與現(xiàn)有方法的對(duì)比，研究人員發(fā)現(xiàn)SVG2一致地處于質(zhì)量-效率權(quán)衡的帕累托前沿，在相同密度下提供更高的PSNR。特別是，SVG2在維持相同PSNR的同時(shí)，將密度減少了高達(dá)2.3倍。

八、應(yīng)用案例展示

研究論文展示了幾個(gè)應(yīng)用案例，包括文本到視頻和圖像到視頻的生成。例如，根據(jù)"一個(gè)冬季運(yùn)動(dòng)場(chǎng)景的生動(dòng)照片，展示著一個(gè)靠在潔白雪山背景下的黑色滑雪板。一只毛茸茸的白色狗正歡快地?fù)u著尾巴，追逐著在雪地里滾動(dòng)的彩色網(wǎng)球"這樣的文本提示，SVG2能夠以幾乎原始質(zhì)量的同時(shí)，將生成時(shí)間從30分鐘減少到16分鐘。

同樣，對(duì)于"一艘白色的游艇在熱帶天堂的清澈碧藍(lán)海水上優(yōu)雅滑行，其拋光表面反射著正午的燦爛陽(yáng)光。上方，一架條紋鮮紅與白色的老式雙翼飛機(jī)在湛藍(lán)的天空中優(yōu)雅飛翔"這樣的復(fù)雜場(chǎng)景，SVG2將生成時(shí)間從30分鐘減少到13分鐘，同時(shí)保持了極高的圖像質(zhì)量。

九、總結(jié)與展望

SVG2代表了視頻生成技術(shù)在效率方面的重大進(jìn)步。通過巧妙利用注意力機(jī)制的稀疏特性，結(jié)合語(yǔ)義感知排列的創(chuàng)新方法，研究團(tuán)隊(duì)成功地在保持高質(zhì)量視頻輸出的同時(shí)，顯著減少了計(jì)算時(shí)間和資源消耗。

這項(xiàng)技術(shù)對(duì)于視頻生成的實(shí)際應(yīng)用具有重要意義。它使得高質(zhì)量視頻內(nèi)容的創(chuàng)建變得更加實(shí)用和可行，為內(nèi)容創(chuàng)作者、廣告制作、教育資源開發(fā)等領(lǐng)域提供了新的可能性。隨著這一技術(shù)的進(jìn)一步發(fā)展和優(yōu)化，我們可以期待視頻生成技術(shù)在更廣泛的領(lǐng)域中的應(yīng)用和普及。

對(duì)于那些對(duì)此研究感興趣并希望深入了解的讀者，可以通過arXiv:2505.18875v1訪問完整論文。無論是從技術(shù)角度還是應(yīng)用前景來看，SVG2都代表了視頻生成領(lǐng)域一個(gè)令人興奮的新方向。

視頻生成稀疏注意力語(yǔ)義感知排列

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<tfoot id="eqzmo"></tfoot>
<pre id="eqzmo"><td id="eqzmo"></td></pre>