av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 雙重并行:讓AI視頻生成突破時(shí)長(zhǎng)限制,新加坡國(guó)立大學(xué)團(tuán)隊(duì)實(shí)現(xiàn)分鐘級(jí)長(zhǎng)視頻創(chuàng)作

雙重并行:讓AI視頻生成突破時(shí)長(zhǎng)限制,新加坡國(guó)立大學(xué)團(tuán)隊(duì)實(shí)現(xiàn)分鐘級(jí)長(zhǎng)視頻創(chuàng)作

2025-05-30 17:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 17:26 ? 科技行者

今天,我想與大家分享一項(xiàng)令人振奮的視頻生成技術(shù)突破。由新加坡國(guó)立大學(xué)的王澤清(Zeqing Wang)、鄭博文(Bowen Zheng)、楊星毅(Xingyi Yang)、徐越聰(Yuecong Xu)和通訊作者王欣超(Xinchao Wang)共同完成的研究論文《分鐘級(jí)長(zhǎng)視頻的雙重并行》(Minute-Long Videos with Dual Parallelisms)于2025年5月27日發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2505.21070v1)。這項(xiàng)研究成果可以在項(xiàng)目官網(wǎng)https://dualparal-project.github.io/dualparal.github.io/查看更多詳情。

想象一下這樣的場(chǎng)景:你想用AI生成一段幾分鐘長(zhǎng)的視頻,但現(xiàn)有技術(shù)只能生成幾秒鐘的短片,或者需要等待數(shù)小時(shí)才能完成。為什么會(huì)這樣呢?這是因?yàn)槟壳白钕冗M(jìn)的視頻生成模型——基于擴(kuò)散變換器(Diffusion Transformer,簡(jiǎn)稱DiT)的模型——盡管能生成高質(zhì)量視頻,但在處理長(zhǎng)視頻時(shí)卻面臨嚴(yán)重的計(jì)算瓶頸。

這就像是一個(gè)廚師要準(zhǔn)備一場(chǎng)盛大宴會(huì)的所有菜肴,但只有一個(gè)灶臺(tái)可用——無(wú)論這位廚師多么熟練,準(zhǔn)備時(shí)間都會(huì)隨著菜肴數(shù)量的增加而大幅延長(zhǎng)。視頻生成也是如此,每多一幀畫(huà)面,計(jì)算復(fù)雜度就會(huì)呈二次方增長(zhǎng),同時(shí)內(nèi)存需求也會(huì)隨之激增。

新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案,名為"DualParal"(雙重并行)。簡(jiǎn)單來(lái)說(shuō),他們不再讓一臺(tái)計(jì)算機(jī)(GPU)獨(dú)自完成所有工作,而是將任務(wù)分配給多臺(tái)計(jì)算機(jī)同時(shí)處理。但這不僅僅是簡(jiǎn)單的任務(wù)分配,而是一種全新的分布式推理策略,同時(shí)在兩個(gè)維度上實(shí)現(xiàn)了并行:時(shí)間幀并行和模型層并行。

這項(xiàng)技術(shù)的核心理念就像是把一場(chǎng)大型宴會(huì)的準(zhǔn)備工作分配給多個(gè)廚房團(tuán)隊(duì):一方面,不同的廚房負(fù)責(zé)不同的菜品(這相當(dāng)于時(shí)間幀并行);另一方面,每道菜的不同制作步驟也由專人負(fù)責(zé)(這相當(dāng)于模型層并行)。通過(guò)這種雙重并行機(jī)制,原本需要數(shù)小時(shí)的工作可以在短短幾十分鐘內(nèi)完成。

但實(shí)施這個(gè)看似簡(jiǎn)單的想法時(shí),研究團(tuán)隊(duì)遇到了一個(gè)關(guān)鍵挑戰(zhàn)。在傳統(tǒng)的擴(kuò)散模型中,所有視頻幀必須在相同的噪聲水平下同步處理。這就像是一個(gè)大型管弦樂(lè)團(tuán),所有樂(lè)器必須嚴(yán)格按照指揮的節(jié)拍同步演奏。如果簡(jiǎn)單地將視頻分割給不同計(jì)算機(jī)處理,這種同步要求會(huì)導(dǎo)致大量的等待時(shí)間,抵消并行處理帶來(lái)的速度優(yōu)勢(shì)。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)引入了一種名為"分塊降噪"的創(chuàng)新機(jī)制。他們將視頻分成多個(gè)不重疊的時(shí)間塊,每個(gè)塊被賦予不同的噪聲水平:靠近視頻結(jié)尾的塊噪聲水平較高,而靠近開(kāi)頭的塊噪聲水平較低。在每個(gè)推理步驟中,模型可以異步處理所有塊,逐步降低各自的噪聲水平。

這種方法就像是將一首交響樂(lè)分成多個(gè)樂(lè)章,每個(gè)樂(lè)章由不同的樂(lè)隊(duì)演奏,它們不需要嚴(yán)格同步,只需確保在各自演奏完成后能自然銜接成一個(gè)完整的音樂(lè)作品。

具體到技術(shù)實(shí)現(xiàn)上,DualParal將視頻序列塊組織成一個(gè)先進(jìn)先出(FIFO)隊(duì)列,噪聲水平從尾到頭遞減。在每個(gè)擴(kuò)散步驟中,一個(gè)新的噪聲塊被添加到隊(duì)列尾部,同時(shí)一個(gè)干凈的塊從隊(duì)列頭部移除。這些視頻塊隨后以相反的順序(從尾到頭)通過(guò)設(shè)備管道進(jìn)行處理。在這個(gè)設(shè)置中,每臺(tái)設(shè)備負(fù)責(zé)特定的視頻塊和模型部分,降噪后的輸出異步地在GPU之間傳遞。

更令人興奮的是,DualParal利用其FIFO隊(duì)列實(shí)現(xiàn)了長(zhǎng)視頻生成。新的塊可以持續(xù)添加到隊(duì)列中,允許生成任意長(zhǎng)度的視頻。由于每個(gè)塊內(nèi)的幀數(shù)保持固定,這種方法避免了與延長(zhǎng)視頻序列相關(guān)的二次計(jì)算延遲增長(zhǎng)和高內(nèi)存成本。

為了進(jìn)一步優(yōu)化并行效率并保持視頻質(zhì)量,研究團(tuán)隊(duì)引入了兩個(gè)關(guān)鍵改進(jìn)。首先,他們?cè)诿總€(gè)GPU上實(shí)現(xiàn)了一個(gè)特征緩存,存儲(chǔ)和重用來(lái)自前一個(gè)塊的關(guān)鍵值(KV)特征,無(wú)需顯式連接這些特征。這減少了GPU間通信和在交叉注意力(Cross-Attention)和前饋網(wǎng)絡(luò)(FFN)等組件中的冗余計(jì)算。其次,他們采用了一種協(xié)調(diào)的噪聲初始化策略,通過(guò)在GPU之間共享初始噪聲模式確保全局一致性,而不需要額外的資源成本。

實(shí)驗(yàn)結(jié)果令人印象深刻。在使用8個(gè)RTX 4090 GPU處理1,025幀視頻時(shí),DualParal比現(xiàn)有最先進(jìn)的分布式方法實(shí)現(xiàn)了高達(dá)6.54倍的延遲減少和1.48倍的內(nèi)存成本降低。這意味著原本可能需要一個(gè)多小時(shí)才能生成的長(zhǎng)視頻,現(xiàn)在只需十幾分鐘就能完成。

這項(xiàng)技術(shù)突破不僅對(duì)AI研究人員和開(kāi)發(fā)者意義重大,對(duì)普通用戶也有深遠(yuǎn)影響。想象一下,未來(lái)你可以簡(jiǎn)單描述一個(gè)故事情節(jié),AI就能為你生成一段完整的幾分鐘長(zhǎng)的視頻,用于教育、娛樂(lè)或商業(yè)展示。DualParal的出現(xiàn)使這一愿景離現(xiàn)實(shí)更近一步。

讓我們深入了解這項(xiàng)技術(shù)的細(xì)節(jié)和創(chuàng)新之處。

一、雙重并行架構(gòu):打破速度與內(nèi)存的雙重瓶頸

擴(kuò)散模型是目前生成高質(zhì)量視頻的主流方法,它的工作原理就像是慢慢清洗一張蒙塵的照片。首先從一張全是噪點(diǎn)的圖像開(kāi)始,然后一步步去除噪點(diǎn),直到呈現(xiàn)出清晰的圖像。在視頻生成中,這個(gè)過(guò)程需要同時(shí)處理多個(gè)幀,每個(gè)幀都經(jīng)歷從高噪聲到低噪聲的轉(zhuǎn)變,這個(gè)過(guò)程通常需要執(zhí)行幾十步降噪操作。

最新的視頻擴(kuò)散模型,如Wan2.1,采用了擴(kuò)散變換器(DiT)架構(gòu),能夠生成令人印象深刻的視頻。但當(dāng)我們想生成長(zhǎng)視頻時(shí),這些模型面臨兩個(gè)主要挑戰(zhàn):

首先是計(jì)算延遲。DiT模型的核心是注意力機(jī)制,其計(jì)算復(fù)雜度與序列長(zhǎng)度(即視頻幀數(shù))的平方成正比。當(dāng)視頻從幾秒鐘延長(zhǎng)到幾分鐘時(shí),計(jì)算時(shí)間會(huì)爆炸性增長(zhǎng)。

其次是內(nèi)存消耗。模型本身有大量參數(shù)需要存儲(chǔ),再加上處理長(zhǎng)視頻序列所需的臨時(shí)數(shù)據(jù),很快就會(huì)超出單個(gè)GPU的內(nèi)存容量。

為了解決這些挑戰(zhàn),研究人員提出了兩種主要的并行策略:

序列并行(Sequence Parallelism):將輸入視頻分割成多個(gè)部分,每部分由一臺(tái)設(shè)備處理,每臺(tái)設(shè)備上都運(yùn)行完整的模型副本。這種方法可以減少延遲,但由于每臺(tái)設(shè)備都需要存儲(chǔ)完整的模型,內(nèi)存消耗仍然很高。

管道并行(Pipeline Parallelism):將模型分割成多個(gè)部分,每部分由一臺(tái)設(shè)備處理,形成一個(gè)處理"管道"。這種方法可以減少每臺(tái)設(shè)備的內(nèi)存使用,但無(wú)法有效降低處理長(zhǎng)序列的延遲。

理想的解決方案是結(jié)合這兩種并行策略,既分割視頻序列又分割模型,以最大化速度并最小化內(nèi)存使用。但這里存在一個(gè)根本性沖突:視頻擴(kuò)散模型要求所有輸入幀必須同步通過(guò)每一層,而在管道并行中,這意味著完整輸入必須在一臺(tái)設(shè)備(如設(shè)備1)上處理完畢才能傳遞到下一臺(tái)設(shè)備(如設(shè)備2)。這與序列并行直接矛盾,因?yàn)樾蛄胁⑿袑⑤斎敕稚⒌讲煌O(shè)備上。

DualParal通過(guò)一個(gè)巧妙的"分塊降噪"方案解決了這一沖突。不同于傳統(tǒng)方法要求所有幀在統(tǒng)一噪聲水平下降噪,DualParal將視頻分成不重疊的時(shí)間塊,每個(gè)塊根據(jù)其在視頻中的位置被賦予不同的噪聲水平。視頻末尾的塊有更高的噪聲水平,而前面的塊噪聲水平較低。在每個(gè)推理步驟中,模型可以異步處理所有塊,逐步降低各自的噪聲水平。

這就像是一個(gè)工廠的流水線,不同工位可以同時(shí)處理不同階段的產(chǎn)品,而不需要等待整批產(chǎn)品完成某一步驟才能開(kāi)始下一步驟。關(guān)鍵是,由于噪聲水平不需要在所有幀之間同步,分塊降噪解決了兩種并行策略之間的內(nèi)在沖突。

二、FIFO隊(duì)列與分塊降噪:實(shí)現(xiàn)無(wú)限長(zhǎng)度視頻生成

DualParal的具體實(shí)現(xiàn)包括兩個(gè)關(guān)鍵組件:隊(duì)列和設(shè)備管道。

在設(shè)備管道中,視頻擴(kuò)散模型的DiT塊被均勻分布在多個(gè)GPU上。而在隊(duì)列中,每個(gè)元素是共享相同噪聲水平的一塊幀,按照先進(jìn)先出(FIFO)的方式組織,噪聲水平從尾到頭遞減(從最高噪聲T到最低噪聲1)。

在推理過(guò)程中,隊(duì)列中的塊按照相反的順序(從尾到頭)連續(xù)輸入到設(shè)備管道中。每次擴(kuò)散步驟后,隊(duì)列中的所有塊向前移動(dòng)一個(gè)位置,即Q = [B0, B1, ..., BT-1]。一個(gè)新的噪聲塊BT被添加到隊(duì)列尾部,而干凈的塊B0從隊(duì)列頭部移除并傳遞給解碼器進(jìn)行最終視頻重建。

這種架構(gòu)使每臺(tái)設(shè)備可以處理特定的視頻塊和對(duì)應(yīng)的模型部分,而降噪后的輸出則異步地在GPU之間傳遞。這種分塊降噪方案有效解決了簡(jiǎn)單組合序列并行和管道并行導(dǎo)致的串行化問(wèn)題,從而實(shí)現(xiàn)了真正的時(shí)間幀和模型層雙重并行。

更重要的是,這種設(shè)計(jì)允許生成無(wú)限長(zhǎng)度的視頻。新的塊可以持續(xù)添加到隊(duì)列中,而因?yàn)槊總€(gè)塊內(nèi)的幀數(shù)保持固定,這種方法避免了與延長(zhǎng)視頻序列相關(guān)的計(jì)算復(fù)雜度二次增長(zhǎng)和高內(nèi)存成本問(wèn)題。

三、特征緩存與協(xié)調(diào)噪聲初始化:提升效率與質(zhì)量

雖然基本的雙重并行架構(gòu)已經(jīng)大大提高了效率,但研究團(tuán)隊(duì)進(jìn)一步引入了兩項(xiàng)關(guān)鍵優(yōu)化,進(jìn)一步提升系統(tǒng)性能和生成質(zhì)量。

首先是特征緩存技術(shù)。在處理相鄰的非重疊塊時(shí),為了保持時(shí)間連貫性,通常需要將前一個(gè)和后一個(gè)塊與當(dāng)前塊連接起來(lái)一起處理。這會(huì)導(dǎo)致額外的通信和計(jì)算開(kāi)銷。DualParal利用一個(gè)巧妙的特性:當(dāng)處理塊B'i = [Bi-1, Bi, Bi+1]時(shí),Bi+1已經(jīng)在處理前一個(gè)塊B'i+1 = [Bi, Bi+1, Bi+2]時(shí)被處理過(guò)。

利用這一特性,DualParal在處理B'i+1時(shí)緩存Bi+1的自注意力模塊的關(guān)鍵值(KV)特征,并在處理B'i時(shí)重用這些特征。這樣,輸入塊可以減少為B'i = [Bi-1, Bi],降低了相鄰設(shè)備之間的通信開(kāi)銷。

更進(jìn)一步,研究團(tuán)隊(duì)觀察到,在所有模型組件中,只有那些需要跨幀交互的組件(如Wan2.1模型中的自注意力模塊)才真正需要相鄰塊的信息。因此,他們將特征緩存技術(shù)限制在自注意力模塊,而跳過(guò)如交叉注意力和前饋網(wǎng)絡(luò)等不需要跨幀信息的組件,進(jìn)一步消除了冗余計(jì)算。

第二個(gè)關(guān)鍵優(yōu)化是協(xié)調(diào)噪聲初始化策略。盡管DualParal通過(guò)連接相鄰塊來(lái)平滑過(guò)渡,但全局一致性仍然是一個(gè)挑戰(zhàn)。一種簡(jiǎn)單的解決方案是連接更多的全局信息,但這會(huì)導(dǎo)致高通信、計(jì)算和內(nèi)存成本。

研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于基于DiT的視頻擴(kuò)散模型,有兩個(gè)關(guān)鍵觀察:1)使用完整噪聲空間可以保持良好的全局一致性;2)在整個(gè)降噪過(guò)程中使用重復(fù)噪聲會(huì)導(dǎo)致DiT模型性能顯著下降。

基于這些觀察,他們提出了一種新穎的初始化策略。具體來(lái)說(shuō),當(dāng)初始化一個(gè)新塊時(shí),從一個(gè)還沒(méi)有被隊(duì)列中最后一個(gè)塊BT的最后NumC/2個(gè)潛變量使用過(guò)的噪聲池中選擇噪聲。這些選定的噪聲經(jīng)過(guò)混洗后用于初始化新塊。這確保了在整個(gè)降噪過(guò)程中,連接的塊中不會(huì)重復(fù)使用相同的噪聲,同時(shí)仍然利用完整的噪聲池,保持全局一致性而不需要額外成本。

四、理論分析與實(shí)驗(yàn)驗(yàn)證:證明DualParal的優(yōu)越性

研究團(tuán)隊(duì)對(duì)DualParal的并行性能進(jìn)行了全面的理論分析,重點(diǎn)關(guān)注三個(gè)方面:氣泡率(設(shè)備空閑時(shí)間比例)、通信開(kāi)銷和內(nèi)存成本。

在氣泡率方面,假設(shè)設(shè)備數(shù)量N小于或等于塊數(shù)量Blocknum(這在長(zhǎng)視頻生成中很容易滿足),氣泡率可以表示為(N?-N-1)/(N?-N-1+T×Blocknum),其中T是降噪步驟的總數(shù)。隨著B(niǎo)locknum增加,氣泡率接近0%,表明在長(zhǎng)視頻生成過(guò)程中設(shè)備管道中的空閑時(shí)間最小。

在通信和內(nèi)存成本方面,研究團(tuán)隊(duì)將DualParal與其他并行方法進(jìn)行了對(duì)比,包括DeepSpeed-Ulysses、Ring Attention、Video-Infinity和FIFO。分析表明,DualParal在這兩方面都具有明顯優(yōu)勢(shì),尤其是在長(zhǎng)視頻生成時(shí)。

為了驗(yàn)證理論分析結(jié)果,研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn)。在生成極長(zhǎng)視頻方面,與Ring Attention相比,DualParal在生成1,025幀視頻時(shí)實(shí)現(xiàn)了高達(dá)6.54倍的延遲減少和1.48倍的內(nèi)存成本降低。與同樣支持無(wú)限長(zhǎng)度視頻生成的FIFO相比,DualParal在生成513幀視頻時(shí)仍然實(shí)現(xiàn)了1.82倍的延遲減少和1.32倍的內(nèi)存成本降低。

在可擴(kuò)展性方面,DualParal在使用多GPU生成301幀視頻時(shí)表現(xiàn)出色,不論是在Wan2.1-1.3B(480p)還是Wan2.1-14B(720p)模型上,都始終優(yōu)于所有其他方法。隨著GPU數(shù)量的增加,DualParal的延遲持續(xù)降低,內(nèi)存使用也穩(wěn)步減少。

在視頻質(zhì)量方面,研究團(tuán)隊(duì)使用VBench指標(biāo)評(píng)估了DualParal生成的視頻質(zhì)量,并與DeepSpeed-Ulysses、Video-Infinity和FIFO進(jìn)行了比較。在129幀視頻設(shè)置中,盡管DeepSpeed-Ulysses由于保留完整視頻序列而不分割,表現(xiàn)最佳,但在257幀視頻設(shè)置中,DualParal明顯優(yōu)于其他分布式方法,包括FIFO和Video-Infinity,實(shí)現(xiàn)了最高的總體評(píng)分。

這些實(shí)驗(yàn)結(jié)果證明,DualParal不僅在效率方面表現(xiàn)出色,而且能夠生成高質(zhì)量的長(zhǎng)視頻,這是其他方法難以實(shí)現(xiàn)的。

五、DualParal的創(chuàng)新價(jià)值與未來(lái)展望

DualParal的創(chuàng)新之處在于它首次成功地將序列并行和管道并行結(jié)合起來(lái),在保持高視頻質(zhì)量的同時(shí),極大地提高了長(zhǎng)視頻生成的效率。這種雙重并行架構(gòu),加上分塊降噪、特征緩存和協(xié)調(diào)噪聲初始化等創(chuàng)新技術(shù),共同解決了長(zhǎng)視頻生成面臨的計(jì)算延遲和內(nèi)存消耗雙重挑戰(zhàn)。

這項(xiàng)技術(shù)的意義不僅限于學(xué)術(shù)研究,它對(duì)AI視頻生成的實(shí)際應(yīng)用也有深遠(yuǎn)影響。隨著視頻內(nèi)容在社交媒體、教育、營(yíng)銷和娛樂(lè)等領(lǐng)域的重要性不斷增加,能夠高效生成長(zhǎng)視頻的技術(shù)將變得越來(lái)越有價(jià)值。

DualParal使創(chuàng)作者能夠生成更長(zhǎng)、更復(fù)雜的視頻敘事,為AI輔助內(nèi)容創(chuàng)作開(kāi)辟了新的可能性。例如,教育工作者可以生成完整的教學(xué)視頻,營(yíng)銷人員可以創(chuàng)建詳細(xì)的產(chǎn)品演示,而電影制作人則可以利用AI生成初步的故事板或概念視頻。

此外,DualParal的分布式設(shè)計(jì)也為部署大規(guī)模視頻生成服務(wù)提供了可行路徑。通過(guò)有效利用多GPU資源,服務(wù)提供商可以為用戶提供更快、更高質(zhì)量的視頻生成體驗(yàn),同時(shí)控制計(jì)算成本。

當(dāng)然,DualParal也有一些限制。正如研究團(tuán)隊(duì)所指出的,在預(yù)熱和冷卻階段,當(dāng)隊(duì)列中的當(dāng)前塊數(shù)小于設(shè)備數(shù)量N時(shí),會(huì)出現(xiàn)一些設(shè)備空閑時(shí)間和同步開(kāi)銷。雖然這在生成長(zhǎng)視頻時(shí)影響相對(duì)較小,但進(jìn)一步減少這種開(kāi)銷可能會(huì)帶來(lái)更優(yōu)的解決方案。

未來(lái)的研究方向可能包括進(jìn)一步優(yōu)化特征緩存策略,探索更高效的噪聲初始化方法,以及將DualParal擴(kuò)展到其他類型的生成模型。隨著硬件技術(shù)的發(fā)展和模型架構(gòu)的創(chuàng)新,我們可以期待視頻生成技術(shù)在效率和質(zhì)量方面取得更多突破。

總之,新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)提出的DualParal代表了視頻生成技術(shù)的一個(gè)重要里程碑。通過(guò)巧妙結(jié)合雙重并行策略,這項(xiàng)技術(shù)使分鐘級(jí)長(zhǎng)視頻的生成變得高效且實(shí)用,為AI視頻創(chuàng)作的未來(lái)開(kāi)辟了新的可能性。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-