av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ruby id="vbmzo"><th id="vbmzo"></th></ruby>

<table id="vbmzo"></table>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

雙重并行：讓AI視頻生成突破時(shí)長(zhǎng)限制，新加坡國(guó)立大學(xué)團(tuán)隊(duì)實(shí)現(xiàn)分鐘級(jí)長(zhǎng)視頻創(chuàng)作

視頻生成技術(shù)分布式計(jì)算擴(kuò)散模型

雙重并行：讓AI視頻生成突破時(shí)長(zhǎng)限制，新加坡國(guó)立大學(xué)團(tuán)隊(duì)實(shí)現(xiàn)分鐘級(jí)長(zhǎng)視頻創(chuàng)作

作者：科技行者

2025-05-30 17:26

分享至：

這項(xiàng)研究由新加坡國(guó)立大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的DualParal技術(shù)，通過(guò)創(chuàng)新的雙重并行架構(gòu)解決了AI視頻生成的長(zhǎng)度限制問(wèn)題。該方法同時(shí)在時(shí)間幀和模型層兩個(gè)維度實(shí)現(xiàn)并行處理，配合分塊降噪機(jī)制、特征緩存和協(xié)調(diào)噪聲初始化策略，使生成分鐘級(jí)長(zhǎng)視頻成為可能。實(shí)驗(yàn)表明，在生成1,025幀視頻時(shí)，DualParal比現(xiàn)有技術(shù)減少了高達(dá)6.54倍的延遲和1.48倍的內(nèi)存成本，同時(shí)保持了高質(zhì)量的視頻輸出，為內(nèi)容創(chuàng)作者提供了生成更長(zhǎng)、更復(fù)雜視頻敘事的新工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 17:26 ? 科技行者

今天，我想與大家分享一項(xiàng)令人振奮的視頻生成技術(shù)突破。由新加坡國(guó)立大學(xué)的王澤清（Zeqing Wang）、鄭博文（Bowen Zheng）、楊星毅（Xingyi Yang）、徐越聰（Yuecong Xu）和通訊作者王欣超（Xinchao Wang）共同完成的研究論文《分鐘級(jí)長(zhǎng)視頻的雙重并行》（Minute-Long Videos with Dual Parallelisms）于2025年5月27日發(fā)布在arXiv預(yù)印本平臺(tái)（arXiv:2505.21070v1）。這項(xiàng)研究成果可以在項(xiàng)目官網(wǎng)https://dualparal-project.github.io/dualparal.github.io/查看更多詳情。

想象一下這樣的場(chǎng)景：你想用AI生成一段幾分鐘長(zhǎng)的視頻，但現(xiàn)有技術(shù)只能生成幾秒鐘的短片，或者需要等待數(shù)小時(shí)才能完成。為什么會(huì)這樣呢？這是因?yàn)槟壳白钕冗M(jìn)的視頻生成模型——基于擴(kuò)散變換器（Diffusion Transformer，簡(jiǎn)稱DiT）的模型——盡管能生成高質(zhì)量視頻，但在處理長(zhǎng)視頻時(shí)卻面臨嚴(yán)重的計(jì)算瓶頸。

這就像是一個(gè)廚師要準(zhǔn)備一場(chǎng)盛大宴會(huì)的所有菜肴，但只有一個(gè)灶臺(tái)可用——無(wú)論這位廚師多么熟練，準(zhǔn)備時(shí)間都會(huì)隨著菜肴數(shù)量的增加而大幅延長(zhǎng)。視頻生成也是如此，每多一幀畫(huà)面，計(jì)算復(fù)雜度就會(huì)呈二次方增長(zhǎng)，同時(shí)內(nèi)存需求也會(huì)隨之激增。

新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案，名為"DualParal"（雙重并行）。簡(jiǎn)單來(lái)說(shuō)，他們不再讓一臺(tái)計(jì)算機(jī)（GPU）獨(dú)自完成所有工作，而是將任務(wù)分配給多臺(tái)計(jì)算機(jī)同時(shí)處理。但這不僅僅是簡(jiǎn)單的任務(wù)分配，而是一種全新的分布式推理策略，同時(shí)在兩個(gè)維度上實(shí)現(xiàn)了并行：時(shí)間幀并行和模型層并行。

這項(xiàng)技術(shù)的核心理念就像是把一場(chǎng)大型宴會(huì)的準(zhǔn)備工作分配給多個(gè)廚房團(tuán)隊(duì)：一方面，不同的廚房負(fù)責(zé)不同的菜品（這相當(dāng)于時(shí)間幀并行）；另一方面，每道菜的不同制作步驟也由專人負(fù)責(zé)（這相當(dāng)于模型層并行）。通過(guò)這種雙重并行機(jī)制，原本需要數(shù)小時(shí)的工作可以在短短幾十分鐘內(nèi)完成。

但實(shí)施這個(gè)看似簡(jiǎn)單的想法時(shí)，研究團(tuán)隊(duì)遇到了一個(gè)關(guān)鍵挑戰(zhàn)。在傳統(tǒng)的擴(kuò)散模型中，所有視頻幀必須在相同的噪聲水平下同步處理。這就像是一個(gè)大型管弦樂(lè)團(tuán)，所有樂(lè)器必須嚴(yán)格按照指揮的節(jié)拍同步演奏。如果簡(jiǎn)單地將視頻分割給不同計(jì)算機(jī)處理，這種同步要求會(huì)導(dǎo)致大量的等待時(shí)間，抵消并行處理帶來(lái)的速度優(yōu)勢(shì)。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)引入了一種名為"分塊降噪"的創(chuàng)新機(jī)制。他們將視頻分成多個(gè)不重疊的時(shí)間塊，每個(gè)塊被賦予不同的噪聲水平：靠近視頻結(jié)尾的塊噪聲水平較高，而靠近開(kāi)頭的塊噪聲水平較低。在每個(gè)推理步驟中，模型可以異步處理所有塊，逐步降低各自的噪聲水平。

這種方法就像是將一首交響樂(lè)分成多個(gè)樂(lè)章，每個(gè)樂(lè)章由不同的樂(lè)隊(duì)演奏，它們不需要嚴(yán)格同步，只需確保在各自演奏完成后能自然銜接成一個(gè)完整的音樂(lè)作品。

具體到技術(shù)實(shí)現(xiàn)上，DualParal將視頻序列塊組織成一個(gè)先進(jìn)先出（FIFO）隊(duì)列，噪聲水平從尾到頭遞減。在每個(gè)擴(kuò)散步驟中，一個(gè)新的噪聲塊被添加到隊(duì)列尾部，同時(shí)一個(gè)干凈的塊從隊(duì)列頭部移除。這些視頻塊隨后以相反的順序（從尾到頭）通過(guò)設(shè)備管道進(jìn)行處理。在這個(gè)設(shè)置中，每臺(tái)設(shè)備負(fù)責(zé)特定的視頻塊和模型部分，降噪后的輸出異步地在GPU之間傳遞。

更令人興奮的是，DualParal利用其FIFO隊(duì)列實(shí)現(xiàn)了長(zhǎng)視頻生成。新的塊可以持續(xù)添加到隊(duì)列中，允許生成任意長(zhǎng)度的視頻。由于每個(gè)塊內(nèi)的幀數(shù)保持固定，這種方法避免了與延長(zhǎng)視頻序列相關(guān)的二次計(jì)算延遲增長(zhǎng)和高內(nèi)存成本。

為了進(jìn)一步優(yōu)化并行效率并保持視頻質(zhì)量，研究團(tuán)隊(duì)引入了兩個(gè)關(guān)鍵改進(jìn)。首先，他們?cè)诿總€(gè)GPU上實(shí)現(xiàn)了一個(gè)特征緩存，存儲(chǔ)和重用來(lái)自前一個(gè)塊的關(guān)鍵值（KV）特征，無(wú)需顯式連接這些特征。這減少了GPU間通信和在交叉注意力（Cross-Attention）和前饋網(wǎng)絡(luò)（FFN）等組件中的冗余計(jì)算。其次，他們采用了一種協(xié)調(diào)的噪聲初始化策略，通過(guò)在GPU之間共享初始噪聲模式確保全局一致性，而不需要額外的資源成本。

實(shí)驗(yàn)結(jié)果令人印象深刻。在使用8個(gè)RTX 4090 GPU處理1,025幀視頻時(shí)，DualParal比現(xiàn)有最先進(jìn)的分布式方法實(shí)現(xiàn)了高達(dá)6.54倍的延遲減少和1.48倍的內(nèi)存成本降低。這意味著原本可能需要一個(gè)多小時(shí)才能生成的長(zhǎng)視頻，現(xiàn)在只需十幾分鐘就能完成。

這項(xiàng)技術(shù)突破不僅對(duì)AI研究人員和開(kāi)發(fā)者意義重大，對(duì)普通用戶也有深遠(yuǎn)影響。想象一下，未來(lái)你可以簡(jiǎn)單描述一個(gè)故事情節(jié)，AI就能為你生成一段完整的幾分鐘長(zhǎng)的視頻，用于教育、娛樂(lè)或商業(yè)展示。DualParal的出現(xiàn)使這一愿景離現(xiàn)實(shí)更近一步。

讓我們深入了解這項(xiàng)技術(shù)的細(xì)節(jié)和創(chuàng)新之處。

一、雙重并行架構(gòu)：打破速度與內(nèi)存的雙重瓶頸

擴(kuò)散模型是目前生成高質(zhì)量視頻的主流方法，它的工作原理就像是慢慢清洗一張蒙塵的照片。首先從一張全是噪點(diǎn)的圖像開(kāi)始，然后一步步去除噪點(diǎn)，直到呈現(xiàn)出清晰的圖像。在視頻生成中，這個(gè)過(guò)程需要同時(shí)處理多個(gè)幀，每個(gè)幀都經(jīng)歷從高噪聲到低噪聲的轉(zhuǎn)變，這個(gè)過(guò)程通常需要執(zhí)行幾十步降噪操作。

最新的視頻擴(kuò)散模型，如Wan2.1，采用了擴(kuò)散變換器（DiT）架構(gòu)，能夠生成令人印象深刻的視頻。但當(dāng)我們想生成長(zhǎng)視頻時(shí)，這些模型面臨兩個(gè)主要挑戰(zhàn)：

首先是計(jì)算延遲。DiT模型的核心是注意力機(jī)制，其計(jì)算復(fù)雜度與序列長(zhǎng)度（即視頻幀數(shù)）的平方成正比。當(dāng)視頻從幾秒鐘延長(zhǎng)到幾分鐘時(shí)，計(jì)算時(shí)間會(huì)爆炸性增長(zhǎng)。

其次是內(nèi)存消耗。模型本身有大量參數(shù)需要存儲(chǔ)，再加上處理長(zhǎng)視頻序列所需的臨時(shí)數(shù)據(jù)，很快就會(huì)超出單個(gè)GPU的內(nèi)存容量。

為了解決這些挑戰(zhàn)，研究人員提出了兩種主要的并行策略：

序列并行（Sequence Parallelism）：將輸入視頻分割成多個(gè)部分，每部分由一臺(tái)設(shè)備處理，每臺(tái)設(shè)備上都運(yùn)行完整的模型副本。這種方法可以減少延遲，但由于每臺(tái)設(shè)備都需要存儲(chǔ)完整的模型，內(nèi)存消耗仍然很高。

管道并行（Pipeline Parallelism）：將模型分割成多個(gè)部分，每部分由一臺(tái)設(shè)備處理，形成一個(gè)處理"管道"。這種方法可以減少每臺(tái)設(shè)備的內(nèi)存使用，但無(wú)法有效降低處理長(zhǎng)序列的延遲。

理想的解決方案是結(jié)合這兩種并行策略，既分割視頻序列又分割模型，以最大化速度并最小化內(nèi)存使用。但這里存在一個(gè)根本性沖突：視頻擴(kuò)散模型要求所有輸入幀必須同步通過(guò)每一層，而在管道并行中，這意味著完整輸入必須在一臺(tái)設(shè)備（如設(shè)備1）上處理完畢才能傳遞到下一臺(tái)設(shè)備（如設(shè)備2）。這與序列并行直接矛盾，因?yàn)樾蛄胁⑿袑⑤斎敕稚⒌讲煌O(shè)備上。

DualParal通過(guò)一個(gè)巧妙的"分塊降噪"方案解決了這一沖突。不同于傳統(tǒng)方法要求所有幀在統(tǒng)一噪聲水平下降噪，DualParal將視頻分成不重疊的時(shí)間塊，每個(gè)塊根據(jù)其在視頻中的位置被賦予不同的噪聲水平。視頻末尾的塊有更高的噪聲水平，而前面的塊噪聲水平較低。在每個(gè)推理步驟中，模型可以異步處理所有塊，逐步降低各自的噪聲水平。

這就像是一個(gè)工廠的流水線，不同工位可以同時(shí)處理不同階段的產(chǎn)品，而不需要等待整批產(chǎn)品完成某一步驟才能開(kāi)始下一步驟。關(guān)鍵是，由于噪聲水平不需要在所有幀之間同步，分塊降噪解決了兩種并行策略之間的內(nèi)在沖突。

二、FIFO隊(duì)列與分塊降噪：實(shí)現(xiàn)無(wú)限長(zhǎng)度視頻生成

DualParal的具體實(shí)現(xiàn)包括兩個(gè)關(guān)鍵組件：隊(duì)列和設(shè)備管道。

在設(shè)備管道中，視頻擴(kuò)散模型的DiT塊被均勻分布在多個(gè)GPU上。而在隊(duì)列中，每個(gè)元素是共享相同噪聲水平的一塊幀，按照先進(jìn)先出（FIFO）的方式組織，噪聲水平從尾到頭遞減（從最高噪聲T到最低噪聲1）。

在推理過(guò)程中，隊(duì)列中的塊按照相反的順序（從尾到頭）連續(xù)輸入到設(shè)備管道中。每次擴(kuò)散步驟后，隊(duì)列中的所有塊向前移動(dòng)一個(gè)位置，即Q = [B0, B1, ..., BT-1]。一個(gè)新的噪聲塊BT被添加到隊(duì)列尾部，而干凈的塊B0從隊(duì)列頭部移除并傳遞給解碼器進(jìn)行最終視頻重建。

這種架構(gòu)使每臺(tái)設(shè)備可以處理特定的視頻塊和對(duì)應(yīng)的模型部分，而降噪后的輸出則異步地在GPU之間傳遞。這種分塊降噪方案有效解決了簡(jiǎn)單組合序列并行和管道并行導(dǎo)致的串行化問(wèn)題，從而實(shí)現(xiàn)了真正的時(shí)間幀和模型層雙重并行。

更重要的是，這種設(shè)計(jì)允許生成無(wú)限長(zhǎng)度的視頻。新的塊可以持續(xù)添加到隊(duì)列中，而因?yàn)槊總€(gè)塊內(nèi)的幀數(shù)保持固定，這種方法避免了與延長(zhǎng)視頻序列相關(guān)的計(jì)算復(fù)雜度二次增長(zhǎng)和高內(nèi)存成本問(wèn)題。

三、特征緩存與協(xié)調(diào)噪聲初始化：提升效率與質(zhì)量

雖然基本的雙重并行架構(gòu)已經(jīng)大大提高了效率，但研究團(tuán)隊(duì)進(jìn)一步引入了兩項(xiàng)關(guān)鍵優(yōu)化，進(jìn)一步提升系統(tǒng)性能和生成質(zhì)量。

首先是特征緩存技術(shù)。在處理相鄰的非重疊塊時(shí)，為了保持時(shí)間連貫性，通常需要將前一個(gè)和后一個(gè)塊與當(dāng)前塊連接起來(lái)一起處理。這會(huì)導(dǎo)致額外的通信和計(jì)算開(kāi)銷。DualParal利用一個(gè)巧妙的特性：當(dāng)處理塊B'i = [Bi-1, Bi, Bi+1]時(shí)，Bi+1已經(jīng)在處理前一個(gè)塊B'i+1 = [Bi, Bi+1, Bi+2]時(shí)被處理過(guò)。

利用這一特性，DualParal在處理B'i+1時(shí)緩存Bi+1的自注意力模塊的關(guān)鍵值（KV）特征，并在處理B'i時(shí)重用這些特征。這樣，輸入塊可以減少為B'i = [Bi-1, Bi]，降低了相鄰設(shè)備之間的通信開(kāi)銷。

更進(jìn)一步，研究團(tuán)隊(duì)觀察到，在所有模型組件中，只有那些需要跨幀交互的組件（如Wan2.1模型中的自注意力模塊）才真正需要相鄰塊的信息。因此，他們將特征緩存技術(shù)限制在自注意力模塊，而跳過(guò)如交叉注意力和前饋網(wǎng)絡(luò)等不需要跨幀信息的組件，進(jìn)一步消除了冗余計(jì)算。

第二個(gè)關(guān)鍵優(yōu)化是協(xié)調(diào)噪聲初始化策略。盡管DualParal通過(guò)連接相鄰塊來(lái)平滑過(guò)渡，但全局一致性仍然是一個(gè)挑戰(zhàn)。一種簡(jiǎn)單的解決方案是連接更多的全局信息，但這會(huì)導(dǎo)致高通信、計(jì)算和內(nèi)存成本。

研究團(tuán)隊(duì)發(fā)現(xiàn)，對(duì)于基于DiT的視頻擴(kuò)散模型，有兩個(gè)關(guān)鍵觀察：1）使用完整噪聲空間可以保持良好的全局一致性；2）在整個(gè)降噪過(guò)程中使用重復(fù)噪聲會(huì)導(dǎo)致DiT模型性能顯著下降。

基于這些觀察，他們提出了一種新穎的初始化策略。具體來(lái)說(shuō)，當(dāng)初始化一個(gè)新塊時(shí)，從一個(gè)還沒(méi)有被隊(duì)列中最后一個(gè)塊BT的最后NumC/2個(gè)潛變量使用過(guò)的噪聲池中選擇噪聲。這些選定的噪聲經(jīng)過(guò)混洗后用于初始化新塊。這確保了在整個(gè)降噪過(guò)程中，連接的塊中不會(huì)重復(fù)使用相同的噪聲，同時(shí)仍然利用完整的噪聲池，保持全局一致性而不需要額外成本。

四、理論分析與實(shí)驗(yàn)驗(yàn)證：證明DualParal的優(yōu)越性

研究團(tuán)隊(duì)對(duì)DualParal的并行性能進(jìn)行了全面的理論分析，重點(diǎn)關(guān)注三個(gè)方面：氣泡率（設(shè)備空閑時(shí)間比例）、通信開(kāi)銷和內(nèi)存成本。

在氣泡率方面，假設(shè)設(shè)備數(shù)量N小于或等于塊數(shù)量Blocknum（這在長(zhǎng)視頻生成中很容易滿足），氣泡率可以表示為(N?-N-1)/(N?-N-1+T×Blocknum)，其中T是降噪步驟的總數(shù)。隨著B(niǎo)locknum增加，氣泡率接近0%，表明在長(zhǎng)視頻生成過(guò)程中設(shè)備管道中的空閑時(shí)間最小。

在通信和內(nèi)存成本方面，研究團(tuán)隊(duì)將DualParal與其他并行方法進(jìn)行了對(duì)比，包括DeepSpeed-Ulysses、Ring Attention、Video-Infinity和FIFO。分析表明，DualParal在這兩方面都具有明顯優(yōu)勢(shì)，尤其是在長(zhǎng)視頻生成時(shí)。

為了驗(yàn)證理論分析結(jié)果，研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn)。在生成極長(zhǎng)視頻方面，與Ring Attention相比，DualParal在生成1,025幀視頻時(shí)實(shí)現(xiàn)了高達(dá)6.54倍的延遲減少和1.48倍的內(nèi)存成本降低。與同樣支持無(wú)限長(zhǎng)度視頻生成的FIFO相比，DualParal在生成513幀視頻時(shí)仍然實(shí)現(xiàn)了1.82倍的延遲減少和1.32倍的內(nèi)存成本降低。

在可擴(kuò)展性方面，DualParal在使用多GPU生成301幀視頻時(shí)表現(xiàn)出色，不論是在Wan2.1-1.3B（480p）還是Wan2.1-14B（720p）模型上，都始終優(yōu)于所有其他方法。隨著GPU數(shù)量的增加，DualParal的延遲持續(xù)降低，內(nèi)存使用也穩(wěn)步減少。

在視頻質(zhì)量方面，研究團(tuán)隊(duì)使用VBench指標(biāo)評(píng)估了DualParal生成的視頻質(zhì)量，并與DeepSpeed-Ulysses、Video-Infinity和FIFO進(jìn)行了比較。在129幀視頻設(shè)置中，盡管DeepSpeed-Ulysses由于保留完整視頻序列而不分割，表現(xiàn)最佳，但在257幀視頻設(shè)置中，DualParal明顯優(yōu)于其他分布式方法，包括FIFO和Video-Infinity，實(shí)現(xiàn)了最高的總體評(píng)分。

這些實(shí)驗(yàn)結(jié)果證明，DualParal不僅在效率方面表現(xiàn)出色，而且能夠生成高質(zhì)量的長(zhǎng)視頻，這是其他方法難以實(shí)現(xiàn)的。

五、DualParal的創(chuàng)新價(jià)值與未來(lái)展望

DualParal的創(chuàng)新之處在于它首次成功地將序列并行和管道并行結(jié)合起來(lái)，在保持高視頻質(zhì)量的同時(shí)，極大地提高了長(zhǎng)視頻生成的效率。這種雙重并行架構(gòu)，加上分塊降噪、特征緩存和協(xié)調(diào)噪聲初始化等創(chuàng)新技術(shù)，共同解決了長(zhǎng)視頻生成面臨的計(jì)算延遲和內(nèi)存消耗雙重挑戰(zhàn)。

這項(xiàng)技術(shù)的意義不僅限于學(xué)術(shù)研究，它對(duì)AI視頻生成的實(shí)際應(yīng)用也有深遠(yuǎn)影響。隨著視頻內(nèi)容在社交媒體、教育、營(yíng)銷和娛樂(lè)等領(lǐng)域的重要性不斷增加，能夠高效生成長(zhǎng)視頻的技術(shù)將變得越來(lái)越有價(jià)值。

DualParal使創(chuàng)作者能夠生成更長(zhǎng)、更復(fù)雜的視頻敘事，為AI輔助內(nèi)容創(chuàng)作開(kāi)辟了新的可能性。例如，教育工作者可以生成完整的教學(xué)視頻，營(yíng)銷人員可以創(chuàng)建詳細(xì)的產(chǎn)品演示，而電影制作人則可以利用AI生成初步的故事板或概念視頻。

此外，DualParal的分布式設(shè)計(jì)也為部署大規(guī)模視頻生成服務(wù)提供了可行路徑。通過(guò)有效利用多GPU資源，服務(wù)提供商可以為用戶提供更快、更高質(zhì)量的視頻生成體驗(yàn)，同時(shí)控制計(jì)算成本。

當(dāng)然，DualParal也有一些限制。正如研究團(tuán)隊(duì)所指出的，在預(yù)熱和冷卻階段，當(dāng)隊(duì)列中的當(dāng)前塊數(shù)小于設(shè)備數(shù)量N時(shí)，會(huì)出現(xiàn)一些設(shè)備空閑時(shí)間和同步開(kāi)銷。雖然這在生成長(zhǎng)視頻時(shí)影響相對(duì)較小，但進(jìn)一步減少這種開(kāi)銷可能會(huì)帶來(lái)更優(yōu)的解決方案。

未來(lái)的研究方向可能包括進(jìn)一步優(yōu)化特征緩存策略，探索更高效的噪聲初始化方法，以及將DualParal擴(kuò)展到其他類型的生成模型。隨著硬件技術(shù)的發(fā)展和模型架構(gòu)的創(chuàng)新，我們可以期待視頻生成技術(shù)在效率和質(zhì)量方面取得更多突破。

總之，新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)提出的DualParal代表了視頻生成技術(shù)的一個(gè)重要里程碑。通過(guò)巧妙結(jié)合雙重并行策略，這項(xiàng)技術(shù)使分鐘級(jí)長(zhǎng)視頻的生成變得高效且實(shí)用，為AI視頻創(chuàng)作的未來(lái)開(kāi)辟了新的可能性。

視頻生成技術(shù)分布式計(jì)算擴(kuò)散模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<nobr id="z7uj9"></nobr>

<tt id="z7uj9"></tt>