av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 SkyReels-Audio:讓肖像"動(dòng)"起來 - Skywork AI開創(chuàng)全能音頻驅(qū)動(dòng)的人像視頻生成技術(shù)

SkyReels-Audio:讓肖像"動(dòng)"起來 - Skywork AI開創(chuàng)全能音頻驅(qū)動(dòng)的人像視頻生成技術(shù)

2025-06-11 07:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-11 07:51 ? 科技行者

一、研究背景與概述

2025年6月1日,由Skywork AI團(tuán)隊(duì)發(fā)布的最新研究論文《SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers》吸引了計(jì)算機(jī)視覺和人機(jī)交互領(lǐng)域的廣泛關(guān)注。這項(xiàng)研究將在項(xiàng)目官網(wǎng)SkyReels-Audio.github.io公布詳細(xì)信息和演示視頻。

想象一下,你只需一張照片和一段語音,就能讓照片中的人"活"起來,自然地說話、表情生動(dòng),甚至能做出與語音內(nèi)容相匹配的肢體動(dòng)作。這正是SkyReels-Audio實(shí)現(xiàn)的突破性技術(shù)。在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域,生成逼真的人物視頻一直是一項(xiàng)極具挑戰(zhàn)性的任務(wù),尤其是要讓生成的人物與音頻精確同步,保持身份一致性,并展現(xiàn)自然的面部表情和身體動(dòng)態(tài)。

傳統(tǒng)方法通常需要專業(yè)設(shè)備和復(fù)雜的后期處理,而且效果往往不盡如人意。比如,你可能見過那些"嘴型不匹配"的配音視頻,或者面部表情僵硬不自然的虛擬人物。SkyReels-Audio的出現(xiàn)正是為了解決這些問題,它能夠根據(jù)輸入的圖像、視頻或文本,結(jié)合音頻信息,生成高度逼真、時(shí)間連貫的人像視頻。

就像一位魔術(shù)師能將靜止的照片變成生動(dòng)的表演一樣,SkyReels-Audio讓靜態(tài)圖像煥發(fā)生機(jī),不僅能精確對(duì)口型,還能展現(xiàn)豐富的情感表達(dá)和自然的身體動(dòng)作。更令人驚嘆的是,它支持無限長度的視頻生成和編輯,為內(nèi)容創(chuàng)作者提供了前所未有的靈活性。

二、技術(shù)原理與創(chuàng)新

SkyReels-Audio的核心是基于預(yù)訓(xùn)練的視頻擴(kuò)散變換器(Video Diffusion Transformers)構(gòu)建的統(tǒng)一框架。如果我們把這個(gè)過程比作烹飪,那么這個(gè)框架就像一位精通多種料理技巧的大廚,能夠?qū)⒉煌?食材"(圖像、文本、視頻和音頻)完美融合,創(chuàng)造出令人驚嘆的"視覺盛宴"。

在這個(gè)"廚房"里,3D VAE(變分自編碼器)就像一臺(tái)特殊的食物處理器,負(fù)責(zé)提取視覺特征。同時(shí),Whisper模型則像一位專業(yè)的音頻分析師,處理輸入的語音信號(hào),進(jìn)行重采樣和特征編碼。這些音頻表示經(jīng)過Whisper編碼器后,轉(zhuǎn)化為離散的標(biāo)記嵌入,然后通過專門的交叉注意力層注入到視頻DiT(擴(kuò)散變換器)中,從而調(diào)制視頻生成過程。

為了改善音頻和視覺模態(tài)之間的對(duì)齊,研究團(tuán)隊(duì)采用了RoPE(旋轉(zhuǎn)位置編碼)技術(shù)。想象這就像教兩個(gè)舞者保持步調(diào)一致的方法—RoPE特別有效地捕捉距離感知關(guān)系,并能泛化到可變序列長度。音頻特征被視為一維序列,形狀為[1, Laudio],相應(yīng)的1D RoPE在注意力操作中添加。這種技術(shù)增強(qiáng)了模態(tài)內(nèi)部的連貫性和跨模態(tài)的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)更準(zhǔn)確的唇部同步和生成內(nèi)容的語義一致性。

研究團(tuán)隊(duì)還開創(chuàng)性地提出了混合學(xué)習(xí)策略。就像學(xué)習(xí)復(fù)雜技能時(shí)通常會(huì)先分解為簡單步驟再逐步組合一樣,他們發(fā)現(xiàn)聯(lián)合訓(xùn)練策略能夠更有效地處理圖像動(dòng)畫和視頻編輯任務(wù)。實(shí)驗(yàn)表明,即使使用T2V模型作為基礎(chǔ)模型,采用聯(lián)合訓(xùn)練策略也能獲得令人滿意的圖像動(dòng)畫結(jié)果。相比之下,單獨(dú)訓(xùn)練圖像動(dòng)畫任務(wù)往往需要更長的收斂時(shí)間,有時(shí)甚至無法產(chǎn)生正確結(jié)果。

三、數(shù)據(jù)處理與模型訓(xùn)練

為了訓(xùn)練出高質(zhì)量的模型,SkyReels團(tuán)隊(duì)構(gòu)建了一條嚴(yán)格的數(shù)據(jù)處理流水線。想象這個(gè)過程就像篩選優(yōu)質(zhì)食材——從大量原料中只挑選最好的那部分。具體來說,他們從公共數(shù)據(jù)集(包括OpenHumanVid、Panda-6M、Hallo3)和自行收集的來源中收集了10,000小時(shí)的視頻數(shù)據(jù),放入原始數(shù)據(jù)池。隨后,他們基于圖像內(nèi)容、視頻質(zhì)量、人像質(zhì)量、音頻質(zhì)量和音視頻同步性對(duì)數(shù)據(jù)進(jìn)行分階段處理,最終獲得1,000小時(shí)用于訓(xùn)練的高質(zhì)量數(shù)據(jù)。

數(shù)據(jù)預(yù)處理流程頗為精細(xì),首先收集大規(guī)模視頻數(shù)據(jù)集,基于內(nèi)容連貫性將其分割為短片段。然后使用視頻字幕模型SkyCaptioner-V1為每個(gè)片段生成描述性注釋,提供高質(zhì)量的文本監(jiān)督。為了分析人物存在和互動(dòng),他們使用YOLO-World和InsightFace分別進(jìn)行身體和面部檢測(cè),從而估計(jì)每個(gè)片段中的個(gè)體數(shù)量。他們還使用DWpose提取姿勢(shì)相關(guān)特征來計(jì)算頭部與身體的比例,并應(yīng)用Whisper識(shí)別所講語言。

這種多階段預(yù)處理確保了訓(xùn)練數(shù)據(jù)的質(zhì)量,就像精心挑選的食材才能烹飪出美味佳肴一樣,高質(zhì)量的數(shù)據(jù)是構(gòu)建優(yōu)秀模型的基礎(chǔ)。

四、模型推理與優(yōu)化

在推理階段,SkyReels-Audio引入了幾項(xiàng)關(guān)鍵優(yōu)化,使模型不僅能產(chǎn)生高質(zhì)量結(jié)果,還能高效運(yùn)行。

首先是音頻引導(dǎo)條件采樣機(jī)制(Audio CFG)。就像導(dǎo)航系統(tǒng)需要不斷調(diào)整方向以確保車輛沿著正確路線行駛一樣,這種機(jī)制通過增強(qiáng)與驅(qū)動(dòng)音頻信號(hào)的同步來改進(jìn)生成效果。具體來說,調(diào)整后的去噪函數(shù)將同時(shí)考慮音頻和文本引導(dǎo):

``` u_θ^cfg = (1 + ω_audio)u_θ(z_t, t, T_s, I_s, V_s, A) - ω_audio u_θ(z_t, t, T_s, I_s, V_s, ?) + (1 + ω_text)u_θ(z_t, t, T_s, I_s, V_s, ?) - ω_text u_θ(z_t, t, ?, ?, ?, ?) ```

其中ω_audio和ω_text分別代表專門為音頻條件和文本條件設(shè)計(jì)的CFG尺度。值得注意的是,這些CFG權(quán)重采用時(shí)間依賴調(diào)度,使模型能夠在擴(kuò)散軌跡中動(dòng)態(tài)平衡條件影響,從而提高逼真度和音頻同步人像生成的穩(wěn)健性。

其次是通過雙向潛在融合(BLF)實(shí)現(xiàn)無限視頻生成。想象一個(gè)無縫拼接長卷軸畫的過程,BLF技術(shù)就像一位巧妙的藝術(shù)家,能在不同畫面之間創(chuàng)造完美的過渡。在去噪循環(huán)過程中,BLF通過雙向加權(quán)融合視頻潛在表示,實(shí)現(xiàn)不同視頻窗口之間的平滑過渡。與基于運(yùn)動(dòng)幀的方法相比,BLF不需要訓(xùn)練支持,并顯著減少了錯(cuò)誤累積導(dǎo)致的圖像質(zhì)量下降。

第三是混合推理策略。得益于圖像動(dòng)畫和視頻編輯任務(wù)的聯(lián)合訓(xùn)練,模型在推理過程中同時(shí)支持圖像和視頻輸入。實(shí)驗(yàn)結(jié)果表明,當(dāng)由相同音頻輸入驅(qū)動(dòng)時(shí),從單一圖像(即視頻的第一幀)生成的視頻比從完整視頻輸入生成的視頻展現(xiàn)出更好的唇部同步準(zhǔn)確性。因此,為了增強(qiáng)視頻編輯任務(wù)中的音視頻同步,研究團(tuán)隊(duì)提出了一種混合推理策略:在早期去噪步驟(前N步)使用完整視頻輸入以保持與源視頻的結(jié)構(gòu)一致性;在后續(xù)去噪步驟中切換到圖像輸入(僅第一幀)以細(xì)化唇部同步細(xì)節(jié),同時(shí)自適應(yīng)調(diào)整相應(yīng)的掩碼序列。

最后是模型加速。為加速推理過程,研究團(tuán)隊(duì)實(shí)施了兩項(xiàng)主要優(yōu)化:Teacache用于通過潛在重用消除冗余去噪步驟;統(tǒng)一序列并行化(USP)支持多GPU推理。值得注意的是,Teacache和USP可以同時(shí)激活。結(jié)果,他們的框架能在一分鐘內(nèi)生成80幀視頻(在8個(gè)A800 GPU上執(zhí)行50步推理),同時(shí)不會(huì)造成明顯的質(zhì)量下降。

五、實(shí)驗(yàn)結(jié)果與性能評(píng)估

為了全面評(píng)估SkyReels-Audio的性能,研究團(tuán)隊(duì)進(jìn)行了定量和定性分析,結(jié)果令人印象深刻。

在定量分析方面,他們采用了標(biāo)準(zhǔn)化評(píng)估指標(biāo),在從HDTF數(shù)據(jù)集和內(nèi)部數(shù)據(jù)集隨機(jī)抽樣的100個(gè)視頻片段上進(jìn)行測(cè)試,這些數(shù)據(jù)都被排除在模型的訓(xùn)練數(shù)據(jù)之外。對(duì)于每個(gè)測(cè)試實(shí)例,使用初始視頻幀作為靜態(tài)人像參考,相應(yīng)的音頻軌道驅(qū)動(dòng)完整視頻序列的生成,原始視頻片段作為真實(shí)參考。

實(shí)驗(yàn)結(jié)果顯示,SkyReels-Audio在視覺保真度、運(yùn)動(dòng)真實(shí)性和唇部同步精度方面始終優(yōu)于基線模型,達(dá)到接近閉源模型的性能。特別是,在內(nèi)部數(shù)據(jù)集上,SkyReels-Audio在Sync-C和Sync-D指標(biāo)(衡量音視頻同步)上分別達(dá)到6.75和8.32,明顯優(yōu)于多數(shù)基線模型。同時(shí),在圖像質(zhì)量評(píng)估(IQA)和美學(xué)評(píng)分(ASE)上也表現(xiàn)出色,分別為4.42和2.91。

為進(jìn)一步驗(yàn)證方法的有效性,研究團(tuán)隊(duì)還在內(nèi)部數(shù)據(jù)集上進(jìn)行了主觀評(píng)估。具體來說,每位參與者評(píng)估了兩個(gè)關(guān)鍵維度:音視頻一致性和視覺質(zhì)量。共有20名參與者對(duì)每個(gè)方面進(jìn)行了0到2(從差到好)的評(píng)分。結(jié)果表明,SkyReels-Audio在兩個(gè)評(píng)估維度上都優(yōu)于基線系統(tǒng)。

在消融研究中,團(tuán)隊(duì)分析了音頻CFG和音頻RoPE的影響。結(jié)果顯示,隨著音頻CFG值的增加,與音視頻一致性相關(guān)的指標(biāo)(Sync-C和Sync-D)持續(xù)改善,但視頻視覺質(zhì)量會(huì)略有下降??紤]到這兩個(gè)因素,他們將音頻CFG默認(rèn)值設(shè)為4.5。同樣,結(jié)果清楚地表明,引入位置編碼有效改善了視覺質(zhì)量和音頻之間的對(duì)齊,幫助模型更準(zhǔn)確地定位有用信息。

六、應(yīng)用場(chǎng)景與未來展望

SkyReels-Audio的出現(xiàn)為數(shù)字內(nèi)容創(chuàng)作、教育和娛樂等領(lǐng)域帶來了革命性的可能性。

在數(shù)字內(nèi)容創(chuàng)作方面,內(nèi)容創(chuàng)作者可以輕松生成高質(zhì)量的人物講解視頻,無需專業(yè)的錄制設(shè)備和場(chǎng)地。例如,一位YouTuber只需提供一張自己的照片和錄制的旁白,就能生成自己在"講解"內(nèi)容的視頻,大大降低了內(nèi)容制作的門檻和成本。

在教育領(lǐng)域,SkyReels-Audio可以將歷史人物的靜態(tài)照片"復(fù)活",創(chuàng)造沉浸式學(xué)習(xí)體驗(yàn)。想象學(xué)生們能聽到"愛因斯坦"親自講解相對(duì)論,或"莎士比亞"朗誦自己的作品,這將極大提升學(xué)習(xí)興趣和參與度。

在娛樂和媒體方面,該技術(shù)可用于電影制作中的對(duì)白后期處理,或創(chuàng)建與觀眾互動(dòng)的虛擬角色。游戲開發(fā)者也可以利用這一技術(shù)生成更真實(shí)的NPC(非玩家角色)對(duì)話場(chǎng)景,提升游戲沉浸感。

當(dāng)然,隨著這類技術(shù)的發(fā)展,也帶來了倫理和隱私方面的考量。如何防止濫用、保護(hù)個(gè)人肖像權(quán),以及如何明確標(biāo)識(shí)AI生成內(nèi)容,都是需要社會(huì)共同關(guān)注和規(guī)范的問題。

未來研究方向可能包括進(jìn)一步提升長視頻生成的穩(wěn)定性、增強(qiáng)情感表達(dá)的多樣性、支持更復(fù)雜的人物互動(dòng)場(chǎng)景,以及優(yōu)化推理速度以實(shí)現(xiàn)實(shí)時(shí)應(yīng)用。隨著技術(shù)的不斷進(jìn)步,我們可以期待這一領(lǐng)域?qū)砀嗔钊梭@嘆的創(chuàng)新和應(yīng)用。

七、總結(jié)與反思

歸根結(jié)底,SkyReels-Audio代表了音頻驅(qū)動(dòng)人像視頻生成領(lǐng)域的一個(gè)重要突破。通過結(jié)合預(yù)訓(xùn)練的視頻擴(kuò)散變換器、創(chuàng)新的雙向潛在融合策略以及混合學(xué)習(xí)范式,該模型能夠生成高度逼真、時(shí)間連貫的人像視頻,同時(shí)保持強(qiáng)大的身份一致性和自然的面部與身體動(dòng)態(tài)。

這項(xiàng)技術(shù)的意義不僅在于其技術(shù)創(chuàng)新,更在于它為普通用戶提供了強(qiáng)大而易用的視頻創(chuàng)作工具,降低了數(shù)字內(nèi)容創(chuàng)作的門檻。想象一下,未來我們每個(gè)人都可以輕松地創(chuàng)建自己的數(shù)字分身,用于在線教學(xué)、遠(yuǎn)程會(huì)議或社交媒體分享,這將徹底改變我們與數(shù)字世界互動(dòng)的方式。

然而,我們也需要思考:當(dāng)生成內(nèi)容變得與真實(shí)內(nèi)容幾乎無法區(qū)分時(shí),我們?nèi)绾尉S護(hù)信息的真實(shí)性和可信度?如何在技術(shù)創(chuàng)新與倫理責(zé)任之間取得平衡?這些問題沒有簡單的答案,需要技術(shù)開發(fā)者、政策制定者和社會(huì)各界共同探討。

對(duì)于對(duì)這一領(lǐng)域感興趣的讀者,SkyReels-Audio的模型和演示視頻將很快在項(xiàng)目官網(wǎng)(https://www.skyreels.ai)公開發(fā)布。通過親自體驗(yàn)這一技術(shù),你可能會(huì)對(duì)AI生成內(nèi)容的未來有更深入的理解和思考。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-