av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 TalkingMachines:Character AI打造的實時音頻驅(qū)動視頻會話系統(tǒng),讓虛擬形象自然對話成為現(xiàn)實

TalkingMachines:Character AI打造的實時音頻驅(qū)動視頻會話系統(tǒng),讓虛擬形象自然對話成為現(xiàn)實

2025-06-07 17:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 17:02 ? 科技行者

在數(shù)字交互不斷發(fā)展的今天,視頻會話已成為我們?nèi)粘I畹闹匾M成部分。2025年6月,來自Character AI的研究者Chetwin Low和Weimin Wang發(fā)表了一篇題為《TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models》的研究論文,向我們展示了一種突破性的技術(shù),讓虛擬角色能夠?qū)崟r地通過音頻進(jìn)行自然流暢的視頻對話。這項研究的演示視頻可以在https://aaxwaz.github.io/TalkingMachines/查看。

想象一下,你能與任何角色——無論是真人風(fēng)格、動畫形象還是3D角色——進(jìn)行面對面般的實時對話,而這些角色能根據(jù)你的聲音自然地做出表情和動作,嘴型與語音完美同步。這正是TalkingMachines帶給我們的體驗。

一、研究背景:為何實時視頻生成如此具有挑戰(zhàn)性?

近年來,視頻生成技術(shù)取得了長足進(jìn)步,許多基礎(chǔ)模型已經(jīng)能夠從文本提示或圖像生成高質(zhì)量視頻。然而,當(dāng)我們想將這些技術(shù)應(yīng)用于像視頻會議這樣的實時互動場景時,卻面臨著一個根本性的挑戰(zhàn)。

這個挑戰(zhàn)主要源于現(xiàn)有模型的工作方式。想象一下,傳統(tǒng)的視頻生成就像是一個電影導(dǎo)演需要先看完整部電影的劇本,了解所有情節(jié)發(fā)展和結(jié)局后,才能決定如何拍攝每一個場景。這種方式在專業(yè)術(shù)語中稱為"雙向注意力機(jī)制"——每一幀的生成都依賴于未來的幀內(nèi)容。

雖然這種方法能產(chǎn)生連貫的視頻,但它需要一次性處理整個視頻序列,這就導(dǎo)致了一個顯而易見的問題:你無法實時生成視頻流,因為系統(tǒng)需要"預(yù)知"未來才能生成當(dāng)前畫面。這就像你在視頻通話中需要預(yù)先知道5分鐘后你要說什么,這顯然不符合實時對話的本質(zhì)。

TalkingMachines的研究團(tuán)隊瞄準(zhǔn)了這一挑戰(zhàn),他們的目標(biāo)是將預(yù)訓(xùn)練的雙向視頻擴(kuò)散模型轉(zhuǎn)變?yōu)槟軌驅(qū)崟r進(jìn)行音頻驅(qū)動角色動畫的自回歸系統(tǒng)。簡單來說,就是創(chuàng)造一個能夠像人類一樣,只需根據(jù)當(dāng)前和過去的信息(而非未來信息)即可自然響應(yīng)的系統(tǒng)。

二、TalkingMachines如何工作?三大核心創(chuàng)新

Character AI的研究團(tuán)隊在這項工作中解決了三個關(guān)鍵挑戰(zhàn):預(yù)訓(xùn)練模型的適應(yīng)、無限長度生成和實時性能。讓我們深入了解他們是如何應(yīng)對這些挑戰(zhàn)的。

首先,團(tuán)隊利用了WAN 2.1的預(yù)訓(xùn)練圖像到視頻(I2V)模型作為基礎(chǔ)。這就像是從一個已經(jīng)精通繪畫技巧的藝術(shù)家開始,然后教會他如何將靜態(tài)畫作變成動畫。具體來說,他們對這個擁有14億參數(shù)的模型進(jìn)行了改造,添加了4億參數(shù)的音頻處理模塊,使其能夠接收音頻信號作為輸入,并據(jù)此生成嘴唇動作與音頻同步的視頻。

在技術(shù)上,他們采用了"流匹配"方法而非傳統(tǒng)的"隨機(jī)擴(kuò)散"訓(xùn)練。這就像是教導(dǎo)系統(tǒng)沿著一條確定的河流前進(jìn),而不是在湍急的水域中隨波逐流。流匹配通過預(yù)測速度場來建模潛在空間中的確定性軌跡,使訓(xùn)練和推理更加穩(wěn)定和高效。

研究團(tuán)隊還創(chuàng)新性地引入了"分布匹配蒸餾"(DMD)技術(shù)。想象一下,如果原始模型是一位需要經(jīng)過復(fù)雜步驟才能完成一幅畫的大師,DMD就像是教會一位學(xué)徒用更少的步驟達(dá)到類似的效果。他們成功地將原來需要24步的模型蒸餾成只需2步即可完成的輕量級版本,大大提高了生成速度。

更重要的是,團(tuán)隊修改了CausVid框架,實現(xiàn)了"稀疏因果注意力"機(jī)制。這就像是在看電影時,你主要關(guān)注當(dāng)前場景、上一個場景以及電影開頭的關(guān)鍵信息,而不是去記憶每一個細(xì)節(jié)。具體來說,系統(tǒng)將視頻分成多個小塊(每塊3個潛在幀),每個塊只關(guān)注當(dāng)前塊、前一個塊和起始塊(包含參考圖像)中的信息。這種設(shè)計不僅保證了時間連續(xù)性,還避免了錯誤累積,因為模型始終能夠訪問干凈的參考圖像。

三、系統(tǒng)優(yōu)化:工程創(chuàng)新讓實時生成成為可能

光有理論上的創(chuàng)新還不夠,要實現(xiàn)真正的實時生成,還需要一系列工程層面的優(yōu)化。想象一個高效的工廠流水線,每個環(huán)節(jié)都需要精心設(shè)計才能確保整體流程的順暢運行。

研究團(tuán)隊發(fā)現(xiàn),在單GPU配置中,VAE解碼(將模型生成的潛在表示轉(zhuǎn)換為實際圖像)和設(shè)備到主機(jī)的輸出傳輸占據(jù)了每個視頻塊端到端生成時間的約30%。這個瓶頸在使用序列并行化分布式計算時變得更加明顯——隨著擴(kuò)散計算越來越并行化,VAE解碼的相對成本占比越來越高,最終限制了可擴(kuò)展性和實時流媒體性能。

為了解決這個問題,團(tuán)隊設(shè)計了"Score-VAE分離"服務(wù)器架構(gòu)。這就像是將工廠的不同生產(chǎn)環(huán)節(jié)分配到專門的車間,而不是讓每個工人負(fù)責(zé)所有步驟。在這種設(shè)計中,一個GPU專門負(fù)責(zé)擴(kuò)散模型計算(工人),另一個專門負(fù)責(zé)VAE解碼(包裝工)。這種分工使得工人可以最大化擴(kuò)散吞吐量,而包裝工則同時處理解碼操作。

更精妙的是,團(tuán)隊利用CUDA流實現(xiàn)了高效的計算-通信重疊。想象一下,當(dāng)數(shù)據(jù)在不同設(shè)備間傳輸時,其他設(shè)備并不是在閑等,而是同時進(jìn)行其他計算工作。通過使用額外的CUDA流來克服NCCL集合通信的阻塞性質(zhì),確保VAE解碼可以與這些集合通信并行進(jìn)行,從而顯著提高推理吞吐量。

此外,他們還實現(xiàn)了鍵值對和嵌入緩存。這就像是記住了已經(jīng)計算過的結(jié)果,避免重復(fù)計算。在推理過程中,系統(tǒng)緩存了前一塊ct-1和起始塊c0的所有鍵值對,以及時間步嵌入、指導(dǎo)嵌入和上下文嵌入,大大提升了推理速度。

四、訓(xùn)練過程:從預(yù)訓(xùn)練到實時生成的三階段之旅

TalkingMachines的訓(xùn)練過程分為三個清晰的階段,就像建造一座復(fù)雜建筑的不同施工階段。

第一階段是"預(yù)訓(xùn)練模型熱身"。這就像是讓一個已經(jīng)會走路的孩子適應(yīng)新的鞋子。團(tuán)隊使用128臺H100 GPU,在一天內(nèi)完成了9,000步訓(xùn)練,目標(biāo)是讓預(yù)訓(xùn)練模型適應(yīng)新的512×512分辨率(原分辨率為480×832)以及以人為中心的訓(xùn)練數(shù)據(jù)。在這個階段,所有層都參與學(xué)習(xí),沒有凍結(jié)任何參數(shù)。

第二階段是"音頻預(yù)訓(xùn)練"。這相當(dāng)于教會孩子如何根據(jù)音樂節(jié)奏舞蹈。團(tuán)隊使用384臺H100 GPU,用了5天時間完成了30,000步訓(xùn)練,重點是學(xué)習(xí)新的音頻層和口型同步能力。在這個階段,團(tuán)隊初始化了新的音頻層,同時凍結(jié)了所有非音頻參數(shù),確保模型專注于音頻處理能力的提升。

第三階段是"稀疏自回歸蒸餾"。這就像是將所有學(xué)到的技能整合起來,并且優(yōu)化動作流程,使其更加高效。團(tuán)隊使用128臺H100 GPU,用了10天時間完成了20,000步訓(xùn)練,目標(biāo)是將模型蒸餾為只需2步擴(kuò)散,并具備因果稀疏注意力的能力。在這個階段,所有層都參與學(xué)習(xí),沒有凍結(jié)任何參數(shù)。

值得一提的是,團(tuán)隊在訓(xùn)練基礎(chǔ)設(shè)施和策略上也做了精心設(shè)計。他們通過激活檢查點和參數(shù)分片,成功將峰值激活內(nèi)存限制在每個GPU內(nèi),消除了對模型并行性的需求,使訓(xùn)練能夠僅使用數(shù)據(jù)并行變體進(jìn)行。此外,為了優(yōu)化激活內(nèi)存分配,他們使用DeepSpeed ZeRO Stage 3來分片編碼器模塊,這釋放了超過20GB的GPU內(nèi)存,同時對每步性能的影響可以忽略不計。

五、實驗結(jié)果:不同配置的權(quán)衡與選擇

研究團(tuán)隊進(jìn)行了一系列實驗,以了解塊大小和擴(kuò)散步驟在蒸餾過程中的權(quán)衡。他們使用了一個2×2的因子設(shè)計,具體來說,他們改變了塊大?。?幀與7幀)和擴(kuò)散步驟數(shù)量(2步與4步),并使用感知指標(biāo)和GPU效率進(jìn)行評估。

結(jié)果顯示,口型同步質(zhì)量(通過Sync-C和Sync-D指標(biāo)衡量)在不同設(shè)置之間保持相對一致,只有微小波動。這表明所有配置都提供了穩(wěn)健的口型同步性能。感知質(zhì)量(通過FVD測量)在塊大小從7減少到3且擴(kuò)散步驟從4減少到2時顯示出輕微下降。然而,這種下降是適度的。

特別值得注意的是計算成本的權(quán)衡。最計算效率高的設(shè)置(塊大小為3,擴(kuò)散步驟為2)僅需要1臺H100 GPU用于分?jǐn)?shù)模型,而最高質(zhì)量的設(shè)置則需要4臺H100。這導(dǎo)致了硬件成本和能源消耗的顯著減少,同時仍然提供可接受的生成質(zhì)量。

因此,用戶可以根據(jù)其特定的計算預(yù)算和質(zhì)量期望選擇配置。如果資源約束至關(guān)重要,3×2設(shè)置在性能和效率之間提供了令人信服的平衡;如果需要最大的感知保真度,則首選7×4設(shè)置。

六、應(yīng)用展示:實時FaceTime風(fēng)格的虛擬對話

為了展示TalkingMachines的實際應(yīng)用價值,研究團(tuán)隊構(gòu)建了一個實時FaceTime風(fēng)格的應(yīng)用程序,將其與音頻大語言模型(LLMs)集成,展示了系統(tǒng)在交互式視頻通信場景中的實際部署。

這個演示系統(tǒng)由三個主要組件組成:首先是音頻LLM集成,它能生成實時的口語回應(yīng),實現(xiàn)與用戶的自然對話交互;其次是視頻生成服務(wù)器,TalkingMachines模型部署在配備H100 GPU的云服務(wù)器上,其中分?jǐn)?shù)模型和VAE解碼器在單獨的GPU資源上運行,從音頻輸入生成同步的口型同步動畫;第三是WebRTC流媒體,他們使用LiveKit(一種基于云的WebRTC服務(wù))來處理實時視頻流和客戶端連接。

系統(tǒng)工作流程是通過一個分布式管道運行的,用戶音頻通過Web界面捕獲,由音頻LLM處理以生成對話回應(yīng),然后轉(zhuǎn)發(fā)到視頻生成服務(wù)器。生成的視頻幀與音頻同步,并通過WebRTC服務(wù)流回客戶端,實現(xiàn)與AI生成的虛擬形象的實時互動對話。

這一應(yīng)用成功實現(xiàn)了適合交互式視頻通話的實時性能,用戶可以通過桌面和移動設(shè)備上的標(biāo)準(zhǔn)Web瀏覽器訪問系統(tǒng)。系統(tǒng)展示了在實時通信應(yīng)用中部署先進(jìn)視頻生成模型的實際可行性,為AI驅(qū)動的交互式媒體體驗奠定了基礎(chǔ)。

七、研究總結(jié)、局限性與未來展望

這項研究展示了如何將音頻驅(qū)動動畫和稀疏因果蒸餾有效應(yīng)用于預(yù)訓(xùn)練的視頻生成模型,將其轉(zhuǎn)變?yōu)橹С謱崟r、無限長度FaceTime風(fēng)格視頻生成的流媒體網(wǎng)絡(luò)。最終的模型能夠動畫化各種風(fēng)格的圖像——包括真實感、動漫和3D虛擬形象——當(dāng)與主流音頻大語言模型配對時,能實現(xiàn)自然、高質(zhì)量的口型同步語音。

研究團(tuán)隊還詳細(xì)介紹了在實時流媒體情境中減少計算瓶頸所需的系統(tǒng)級工程工作,包括GPU分配、通信-計算重疊和內(nèi)存重用等方面的優(yōu)化。這些設(shè)計選擇對于使模型能夠在實際部署場景中以最小延遲運行至關(guān)重要。

盡管取得了這些進(jìn)展,當(dāng)前的方法仍存在一些局限性。音頻條件組件僅在訓(xùn)練的后期階段引入,這意味著預(yù)訓(xùn)練模型在初始學(xué)習(xí)階段并未從大規(guī)模音頻-視頻監(jiān)督中受益。雖然有效,但大型音頻投影層僅在相對較小的數(shù)據(jù)子集上訓(xùn)練,且迭代次數(shù)有限。這一瓶頸限制了模型在更多樣化或具挑戰(zhàn)性的音頻驅(qū)動場景中的可擴(kuò)展性和表現(xiàn)力。

展望未來,探索將音頻條件更早納入預(yù)訓(xùn)練過程的大規(guī)模預(yù)訓(xùn)練策略將是很有前途的方向。特別是,從海量配對數(shù)據(jù)集聯(lián)合建模視頻和音頻可能會實現(xiàn)更強(qiáng)大的多模態(tài)表示、改進(jìn)的口型同步保真度,以及跨領(lǐng)域和語言的更穩(wěn)健性能。

總的來說,TalkingMachines展示了將復(fù)雜的視頻生成模型轉(zhuǎn)變?yōu)閷嵱玫膶崟r系統(tǒng)的可能性,為未來更自然、更具表現(xiàn)力的人機(jī)交互開辟了新的路徑。隨著技術(shù)的不斷進(jìn)步,我們可以期待這類系統(tǒng)在教育、娛樂、遠(yuǎn)程工作和輔助技術(shù)等多個領(lǐng)域的廣泛應(yīng)用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-