當(dāng)你看到一張靜態(tài)的人物照片時(shí),你是否曾經(jīng)想過(guò)讓照片中的人動(dòng)起來(lái),說(shuō)話、微笑、做各種動(dòng)作?這聽起來(lái)像是科幻電影中的情節(jié),但現(xiàn)在阿里巴巴通義實(shí)驗(yàn)室的HumanAIGC團(tuán)隊(duì)已經(jīng)讓這個(gè)夢(mèng)想變成了現(xiàn)實(shí)。他們?cè)?025年9月發(fā)表的最新研究成果Wan-Animate,就是這樣一項(xiàng)令人驚嘆的技術(shù)。有興趣深入了解的讀者可以通過(guò)項(xiàng)目頁(yè)面https://humanaigc.github.io/wan-animate/訪問(wèn)完整論文和演示內(nèi)容。
這項(xiàng)研究解決的問(wèn)題其實(shí)很貼近我們的日常生活。比如說(shuō),你想制作一個(gè)短視頻,但沒(méi)有合適的演員,或者你想讓已故的親人"重新"出現(xiàn)在家庭聚會(huì)的視頻中,又或者你是一名內(nèi)容創(chuàng)作者,希望用不同的角色來(lái)演繹同一個(gè)故事。傳統(tǒng)的方法要么成本高昂,要么技術(shù)門檻極高,但Wan-Animate的出現(xiàn)徹底改變了這個(gè)局面。
研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)可以這樣理解:如何讓一張靜態(tài)照片中的人物,完全按照另一個(gè)視頻中人物的動(dòng)作和表情來(lái)"表演"?這就像是要求一個(gè)演員完全模仿另一個(gè)演員的所有動(dòng)作細(xì)節(jié),包括最微妙的面部表情,而且還要保持原始角色的身份特征不變。更復(fù)雜的是,他們還要解決如何讓這個(gè)"表演者"無(wú)縫融入到一個(gè)全新的環(huán)境中,就好像他本來(lái)就在那個(gè)場(chǎng)景里一樣。
Wan-Animate的革命性在于它不僅僅是一個(gè)簡(jiǎn)單的動(dòng)畫工具,而是一個(gè)統(tǒng)一的框架,能夠同時(shí)處理兩種截然不同但又相關(guān)的任務(wù)。第一種被稱為"動(dòng)畫模式",就像給一張老照片注入生命力,讓照片中的人物按照參考視頻中的動(dòng)作和表情動(dòng)起來(lái),但背景依然保持原照片的樣子。第二種叫做"替換模式",則更像是電影中的數(shù)字替身技術(shù),將照片中的角色完全融入到參考視頻的環(huán)境中,替換掉原來(lái)的人物,而且看起來(lái)就像他們本來(lái)就在那個(gè)場(chǎng)景中一樣自然。
一、技術(shù)原理:就像訓(xùn)練一個(gè)超級(jí)模仿大師
要理解Wan-Animate的工作原理,我們可以把它想象成訓(xùn)練一個(gè)極其優(yōu)秀的模仿表演者。這個(gè)"表演者"需要掌握三項(xiàng)核心技能:首先是觀察和記憶能力,能夠準(zhǔn)確識(shí)別并記住一個(gè)角色的外貌特征;其次是模仿能力,能夠精確復(fù)制另一個(gè)人的所有動(dòng)作和表情;最后是環(huán)境適應(yīng)能力,能夠根據(jù)不同的場(chǎng)景調(diào)整自己的表現(xiàn),就像一個(gè)優(yōu)秀的演員能夠融入任何角色和環(huán)境一樣。
整個(gè)系統(tǒng)建立在一個(gè)名為Wan的強(qiáng)大基礎(chǔ)模型之上,這就像是為我們的"表演者"提供了一個(gè)扎實(shí)的表演基礎(chǔ)。但是,要讓這個(gè)基礎(chǔ)模型勝任角色動(dòng)畫的特殊要求,研究團(tuán)隊(duì)需要對(duì)其進(jìn)行精心的改造和訓(xùn)練。
系統(tǒng)的輸入處理方式特別巧妙。傳統(tǒng)的視頻生成模型通常只能處理單一類型的輸入,但Wan-Animate設(shè)計(jì)了一種統(tǒng)一的輸入格式,能夠同時(shí)處理參考角色照片、時(shí)間連續(xù)性信息和環(huán)境背景信息。這就像是設(shè)計(jì)了一種通用語(yǔ)言,讓系統(tǒng)能夠理解各種不同類型的指令,而不需要為每種任務(wù)單獨(dú)設(shè)計(jì)不同的處理方式。
在處理參考角色信息時(shí),系統(tǒng)會(huì)將角色照片編碼成一種特殊的數(shù)字表示,然后將這些信息與其他條件信息巧妙地融合在一起。為了確保生成的視頻具有時(shí)間連續(xù)性,系統(tǒng)還會(huì)隨機(jī)選擇一些幀作為時(shí)間參考點(diǎn),這樣就能保證生成的長(zhǎng)視頻不會(huì)出現(xiàn)突然的跳躍或不連貫的情況。
二、身體動(dòng)作控制:像操控提線木偶一樣精確
控制角色的身體動(dòng)作是整個(gè)系統(tǒng)中最具挑戰(zhàn)性的部分之一。研究團(tuán)隊(duì)面臨一個(gè)重要的選擇:是使用二維骨架信息還是三維人體模型?經(jīng)過(guò)深入分析,他們選擇了二維骨架的方案,這個(gè)決定背后有著深刻的考量。
二維骨架就像是我們?cè)诮馄蕦W(xué)課上看到的人體骨骼圖,它能夠清晰地標(biāo)示出人體各個(gè)關(guān)鍵點(diǎn)的位置和連接關(guān)系。雖然三維模型能夠提供更精確的空間信息,但它也帶來(lái)了一些問(wèn)題。首先,三維模型通常包含人體的形狀信息,這可能會(huì)讓系統(tǒng)過(guò)度依賴這些形狀線索,從而影響角色身份的一致性。其次,三維模型對(duì)于非人類角色(比如卡通人物或風(fēng)格化的角色)的適應(yīng)性較差,而二維骨架則具有更好的通用性。
系統(tǒng)使用VitPose技術(shù)來(lái)提取骨架信息,這就像是一個(gè)專業(yè)的動(dòng)作捕捉師,能夠準(zhǔn)確識(shí)別出視頻中人物的各種姿態(tài)。這些骨架信息經(jīng)過(guò)特殊處理后,會(huì)直接融合到生成過(guò)程的初始階段,就像是為整個(gè)生成過(guò)程提供了一個(gè)精確的動(dòng)作指導(dǎo)框架。
特別值得注意的是,系統(tǒng)在處理參考角色時(shí)不會(huì)注入任何動(dòng)作信息,這樣做的目的是為了在時(shí)間維度上區(qū)分參考幀和目標(biāo)幀,確保系統(tǒng)能夠正確理解哪些是需要保持的角色特征,哪些是需要模仿的動(dòng)作信息。
三、面部表情控制:捕捉最細(xì)膩的情感表達(dá)
如果說(shuō)身體動(dòng)作控制解決的是"形"的問(wèn)題,那么面部表情控制解決的就是"神"的問(wèn)題。人類的面部表情極其豐富和微妙,一個(gè)細(xì)微的眼神變化或嘴角的輕微上揚(yáng)都可能傳達(dá)完全不同的情感信息。傳統(tǒng)的方法通常使用面部關(guān)鍵點(diǎn)來(lái)控制表情,但這種方法在處理精細(xì)表情時(shí)往往力不從心。
研究團(tuán)隊(duì)采用了一種更加直接和有效的方法:直接使用原始的面部圖像作為驅(qū)動(dòng)信號(hào)。這就像是給系統(tǒng)展示一張張表情豐富的面部照片,讓它學(xué)會(huì)如何重現(xiàn)這些表情的精髓。但這種方法面臨一個(gè)關(guān)鍵挑戰(zhàn):如何區(qū)分表情信息和身份信息?
為了解決這個(gè)問(wèn)題,系統(tǒng)采用了兩個(gè)巧妙的策略。首先,它會(huì)將面部圖像壓縮成一維的特征向量,這個(gè)過(guò)程類似于提取表情的"精華",去除大部分與身份相關(guān)的細(xì)節(jié)信息。其次,在訓(xùn)練過(guò)程中,系統(tǒng)會(huì)對(duì)面部圖像進(jìn)行各種變換,比如調(diào)整大小、改變顏色、添加噪音等,這樣可以迫使系統(tǒng)專注于表情本身,而不是被身份特征所誤導(dǎo)。
系統(tǒng)使用了一種特殊的編碼器來(lái)處理每張面部圖像,這個(gè)編碼器的結(jié)構(gòu)借鑒了之前成功的面部分析技術(shù)。為了進(jìn)一步改善表情和身份信息的分離,系統(tǒng)還采用了線性運(yùn)動(dòng)分解技術(shù),這可以理解為一種數(shù)學(xué)方法,用來(lái)將復(fù)雜的面部變化分解成不同的成分。
在架構(gòu)設(shè)計(jì)上,系統(tǒng)使用一維卷積層來(lái)處理時(shí)間序列的面部特征,確保這些特征與視頻的時(shí)間結(jié)構(gòu)保持一致。然后,這些經(jīng)過(guò)處理的面部特征會(huì)通過(guò)專門的"面部塊"注入到主要的生成網(wǎng)絡(luò)中,這些面部塊使用交叉注意力機(jī)制,確保表情信息能夠準(zhǔn)確地傳遞到對(duì)應(yīng)的時(shí)間段。
四、環(huán)境融合技術(shù):讓角色完美融入新世界
當(dāng)我們需要將一個(gè)角色放入一個(gè)全新的環(huán)境中時(shí),最大的挑戰(zhàn)不是讓他們?cè)诳臻g上匹配,而是讓他們?cè)谝曈X(jué)上看起來(lái)屬于那個(gè)環(huán)境。這就像是電影制作中的一個(gè)經(jīng)典問(wèn)題:如何讓綠幕前拍攝的演員看起來(lái)真的在外星球上?
問(wèn)題的關(guān)鍵在于光照和色調(diào)的匹配。同一個(gè)人在不同的光照條件下會(huì)呈現(xiàn)出截然不同的外觀,明亮的日光下和昏暗的燭光中的同一張臉可能看起來(lái)像兩個(gè)不同的人。當(dāng)我們將一個(gè)在明亮環(huán)境中拍攝的角色照片應(yīng)用到一個(gè)昏暗場(chǎng)景的視頻中時(shí),如果嚴(yán)格保持角色的原始外觀,結(jié)果往往會(huì)顯得非常不自然。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一個(gè)輔助的"重光照LoRA"模塊。LoRA是一種輕量級(jí)的模型調(diào)整技術(shù),就像是為系統(tǒng)安裝了一個(gè)專業(yè)的"化妝師",能夠根據(jù)環(huán)境需要調(diào)整角色的光照和色調(diào),但又不會(huì)改變角色的基本身份特征。
這個(gè)重光照模塊的訓(xùn)練數(shù)據(jù)來(lái)自一個(gè)巧妙的構(gòu)造過(guò)程。研究團(tuán)隊(duì)首先從視頻中提取角色圖像,然后使用IC-Light技術(shù)將這些角色合成到各種不同的背景中。IC-Light是一種能夠根據(jù)背景自動(dòng)調(diào)整角色光照的工具,通過(guò)這種方式,系統(tǒng)能夠?qū)W會(huì)如何根據(jù)不同的環(huán)境條件來(lái)調(diào)整角色的外觀。
重光照LoRA只應(yīng)用于系統(tǒng)中的自注意力和交叉注意力層,這樣可以在保持角色身份一致性的同時(shí),允許適度的外觀調(diào)整。這種設(shè)計(jì)確保了角色在融入新環(huán)境時(shí)既能保持可識(shí)別性,又能看起來(lái)自然協(xié)調(diào)。
五、訓(xùn)練策略:循序漸進(jìn)的技能養(yǎng)成
Wan-Animate的訓(xùn)練過(guò)程就像是培養(yǎng)一個(gè)全能表演者的過(guò)程,需要循序漸進(jìn)地掌握不同的技能。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)五階段的訓(xùn)練流程,每個(gè)階段都有特定的學(xué)習(xí)目標(biāo)。
第一階段專注于身體控制訓(xùn)練。在這個(gè)階段,系統(tǒng)只學(xué)習(xí)動(dòng)畫模式,不涉及面部表情的處理。這就像是先教一個(gè)表演者學(xué)會(huì)基本的肢體動(dòng)作,掌握如何根據(jù)骨架信息來(lái)生成相應(yīng)的身體姿態(tài)。這個(gè)階段的目標(biāo)是讓系統(tǒng)快速適應(yīng)新的輸入格式,學(xué)會(huì)正確理解參考圖像和時(shí)間信息的配置。
第二階段引入面部控制訓(xùn)練。在身體控制的基礎(chǔ)上,系統(tǒng)開始學(xué)習(xí)如何處理面部表情。這個(gè)階段主要使用肖像類型的數(shù)據(jù),因?yàn)樵谶@類視頻中,面部動(dòng)作是主要的動(dòng)態(tài)元素,有利于系統(tǒng)專注學(xué)習(xí)表情驅(qū)動(dòng)的動(dòng)畫效果。為了提高面部區(qū)域的生成質(zhì)量,系統(tǒng)還會(huì)對(duì)頭部、眼部和嘴部區(qū)域應(yīng)用更高的損失權(quán)重,這相當(dāng)于告訴系統(tǒng)這些區(qū)域特別重要,需要格外關(guān)注。
第三階段是聯(lián)合控制訓(xùn)練。在這個(gè)階段,系統(tǒng)將前兩個(gè)階段學(xué)到的身體控制和面部控制能力結(jié)合起來(lái),在完整的數(shù)據(jù)集上進(jìn)行訓(xùn)練。由于前面的分階段訓(xùn)練已經(jīng)為系統(tǒng)打下了良好的基礎(chǔ),這個(gè)聯(lián)合訓(xùn)練過(guò)程通常能夠快速收斂。
第四階段是雙模式訓(xùn)練。系統(tǒng)開始同時(shí)學(xué)習(xí)動(dòng)畫模式和替換模式,訓(xùn)練數(shù)據(jù)被調(diào)整為包含兩種模式的格式。由于系統(tǒng)的輸入設(shè)計(jì)本身就考慮了與Wan-I2V預(yù)訓(xùn)練的兼容性,這個(gè)過(guò)渡過(guò)程相當(dāng)平滑。
最后一個(gè)階段專門訓(xùn)練重光照能力,這是替換模式特有的功能。通過(guò)前面詳細(xì)介紹的重光照LoRA訓(xùn)練,系統(tǒng)獲得了根據(jù)環(huán)境調(diào)整角色外觀的能力。
六、實(shí)際應(yīng)用:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
當(dāng)我們討論一項(xiàng)技術(shù)的價(jià)值時(shí),最重要的不是它在實(shí)驗(yàn)室里的表現(xiàn),而是它在現(xiàn)實(shí)世界中的實(shí)用性。Wan-Animate在這方面展現(xiàn)出了令人印象深刻的versatility和robustness。
在實(shí)際使用中,系統(tǒng)面臨的第一個(gè)挑戰(zhàn)是姿態(tài)重定向。當(dāng)參考圖像和驅(qū)動(dòng)視頻中的角色具有不同的身體比例時(shí),直接復(fù)制動(dòng)作往往會(huì)產(chǎn)生不自然的結(jié)果。就像是讓一個(gè)身高1.8米的人完全模仿一個(gè)身高1.6米的人的動(dòng)作,如果不進(jìn)行適當(dāng)?shù)恼{(diào)整,結(jié)果必然看起來(lái)很奇怪。
為了解決這個(gè)問(wèn)題,系統(tǒng)會(huì)計(jì)算兩個(gè)角色之間對(duì)應(yīng)肢體的長(zhǎng)度比例,然后相應(yīng)地調(diào)整目標(biāo)姿態(tài)的骨骼長(zhǎng)度,使其與源角色的身體比例相匹配。系統(tǒng)還會(huì)根據(jù)拍攝類型(全身、半身或肖像)選擇適當(dāng)?shù)膮⒖键c(diǎn)來(lái)進(jìn)行位置校準(zhǔn)。研究團(tuán)隊(duì)甚至提供了一個(gè)輔助解決方案:使用圖像編輯模型將兩個(gè)角色都編輯成標(biāo)準(zhǔn)的T型姿態(tài),然后基于這種標(biāo)準(zhǔn)姿態(tài)計(jì)算縮放因子,這種方法通常能夠獲得更準(zhǔn)確的重定向結(jié)果。
對(duì)于長(zhǎng)視頻生成,系統(tǒng)采用了迭代生成的方法。這就像是拍攝一部連續(xù)劇,需要確保每一集都能與前面的內(nèi)容無(wú)縫銜接。系統(tǒng)首先生成第一個(gè)片段,然后選擇該片段的最后幾幀作為下一個(gè)片段的時(shí)間引導(dǎo)。這種方法確保了整個(gè)長(zhǎng)視頻的連續(xù)性和一致性。
在性能評(píng)估方面,研究團(tuán)隊(duì)建立了自己的評(píng)測(cè)基準(zhǔn),采用自重建任務(wù)來(lái)評(píng)估系統(tǒng)性能。他們使用視頻的第一幀作為參考圖像,然后讓系統(tǒng)使用后續(xù)幀的動(dòng)作信號(hào)來(lái)重建整個(gè)視頻。這種評(píng)估方法能夠客觀地衡量系統(tǒng)在動(dòng)作復(fù)制和角色一致性方面的表現(xiàn)。
通過(guò)與當(dāng)前主流的開源角色動(dòng)畫框架進(jìn)行比較,Wan-Animate在SSIM、LPIPS和FVD等關(guān)鍵指標(biāo)上都表現(xiàn)出了明顯的優(yōu)勢(shì)。特別是在與一些基于早期UNet架構(gòu)的方法相比時(shí),Wan-Animate展現(xiàn)出了顯著的質(zhì)量提升,無(wú)論是在人物真實(shí)感、局部細(xì)節(jié)還是時(shí)間平滑性方面都有明顯改善。
七、與商業(yè)產(chǎn)品的較量:開源技術(shù)的突圍
在人工智能領(lǐng)域,開源技術(shù)與商業(yè)產(chǎn)品之間的競(jìng)爭(zhēng)一直是一個(gè)有趣的話題。當(dāng)前在角色動(dòng)畫領(lǐng)域,最接近Wan-Animate功能和性能的主要是一些閉源的商業(yè)解決方案,比如Runway的Act-two和字節(jié)跳動(dòng)的DreamActor-M1。這些產(chǎn)品代表了當(dāng)前行業(yè)的最高水平,與它們的比較能夠真正檢驗(yàn)Wan-Animate的實(shí)力。
為了進(jìn)行公平的比較,研究團(tuán)隊(duì)設(shè)計(jì)了跨身份動(dòng)畫的評(píng)估設(shè)置,使用完全不同的驅(qū)動(dòng)視頻和角色圖像進(jìn)行測(cè)試。他們邀請(qǐng)了20名參與者進(jìn)行主觀評(píng)估,參與者需要在匿名的情況下選擇他們認(rèn)為更好的結(jié)果,評(píng)估標(biāo)準(zhǔn)包括視頻生成質(zhì)量、身份一致性、動(dòng)作準(zhǔn)確性和表情準(zhǔn)確性等多個(gè)維度。
令人驚喜的是,在與Runway Act-two的比較中,Wan-Animate獲得了67.2%的偏好率,這意味著超過(guò)三分之二的評(píng)估者認(rèn)為Wan-Animate的結(jié)果更好。在與DreamActor-M1的比較中,這個(gè)數(shù)字達(dá)到了58.4%,雖然優(yōu)勢(shì)沒(méi)有那么明顯,但仍然表明Wan-Animate在整體表現(xiàn)上略勝一籌。
這個(gè)結(jié)果特別有意義,因?yàn)樗砻鏖_源技術(shù)已經(jīng)能夠在某些方面超越商業(yè)產(chǎn)品的表現(xiàn)。這不僅證明了研究團(tuán)隊(duì)技術(shù)方案的有效性,也為整個(gè)開源社區(qū)提供了信心,說(shuō)明通過(guò)精心的設(shè)計(jì)和訓(xùn)練,開源模型完全有可能達(dá)到甚至超越商業(yè)級(jí)別的性能。
在定性比較中,研究團(tuán)隊(duì)展示了一系列對(duì)比案例。與Animate Anyone等基于UNet的方法相比,Wan-Animate在生成質(zhì)量上有顯著提升;與VACE這樣的通用可控視頻生成模型相比,Wan-Animate在角色動(dòng)畫任務(wù)上展現(xiàn)出更好的穩(wěn)定性;與Runway Act-two相比,Wan-Animate在處理復(fù)雜動(dòng)作時(shí)表現(xiàn)更加穩(wěn)定;與DreamActor-M1相比,Wan-Animate在局部細(xì)節(jié)和整體圖像保真度方面有一定優(yōu)勢(shì)。
八、技術(shù)細(xì)節(jié)的深度剖析:讓復(fù)雜變簡(jiǎn)單
為了真正理解Wan-Animate的工作機(jī)制,我們需要深入了解一些關(guān)鍵的技術(shù)細(xì)節(jié)。雖然這些細(xì)節(jié)可能看起來(lái)復(fù)雜,但它們正是這項(xiàng)技術(shù)能夠取得突破性效果的關(guān)鍵所在。
在數(shù)據(jù)構(gòu)建方面,研究團(tuán)隊(duì)收集了大量以人類為中心的視頻數(shù)據(jù),涵蓋說(shuō)話、面部表情和身體動(dòng)作等多種活動(dòng)。為了確保訓(xùn)練質(zhì)量,他們實(shí)施了與通用視頻生成類似的質(zhì)量控制措施,并特別確保每個(gè)視頻片段中只包含單一且一致的角色。骨架信息的提取不僅用作動(dòng)作信號(hào)標(biāo)注,還作為基于角色行為過(guò)濾視頻的標(biāo)準(zhǔn)。
對(duì)于角色替換任務(wù),團(tuán)隊(duì)使用標(biāo)注的骨架來(lái)跟蹤角色,然后利用SAM2技術(shù)提取相應(yīng)的角色掩碼。他們還使用QwenVL2.5-72B模型為每個(gè)視頻生成文本描述,以支持Wan的后訓(xùn)練需求。雖然Wan-Animate支持一定程度的文本控制,但動(dòng)作信號(hào)是主導(dǎo)的控制因素,因此在實(shí)際應(yīng)用中建議使用默認(rèn)的文本提示。
在并行訓(xùn)練策略方面,由于需要同時(shí)加載多個(gè)大型模型(DiT、T5、VAE和CLIP),團(tuán)隊(duì)采用了精心設(shè)計(jì)的并行化方案。對(duì)于內(nèi)存密集型的DiT和T5模型,他們使用完全分片數(shù)據(jù)并行(FSDP)來(lái)減少單GPU的內(nèi)存占用。對(duì)于其他模型,則采用標(biāo)準(zhǔn)的數(shù)據(jù)并行訓(xùn)練。特別地,對(duì)于DiT模型,他們還使用了結(jié)合RingAttention和Ulysses的上下文并行方案,進(jìn)一步減少內(nèi)存消耗并加速訓(xùn)練。
系統(tǒng)的輸出分辨率是完全靈活的。在動(dòng)畫模式下,輸出寬高比與輸入角色圖像保持一致;在替換模式下,則與參考視頻的寬高比保持一致。最終的推理分辨率是基于分塊后的視頻token總數(shù)來(lái)確定的,系統(tǒng)會(huì)根據(jù)給定的寬高比選擇最接近目標(biāo)token數(shù)量的分辨率。
九、消融實(shí)驗(yàn):驗(yàn)證每個(gè)組件的價(jià)值
科學(xué)研究的一個(gè)重要原則是要能夠證明每個(gè)設(shè)計(jì)選擇的合理性。為了驗(yàn)證Wan-Animate各個(gè)組件的有效性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。
在面部適配器訓(xùn)練方案的消融實(shí)驗(yàn)中,他們比較了漸進(jìn)式訓(xùn)練流程與直接聯(lián)合訓(xùn)練的效果。對(duì)照實(shí)驗(yàn)顯示,如果從一開始就嘗試同時(shí)訓(xùn)練所有控制模塊,表情驅(qū)動(dòng)往往不夠準(zhǔn)確,模型也難以正確收斂。研究團(tuán)隊(duì)認(rèn)為這是因?yàn)樯眢w動(dòng)作比面部表情更加復(fù)雜,先學(xué)會(huì)身體對(duì)齊有助于后續(xù)表情學(xué)習(xí)的進(jìn)行。此外,由于面部通常只占據(jù)畫面的一小部分,在以肖像為主的數(shù)據(jù)上訓(xùn)練表情模塊能夠顯著加速收斂過(guò)程。
重光照LoRA的消融實(shí)驗(yàn)同樣提供了有價(jià)值的見解。在替換模式下,如果不使用重光照LoRA,生成視頻中角色的光照和色調(diào)會(huì)與參考圖像保持強(qiáng)一致性,但這可能與新環(huán)境產(chǎn)生不協(xié)調(diào)感。而通過(guò)重光照LoRA,角色與環(huán)境的融合變得更加真實(shí)和諧,同時(shí)關(guān)鍵的是,這種調(diào)整并不會(huì)破壞角色的感知身份。
這些消融實(shí)驗(yàn)不僅驗(yàn)證了設(shè)計(jì)選擇的正確性,也為未來(lái)的改進(jìn)提供了方向。它們表明,Wan-Animate的優(yōu)異表現(xiàn)并非偶然,而是每個(gè)技術(shù)組件精心設(shè)計(jì)和協(xié)調(diào)工作的結(jié)果。
十、應(yīng)用前景:從娛樂(lè)到實(shí)用的無(wú)限可能
Wan-Animate的應(yīng)用前景遠(yuǎn)遠(yuǎn)超出了簡(jiǎn)單的娛樂(lè)范疇。在內(nèi)容創(chuàng)作領(lǐng)域,這項(xiàng)技術(shù)可以大大降低視頻制作的門檻和成本。獨(dú)立創(chuàng)作者現(xiàn)在可以用單張照片創(chuàng)造出復(fù)雜的角色表演,而無(wú)需雇傭演員或使用昂貴的拍攝設(shè)備。
在電影和電視制作中,這項(xiàng)技術(shù)為數(shù)字復(fù)活已故演員、創(chuàng)造虛擬演員或進(jìn)行危險(xiǎn)場(chǎng)景的替身表演提供了新的可能性。制片方可以使用歷史照片資料來(lái)重現(xiàn)經(jīng)典角色,或者讓當(dāng)代演員"穿越"到不同的時(shí)代背景中。
在教育領(lǐng)域,歷史人物可以通過(guò)這項(xiàng)技術(shù)"復(fù)活",為學(xué)生講述他們的故事。想象一下,愛因斯坦親自為學(xué)生講解相對(duì)論,或者莎士比亞朗誦他的十四行詩(shī),這樣的教育體驗(yàn)將是多么震撼。
在商業(yè)應(yīng)用中,這項(xiàng)技術(shù)可以用于創(chuàng)建虛擬代言人、產(chǎn)品演示視頻或客戶服務(wù)界面。企業(yè)可以使用創(chuàng)始人或品牌大使的照片來(lái)創(chuàng)建一致的品牌形象,而無(wú)需每次都安排真人拍攝。
在個(gè)人應(yīng)用方面,人們可以用這項(xiàng)技術(shù)創(chuàng)建個(gè)性化的紀(jì)念視頻,讓已故的親人"參與"到家庭聚會(huì)中,或者創(chuàng)建有趣的社交媒體內(nèi)容。這種技術(shù)也為數(shù)字遺產(chǎn)的概念提供了新的詮釋。
當(dāng)然,這項(xiàng)技術(shù)也帶來(lái)了一些需要認(rèn)真考慮的倫理問(wèn)題。如何確保技術(shù)不被惡意使用來(lái)制作誤導(dǎo)性內(nèi)容?如何保護(hù)個(gè)人的肖像權(quán)和隱私?如何建立適當(dāng)?shù)谋O(jiān)管框架來(lái)平衡創(chuàng)新和安全?這些都是隨著技術(shù)發(fā)展需要社會(huì)共同思考和解決的問(wèn)題。
說(shuō)到底,Wan-Animate代表的不僅僅是一項(xiàng)技術(shù)突破,更是人工智能向著更加理解和服務(wù)人類需求方向發(fā)展的重要一步。它讓我們看到了一個(gè)未來(lái):在這個(gè)未來(lái)中,創(chuàng)造力不再受到技術(shù)門檻的限制,每個(gè)人都可以成為自己故事的導(dǎo)演。通過(guò)將這項(xiàng)技術(shù)開源,阿里巴巴團(tuán)隊(duì)不僅推動(dòng)了學(xué)術(shù)研究的進(jìn)展,也為整個(gè)AI社區(qū)提供了寶貴的資源,讓更多的研究者和開發(fā)者能夠在此基礎(chǔ)上繼續(xù)創(chuàng)新。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。它展示了開源精神在推動(dòng)科技發(fā)展中的重要作用,也證明了中國(guó)科技團(tuán)隊(duì)在人工智能前沿領(lǐng)域的創(chuàng)新能力。隨著Wan-Animate技術(shù)的不斷完善和普及,我們有理由相信,一個(gè)更加生動(dòng)、更加富有創(chuàng)造力的數(shù)字內(nèi)容時(shí)代正在到來(lái)。對(duì)于那些希望深入了解這項(xiàng)技術(shù)的讀者,建議訪問(wèn)項(xiàng)目頁(yè)面https://humanaigc.github.io/wan-animate/,在那里可以找到更多的技術(shù)細(xì)節(jié)、演示視頻和下載鏈接。
Q&A
Q1:Wan-Animate是什么?它能實(shí)現(xiàn)什么功能?
A:Wan-Animate是阿里巴巴通義實(shí)驗(yàn)室開發(fā)的角色動(dòng)畫生成系統(tǒng),能夠讓靜態(tài)照片中的人物按照參考視頻中的動(dòng)作和表情動(dòng)起來(lái)。它有兩種核心功能:動(dòng)畫模式可以讓照片中的角色表演起來(lái)同時(shí)保持原背景,替換模式則可以將角色完全融入到新的視頻環(huán)境中替換原有人物。
Q2:Wan-Animate與其他角色動(dòng)畫技術(shù)相比有什么優(yōu)勢(shì)?
A:Wan-Animate最大的優(yōu)勢(shì)是統(tǒng)一性和完整性。它能同時(shí)精確控制身體動(dòng)作和面部表情,而且在與商業(yè)產(chǎn)品Runway Act-two和DreamActor-M1的對(duì)比中表現(xiàn)更優(yōu)。相比其他開源方案,它基于更先進(jìn)的DiT架構(gòu),在生成質(zhì)量、角色一致性和動(dòng)作準(zhǔn)確性方面都有顯著提升。
Q3:普通用戶如何使用Wan-Animate技術(shù)?
A:目前Wan-Animate還處于研究階段,研究團(tuán)隊(duì)承諾將開源模型權(quán)重和完整代碼。用戶可以通過(guò)項(xiàng)目頁(yè)面https://humanaigc.github.io/wan-animate/獲取最新信息和資源。一旦正式發(fā)布,用戶只需要提供一張角色照片和一個(gè)參考動(dòng)作視頻,就能生成高質(zhì)量的角色動(dòng)畫。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。