這項(xiàng)由北京大學(xué)的李政道、張澤宇、唐豪團(tuán)隊(duì)以及江蘇大學(xué)的王思恒等研究人員共同完成的突破性研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過(guò)GitHub項(xiàng)目頁(yè)面(https://github.com/AIGeeksGroup/ReMoMask)或項(xiàng)目網(wǎng)站(https://aigeeksgroup.github.io/ReMoMask)訪問(wèn)完整論文和代碼。
在我們生活的數(shù)字時(shí)代,電影制作、游戲開(kāi)發(fā)和虛擬現(xiàn)實(shí)體驗(yàn)正變得越來(lái)越重要。然而,制作逼真的人體動(dòng)作動(dòng)畫(huà)一直是個(gè)巨大的挑戰(zhàn)。設(shè)想你想制作一部動(dòng)畫(huà)電影,需要角色做出"一個(gè)人在圈子里走路"這樣的動(dòng)作,傳統(tǒng)方法需要?jiǎng)赢?huà)師花費(fèi)大量時(shí)間手工制作每一幀畫(huà)面。而現(xiàn)在,研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)名為ReMoMask的AI系統(tǒng),它就像一個(gè)智能動(dòng)畫(huà)師,只需要你用自然語(yǔ)言描述想要的動(dòng)作,比如"一個(gè)人正在繞圈行走",系統(tǒng)就能自動(dòng)生成對(duì)應(yīng)的3D人體動(dòng)作序列。
這項(xiàng)研究的核心創(chuàng)新在于將文本描述轉(zhuǎn)換為逼真的人體動(dòng)作??梢园堰@個(gè)過(guò)程比作一個(gè)精通多種語(yǔ)言的翻譯官,它能將我們?nèi)粘S玫奈淖置枋?翻譯"成計(jì)算機(jī)能理解并生成的動(dòng)作序列。研究團(tuán)隊(duì)在這個(gè)領(lǐng)域取得了顯著突破,在權(quán)威的HumanML3D數(shù)據(jù)集上,他們的方法比之前的最佳技術(shù)提升了3.88%的FID評(píng)分,在KIT-ML數(shù)據(jù)集上更是實(shí)現(xiàn)了10.97%的驚人提升。這種提升意味著生成的動(dòng)作更加自然、逼真,更符合人們的期待。
一、智能動(dòng)作生成的雙重挑戰(zhàn)
要理解這項(xiàng)研究的重要性,我們需要先了解當(dāng)前文本到動(dòng)作生成技術(shù)面臨的困境。就像烹飪一道復(fù)雜菜肴時(shí)會(huì)遇到各種問(wèn)題一樣,現(xiàn)有的AI動(dòng)作生成技術(shù)也面臨著兩大類挑戰(zhàn)。
第一類挑戰(zhàn)來(lái)自于傳統(tǒng)的生成模型,比如擴(kuò)散模型。這些模型就像一個(gè)缺乏經(jīng)驗(yàn)的廚師,雖然能做出菜,但往往缺乏創(chuàng)意,做出的菜品種類有限,而且容易在制作過(guò)程中出錯(cuò),最終端上桌的菜可能看起來(lái)不太自然,甚至違反了基本的烹飪規(guī)律。具體到動(dòng)作生成上,這些模型會(huì)產(chǎn)生動(dòng)作多樣性不足、錯(cuò)誤累積以及物理上不合理的問(wèn)題。比如生成的人物可能會(huì)做出違反人體關(guān)節(jié)限制的動(dòng)作,或者動(dòng)作缺乏自然的連貫性。
第二類挑戰(zhàn)則來(lái)自于檢索增強(qiáng)生成方法。這類方法就像一個(gè)過(guò)度依賴食譜的廚師,雖然會(huì)參考大量現(xiàn)有的成功案例(從數(shù)據(jù)庫(kù)中檢索相關(guān)信息),但在融合這些參考信息時(shí)經(jīng)常出現(xiàn)問(wèn)題。具體表現(xiàn)為擴(kuò)散惰性(生成過(guò)程過(guò)于保守)、部分模式崩塌(只能生成有限種類的動(dòng)作)以及異步偽影(動(dòng)作的不同部分不協(xié)調(diào))。這就像廚師參考了多個(gè)食譜,但在組合時(shí)沒(méi)有處理好各種食材的搭配時(shí)間,結(jié)果有些食材過(guò)熟,有些還是生的。
研究團(tuán)隊(duì)敏銳地觀察到,這些挑戰(zhàn)的根本原因在于兩個(gè)關(guān)鍵問(wèn)題。首先,現(xiàn)有的動(dòng)作檢索器在訓(xùn)練時(shí)受到小批量限制,就像在一個(gè)小廚房里只能同時(shí)處理少量食材,無(wú)法接觸到足夠多樣的"負(fù)樣本"來(lái)學(xué)習(xí)區(qū)分好壞。其次,簡(jiǎn)單地將文本條件與一維動(dòng)作標(biāo)記連接起來(lái),無(wú)法有效建模文本條件、動(dòng)作時(shí)空信息和檢索知識(shí)之間的復(fù)雜關(guān)系,就像用簡(jiǎn)單的攪拌無(wú)法讓不同特性的食材充分融合。
這些觀察為團(tuán)隊(duì)指明了解決方向:需要一個(gè)能夠處理更大規(guī)模負(fù)樣本池的檢索訓(xùn)練范式,以及一個(gè)更強(qiáng)大的信息融合機(jī)制,能夠同時(shí)處理動(dòng)作的時(shí)間動(dòng)態(tài)和空間結(jié)構(gòu)。
二、三重創(chuàng)新的技術(shù)突破
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了ReMoMask框架,這個(gè)框架就像一個(gè)經(jīng)驗(yàn)豐富且裝備精良的專業(yè)廚房,配備了三個(gè)核心的創(chuàng)新"設(shè)備"。
首先是雙向動(dòng)量文本-動(dòng)作模型,這個(gè)組件解決了訓(xùn)練時(shí)負(fù)樣本不足的問(wèn)題。傳統(tǒng)方法就像在一個(gè)小鍋里煮湯,只能放入有限的食材進(jìn)行對(duì)比學(xué)習(xí)。而這個(gè)新方法建立了兩個(gè)"動(dòng)量隊(duì)列",就像擁有了兩個(gè)巨大的儲(chǔ)料倉(cāng),可以存儲(chǔ)大量的文本特征和動(dòng)作特征作為負(fù)樣本。這些隊(duì)列通過(guò)指數(shù)移動(dòng)平均的方式更新,確保存儲(chǔ)的樣本保持時(shí)間一致性。更重要的是,這種設(shè)計(jì)將負(fù)樣本池的大小從小批量的限制中解放出來(lái),讓模型能夠接觸到成千上萬(wàn)個(gè)對(duì)比樣本,大大提升了跨模態(tài)檢索的精度。
具?來(lái)說(shuō),這個(gè)系統(tǒng)維護(hù)兩個(gè)動(dòng)量編碼器和對(duì)應(yīng)的隊(duì)列。當(dāng)處理一個(gè)訓(xùn)練批次時(shí),模型不僅使用當(dāng)前批次中的負(fù)樣本,還使用隊(duì)列中存儲(chǔ)的歷史樣本。這就像廚師不僅使用今天采購(gòu)的食材,還能使用之前精心保存的各種調(diào)料和配菜,讓每道菜的味道層次更加豐富。通過(guò)這種方式,文本到動(dòng)作的對(duì)比學(xué)習(xí)變得更加有效,因?yàn)槟P湍軌驅(qū)W習(xí)區(qū)分當(dāng)前文本與大量不相關(guān)文本和動(dòng)作的差異。
第二個(gè)核心創(chuàng)新是語(yǔ)義時(shí)空注意力機(jī)制。如果說(shuō)傳統(tǒng)方法是用平底鍋簡(jiǎn)單翻炒所有食材,那么這個(gè)機(jī)制就像是一個(gè)多層蒸籠,能夠精確控制不同層次食材的處理方式。該機(jī)制強(qiáng)制執(zhí)行生物力學(xué)約束,在部分級(jí)融合過(guò)程中消除異步偽影。
這個(gè)機(jī)制的工作原理是將動(dòng)作序列量化為2D時(shí)空標(biāo)記圖,而不是傳統(tǒng)的1D標(biāo)記。這就像將一道菜的制作過(guò)程從線性的步驟序列轉(zhuǎn)變?yōu)橥瑫r(shí)考慮時(shí)間順序和空間布局的3D烹飪過(guò)程。在2D標(biāo)記圖中,時(shí)間維度捕獲動(dòng)作的時(shí)序演變,空間維度則保留了人體關(guān)節(jié)之間的空間關(guān)系。當(dāng)進(jìn)行注意力計(jì)算時(shí),系統(tǒng)重新定義了查詢、鍵值矩陣,將扁平化的時(shí)空向量作為查詢,將文本嵌入、檢索到的文本特征和動(dòng)作特征連接作為鍵值對(duì)。這種設(shè)計(jì)確保了文本指導(dǎo)、檢索知識(shí)、動(dòng)作時(shí)間動(dòng)態(tài)和空間結(jié)構(gòu)之間的全面對(duì)齊。
第三個(gè)創(chuàng)新是檢索增強(qiáng)的無(wú)分類器指導(dǎo)。這個(gè)組件就像為整個(gè)烹飪過(guò)程添加了一個(gè)智能調(diào)味系統(tǒng),能夠根據(jù)情況自動(dòng)調(diào)整"口味"。傳統(tǒng)的無(wú)分類器指導(dǎo)只考慮文本條件,而這個(gè)擴(kuò)展版本將文本嵌入、檢索的文本特征和檢索的動(dòng)作特征都作為條件輸入。在訓(xùn)練過(guò)程中,系統(tǒng)會(huì)以10%的概率進(jìn)行無(wú)條件采樣,這就像廚師偶爾會(huì)嘗試不加調(diào)料的原味烹飪,讓系統(tǒng)學(xué)會(huì)在有指導(dǎo)和無(wú)指導(dǎo)之間找到平衡,從而增強(qiáng)泛化能力。
三、精妙的技術(shù)架構(gòu)設(shè)計(jì)
ReMoMask的整體架構(gòu)就像一個(gè)設(shè)計(jì)精良的流水線工廠,每個(gè)環(huán)節(jié)都經(jīng)過(guò)精心設(shè)計(jì)和優(yōu)化。整個(gè)系統(tǒng)建立在MoMask的RVQ-VAE基礎(chǔ)之上,但進(jìn)行了重要的2D擴(kuò)展和增強(qiáng)。
系統(tǒng)的核心是2D殘差向量量化變分自編碼器。與傳統(tǒng)的1D量化不同,這個(gè)組件將動(dòng)作序列編碼為2D潛在特征,就像將一部電影從單純的時(shí)間序列轉(zhuǎn)換為同時(shí)包含時(shí)間和空間信息的復(fù)合表示。編碼過(guò)程使用2D卷積編碼器,然后應(yīng)用多層殘差向量量化,每一層都捕獲不同級(jí)別的動(dòng)作細(xì)節(jié)。解碼時(shí),系統(tǒng)將量化后的表示通過(guò)2D卷積解碼器重建為原始動(dòng)作序列。
在生成階段,系統(tǒng)使用兩個(gè)不同的transformer結(jié)構(gòu)。2D檢索增強(qiáng)掩碼transformer負(fù)責(zé)生成基礎(chǔ)層標(biāo)記,它利用語(yǔ)義時(shí)空注意力機(jī)制融合文本條件和檢索信息。這個(gè)transformer從完全掩碼的2D標(biāo)記圖開(kāi)始,通過(guò)多次迭代逐步預(yù)測(cè)被掩碼的標(biāo)記。而2D殘差transformer則負(fù)責(zé)細(xì)化剩余的標(biāo)記層,捕獲精細(xì)的動(dòng)作細(xì)節(jié)。
部分級(jí)雙向動(dòng)量模型的訓(xùn)練是整個(gè)系統(tǒng)的關(guān)鍵環(huán)節(jié)。為了建模精細(xì)的動(dòng)作細(xì)節(jié),系統(tǒng)將全身動(dòng)作分解為六個(gè)部分:四肢、脊柱和根部。每個(gè)部分都單獨(dú)編碼,然后連接并重投影到潛在維度以產(chǎn)生精細(xì)的動(dòng)作特征。這種設(shè)計(jì)使得檢索能夠在更細(xì)粒度的級(jí)別上進(jìn)行,就像專業(yè)廚師會(huì)分別處理每種食材的特點(diǎn),然后再進(jìn)行最終的組合。
訓(xùn)練過(guò)程采用了精心設(shè)計(jì)的掩碼策略。系統(tǒng)首先沿時(shí)間維度隨機(jī)掩碼,然后在未掩碼的幀上沿空間維度隨機(jī)掩碼。這種2D掩碼策略確保模型既能學(xué)習(xí)時(shí)間連續(xù)性,也能理解空間結(jié)構(gòu)。同時(shí),系統(tǒng)采用掩碼比例調(diào)度和BERT風(fēng)格的重掩碼策略,讓訓(xùn)練過(guò)程更加穩(wěn)定和有效。
四、卓越的實(shí)驗(yàn)表現(xiàn)
研究團(tuán)隊(duì)在兩個(gè)權(quán)威數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證,結(jié)果令人印象深刻。HumanML3D數(shù)據(jù)集是目前最大的專門針對(duì)3D人體動(dòng)作和文本描述的數(shù)據(jù)集,包含14616個(gè)動(dòng)作序列和44970個(gè)文本描述。KIT-ML數(shù)據(jù)集則包含3911個(gè)動(dòng)作和6278個(gè)文本。這兩個(gè)數(shù)據(jù)集為評(píng)估提供了豐富的測(cè)試場(chǎng)景。
在HumanML3D數(shù)據(jù)集上,ReMoMask在多個(gè)關(guān)鍵指標(biāo)上都取得了最佳性能。R-Precision指標(biāo)顯示,該方法在Top1、Top2、Top3檢索精度上分別達(dá)到了53.1%、72.2%和81.3%,超越了之前的最佳方法。更重要的是,F(xiàn)ID分?jǐn)?shù)降至0.099,相比之前的SOTA方法RAG-T2M實(shí)現(xiàn)了3.88%的顯著提升。MM Dist分?jǐn)?shù)為2.865,也達(dá)到了新的最佳水平。這些數(shù)字背后意味著生成的動(dòng)作與真實(shí)動(dòng)作在分布上更加接近,語(yǔ)義對(duì)齊度更高。
在KIT-ML數(shù)據(jù)集上,改進(jìn)更加顯著。ReMoMask的FID分?jǐn)?shù)為0.138,相比之前最佳方法實(shí)現(xiàn)了10.97%的大幅提升。R-Precision在各個(gè)層級(jí)都表現(xiàn)出色,Top1達(dá)到45.3%,Top3達(dá)到80.5%。這種跨數(shù)據(jù)集的一致性表現(xiàn)證明了方法的泛化能力。
研究團(tuán)隊(duì)還專門評(píng)估了檢索模塊的性能。在文本到動(dòng)作檢索任務(wù)中,雙向動(dòng)量模型在R1、R2、R3、R5指標(biāo)上分別達(dá)到13.76%、21.03%、25.63%、32.40%,全面超越了基線方法。雖然在R10指標(biāo)上略有不足,但整體性能仍然是最佳的。在動(dòng)作到文本檢索任務(wù)中,該方法在R1和R3上表現(xiàn)最佳,分別達(dá)到14.80%和25.60%。
五、深入的消融實(shí)驗(yàn)分析
為了驗(yàn)證每個(gè)組件的有效性,研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像一個(gè)優(yōu)秀廚師在開(kāi)發(fā)新菜譜時(shí),會(huì)單獨(dú)測(cè)試每種調(diào)料的作用一樣重要。
雙向動(dòng)量模型的重要性通過(guò)數(shù)據(jù)得到了充分證明。當(dāng)移除BMM模塊時(shí),Top1 R-Precision從53.1%下降到44.5%,降幅達(dá)16.2%,F(xiàn)ID分?jǐn)?shù)從0.411惡化到0.825,增幅高達(dá)50.18%。這表明大規(guī)模負(fù)樣本池對(duì)于跨模態(tài)對(duì)齊至關(guān)重要。進(jìn)一步的分析顯示,雙向隊(duì)列設(shè)計(jì)是關(guān)鍵因素。在文本到動(dòng)作檢索中,使用雙向隊(duì)列比不使用隊(duì)列的R1提升了31.3%。更有趣的是,如果只使用單向隊(duì)列進(jìn)行動(dòng)作到文本檢索,會(huì)導(dǎo)致災(zāi)難性失敗(R1僅為0.70%),而雙向隊(duì)列則能將R1提升41.0%至14.80%。
語(yǔ)義時(shí)空注意力機(jī)制的效果同樣顯著。當(dāng)用簡(jiǎn)單的特征連接替換SSTA時(shí),多模態(tài)性能崩塌了61.2%(從2.823降至1.094),MM Dist增加了6.1%(從2.865增至3.04)。這說(shuō)明SSTA在保持動(dòng)作多樣性方面發(fā)揮了關(guān)鍵作用。該機(jī)制通過(guò)2D注意力模式能夠同時(shí)建模時(shí)間動(dòng)態(tài)和空間結(jié)構(gòu),避免了傳統(tǒng)1D方法的局限性。
檢索增強(qiáng)無(wú)分類器指導(dǎo)的貢獻(xiàn)也很明顯。當(dāng)停用RAG-CFG時(shí),Top1 R-Precision下降22.6%(從53.1%降至41.1%),這證實(shí)了其在增強(qiáng)文本-動(dòng)作一致性方面的有效性。該機(jī)制通過(guò)在訓(xùn)練時(shí)引入10%的無(wú)條件生成,讓模型學(xué)會(huì)平衡有指導(dǎo)和無(wú)指導(dǎo)的生成,從而提高了泛化能力。
局部檢索機(jī)制相比全局檢索也顯示出優(yōu)勢(shì)。使用全局檢索時(shí),Top3 R-Precision下降9.8%(從81.3%降至73.3%),多樣性降低4.8%(從9.535降至9.08)。這表明細(xì)粒度的局部上下文檢索比粗粒度的全局檢索更有效。
六、用戶研究的真實(shí)反饋
除了客觀指標(biāo),研究團(tuán)隊(duì)還進(jìn)行了全面的用戶研究來(lái)評(píng)估生成動(dòng)作的主觀質(zhì)量。他們隨機(jī)選擇了HumanML3D測(cè)試集中的20個(gè)文本提示,使用ReMoMask、當(dāng)前最佳的檢索增強(qiáng)方法ReMoDiffuse、生成模型MoMask以及真實(shí)動(dòng)作生成對(duì)應(yīng)的動(dòng)作序列。
用戶研究采用了強(qiáng)制選擇范式,參與者需要回答兩個(gè)關(guān)鍵問(wèn)題:"哪個(gè)動(dòng)作更真實(shí)?"和"哪個(gè)動(dòng)作與文本提示對(duì)應(yīng)得更好?"為確保公平性,研究過(guò)程中隱藏了生成模型的名稱,并隨機(jī)化了呈現(xiàn)順序。超過(guò)50名參與者參與了這項(xiàng)評(píng)估。
結(jié)果令人鼓舞。在動(dòng)作真實(shí)性方面,ReMoMask獲得了42%的偏好率超過(guò)真實(shí)動(dòng)作。雖然真實(shí)動(dòng)作來(lái)自人類數(shù)據(jù),但這個(gè)結(jié)果表明ReMoMask生成的動(dòng)作在人眼中具有可比的真實(shí)感。更重要的是,該模型顯著優(yōu)于基線方法:相對(duì)于MoMask獲得67%的偏好率,相對(duì)于ReMoDiffuse獲得75%的偏好率。
在文本對(duì)應(yīng)性方面,ReMoMask獲得了47%的偏好率超過(guò)真實(shí)動(dòng)作,這表明其生成的動(dòng)作與文本提示的對(duì)齊程度接近人類水平。與基線方法相比,改進(jìn)更加顯著:相對(duì)于MoMask獲得72%的偏好率,相對(duì)于ReMoDiffuse獲得86%的偏好率。
這些用戶研究結(jié)果從主觀角度驗(yàn)證了客觀指標(biāo)的發(fā)現(xiàn),證明ReMoMask不僅在數(shù)值指標(biāo)上表現(xiàn)優(yōu)秀,在實(shí)際的人類感知中也確實(shí)產(chǎn)生了更自然、更符合描述的動(dòng)作序列。
七、視覺(jué)效果的生動(dòng)展示
研究團(tuán)隊(duì)提供的可視化結(jié)果清晰地展示了ReMoMask的能力。在隨機(jī)采樣的16個(gè)動(dòng)作樣本中,系統(tǒng)展現(xiàn)了處理復(fù)雜動(dòng)作模式的能力,包括方向轉(zhuǎn)換("走向前方,然后向右轉(zhuǎn)")、節(jié)奏性動(dòng)作("舉手三次")以及語(yǔ)義豐富的行為("假裝是一只雞")。這些例子展示了模型在捕獲細(xì)致動(dòng)作動(dòng)態(tài)和時(shí)間轉(zhuǎn)換方面的熟練程度。
與MoGenTS、TMR和ReMoDiffuse的比較分析更加有說(shuō)服力。當(dāng)基線模型生成步行或平衡等基本動(dòng)作時(shí),ReMoMask始終產(chǎn)生更自然的轉(zhuǎn)換。例如,對(duì)于"先向前走然后轉(zhuǎn)彎"的描述,基線方法可能只生成簡(jiǎn)單的線性運(yùn)動(dòng),而ReMoMask能夠生成包含明確轉(zhuǎn)彎動(dòng)作的復(fù)雜序列。對(duì)于"向前跳三次"這樣的描述,ReMoMask生成的是物理上合理的多步跳躍序列,而不是單一重復(fù)動(dòng)作。
這些視覺(jué)比較突出了ReMoMask在處理動(dòng)作復(fù)雜性和行為表現(xiàn)力方面的優(yōu)越性。生成的動(dòng)作不僅在技術(shù)指標(biāo)上優(yōu)秀,在視覺(jué)效果上也更加自然和符合人類期待。
八、當(dāng)前限制與未來(lái)發(fā)展
盡管取得了顯著成就,研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的一些限制。BMM的雙隊(duì)列和SSTA的2D注意力機(jī)制顯著增加了模型參數(shù)(達(dá)到238M),這對(duì)實(shí)時(shí)部署造成了挑戰(zhàn)。就像一臺(tái)功能強(qiáng)大但體積龐大的設(shè)備,雖然性能卓越,但在某些應(yīng)用場(chǎng)景中可能不夠靈活。
另一個(gè)限制是實(shí)驗(yàn)主要在短序列(小于100幀)上進(jìn)行,缺乏對(duì)需要強(qiáng)時(shí)空連貫性的復(fù)雜動(dòng)作(如舞蹈)的驗(yàn)證。部分級(jí)檢索在處理抽象文本描述(如"快樂(lè)地跳躍")時(shí)也存在困難,因?yàn)樗蕾囉陬A(yù)定義的動(dòng)作分割。此外,生成的動(dòng)作可能違反生物力學(xué)約束(如關(guān)節(jié)旋轉(zhuǎn)限制),因?yàn)槿狈谖锢淼尿?yàn)證。
針對(duì)這些限制,研究團(tuán)隊(duì)提出了未來(lái)的發(fā)展方向。他們計(jì)劃采用知識(shí)蒸餾或稀疏注意力機(jī)制來(lái)減少模型大小,將長(zhǎng)動(dòng)作分解為子動(dòng)作并應(yīng)用分階段SSTA來(lái)增強(qiáng)時(shí)間一致性。同時(shí),他們考慮集成大語(yǔ)言模型來(lái)解析抽象文本并動(dòng)態(tài)適應(yīng)部分級(jí)檢索,在RVQ-VAE解碼過(guò)程中融入物理約束損失以確保生物力學(xué)有效的動(dòng)作。
九、技術(shù)創(chuàng)新的深遠(yuǎn)影響
ReMoMask的技術(shù)創(chuàng)新不僅在學(xué)術(shù)層面具有重要意義,更在實(shí)際應(yīng)用中展現(xiàn)出巨大潛力。在電影制作領(lǐng)域,這項(xiàng)技術(shù)可以顯著降低動(dòng)畫(huà)制作成本,讓小型工作室也能制作出高質(zhì)量的動(dòng)畫(huà)作品。游戲開(kāi)發(fā)者可以利用這項(xiàng)技術(shù)快速生成NPC動(dòng)作,讓游戲世界更加生動(dòng)真實(shí)。
在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,ReMoMask可以實(shí)現(xiàn)更自然的人機(jī)交互。用戶只需用自然語(yǔ)言描述想要的動(dòng)作,系統(tǒng)就能生成相應(yīng)的虛擬角色動(dòng)畫(huà)。這對(duì)于教育、培訓(xùn)和娛樂(lè)應(yīng)用都有重要價(jià)值。
在機(jī)器人技術(shù)方面,這項(xiàng)研究為機(jī)器人動(dòng)作規(guī)劃提供了新的思路。機(jī)器人可以通過(guò)理解自然語(yǔ)言指令來(lái)規(guī)劃和執(zhí)行復(fù)雜的動(dòng)作序列,使人機(jī)協(xié)作更加直觀和高效。
從技術(shù)發(fā)展的角度來(lái)看,ReMoMask代表了多模態(tài)學(xué)習(xí)領(lǐng)域的重要進(jìn)展。它成功地將檢索增強(qiáng)生成技術(shù)應(yīng)用到動(dòng)作生成任務(wù)中,為其他跨模態(tài)生成任務(wù)提供了有價(jià)值的參考。雙向動(dòng)量學(xué)習(xí)和語(yǔ)義時(shí)空注意力機(jī)制的創(chuàng)新也可能啟發(fā)其他需要處理時(shí)空序列數(shù)據(jù)的應(yīng)用。
說(shuō)到底,ReMoMask不僅僅是一個(gè)技術(shù)系統(tǒng),它代表了人工智能向更自然、更直觀的人機(jī)交互方向發(fā)展的重要一步。通過(guò)讓計(jì)算機(jī)理解和生成人類動(dòng)作,我們離創(chuàng)造真正智能的數(shù)字助手又近了一步。雖然目前還存在一些限制,但這項(xiàng)研究為未來(lái)的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。隨著技術(shù)的不斷完善,我們有理由期待看到更多令人興奮的應(yīng)用和突破。有興趣的讀者可以通過(guò)項(xiàng)目的GitHub頁(yè)面和官方網(wǎng)站深入了解這項(xiàng)技術(shù)的細(xì)節(jié)和最新進(jìn)展。
Q&A
Q1:ReMoMask是什么?它是如何工作的?
A:ReMoMask是北京大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的AI系統(tǒng),能夠根據(jù)文字描述自動(dòng)生成逼真的3D人體動(dòng)作。它的工作原理類似于智能翻譯官,將"一個(gè)人在圈子里走路"這樣的文字描述轉(zhuǎn)換成計(jì)算機(jī)能理解并生成的動(dòng)作序列。系統(tǒng)使用了三個(gè)核心技術(shù):雙向動(dòng)量模型用于提升檢索精度,語(yǔ)義時(shí)空注意力機(jī)制用于融合多種信息,以及檢索增強(qiáng)的分類器指導(dǎo)用于提升生成質(zhì)量。
Q2:ReMoMask相比其他動(dòng)作生成技術(shù)有什么優(yōu)勢(shì)?
A:ReMoMask在權(quán)威數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于現(xiàn)有方法,在HumanML3D數(shù)據(jù)集上FID分?jǐn)?shù)提升3.88%,在KIT-ML數(shù)據(jù)集上更是提升了10.97%。用戶研究顯示,相比其他方法,67-86%的用戶認(rèn)為ReMoMask生成的動(dòng)作更真實(shí)、更符合文字描述。它能處理復(fù)雜的動(dòng)作轉(zhuǎn)換,如"先向前走然后轉(zhuǎn)彎",而傳統(tǒng)方法通常只能生成簡(jiǎn)單的線性動(dòng)作。
Q3:ReMoMask有哪些實(shí)際應(yīng)用前景?
A:ReMoMask在多個(gè)領(lǐng)域都有廣闊應(yīng)用前景。在電影制作中,它可以大幅降低動(dòng)畫(huà)制作成本,讓小工作室也能制作高質(zhì)量動(dòng)畫(huà)。游戲開(kāi)發(fā)者可以用它快速生成NPC動(dòng)作,讓游戲更加生動(dòng)。在虛擬現(xiàn)實(shí)中,用戶只需語(yǔ)言描述就能生成虛擬角色動(dòng)畫(huà)。此外,它還能應(yīng)用于機(jī)器人動(dòng)作規(guī)劃,讓機(jī)器人通過(guò)自然語(yǔ)言指令執(zhí)行復(fù)雜動(dòng)作,使人機(jī)協(xié)作更直觀高效。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。