這項(xiàng)由上海交通大學(xué)的樊軻等研究者領(lǐng)導(dǎo)的研究發(fā)表于2025年7月的arXiv,論文標(biāo)題為"Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data"。有興趣深入了解的讀者可以通過(guò)論文鏈接https://github.com/VankouF/MotionMillion-Codes訪(fǎng)問(wèn)完整研究代碼和數(shù)據(jù)。
說(shuō)起人工智能,大家可能立刻會(huì)想到能對(duì)話(huà)的ChatGPT,或者能畫(huà)畫(huà)的AI工具。但有沒(méi)有想過(guò),讓AI學(xué)會(huì)像人類(lèi)一樣自然地"動(dòng)起來(lái)",其實(shí)是一個(gè)更加復(fù)雜的挑戰(zhàn)?就好比教一個(gè)從未見(jiàn)過(guò)人類(lèi)的外星人學(xué)會(huì)走路、跳舞、做手勢(shì),僅僅通過(guò)文字描述"請(qǐng)優(yōu)雅地轉(zhuǎn)個(gè)身"或"憤怒地?fù)]舞拳頭",外星人就能完美模仿出相應(yīng)的動(dòng)作。
這正是上海交通大學(xué)樊軻團(tuán)隊(duì)正在攻克的難題。他們意識(shí)到,目前的AI在理解和生成人體動(dòng)作方面還遠(yuǎn)遠(yuǎn)落后于其他領(lǐng)域。當(dāng)我們可以用文字生成精美圖片,用語(yǔ)音合成逼真視頻時(shí),讓AI根據(jù)文字描述生成自然流暢的人體動(dòng)作卻仍然困難重重。問(wèn)題的根源在于,就像學(xué)習(xí)任何技能一樣,AI需要大量的"練習(xí)素材",而現(xiàn)有的人體動(dòng)作數(shù)據(jù)庫(kù)就像是一本薄薄的教科書(shū),遠(yuǎn)遠(yuǎn)不夠支撐AI掌握復(fù)雜多樣的人體動(dòng)作。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)做了一件前所未有的事情:他們構(gòu)建了迄今為止世界上最大的人體動(dòng)作數(shù)據(jù)庫(kù)"MotionMillion",包含超過(guò)200萬(wàn)個(gè)高質(zhì)量的動(dòng)作序列,相當(dāng)于2000多小時(shí)的人體動(dòng)作數(shù)據(jù)。這個(gè)數(shù)據(jù)庫(kù)的規(guī)模比之前最大的同類(lèi)數(shù)據(jù)庫(kù)大了20倍,就像是把一本薄薄的練習(xí)冊(cè)擴(kuò)充成了一整套百科全書(shū)。
更重要的是,他們不僅僅是簡(jiǎn)單地收集動(dòng)作數(shù)據(jù),而是開(kāi)發(fā)了一套完整的"動(dòng)作理解系統(tǒng)"。這套系統(tǒng)能夠自動(dòng)從網(wǎng)絡(luò)視頻中提取人體動(dòng)作,并為每個(gè)動(dòng)作生成詳細(xì)的文字描述,然后訓(xùn)練出一個(gè)擁有70億參數(shù)的大型AI模型。這個(gè)模型具備了前所未有的"零樣本學(xué)習(xí)"能力,也就是說(shuō),即使面對(duì)從未見(jiàn)過(guò)的動(dòng)作描述,它也能生成相應(yīng)的自然動(dòng)作。
一、數(shù)據(jù)收集的創(chuàng)新突破:從海量視頻中"淘金"
要理解這項(xiàng)研究的突破性,我們不妨把數(shù)據(jù)收集過(guò)程比作一個(gè)巨大的"動(dòng)作博物館"建設(shè)項(xiàng)目。傳統(tǒng)的研究就像是在一個(gè)小房間里收集幾百件展品,而這個(gè)團(tuán)隊(duì)決定建造一座能容納200萬(wàn)件珍貴藏品的超級(jí)博物館。
這個(gè)"博物館"建設(shè)過(guò)程充滿(mǎn)了技術(shù)挑戰(zhàn)。研究團(tuán)隊(duì)需要從互聯(lián)網(wǎng)上的海量視頻中自動(dòng)識(shí)別和提取人體動(dòng)作,這就像是在一個(gè)巨大的圖書(shū)館里尋找特定的段落,然后將其完美地摘錄下來(lái)。他們開(kāi)發(fā)了一套六步驟的自動(dòng)化流水線(xiàn),每一步都精心設(shè)計(jì)來(lái)確保最終收集到的動(dòng)作數(shù)據(jù)質(zhì)量上乘。
第一步是"鏡頭分割",就像電影剪輯師一樣,系統(tǒng)需要自動(dòng)識(shí)別視頻中的場(chǎng)景變化,將長(zhǎng)視頻切分成連貫的短片段。這一步至關(guān)重要,因?yàn)閳?chǎng)景的突然變化會(huì)導(dǎo)致動(dòng)作數(shù)據(jù)出現(xiàn)不連貫的跳躍。系統(tǒng)使用了PySceneDetect技術(shù),能夠敏銳地察覺(jué)畫(huà)面的變化,確保每個(gè)片段都保持視覺(jué)和動(dòng)作的連續(xù)性。
接下來(lái)是"人體檢測(cè)與追蹤"階段,這可能是整個(gè)流程中最具挑戰(zhàn)性的部分?;ヂ?lián)網(wǎng)視頻中的情況千變?nèi)f化:有時(shí)畫(huà)面中有多個(gè)人,有時(shí)人物被遮擋,有時(shí)光線(xiàn)條件很差。研究團(tuán)隊(duì)采用了一種"粗到細(xì)"的策略來(lái)解決這些問(wèn)題。他們首先使用強(qiáng)大的Grounding DINO模型進(jìn)行人體檢測(cè),這個(gè)模型就像一個(gè)經(jīng)驗(yàn)豐富的"偵探",能夠在復(fù)雜的場(chǎng)景中準(zhǔn)確識(shí)別人體。然后,他們使用SAM2模型進(jìn)行精確的人物追蹤,確保在整個(gè)視頻片段中始終鎖定同一個(gè)人。
第三和第四步是"質(zhì)量過(guò)濾",系統(tǒng)會(huì)自動(dòng)剔除那些質(zhì)量不佳的片段。比如,如果檢測(cè)到的人體框置信度過(guò)低,或者人物位置發(fā)生了突然的大幅跳躍,系統(tǒng)就會(huì)判斷這些片段可能存在問(wèn)題并將其排除。這就像質(zhì)檢員在生產(chǎn)線(xiàn)上仔細(xì)檢查每一件產(chǎn)品,確保只有最優(yōu)質(zhì)的樣本才能進(jìn)入最終的數(shù)據(jù)庫(kù)。
第五步是"動(dòng)作參數(shù)估計(jì)",這里使用了最先進(jìn)的GVHMR技術(shù)。這個(gè)技術(shù)能夠從二維視頻中精確推算出三維的人體姿態(tài)和動(dòng)作參數(shù),包括身體各個(gè)關(guān)節(jié)的角度、位置以及整體的移動(dòng)軌跡。就像一個(gè)經(jīng)驗(yàn)豐富的動(dòng)作分析師,能夠從平面圖像中重建完整的三維動(dòng)作信息。
最后一步是"動(dòng)作平滑處理",因?yàn)樽詣?dòng)提取的動(dòng)作數(shù)據(jù)往往會(huì)包含一些不自然的抖動(dòng)或突變。研究團(tuán)隊(duì)開(kāi)發(fā)了基于"抖動(dòng)度量"的過(guò)濾算法,能夠自動(dòng)識(shí)別并剔除那些包含不自然動(dòng)作的片段。他們使用了一種叫做"jerk"的物理量來(lái)衡量動(dòng)作的平滑程度,這個(gè)量反映了加速度的變化率,能夠敏銳地捕捉到動(dòng)作中的不自然波動(dòng)。
這整套流程的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的深刻洞察:要獲得高質(zhì)量的動(dòng)作數(shù)據(jù),不能僅僅依靠簡(jiǎn)單的自動(dòng)化工具,而需要一套精心設(shè)計(jì)的、多層次的質(zhì)量保證體系。就像制作一道精美的菜肴,每一個(gè)步驟都需要精確控制,最終才能得到完美的成果。
為了驗(yàn)證數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的對(duì)比分析。他們發(fā)現(xiàn),通過(guò)這套流程收集的動(dòng)作數(shù)據(jù)在平滑度方面顯著優(yōu)于現(xiàn)有的數(shù)據(jù)集。具體來(lái)說(shuō),MotionMillion數(shù)據(jù)集的jerk值(抖動(dòng)指標(biāo))僅為0.047,遠(yuǎn)低于MotionX數(shù)據(jù)集的0.155,甚至接近手工標(biāo)注的HumanML3D數(shù)據(jù)集的0.076。這個(gè)數(shù)字看起來(lái)很抽象,但它的意義重大:數(shù)值越低,說(shuō)明動(dòng)作越平滑自然,越接近真實(shí)的人體運(yùn)動(dòng)規(guī)律。
二、智能文本標(biāo)注:讓機(jī)器理解"動(dòng)作的語(yǔ)言"
僅僅收集到大量的動(dòng)作數(shù)據(jù)還不夠,更關(guān)鍵的是要讓AI理解每個(gè)動(dòng)作的含義。這就像是為博物館里的每一件展品編寫(xiě)詳細(xì)的說(shuō)明牌,讓參觀(guān)者不僅能看到展品,還能理解其背后的故事和意義。
傳統(tǒng)的方法通常依賴(lài)人工標(biāo)注,也就是讓專(zhuān)業(yè)人員觀(guān)看每個(gè)動(dòng)作片段,然后手工編寫(xiě)文字描述。但這種方法面對(duì)200萬(wàn)個(gè)動(dòng)作序列時(shí)顯然不現(xiàn)實(shí),就像要求一個(gè)人獨(dú)自為整個(gè)大英博物館的所有藏品編寫(xiě)說(shuō)明一樣。研究團(tuán)隊(duì)因此開(kāi)發(fā)了一套革命性的自動(dòng)標(biāo)注系統(tǒng)。
這套系統(tǒng)的核心是使用GPT-4o這樣的先進(jìn)視覺(jué)語(yǔ)言模型來(lái)"觀(guān)看"動(dòng)作視頻并生成文字描述。但這個(gè)過(guò)程遠(yuǎn)比簡(jiǎn)單地"看圖說(shuō)話(huà)"復(fù)雜得多。研究團(tuán)隊(duì)精心設(shè)計(jì)了詳細(xì)的提示指令,指導(dǎo)AI從多個(gè)維度描述每個(gè)動(dòng)作。
首先,AI需要識(shí)別動(dòng)作中涉及的主要身體部位。比如,對(duì)于一個(gè)踢球動(dòng)作,AI需要識(shí)別出這主要涉及腿部和腳部的運(yùn)動(dòng)。然后,AI要描述動(dòng)作的時(shí)間序列,也就是動(dòng)作是如何隨時(shí)間展開(kāi)的。以踢球?yàn)槔?,AI需要描述從抬腿、擺動(dòng)到接觸球的完整過(guò)程,以及各個(gè)身體部位在這個(gè)過(guò)程中的協(xié)調(diào)配合。
更進(jìn)一步,系統(tǒng)還被訓(xùn)練來(lái)識(shí)別動(dòng)作中的情感和風(fēng)格特征。同樣是走路,悠閑的散步和匆忙的趕路在視覺(jué)上有顯著差異,AI需要能夠捕捉到這些細(xì)微的差別。研究團(tuán)隊(duì)特別強(qiáng)調(diào)了對(duì)年齡、體型、動(dòng)作風(fēng)格、情緒狀態(tài)甚至環(huán)境背景的描述,這讓生成的文字描述變得異常豐富和精確。
但僅僅生成一次描述還不夠。研究團(tuán)隊(duì)意識(shí)到,單一的文字描述會(huì)限制AI的學(xué)習(xí)效果,就像只用一種方式描述同一個(gè)概念會(huì)讓學(xué)習(xí)變得狹隘。因此,他們開(kāi)發(fā)了一套"描述多樣化"系統(tǒng),使用LLAMA 3.1-8B模型對(duì)每個(gè)動(dòng)作生成20種不同的文字表達(dá)方式,但保持核心含義不變。
這種做法的巧妙之處在于,它模擬了人類(lèi)語(yǔ)言的自然多樣性。同一個(gè)動(dòng)作,不同的人會(huì)用不同的詞匯和句式來(lái)描述。比如,對(duì)于"跳躍"這個(gè)動(dòng)作,有人可能說(shuō)"用力向上跳起",有人可能說(shuō)"雙腳離地騰空而起",還有人可能說(shuō)"身體輕盈地躍向空中"。通過(guò)這種多樣化訓(xùn)練,AI能夠?qū)W會(huì)理解和生成更加靈活、自然的動(dòng)作描述。
為了確保標(biāo)注質(zhì)量,研究團(tuán)隊(duì)還設(shè)計(jì)了多層次的質(zhì)量控制機(jī)制。他們會(huì)隨機(jī)抽取一定比例的標(biāo)注結(jié)果進(jìn)行人工審核,確保AI生成的描述確實(shí)準(zhǔn)確反映了視頻中的動(dòng)作內(nèi)容。同時(shí),他們還建立了一套評(píng)估標(biāo)準(zhǔn),從準(zhǔn)確性、完整性和描述豐富度等多個(gè)維度評(píng)估標(biāo)注質(zhì)量。
這套智能標(biāo)注系統(tǒng)的成功,意味著研究團(tuán)隊(duì)不僅僅收集了大量的動(dòng)作數(shù)據(jù),更重要的是建立了一個(gè)龐大的"動(dòng)作-語(yǔ)言"對(duì)應(yīng)關(guān)系數(shù)據(jù)庫(kù)。這個(gè)數(shù)據(jù)庫(kù)包含了人類(lèi)動(dòng)作的幾乎所有常見(jiàn)形式,以及對(duì)應(yīng)的詳細(xì)文字描述,為訓(xùn)練能夠理解和生成人體動(dòng)作的AI模型奠定了堅(jiān)實(shí)基礎(chǔ)。
三、模型架構(gòu)創(chuàng)新:構(gòu)建動(dòng)作生成的"大腦"
有了豐富的數(shù)據(jù),下一步就是設(shè)計(jì)一個(gè)足夠強(qiáng)大的AI"大腦"來(lái)學(xué)習(xí)和掌握這些動(dòng)作知識(shí)。這個(gè)過(guò)程就像是培養(yǎng)一個(gè)運(yùn)動(dòng)天才,不僅要讓他觀(guān)看大量的運(yùn)動(dòng)視頻,還要讓他理解動(dòng)作背后的規(guī)律和原理,最終能夠根據(jù)指令創(chuàng)造出全新的、從未見(jiàn)過(guò)的動(dòng)作組合。
研究團(tuán)隊(duì)設(shè)計(jì)的模型架構(gòu)基于當(dāng)前最先進(jìn)的Transformer架構(gòu),這種架構(gòu)已經(jīng)在語(yǔ)言理解和生成任務(wù)中證明了其強(qiáng)大的能力。但將其應(yīng)用到人體動(dòng)作生成上需要巧妙的適配和創(chuàng)新。整個(gè)系統(tǒng)分為兩個(gè)核心部分:動(dòng)作編碼器和動(dòng)作生成器,它們協(xié)同工作來(lái)實(shí)現(xiàn)從文字到動(dòng)作的神奇轉(zhuǎn)換。
動(dòng)作編碼器的作用是將連續(xù)的人體動(dòng)作轉(zhuǎn)換成計(jì)算機(jī)能夠理解和處理的"數(shù)字語(yǔ)言"。這個(gè)過(guò)程有點(diǎn)像將一段優(yōu)美的舞蹈動(dòng)作轉(zhuǎn)寫(xiě)成音樂(lè)中的音符,每個(gè)音符都精確地代表了某個(gè)瞬間的身體姿態(tài)。研究團(tuán)隊(duì)采用了一種叫做"有限標(biāo)量量化"(FSQ)的技術(shù),這種技術(shù)比傳統(tǒng)的編碼方法更加穩(wěn)定和高效。
然而,在處理如此大規(guī)模的數(shù)據(jù)時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:隨著數(shù)據(jù)量的增加,簡(jiǎn)單的離散編碼會(huì)導(dǎo)致重建的動(dòng)作出現(xiàn)不自然的抖動(dòng)。這就像是在翻譯一段話(huà)時(shí),單詞對(duì)單詞的直接翻譯可能會(huì)丟失原文的流暢性和自然感。為了解決這個(gè)問(wèn)題,他們引入了小波變換技術(shù),這種技術(shù)能夠?qū)?dòng)作信號(hào)分解成不同頻率的組成部分,然后分別處理,最后再重新組合。
小波變換的使用體現(xiàn)了研究團(tuán)隊(duì)的深刻技術(shù)洞察。人體動(dòng)作本質(zhì)上是一個(gè)多層次的信號(hào):有大幅度的整體移動(dòng)(如走路時(shí)的身體位移),也有細(xì)微的局部調(diào)整(如手指的精細(xì)動(dòng)作)。傳統(tǒng)的編碼方法往往難以同時(shí)處理好這些不同層次的信息,而小波變換能夠像一個(gè)精密的分析儀器一樣,將這些不同層次的信息分別優(yōu)化處理,然后完美地重新組合。
動(dòng)作生成器部分采用了類(lèi)似于語(yǔ)言模型的自回歸架構(gòu),但針對(duì)動(dòng)作生成任務(wù)進(jìn)行了特殊設(shè)計(jì)。這個(gè)部分就像一個(gè)經(jīng)驗(yàn)豐富的編舞師,能夠根據(jù)給定的描述逐步構(gòu)建出完整的動(dòng)作序列。系統(tǒng)首先使用T5-XL模型對(duì)輸入的文字描述進(jìn)行編碼,理解其中的語(yǔ)義信息。然后,通過(guò)一系列"混合注意力塊",系統(tǒng)能夠同時(shí)關(guān)注文字描述和已經(jīng)生成的動(dòng)作部分,確保生成的每一個(gè)動(dòng)作片段都與文字描述保持一致,同時(shí)與前面的動(dòng)作自然銜接。
這種混合注意力機(jī)制的設(shè)計(jì)特別巧妙。在處理文字描述時(shí),系統(tǒng)使用雙向注意力,也就是說(shuō),它可以同時(shí)考慮整個(gè)描述的上下文信息。這就像閱讀一個(gè)完整的故事,理解每個(gè)詞語(yǔ)在整體語(yǔ)境中的含義。而在生成動(dòng)作序列時(shí),系統(tǒng)使用單向的因果注意力,確保當(dāng)前生成的動(dòng)作只依賴(lài)于之前的動(dòng)作和文字描述,這樣可以避免"未來(lái)信息泄露"的問(wèn)題,使得生成過(guò)程更加真實(shí)可信。
為了驗(yàn)證模型的可擴(kuò)展性,研究團(tuán)隊(duì)訓(xùn)練了多個(gè)不同規(guī)模的模型,從10億參數(shù)一直到70億參數(shù)。他們發(fā)現(xiàn),隨著模型規(guī)模的增大,生成的動(dòng)作質(zhì)量顯著提升,特別是在處理復(fù)雜的、多步驟的動(dòng)作描述時(shí)。這種現(xiàn)象被稱(chēng)為"涌現(xiàn)能力",就像當(dāng)樂(lè)團(tuán)的規(guī)模達(dá)到一定程度時(shí),能夠演奏出個(gè)別樂(lè)器無(wú)法實(shí)現(xiàn)的宏大交響曲一樣。
70億參數(shù)的最大模型展現(xiàn)出了令人驚嘆的"零樣本學(xué)習(xí)"能力。這意味著即使面對(duì)訓(xùn)練時(shí)從未見(jiàn)過(guò)的動(dòng)作描述,比如"一個(gè)僵尸緩慢地拖著腳步前進(jìn),伸出腐朽的雙手",模型也能夠生成相應(yīng)的逼真動(dòng)作。這種能力的實(shí)現(xiàn)標(biāo)志著人體動(dòng)作生成技術(shù)的一個(gè)重要里程碑,使得AI系統(tǒng)真正具備了理解和創(chuàng)造動(dòng)作的能力。
四、評(píng)估體系革新:如何判斷AI動(dòng)作的"真實(shí)度"
要驗(yàn)證AI生成的動(dòng)作是否真實(shí)自然,需要建立一套科學(xué)、全面的評(píng)估體系。這就像為一場(chǎng)體操比賽制定評(píng)分標(biāo)準(zhǔn),不僅要看動(dòng)作是否完成,還要評(píng)判其技術(shù)難度、藝術(shù)表現(xiàn)和整體協(xié)調(diào)性。傳統(tǒng)的評(píng)估方法往往局限于簡(jiǎn)單的指標(biāo)比較,難以全面反映AI在復(fù)雜、開(kāi)放場(chǎng)景下的真實(shí)表現(xiàn)。
研究團(tuán)隊(duì)因此開(kāi)發(fā)了"MotionMillion-Eval"評(píng)估基準(zhǔn),這是專(zhuān)門(mén)針對(duì)零樣本動(dòng)作生成能力設(shè)計(jì)的全新評(píng)估體系。這個(gè)體系包含126個(gè)精心設(shè)計(jì)的測(cè)試提示,涵蓋了從日常生活到極端情況的各種動(dòng)作場(chǎng)景,真正考驗(yàn)AI的泛化能力和創(chuàng)造性。
這126個(gè)測(cè)試提示被精心分為七個(gè)類(lèi)別,每個(gè)類(lèi)別都代表了人體動(dòng)作的不同維度和復(fù)雜程度。日常生活類(lèi)別包含了最常見(jiàn)的人類(lèi)活動(dòng),如走路、坐下、喝水等,這些看似簡(jiǎn)單的動(dòng)作實(shí)際上包含了大量的細(xì)節(jié)變化。工作類(lèi)別涵蓋了各種職業(yè)相關(guān)的動(dòng)作,從辦公室的打字動(dòng)作到建筑工地的搬運(yùn)動(dòng)作。運(yùn)動(dòng)類(lèi)別測(cè)試AI對(duì)各種體育運(yùn)動(dòng)動(dòng)作的理解和生成能力。
更有挑戰(zhàn)性的是藝術(shù)舞蹈類(lèi)別,這要求AI不僅要生成技術(shù)上正確的動(dòng)作,還要體現(xiàn)出一定的美感和節(jié)奏感。格斗類(lèi)別測(cè)試AI對(duì)具有對(duì)抗性動(dòng)作的理解,這些動(dòng)作往往涉及復(fù)雜的力量傳遞和身體協(xié)調(diào)。交流類(lèi)別關(guān)注人際互動(dòng)中的肢體語(yǔ)言和手勢(shì)表達(dá),這對(duì)AI的社交理解能力提出了很高要求。
最具挑戰(zhàn)性的是"非人類(lèi)行為"類(lèi)別,這包含了一些現(xiàn)實(shí)中不存在或極其罕見(jiàn)的動(dòng)作描述,如"機(jī)器人式的旋轉(zhuǎn)"或"像僵尸一樣的蹣跚"。這個(gè)類(lèi)別真正測(cè)試了AI的創(chuàng)造力和想象力,要求模型能夠基于抽象描述生成合理的動(dòng)作表現(xiàn)。
評(píng)估體系采用三個(gè)維度的人工評(píng)分標(biāo)準(zhǔn)。第一個(gè)維度是"文本-動(dòng)作對(duì)齊度",評(píng)估生成的動(dòng)作是否準(zhǔn)確反映了文字描述的內(nèi)容。評(píng)分從1到4,4分表示動(dòng)作完全符合描述,準(zhǔn)確展現(xiàn)了所有細(xì)節(jié);3分表示大體符合但有小的偏差;2分表示有明顯的不匹配;1分表示完全不符合描述。
第二個(gè)維度是"動(dòng)作平滑度",關(guān)注生成動(dòng)作的自然流暢程度。真實(shí)的人體動(dòng)作具有連續(xù)性和協(xié)調(diào)性,各個(gè)關(guān)節(jié)的運(yùn)動(dòng)應(yīng)該相互配合,形成和諧的整體。評(píng)估者需要判斷生成的動(dòng)作是否存在不自然的停頓、突變或抖動(dòng)現(xiàn)象。
第三個(gè)維度是"物理合理性",評(píng)估動(dòng)作是否符合基本的物理規(guī)律和人體生理限制。比如,人的關(guān)節(jié)活動(dòng)范圍是有限的,重心變化應(yīng)該遵循力學(xué)原理,腳步著地應(yīng)該能夠支撐身體重量等。這個(gè)維度確保生成的動(dòng)作不僅在視覺(jué)上合理,在物理上也是可實(shí)現(xiàn)的。
為了保證評(píng)估的客觀(guān)性和可靠性,研究團(tuán)隊(duì)邀請(qǐng)了多名專(zhuān)業(yè)評(píng)估員對(duì)每個(gè)測(cè)試樣本進(jìn)行獨(dú)立評(píng)分,然后通過(guò)統(tǒng)計(jì)分析得出最終結(jié)果。這種多人評(píng)估的方式能夠有效減少個(gè)人主觀(guān)偏見(jiàn)的影響,提高評(píng)估結(jié)果的可信度。
通過(guò)這套評(píng)估體系,研究團(tuán)隊(duì)發(fā)現(xiàn)他們的70億參數(shù)模型在所有維度上都表現(xiàn)出色,特別是在文本-動(dòng)作對(duì)齊度方面顯著超越了現(xiàn)有的先進(jìn)方法。更重要的是,隨著模型規(guī)模的增大,在復(fù)雜和創(chuàng)意性動(dòng)作生成方面的優(yōu)勢(shì)越來(lái)越明顯,這證明了大規(guī)模模型在動(dòng)作生成任務(wù)上的巨大潛力。
五、實(shí)驗(yàn)結(jié)果分析:數(shù)據(jù)與模型規(guī)模的神奇效應(yīng)
當(dāng)研究團(tuán)隊(duì)將他們精心構(gòu)建的MotionMillion數(shù)據(jù)集和70億參數(shù)的大模型投入測(cè)試時(shí),結(jié)果令人振奮。這就像一個(gè)經(jīng)過(guò)長(zhǎng)期嚴(yán)格訓(xùn)練的運(yùn)動(dòng)員終于站上了比賽場(chǎng),展現(xiàn)出了超越所有人期待的卓越表現(xiàn)。
在重建質(zhì)量方面,使用MotionMillion訓(xùn)練的模型表現(xiàn)異常出色。研究團(tuán)隊(duì)使用MPJPE(Mean Per Joint Position Error,平均關(guān)節(jié)位置誤差)作為主要評(píng)估指標(biāo),這個(gè)指標(biāo)反映了重建動(dòng)作與原始動(dòng)作之間的精確度。他們的模型在MotionMillion數(shù)據(jù)集上取得了45.5的MPJPE分?jǐn)?shù),顯著優(yōu)于使用其他數(shù)據(jù)集訓(xùn)練的模型。更令人驚訝的是,這個(gè)模型在其他數(shù)據(jù)集上的表現(xiàn)也相當(dāng)出色,在HumanML3D上得到41.9分,在MotionX上得到57.4分,充分證明了大規(guī)模高質(zhì)量數(shù)據(jù)的泛化優(yōu)勢(shì)。
小波變換技術(shù)的引入帶來(lái)了意想不到的改善效果。在沒(méi)有使用小波變換的情況下,模型重建的動(dòng)作存在明顯的抖動(dòng)現(xiàn)象,平均加速度為6.0,最大加速度達(dá)到15.0。而引入小波變換后,這些數(shù)值分別降低到4.0和12.0,顯著提升了動(dòng)作的平滑度和自然感。這個(gè)改進(jìn)看似微小,但在實(shí)際的動(dòng)作生成中卻產(chǎn)生了質(zhì)的飛躍,使得生成的動(dòng)作更加接近真實(shí)的人體運(yùn)動(dòng)規(guī)律。
模型規(guī)模的擴(kuò)大帶來(lái)了顯著的性能提升,特別是在復(fù)雜動(dòng)作生成方面。10億參數(shù)的基礎(chǔ)模型雖然能夠生成基本的動(dòng)作,但在處理復(fù)雜的多步驟動(dòng)作或創(chuàng)意性描述時(shí)顯得力不從心。30億參數(shù)模型在這方面有了明顯改善,而70億參數(shù)的最大模型則展現(xiàn)出了令人驚嘆的理解和生成能力。
在MotionMillion-Eval基準(zhǔn)測(cè)試中,70億參數(shù)模型的表現(xiàn)尤其令人印象深刻。在文本-動(dòng)作對(duì)齊度方面,該模型獲得了261分的高分,遠(yuǎn)超其他競(jìng)爭(zhēng)模型。這意味著模型能夠準(zhǔn)確理解復(fù)雜的文字描述,并生成相應(yīng)的動(dòng)作表現(xiàn)。即使面對(duì)"一個(gè)憤怒的劍客緊握刀刃,怒吼著向前沖鋒,然后對(duì)著無(wú)形的敵人進(jìn)行對(duì)角斬?fù)?這樣復(fù)雜的描述,模型也能生成相應(yīng)的逼真動(dòng)作序列。
特別值得關(guān)注的是模型在"非人類(lèi)行為"類(lèi)別上的表現(xiàn)。這個(gè)類(lèi)別包含了一些現(xiàn)實(shí)中不存在的動(dòng)作描述,如"僵尸緩慢地拖著腳步前進(jìn),腐朽的雙臂伸向前方"。70億參數(shù)模型不僅能夠理解這些抽象描述,還能創(chuàng)造性地生成相應(yīng)的動(dòng)作表現(xiàn),展現(xiàn)出了真正的"想象力"和創(chuàng)造能力。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn),將他們的方法與現(xiàn)有的先進(jìn)方法進(jìn)行比較。在與ScaMo等競(jìng)爭(zhēng)方法的對(duì)比中,他們的方法在幾乎所有指標(biāo)上都取得了顯著優(yōu)勢(shì)。特別是在FID(Fréchet Inception Distance)指標(biāo)上,70億參數(shù)模型取得了10.3的低分,遠(yuǎn)優(yōu)于ScaMo的89.0分。FID分?jǐn)?shù)越低表示生成的動(dòng)作與真實(shí)動(dòng)作的分布越接近,這從統(tǒng)計(jì)角度證明了他們方法的優(yōu)越性。
在零樣本生成能力測(cè)試中,模型展現(xiàn)出了強(qiáng)大的泛化能力。研究團(tuán)隊(duì)設(shè)計(jì)了一系列訓(xùn)練時(shí)從未見(jiàn)過(guò)的動(dòng)作描述,測(cè)試模型的創(chuàng)造性和適應(yīng)性。結(jié)果顯示,即使面對(duì)完全新穎的動(dòng)作組合或風(fēng)格描述,70億參數(shù)模型也能生成合理、自然的動(dòng)作序列。這種能力的實(shí)現(xiàn)標(biāo)志著人體動(dòng)作生成技術(shù)向真正的人工智能邁出了重要一步。
人工評(píng)估結(jié)果進(jìn)一步驗(yàn)證了定量分析的結(jié)論。三名專(zhuān)業(yè)評(píng)估員對(duì)不同模型生成的動(dòng)作進(jìn)行盲測(cè)評(píng)估,70億參數(shù)模型在126個(gè)測(cè)試樣本中有45個(gè)勝出,49個(gè)平局,僅有32個(gè)失敗,整體勝率達(dá)到了35.7%。更重要的是,在復(fù)雜動(dòng)作類(lèi)別如格斗、藝術(shù)表演等方面,該模型的優(yōu)勢(shì)更加明顯。
這些實(shí)驗(yàn)結(jié)果不僅驗(yàn)證了大規(guī)模數(shù)據(jù)和大模型在動(dòng)作生成任務(wù)上的有效性,更重要的是證明了"規(guī)模法則"在這個(gè)領(lǐng)域的適用性。隨著數(shù)據(jù)量和模型規(guī)模的增加,系統(tǒng)展現(xiàn)出了某種"涌現(xiàn)"的智能行為,能夠理解和創(chuàng)造越來(lái)越復(fù)雜、越來(lái)越具有創(chuàng)意的人體動(dòng)作。這為未來(lái)的研究指明了方向:更大的數(shù)據(jù)集和更大的模型可能會(huì)帶來(lái)更加令人驚嘆的突破。
六、應(yīng)用前景與技術(shù)影響:開(kāi)啟動(dòng)作生成新時(shí)代
這項(xiàng)研究的成功不僅僅是學(xué)術(shù)上的突破,更預(yù)示著一個(gè)全新技術(shù)應(yīng)用時(shí)代的到來(lái)。就像第一臺(tái)個(gè)人計(jì)算機(jī)的出現(xiàn)開(kāi)啟了信息時(shí)代一樣,能夠根據(jù)文字描述生成自然人體動(dòng)作的AI技術(shù),將在多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響和廣泛的應(yīng)用。
在娛樂(lè)產(chǎn)業(yè)領(lǐng)域,這項(xiàng)技術(shù)將徹底改變動(dòng)畫(huà)制作和游戲開(kāi)發(fā)的傳統(tǒng)流程。傳統(tǒng)的角色動(dòng)畫(huà)制作需要?jiǎng)赢?huà)師花費(fèi)大量時(shí)間手工設(shè)計(jì)每一個(gè)動(dòng)作幀,這個(gè)過(guò)程既耗時(shí)又需要極高的專(zhuān)業(yè)技能。而有了這項(xiàng)技術(shù),創(chuàng)作者只需要用文字描述所需的動(dòng)作,AI就能自動(dòng)生成相應(yīng)的動(dòng)畫(huà)序列。一個(gè)游戲開(kāi)發(fā)者可以簡(jiǎn)單地輸入"角色憤怒地?fù)]舞雙拳,然后轉(zhuǎn)身逃跑",系統(tǒng)就能立即生成流暢自然的動(dòng)作動(dòng)畫(huà)。這不僅大大提高了制作效率,還降低了動(dòng)畫(huà)制作的技術(shù)門(mén)檻,讓更多創(chuàng)意工作者能夠參與到動(dòng)畫(huà)創(chuàng)作中來(lái)。
電影和電視制作行業(yè)同樣將從中受益匪淺。在預(yù)可視化階段,導(dǎo)演可以通過(guò)文字描述快速生成演員動(dòng)作的預(yù)覽版本,幫助規(guī)劃鏡頭角度和場(chǎng)景布局。對(duì)于一些危險(xiǎn)或高難度的動(dòng)作場(chǎng)景,這項(xiàng)技術(shù)可以先生成虛擬的動(dòng)作預(yù)演,幫助制作團(tuán)隊(duì)評(píng)估可行性和安全性。此外,在后期制作中,這項(xiàng)技術(shù)還可以用于修復(fù)或替換演員的某些動(dòng)作,提高制作的靈活性和效果。
在教育培訓(xùn)領(lǐng)域,這項(xiàng)技術(shù)開(kāi)辟了全新的可能性。體育教練可以使用這個(gè)系統(tǒng)為學(xué)員演示標(biāo)準(zhǔn)動(dòng)作,通過(guò)文字描述生成精確的動(dòng)作示范。比如,一個(gè)網(wǎng)球教練可以描述"正手擊球時(shí),身體重心從后腳轉(zhuǎn)移到前腳,同時(shí)手臂做弧形揮動(dòng)",系統(tǒng)就能生成相應(yīng)的標(biāo)準(zhǔn)動(dòng)作演示。這種方法不僅提供了一致性的教學(xué)標(biāo)準(zhǔn),還能根據(jù)不同學(xué)員的特點(diǎn)定制個(gè)性化的動(dòng)作指導(dǎo)。
醫(yī)療康復(fù)領(lǐng)域是另一個(gè)重要的應(yīng)用方向。物理治療師可以使用這項(xiàng)技術(shù)為患者設(shè)計(jì)個(gè)性化的康復(fù)動(dòng)作訓(xùn)練。系統(tǒng)可以根據(jù)患者的具體情況和康復(fù)需求,生成適合的運(yùn)動(dòng)動(dòng)作,并提供標(biāo)準(zhǔn)的動(dòng)作示范?;颊呖梢栽诩抑型ㄟ^(guò)觀(guān)看這些生成的動(dòng)作視頻進(jìn)行自主訓(xùn)練,同時(shí)系統(tǒng)還可以監(jiān)測(cè)患者的動(dòng)作執(zhí)行情況,提供實(shí)時(shí)的反饋和指導(dǎo)。
機(jī)器人技術(shù)的發(fā)展也將因這項(xiàng)研究而獲得重大推進(jìn)。目前的機(jī)器人在動(dòng)作規(guī)劃和執(zhí)行方面還相對(duì)笨拙,往往只能執(zhí)行預(yù)編程的固定動(dòng)作序列。而這項(xiàng)技術(shù)使得機(jī)器人能夠根據(jù)自然語(yǔ)言指令理解并生成相應(yīng)的動(dòng)作。一個(gè)家用服務(wù)機(jī)器人可以理解"請(qǐng)優(yōu)雅地走到桌邊,小心地拿起那個(gè)茶杯"這樣的指令,并生成相應(yīng)的自然動(dòng)作。這將大大提高機(jī)器人與人類(lèi)交互的自然性和友好性。
在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)領(lǐng)域,這項(xiàng)技術(shù)將極大地豐富虛擬世界的表現(xiàn)力。用戶(hù)在VR環(huán)境中可以通過(guò)語(yǔ)音描述來(lái)控制虛擬角色的動(dòng)作,創(chuàng)造更加沉浸式的體驗(yàn)。在社交VR平臺(tái)上,用戶(hù)可以通過(guò)描述讓自己的虛擬形象表達(dá)復(fù)雜的情感和動(dòng)作,使得虛擬社交變得更加生動(dòng)和真實(shí)。
對(duì)于科學(xué)研究,特別是人體運(yùn)動(dòng)學(xué)和生物力學(xué)研究,這項(xiàng)技術(shù)提供了強(qiáng)大的新工具。研究人員可以快速生成各種假設(shè)性的人體動(dòng)作,用于分析不同運(yùn)動(dòng)模式的生物力學(xué)特征。這種能力將加速運(yùn)動(dòng)科學(xué)的發(fā)展,幫助我們更好地理解人體運(yùn)動(dòng)的規(guī)律和機(jī)制。
然而,這項(xiàng)技術(shù)的發(fā)展也帶來(lái)了一些需要關(guān)注的問(wèn)題。隨著AI生成的人體動(dòng)作越來(lái)越逼真,可能會(huì)出現(xiàn)虛假視頻內(nèi)容制作的濫用問(wèn)題。因此,在技術(shù)發(fā)展的同時(shí),也需要建立相應(yīng)的倫理規(guī)范和技術(shù)檢測(cè)手段,確保這項(xiàng)技術(shù)被負(fù)責(zé)任地使用。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究為人工智能領(lǐng)域樹(shù)立了一個(gè)重要的里程碑。它證明了大規(guī)模數(shù)據(jù)和大模型的組合能夠在復(fù)雜的多模態(tài)任務(wù)上取得突破性進(jìn)展。這種成功模式很可能會(huì)被推廣到其他需要理解和生成復(fù)雜行為的AI任務(wù)中,推動(dòng)整個(gè)人工智能技術(shù)的進(jìn)步。
更重要的是,這項(xiàng)研究展現(xiàn)了AI技術(shù)從"理解"向"創(chuàng)造"轉(zhuǎn)變的可能性。傳統(tǒng)的AI系統(tǒng)主要專(zhuān)注于理解和分析已有的數(shù)據(jù),而這項(xiàng)技術(shù)使得AI能夠根據(jù)抽象的描述創(chuàng)造出全新的、從未存在過(guò)的動(dòng)作內(nèi)容。這種創(chuàng)造性能力的出現(xiàn),標(biāo)志著人工智能正在向更高層次的智能行為發(fā)展。
歸根結(jié)底,這項(xiàng)來(lái)自上海交通大學(xué)的研究不僅僅是一項(xiàng)技術(shù)突破,更是人類(lèi)在理解和模擬自身行為方面的重要進(jìn)展。通過(guò)讓機(jī)器學(xué)會(huì)"動(dòng)起來(lái)",我們不僅創(chuàng)造了強(qiáng)大的工具,也為理解人類(lèi)運(yùn)動(dòng)的本質(zhì)提供了新的視角。隨著這項(xiàng)技術(shù)的不斷發(fā)展和完善,我們有理由相信,一個(gè)人機(jī)協(xié)作更加自然、虛擬世界更加生動(dòng)的未來(lái)正在向我們走來(lái)。
Q&A
Q1:MotionMillion數(shù)據(jù)集到底有多大?比現(xiàn)有數(shù)據(jù)集大多少? A:MotionMillion包含超過(guò)200萬(wàn)個(gè)動(dòng)作序列,相當(dāng)于2000多小時(shí)的人體動(dòng)作數(shù)據(jù),比現(xiàn)有最大的同類(lèi)數(shù)據(jù)集大了20倍。這個(gè)規(guī)模相當(dāng)于把一本薄薄的練習(xí)冊(cè)擴(kuò)充成了一整套百科全書(shū),為AI提供了前所未有的豐富學(xué)習(xí)素材。
Q2:這個(gè)AI能生成哪些類(lèi)型的動(dòng)作?創(chuàng)造力如何? A:該AI系統(tǒng)可以生成從日常生活(走路、喝水)到復(fù)雜創(chuàng)意動(dòng)作(僵尸蹣跚、機(jī)器人旋轉(zhuǎn))的各種人體動(dòng)作。特別令人驚奇的是,即使面對(duì)訓(xùn)練時(shí)從未見(jiàn)過(guò)的動(dòng)作描述,70億參數(shù)模型也能創(chuàng)造性地生成合理的動(dòng)作表現(xiàn),展現(xiàn)出真正的"想象力"。
Q3:這項(xiàng)技術(shù)什么時(shí)候能實(shí)際應(yīng)用?普通人能使用嗎? A:目前該技術(shù)主要在研究階段,但其應(yīng)用前景非常廣闊,包括動(dòng)畫(huà)制作、游戲開(kāi)發(fā)、體育訓(xùn)練、醫(yī)療康復(fù)等領(lǐng)域。研究團(tuán)隊(duì)已經(jīng)開(kāi)源了相關(guān)代碼,隨著技術(shù)的進(jìn)一步發(fā)展,預(yù)計(jì)在不久的將來(lái)就能看到基于這項(xiàng)技術(shù)的實(shí)際應(yīng)用產(chǎn)品出現(xiàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。