這項(xiàng)來自加州大學(xué)圣地亞哥分校和加拿大西蒙弗雷澤大學(xué)的聯(lián)合研究于2025年6月發(fā)表在計(jì)算機(jī)視覺與機(jī)器人學(xué)頂級(jí)期刊arXiv上,由陳梓軒、季馬澤宇等研究人員共同完成。完整的研究論文可以通過論文編號(hào)arXiv:2506.14770v1獲取,同時(shí)研究團(tuán)隊(duì)還建立了項(xiàng)目網(wǎng)站gmt-humanoid.github.io供公眾了解更多詳情。
一、從科幻夢(mèng)想到現(xiàn)實(shí)挑戰(zhàn)
在科幻電影中,我們經(jīng)??吹綑C(jī)器人能夠像人類一樣自如地行走、跳躍、甚至翩翩起舞。然而現(xiàn)實(shí)中,讓機(jī)器人學(xué)會(huì)哪怕是最基本的人類動(dòng)作都是一項(xiàng)極其復(fù)雜的挑戰(zhàn)。機(jī)器人不是天生就會(huì)走路的,就像嬰兒需要學(xué)習(xí)如何邁出第一步一樣,機(jī)器人也需要通過復(fù)雜的訓(xùn)練才能掌握各種動(dòng)作技能。
傳統(tǒng)的方法就像為每種動(dòng)作專門雇傭一個(gè)教練一樣——想學(xué)走路就找走路教練,想學(xué)跳舞就找舞蹈教練,想學(xué)踢球就找足球教練。這種"專人專項(xiàng)"的方式雖然能讓機(jī)器人在特定動(dòng)作上表現(xiàn)出色,但問題是機(jī)器人需要為每個(gè)新動(dòng)作重新學(xué)習(xí),就像一個(gè)只會(huì)做一道菜的廚師,想要擴(kuò)展菜譜就必須從頭開始學(xué)習(xí)。
更讓人頭疼的是,人類的動(dòng)作實(shí)在太復(fù)雜了。我們的身體有23個(gè)關(guān)節(jié),每個(gè)關(guān)節(jié)都可以獨(dú)立運(yùn)動(dòng),這就像同時(shí)控制23個(gè)不同的樂器來演奏一首交響樂一樣困難。而且不同于電腦游戲中的虛擬角色,真實(shí)的機(jī)器人還要面對(duì)重力、摩擦力、硬件限制等各種物理世界的約束。
研究團(tuán)隊(duì)意識(shí)到,如果能開發(fā)出一個(gè)"全能教練"——一個(gè)既能教走路,又能教跳舞,還能教各種復(fù)雜動(dòng)作的通用系統(tǒng),那將徹底改變機(jī)器人的能力邊界。這就是GMT(General Motion Tracking,通用動(dòng)作跟蹤)系統(tǒng)誕生的背景。
二、構(gòu)建機(jī)器人的"動(dòng)作字典"
GMT系統(tǒng)的工作原理可以比作給機(jī)器人建立一個(gè)巨大的"動(dòng)作字典"。這個(gè)字典不是用文字寫成的,而是用數(shù)以萬計(jì)的真實(shí)人類動(dòng)作數(shù)據(jù)編寫的。研究團(tuán)隊(duì)從兩個(gè)主要的人類動(dòng)作數(shù)據(jù)庫中收集了素材:AMASS數(shù)據(jù)庫和LAFAN1數(shù)據(jù)庫,最終篩選出8925個(gè)高質(zhì)量的動(dòng)作片段,總共包含33.12小時(shí)的動(dòng)作數(shù)據(jù)。
這些數(shù)據(jù)就像一個(gè)超級(jí)豐富的動(dòng)作百科全書,涵蓋了從最基本的走路、跑步,到復(fù)雜的舞蹈、武術(shù)、體操等各種人類動(dòng)作。但是,直接把這些動(dòng)作"喂給"機(jī)器人并不能讓它立即學(xué)會(huì),就像把一本烹飪書放在廚房里不會(huì)自動(dòng)變出美食一樣。
關(guān)鍵的創(chuàng)新在于GMT系統(tǒng)解決了傳統(tǒng)方法中的幾個(gè)關(guān)鍵問題。首先是"偏食"問題。在收集到的動(dòng)作數(shù)據(jù)中,簡單的走路和站立動(dòng)作占據(jù)了大部分時(shí)間,而真正有挑戰(zhàn)性的動(dòng)作如踢腿、跳躍等卻很少。這就像一個(gè)練習(xí)冊(cè)里90%都是簡單的加法題,只有10%是復(fù)雜的應(yīng)用題。如果按照傳統(tǒng)方式訓(xùn)練,機(jī)器人會(huì)變成一個(gè)"偏科生"——走路很熟練,但遇到復(fù)雜動(dòng)作就手足無措。
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一套"自適應(yīng)采樣"策略。這個(gè)策略的核心思想是讓機(jī)器人把更多時(shí)間花在練習(xí)困難動(dòng)作上,而不是反復(fù)練習(xí)已經(jīng)掌握的簡單動(dòng)作。具體來說,系統(tǒng)會(huì)持續(xù)監(jiān)控機(jī)器人在每種動(dòng)作上的表現(xiàn),如果某個(gè)動(dòng)作還沒有完全掌握,系統(tǒng)就會(huì)增加這個(gè)動(dòng)作的練習(xí)頻率。這就像一個(gè)智能的健身教練,會(huì)根據(jù)你的薄弱環(huán)節(jié)調(diào)整訓(xùn)練計(jì)劃。
另一個(gè)巧妙的設(shè)計(jì)是"隨機(jī)切片"機(jī)制。許多人類動(dòng)作數(shù)據(jù)是長時(shí)間的連續(xù)記錄,比如一段10分鐘的視頻可能包含走路、停下來喝水、繼續(xù)走路、然后坐下休息等多個(gè)不同的動(dòng)作片段。傳統(tǒng)方法會(huì)把這個(gè)10分鐘的視頻當(dāng)作一個(gè)整體來訓(xùn)練,但GMT系統(tǒng)會(huì)智能地將其切成多個(gè)10秒鐘的小片段,每個(gè)片段重點(diǎn)訓(xùn)練一種特定的動(dòng)作模式。這樣做的好處是讓機(jī)器人能夠更專注地學(xué)習(xí)每種動(dòng)作的精髓,而不是被復(fù)雜的動(dòng)作轉(zhuǎn)換搞得暈頭轉(zhuǎn)向。
三、"專家團(tuán)隊(duì)"的智慧結(jié)合
GMT系統(tǒng)的第二個(gè)核心創(chuàng)新是采用了"專家混合"的架構(gòu),這個(gè)概念可以用一個(gè)專業(yè)樂團(tuán)來類比。在一個(gè)交響樂團(tuán)中,小提琴手專門負(fù)責(zé)小提琴部分,大提琴手專門負(fù)責(zé)大提琴部分,打擊樂手專門負(fù)責(zé)打擊樂器,但是整個(gè)樂團(tuán)需要一個(gè)指揮來協(xié)調(diào)所有人的演奏,最終呈現(xiàn)出和諧的音樂。
在GMT系統(tǒng)中,研究團(tuán)隊(duì)設(shè)計(jì)了多個(gè)"專家網(wǎng)絡(luò)",每個(gè)專家都特別擅長某一類動(dòng)作。比如,有的專家特別善于處理下肢動(dòng)作如走路和跑步,有的專家專門處理上肢動(dòng)作如揮手和伸展,還有的專家專長于處理全身協(xié)調(diào)的復(fù)雜動(dòng)作如舞蹈和武術(shù)。同時(shí),系統(tǒng)還有一個(gè)"指揮網(wǎng)絡(luò)",它的作用是觀察當(dāng)前需要執(zhí)行的動(dòng)作,然后決定應(yīng)該主要聽從哪個(gè)專家的建議。
這種設(shè)計(jì)的妙處在于,當(dāng)機(jī)器人需要執(zhí)行一個(gè)新的動(dòng)作時(shí),系統(tǒng)不需要從零開始學(xué)習(xí),而是可以組合不同專家的知識(shí)。就像一個(gè)會(huì)做川菜的廚師和一個(gè)會(huì)做粵菜的廚師合作,他們可以融合彼此的技巧創(chuàng)造出新的菜品。如果機(jī)器人需要學(xué)習(xí)一個(gè)包含走路和揮手的組合動(dòng)作,負(fù)責(zé)腿部動(dòng)作的專家和負(fù)責(zé)手臂動(dòng)作的專家就可以同時(shí)發(fā)揮作用,在指揮網(wǎng)絡(luò)的協(xié)調(diào)下完成這個(gè)復(fù)雜的動(dòng)作。
更重要的是,這種專家系統(tǒng)還能自主學(xué)習(xí)和進(jìn)化。當(dāng)系統(tǒng)遇到一個(gè)全新的動(dòng)作時(shí),指揮網(wǎng)絡(luò)會(huì)觀察這個(gè)動(dòng)作的特點(diǎn),然后自動(dòng)決定哪些專家應(yīng)該參與,以及每個(gè)專家應(yīng)該承擔(dān)多大的責(zé)任。隨著訓(xùn)練的進(jìn)行,專家們會(huì)變得越來越熟練,指揮網(wǎng)絡(luò)的協(xié)調(diào)能力也會(huì)越來越強(qiáng)。
四、從"特權(quán)信息"到"現(xiàn)實(shí)約束"
在現(xiàn)實(shí)世界中訓(xùn)練機(jī)器人面臨一個(gè)根本性的挑戰(zhàn):機(jī)器人無法像電腦游戲中的角色那樣獲得完整的"上帝視角"信息。在虛擬世界中,我們可以精確知道角色的每一個(gè)部位在空間中的準(zhǔn)確位置、速度和方向,但真實(shí)的機(jī)器人只能依靠有限的傳感器來感知自己的狀態(tài)。
這就像讓一個(gè)人在完全黑暗的房間里學(xué)習(xí)舞蹈一樣困難。人可以感覺到自己的手腳位置,但看不到整體的動(dòng)作效果,也無法準(zhǔn)確判斷自己在房間中的精確位置。為了解決這個(gè)問題,GMT系統(tǒng)采用了一種巧妙的"師生制"訓(xùn)練方法。
首先,研究團(tuán)隊(duì)在擁有完整信息的虛擬環(huán)境中訓(xùn)練一個(gè)"老師機(jī)器人"。這個(gè)老師擁有所有的"特權(quán)信息"——它知道自己身體每個(gè)部位的精確位置、速度、與地面的接觸情況,甚至知道自己的重心在哪里。憑借這些完整的信息,老師機(jī)器人可以學(xué)會(huì)各種復(fù)雜的動(dòng)作。
然后,研究團(tuán)隊(duì)再訓(xùn)練一個(gè)"學(xué)生機(jī)器人",這個(gè)學(xué)生只能獲得真實(shí)機(jī)器人能夠感知到的有限信息——關(guān)節(jié)角度、身體傾斜程度、以及過去一段時(shí)間的動(dòng)作歷史。學(xué)生機(jī)器人的任務(wù)是通過觀察老師機(jī)器人的動(dòng)作決策,學(xué)會(huì)在信息不完整的情況下做出正確的動(dòng)作選擇。
這個(gè)過程就像學(xué)習(xí)開車一樣。剛開始時(shí),你需要一個(gè)經(jīng)驗(yàn)豐富的教練坐在副駕駛座上,告訴你什么時(shí)候該轉(zhuǎn)彎、什么時(shí)候該剎車。隨著練習(xí)的增加,你逐漸學(xué)會(huì)了通過觀察路況、感受車速等有限的信息來做出正確的駕駛決策,最終可以獨(dú)立駕駛。
為了讓這個(gè)學(xué)習(xí)過程更加高效,研究團(tuán)隊(duì)還在學(xué)生機(jī)器人的訓(xùn)練中加入了"動(dòng)作預(yù)見"能力。不同于只看當(dāng)前需要執(zhí)行的動(dòng)作,學(xué)生機(jī)器人還會(huì)觀察接下來2秒鐘內(nèi)的動(dòng)作序列。這就像一個(gè)有經(jīng)驗(yàn)的舞者不僅知道當(dāng)前這一拍要做什么動(dòng)作,還知道接下來幾拍的動(dòng)作安排,從而能夠更好地協(xié)調(diào)整體表現(xiàn)。
五、現(xiàn)實(shí)世界的嚴(yán)格考驗(yàn)
理論上的成功和實(shí)際應(yīng)用之間往往存在巨大的鴻溝,就像在紙上畫出完美的建筑設(shè)計(jì)圖和真正建造出穩(wěn)固的房屋是兩回事。為了驗(yàn)證GMT系統(tǒng)的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了全面的測試,包括計(jì)算機(jī)仿真環(huán)境中的詳細(xì)評(píng)估和真實(shí)機(jī)器人上的實(shí)際部署。
在仿真環(huán)境的測試中,GMT系統(tǒng)展現(xiàn)出了令人印象深刻的性能。研究團(tuán)隊(duì)使用了多個(gè)標(biāo)準(zhǔn)的評(píng)估指標(biāo)來衡量機(jī)器人動(dòng)作的準(zhǔn)確性,包括關(guān)鍵身體部位的位置誤差、關(guān)節(jié)角度的偏差、移動(dòng)速度的準(zhǔn)確性等。結(jié)果顯示,GMT系統(tǒng)在所有這些指標(biāo)上都顯著優(yōu)于現(xiàn)有的方法。
特別值得注意的是,GMT系統(tǒng)在處理困難動(dòng)作時(shí)的表現(xiàn)尤為突出。研究團(tuán)隊(duì)專門分析了那些最具挑戰(zhàn)性的動(dòng)作——比如高踢腿、快速轉(zhuǎn)身、復(fù)雜的舞蹈組合等,發(fā)現(xiàn)GMT系統(tǒng)在這些動(dòng)作上的改進(jìn)幅度遠(yuǎn)大于在簡單動(dòng)作上的改進(jìn)。這證明了自適應(yīng)采樣策略和專家混合架構(gòu)的有效性。
更重要的測試來自真實(shí)的機(jī)器人平臺(tái)。研究團(tuán)隊(duì)選擇了Unitree G1機(jī)器人進(jìn)行實(shí)際部署,這是一個(gè)高1.32米、擁有23個(gè)關(guān)節(jié)的中型人形機(jī)器人。從實(shí)驗(yàn)室的完美環(huán)境到真實(shí)世界的復(fù)雜條件,機(jī)器人需要面對(duì)地面的細(xì)微不平、空氣阻力、硬件的微小誤差等各種挑戰(zhàn)。
實(shí)際測試的結(jié)果令人振奮。GMT系統(tǒng)成功地讓機(jī)器人掌握了包括伸展運(yùn)動(dòng)、踢球、舞蹈、高踢腿、武術(shù)動(dòng)作在內(nèi)的各種技能。更令人驚訝的是,機(jī)器人不僅能夠執(zhí)行這些動(dòng)作,還能保持良好的穩(wěn)定性和流暢性。視頻記錄顯示,機(jī)器人的動(dòng)作看起來自然而協(xié)調(diào),很難察覺到明顯的僵硬或不協(xié)調(diào)之處。
六、細(xì)節(jié)中的智慧
GMT系統(tǒng)的成功不僅在于其整體架構(gòu)的創(chuàng)新,更在于無數(shù)個(gè)看似微小但實(shí)際關(guān)鍵的技術(shù)細(xì)節(jié)。這些細(xì)節(jié)就像制作精美手表時(shí)的每一個(gè)小齒輪,雖然單獨(dú)看起來不起眼,但組合在一起就能創(chuàng)造出精密的杰作。
在動(dòng)作表示方面,研究團(tuán)隊(duì)做出了一個(gè)重要的改進(jìn)。傳統(tǒng)方法通常使用全局坐標(biāo)系來描述身體各部位的位置,但GMT系統(tǒng)改用相對(duì)于機(jī)器人朝向的局部坐標(biāo)系。這個(gè)改變看似簡單,實(shí)際上解決了一個(gè)關(guān)鍵問題:機(jī)器人在不同方向執(zhí)行相同動(dòng)作時(shí)的一致性。
舉個(gè)例子,當(dāng)人向前踢腿時(shí),無論是面向北方、南方、東方還是西方,踢腿的相對(duì)動(dòng)作都是一樣的——抬起腿,向前伸展,然后收回。但如果使用全局坐標(biāo)系,面向不同方向的踢腿動(dòng)作會(huì)被認(rèn)為是完全不同的動(dòng)作,這會(huì)大大增加學(xué)習(xí)的復(fù)雜性。通過使用局部坐標(biāo)系,GMT系統(tǒng)能夠更好地理解動(dòng)作的本質(zhì),而不被方向變化所迷惑。
在數(shù)據(jù)預(yù)處理方面,研究團(tuán)隊(duì)實(shí)施了一套嚴(yán)格的篩選流程。原始的人類動(dòng)作數(shù)據(jù)庫包含了大量對(duì)機(jī)器人來說不可行的動(dòng)作,比如躺在地上翻滾、做后空翻等。這些動(dòng)作不僅超出了當(dāng)前機(jī)器人的硬件能力,還可能在訓(xùn)練過程中產(chǎn)生誤導(dǎo)性的學(xué)習(xí)信號(hào)。
篩選過程分為兩個(gè)階段。第一階段使用基于規(guī)則的方法,自動(dòng)過濾掉明顯不可行的動(dòng)作,比如身體傾斜角度過大、移動(dòng)速度超出機(jī)器人能力范圍、或者包含復(fù)雜地面接觸的動(dòng)作。第二階段則更加智能:研究團(tuán)隊(duì)先用篩選后的數(shù)據(jù)訓(xùn)練一個(gè)初步的系統(tǒng),然后根據(jù)這個(gè)系統(tǒng)的表現(xiàn)來進(jìn)一步篩選數(shù)據(jù)。如果某個(gè)動(dòng)作反復(fù)導(dǎo)致訓(xùn)練失敗,就會(huì)被從數(shù)據(jù)集中移除。
這種兩階段篩選方法的好處是既保證了數(shù)據(jù)的質(zhì)量,又避免了過度保守的篩選。通過讓機(jī)器人"嘗試"那些邊界情況的動(dòng)作,研究團(tuán)隊(duì)能夠更準(zhǔn)確地判斷哪些動(dòng)作是真正可行的,哪些是超出能力范圍的。
七、突破性的實(shí)驗(yàn)結(jié)果
為了全面評(píng)估GMT系統(tǒng)的性能,研究團(tuán)隊(duì)設(shè)計(jì)了一系列嚴(yán)格的對(duì)比實(shí)驗(yàn)。這些實(shí)驗(yàn)就像奧運(yùn)會(huì)的各項(xiàng)比賽一樣,從不同的角度測試系統(tǒng)的能力,確保評(píng)估的全面性和公正性。
在與現(xiàn)有先進(jìn)系統(tǒng)的對(duì)比中,GMT展現(xiàn)出了全面的優(yōu)勢。研究團(tuán)隊(duì)選擇了ExBody2作為主要的對(duì)比基準(zhǔn),這是目前該領(lǐng)域最先進(jìn)的系統(tǒng)之一。實(shí)驗(yàn)結(jié)果顯示,GMT在幾乎所有的評(píng)估指標(biāo)上都超越了ExBody2,特別是在關(guān)鍵身體部位的定位精度和整體動(dòng)作的流暢性方面。
更有意義的是GMT系統(tǒng)在困難動(dòng)作上的表現(xiàn)。研究團(tuán)隊(duì)專門分析了表現(xiàn)最差的5%、10%、20%和50%的動(dòng)作,發(fā)現(xiàn)GMT系統(tǒng)的改進(jìn)在困難動(dòng)作上更加明顯。這個(gè)發(fā)現(xiàn)特別重要,因?yàn)樗C明了GMT不僅僅是在整體平均水平上有所提升,更是在那些真正具有挑戰(zhàn)性的任務(wù)上實(shí)現(xiàn)了突破。
為了驗(yàn)證各個(gè)組件的貢獻(xiàn),研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們分別移除了自適應(yīng)采樣策略和專家混合架構(gòu),然后測試系統(tǒng)的性能變化。結(jié)果清楚地顯示,這兩個(gè)核心創(chuàng)新都對(duì)最終性能有顯著貢獻(xiàn),而且它們的效果是互補(bǔ)的——同時(shí)使用兩種技術(shù)的效果遠(yuǎn)好于單獨(dú)使用其中任何一種。
在動(dòng)作輸入設(shè)計(jì)的實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。僅僅增加未來動(dòng)作序列的長度并不總是有益的——當(dāng)預(yù)見窗口過長時(shí),系統(tǒng)的表現(xiàn)反而會(huì)下降。但是,如果在提供未來動(dòng)作序列的同時(shí)還保留當(dāng)前幀的詳細(xì)信息,系統(tǒng)的表現(xiàn)就會(huì)顯著提升。這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要的原理:機(jī)器人既需要長期的規(guī)劃視野,也需要對(duì)當(dāng)前狀態(tài)的精確感知。
八、拓展應(yīng)用的無限可能
GMT系統(tǒng)的能力不僅限于復(fù)現(xiàn)現(xiàn)有的人類動(dòng)作,它還展現(xiàn)出了令人興奮的泛化能力。為了測試這種能力,研究團(tuán)隊(duì)進(jìn)行了一個(gè)有趣的實(shí)驗(yàn):他們使用文本描述讓AI生成全新的動(dòng)作序列,然后測試GMT系統(tǒng)是否能夠執(zhí)行這些從未見過的動(dòng)作。
這個(gè)實(shí)驗(yàn)使用了MDM(Motion Diffusion Model)系統(tǒng),這是一個(gè)能夠根據(jù)文字描述生成人類動(dòng)作的AI模型。研究團(tuán)隊(duì)輸入了各種描述,比如"一個(gè)人邊走路邊鞠躬"、"一個(gè)人蹲下后起身伸展手臂"、"一個(gè)人坐著倒水的動(dòng)作"等,然后讓MDM生成相應(yīng)的動(dòng)作序列。
令人驚喜的是,GMT系統(tǒng)能夠成功執(zhí)行大部分這些AI生成的動(dòng)作,即使這些動(dòng)作組合在訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過。這證明了GMT系統(tǒng)不僅僅是在"背誦"學(xué)過的動(dòng)作,而是真正理解了動(dòng)作的基本原理,能夠?qū)⒉煌膭?dòng)作元素靈活組合。
這種泛化能力為GMT系統(tǒng)開辟了廣闊的應(yīng)用前景。在服務(wù)機(jī)器人領(lǐng)域,GMT可以讓機(jī)器人學(xué)會(huì)各種日常服務(wù)動(dòng)作,從簡單的遞送物品到復(fù)雜的家務(wù)操作。在娛樂產(chǎn)業(yè)中,GMT可以讓機(jī)器人成為出色的表演者,能夠根據(jù)音樂節(jié)拍即興創(chuàng)作舞蹈動(dòng)作。在教育領(lǐng)域,GMT可以讓機(jī)器人成為體育教練或舞蹈老師,示范各種運(yùn)動(dòng)技巧。
更重要的是,GMT系統(tǒng)為構(gòu)建真正通用的人形機(jī)器人邁出了關(guān)鍵一步。傳統(tǒng)的機(jī)器人通常只能在特定任務(wù)上表現(xiàn)出色,但GMT展示了單一系統(tǒng)掌握多種技能的可能性。這種能力是實(shí)現(xiàn)科幻電影中那種萬能機(jī)器人助手的重要基礎(chǔ)。
九、技術(shù)實(shí)現(xiàn)的精妙細(xì)節(jié)
GMT系統(tǒng)的訓(xùn)練過程是一個(gè)需要巨大計(jì)算資源和精心設(shè)計(jì)的復(fù)雜工程。整個(gè)訓(xùn)練在配備RTX4090顯卡的高性能計(jì)算機(jī)上進(jìn)行,使用了4096個(gè)并行的虛擬環(huán)境來加速學(xué)習(xí)過程。這就像同時(shí)運(yùn)行4096個(gè)不同的機(jī)器人訓(xùn)練場,每個(gè)場地都在獨(dú)立地進(jìn)行訓(xùn)練,然后將所有的學(xué)習(xí)經(jīng)驗(yàn)匯總起來。
訓(xùn)練分為兩個(gè)階段,總計(jì)需要約4天的連續(xù)計(jì)算時(shí)間。第一階段訓(xùn)練"老師"網(wǎng)絡(luò)大約需要3天,第二階段訓(xùn)練"學(xué)生"網(wǎng)絡(luò)需要額外1天。雖然這個(gè)時(shí)間看起來很長,但考慮到系統(tǒng)最終掌握的技能廣度和復(fù)雜性,這個(gè)投入是非常值得的。
在控制頻率的設(shè)計(jì)上,研究團(tuán)隊(duì)選擇了一個(gè)平衡精度和穩(wěn)定性的方案。物理仿真以500Hz的頻率運(yùn)行,這意味著每秒鐘計(jì)算500次物理狀態(tài)的更新,確保了物理過程的精確模擬。而控制指令的更新頻率設(shè)置為50Hz,即每秒鐘50次控制決策,這個(gè)頻率既能保證控制的及時(shí)性,又不會(huì)因?yàn)檫^于頻繁的調(diào)整而導(dǎo)致系統(tǒng)不穩(wěn)定。
為了確保訓(xùn)練的穩(wěn)定性和可靠性,研究團(tuán)隊(duì)還實(shí)現(xiàn)了多重驗(yàn)證機(jī)制。訓(xùn)練得到的策略首先在Isaac Gym仿真環(huán)境中進(jìn)行驗(yàn)證,然后轉(zhuǎn)移到MuJoCo物理引擎中進(jìn)行二次驗(yàn)證,最后才部署到真實(shí)的機(jī)器人上。這種多層驗(yàn)證的方法大大降低了系統(tǒng)在真實(shí)環(huán)境中失敗的風(fēng)險(xiǎn)。
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)也體現(xiàn)了研究團(tuán)隊(duì)的深厚功力。系統(tǒng)使用了多個(gè)相互補(bǔ)充的獎(jiǎng)勵(lì)信號(hào),包括關(guān)節(jié)位置的準(zhǔn)確性、關(guān)節(jié)速度的平滑性、身體姿態(tài)的穩(wěn)定性、足部與地面接觸的合理性等。這些獎(jiǎng)勵(lì)信號(hào)就像一個(gè)經(jīng)驗(yàn)豐富的教練從多個(gè)角度評(píng)估學(xué)生的表現(xiàn),確保機(jī)器人不僅能夠完成動(dòng)作,還能做得自然、穩(wěn)定、高效。
十、面向未來的思考與局限
盡管GMT系統(tǒng)取得了令人矚目的成果,但研究團(tuán)隊(duì)也誠實(shí)地承認(rèn)了當(dāng)前版本的局限性。這種科學(xué)的態(tài)度不僅體現(xiàn)了研究的嚴(yán)謹(jǐn)性,也為未來的改進(jìn)指明了方向。
當(dāng)前系統(tǒng)最主要的限制是無法處理復(fù)雜的接觸交互動(dòng)作。比如,機(jī)器人還無法學(xué)會(huì)從跌倒?fàn)顟B(tài)重新站起,或者在地面上翻滾等需要大面積身體接觸的動(dòng)作。這主要是因?yàn)檫@類動(dòng)作的物理仿真極其復(fù)雜,需要精確模擬身體各部分與地面的摩擦、壓力等相互作用,而目前的仿真技術(shù)還難以達(dá)到足夠的精度。
另一個(gè)重要限制是系統(tǒng)目前只能在平坦地面上工作?,F(xiàn)實(shí)世界中的地形往往是不規(guī)則的——有臺(tái)階、斜坡、碎石等各種挑戰(zhàn)。雖然GMT系統(tǒng)已經(jīng)展現(xiàn)出了在平地上的卓越能力,但要讓機(jī)器人在復(fù)雜地形中自如行動(dòng),還需要加入地形感知和適應(yīng)性規(guī)劃的能力。
從更廣闊的視角來看,GMT系統(tǒng)代表了機(jī)器人學(xué)習(xí)領(lǐng)域的一個(gè)重要里程碑。它證明了通過巧妙的算法設(shè)計(jì)和充分的數(shù)據(jù)利用,我們可以讓機(jī)器人掌握遠(yuǎn)比以往更復(fù)雜、更多樣的技能。但同時(shí),它也提醒我們,通往真正通用的人形機(jī)器人的路還很長。
研究團(tuán)隊(duì)已經(jīng)開始著手解決這些局限性。他們正在開發(fā)新的物理仿真方法來更好地處理復(fù)雜接觸,也在研究如何將地形感知整合到控制系統(tǒng)中。更令人期待的是,他們還在探索如何讓機(jī)器人不僅能夠模仿人類動(dòng)作,還能根據(jù)具體任務(wù)需求創(chuàng)造性地組合和調(diào)整動(dòng)作。
說到底,GMT系統(tǒng)的真正價(jià)值不僅在于它當(dāng)前能夠?qū)崿F(xiàn)的功能,更在于它為整個(gè)領(lǐng)域開辟的新思路。它展示了如何通過智能的數(shù)據(jù)處理、巧妙的網(wǎng)絡(luò)架構(gòu)和精心的訓(xùn)練策略來解決復(fù)雜的機(jī)器人控制問題。這些方法論上的貢獻(xiàn)將為未來的研究提供重要的指導(dǎo)。
歸根結(jié)底,GMT系統(tǒng)讓我們看到了一個(gè)令人興奮的未來:機(jī)器人不再是只能執(zhí)行固定程序的機(jī)械裝置,而可能成為真正靈活、多才多藝的智能伙伴。雖然這個(gè)未來還需要更多的技術(shù)突破才能完全實(shí)現(xiàn),但GMT系統(tǒng)無疑是朝著這個(gè)目標(biāo)邁出的堅(jiān)實(shí)一步。對(duì)于我們普通人來說,這意味著在不久的將來,我們可能真的會(huì)看到能夠自如行走、優(yōu)雅舞蹈、靈活操作的人形機(jī)器人走進(jìn)我們的日常生活。
這項(xiàng)研究的完整技術(shù)細(xì)節(jié)和更多演示視頻可以通過訪問項(xiàng)目網(wǎng)站gmt-humanoid.github.io獲得,有興趣深入了解的讀者也可以通過arXiv:2506.14770v1獲取原始論文。
Q&A
Q1:GMT系統(tǒng)是什么?它能讓機(jī)器人做什么? A:GMT是一個(gè)通用動(dòng)作跟蹤系統(tǒng),能讓人形機(jī)器人學(xué)會(huì)各種人類動(dòng)作。它可以讓機(jī)器人掌握走路、跑步、踢球、舞蹈、武術(shù)等多種技能,最重要的是用一個(gè)統(tǒng)一的系統(tǒng)就能處理所有這些動(dòng)作,不需要為每種動(dòng)作單獨(dú)開發(fā)控制器。
Q2:GMT會(huì)不會(huì)讓機(jī)器人完全替代人類的體力工作? A:目前還不會(huì)完全替代。GMT雖然讓機(jī)器人能夠執(zhí)行復(fù)雜動(dòng)作,但仍有很多局限,比如無法處理跌倒后起身、無法在復(fù)雜地形中工作等。不過它確實(shí)為機(jī)器人在服務(wù)、娛樂、教育等領(lǐng)域的應(yīng)用開辟了新可能。
Q3:普通人什么時(shí)候能體驗(yàn)到GMT技術(shù)的機(jī)器人? A:GMT目前還處于研究階段,主要在實(shí)驗(yàn)室環(huán)境中測試。要真正商業(yè)化并走進(jìn)普通家庭,還需要解決成本、安全性、可靠性等諸多問題。不過這項(xiàng)技術(shù)的突破為未來5-10年內(nèi)出現(xiàn)更智能的服務(wù)機(jī)器人奠定了重要基礎(chǔ)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。