這項(xiàng)由AgiBot公司聯(lián)合新加坡國(guó)立大學(xué)視覺(jué)學(xué)習(xí)實(shí)驗(yàn)室、北京航空航天大學(xué)共同完成的突破性研究于2025年8月發(fā)表在預(yù)印本平臺(tái)arXiv上。論文的第一作者包括廖躍、周鵬飛、黃思遠(yuǎn)等多位研究員,通訊作者為嚴(yán)首成教授和任光輝教授。有興趣深入了解的讀者可以通過(guò)https://genie-envisioner.github.io訪問(wèn)完整論文和相關(guān)資源。
說(shuō)起機(jī)器人,你可能會(huì)想到科幻電影里那些能夠完成各種復(fù)雜任務(wù)的智能伙伴。但現(xiàn)實(shí)中的機(jī)器人往往只能執(zhí)行預(yù)設(shè)的簡(jiǎn)單動(dòng)作,就像一個(gè)只會(huì)按照固定食譜做菜的廚師,無(wú)法應(yīng)對(duì)突發(fā)情況或者學(xué)習(xí)新的技能。這個(gè)問(wèn)題的核心在于,傳統(tǒng)機(jī)器人系統(tǒng)就像是由許多獨(dú)立部門(mén)組成的公司——視覺(jué)部門(mén)負(fù)責(zé)"看",規(guī)劃部門(mén)負(fù)責(zé)"想",執(zhí)行部門(mén)負(fù)責(zé)"做",但這些部門(mén)之間缺乏有效的溝通和協(xié)調(diào)。
AgiBot團(tuán)隊(duì)提出的Genie Envisioner(簡(jiǎn)稱GE)就像是為機(jī)器人配備了一個(gè)統(tǒng)一的"大腦",能夠?qū)⒖?、想、做三個(gè)過(guò)程完美融合。這個(gè)系統(tǒng)最神奇的地方在于,它能夠像人類一樣,通過(guò)觀察和想象來(lái)預(yù)測(cè)行動(dòng)的結(jié)果,然后做出最佳決策。
研究團(tuán)隊(duì)訓(xùn)練這個(gè)系統(tǒng)時(shí)使用了一個(gè)名為AgiBot-World-Beta的超大規(guī)模數(shù)據(jù)集,包含了大約100萬(wàn)個(gè)真實(shí)機(jī)器人操作的視頻片段,總時(shí)長(zhǎng)達(dá)到近3000小時(shí)。這就好比讓一個(gè)新手廚師觀看了100萬(wàn)個(gè)烹飪視頻,從中學(xué)會(huì)了各種料理技巧和應(yīng)對(duì)方法。
Genie Envisioner的核心創(chuàng)新在于將機(jī)器人控制問(wèn)題轉(zhuǎn)化為了一個(gè)視頻生成問(wèn)題。傳統(tǒng)的機(jī)器人系統(tǒng)需要復(fù)雜的物理建模和精確的數(shù)學(xué)計(jì)算,就像建造房子時(shí)需要詳細(xì)的建筑圖紙和復(fù)雜的結(jié)構(gòu)計(jì)算。而GE則采用了一種全新的思路——通過(guò)學(xué)習(xí)大量的操作視頻,讓機(jī)器人能夠"想象"出執(zhí)行某個(gè)任務(wù)時(shí)會(huì)發(fā)生什么,然后基于這種想象來(lái)制定行動(dòng)計(jì)劃。
這種方法的巧妙之處在于,它避開(kāi)了傳統(tǒng)方法中最困難的物理建模問(wèn)題。就像一個(gè)經(jīng)驗(yàn)豐富的司機(jī)不需要計(jì)算復(fù)雜的物理方程就能準(zhǔn)確判斷如何轉(zhuǎn)彎和剎車(chē)一樣,GE讓機(jī)器人能夠基于"經(jīng)驗(yàn)"和"直覺(jué)"來(lái)執(zhí)行任務(wù)。
一、世界基礎(chǔ)模型:機(jī)器人的視覺(jué)想象力
GE-Base是整個(gè)系統(tǒng)的核心,可以把它想象成機(jī)器人的"視覺(jué)想象中心"。就像人類在執(zhí)行某個(gè)動(dòng)作之前會(huì)在腦海中預(yù)演一遍一樣,GE-Base能夠根據(jù)當(dāng)前看到的情況和接收到的指令,生成一段顯示機(jī)器人應(yīng)該如何行動(dòng)的視頻。
這個(gè)過(guò)程的精妙之處在于它的多視角設(shè)計(jì)。傳統(tǒng)的機(jī)器人系統(tǒng)往往只能從一個(gè)角度觀察環(huán)境,就像只用一只眼睛看世界一樣,缺乏立體感和全面性。而GE-Base同時(shí)處理來(lái)自三個(gè)攝像頭的視頻信息——一個(gè)裝在機(jī)器人"頭部"的攝像頭提供全局視野,兩個(gè)裝在機(jī)器臂上的攝像頭則專注于精細(xì)操作的細(xì)節(jié)。
更令人驚嘆的是它的"記憶機(jī)制"。GE-Base不僅關(guān)注當(dāng)前的畫(huà)面,還會(huì)記住之前發(fā)生的關(guān)鍵場(chǎng)景。這就像一個(gè)有經(jīng)驗(yàn)的廚師在做菜時(shí)不僅看當(dāng)前鍋里的情況,還會(huì)記得之前每個(gè)步驟的狀態(tài),從而做出更好的判斷。
訓(xùn)練GE-Base的過(guò)程分為兩個(gè)階段。第一階段被稱為"多分辨率時(shí)間適應(yīng)",研究團(tuán)隊(duì)讓系統(tǒng)觀看以3Hz到30Hz不同速度拍攝的機(jī)器人操作視頻。這就像讓一個(gè)學(xué)習(xí)者同時(shí)觀看慢鏡頭和正常速度的教學(xué)視頻,既能看清楚精細(xì)動(dòng)作的細(xì)節(jié),又能理解整體的節(jié)奏和流程。
第二階段則是"低頻率策略對(duì)齊",專門(mén)針對(duì)實(shí)際控制需要進(jìn)行優(yōu)化。這個(gè)階段的訓(xùn)練讓系統(tǒng)學(xué)會(huì)了在較低的幀率下仍然能夠準(zhǔn)確理解和預(yù)測(cè)機(jī)器人的行為,就像一個(gè)熟練的動(dòng)畫(huà)師能夠用較少的關(guān)鍵幀就創(chuàng)造出流暢的動(dòng)畫(huà)效果。
GE-Base在生成視頻時(shí)采用了一種巧妙的"分塊生成"策略。它不會(huì)一次性生成整段視頻,而是像連載小說(shuō)一樣,一章一章地生成。每一"章"包含幾幀視頻,每生成一章后,系統(tǒng)會(huì)根據(jù)新的情況調(diào)整后續(xù)的生成計(jì)劃。這種方法既保證了生成質(zhì)量,又提高了系統(tǒng)的靈活性。
這種視頻生成能力的實(shí)際效果令人印象深刻。當(dāng)你給GE-Base一個(gè)指令,比如"拿起桌上的牛奶",它能夠生成一段完整的視頻,展示機(jī)器人應(yīng)該如何從當(dāng)前位置出發(fā),精確地抓取牛奶,并將其移動(dòng)到指定位置。更重要的是,這段生成的視頻在空間一致性、時(shí)間連貫性和語(yǔ)義準(zhǔn)確性方面都表現(xiàn)出色。
二、世界行動(dòng)模型:從想象到現(xiàn)實(shí)的橋梁
如果說(shuō)GE-Base是機(jī)器人的"想象中心",那么GE-Act就是連接想象與現(xiàn)實(shí)的"執(zhí)行翻譯器"。它的任務(wù)是將GE-Base生成的視覺(jué)預(yù)測(cè)轉(zhuǎn)化為機(jī)器人能夠?qū)嶋H執(zhí)行的精確控制指令。
GE-Act的設(shè)計(jì)理念就像是在原有的視覺(jué)系統(tǒng)旁邊添加了一個(gè)專門(mén)的"行動(dòng)規(guī)劃部門(mén)"。這個(gè)部門(mén)與視覺(jué)系統(tǒng)并行工作,共享相同的"辦公樓層"(DiT架構(gòu)),但專注于不同的任務(wù)。視覺(jué)系統(tǒng)負(fù)責(zé)理解和預(yù)測(cè)畫(huà)面,而行動(dòng)系統(tǒng)則專注于制定具體的執(zhí)行方案。
這種并行設(shè)計(jì)的巧妙之處在于兩個(gè)系統(tǒng)之間的信息交流。行動(dòng)系統(tǒng)會(huì)定期向視覺(jué)系統(tǒng)"咨詢"當(dāng)前的環(huán)境理解,而視覺(jué)系統(tǒng)則為行動(dòng)系統(tǒng)提供豐富的上下文信息。這種協(xié)作模式確保了生成的行動(dòng)計(jì)劃既符合物理規(guī)律,又與當(dāng)前的環(huán)境狀況高度匹配。
GE-Act的訓(xùn)練過(guò)程采用了一種漸進(jìn)式的策略。首先是"行動(dòng)預(yù)訓(xùn)練"階段,系統(tǒng)學(xué)習(xí)如何將視覺(jué)特征轉(zhuǎn)化為基本的控制信號(hào)。這就像教會(huì)一個(gè)新手司機(jī)基本的駕駛技能——如何轉(zhuǎn)方向盤(pán)、如何踩剎車(chē)、如何判斷距離。
接下來(lái)是"任務(wù)特定適應(yīng)"階段,包括視頻適應(yīng)和行動(dòng)專化兩個(gè)步驟。視頻適應(yīng)階段讓系統(tǒng)學(xué)會(huì)針對(duì)特定任務(wù)調(diào)整其視覺(jué)理解能力,而行動(dòng)?;A段則進(jìn)一步優(yōu)化控制策略的精確度。這個(gè)過(guò)程就像一個(gè)通用司機(jī)學(xué)習(xí)駕駛特定類型的車(chē)輛——先熟悉車(chē)輛的視覺(jué)特征,然后掌握其獨(dú)特的操控特性。
GE-Act的一個(gè)突出特點(diǎn)是其"異步推理"能力。在實(shí)際應(yīng)用中,視覺(jué)處理和動(dòng)作控制有著不同的時(shí)間要求。視覺(jué)理解可以相對(duì)較慢但要求準(zhǔn)確,而動(dòng)作控制則需要快速響應(yīng)。GE-Act巧妙地利用了這種差異,讓視覺(jué)系統(tǒng)以5Hz的頻率更新環(huán)境理解,而動(dòng)作系統(tǒng)則以30Hz的頻率生成控制指令。
這種設(shè)計(jì)就像一個(gè)經(jīng)驗(yàn)豐富的乒乓球選手,不需要時(shí)刻重新分析對(duì)手的整體戰(zhàn)術(shù),而是在理解大致策略的基礎(chǔ)上,快速調(diào)整每一拍的具體動(dòng)作。這種方法大大提高了系統(tǒng)的實(shí)時(shí)性能,使得整個(gè)54步的控制序列能夠在200毫秒內(nèi)完成計(jì)算,滿足了實(shí)時(shí)控制的嚴(yán)格要求。
在實(shí)際應(yīng)用中,GE-Act展現(xiàn)出了令人印象深刻的能力。它不僅能夠完成基本的抓取和放置任務(wù),還能處理復(fù)雜的多步驟操作,如制作三明治、清理桌面、使用微波爐等。更令人驚嘆的是,它還能處理需要記憶的任務(wù)。比如在包裝任務(wù)中,機(jī)器人需要根據(jù)不同顏色的糖果選擇相應(yīng)的印章,即使糖果被放入盒子后不再可見(jiàn),系統(tǒng)仍然能夠記住之前的觀察結(jié)果并做出正確的選擇。
三、跨平臺(tái)適應(yīng):一套系統(tǒng)適配多種機(jī)器人
Genie Envisioner最讓人興奮的特性之一是其出色的跨平臺(tái)適應(yīng)能力。就像一個(gè)多語(yǔ)言的翻譯軟件可以在不同的語(yǔ)言之間自由轉(zhuǎn)換一樣,GE系統(tǒng)能夠快速適應(yīng)不同類型的機(jī)器人平臺(tái)。
研究團(tuán)隊(duì)專門(mén)測(cè)試了系統(tǒng)在Agilex Cobot Magic和雙臂Franka機(jī)器人上的表現(xiàn)。這些平臺(tái)與原始訓(xùn)練平臺(tái)AgiBot G1在機(jī)械結(jié)構(gòu)、控制接口和傳感器配置方面都存在顯著差異。這就像讓一個(gè)習(xí)慣駕駛轎車(chē)的司機(jī)去開(kāi)卡車(chē)或摩托車(chē),需要適應(yīng)完全不同的操控方式。
適應(yīng)過(guò)程采用了一種"兩階段微調(diào)"策略。第一階段專注于視覺(jué)適應(yīng),讓系統(tǒng)學(xué)會(huì)理解新平臺(tái)的視覺(jué)特征。這包括不同的攝像頭位置、視角變化以及機(jī)器人外觀的差異。這個(gè)過(guò)程就像一個(gè)攝影師在不同的拍攝環(huán)境中調(diào)整相機(jī)設(shè)置和構(gòu)圖方式。
第二階段則是動(dòng)作適應(yīng),針對(duì)新平臺(tái)的控制特性重新訓(xùn)練動(dòng)作生成模塊。不同的機(jī)器人有著不同的自由度、運(yùn)動(dòng)范圍和精度特性,需要相應(yīng)調(diào)整控制策略。令人驚訝的是,這種適應(yīng)只需要約250個(gè)演示樣本,相當(dāng)于僅僅一小時(shí)的遙操作數(shù)據(jù)。
在Agilex Cobot Magic平臺(tái)上的實(shí)驗(yàn)特別引人注目,因?yàn)檫@個(gè)平臺(tái)面臨的是極具挑戰(zhàn)性的可變形物體操作任務(wù)——折疊衣服和組裝紙盒。這類任務(wù)對(duì)傳統(tǒng)機(jī)器人系統(tǒng)來(lái)說(shuō)是極其困難的,因?yàn)榭勺冃挝矬w的狀態(tài)變化難以預(yù)測(cè)和建模。
然而,GE系統(tǒng)通過(guò)其視覺(jué)理解能力,能夠?qū)崟r(shí)觀察物體的變形過(guò)程,并相應(yīng)調(diào)整操作策略。在折疊衣服的任務(wù)中,系統(tǒng)需要準(zhǔn)確判斷布料的褶皺狀態(tài),掌握合適的抓取點(diǎn),并執(zhí)行復(fù)雜的折疊動(dòng)作序列。在組裝紙盒任務(wù)中,系統(tǒng)需要理解紙盒的折疊機(jī)制,施加適當(dāng)?shù)牧Χ龋⒈3指鱾€(gè)部分的正確對(duì)齊。
實(shí)驗(yàn)結(jié)果顯示,GE-Act在這些復(fù)雜任務(wù)上的表現(xiàn)明顯優(yōu)于現(xiàn)有的先進(jìn)方法。在與GR00T N1、π0、UniVLA等知名系統(tǒng)的對(duì)比中,GE-Act在折疊任務(wù)上取得了顯著的成功率優(yōu)勢(shì)。特別值得注意的是,一些傳統(tǒng)方法在面對(duì)這類復(fù)雜任務(wù)時(shí)幾乎完全失敗,而GE-Act仍能保持相當(dāng)高的成功率。
在雙臂Franka平臺(tái)上的實(shí)驗(yàn)進(jìn)一步驗(yàn)證了系統(tǒng)的適應(yīng)性。盡管數(shù)據(jù)收集條件相對(duì)簡(jiǎn)化,使用的是空間鼠標(biāo)控制系統(tǒng)而非專業(yè)的遙操作設(shè)備,GE-Act仍然成功適應(yīng)了新平臺(tái)并完成了折疊任務(wù)。這種靈活性表明該系統(tǒng)具備了真正的泛化能力,能夠應(yīng)對(duì)實(shí)際部署中可能遇到的各種硬件約束和環(huán)境變化。
四、神經(jīng)模擬器:虛擬世界中的現(xiàn)實(shí)演練
GE-Sim代表了機(jī)器人仿真領(lǐng)域的一次重要突破。傳統(tǒng)的機(jī)器人仿真器需要精確建模物理定律、材料屬性和環(huán)境約束,就像建造一個(gè)完整的虛擬物理實(shí)驗(yàn)室。而GE-Sim采用了一種全新的思路——通過(guò)學(xué)習(xí)真實(shí)世界的視覺(jué)規(guī)律來(lái)創(chuàng)建仿真環(huán)境。
這種方法的核心思想是將仿真問(wèn)題轉(zhuǎn)化為一個(gè)條件視頻生成問(wèn)題。給定機(jī)器人的當(dāng)前狀態(tài)和預(yù)定的動(dòng)作序列,GE-Sim能夠生成展示執(zhí)行結(jié)果的視頻。這就像一個(gè)經(jīng)驗(yàn)豐富的象棋大師能夠在心中"看到"幾步棋后的棋盤(pán)局面一樣。
GE-Sim的技術(shù)架構(gòu)建立在GE-Base的基礎(chǔ)上,但增加了專門(mén)的動(dòng)作條件處理機(jī)制。這個(gè)機(jī)制包含兩個(gè)關(guān)鍵組件:姿態(tài)到圖像的條件處理和運(yùn)動(dòng)向量條件處理。
姿態(tài)到圖像的條件處理系統(tǒng)能夠?qū)C(jī)器人的關(guān)節(jié)角度和末端執(zhí)行器位置轉(zhuǎn)換為視覺(jué)信息。這個(gè)過(guò)程就像在視頻中疊加一個(gè)透明的軌跡線,顯示機(jī)器人應(yīng)該移動(dòng)的路徑。系統(tǒng)使用標(biāo)定的相機(jī)參數(shù)將三維空間中的位置投影到二維圖像平面上,并用不同的顏色和符號(hào)表示左右臂的目標(biāo)位置和姿態(tài)方向。
運(yùn)動(dòng)向量條件處理則專注于捕捉動(dòng)作的時(shí)間特性。它計(jì)算連續(xù)時(shí)間步之間的位置和姿態(tài)變化,形成"運(yùn)動(dòng)增量"信息。這種信息幫助系統(tǒng)理解動(dòng)作的速度、方向和連續(xù)性,確保生成的視頻在時(shí)間維度上保持自然流暢。
訓(xùn)練GE-Sim時(shí),研究團(tuán)隊(duì)特別注意包含了各種"失敗案例"。這些包括執(zhí)行錯(cuò)誤的動(dòng)作、不完整的任務(wù)執(zhí)行、以及次優(yōu)的控制軌跡。這種訓(xùn)練策略就像讓一個(gè)飛行模擬器不僅包含正常飛行場(chǎng)景,也包含各種緊急情況和異常狀況。這樣的訓(xùn)練讓GE-Sim能夠更真實(shí)地反映機(jī)器人操作的復(fù)雜性和不確定性。
在實(shí)際應(yīng)用中,GE-Sim表現(xiàn)出了令人印象深刻的精確度。當(dāng)給定一個(gè)真實(shí)的控制軌跡時(shí),生成的視頻能夠準(zhǔn)確反映機(jī)器人末端執(zhí)行器的運(yùn)動(dòng)路徑。研究團(tuán)隊(duì)通過(guò)將預(yù)測(cè)的末端執(zhí)行器位置與實(shí)際軌跡進(jìn)行對(duì)比,發(fā)現(xiàn)兩者之間的一致性非常高。
GE-Sim的一個(gè)重要應(yīng)用是支持閉環(huán)策略評(píng)估。在這種模式下,一個(gè)策略模型可以在GE-Sim創(chuàng)建的虛擬環(huán)境中執(zhí)行多個(gè)回合的任務(wù),就像在一個(gè)逼真的訓(xùn)練場(chǎng)中反復(fù)練習(xí)。每次執(zhí)行后,系統(tǒng)都會(huì)根據(jù)生成的視頻評(píng)估任務(wù)完成情況,并為策略模型提供反饋。
這種仿真方式相比傳統(tǒng)的物理仿真器具有多個(gè)優(yōu)勢(shì)。首先是成本效益,不需要昂貴的硬件和復(fù)雜的環(huán)境設(shè)置。其次是擴(kuò)展性,可以輕松支持大規(guī)模并行仿真,在分布式計(jì)算集群上同時(shí)運(yùn)行數(shù)千個(gè)仿真實(shí)例。最重要的是真實(shí)性,因?yàn)镚E-Sim是基于真實(shí)世界數(shù)據(jù)訓(xùn)練的,它生成的場(chǎng)景更貼近實(shí)際部署環(huán)境。
五、綜合評(píng)估基準(zhǔn):機(jī)器人智能的全面體檢
EWMBench(具身世界模型基準(zhǔn))的開(kāi)發(fā)反映了研究團(tuán)隊(duì)對(duì)評(píng)估標(biāo)準(zhǔn)化的深刻理解。傳統(tǒng)的視頻生成評(píng)估主要關(guān)注視覺(jué)質(zhì)量和人類偏好,但機(jī)器人操作視頻有著更嚴(yán)格的約束條件。這就像評(píng)估一個(gè)外科手術(shù)視頻不能僅僅看畫(huà)面是否清晰美觀,更要看手術(shù)步驟是否準(zhǔn)確、操作是否規(guī)范。
EWMBench的設(shè)計(jì)理念是建立一個(gè)多維度的評(píng)估體系。場(chǎng)景一致性維度評(píng)估生成視頻是否保持了環(huán)境布局、物體位置和視角的穩(wěn)定性。這就像檢查一部電影中的場(chǎng)景連續(xù)性,確保前后鏡頭之間沒(méi)有穿幫錯(cuò)誤。
具體來(lái)說(shuō),場(chǎng)景一致性通過(guò)精調(diào)的DINOv2視覺(jué)編碼器來(lái)測(cè)量。這個(gè)編碼器專門(mén)針對(duì)機(jī)器人操作場(chǎng)景進(jìn)行了優(yōu)化,能夠準(zhǔn)確識(shí)別場(chǎng)景中的關(guān)鍵元素。系統(tǒng)會(huì)提取視頻幀之間對(duì)應(yīng)區(qū)域的特征,計(jì)算它們的相似度,從而量化場(chǎng)景的穩(wěn)定性。
動(dòng)作軌跡質(zhì)量評(píng)估則更加復(fù)雜和精細(xì)。這個(gè)維度包含空間對(duì)齊、時(shí)間對(duì)齊和動(dòng)態(tài)一致性三個(gè)子指標(biāo)??臻g對(duì)齊使用對(duì)稱Hausdorff距離來(lái)測(cè)量預(yù)測(cè)軌跡與真實(shí)軌跡之間的幾何差異,就像比較兩條路線圖之間的偏差程度。
時(shí)間對(duì)齊采用歸一化動(dòng)態(tài)時(shí)間規(guī)整技術(shù),這種方法能夠處理速度變化帶來(lái)的時(shí)序差異。即使機(jī)器人在某些階段執(zhí)行得較快或較慢,只要整體的動(dòng)作序列是正確的,就能得到合理的評(píng)分。這就像評(píng)價(jià)一個(gè)音樂(lè)演奏,即使節(jié)奏有細(xì)微變化,只要旋律和結(jié)構(gòu)正確就是好的表演。
動(dòng)態(tài)一致性評(píng)估則關(guān)注運(yùn)動(dòng)的自然性。系統(tǒng)會(huì)分析速度和加速度的分布特征,與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比。如果生成的動(dòng)作軌跡出現(xiàn)突然的速度跳躍或不自然的加減速,就會(huì)被相應(yīng)扣分。
運(yùn)動(dòng)語(yǔ)義評(píng)估采用了多層次的方法。全局層面的評(píng)估使用視覺(jué)語(yǔ)言模型生成視頻摘要,然后與原始任務(wù)指令進(jìn)行BLEU相似度比較。這就像讓一個(gè)觀察者看完視頻后描述發(fā)生了什么,然后檢查這個(gè)描述是否與預(yù)期的任務(wù)一致。
關(guān)鍵步驟一致性評(píng)估更加細(xì)致,它會(huì)將生成的視頻和真實(shí)視頻都分解為若干個(gè)關(guān)鍵步驟,然后比較對(duì)應(yīng)步驟之間的相似性。這種評(píng)估方法能夠識(shí)別出任務(wù)執(zhí)行過(guò)程中的具體問(wèn)題,比如某個(gè)中間步驟被遺漏或執(zhí)行錯(cuò)誤。
邏輯正確性評(píng)估則專注于識(shí)別各種常見(jiàn)錯(cuò)誤。研究團(tuán)隊(duì)首先使用GPT模型定義了機(jī)器人操作中常見(jiàn)的邏輯錯(cuò)誤類型,包括物體憑空消失、違反物理定律的動(dòng)作、以及不符合常識(shí)的行為等。然后使用專門(mén)訓(xùn)練的視覺(jué)語(yǔ)言模型來(lái)檢測(cè)這些錯(cuò)誤的出現(xiàn)。
在與其他先進(jìn)視頻生成模型的對(duì)比評(píng)估中,GE-Base展現(xiàn)出了明顯的優(yōu)勢(shì)。特別是在時(shí)間對(duì)齊和動(dòng)態(tài)一致性方面,GE-Base的表現(xiàn)顯著優(yōu)于通用視頻生成模型如Kling、Hailuo、OpenSora等。這種優(yōu)勢(shì)主要來(lái)源于GE-Base專門(mén)針對(duì)機(jī)器人操作場(chǎng)景的訓(xùn)練和優(yōu)化。
EWMBench還包含了一個(gè)重要的人類偏好一致性驗(yàn)證。研究團(tuán)隊(duì)收集了人類評(píng)估者對(duì)不同模型生成視頻的排序偏好,并與自動(dòng)評(píng)估指標(biāo)的結(jié)果進(jìn)行對(duì)比。結(jié)果顯示,EWMBench的評(píng)估結(jié)果與人類判斷高度一致,而傳統(tǒng)的通用視頻評(píng)估基準(zhǔn)VBench則存在明顯的偏差。
六、實(shí)際應(yīng)用效果:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
Genie Envisioner在實(shí)際應(yīng)用中的表現(xiàn)證明了其技術(shù)路線的正確性和實(shí)用價(jià)值。在原始訓(xùn)練平臺(tái)AgiBot G1上的測(cè)試涵蓋了五個(gè)具有代表性的日常任務(wù)場(chǎng)景,每個(gè)任務(wù)都對(duì)機(jī)器人的不同能力提出了獨(dú)特挑戰(zhàn)。
制作三明治任務(wù)要求機(jī)器人具備精確的物體操作能力和正確的步驟序列理解。機(jī)器人需要準(zhǔn)確抓取面包、培根、生菜等不同質(zhì)地和形狀的食材,并按照正確的順序進(jìn)行組裝。這個(gè)任務(wù)特別考驗(yàn)系統(tǒng)對(duì)物體屬性的理解和多步驟協(xié)調(diào)能力。
倒茶任務(wù)則主要測(cè)試精細(xì)運(yùn)動(dòng)控制和液體操作技能。機(jī)器人需要準(zhǔn)確控制茶壺的傾斜角度和速度,避免溢出或倒空。這種任務(wù)對(duì)傳統(tǒng)機(jī)器人系統(tǒng)來(lái)說(shuō)極具挑戰(zhàn)性,因?yàn)橐后w的動(dòng)態(tài)特性難以精確建模。
清潔桌面任務(wù)考驗(yàn)機(jī)器人的路徑規(guī)劃和力度控制能力。機(jī)器人需要抓取抹布或海綿,在桌面上執(zhí)行覆蓋性的擦拭動(dòng)作,同時(shí)施加適當(dāng)?shù)膲毫η宄蹪n。這個(gè)任務(wù)要求系統(tǒng)能夠生成平滑、覆蓋完整的運(yùn)動(dòng)軌跡。
微波爐加熱食物任務(wù)涉及復(fù)雜的人機(jī)交互和設(shè)備操作。機(jī)器人需要打開(kāi)微波爐門(mén)、放入食物、關(guān)閉門(mén)、設(shè)置時(shí)間并啟動(dòng)設(shè)備。這個(gè)任務(wù)測(cè)試了系統(tǒng)對(duì)機(jī)械裝置操作的理解和多步驟任務(wù)的執(zhí)行能力。
傳送帶包裝任務(wù)代表了工業(yè)應(yīng)用場(chǎng)景,要求機(jī)器人能夠識(shí)別和追蹤移動(dòng)的目標(biāo)物體。機(jī)器人需要在傳送帶運(yùn)行過(guò)程中準(zhǔn)確抓取洗衣液袋,并將其放入包裝盒中。這種動(dòng)態(tài)環(huán)境下的操作對(duì)視覺(jué)追蹤和運(yùn)動(dòng)協(xié)調(diào)提出了很高要求。
在與先進(jìn)基準(zhǔn)系統(tǒng)的對(duì)比中,GE-Act在所有任務(wù)上都表現(xiàn)出了明顯優(yōu)勢(shì)。相比UniVLA和GR00T N1這樣的大規(guī)模視覺(jué)語(yǔ)言動(dòng)作模型,GE-Act在步驟級(jí)成功率和端到端成功率兩個(gè)指標(biāo)上都有顯著提升。這種提升主要?dú)w功于GE-Base提供的強(qiáng)大時(shí)空先驗(yàn)知識(shí)和精確的視覺(jué)語(yǔ)言對(duì)齊能力。
特別值得注意的是GE-Act的"快速模式"表現(xiàn)。這種模式利用了視覺(jué)處理和動(dòng)作控制之間的時(shí)間不對(duì)稱性,在保持準(zhǔn)確性的同時(shí)大幅提升了響應(yīng)速度。在需要快速反應(yīng)的動(dòng)態(tài)任務(wù)中,如傳送帶包裝,快速模式的優(yōu)勢(shì)尤為明顯。
最令人印象深刻的是系統(tǒng)處理長(zhǎng)序列記憶任務(wù)的能力。在復(fù)雜的包裝場(chǎng)景中,機(jī)器人需要根據(jù)糖果顏色選擇對(duì)應(yīng)的印章,而糖果一旦被放入盒子就不再可見(jiàn)。GE-Act能夠在任務(wù)執(zhí)行過(guò)程中維持對(duì)之前觀察結(jié)果的記憶,并在需要時(shí)正確調(diào)用這些信息。這種記憶能力對(duì)于復(fù)雜的現(xiàn)實(shí)世界任務(wù)至關(guān)重要。
系統(tǒng)的泛化能力在跨平臺(tái)測(cè)試中得到了充分驗(yàn)證。僅用一小時(shí)的適應(yīng)數(shù)據(jù),GE-Act就能在全新的機(jī)器人平臺(tái)上達(dá)到令人滿意的性能水平。這種快速適應(yīng)能力大大降低了系統(tǒng)部署的成本和復(fù)雜度,為實(shí)際應(yīng)用奠定了基礎(chǔ)。
在處理可變形物體的任務(wù)中,GE-Act展現(xiàn)出了傳統(tǒng)方法難以企及的能力。無(wú)論是折疊衣物還是組裝紙盒,系統(tǒng)都能夠?qū)崟r(shí)適應(yīng)物體的形變,調(diào)整抓取點(diǎn)和操作策略。這種能力的獲得主要依賴于GE-Base強(qiáng)大的視覺(jué)理解能力,它能夠準(zhǔn)確識(shí)別和預(yù)測(cè)可變形物體的狀態(tài)變化。
說(shuō)到底,Genie Envisioner代表了機(jī)器人技術(shù)發(fā)展的一個(gè)重要里程碑。它成功地將視頻生成、語(yǔ)言理解、動(dòng)作控制和環(huán)境仿真統(tǒng)一到了一個(gè)框架中,創(chuàng)造了一種全新的機(jī)器人智能實(shí)現(xiàn)方式。這個(gè)系統(tǒng)不僅在技術(shù)上實(shí)現(xiàn)了突破,更重要的是它展示了一條通向通用機(jī)器人智能的可行路徑。
傳統(tǒng)的機(jī)器人系統(tǒng)往往需要針對(duì)特定任務(wù)進(jìn)行專門(mén)設(shè)計(jì)和調(diào)優(yōu),就像為每道菜都配備專用廚具的廚房。而Genie Envisioner更像是一個(gè)技藝高超的多面手廚師,能夠憑借深厚的經(jīng)驗(yàn)和靈活的思維應(yīng)對(duì)各種烹飪挑戰(zhàn)。這種通用性和適應(yīng)性對(duì)于機(jī)器人技術(shù)的產(chǎn)業(yè)化應(yīng)用具有重要意義。
當(dāng)然,這項(xiàng)研究也還存在一些局限性。目前的系統(tǒng)主要專注于桌面操作任務(wù),使用的是平行爪夾持器。更復(fù)雜的全身運(yùn)動(dòng)、靈巧手操作以及移動(dòng)操作等能力還有待進(jìn)一步開(kāi)發(fā)。此外,評(píng)估方法雖然相比傳統(tǒng)標(biāo)準(zhǔn)有了很大改進(jìn),但仍然依賴于代理指標(biāo)和部分人工驗(yàn)證。
不過(guò),這些局限性并不能掩蓋Genie Envisioner的重要價(jià)值。它為機(jī)器人智能研究開(kāi)辟了一個(gè)新的方向,證明了基于大規(guī)模數(shù)據(jù)和生成模型的技術(shù)路線的可行性。隨著數(shù)據(jù)規(guī)模的進(jìn)一步擴(kuò)大、算法的持續(xù)優(yōu)化以及硬件性能的提升,我們有理由期待這種技術(shù)能夠在不遠(yuǎn)的將來(lái)真正走入千家萬(wàn)戶,成為人們?nèi)粘I畹闹悄苤帧?/p>
這項(xiàng)研究的意義不僅在于技術(shù)本身,更在于它所代表的思路轉(zhuǎn)變——從精確建模到經(jīng)驗(yàn)學(xué)習(xí),從特定任務(wù)到通用能力,從獨(dú)立系統(tǒng)到統(tǒng)一平臺(tái)。這種轉(zhuǎn)變可能會(huì)深刻影響整個(gè)機(jī)器人產(chǎn)業(yè)的發(fā)展方向,推動(dòng)智能機(jī)器人技術(shù)向更高水平邁進(jìn)。對(duì)于關(guān)注人工智能發(fā)展的讀者來(lái)說(shuō),Genie Envisioner無(wú)疑是一個(gè)值得持續(xù)關(guān)注的重要進(jìn)展。
Q&A
Q1:Genie Envisioner是什么?它與傳統(tǒng)機(jī)器人有什么不同?
A:Genie Envisioner是由AgiBot團(tuán)隊(duì)開(kāi)發(fā)的機(jī)器人操作統(tǒng)一平臺(tái),最大的不同在于它能讓機(jī)器人像人類一樣先"想象"再行動(dòng)。傳統(tǒng)機(jī)器人需要復(fù)雜的物理建模和數(shù)學(xué)計(jì)算,而GE通過(guò)學(xué)習(xí)大量操作視頻,讓機(jī)器人能夠預(yù)測(cè)行動(dòng)結(jié)果并制定最佳策略,就像經(jīng)驗(yàn)豐富的廚師憑直覺(jué)做菜一樣。
Q2:這個(gè)系統(tǒng)需要多少數(shù)據(jù)才能訓(xùn)練出來(lái)?普通人能使用嗎?
A:研究團(tuán)隊(duì)使用了包含約100萬(wàn)個(gè)機(jī)器人操作視頻片段的AgiBot-World-Beta數(shù)據(jù)集,總時(shí)長(zhǎng)近3000小時(shí)。目前這還是一個(gè)科研項(xiàng)目,普通消費(fèi)者暫時(shí)無(wú)法直接使用。不過(guò)研究團(tuán)隊(duì)承諾會(huì)開(kāi)源所有代碼和模型,這意味著未來(lái)可能會(huì)有更多公司基于這項(xiàng)技術(shù)開(kāi)發(fā)實(shí)用產(chǎn)品。
Q3:Genie Envisioner能夠適應(yīng)不同類型的機(jī)器人嗎?
A:是的,這是它的一大優(yōu)勢(shì)。系統(tǒng)能夠快速適應(yīng)不同平臺(tái),比如從AgiBot G1轉(zhuǎn)換到Agilex Cobot Magic或雙臂Franka機(jī)器人,只需要約一小時(shí)的適應(yīng)數(shù)據(jù)。這種跨平臺(tái)能力大大降低了系統(tǒng)部署成本,讓同一套"大腦"可以控制不同"身體"的機(jī)器人。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。