這項(xiàng)由清華大學(xué)的尚宇、湯銀州、金磊、高晨、李勇等研究者與Manifold AI的張?chǎng)?、吳偉合作完成的突破性研究,?025年6月發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域的重要會(huì)議上。有興趣深入了解的讀者可以通過(guò)論文標(biāo)題"RoboScape: Physics-informed Embodied World Model"在學(xué)術(shù)搜索引擎中找到完整論文,代碼也已在GitHub上開源。
想象一下,如果讓你閉著眼睛預(yù)測(cè)一個(gè)蘋果從桌子上掉下來(lái)會(huì)發(fā)生什么,你腦海中大概會(huì)浮現(xiàn)出蘋果下落、撞擊地面、可能滾動(dòng)幾下的畫面。這種對(duì)物理世界的"直覺(jué)"讓我們能夠預(yù)測(cè)和理解周圍環(huán)境的變化?,F(xiàn)在,研究人員正試圖給機(jī)器人也賦予這樣的能力。
當(dāng)前的機(jī)器人學(xué)習(xí)面臨著一個(gè)巨大的挑戰(zhàn):真實(shí)世界的訓(xùn)練數(shù)據(jù)太昂貴、太難收集了。每一個(gè)機(jī)器人動(dòng)作都需要人類操作員精心控制,每一次學(xué)習(xí)都需要大量的實(shí)際操作時(shí)間。這就像要教會(huì)一個(gè)孩子騎自行車,卻只能讓他每天練習(xí)五分鐘一樣效率低下。為了解決這個(gè)問(wèn)題,科學(xué)家們開始研究"世界模型"——簡(jiǎn)單說(shuō),就是讓計(jì)算機(jī)在虛擬世界中預(yù)測(cè)"如果機(jī)器人這樣做,接下來(lái)會(huì)發(fā)生什么"的能力。
然而,現(xiàn)有的機(jī)器人世界模型存在一個(gè)致命缺陷:它們太關(guān)注畫面的"表面功夫"了。就像一個(gè)只會(huì)臨摹畫作但不懂繪畫原理的學(xué)生,這些模型能生成看起來(lái)不錯(cuò)的視頻,但往往違背基本的物理定律。比如,當(dāng)機(jī)器人試圖抓取一塊布料時(shí),生成的視頻可能顯示布料突然消失、變形得不合理,或者完全忽略重力的存在。
清華大學(xué)的研究團(tuán)隊(duì)意識(shí)到,要讓機(jī)器人真正理解世界,僅僅模仿表面現(xiàn)象是不夠的,還需要讓它們掌握基本的"物理常識(shí)"。就像教孩子畫畫不能只讓他們描摹,還要讓他們理解透視、光影和比例的原理一樣。
一、給機(jī)器人裝上"物理大腦"的創(chuàng)新思路
研究團(tuán)隊(duì)提出的RoboScape模型,本質(zhì)上是給傳統(tǒng)的視頻生成模型加裝了一個(gè)"物理理解模塊"。這個(gè)模塊不是簡(jiǎn)單地拼接在原有系統(tǒng)上,而是與視頻生成過(guò)程深度融合,就像在蛋糕制作過(guò)程中同時(shí)加入面粉、雞蛋和牛奶,而不是先做好蛋糕再往上撒配料。
傳統(tǒng)的機(jī)器人世界模型就像一個(gè)只會(huì)畫二維圖畫的藝術(shù)家,無(wú)論多么精美,始終缺乏立體感和空間理解。RoboScape的突破在于引入了兩個(gè)關(guān)鍵的"物理感知器官":時(shí)間深度預(yù)測(cè)和關(guān)鍵點(diǎn)動(dòng)態(tài)學(xué)習(xí)。
時(shí)間深度預(yù)測(cè)功能就像給機(jī)器人裝上了"立體視覺(jué)"。人類能夠感知物體的遠(yuǎn)近、大小和空間位置,這種能力幫助我們預(yù)測(cè)物體的運(yùn)動(dòng)軌跡。當(dāng)你看到一個(gè)球滾向桌邊時(shí),你能預(yù)感到它即將掉落,這就是空間理解的力量。RoboScape通過(guò)學(xué)習(xí)預(yù)測(cè)每一幀畫面的深度信息,獲得了類似的三維空間理解能力。
關(guān)鍵點(diǎn)動(dòng)態(tài)學(xué)習(xí)則像是給機(jī)器人配備了"運(yùn)動(dòng)敏感神經(jīng)"。當(dāng)人類觀察物體運(yùn)動(dòng)時(shí),我們的注意力會(huì)自動(dòng)聚焦在運(yùn)動(dòng)最活躍的區(qū)域——比如揮動(dòng)的手臂、滾動(dòng)的球、飄動(dòng)的旗幟。RoboScape模仿了這種注意機(jī)制,自動(dòng)識(shí)別畫面中運(yùn)動(dòng)最劇烈的區(qū)域,然后重點(diǎn)學(xué)習(xí)這些區(qū)域的運(yùn)動(dòng)規(guī)律。這樣,它就能更好地理解不同材質(zhì)物體的特性:是像石頭一樣堅(jiān)硬,還是像橡皮泥一樣柔軟。
二、訓(xùn)練數(shù)據(jù)的精心"烹飪"過(guò)程
要訓(xùn)練一個(gè)懂物理的機(jī)器人大腦,首先需要準(zhǔn)備高質(zhì)量的"食材"——訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)設(shè)計(jì)了一套完整的數(shù)據(jù)處理流水線,就像一個(gè)專業(yè)廚房的食材準(zhǔn)備過(guò)程。
原始的機(jī)器人操作視頻就像剛從菜市場(chǎng)買回來(lái)的蔬菜,需要經(jīng)過(guò)清洗、分揀、切配等多個(gè)步驟才能使用。研究團(tuán)隊(duì)首先使用專門的工具檢測(cè)視頻中的鏡頭切換點(diǎn),確保每個(gè)訓(xùn)練片段都是連續(xù)的動(dòng)作序列,就像確保每道菜的食材都新鮮完整一樣。
接下來(lái),他們使用先進(jìn)的視覺(jué)理解模型為每個(gè)視頻片段添加動(dòng)作標(biāo)簽。這個(gè)過(guò)程就像給每道菜貼上詳細(xì)的說(shuō)明標(biāo)簽:這是"抓取瓶子",那是"關(guān)閉門窗",另一個(gè)是"整理衣物"。這樣的標(biāo)簽化處理讓機(jī)器人能夠理解不同動(dòng)作的含義和目標(biāo)。
最關(guān)鍵的是,研究團(tuán)隊(duì)還為每個(gè)視頻生成了深度信息和關(guān)鍵點(diǎn)軌跡數(shù)據(jù)。深度信息就像給每張照片添加了"等高線地圖",標(biāo)明了每個(gè)像素點(diǎn)距離攝像頭的遠(yuǎn)近。關(guān)鍵點(diǎn)軌跡則像在運(yùn)動(dòng)員身上貼滿傳感器,記錄每個(gè)重要部位的運(yùn)動(dòng)軌跡。
為了確保訓(xùn)練質(zhì)量,研究團(tuán)隊(duì)還設(shè)計(jì)了嚴(yán)格的質(zhì)量篩選機(jī)制。他們使用光流檢測(cè)技術(shù)過(guò)濾掉運(yùn)動(dòng)模糊或靜止不動(dòng)的無(wú)效片段,使用智能評(píng)估系統(tǒng)篩選出動(dòng)作清晰、語(yǔ)義明確的高質(zhì)量樣本。這就像一個(gè)挑剔的大廚,只選用最新鮮、最合適的食材來(lái)制作佳肴。
三、"雙腦并行"的技術(shù)架構(gòu)
RoboScape的核心架構(gòu)采用了"雙腦并行"的設(shè)計(jì)思路,就像人類大腦中負(fù)責(zé)視覺(jué)處理和空間理解的不同區(qū)域協(xié)同工作一樣。
第一個(gè)"大腦"負(fù)責(zé)RGB圖像的生成,專注于創(chuàng)造視覺(jué)上逼真、細(xì)節(jié)豐富的畫面。這個(gè)分支就像一個(gè)專業(yè)的畫家,擅長(zhǎng)描繪顏色、紋理、光影等視覺(jué)細(xì)節(jié),讓生成的視頻在外觀上盡可能接近真實(shí)場(chǎng)景。
第二個(gè)"大腦"則專門處理深度信息,負(fù)責(zé)理解和預(yù)測(cè)場(chǎng)景的三維結(jié)構(gòu)。這個(gè)分支像一個(gè)建筑師,關(guān)注的是空間布局、物體位置關(guān)系、前后遮擋等幾何特征。它能夠確保生成的視頻在空間邏輯上是合理的。
這兩個(gè)"大腦"并不是獨(dú)立工作的,而是通過(guò)精心設(shè)計(jì)的交互機(jī)制實(shí)現(xiàn)深度協(xié)作。深度分支會(huì)將學(xué)到的空間結(jié)構(gòu)信息傳遞給RGB分支,幫助后者生成更符合物理邏輯的畫面。這種協(xié)作方式就像一個(gè)電影制作團(tuán)隊(duì)中,技術(shù)指導(dǎo)會(huì)向?qū)а萏峁I(yè)建議,確保拍攝的場(chǎng)景在技術(shù)上是可行的。
在這個(gè)雙腦系統(tǒng)的基礎(chǔ)上,RoboScape還集成了關(guān)鍵點(diǎn)動(dòng)態(tài)學(xué)習(xí)模塊。這個(gè)模塊就像一個(gè)專門的"運(yùn)動(dòng)教練",時(shí)刻關(guān)注著畫面中的運(yùn)動(dòng)細(xì)節(jié)。它會(huì)自動(dòng)識(shí)別運(yùn)動(dòng)最活躍的區(qū)域,然后加強(qiáng)對(duì)這些區(qū)域的學(xué)習(xí),確保生成的視頻能夠準(zhǔn)確模擬不同材質(zhì)物體的運(yùn)動(dòng)特性。
整個(gè)系統(tǒng)采用自回歸的預(yù)測(cè)方式,就像一個(gè)連環(huán)畫藝術(shù)家,基于前面的畫面內(nèi)容和當(dāng)前的動(dòng)作指令,逐幀預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。這種逐步預(yù)測(cè)的方式讓機(jī)器人能夠進(jìn)行長(zhǎng)時(shí)間的動(dòng)作規(guī)劃和預(yù)測(cè)。
四、關(guān)鍵點(diǎn)追蹤:捕捉運(yùn)動(dòng)的"精髓"
在RoboScape的設(shè)計(jì)中,關(guān)鍵點(diǎn)動(dòng)態(tài)學(xué)習(xí)可以說(shuō)是最巧妙的創(chuàng)新之一。這個(gè)功能的靈感來(lái)源于人類觀察運(yùn)動(dòng)的方式——當(dāng)我們看到復(fù)雜的動(dòng)作場(chǎng)景時(shí),注意力往往會(huì)自動(dòng)聚焦在運(yùn)動(dòng)最劇烈、最重要的部分。
傳統(tǒng)的視頻生成模型就像一個(gè)"近視眼"的觀察者,對(duì)畫面中的每個(gè)區(qū)域都給予同等的關(guān)注,結(jié)果往往是"眉毛胡子一把抓",無(wú)法抓住運(yùn)動(dòng)的核心特征。RoboScape的關(guān)鍵點(diǎn)學(xué)習(xí)機(jī)制則像一個(gè)經(jīng)驗(yàn)豐富的體育教練,能夠敏銳地識(shí)別出動(dòng)作的關(guān)鍵環(huán)節(jié)。
具體來(lái)說(shuō),系統(tǒng)首先會(huì)在視頻的第一幀中密集地采樣大量的候選點(diǎn),就像在一張地圖上撒下許多標(biāo)記點(diǎn)。然后,它會(huì)跟蹤這些點(diǎn)在整個(gè)視頻序列中的運(yùn)動(dòng)軌跡,計(jì)算每個(gè)點(diǎn)的運(yùn)動(dòng)幅度。那些運(yùn)動(dòng)最活躍的點(diǎn)——通常對(duì)應(yīng)于機(jī)器人手臂、抓取的物體、發(fā)生形變的材料等——會(huì)被選作"明星關(guān)鍵點(diǎn)",接受系統(tǒng)的重點(diǎn)關(guān)注。
這種自適應(yīng)選擇機(jī)制的妙處在于,它不需要人工預(yù)先指定哪些區(qū)域重要,而是讓系統(tǒng)自己"看出"運(yùn)動(dòng)的焦點(diǎn)。當(dāng)機(jī)器人在整理一條毛巾時(shí),系統(tǒng)會(huì)自動(dòng)聚焦于毛巾折疊、擰轉(zhuǎn)的部分;當(dāng)機(jī)器人在倒水時(shí),系統(tǒng)會(huì)重點(diǎn)關(guān)注水流和容器的接觸區(qū)域。
更進(jìn)一步,RoboScape還設(shè)計(jì)了一個(gè)巧妙的一致性約束機(jī)制。它要求被選中的關(guān)鍵點(diǎn)在不同時(shí)刻的視覺(jué)特征保持相對(duì)穩(wěn)定——就像要求同一個(gè)人在不同照片中的面部特征應(yīng)該保持一致一樣。這種約束確保了物體在運(yùn)動(dòng)過(guò)程中的連續(xù)性和真實(shí)性,避免了傳統(tǒng)模型中常見的"物體突然消失"或"形狀突然改變"等不合理現(xiàn)象。
為了進(jìn)一步增強(qiáng)關(guān)鍵點(diǎn)區(qū)域的學(xué)習(xí)效果,研究團(tuán)隊(duì)還設(shè)計(jì)了注意力加權(quán)機(jī)制。在訓(xùn)練過(guò)程中,系統(tǒng)會(huì)給關(guān)鍵點(diǎn)區(qū)域分配更高的學(xué)習(xí)權(quán)重,就像一個(gè)學(xué)生在復(fù)習(xí)時(shí)會(huì)把更多時(shí)間花在重點(diǎn)章節(jié)上一樣。這樣,模型對(duì)于運(yùn)動(dòng)細(xì)節(jié)的理解和生成能力得到了顯著提升。
五、嚴(yán)格的實(shí)驗(yàn)驗(yàn)證:從多個(gè)角度檢驗(yàn)效果
為了驗(yàn)證RoboScape的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的測(cè)試體系,就像一個(gè)新藥上市前需要經(jīng)過(guò)多輪臨床試驗(yàn)一樣。
在視頻生成質(zhì)量的測(cè)試中,研究團(tuán)隊(duì)使用了六個(gè)不同維度的評(píng)估指標(biāo)。外觀保真度通過(guò)PSNR和LPIPS指標(biāo)來(lái)衡量,前者關(guān)注像素級(jí)別的精確度,后者評(píng)估感知層面的視覺(jué)質(zhì)量。幾何一致性則通過(guò)深度預(yù)測(cè)的準(zhǔn)確性來(lái)評(píng)估,包括相對(duì)誤差和不同精度層級(jí)的準(zhǔn)確率。動(dòng)作可控性通過(guò)比較有無(wú)動(dòng)作條件時(shí)的輸出差異來(lái)量化。
實(shí)驗(yàn)結(jié)果顯示,RoboScape在所有六個(gè)指標(biāo)上都顯著優(yōu)于現(xiàn)有的基線方法。與專門的機(jī)器人世界模型IRASim和iVideoGPT相比,RoboScape在外觀質(zhì)量上提升了約25%,在幾何一致性上提升了約40%。與通用視頻生成模型Genie和CogVideoX相比,RoboScape在動(dòng)作控制能力上的優(yōu)勢(shì)更加明顯,提升幅度達(dá)到了60%以上。
更重要的是,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分別測(cè)試了移除深度學(xué)習(xí)分支和關(guān)鍵點(diǎn)學(xué)習(xí)分支后的性能變化。結(jié)果表明,這兩個(gè)創(chuàng)新組件都對(duì)最終性能有顯著貢獻(xiàn),而且它們之間存在協(xié)同效應(yīng)——同時(shí)使用兩個(gè)組件的效果要好于單獨(dú)使用任何一個(gè)組件。
在實(shí)用性驗(yàn)證方面,研究團(tuán)隊(duì)進(jìn)行了兩個(gè)重要的下游任務(wù)測(cè)試。第一個(gè)是使用生成的合成數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人策略,測(cè)試合成數(shù)據(jù)的質(zhì)量是否足以支持實(shí)際的機(jī)器人學(xué)習(xí)。實(shí)驗(yàn)表明,使用RoboScape生成的數(shù)據(jù)訓(xùn)練的策略性能接近使用真實(shí)數(shù)據(jù)訓(xùn)練的效果,而且隨著合成數(shù)據(jù)量的增加,性能呈現(xiàn)出穩(wěn)定的提升趨勢(shì)。
第二個(gè)測(cè)試是將RoboScape作為策略評(píng)估器,檢驗(yàn)它能否準(zhǔn)確評(píng)估不同機(jī)器人策略的優(yōu)劣。研究團(tuán)隊(duì)訓(xùn)練了多個(gè)不同性能水平的策略,然后分別在真實(shí)環(huán)境和RoboScape生成的虛擬環(huán)境中進(jìn)行測(cè)試。結(jié)果顯示,兩種測(cè)試結(jié)果之間的相關(guān)性達(dá)到了0.953,遠(yuǎn)高于其他基線方法的0.2左右,說(shuō)明RoboScape確實(shí)能夠提供可靠的策略評(píng)估。
六、技術(shù)細(xì)節(jié)的巧妙設(shè)計(jì)
RoboScape的成功不僅在于整體架構(gòu)的創(chuàng)新,更在于許多技術(shù)細(xì)節(jié)的精心設(shè)計(jì)。這些看似微小的改進(jìn),就像烹飪中的調(diào)料搭配,雖然用量不大,但對(duì)最終效果起著決定性作用。
在模型架構(gòu)方面,研究團(tuán)隊(duì)采用了空間-時(shí)間Transformer塊作為基礎(chǔ)組件。這種設(shè)計(jì)的巧妙之處在于,它在處理時(shí)間維度時(shí)使用因果注意力機(jī)制(只能看到過(guò)去,不能看到未來(lái)),確保了生成過(guò)程的合理性;而在處理空間維度時(shí)使用雙向注意力,讓模型能夠充分利用整個(gè)畫面的上下文信息。
在深度信息的融合方面,研究團(tuán)隊(duì)采用了分層融合策略。深度分支的特征不是在最后才加入RGB分支,而是在每個(gè)Transformer層都進(jìn)行交互。這就像做菜時(shí)不是最后才加調(diào)料,而是在每個(gè)烹飪步驟中都適當(dāng)調(diào)味,讓味道更好地融合。
關(guān)鍵點(diǎn)選擇的動(dòng)態(tài)性是另一個(gè)重要的技術(shù)亮點(diǎn)。系統(tǒng)不是固定選擇某些預(yù)定義的點(diǎn),而是根據(jù)每個(gè)具體場(chǎng)景的運(yùn)動(dòng)特征自適應(yīng)地選擇最相關(guān)的關(guān)鍵點(diǎn)。這種靈活性讓模型能夠適應(yīng)各種不同類型的機(jī)器人任務(wù),從精細(xì)的物體操作到大幅度的空間移動(dòng)。
在訓(xùn)練策略上,研究團(tuán)隊(duì)采用了多任務(wù)聯(lián)合優(yōu)化的方法。RGB生成、深度預(yù)測(cè)、關(guān)鍵點(diǎn)一致性和注意力加權(quán)四個(gè)目標(biāo)函數(shù)被巧妙地組合在一起,通過(guò)精心調(diào)節(jié)的權(quán)重系數(shù)實(shí)現(xiàn)平衡。這種聯(lián)合優(yōu)化不是簡(jiǎn)單的線性組合,而是讓不同任務(wù)之間產(chǎn)生正向的相互促進(jìn)作用。
數(shù)據(jù)預(yù)處理的curriculum learning策略也值得一提。研究團(tuán)隊(duì)將訓(xùn)練數(shù)據(jù)按照動(dòng)作難度分為三個(gè)層級(jí):基礎(chǔ)的抓取推拉動(dòng)作、中等難度的放置轉(zhuǎn)動(dòng)操作、以及高難度的擦拭折疊任務(wù)。模型從簡(jiǎn)單任務(wù)開始學(xué)習(xí),逐步適應(yīng)更復(fù)雜的場(chǎng)景,這種漸進(jìn)式學(xué)習(xí)方式顯著提高了訓(xùn)練效率和最終性能。
七、實(shí)際應(yīng)用中的表現(xiàn)
當(dāng)理論轉(zhuǎn)化為實(shí)踐時(shí),RoboScape展現(xiàn)出了令人印象深刻的實(shí)際應(yīng)用能力。研究團(tuán)隊(duì)在多個(gè)具有挑戰(zhàn)性的機(jī)器人任務(wù)上測(cè)試了模型的表現(xiàn),這些任務(wù)涵蓋了從簡(jiǎn)單的物體抓取到復(fù)雜的多步驟操作。
在Robomimic數(shù)據(jù)集的抓取任務(wù)中,使用RoboScape生成數(shù)據(jù)訓(xùn)練的Diffusion Policy達(dá)到了91%的成功率,幾乎與使用真實(shí)數(shù)據(jù)訓(xùn)練的92%成功率相當(dāng)。這個(gè)結(jié)果特別令人振奮,因?yàn)樗馕吨鴻C(jī)器人可以在虛擬環(huán)境中進(jìn)行大部分訓(xùn)練,大大減少了對(duì)昂貴真實(shí)數(shù)據(jù)的依賴。
更具挑戰(zhàn)性的LIBERO任務(wù)包含了復(fù)雜的多物體操作場(chǎng)景。在這些任務(wù)中,機(jī)器人需要在雜亂的環(huán)境中完成長(zhǎng)序列的精細(xì)操作。使用RoboScape生成的800個(gè)軌跡數(shù)據(jù),π0策略在空間推理、物體操作、目標(biāo)達(dá)成和綜合任務(wù)四個(gè)維度上的平均性能達(dá)到了79.1%,超過(guò)了僅使用200個(gè)真實(shí)軌跡訓(xùn)練的65.2%基線性能。
特別值得注意的是,RoboScape生成的數(shù)據(jù)在處理布料操作等涉及復(fù)雜形變的任務(wù)時(shí)表現(xiàn)尤為出色。在布料整理和折疊任務(wù)中,傳統(tǒng)方法生成的視頻經(jīng)常出現(xiàn)布料突然消失、不合理變形等問(wèn)題,而RoboScape能夠生成符合織物物理特性的連續(xù)形變過(guò)程。
在策略評(píng)估的應(yīng)用中,RoboScape展現(xiàn)出了作為"虛擬測(cè)試環(huán)境"的巨大潛力。研究團(tuán)隊(duì)訓(xùn)練了一系列不同收斂程度的策略,從250個(gè)epoch的初期版本到完全收斂的最終版本。當(dāng)這些策略在RoboScape生成的環(huán)境中測(cè)試時(shí),評(píng)估結(jié)果與真實(shí)環(huán)境中的表現(xiàn)呈現(xiàn)出0.953的強(qiáng)相關(guān)性。這意味著研究人員可以使用RoboScape快速篩選和評(píng)估策略候選,大大加速了機(jī)器人學(xué)習(xí)的研發(fā)周期。
八、模型規(guī)模與性能的關(guān)系探索
深度學(xué)習(xí)領(lǐng)域有一個(gè)重要的觀察:模型性能往往隨著模型規(guī)模和數(shù)據(jù)規(guī)模的增加而提升。研究團(tuán)隊(duì)系統(tǒng)地研究了RoboScape在不同規(guī)模下的表現(xiàn),為未來(lái)的發(fā)展提供了重要的指導(dǎo)。
在模型規(guī)模方面,研究團(tuán)隊(duì)測(cè)試了三個(gè)不同大小的版本:RoboScape-S(3400萬(wàn)參數(shù))、RoboScape-M(1.31億參數(shù))和RoboScape-L(5.44億參數(shù))。實(shí)驗(yàn)結(jié)果顯示出清晰的規(guī)模效應(yīng):隨著模型參數(shù)量的增加,所有六個(gè)評(píng)估指標(biāo)都呈現(xiàn)出持續(xù)的改善趨勢(shì)。最大的RoboScape-L在視覺(jué)質(zhì)量、幾何一致性和動(dòng)作控制能力上都顯著優(yōu)于較小的版本。
在數(shù)據(jù)規(guī)模的研究中,團(tuán)隊(duì)使用不同大小的訓(xùn)練集(100萬(wàn)、300萬(wàn)和600萬(wàn)個(gè)視頻片段)訓(xùn)練RoboScape-S模型。結(jié)果表明,增加訓(xùn)練數(shù)據(jù)能夠持續(xù)提升模型的視覺(jué)質(zhì)量和動(dòng)作控制能力。有趣的是,幾何精度指標(biāo)在數(shù)據(jù)量增加時(shí)出現(xiàn)了輕微下降,研究團(tuán)隊(duì)分析認(rèn)為這是因?yàn)檩^小的數(shù)據(jù)集容易導(dǎo)致模型過(guò)擬合到條件輸入的最后一幀,人為地提高了幾何評(píng)估分?jǐn)?shù),但實(shí)際上并沒(méi)有學(xué)到有意義的時(shí)間動(dòng)態(tài)。
這些縮放實(shí)驗(yàn)的結(jié)果對(duì)于理解和改進(jìn)物理感知的世界模型具有重要意義。它們表明,投入更多的計(jì)算資源和數(shù)據(jù)資源確實(shí)能夠帶來(lái)性能的提升,為未來(lái)構(gòu)建更強(qiáng)大的機(jī)器人世界模型指明了方向。
九、與現(xiàn)有方法的深度對(duì)比
為了全面評(píng)估RoboScape的創(chuàng)新價(jià)值,研究團(tuán)隊(duì)將其與四個(gè)代表性的基線方法進(jìn)行了詳細(xì)對(duì)比,這些方法涵蓋了當(dāng)前機(jī)器人世界模型和通用視頻生成的主要技術(shù)路線。
IRASim作為專門的機(jī)器人視頻生成模型,采用了擴(kuò)散模型架構(gòu),能夠根據(jù)機(jī)器人動(dòng)作和軌跡生成相應(yīng)的視頻。然而,實(shí)驗(yàn)結(jié)果顯示IRASim在所有評(píng)估指標(biāo)上都表現(xiàn)不佳,特別是在長(zhǎng)期生成時(shí)容易出現(xiàn)運(yùn)動(dòng)學(xué)習(xí)不準(zhǔn)確的問(wèn)題。
iVideoGPT是另一個(gè)自回歸的交互式世界模型,在架構(gòu)上與RoboScape更為相似。雖然它在某些指標(biāo)上優(yōu)于IRASim,但在幾何一致性方面仍然存在明顯缺陷,說(shuō)明僅僅依靠RGB信息難以建立準(zhǔn)確的空間理解。
Genie作為基礎(chǔ)世界模型,在無(wú)監(jiān)督學(xué)習(xí)的大規(guī)模視頻數(shù)據(jù)上訓(xùn)練,展現(xiàn)出了不錯(cuò)的視覺(jué)生成質(zhì)量。然而,由于缺乏專門的機(jī)器人動(dòng)作理解機(jī)制,它在動(dòng)作控制能力上明顯不足。
CogVideoX代表了當(dāng)前先進(jìn)的文本到視頻生成技術(shù),在視覺(jué)質(zhì)量方面表現(xiàn)優(yōu)秀,但由于不是專門為機(jī)器人任務(wù)設(shè)計(jì),無(wú)法提供動(dòng)作條件的控制能力。
通過(guò)這些對(duì)比,RoboScape的優(yōu)勢(shì)變得非常清晰:它成功地結(jié)合了專業(yè)機(jī)器人模型的動(dòng)作理解能力和先進(jìn)視頻生成模型的視覺(jué)質(zhì)量,同時(shí)通過(guò)物理感知組件解決了幾何一致性的關(guān)鍵問(wèn)題。這種綜合優(yōu)勢(shì)使得RoboScape在實(shí)際應(yīng)用中具有顯著的實(shí)用價(jià)值。
十、技術(shù)局限性與未來(lái)發(fā)展方向
盡管RoboScape取得了顯著的進(jìn)展,但研究團(tuán)隊(duì)也清醒地認(rèn)識(shí)到當(dāng)前方法的局限性,并為未來(lái)的改進(jìn)指明了方向。
當(dāng)前RoboScape主要關(guān)注相對(duì)簡(jiǎn)單的桌面操作任務(wù),對(duì)于更復(fù)雜的全身機(jī)器人運(yùn)動(dòng)、多機(jī)器人協(xié)作、或者涉及液體、顆粒物質(zhì)等復(fù)雜物理現(xiàn)象的場(chǎng)景,模型的表現(xiàn)還有待驗(yàn)證和改進(jìn)。物理知識(shí)的編碼目前主要依賴于深度信息和關(guān)鍵點(diǎn)動(dòng)態(tài),未來(lái)可能需要引入更多的物理約束,如動(dòng)量守恒、能量守恒等基本物理定律。
在計(jì)算效率方面,雙分支架構(gòu)和關(guān)鍵點(diǎn)學(xué)習(xí)雖然提高了生成質(zhì)量,但也增加了計(jì)算開銷。如何在保持性能的同時(shí)提高訓(xùn)練和推理效率,是一個(gè)重要的工程挑戰(zhàn)。
數(shù)據(jù)依賴性仍然是一個(gè)需要解決的問(wèn)題。雖然RoboScape能夠生成高質(zhì)量的合成數(shù)據(jù),但它本身的訓(xùn)練仍然需要大量的真實(shí)機(jī)器人數(shù)據(jù)。如何減少對(duì)初始數(shù)據(jù)的依賴,或者利用其他形式的監(jiān)督信號(hào)(如物理仿真器),是未來(lái)研究的重要方向。
泛化能力的提升也是一個(gè)關(guān)鍵挑戰(zhàn)。當(dāng)前模型主要在特定的數(shù)據(jù)集和任務(wù)類型上驗(yàn)證,如何讓模型適應(yīng)全新的機(jī)器人平臺(tái)、全新的操作環(huán)境、以及全新的任務(wù)類型,需要進(jìn)一步的研究。
最后,如何將這種世界模型更好地集成到端到端的機(jī)器人學(xué)習(xí)系統(tǒng)中,實(shí)現(xiàn)從感知、規(guī)劃到控制的全流程優(yōu)化,也是一個(gè)值得探索的方向。
說(shuō)到底,RoboScape的出現(xiàn)標(biāo)志著機(jī)器人世界模型向著更加智能、更加符合物理直覺(jué)的方向邁出了重要一步。雖然距離真正的通用機(jī)器人智能還有很長(zhǎng)的路要走,但這項(xiàng)研究為我們展示了一個(gè)充滿希望的技術(shù)路徑。當(dāng)機(jī)器人真正擁有了對(duì)物理世界的深刻理解時(shí),我們或許就能看到它們?cè)诟鞣N復(fù)雜任務(wù)中展現(xiàn)出接近人類的靈活性和智慧。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)技術(shù)的最直接影響可能體現(xiàn)在服務(wù)機(jī)器人、工業(yè)自動(dòng)化、以及各種需要精細(xì)操作的應(yīng)用場(chǎng)景中。當(dāng)家用機(jī)器人能夠準(zhǔn)確預(yù)測(cè)物體的運(yùn)動(dòng)、理解材料的特性、掌握操作的物理原理時(shí),它們就能更好地幫助我們處理日常生活中的各種任務(wù)。從某種意義上說(shuō),RoboScape不僅是在教會(huì)機(jī)器人如何生成視頻,更是在教會(huì)它們?nèi)绾卫斫夂皖A(yù)測(cè)我們所生活的這個(gè)物理世界。
有興趣深入了解技術(shù)細(xì)節(jié)或參與相關(guān)研究的讀者,可以訪問(wèn)項(xiàng)目的開源代碼庫(kù),或查閱研究團(tuán)隊(duì)發(fā)表的完整學(xué)術(shù)論文,其中包含了更多的實(shí)驗(yàn)數(shù)據(jù)、技術(shù)實(shí)現(xiàn)細(xì)節(jié)和理論分析。
Q&A
Q1:RoboScape是什么?它和普通的視頻生成AI有什么不同? A:RoboScape是清華大學(xué)開發(fā)的專門用于機(jī)器人的"物理感知世界模型"。與普通視頻生成AI只關(guān)注畫面好看不同,RoboScape還能理解物理定律,比如重力、物體碰撞、材料變形等。這讓它生成的機(jī)器人操作視頻更符合真實(shí)世界的物理規(guī)律,避免了物體突然消失或不合理變形等問(wèn)題。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)讓機(jī)器人變得更聰明?對(duì)普通人有什么影響? A:會(huì)的。RoboScape讓機(jī)器人能夠更好地預(yù)測(cè)和理解物理世界,這對(duì)提升機(jī)器人的操作能力很有幫助。對(duì)普通人來(lái)說(shuō),未來(lái)的家用機(jī)器人、工業(yè)機(jī)器人可能會(huì)變得更可靠、更精準(zhǔn),能夠處理更復(fù)雜的任務(wù),比如整理衣物、精細(xì)裝配等需要物理直覺(jué)的工作。
Q3:RoboScape需要什么樣的訓(xùn)練數(shù)據(jù)?普通人能使用嗎? A:RoboScape需要大量的機(jī)器人操作視頻數(shù)據(jù)進(jìn)行訓(xùn)練,目前主要在科研環(huán)境下使用。雖然代碼已開源,但普通人直接使用還有一定技術(shù)門檻。不過(guò),這項(xiàng)技術(shù)的成果最終會(huì)融入到各種機(jī)器人產(chǎn)品中,讓普通用戶間接受益。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。