在機(jī)器人模仿學(xué)習(xí)領(lǐng)域,一項(xiàng)突破性的創(chuàng)新正在改變我們評估機(jī)器人能力的方式。來自AgiBot、上海交通大學(xué)和香港中文大學(xué)多媒體實(shí)驗(yàn)室的研究團(tuán)隊于2025年5月14日在arXiv上發(fā)布了名為"ENERVERSE-AC: Envisioning Embodied Environments with Action Condition"的研究論文,提出了一種全新的動作條件世界模型,這一模型能夠根據(jù)機(jī)器人的預(yù)測動作生成未來的視覺觀察結(jié)果,從而使機(jī)器人仿真變得既真實(shí)又可控。
想象一下,如果你想測試一個新開發(fā)的機(jī)器人是否能成功抓取一個物體,傳統(tǒng)方法需要你擁有實(shí)體機(jī)器人或構(gòu)建復(fù)雜的3D模擬環(huán)境,這不僅昂貴,而且耗時。ENERVERSE-AC(簡稱EVAC)則提供了一種全新的解決方案:它就像一個"數(shù)字孿生"環(huán)境,可以在虛擬世界中準(zhǔn)確地模擬機(jī)器人與環(huán)境的交互,讓我們無需實(shí)體設(shè)備就能評估機(jī)器人的表現(xiàn)。
這項(xiàng)研究的主要貢獻(xiàn)在于,研究團(tuán)隊不僅開發(fā)了一個能夠生成視頻的世界模型,更重要的是,這個模型可以根據(jù)機(jī)器人的動作實(shí)時調(diào)整生成的視頻內(nèi)容。就像玩電子游戲時,游戲會根據(jù)你按下的按鍵改變畫面一樣,EVAC會根據(jù)機(jī)器人的動作指令改變生成的視覺場景。
論文的主要作者江宇欣、陳勝聰和黃思遠(yuǎn),在資深研究員陳禮良的帶領(lǐng)下,基于前期的EnerVerse架構(gòu),為這一模型增加了多層動作條件注入機(jī)制和射線圖編碼,使其能夠生成多視角圖像,同時還通過收集更多樣化的失敗軌跡來提升模型的泛化能力。
那么,EVAC具體有什么用呢?首先,它可以作為"數(shù)據(jù)引擎",通過對有限的人類收集軌跡進(jìn)行分割、增強(qiáng)和重新組合,生成豐富多樣的訓(xùn)練數(shù)據(jù)集;其次,它可以作為機(jī)器人策略的"評估器",生成基于動作條件的視頻觀察結(jié)果,讓研究人員無需依賴實(shí)體機(jī)器人就能迭代測試機(jī)器人策略。這大大降低了開發(fā)成本,同時保持了高度的評估保真度。
在本文中,我們將深入淺出地解析EVAC的工作原理、技術(shù)創(chuàng)新和實(shí)際應(yīng)用價值,讓你在不接觸專業(yè)術(shù)語的情況下,也能理解這項(xiàng)面向未來的機(jī)器人仿真技術(shù)。
一、打造機(jī)器人的"數(shù)字沙盒":研究背景與挑戰(zhàn)
機(jī)器人學(xué)習(xí)就像孩子學(xué)習(xí)一樣,需要不斷嘗試、失敗和改進(jìn)。想象一下,當(dāng)父母教孩子騎自行車時,孩子需要反復(fù)練習(xí)才能掌握平衡。同樣地,機(jī)器人需要通過大量的實(shí)踐來學(xué)習(xí)完成任務(wù)。但與孩子學(xué)習(xí)相比,機(jī)器人學(xué)習(xí)面臨一個大問題:每次"練習(xí)"都需要使用實(shí)體機(jī)器人或復(fù)雜的仿真環(huán)境,這既昂貴又耗時。
近年來,機(jī)器人模仿學(xué)習(xí)已經(jīng)從解決靜態(tài)環(huán)境中的簡單任務(wù),發(fā)展到處理復(fù)雜多變的交互場景。例如,機(jī)器人不再僅僅學(xué)習(xí)如何將物體從A點(diǎn)移動到B點(diǎn),而是開始學(xué)習(xí)如何在廚房環(huán)境中烹飪食物、如何整理混亂的桌面,甚至如何與人類協(xié)作完成復(fù)雜任務(wù)。這種進(jìn)步令人振奮,但同時也帶來了巨大挑戰(zhàn):如何有效評估這些復(fù)雜任務(wù)中的機(jī)器人表現(xiàn)?
傳統(tǒng)的人工智能領(lǐng)域,如計算機(jī)視覺或自然語言處理,可以使用靜態(tài)數(shù)據(jù)集進(jìn)行評估。例如,一個圖像識別模型可以在大量圖片上測試其準(zhǔn)確率,而無需與環(huán)境實(shí)時交互。但機(jī)器人操作本質(zhì)上是交互性的,機(jī)器人需要根據(jù)環(huán)境變化實(shí)時調(diào)整行動。這就像測試一個廚師的烹飪技能,不能只看他的食譜,而是要觀察他如何根據(jù)食材狀態(tài)、火候變化實(shí)時調(diào)整烹飪手法。
隨著任務(wù)多樣性的增加,直接在實(shí)體機(jī)器人上評估或創(chuàng)建大規(guī)模3D仿真環(huán)境變得越來越困難。想象你要測試一個機(jī)器人在100種不同廚房場景中的表現(xiàn),這意味著你需要構(gòu)建100個不同的廚房環(huán)境,或者在實(shí)體機(jī)器人上進(jìn)行100次不同的測試設(shè)置——這在成本和時間上都是不可行的。
鑒于這些挑戰(zhàn),研究者們開始探索使用視頻生成模型作為世界模擬器的可能性。這些模型能讓機(jī)器人通過學(xué)習(xí)的視覺動態(tài)觀察和交互虛擬世界,避免了對物理仿真的依賴。就像電影特效一樣,這些模型可以創(chuàng)建逼真的視覺場景,讓機(jī)器人"身臨其境"。
然而,現(xiàn)有的世界建模技術(shù)主要集中于從語言指令生成視頻,然后基于生成的視頻預(yù)測動作。這就像給機(jī)器人看一部教學(xué)視頻,然后讓它模仿視頻中的動作。但這種方法無法創(chuàng)建真正的世界模擬器,因?yàn)樗鼈內(nèi)鄙賹C(jī)器人動作的反饋——真正的世界模擬器應(yīng)該能夠根據(jù)機(jī)器人的動作來模擬環(huán)境動態(tài),就像現(xiàn)實(shí)世界會對我們的行為做出反應(yīng)一樣。
這正是ENERVERSE-AC(EVAC)試圖解決的核心問題:如何創(chuàng)建一個能夠根據(jù)機(jī)器人動作實(shí)時生成視覺觀察結(jié)果的模型,使機(jī)器人訓(xùn)練和評估變得更加高效、經(jīng)濟(jì)且可擴(kuò)展?
二、EVAC的技術(shù)核心:動作條件視頻生成
EVAC的核心思想是創(chuàng)建一個"動作條件"的世界模型,就像一個對話系統(tǒng)根據(jù)用戶輸入生成回應(yīng)一樣,EVAC根據(jù)機(jī)器人的動作生成相應(yīng)的視覺場景。想象一下,如果你告訴朋友"我要拿起桌上的杯子",然后描述你的動作,你的朋友能在腦海中想象出你拿杯子的樣子。EVAC就像這樣的朋友,能根據(jù)機(jī)器人描述的動作"想象"出相應(yīng)的視覺場景。
從技術(shù)上看,EVAC建立在UNet視頻生成模型的基礎(chǔ)上,這是一種擴(kuò)散模型(Diffusion Model)。如果把視頻畫面比作一幅油畫,擴(kuò)散模型的工作方式就像是先把畫布上的顏料完全攪亂,然后一步步地恢復(fù)出清晰的畫面。EVAC的創(chuàng)新之處在于,它在這個過程中加入了"動作條件",也就是說,畫面的恢復(fù)過程會受到預(yù)設(shè)動作序列的指導(dǎo)。
具體來說,當(dāng)EVAC接收到一組RGB視頻幀和相應(yīng)的機(jī)器人動作軌跡時,它首先通過編碼器將視頻轉(zhuǎn)換為潛在表示(latent representation),這就像將復(fù)雜的畫面提煉為簡化的草圖。然后,使用擴(kuò)散模型來預(yù)測未來的潛在表示,這個過程受到機(jī)器人動作軌跡的條件引導(dǎo)。最后,將預(yù)測的潛在表示轉(zhuǎn)換回可視的視頻幀。
為了有效地將動作信息融入視頻生成過程,研究團(tuán)隊設(shè)計了兩種創(chuàng)新的條件注入機(jī)制:
首先是"空間感知姿態(tài)注入"。想象你在用手機(jī)拍攝視頻時,手機(jī)屏幕上會疊加顯示一些信息,比如拍攝時間、位置等。類似地,EVAC將機(jī)器人末端執(zhí)行器(就像機(jī)器人的"手")的6D位姿信息(位置和方向)投影到圖像上,形成"動作地圖"。這些動作地圖使模型能夠準(zhǔn)確地理解機(jī)器人在空間中的位置和方向,從而生成相應(yīng)的視覺場景。
例如,當(dāng)機(jī)器人的手向左移動時,動作地圖會顯示一個指向左側(cè)的箭頭;當(dāng)機(jī)器人的夾爪閉合時,動作地圖會用顏色深淺來表示夾爪的開閉程度。這些視覺提示讓模型能夠直觀地理解機(jī)器人的動作意圖。
其次是"增量動作注意力模塊"。如果說空間感知姿態(tài)注入關(guān)注的是"機(jī)器人在哪里",那么增量動作注意力模塊則關(guān)注"機(jī)器人如何移動"。它計算連續(xù)幀之間末端執(zhí)行器位置和方向的變化,捕捉動作的速度和加速度信息。這些變化通過線性投影器編碼成固定長度的潛在表示,然后通過交叉注意力機(jī)制注入到UNet階段。
這就像我們觀察舞者的表演,不僅要看舞者站在哪個位置,還要關(guān)注舞者是急速旋轉(zhuǎn)還是緩慢伸展,這些動作的節(jié)奏和力度同樣重要。通過捕捉這些時間變化,比如速度和加速度,模塊增強(qiáng)了模型對運(yùn)動動態(tài)的物理理解,使其能夠生成更真實(shí)、更多樣的視頻輸出。
三、多視角條件注入:立體感知機(jī)器人環(huán)境
在真實(shí)的機(jī)器人操作中,多角度的視覺輸入對于準(zhǔn)確判斷物體位置和完成任務(wù)至關(guān)重要。想象一下廚師在廚房工作:他不僅需要看到正前方的案板,還需要通過余光察覺周圍的爐灶和食材。同樣,機(jī)器人也需要多角度的視覺輸入來全面感知環(huán)境。
EVAC擴(kuò)展了世界模型,支持多視角視頻生成。想象一個攝影棚,多個攝像機(jī)從不同角度拍攝同一個場景,每個攝像機(jī)都能捕捉到場景的不同方面。在EVAC中,多視角特征通過空間交叉注意力模塊進(jìn)行交互,就像多個攝影師相互交流所看到的內(nèi)容,形成對場景的完整理解。
但EVAC面臨一個特殊挑戰(zhàn):動態(tài)的腕部攝像頭。在機(jī)器人系統(tǒng)中,通常會有固定的頭部攝像頭和跟隨機(jī)械臂移動的腕部攝像頭。固定攝像頭就像餐廳的監(jiān)控攝像頭,始終從一個固定位置觀察全局;而腕部攝像頭則像廚師戴在頭上的攝像機(jī),隨著廚師的移動而變換視角。
當(dāng)使用前面提到的方法將末端執(zhí)行器姿態(tài)投影到腕部攝像頭圖像上時,會出現(xiàn)一個問題:投影圓始終保持靜態(tài),無法傳達(dá)手部的移動信息。這就像你戴著攝像頭看自己的手時,無論你的手怎么移動,它在攝像頭畫面中的相對位置幾乎不變,這無法反映真實(shí)的空間移動。
為了解決這個問題,研究團(tuán)隊引入了"射線圖"編碼技術(shù)。射線圖記錄了每個攝像頭相對于其位置的光線起點(diǎn)和方向。對于每個攝像頭,團(tuán)隊計算了其在所有時間點(diǎn)的射線圖。由于腕部攝像頭隨機(jī)械臂移動,腕部攝像頭的射線圖能隱式編碼末端執(zhí)行器位姿的運(yùn)動信息。
這就像給攝像頭增加了一種"空間感知"能力,讓它知道自己在空間中的位置和視角。射線圖被連同軌跡圖一起輸入到模型中,提供豐富的軌跡信息,改善了跨視圖的一致性。
通過這種方式,EVAC能夠處理固定的頭部攝像頭視圖和動態(tài)的腕部攝像頭視圖,為機(jī)器人提供全面的環(huán)境表示。這種多視角生成能力使EVAC在處理需要精確空間理解的任務(wù)時表現(xiàn)出色。
四、數(shù)據(jù)驅(qū)動的真實(shí)性:不只成功,也學(xué)習(xí)失敗
在機(jī)器人學(xué)習(xí)中,失敗的經(jīng)驗(yàn)與成功的經(jīng)驗(yàn)同樣重要。想象一個初學(xué)烹飪的人,不僅需要知道如何正確炒菜,還需要知道火太大會導(dǎo)致食物燒焦,油放太多會濺出等失敗情況。同樣,機(jī)器人也需要學(xué)習(xí)各種可能的失敗場景,以便在實(shí)際操作中避免這些錯誤。
EVAC世界模型的一個關(guān)鍵特點(diǎn)是,它被設(shè)計用來處理成功和失敗場景。研究團(tuán)隊不僅利用了AgiBot-World數(shù)據(jù)集中的成功軌跡,還精心收集了多樣化的失敗軌跡,顯著擴(kuò)展了訓(xùn)練數(shù)據(jù)的覆蓋范圍。
他們與AgiBot-Data團(tuán)隊合作,獲取了原始數(shù)據(jù)的完整訪問權(quán)限,從中挖掘了大量失敗案例。例如,當(dāng)機(jī)器人嘗試抓取物體但抓空了,或者物體從夾爪中滑落的情況。此外,研究團(tuán)隊還開發(fā)了一個自動化數(shù)據(jù)收集管道,在遠(yuǎn)程操作和真實(shí)機(jī)器人推理期間捕捉真實(shí)世界的失敗案例。
這種全面的數(shù)據(jù)收集策略,就像為學(xué)習(xí)駕駛的人提供各種道路和天氣條件下的駕駛經(jīng)驗(yàn),不僅包括順利行駛的情況,還包括如何應(yīng)對打滑、急剎車等緊急情況。這大大增強(qiáng)了模型在不同場景下的泛化能力,確保它能適應(yīng)各種真實(shí)世界的機(jī)器人任務(wù)。
通過整合這些多樣化的數(shù)據(jù),EVAC能夠更準(zhǔn)確地模擬現(xiàn)實(shí)世界中的各種情況,包括那些不太理想的結(jié)果。這種全面性使得EVAC在作為政策學(xué)習(xí)的數(shù)據(jù)引擎和政策模型的評估器時,都能提供更可靠的結(jié)果。
五、EVAC的雙重應(yīng)用:數(shù)據(jù)引擎與政策評估器
EVAC不僅僅是一個視頻生成模型,它在機(jī)器人學(xué)習(xí)領(lǐng)域有兩個關(guān)鍵應(yīng)用,解決了機(jī)器人操作中的核心挑戰(zhàn)。
首先,EVAC可以作為"數(shù)據(jù)引擎",為機(jī)器人策略學(xué)習(xí)提供豐富的訓(xùn)練數(shù)據(jù)。想象你需要教機(jī)器人完成一個新任務(wù),比如從紙箱中取出水瓶放到桌上。傳統(tǒng)方法需要人類操作員收集大量示范數(shù)據(jù),這既耗時又昂貴。EVAC提供了一種解決方案:只需要少量的人類收集軌跡,就能生成大量多樣化的訓(xùn)練數(shù)據(jù)。
具體來說,對于每條收集的軌跡,研究人員首先通過分析夾爪開合度的變化來標(biāo)識物體接觸階段的開始和結(jié)束時間點(diǎn)。然后,將軌跡分割為三個不同階段:抓取前的接近(fetching)、抓取(grasping)和抓取后的運(yùn)輸(homing)。
以抓取前階段為例,研究人員提取觀察圖像和相應(yīng)的動作序列,對早期動作進(jìn)行空間增強(qiáng)以生成新的動作起點(diǎn),然后通過插值創(chuàng)建新的動作軌跡。隨后,將觀察圖像和反轉(zhuǎn)的動作序列輸入EVAC世界模型,生成相應(yīng)的視頻幀。生成的幀經(jīng)過重新排序,創(chuàng)建一個正確的數(shù)據(jù)集。通過這個過程,原始的少量軌跡可以被增強(qiáng)成更加多樣化的軌跡集,提高策略學(xué)習(xí)的魯棒性和泛化能力。
其次,EVAC可以作為"政策評估器",為已訓(xùn)練的機(jī)器人策略模型提供仿真測試環(huán)境。給定初始視覺觀察和相應(yīng)指令,策略模型生成動作序列。這些動作序列與初始觀察一起輸入EVAC,生成新的觀察結(jié)果。這個過程不斷重復(fù),直到策略模型生成的動作低于預(yù)定閾值。隨后,人類評估員觀看EVAC生成的視頻來評估任務(wù)是否成功完成。
這種評估方法有兩個主要優(yōu)勢:首先,它無需創(chuàng)建復(fù)雜的仿真資產(chǎn),因?yàn)镋VAC能夠更好地表現(xiàn)某些物理方面,例如流體動力學(xué);其次,視頻回放可以加速以節(jié)省時間,或者可以與視頻多模態(tài)大語言模型(Video-MLLMs)集成,減少人工評估的需求。
通過這種方式,EVAC可以在初始開發(fā)階段基本替代真實(shí)機(jī)器人硬件的使用,顯著減少了部署成本。研究實(shí)驗(yàn)表明,通過EVAC獲得的評估結(jié)果與真實(shí)世界場景中觀察到的結(jié)果高度相關(guān),證明了這種方法的可靠性。
六、實(shí)驗(yàn)驗(yàn)證:EVAC的性能表現(xiàn)
為了驗(yàn)證EVAC的有效性,研究團(tuán)隊進(jìn)行了一系列全面的實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)主要來源于AgiBot World數(shù)據(jù)集,該數(shù)據(jù)集包含超過210種任務(wù)和100萬條軌跡。為確保數(shù)據(jù)全面覆蓋各種情況,研究團(tuán)隊還精心收集了大量失敗案例,豐富了訓(xùn)練數(shù)據(jù)的多樣性。
在模型實(shí)現(xiàn)上,EVAC基于UNet視頻擴(kuò)散模型構(gòu)建。訓(xùn)練過程中,CLIP視覺編碼器和VAE編碼器被凍結(jié),而其他組件如UNet、重采樣器和線性層則進(jìn)行了微調(diào)。單視圖版本的訓(xùn)練需要約32臺A100 GPU運(yùn)行2天,而多視圖版本則需要約32臺A100 GPU運(yùn)行8天。研究團(tuán)隊通過實(shí)驗(yàn)確定,將內(nèi)存大小設(shè)置為4、分塊大小設(shè)置為16可以在生成質(zhì)量和資源成本之間取得平衡。
實(shí)驗(yàn)結(jié)果展示了EVAC在生成可控制的機(jī)器人操作視頻方面的卓越能力。即使在復(fù)雜場景下,EVAC也能合成真實(shí)的機(jī)器人-物體交互視頻,同時保持高視覺保真度和準(zhǔn)確地跟隨輸入動作軌跡。
EVAC的分塊式自回歸擴(kuò)散架構(gòu)和稀疏內(nèi)存機(jī)制使其能夠在連續(xù)分塊推理過程中保持視覺穩(wěn)定性和場景一致性。實(shí)驗(yàn)結(jié)果表明,在單視圖場景下,生成的視頻最多可保持30個連續(xù)分塊的清晰度和可靠性;在多視圖設(shè)置下,則可保持10個分塊的質(zhì)量。然而,在更長序列中會開始出現(xiàn)偽影和模糊,這表明在序列長度和視覺質(zhì)量之間存在權(quán)衡。
作為政策評估器,EVAC與真實(shí)世界環(huán)境表現(xiàn)出高度一致性。研究團(tuán)隊選擇了四個操作任務(wù)進(jìn)行評估,包括拿起水瓶、拿起吐司、拿起培根和拿起生菜葉。對于每項(xiàng)任務(wù),首先在真實(shí)世界中進(jìn)行評估,并將這些測試的初始幀記錄作為EVAC評估的圖像條件。三名獨(dú)立評估員通過觀察真實(shí)世界執(zhí)行或EVAC生成的序列來判斷成功或失敗。
盡管EVAC和真實(shí)世界評估在絕對成功率上存在微小差異,但跨任務(wù)的相對性能趨勢是一致的。這些發(fā)現(xiàn)證明了EVAC在跨任務(wù)策略性能分析和真實(shí)世界動態(tài)復(fù)制方面的可靠性。
為了評估EVAC作為數(shù)據(jù)引擎的能力,研究團(tuán)隊進(jìn)行了一項(xiàng)實(shí)驗(yàn),展示EVAC生成的新動作軌跡可以增強(qiáng)策略訓(xùn)練數(shù)據(jù),提高任務(wù)性能。實(shí)驗(yàn)任務(wù)是從紙箱中拿起水瓶并放在桌子上,這是一項(xiàng)挑戰(zhàn)性任務(wù),需要精確的力度和操作技巧來從緊packed箱子中提取水瓶。
比較了兩種訓(xùn)練設(shè)置:一種僅使用20個專家示范作為訓(xùn)練數(shù)據(jù),另一種使用相同的20個專家示范,并額外增加30%由EVAC世界模型生成的軌跡。結(jié)果顯示,當(dāng)包含增強(qiáng)軌跡時,成功率從0.28顯著提高到0.36,這凸顯了EVAC世界模型通過提供多樣化和有效的訓(xùn)練樣本來增強(qiáng)策略學(xué)習(xí)的能力,即使專家示范數(shù)量有限。
此外,研究團(tuán)隊還進(jìn)行了失敗數(shù)據(jù)影響的分析。他們訓(xùn)練了兩個模型:一個包含失敗軌跡,另一個不包含。在測試場景中,機(jī)器人假裝抓取一個不存在的水瓶。不包含失敗數(shù)據(jù)的模型往往過擬合成功示例,導(dǎo)致它"幻覺"出水瓶被成功抓取,盡管實(shí)際上沒有物理交互。相比之下,包含失敗數(shù)據(jù)的EVAC能夠準(zhǔn)確識別并區(qū)分失敗的抓取嘗試,展示了它對過擬合的魯棒性和處理邊緣情況的能力。
七、局限性與未來展望
盡管EVAC在機(jī)器人視頻生成方面取得了顯著成就,但研究團(tuán)隊也坦誠指出了當(dāng)前工作的幾個局限性,這些問題也指明了未來研究的方向。
首先,EVAC使用單位圓表示夾爪開合度的方法,雖然對簡單的夾爪有效,但可能無法有效推廣到更復(fù)雜的末端執(zhí)行器,例如靈巧手(dexterous hands)。這就像用簡單的笑臉表情符號可以表達(dá)基本情緒,但難以傳達(dá)復(fù)雜的情感細(xì)微差別。未來,隨著機(jī)器人硬件配置的多樣化,需要開發(fā)更靈活的表示方法以適應(yīng)不同類型的機(jī)器人手部。
其次,腕部攝像頭經(jīng)常捕捉到無關(guān)的背景噪聲,比如在機(jī)器人工作區(qū)域周圍走動的人。這增加了視頻生成的復(fù)雜性,限制了多視圖推理的效率。在實(shí)驗(yàn)中,這一限制將多視圖版本的分塊數(shù)量限制在10個,而單視圖版本則可以達(dá)到30個。這種情況就像在拍攝電影時,除了主角外還有許多背景人物不斷走動,使得場景控制變得更加困難。未來的研究可能需要引入更強(qiáng)大的背景抑制或前景強(qiáng)化技術(shù)。
此外,動作條件世界模型的多個潛在應(yīng)用尚未被充分探索,例如與actor-critic方法結(jié)合用于強(qiáng)化學(xué)習(xí)。想象一下,EVAC不僅能模擬機(jī)器人動作的視覺結(jié)果,還能預(yù)測這些動作的潛在獎勵,從而指導(dǎo)機(jī)器人學(xué)習(xí)更優(yōu)的行為策略。未來的研究可以擴(kuò)展EVAC的應(yīng)用范圍,探索這些方向,并從先前的相關(guān)工作中汲取靈感。
研究團(tuán)隊希望這項(xiàng)工作能為推進(jìn)具身世界模型的發(fā)展奠定基礎(chǔ),并啟發(fā)該領(lǐng)域的進(jìn)一步發(fā)展。就像早期的飛行模擬器為飛行員培訓(xùn)鋪平了道路,EVAC這樣的世界模型可能最終徹底改變機(jī)器人學(xué)習(xí)和評估的方式,使其更加高效、經(jīng)濟(jì)且可擴(kuò)展。
總結(jié)來說,EVAC為機(jī)器人學(xué)習(xí)領(lǐng)域提供了一個強(qiáng)大的工具,通過動作條件視頻生成,它使得機(jī)器人策略的測試和訓(xùn)練變得更加高效和經(jīng)濟(jì)。盡管還存在一些局限性,但這項(xiàng)研究無疑向著更加真實(shí)、多樣化的機(jī)器人仿真環(huán)境邁出了重要一步。隨著技術(shù)的不斷完善,我們可以期待在不久的將來,像EVAC這樣的技術(shù)將成為機(jī)器人學(xué)習(xí)過程中不可或缺的組成部分,加速機(jī)器人技術(shù)在各個領(lǐng)域的應(yīng)用和發(fā)展。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。