av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) EWMBENCH:全面評(píng)估機(jī)器人世界模型的場(chǎng)景、動(dòng)作和語(yǔ)義質(zhì)量

EWMBENCH:全面評(píng)估機(jī)器人世界模型的場(chǎng)景、動(dòng)作和語(yǔ)義質(zhì)量

2025-05-19 14:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-19 14:57 ? 科技行者

近日,一支由AgBot、上海交通大學(xué)、香港中文大學(xué)和哈爾濱工業(yè)大學(xué)聯(lián)合組成的研究團(tuán)隊(duì),發(fā)表了一篇關(guān)于評(píng)估具身世界模型的開(kāi)創(chuàng)性研究論文。這篇題為《EWMBENCH:評(píng)估具身世界模型的場(chǎng)景、動(dòng)作和語(yǔ)義質(zhì)量》的研究成果已于2025年5月14日在arXiv預(yù)印本平臺(tái)發(fā)布(arXiv:2505.09694v1),論文主要作者包括AgBot的Hu Yue(共同第一作者)、上海交通大學(xué)的Siyuan Huang(共同第一作者)、香港中文大學(xué)的Yue Liao以及其他多位聯(lián)合作者,并由AgBot的Liliang Chen擔(dān)任項(xiàng)目負(fù)責(zé)人。有興趣深入了解的讀者可以通過(guò)該團(tuán)隊(duì)的GitHub倉(cāng)庫(kù)(https://github.com/AgibotTech/EWMBench)獲取完整的數(shù)據(jù)集和評(píng)估工具。

近年來(lái),人工智能領(lǐng)域在創(chuàng)意生成方面取得了顯著進(jìn)步?;谡Z(yǔ)言指令的高質(zhì)量圖片和視頻生成技術(shù)已經(jīng)開(kāi)始成熟,而在此基礎(chǔ)上,文本到視頻的擴(kuò)散模型(text-to-video diffusion models)也逐漸演變成了所謂的"具身世界模型"(Embodied World Models,簡(jiǎn)稱EWMs)。這些模型能夠根據(jù)語(yǔ)言指令生成物理上合理的場(chǎng)景,有效地在具身AI應(yīng)用(如機(jī)器人操作)中連接視覺(jué)與動(dòng)作。

想象一下,當(dāng)你告訴你的機(jī)器人助手"請(qǐng)幫我拿一下桌上的杯子"時(shí),機(jī)器人需要先在"腦海"中規(guī)劃整個(gè)動(dòng)作過(guò)程:從識(shí)別杯子的位置,到計(jì)算如何移動(dòng)機(jī)械臂,再到實(shí)際執(zhí)行抓取動(dòng)作。這個(gè)"在腦海中規(guī)劃"的過(guò)程,在AI領(lǐng)域就是由具身世界模型來(lái)完成的。然而,目前我們?nèi)狈σ粋€(gè)專門的評(píng)估框架來(lái)判斷一個(gè)視頻生成模型是否真正適合作為具身世界模型使用。

與普通視頻生成不同,具身視頻生成面臨著特殊的挑戰(zhàn)。就像你看到的普通視頻可能包含城市風(fēng)光、旅游景點(diǎn)或動(dòng)物特寫等多樣內(nèi)容,而具身視頻則通常聚焦于特定環(huán)境中的結(jié)構(gòu)化場(chǎng)景(如廚房、工廠)、一致的運(yùn)動(dòng)模式(如機(jī)械臂動(dòng)作)以及明確的任務(wù)邏輯(如抓取物體、操作工具)。這種差異使得評(píng)估具身世界模型的標(biāo)準(zhǔn)與普通視頻生成有所不同。

研究團(tuán)隊(duì)提出的EWMBENCH評(píng)估框架主要關(guān)注三個(gè)核心方面:視覺(jué)場(chǎng)景一致性、運(yùn)動(dòng)正確性和語(yǔ)義對(duì)齊。想象你在看一個(gè)機(jī)器人手臂抓取物品的視頻:場(chǎng)景一致性意味著背景、物體擺放和機(jī)器人結(jié)構(gòu)在整個(gè)過(guò)程中保持不變;運(yùn)動(dòng)正確性則要求機(jī)器人的動(dòng)作軌跡連貫且符合物理規(guī)律;語(yǔ)義對(duì)齊則確保生成的動(dòng)作與給定的語(yǔ)言指令相符。

為了全面測(cè)試現(xiàn)有模型的性能,研究團(tuán)隊(duì)基于AgbotWorld(目前最大的真實(shí)世界機(jī)器人操作數(shù)據(jù)集)精心構(gòu)建了一個(gè)評(píng)估數(shù)據(jù)集。他們選擇了10個(gè)具有明確順序約束的任務(wù),每個(gè)任務(wù)包含多個(gè)樣本,涵蓋了從家庭到工業(yè)環(huán)境的多種場(chǎng)景。這些任務(wù)要求模型理解邏輯依賴關(guān)系和物體功能屬性,為具身視頻生成提出了顯著挑戰(zhàn)。

具體的評(píng)估過(guò)程是這樣的:首先提供場(chǎng)景的初始圖像(比如廚房環(huán)境中的機(jī)器人和周圍物品)和任務(wù)指令(如"將烤面包放在盤子上"),然后要求候選模型自動(dòng)生成展示機(jī)器人完成任務(wù)的視頻幀序列。生成的視頻隨后通過(guò)場(chǎng)景、動(dòng)作和語(yǔ)義三個(gè)維度的多項(xiàng)指標(biāo)進(jìn)行評(píng)估。

研究團(tuán)隊(duì)評(píng)估了七種視頻生成模型,包括開(kāi)源模型(如OpenSora 2.0、LTX和COSMOS-7B)、商業(yè)模型(如Kling-1.6和Hailuo I2V-01-live)以及專門針對(duì)具身場(chǎng)景理解和動(dòng)作預(yù)測(cè)進(jìn)行微調(diào)的模型(如LTX_FT和EnerVerse)。評(píng)估結(jié)果顯示,經(jīng)過(guò)領(lǐng)域適應(yīng)的模型(EnerVerse和LTX_FT)在捕捉動(dòng)作動(dòng)態(tài)和任務(wù)語(yǔ)義方面表現(xiàn)最佳,而商業(yè)模型(如Kling)和開(kāi)源模型則各有優(yōu)缺點(diǎn)。

讓我們更深入地了解EWMBENCH的設(shè)計(jì)和評(píng)估結(jié)果。

一、EWMBENCH評(píng)估框架設(shè)計(jì)

想象你在測(cè)試一個(gè)廚師的烹飪技能。你會(huì)從多個(gè)方面進(jìn)行評(píng)價(jià):廚師是否能保持工作臺(tái)整潔有序(場(chǎng)景一致性)?他的刀工和烹飪動(dòng)作是否熟練流暢(動(dòng)作正確性)?最終的菜肴是否符合食譜要求(語(yǔ)義對(duì)齊)?EWMBENCH評(píng)估框架就像這樣,從多個(gè)維度全面評(píng)估具身世界模型的能力。

該框架始于統(tǒng)一的世界初始化,研究人員提供初始場(chǎng)景圖像、任務(wù)指令以及可選的動(dòng)作軌跡。生成模型需要根據(jù)這些輸入生成預(yù)測(cè)視頻幀,而后通過(guò)多維度指標(biāo)進(jìn)行評(píng)估。整個(gè)過(guò)程可以分為三個(gè)核心組件:

首先是統(tǒng)一的世界初始化。就像給不同廚師提供相同的烹飪環(huán)境和食材,研究團(tuán)隊(duì)為所有測(cè)試模型提供相同的初始條件。每個(gè)初始場(chǎng)景包含最多四張初始圖像,以及明確的任務(wù)指令。對(duì)于支持動(dòng)作條件的模型,還可以提供格式化為6D姿態(tài)序列的動(dòng)作軌跡。所有模型都需要基于這些統(tǒng)一輸入生成預(yù)測(cè)視頻。

其次是精心構(gòu)建的評(píng)估數(shù)據(jù)集。研究團(tuán)隊(duì)從開(kāi)源的Agibot-World數(shù)據(jù)集中精選了10個(gè)具有明確操作目標(biāo)和順序依賴性的任務(wù),涵蓋了家庭和工業(yè)環(huán)境。這些任務(wù)包括從烤面包機(jī)取出面包、倒水、放置餐具、補(bǔ)充冰箱、制冰、包裝洗衣劑、清洗瓶子、微波加熱食物、安裝淋浴頭以及在抽屜中存放物品。

這些任務(wù)涉及不同類型的物體操作(如剛性物體、可變形物體、鉸接物體等)、多樣的空間布局和不同復(fù)雜度的交互。研究團(tuán)隊(duì)將每個(gè)高級(jí)任務(wù)分解為4到10個(gè)原子級(jí)子動(dòng)作,每個(gè)子動(dòng)作都配有步驟級(jí)別的描述,確保視頻片段、子動(dòng)作標(biāo)簽和語(yǔ)言描述之間的一對(duì)一對(duì)應(yīng)。

最后是系統(tǒng)化的評(píng)估指標(biāo),分為三個(gè)維度:

在場(chǎng)景評(píng)估方面,研究團(tuán)隊(duì)引入了場(chǎng)景一致性度量,用于檢查視覺(jué)布局、物體持久性和視角一致性。他們使用在具身數(shù)據(jù)集上微調(diào)的DINOv2模型提取幀級(jí)表示,然后計(jì)算連續(xù)幀和初始幀之間的余弦相似度,以量化幀與幀之間的一致性。高分表示視頻中的場(chǎng)景結(jié)構(gòu)和視角保持穩(wěn)定。

在動(dòng)作評(píng)估方面,通過(guò)軌跡比較評(píng)估生成的動(dòng)作質(zhì)量。研究人員使用對(duì)稱Hausdorff距離(HSD)測(cè)量空間對(duì)齊程度,計(jì)算生成軌跡和真實(shí)軌跡之間的最大偏差。標(biāo)準(zhǔn)化動(dòng)態(tài)時(shí)間扭曲(NDTW)用于捕捉空間-時(shí)間對(duì)齊,確保動(dòng)作序列和時(shí)機(jī)的正確性。動(dòng)態(tài)一致性(DYN)則評(píng)估運(yùn)動(dòng)動(dòng)態(tài),如速度和加速度,使用Wasserstein距離和動(dòng)作歸一化來(lái)比較。

在語(yǔ)義評(píng)估方面,研究重點(diǎn)放在指令與生成視頻的對(duì)齊以及任務(wù)空間內(nèi)的多樣性上。對(duì)于語(yǔ)義對(duì)齊,研究團(tuán)隊(duì)使用生成視頻的語(yǔ)言描述作為中間表示,將其與真實(shí)注釋進(jìn)行比較,計(jì)算對(duì)齊分?jǐn)?shù)。對(duì)于語(yǔ)義多樣性,他們使用CLIP模型提取全局視頻特征,并將多樣性分?jǐn)?shù)定義為1減去相似度。

二、多模態(tài)大語(yǔ)言模型評(píng)估套件設(shè)計(jì)

想象你請(qǐng)一位專家觀看視頻并提供專業(yè)評(píng)價(jià),EWMBENCH中的多模態(tài)大語(yǔ)言模型(MLLM)評(píng)估套件就扮演了這樣的角色。這套評(píng)估工具設(shè)計(jì)得既緊湊又具代表性,從多個(gè)語(yǔ)言分析層次評(píng)估生成的視頻質(zhì)量。

在全局視頻描述層面,視頻MLLM會(huì)生成一個(gè)簡(jiǎn)潔的描述,總結(jié)整個(gè)視頻內(nèi)容。就像電影簡(jiǎn)介一樣,這個(gè)描述捕捉了視頻的核心主題和內(nèi)容。研究團(tuán)隊(duì)將這個(gè)描述與原始任務(wù)指令進(jìn)行比較,使用BLEU分?jǐn)?shù)評(píng)估總體對(duì)齊程度,檢驗(yàn)?zāi)P褪欠窭斫獠?zhí)行了正確的任務(wù)。

機(jī)器人任務(wù)通常涉及多個(gè)關(guān)鍵步驟,而這些細(xì)節(jié)可能在全局描述中被忽略。因此,評(píng)估套件還會(huì)生成任務(wù)關(guān)鍵步驟的詳細(xì)描述。想象一下烹飪食譜中的步驟說(shuō)明,這個(gè)描述列出了完成任務(wù)所需的每個(gè)具體動(dòng)作。研究人員使用CLIP分?jǐn)?shù)將這些描述與通過(guò)MLLM生成的真實(shí)步驟描述進(jìn)行比較,確保模型正確理解任務(wù)的組成部分和執(zhí)行順序。

邏輯錯(cuò)誤懲罰是評(píng)估的第三個(gè)方面。在機(jī)器人應(yīng)用中,幻覺(jué)或空間不一致等邏輯錯(cuò)誤可能導(dǎo)致不安全的結(jié)果。就像裁判員懲罰比賽中的犯規(guī)一樣,MLLM會(huì)評(píng)估生成視頻中的常識(shí)違背情況,明確懲罰如物體幻覺(jué)操作或不合邏輯的空間關(guān)系等錯(cuò)誤。這確保了模型優(yōu)先考慮現(xiàn)實(shí)和連貫的任務(wù)執(zhí)行。

實(shí)驗(yàn)中,研究團(tuán)隊(duì)測(cè)試了10個(gè)任務(wù),每個(gè)任務(wù)包含10個(gè)真實(shí)樣本。每個(gè)模型為每個(gè)樣本生成3個(gè)視頻,使用"最佳三選一"策略選擇最佳預(yù)測(cè),共產(chǎn)生2,100個(gè)評(píng)估視頻。

三、EWMBENCH評(píng)估結(jié)果分析

研究團(tuán)隊(duì)評(píng)估的七種視頻生成模型可分為三類:開(kāi)源模型(OpenSora 2.0、LTX和COSMOS-7B)、商業(yè)模型(Kling-1.6和Hailuo I2V-01-live)以及領(lǐng)域適應(yīng)模型(LTX_FT和EnerVerse)。

評(píng)估結(jié)果顯示,領(lǐng)域適應(yīng)模型(EnerVerse和LTX_FT)在總體性能上顯著領(lǐng)先,特別是在捕捉動(dòng)作動(dòng)態(tài)和任務(wù)語(yǔ)義方面。這表明針對(duì)具身場(chǎng)景的專門微調(diào)能顯著提升模型在理解任務(wù)邏輯和對(duì)齊動(dòng)作方面的能力。

具體來(lái)看,在滿分為5分的綜合評(píng)分中,EnerVerse_FT得分最高,達(dá)到4.70分,其次是LTX_FT(4.55分)和Kling(3.87分)。其他模型的得分依次為COSMOS(3.41分)、Hailuo(3.29分)、LTX(3.14分)和OpenSora(2.97分)。

為了驗(yàn)證自動(dòng)評(píng)估與人類判斷的一致性,研究團(tuán)隊(duì)還進(jìn)行了人工評(píng)估。他們選擇了四個(gè)代表性模型(LTX_FT、Kling-1.6、Hailuo I2V-01-live和OpenSora-2.0)生成的視頻進(jìn)行評(píng)估。評(píng)估者根據(jù)整體質(zhì)量對(duì)預(yù)測(cè)進(jìn)行排名,給最佳的分配3分,第二好的2分,最差的0分。結(jié)果表明,EWMBENCH的排名比VBench(一個(gè)流行的視頻生成評(píng)估基準(zhǔn))更接近人類判斷,顯示出更強(qiáng)的與人類感知的一致性。

研究團(tuán)隊(duì)還分析了軌跡一致性指標(biāo)的互補(bǔ)性。通過(guò)涉及序列反轉(zhuǎn)、異常值插入和幀重復(fù)的對(duì)照實(shí)驗(yàn),他們發(fā)現(xiàn)每個(gè)指標(biāo)都有其獨(dú)特的優(yōu)勢(shì)。在序列反轉(zhuǎn)測(cè)試中,只有NDTW指標(biāo)顯示出顯著下降,這歸因于其對(duì)時(shí)間順序的敏感性。在異常值測(cè)試中,HSD和DYN指標(biāo)經(jīng)歷了實(shí)質(zhì)性下降,反映了它們對(duì)空間準(zhǔn)確性和運(yùn)動(dòng)完整性的關(guān)注。在幀重復(fù)測(cè)試中,NDTW指標(biāo)因重復(fù)對(duì)齊而增加,而DYN指標(biāo)則下降,凸顯了其對(duì)運(yùn)動(dòng)平滑度的敏感性。這些發(fā)現(xiàn)證實(shí)了三個(gè)指標(biāo)在提供全面的軌跡質(zhì)量評(píng)估方面的互補(bǔ)作用。

除了定量結(jié)果,研究團(tuán)隊(duì)還提供了對(duì)各模型特點(diǎn)的洞察。領(lǐng)域適應(yīng)模型雖然總體表現(xiàn)最佳,但有時(shí)會(huì)表現(xiàn)出空抓取行為,揭示了細(xì)粒度動(dòng)作接地的局限性。Kling在一般商業(yè)和開(kāi)源視頻模型中表現(xiàn)最佳,展示了強(qiáng)大而穩(wěn)健的能力。Hailuo在零樣本具身場(chǎng)景中表現(xiàn)相當(dāng)不錯(cuò),但其生成的場(chǎng)景通常呈現(xiàn)卡通風(fēng)格,限制了視覺(jué)真實(shí)感。COSMOS和LTX表現(xiàn)出對(duì)人手表示的偏好,經(jīng)常無(wú)法將語(yǔ)義理解適應(yīng)機(jī)器人環(huán)境。LTX尤其容易出現(xiàn)場(chǎng)景轉(zhuǎn)換突兀、任務(wù)執(zhí)行不一致以及在動(dòng)作序列中生成靜態(tài)狀態(tài)的傾向。相比之下,COSMOS則難以維持一致的視角,顯示出對(duì)相機(jī)參數(shù)控制不足。OpenSora對(duì)任務(wù)場(chǎng)景、動(dòng)作運(yùn)動(dòng)和語(yǔ)義對(duì)齊展示了部分理解,但機(jī)器人手臂的抖動(dòng)動(dòng)作和靜態(tài)視頻生成是其主要限制。

與VBench指標(biāo)的比較顯示,VBench在分離前景和背景特征方面存在困難,限制了其主體級(jí)指標(biāo)的有效性。相比之下,EWMBENCH的場(chǎng)景一致性指標(biāo)利用在具身數(shù)據(jù)上微調(diào)的DINOv2模型,更擅長(zhǎng)捕捉布局結(jié)構(gòu)并對(duì)視角變化更敏感。這種增強(qiáng)的敏感性能夠檢測(cè)視覺(jué)不穩(wěn)定性,這在具身視頻生成中是一個(gè)關(guān)鍵因素。

四、研究局限與未來(lái)展望

盡管EWMBENCH在評(píng)估具身世界模型方面取得了重要進(jìn)展,但該研究也存在一些局限性。

首先,目前的方法主要關(guān)注機(jī)器人手臂末端執(zhí)行器的軌跡,但未來(lái)的工作將納入整個(gè)手臂的狀態(tài)和配置。這就像我們不僅要評(píng)價(jià)舞者的手部動(dòng)作,還要考慮整個(gè)身體的協(xié)調(diào)性。

其次,當(dāng)前的評(píng)估在固定視角場(chǎng)景中進(jìn)行,未來(lái)的研究將探索靈活視角,如動(dòng)態(tài)相機(jī)設(shè)置。這類似于不僅從一個(gè)固定角度觀察表演,還要從多角度全方位評(píng)估動(dòng)作質(zhì)量。

最后,研究團(tuán)隊(duì)計(jì)劃擴(kuò)展具身任務(wù)的范圍,從當(dāng)前的操作任務(wù)拓展到更多樣化的領(lǐng)域,包括導(dǎo)航和移動(dòng)操作。這意味著評(píng)估框架將不僅適用于靜態(tài)環(huán)境中的機(jī)械臂操作,還將評(píng)估機(jī)器人在空間中移動(dòng)和執(zhí)行復(fù)雜任務(wù)的能力。

總體而言,EWMBENCH提供了一個(gè)全面的基準(zhǔn)套件,用于評(píng)估具身世界生成模型。憑借其多維度、與人類一致的指標(biāo)設(shè)計(jì)和多場(chǎng)景、動(dòng)作多樣化的數(shù)據(jù)集,EWMBENCH成為測(cè)量具身世界模型發(fā)展進(jìn)程的有力工具。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-