av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 華為諾亞方舟實(shí)驗(yàn)室開發(fā)出首個能像人類一樣"看懂"3D世界的機(jī)器人助手OmniEVA

華為諾亞方舟實(shí)驗(yàn)室開發(fā)出首個能像人類一樣"看懂"3D世界的機(jī)器人助手OmniEVA

2025-09-12 16:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-12 16:46 ? 科技行者

這項由華為諾亞方舟實(shí)驗(yàn)室的劉悅程、池大峰、吳世光等多位研究者共同完成的突破性研究發(fā)表于2025年9月,研究成果名為"OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-Aware Reasoning"。有興趣深入了解的讀者可以通過arXiv:2509.09332v1訪問完整論文。

當(dāng)你站在廚房里,看到桌子上擺著各種物品時,你的大腦會瞬間處理無數(shù)信息:哪里有空間放新買的牛奶,怎樣繞過椅子走到冰箱,如何避開桌上的花瓶去拿鹽罐。這些看似簡單的日常判斷,對機(jī)器人來說卻是極其復(fù)雜的挑戰(zhàn)。華為諾亞方舟實(shí)驗(yàn)室的研究團(tuán)隊現(xiàn)在開發(fā)出了一個名為OmniEVA的智能系統(tǒng),它能像人類一樣理解3D空間,并且知道自己的"身體"能做什么、不能做什么。

OmniEVA的出現(xiàn)標(biāo)志著機(jī)器人智能的一個重要轉(zhuǎn)折點(diǎn)。以往的機(jī)器人要么只能看懂平面圖像,要么雖然能處理3D信息但不知道如何根據(jù)具體任務(wù)靈活運(yùn)用。研究團(tuán)隊發(fā)現(xiàn)了兩個關(guān)鍵問題:第一個問題是"幾何適應(yīng)性差距",就像一個人要么只能看2D電影理解不了立體世界,要么只會看3D電影但看普通照片就懵了。第二個問題是"身體約束差距",機(jī)器人經(jīng)常制定出理論上完美但實(shí)際無法執(zhí)行的計劃,就像讓一個身高1米5的人去夠2米高的架子。

為了解決這些問題,研究團(tuán)隊為OmniEVA設(shè)計了兩項核心創(chuàng)新。首先是"任務(wù)自適應(yīng)3D建模機(jī)制",這就像給機(jī)器人安裝了一個智能的"視覺切換器"。當(dāng)機(jī)器人需要判斷桌子上哪個蘋果更紅時,它會專注于顏色信息,暫時忽略復(fù)雜的3D幾何關(guān)系。但當(dāng)它需要把一個盒子穩(wěn)穩(wěn)地疊在另一個盒子上時,這個切換器會立即激活3D空間理解能力,精確計算角度、距離和重心位置。

第二個創(chuàng)新是"身體感知推理框架"。這個系統(tǒng)讓機(jī)器人在制定計劃時始終記住自己的物理限制。就像人類在伸手拿東西時會自動考慮自己的手臂長度和靈活度,OmniEVA在規(guī)劃動作時會綜合考慮自己的機(jī)械臂能伸多遠(yuǎn)、關(guān)節(jié)能彎曲多少度、底盤能移動到哪些位置。這樣制定出的計劃不僅在理論上可行,在實(shí)際執(zhí)行時也能成功完成。

一、機(jī)器人的"視覺大腦"如何工作

要理解OmniEVA的工作原理,可以把它想象成一個擁有超級視覺能力的管家。傳統(tǒng)的機(jī)器人視覺系統(tǒng)就像戴著固定鏡片的眼鏡,要么只能看清遠(yuǎn)處的2D畫面,要么只適合觀察近距離的3D物體,很難在不同情況下靈活切換。

OmniEVA的視覺系統(tǒng)則像一副智能變焦鏡頭。當(dāng)主人說"幫我看看桌上有幾個紅蘋果"時,這個系統(tǒng)會自動調(diào)整為"2D色彩識別模式",專注于識別顏色和數(shù)量,不會被復(fù)雜的空間幾何信息干擾。但當(dāng)主人說"把這個杯子小心地放在那摞書上"時,系統(tǒng)立即切換到"3D空間分析模式",精確計算書堆的高度、穩(wěn)定性和杯子的最佳放置位置。

這種智能切換是通過一個叫做"任務(wù)自適應(yīng)門控路由器"的技術(shù)實(shí)現(xiàn)的。研究團(tuán)隊把它比作一個經(jīng)驗(yàn)豐富的交通指揮員,根據(jù)實(shí)時路況決定哪些信息走"快車道",哪些信息可以暫時"繞行"。當(dāng)系統(tǒng)分析用戶指令時,這個指揮員會判斷當(dāng)前任務(wù)更需要2D信息還是3D信息,然后相應(yīng)地分配計算資源。

更有趣的是,這個系統(tǒng)還會"察言觀色"。它不僅分析用戶說的話,還會觀察當(dāng)前環(huán)境的復(fù)雜程度。在一個簡單整潔的房間里執(zhí)行"拿杯子"的指令時,系統(tǒng)可能判斷2D視覺就足夠了。但在一個堆滿雜物、光線復(fù)雜的儲藏室里執(zhí)行同樣指令時,系統(tǒng)會自動啟用全套3D分析能力,確保能準(zhǔn)確定位目標(biāo)物品并規(guī)劃安全的移動路徑。

研究團(tuán)隊通過大量實(shí)驗(yàn)驗(yàn)證了這種自適應(yīng)機(jī)制的效果。他們發(fā)現(xiàn),與那些固定使用某種視覺模式的機(jī)器人相比,OmniEVA在處理不同類型任務(wù)時的準(zhǔn)確率平均提高了1.22%。雖然這個數(shù)字聽起來不大,但在機(jī)器人領(lǐng)域,哪怕1%的提升都可能意味著成功與失敗的區(qū)別。

二、讓機(jī)器人知道自己的"身體"極限

傳統(tǒng)機(jī)器人的一個普遍問題就像是一個從未照過鏡子的人,不知道自己長什么樣、能做什么。它們經(jīng)常制定出聽起來很棒的計劃:"去廚房拿個杯子",但實(shí)際執(zhí)行時才發(fā)現(xiàn)自己的機(jī)械臂夠不著高架上的杯子,或者底盤太寬無法通過狹窄的門縫。

OmniEVA的身體感知系統(tǒng)就像給機(jī)器人安裝了"自我認(rèn)知鏡子"。每當(dāng)它準(zhǔn)備執(zhí)行任務(wù)時,都會先"照照鏡子"檢查自己的狀態(tài):機(jī)械臂今天能伸展多遠(yuǎn)?關(guān)節(jié)是否靈活?底盤的寬度是否適合通過前方的狹窄過道?電池電量是否足以完成整個任務(wù)?

研究團(tuán)隊開發(fā)的訓(xùn)練方法叫做"任務(wù)與身體感知強(qiáng)化學(xué)習(xí)"。這個過程就像訓(xùn)練一個新手司機(jī),不僅要教會他交通規(guī)則,還要讓他清楚地知道自己開的車有多寬、轉(zhuǎn)彎半徑有多大、剎車距離有多長。在訓(xùn)練過程中,系統(tǒng)會獲得兩種類型的反饋:一種是"任務(wù)完成度反饋",告訴它是否準(zhǔn)確完成了用戶的要求;另一種是"身體可行性反饋",告訴它制定的動作計劃是否符合物理定律和機(jī)械限制。

更巧妙的是,這個訓(xùn)練過程采用了"漸進(jìn)式身體約束學(xué)習(xí)"。就像學(xué)游泳時先在淺水區(qū)練習(xí)基本動作,再逐漸游向深水區(qū)一樣,OmniEVA的訓(xùn)練也是循序漸進(jìn)的。開始時,系統(tǒng)主要關(guān)注是否能完成基本任務(wù),對身體約束的要求相對寬松。隨著訓(xùn)練的深入,系統(tǒng)逐漸對動作的可行性要求越來越嚴(yán)格,最終學(xué)會制定既能完成任務(wù)又完全可執(zhí)行的完美計劃。

這種訓(xùn)練方式的效果非常顯著。在實(shí)際測試中,使用身體感知訓(xùn)練的OmniEVA在復(fù)雜操作任務(wù)上的成功率比普通機(jī)器人提高了28.95%到34.28%。特別是在需要精確放置物品的任務(wù)中,成功率提升更是高達(dá)43%到50%。這意味著以前十次嘗試只能成功五六次的復(fù)雜任務(wù),現(xiàn)在幾乎每次都能成功完成。

三、從基礎(chǔ)技能到復(fù)雜任務(wù)的完美組合

就像人類學(xué)會走路、跑步、跳躍等基本動作后,就能組合出踢足球、跳舞等復(fù)雜技能一樣,OmniEVA也需要先掌握一些基礎(chǔ)的機(jī)器人技能,然后將它們巧妙組合來完成復(fù)雜任務(wù)。

研究團(tuán)隊為OmniEVA設(shè)計了四項基礎(chǔ)技能,每一項都對應(yīng)著日常生活中的常見需求。第一項技能叫"Where2Go",就像問"我應(yīng)該往哪里看才能找到遙控器?"當(dāng)房間里物品很多、視線受阻時,這個技能能幫助機(jī)器人選擇最佳的觀察角度和位置,快速鎖定目標(biāo)物品。

第二項技能"Where2Fit"類似于"這張桌子上哪里還能放下我的咖啡杯?"這個技能讓機(jī)器人能夠識別桌面或其他平面上的空閑區(qū)域,考慮現(xiàn)有物品的位置和尺寸,找到合適的放置空間。第三項技能"Where2Approach"更加復(fù)雜,相當(dāng)于"我怎么才能靠近那張被椅子圍著的桌子?"機(jī)器人需要分析環(huán)境中的障礙物,規(guī)劃出一條既能接近目標(biāo)又不會被卡住的路徑。

第四項技能"Where2Grasp"聽起來簡單,實(shí)際上非常精細(xì),就像"桌上有三個紅色的球,我要拿中間那個最大的"。機(jī)器人需要根據(jù)顏色、大小、位置等多個特征準(zhǔn)確識別目標(biāo)物品,并確定最佳的抓取點(diǎn)。

這四項基礎(chǔ)技能就像樂高積木的基礎(chǔ)塊,可以靈活組合成各種復(fù)雜功能。當(dāng)用戶要求"請幫我把廚房桌上的那個藍(lán)色馬克杯拿到客廳的茶幾上"時,OmniEVA會自動將這個復(fù)雜指令分解:首先用Where2Go技能在廚房找到藍(lán)色馬克杯的最佳觀察角度,然后用Where2Grasp技能精確抓取杯子,接著用Where2Approach技能規(guī)劃到客廳茶幾的路徑,最后用Where2Fit技能在茶幾上找到合適的放置位置。

研究團(tuán)隊在8個不同的評測標(biāo)準(zhǔn)上測試了OmniEVA的能力,涵蓋了從簡單的物品識別到復(fù)雜的3D空間推理等各個方面。結(jié)果顯示,OmniEVA在其中7個測試中都取得了目前最好的成績。特別是在需要3D空間理解的復(fù)雜任務(wù)中,OmniEVA的表現(xiàn)比現(xiàn)有的最好系統(tǒng)提升了2.3分到8.5分不等。

四、真實(shí)世界中的實(shí)際表現(xiàn)

理論上的成功和實(shí)際應(yīng)用往往存在巨大差距,就像在駕校練車和實(shí)際上路完全是兩回事。為了驗(yàn)證OmniEVA在真實(shí)環(huán)境中的表現(xiàn),研究團(tuán)隊設(shè)計了一系列貼近日常生活的測試場景。

他們在一個面積達(dá)3000平方米的辦公環(huán)境中設(shè)置了測試場地,這個空間包含8個不同的操作場景和95種常見的辦公用品。測試內(nèi)容被分為三個難度等級,就像游戲中的初級、中級和高級關(guān)卡。

初級關(guān)卡叫"大空間物品搜索",相當(dāng)于在一個大辦公室里找某個特定物品。這個任務(wù)看似簡單,實(shí)際上考驗(yàn)著機(jī)器人的空間規(guī)劃能力。它需要像一個新員工熟悉辦公室布局一樣,快速建立環(huán)境地圖,然后制定高效的搜索策略。測試結(jié)果顯示,OmniEVA在這類任務(wù)中的成功率達(dá)到74.2%,比之前最好的系統(tǒng)提高了5.4%。

中級關(guān)卡"局部移動操作"更加復(fù)雜,包含30多個不同的測試場景。機(jī)器人需要在各種桌面配置、不同的初始位置以及各種類型、尺寸、位置的物品中完成精確操作。這就像要求一個人在不同的廚房里都能熟練地準(zhǔn)備晚餐,每個廚房的布局、用具擺放都不相同。測試分為"拾取物品"和"放置物品"兩大類,其中放置任務(wù)又根據(jù)環(huán)境復(fù)雜程度分為簡單和困難兩個等級。

簡單的放置任務(wù)只需要考慮桌面的基本情況,比如避開現(xiàn)有物品找到空隙。困難的放置任務(wù)則要求機(jī)器人同時考慮桌面物品和周圍椅子的位置,規(guī)劃出既能完成任務(wù)又不會碰撞的復(fù)雜路徑。在這些測試中,經(jīng)過身體感知訓(xùn)練的OmniEVA表現(xiàn)出色,在困難放置任務(wù)中的成功率比普通方法提高了50%。

最高級的關(guān)卡"端到端配送任務(wù)"要求機(jī)器人整合所有技能,完成跨越整個辦公環(huán)境的復(fù)雜任務(wù)。比如"從前臺拿一份文件送到三樓會議室"這樣的指令,機(jī)器人需要自主導(dǎo)航、識別目標(biāo)、避開障礙、與環(huán)境交互等。這相當(dāng)于讓機(jī)器人像人類助理一樣工作,不僅要有技術(shù)能力,還要有統(tǒng)籌規(guī)劃的智慧。

特別值得一提的是,研究團(tuán)隊還在真實(shí)的機(jī)器人硬件上測試了OmniEVA。他們使用了一個配備雙機(jī)械臂的移動機(jī)器人平臺,讓它在真實(shí)的辦公環(huán)境中執(zhí)行各種任務(wù)。從視頻記錄可以看到,機(jī)器人能夠準(zhǔn)確理解用戶的指令,自主規(guī)劃動作序列,并成功完成諸如"把紙杯放到桌子后方的空位上"和"把杯子放到會議室旁邊的長桌上"等復(fù)雜任務(wù)。

五、技術(shù)創(chuàng)新的核心機(jī)制

OmniEVA的技術(shù)架構(gòu)就像一個精密的交響樂團(tuán),每個組件都有自己的角色,但又需要完美協(xié)調(diào)才能演奏出優(yōu)美的樂章。整個系統(tǒng)的基礎(chǔ)是一個強(qiáng)大的多模態(tài)語言模型,它能同時理解文字指令、圖像信息和3D空間數(shù)據(jù)。

系統(tǒng)的"眼睛"是一個視覺轉(zhuǎn)換器編碼器,它能將每一張RGB圖像轉(zhuǎn)換成計算機(jī)可以理解的數(shù)字序列。同時,系統(tǒng)還有一個輕量級的網(wǎng)絡(luò)負(fù)責(zé)將視覺信息和語言信息連接起來,就像一個翻譯官,確保視覺"語言"和文字語言能夠無縫交流。

系統(tǒng)的"大腦"是一個自回歸文本解碼器,負(fù)責(zé)生成最終的動作指令。但讓OmniEVA與眾不同的關(guān)鍵在于它獨(dú)特的3D信息處理方式。傳統(tǒng)系統(tǒng)要么完全忽略3D信息,要么盲目地將所有3D數(shù)據(jù)都塞給處理器。OmniEVA的創(chuàng)新在于它會"思考"當(dāng)前任務(wù)是否真的需要3D信息。

這個思考過程通過任務(wù)自適應(yīng)門控路由器實(shí)現(xiàn)。當(dāng)系統(tǒng)收到指令時,一個句子編碼器會分析指令的語義特征,同時系統(tǒng)會評估當(dāng)前環(huán)境的復(fù)雜程度。然后,一個多層感知器網(wǎng)絡(luò)會綜合這些信息,決定是否激活3D空間處理模塊。

如果決定激活3D模式,系統(tǒng)會將深度圖像轉(zhuǎn)換為世界坐標(biāo)系中的3D坐標(biāo)矩陣。每個像素都被賦予一個三維坐標(biāo)(x, y, z),然后這些坐標(biāo)會被分割成與RGB圖像相對應(yīng)的小塊。每個小塊內(nèi)的3D坐標(biāo)會被平均化,最后通過正弦編碼轉(zhuǎn)換成系統(tǒng)可以處理的特征向量。

研究團(tuán)隊使用了一種叫做Gumbel-Softmax的技術(shù)來確保這個門控機(jī)制可以進(jìn)行端到端的訓(xùn)練。這個技術(shù)就像一個可以學(xué)習(xí)的開關(guān),既能做出明確的0或1的決定(關(guān)閉或開啟3D模式),又能在訓(xùn)練過程中傳遞梯度信息,讓整個系統(tǒng)不斷優(yōu)化。

為了防止系統(tǒng)的決策過于隨意,研究團(tuán)隊還加入了一個正則化項,鼓勵系統(tǒng)的門控決策符合一定的先驗(yàn)分布。這就像給系統(tǒng)設(shè)定了一個"常識基線",避免它在沒有明確證據(jù)的情況下隨意開啟或關(guān)閉3D模式。

六、訓(xùn)練數(shù)據(jù)的精心配置

要訓(xùn)練出如此智能的機(jī)器人助手,需要海量且多樣化的訓(xùn)練數(shù)據(jù)。研究團(tuán)隊為OmniEVA準(zhǔn)備了一個包含520萬個樣本的龐大數(shù)據(jù)集,這些數(shù)據(jù)涵蓋了從基礎(chǔ)視覺理解到復(fù)雜空間推理的各個方面。

數(shù)據(jù)集的構(gòu)成就像一個精心設(shè)計的課程體系。基礎(chǔ)課程包括通用的視覺問答數(shù)據(jù),讓系統(tǒng)學(xué)會基本的圖像理解和語言交互能力。這部分?jǐn)?shù)據(jù)包括67萬個樣本,涵蓋了物體識別、文字閱讀、區(qū)域定位等基礎(chǔ)技能。就像教小孩子認(rèn)字識物一樣,這些數(shù)據(jù)幫助系統(tǒng)建立了對視覺世界的基本認(rèn)知。

進(jìn)階課程則包括各種專門的空間推理任務(wù)。比如"物體參照"任務(wù)有51萬個樣本,教會系統(tǒng)如何根據(jù)語言描述準(zhǔn)確定位物體。"物體部分識別"任務(wù)有40萬個樣本,讓系統(tǒng)學(xué)會識別物體的不同部分及其功能。"空閑空間定位"任務(wù)有53萬個樣本,專門訓(xùn)練系統(tǒng)識別可用的放置空間。

最有趣的是"主動探索"數(shù)據(jù),雖然只有1.8萬個樣本,但每個都是精心設(shè)計的場景。這些數(shù)據(jù)教會系統(tǒng)在部分可見的環(huán)境中如何選擇最佳的觀察位置來尋找目標(biāo)物品。就像訓(xùn)練偵探學(xué)會從有限的線索中推斷出最有價值的調(diào)查方向。

3D空間理解的訓(xùn)練數(shù)據(jù)更是豐富多彩,總計270萬個樣本。其中包括140萬個3D視覺問答樣本,讓系統(tǒng)學(xué)會在三維空間中回答各種問題。110萬個3D視覺定位樣本教會系統(tǒng)根據(jù)語言描述在3D空間中準(zhǔn)確定位物體。還有11.3萬個3D子目標(biāo)預(yù)測樣本,專門訓(xùn)練系統(tǒng)的長期規(guī)劃能力。

特別值得一提的是"3D場景想象"數(shù)據(jù),雖然只有4.5萬個樣本,但每個都充滿挑戰(zhàn)性。這些數(shù)據(jù)要求系統(tǒng)在部分可見的環(huán)境中想象出看不見區(qū)域可能存在的物體。這就像要求一個人只看到房間的一角,就能合理猜測整個房間的布局和物品分布。

數(shù)據(jù)的制作過程也極其精細(xì)。對于視頻數(shù)據(jù),研究團(tuán)隊從高質(zhì)量的室內(nèi)場景數(shù)據(jù)源中提取連續(xù)的視角序列,然后生成對應(yīng)的問答對。對于路徑規(guī)劃數(shù)據(jù),他們首先將點(diǎn)云轉(zhuǎn)換為導(dǎo)航網(wǎng)格地圖,選擇起點(diǎn)和終點(diǎn),使用A*算法計算最短路徑,最后根據(jù)路徑的角度變化生成詳細(xì)的導(dǎo)航指令。

七、全方位的性能評估

為了全面驗(yàn)證OmniEVA的能力,研究團(tuán)隊設(shè)計了一套包含8個公開基準(zhǔn)測試的評估體系,就像給學(xué)生準(zhǔn)備了涵蓋各個科目的期末考試。這些測試分別針對圖像理解、視頻分析和3D空間推理等不同方面的能力。

在2D視覺理解測試中,OmniEVA需要處理靜態(tài)圖像中的各種問題,從基本的物體識別到復(fù)雜的空間關(guān)系推理。測試內(nèi)容包括Where2Place(物品放置位置預(yù)測)、VSI-bench(視頻空間智能評估)、PACO-LVIS(物體部分和屬性識別)以及RoboRefit(機(jī)器人視覺抓取)等任務(wù)。在這些測試中,OmniEVA都取得了目前最好的成績。

特別令人印象深刻的是,盡管OmniEVA只有80億個參數(shù),相對較小,但它的表現(xiàn)超越了許多更大規(guī)模的模型,包括320億參數(shù)的Robobrain-2.0以及GPT-4o和Gemini-2.5-Pro等商業(yè)化的大型模型。平均而言,OmniEVA比之前的最佳系統(tǒng)提高了10.45分。

在3D空間推理測試中,OmniEVA同樣表現(xiàn)出色。測試包括SQA3D(3D場景問答)、ScanQA(掃描問答)、Scan2Cap(3D場景描述)和ScanRefer(3D對象引用)等任務(wù)。在四個測試中,OmniEVA在三個方面都達(dá)到了最佳水平,分別提高了2.3分、0.3分和8.5分。

更令人驚喜的是,在3D對象定位任務(wù)中,OmniEVA僅使用文本輸入和輸出就達(dá)到了55.8%的準(zhǔn)確率,顯著超過了之前44.4%的最佳成績。這意味著系統(tǒng)不需要借助額外的檢測模塊或特殊的定位工具,僅憑語言理解和推理就能在復(fù)雜的3D環(huán)境中準(zhǔn)確定位目標(biāo)物體。

在物體導(dǎo)航測試中,OmniEVA需要預(yù)測3D子目標(biāo)位置來引導(dǎo)探索。在HM3D和MP3D數(shù)據(jù)集上的測試顯示,OmniEVA的成功率和路徑效率都超過了當(dāng)前最先進(jìn)的導(dǎo)航模型UniNavid,其中路徑效率提高了5.4分。

八、身體感知訓(xùn)練的顯著效果

身體感知訓(xùn)練是OmniEVA最具創(chuàng)新性的特色之一,這種訓(xùn)練方法的效果在實(shí)際測試中得到了充分驗(yàn)證。研究團(tuán)隊設(shè)計了對比實(shí)驗(yàn),分別測試了使用和不使用身體感知訓(xùn)練的系統(tǒng)性能差異。

在Where2Fit(尋找合適放置空間)測試中,使用身體感知訓(xùn)練的OmniEVA得分為78.14,而未使用該訓(xùn)練的版本只有43.50分。這個巨大的差異說明,身體感知訓(xùn)練讓系統(tǒng)真正學(xué)會了考慮物理約束和實(shí)際可行性,而不是僅僅從視覺角度判斷哪里"看起來"適合放置物品。

更有趣的是在Where2Approach(尋找接近路徑)測試中的表現(xiàn)。這個任務(wù)要求系統(tǒng)在桌子周圍有椅子等障礙物的情況下,找到合適的接近位置。使用身體感知訓(xùn)練的系統(tǒng)得分為7.37,雖然絕對數(shù)值不高,但比未使用該訓(xùn)練的版本提高了數(shù)倍。這反映了該任務(wù)的高難度,以及身體感知訓(xùn)練在處理復(fù)雜空間約束時的重要價值。

在實(shí)際的移動操作任務(wù)中,效果更加顯著。簡單的移動放置任務(wù)成功率從47.50%提升到90.50%,提升幅度達(dá)到43%。困難的移動放置任務(wù)成功率從22.00%提升到57.00%,提升幅度高達(dá)50%。這些數(shù)據(jù)清楚地表明,身體感知訓(xùn)練讓機(jī)器人從"看起來會做"真正變成了"實(shí)際能做到"。

不過,研究團(tuán)隊也誠實(shí)地報告了該方法的局限性。在Where2Grasp(物體抓?。┤蝿?wù)中,雖然基準(zhǔn)測試分?jǐn)?shù)提高了26.59%,但實(shí)際的移動抓取任務(wù)只提升了18.7%,而且單獨(dú)的身體約束獎勵并沒有帶來顯著改善。研究團(tuán)隊分析認(rèn)為,這是因?yàn)榈讓拥淖ト〔呗员旧磉€有性能瓶頸,即使高層規(guī)劃更加合理,最終的執(zhí)行仍然受到低層控制算法的限制。

九、智能門控機(jī)制的工作原理

OmniEVA的門控機(jī)制就像一個經(jīng)驗(yàn)豐富的工作分配員,能夠根據(jù)任務(wù)需求智能地決定是否調(diào)用3D分析能力。研究團(tuán)隊通過大量實(shí)驗(yàn)分析了這個機(jī)制的工作模式,發(fā)現(xiàn)了一些有趣的規(guī)律。

當(dāng)用戶指令中包含幾何形狀相關(guān)的詞匯時,門控機(jī)制的激活概率會顯著提高。比如"shape"(形狀)、"square"(方形)、"rectangular"(長方形)等詞匯的激活率高達(dá)80%、72%、78%。這說明系統(tǒng)學(xué)會了將幾何描述與3D空間分析需求關(guān)聯(lián)起來。

同樣,空間動作相關(guān)的動詞也會觸發(fā)門控激活。"throwing"(投擲)、"go"(前往)、"away"(遠(yuǎn)離)等詞匯的激活率都在62%以上。這些詞匯往往涉及物體在空間中的運(yùn)動軌跡或相對位置關(guān)系,確實(shí)需要3D空間信息來準(zhǔn)確理解和執(zhí)行。

相反,一些與空間幾何關(guān)系不大的詞匯很少觸發(fā)3D模式。"many"(許多)、"nine"(九個)等數(shù)量詞的激活率只有3-4%,因?yàn)橛嫈?shù)任務(wù)主要依靠2D視覺識別,不需要復(fù)雜的3D空間分析。"beds"(床)、"pillows"(枕頭)等常見物品名詞的激活率也很低,說明簡單的物體識別任務(wù)用2D視覺就足夠了。

研究團(tuán)隊還展示了具體的案例分析。當(dāng)用戶問"我坐著的桌子是什么形狀"時,系統(tǒng)激活門控的概率為0.73。這是因?yàn)榕袛嘧雷有螤钚枰斫馄溥吔绾蛶缀翁卣?,單純?D視覺可能不足以準(zhǔn)確區(qū)分"方形"和"長方形"。但當(dāng)用戶問"桌子上有多少個顯示器"時,系統(tǒng)的門控激活概率只有0.39,因?yàn)檫@主要是一個計數(shù)任務(wù),2D視覺能力就能很好地完成。

有趣的是,即使是同樣涉及形狀的問題,系統(tǒng)也會根據(jù)具體情況調(diào)整策略。詢問圓桌形狀時激活概率為0.52,比詢問方桌時的0.73要低。研究團(tuán)隊推測這可能是因?yàn)閳A形相對方形來說在2D視角下更容易識別,不太需要額外的3D信息輔助判斷。

十、實(shí)際部署中的表現(xiàn)案例

為了驗(yàn)證OmniEVA在真實(shí)環(huán)境中的實(shí)用性,研究團(tuán)隊將其部署到了實(shí)際的機(jī)器人硬件平臺上。他們使用的是一個配備雙機(jī)械臂的輪式移動機(jī)器人,在真實(shí)的辦公環(huán)境中進(jìn)行了多項測試。

在一個典型的測試場景中,用戶指示機(jī)器人"把紙杯放在桌子后方的空位上"。整個執(zhí)行過程就像看一個訓(xùn)練有素的助理工作:首先,機(jī)器人通過攝像頭觀察桌面情況,識別出各種已有物品的位置。然后,系統(tǒng)的門控機(jī)制判斷這是一個需要3D空間分析的任務(wù),因?yàn)樾枰_理解"后方"的空間概念以及評估空位的大小。

接下來,OmniEVA開始了它的"思考"過程。系統(tǒng)分析了桌面的三維布局,識別出幾個候選的空位,然后綜合考慮機(jī)械臂的工作范圍、底盤的位置限制、以及紙杯的尺寸要求,最終選擇了一個最優(yōu)的放置位置。在整個過程中,機(jī)器人的動作流暢自然,沒有出現(xiàn)卡頓或碰撞。

另一個更復(fù)雜的測試是"把杯子放到會議室旁邊的長桌上"。這個任務(wù)需要機(jī)器人進(jìn)行長距離的導(dǎo)航,穿過辦公區(qū)域到達(dá)指定位置。OmniEVA首先分析了當(dāng)前環(huán)境,規(guī)劃出一條從起點(diǎn)到目標(biāo)桌子的最優(yōu)路徑。在移動過程中,系統(tǒng)持續(xù)監(jiān)控周圍環(huán)境,適時調(diào)整路線以避開突然出現(xiàn)的人員或障礙物。

到達(dá)目標(biāo)桌子后,OmniEVA再次啟用其空間分析能力,評估桌面的情況并選擇合適的放置位置。整個任務(wù)從開始到結(jié)束大約用了3分鐘,期間沒有人工干預(yù),完全由系統(tǒng)自主完成。

特別值得一提的是系統(tǒng)的身體感知能力在實(shí)際應(yīng)用中的表現(xiàn)。在一次測試中,系統(tǒng)最初選擇了一個看似合適但實(shí)際上機(jī)械臂無法到達(dá)的位置。但在執(zhí)行前的最后檢查階段,身體感知模塊發(fā)現(xiàn)了這個問題,系統(tǒng)及時調(diào)整了放置位置,避免了執(zhí)行失敗。

研究團(tuán)隊還測試了系統(tǒng)處理模糊指令的能力。當(dāng)用戶說"找個地方放這個杯子"而沒有指定具體位置時,OmniEVA會自動分析周圍環(huán)境,尋找最合適的放置地點(diǎn)。系統(tǒng)的選擇標(biāo)準(zhǔn)包括空間是否足夠、是否容易到達(dá)、是否會影響其他物品等多個因素,最終的選擇通常既合理又實(shí)用。

說到底,OmniEVA的出現(xiàn)標(biāo)志著機(jī)器人智能向前邁進(jìn)了一大步。它不再是那種只能執(zhí)行預(yù)設(shè)程序的機(jī)械裝置,而是真正具備了空間理解和身體感知能力的智能助手。雖然距離科幻電影中的完美機(jī)器人還有距離,但OmniEVA已經(jīng)展示出了在真實(shí)環(huán)境中幫助人類完成日常任務(wù)的巨大潛力。

這項研究最大的價值在于它解決了機(jī)器人領(lǐng)域長期存在的兩個核心問題:如何讓機(jī)器人像人類一樣理解3D空間,以及如何讓機(jī)器人清楚自己能做什么、不能做什么。通過任務(wù)自適應(yīng)的3D建模和身體感知推理,OmniEVA為未來的服務(wù)機(jī)器人、工業(yè)機(jī)器人以及各種自主系統(tǒng)提供了重要的技術(shù)基礎(chǔ)。

隨著技術(shù)的進(jìn)一步發(fā)展和完善,我們有理由相信,像OmniEVA這樣的智能系統(tǒng)將逐漸走進(jìn)千家萬戶,成為人們?nèi)粘I钪胁豢苫蛉钡闹?。它們可能會在家庭中幫助整理房間、準(zhǔn)備飯菜,在辦公室中協(xié)助處理文件、搬運(yùn)物品,在工廠中執(zhí)行精密裝配、質(zhì)量檢查等任務(wù)。這個充滿可能性的未來,正在一步步向我們走來。

Q&A

Q1:OmniEVA是什么?它有哪些獨(dú)特能力?

A:OmniEVA是華為諾亞方舟實(shí)驗(yàn)室開發(fā)的智能機(jī)器人系統(tǒng),它最大的特點(diǎn)是能像人類一樣理解3D空間,并且知道自己的身體能做什么、不能做什么。它有兩個核心創(chuàng)新:一個是能根據(jù)任務(wù)需要智能切換2D和3D視覺模式的"任務(wù)自適應(yīng)3D建模",另一個是讓機(jī)器人制定計劃時考慮物理限制的"身體感知推理"。

Q2:OmniEVA比傳統(tǒng)機(jī)器人系統(tǒng)強(qiáng)在哪里?

A:傳統(tǒng)機(jī)器人要么只能看2D圖像缺乏空間感,要么雖然能處理3D信息但不會靈活運(yùn)用,而且經(jīng)常制定出理論可行但實(shí)際無法執(zhí)行的計劃。OmniEVA能智能判斷什么時候需要3D分析,什么時候2D視覺就夠了,而且制定的每個動作計劃都考慮了機(jī)械臂長度、關(guān)節(jié)靈活度等物理約束,確保能真正執(zhí)行成功。

Q3:OmniEVA的實(shí)際應(yīng)用效果如何?

A:在8個公開測試中OmniEVA有7個達(dá)到最佳成績,在復(fù)雜操作任務(wù)中成功率比普通方法提高了28.95%到50%。更重要的是,它已經(jīng)成功部署到真實(shí)機(jī)器人上,能完成"把杯子放到桌子空位上"、"將物品送到指定房間"等日常任務(wù),整個過程流暢自然,無需人工干預(yù)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-