這項(xiàng)由中科院自動(dòng)化所、北京大學(xué)、清華大學(xué)以及AgiBo公司聯(lián)合開(kāi)展的研究于2025年6月發(fā)表在arXiv預(yù)印本平臺(tái)上,論文標(biāo)題為"DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning"。有興趣深入了解的讀者可以通過(guò)https://github.com/ds199895/DualTHOR.git訪問(wèn)完整代碼和論文資料。
當(dāng)你伸手去拿桌上的咖啡杯時(shí),可能從未意識(shí)到這個(gè)看似簡(jiǎn)單的動(dòng)作背后隱藏著多么復(fù)雜的協(xié)調(diào)機(jī)制。你的左手可能在穩(wěn)住杯子,右手同時(shí)在擰開(kāi)水龍頭,兩只手完美配合,仿佛有著心靈感應(yīng)。然而,要讓機(jī)器人做到這一點(diǎn),卻是人工智能領(lǐng)域的一個(gè)巨大挑戰(zhàn)。
近年來(lái),隨著人工智能技術(shù)的快速發(fā)展,我們看到了越來(lái)越多令人驚嘆的智能機(jī)器人。它們能夠識(shí)別物體、理解語(yǔ)言,甚至進(jìn)行復(fù)雜的推理。但是,當(dāng)涉及到需要兩只手協(xié)調(diào)工作的任務(wù)時(shí),這些機(jī)器人往往表現(xiàn)得像初學(xué)者一樣笨拙。就好比一個(gè)人試圖同時(shí)用兩只手演奏鋼琴,但兩只手卻完全不聽(tīng)大腦的指揮,各自為政。
這個(gè)問(wèn)題的根源在于現(xiàn)有的機(jī)器人訓(xùn)練環(huán)境過(guò)于簡(jiǎn)化。大多數(shù)仿真平臺(tái)就像一個(gè)只有單手操作設(shè)備的實(shí)驗(yàn)室,根本無(wú)法讓機(jī)器人學(xué)會(huì)雙手協(xié)作的精妙藝術(shù)。更糟糕的是,這些平臺(tái)往往假設(shè)所有操作都會(huì)百分之百成功,就像一個(gè)永遠(yuǎn)不會(huì)出錯(cuò)的理想世界。但現(xiàn)實(shí)生活中,咖啡杯可能會(huì)滑落,抽屜可能會(huì)卡住,機(jī)器人需要學(xué)會(huì)如何應(yīng)對(duì)這些突發(fā)狀況。
正是基于這樣的背景,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)革命性的仿真平臺(tái)——DualTHOR。這個(gè)平臺(tái)就像為機(jī)器人打造的一個(gè)真實(shí)世界的鏡像,不僅讓機(jī)器人能夠練習(xí)雙手協(xié)作,還會(huì)故意制造一些"意外情況",迫使機(jī)器人學(xué)會(huì)靈活應(yīng)變。
DualTHOR平臺(tái)的創(chuàng)新之處在于它首次將雙臂人形機(jī)器人引入了家庭環(huán)境的仿真訓(xùn)練中。研究團(tuán)隊(duì)選擇了兩款現(xiàn)實(shí)中存在的機(jī)器人作為主角:Unitree H1和Agibot X1。H1機(jī)器人就像一個(gè)力大無(wú)窮的搬運(yùn)工,特別擅長(zhǎng)處理需要力量的任務(wù),比如搬動(dòng)重物或打開(kāi)緊閉的容器。而X1機(jī)器人則像一個(gè)精細(xì)工藝的鐘表匠,在需要精確操作的任務(wù)中表現(xiàn)卓越,比如抓取小物件或操作精密設(shè)備。
這個(gè)仿真環(huán)境包含了356個(gè)不同的任務(wù),涵蓋了從臥室到廚房的各種家庭場(chǎng)景。每個(gè)場(chǎng)景都經(jīng)過(guò)精心設(shè)計(jì),確保機(jī)器人能夠體驗(yàn)到真實(shí)家庭生活中可能遇到的各種情況。廚房里有需要同時(shí)操作的咖啡機(jī)和水龍頭,臥室里有需要一手扶住一手整理的衣柜,客廳里有需要協(xié)調(diào)移動(dòng)的家具。
更重要的是,DualTHOR引入了一個(gè)前所未有的"意外機(jī)制"。在現(xiàn)實(shí)生活中,并不是每個(gè)動(dòng)作都會(huì)按預(yù)期進(jìn)行。有時(shí)候杯子會(huì)滑落,有時(shí)候抽屜會(huì)卡住,有時(shí)候開(kāi)關(guān)會(huì)失靈。DualTHOR會(huì)隨機(jī)模擬這些真實(shí)世界中的不確定性,迫使機(jī)器人學(xué)會(huì)重新規(guī)劃和應(yīng)對(duì)失敗。就好比一個(gè)烹飪學(xué)徒不僅要學(xué)會(huì)按食譜做菜,還要學(xué)會(huì)在忘記放鹽或火候過(guò)大時(shí)如何補(bǔ)救。
在技術(shù)實(shí)現(xiàn)上,DualTHOR采用了先進(jìn)的物理引擎和逆運(yùn)動(dòng)學(xué)求解器。逆運(yùn)動(dòng)學(xué)聽(tīng)起來(lái)很復(fù)雜,但其實(shí)就像人腦控制手臂的機(jī)制一樣。當(dāng)你想要伸手夠到某個(gè)物體時(shí),大腦會(huì)自動(dòng)計(jì)算出肩膀、肘部、腕部各個(gè)關(guān)節(jié)需要如何轉(zhuǎn)動(dòng)。DualTHOR為機(jī)器人提供了類似的"大腦",能夠?qū)崟r(shí)計(jì)算出達(dá)到目標(biāo)位置所需的所有關(guān)節(jié)角度。
研究團(tuán)隊(duì)還特別注重動(dòng)作的連續(xù)性。在許多傳統(tǒng)仿真平臺(tái)中,機(jī)器人的動(dòng)作就像電影中的"閃現(xiàn)"特效一樣,瞬間從一個(gè)狀態(tài)跳躍到另一個(gè)狀態(tài)。而DualTHOR中的機(jī)器人動(dòng)作是連續(xù)流暢的,就像真人一樣自然。這種連續(xù)性不僅讓仿真更加真實(shí),也為機(jī)器人提供了更豐富的學(xué)習(xí)數(shù)據(jù)。
為了測(cè)試現(xiàn)有人工智能模型在雙手協(xié)作方面的能力,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全面的評(píng)估體系。他們將任務(wù)分為三個(gè)類別:必須使用雙手的任務(wù)、可以使用雙手但也能單手完成的任務(wù),以及傳統(tǒng)的單手任務(wù)。必須使用雙手的任務(wù)就像抬起一臺(tái)沉重的咖啡機(jī)或者一邊扶住容器一邊接水,這些任務(wù)如果只用一只手根本無(wú)法完成??梢允褂秒p手的任務(wù)則像同時(shí)整理多個(gè)物品,雖然可以分別進(jìn)行,但雙手同時(shí)操作明顯更高效。
實(shí)驗(yàn)結(jié)果令人深思。研究團(tuán)隊(duì)測(cè)試了包括GPT-4o、Gemini等在內(nèi)的多個(gè)主流人工智能模型,發(fā)現(xiàn)它們?cè)陔p手協(xié)作任務(wù)上的表現(xiàn)都不盡如人意。即使是最先進(jìn)的模型,在需要雙手必須協(xié)作的任務(wù)上成功率也只有百分之三十到四十。這就好比讓一個(gè)優(yōu)秀的單手鋼琴演奏者突然改用雙手演奏協(xié)奏曲,結(jié)果可想而知。
更讓人意外的是,當(dāng)研究團(tuán)隊(duì)引入"意外機(jī)制"后,所有模型的表現(xiàn)都出現(xiàn)了顯著下降。在最困難的設(shè)置下(只有20%的動(dòng)作成功率),即使是單手任務(wù)的成功率也降到了30%以下。這說(shuō)明現(xiàn)有的人工智能模型在面對(duì)不確定性時(shí)缺乏足夠的魯棒性,就像一個(gè)只在完美條件下訓(xùn)練的司機(jī),一旦遇到雨天或路況不佳就手足無(wú)措。
特別有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)H1機(jī)器人的整體表現(xiàn)略好于X1機(jī)器人。這主要是因?yàn)镠1機(jī)器人更大的體型帶來(lái)了更廣的操作范圍,能夠夠到更多位置的物體。這種差異提醒我們,在設(shè)計(jì)機(jī)器人時(shí),物理特性和任務(wù)需求之間的匹配同樣重要。
DualTHOR平臺(tái)還引入了一個(gè)創(chuàng)新的任務(wù)回放機(jī)制。傳統(tǒng)的仿真平臺(tái)如果要測(cè)試不同的策略,往往需要重新啟動(dòng)整個(gè)環(huán)境,這就像玩游戲時(shí)每次都要從頭開(kāi)始。而DualTHOR提供了"撤銷"和"重做"功能,研究人員可以輕松地回到之前的狀態(tài),嘗試不同的解決方案。這大大提高了研究效率,也讓數(shù)據(jù)收集變得更加便捷。
在視覺(jué)感知方面,DualTHOR提供了多角度的觀察視野。機(jī)器人不僅有安裝在頭部的第一人稱視角攝像頭,還有從不同角度觀察的第三人稱攝像頭。這就像給機(jī)器人裝上了多個(gè)眼睛,能夠全方位地觀察環(huán)境,減少因視角盲區(qū)導(dǎo)致的操作失誤。
環(huán)境的物理仿真也達(dá)到了新的高度。DualTHOR不僅模擬了基本的碰撞檢測(cè),還包含了復(fù)雜的流體動(dòng)力學(xué)。當(dāng)機(jī)器人打開(kāi)水龍頭時(shí),水會(huì)真實(shí)地流淌并逐漸充滿容器;當(dāng)機(jī)器人傾倒液體時(shí),液體會(huì)按照物理定律流動(dòng)。這種細(xì)致的物理仿真為機(jī)器人提供了更真實(shí)的學(xué)習(xí)環(huán)境。
研究團(tuán)隊(duì)在論文中詳細(xì)分析了各種失敗案例,這些分析為改進(jìn)人工智能模型提供了寶貴的洞察。一個(gè)典型的失敗模式是"空間推理錯(cuò)誤":機(jī)器人會(huì)制定一個(gè)看起來(lái)合理的計(jì)劃,但沒(méi)有考慮到雙手的空間限制。比如,右手已經(jīng)拿著物品,但AI卻試圖用右手去開(kāi)抽屜,這種錯(cuò)誤反映了現(xiàn)有模型在空間推理和狀態(tài)跟蹤方面的不足。
另一個(gè)常見(jiàn)問(wèn)題是"時(shí)序規(guī)劃失誤"。在需要雙手協(xié)調(diào)的任務(wù)中,動(dòng)作的時(shí)序安排至關(guān)重要。就像做飯時(shí)需要在合適的時(shí)機(jī)加入不同的食材一樣,機(jī)器人也需要精確安排雙手的動(dòng)作時(shí)序。但實(shí)驗(yàn)結(jié)果顯示,現(xiàn)有的AI模型在這方面還有很大的改進(jìn)空間。
DualTHOR的意外機(jī)制設(shè)計(jì)也很有技巧。研究團(tuán)隊(duì)根據(jù)不同物體的屬性設(shè)計(jì)了相應(yīng)的失敗模式。比如,易碎物品可能會(huì)破裂,裝有液體的容器可能會(huì)灑漏,機(jī)械設(shè)備可能會(huì)卡住。這些失敗模式都基于現(xiàn)實(shí)世界的觀察,讓仿真環(huán)境更加貼近真實(shí)情況。
值得注意的是,這個(gè)平臺(tái)不僅對(duì)學(xué)術(shù)研究有價(jià)值,對(duì)實(shí)際應(yīng)用也具有重要意義。隨著家庭服務(wù)機(jī)器人的發(fā)展,雙手協(xié)作能力將成為一個(gè)關(guān)鍵特性。用戶期望機(jī)器人能夠像人類助手一樣,同時(shí)處理多個(gè)任務(wù),在復(fù)雜環(huán)境中靈活操作。DualTHOR為開(kāi)發(fā)這樣的機(jī)器人提供了一個(gè)理想的訓(xùn)練環(huán)境。
研究團(tuán)隊(duì)還特別關(guān)注了平臺(tái)的可擴(kuò)展性。DualTHOR基于Unity引擎構(gòu)建,這意味著研究人員可以輕松添加新的機(jī)器人模型、新的任務(wù)場(chǎng)景或新的物理特性。目前平臺(tái)支持H1和X1兩種機(jī)器人,但團(tuán)隊(duì)已經(jīng)在開(kāi)發(fā)對(duì)更多機(jī)器人型號(hào)的支持,包括Unitree G1等新興機(jī)器人平臺(tái)。
從技術(shù)架構(gòu)來(lái)看,DualTHOR采用了模塊化設(shè)計(jì)。逆運(yùn)動(dòng)學(xué)求解器作為獨(dú)立的服務(wù)運(yùn)行,通過(guò)HTTP接口與主仿真環(huán)境通信。這種設(shè)計(jì)不僅提高了系統(tǒng)的穩(wěn)定性,還使得研究人員可以針對(duì)不同的機(jī)器人模型定制專門的求解器。
對(duì)于機(jī)器人控制而言,DualTHOR支持離散控制和連續(xù)控制兩種模式。離散控制類似于游戲中的按鍵操作,每次執(zhí)行一個(gè)預(yù)定義的動(dòng)作。連續(xù)控制則更像真實(shí)的機(jī)器人操作,可以精確控制每個(gè)關(guān)節(jié)的角度和速度。這種靈活性讓不同類型的研究都能在同一平臺(tái)上進(jìn)行。
實(shí)驗(yàn)數(shù)據(jù)還揭示了一個(gè)有趣的現(xiàn)象:在面對(duì)意外情況時(shí),一些看似更簡(jiǎn)單的AI模型反而表現(xiàn)出了更好的適應(yīng)性。這提醒我們,在復(fù)雜任務(wù)中,簡(jiǎn)單但魯棒的方法有時(shí)比復(fù)雜但脆弱的方法更有效。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際部署的機(jī)器人系統(tǒng)具有重要的指導(dǎo)意義。
研究團(tuán)隊(duì)還發(fā)現(xiàn),現(xiàn)有的AI模型普遍缺乏"常識(shí)推理"能力。在人類看來(lái)理所當(dāng)然的事情,比如不能用已經(jīng)占用的手去拿其他東西,對(duì)AI來(lái)說(shuō)卻是一個(gè)挑戰(zhàn)。這反映了當(dāng)前AI訓(xùn)練數(shù)據(jù)的局限性——大多數(shù)數(shù)據(jù)都是單任務(wù)、單手操作的記錄,缺乏復(fù)雜的多任務(wù)協(xié)調(diào)示例。
DualTHOR的評(píng)估指標(biāo)也經(jīng)過(guò)了精心設(shè)計(jì)。除了傳統(tǒng)的任務(wù)成功率,研究團(tuán)隊(duì)還引入了"優(yōu)雅程度"指標(biāo),評(píng)估機(jī)器人完成任務(wù)的方式是否自然流暢。一個(gè)機(jī)器人可能最終完成了任務(wù),但如果過(guò)程磕磕絆絆,充滿不必要的重復(fù)動(dòng)作,那么這樣的表現(xiàn)在實(shí)際應(yīng)用中也是不可接受的。
在數(shù)據(jù)收集方面,DualTHOR產(chǎn)生的軌跡數(shù)據(jù)比傳統(tǒng)平臺(tái)豐富得多。每個(gè)任務(wù)執(zhí)行過(guò)程都被完整記錄,包括每個(gè)時(shí)間步的機(jī)器人狀態(tài)、環(huán)境狀態(tài)、動(dòng)作選擇和執(zhí)行結(jié)果。這些數(shù)據(jù)為研究雙手協(xié)作的機(jī)器學(xué)習(xí)算法提供了寶貴的資源。
環(huán)境的多樣性也是DualTHOR的一大亮點(diǎn)。平臺(tái)包含了臥室、廚房、客廳等多種場(chǎng)景,每種場(chǎng)景都有獨(dú)特的物品配置和交互可能性。這種多樣性確保了在平臺(tái)上訓(xùn)練的AI模型能夠具備更好的泛化能力,在面對(duì)新環(huán)境時(shí)不會(huì)完全束手無(wú)策。
研究結(jié)果對(duì)未來(lái)的發(fā)展方向也提出了明確建議。首先,需要開(kāi)發(fā)專門針對(duì)雙手協(xié)作的AI架構(gòu),現(xiàn)有的單任務(wù)模型顯然無(wú)法勝任復(fù)雜的協(xié)調(diào)任務(wù)。其次,訓(xùn)練數(shù)據(jù)需要包含更多的失敗案例和恢復(fù)策略,讓AI學(xué)會(huì)如何從錯(cuò)誤中恢復(fù)。最后,空間推理和時(shí)序規(guī)劃能力需要得到特別加強(qiáng)。
DualTHOR平臺(tái)的開(kāi)源性質(zhì)也值得稱贊。研究團(tuán)隊(duì)將完整的代碼和文檔發(fā)布在GitHub上,讓全世界的研究人員都能夠使用和改進(jìn)這個(gè)平臺(tái)。這種開(kāi)放的態(tài)度有助于加速整個(gè)領(lǐng)域的進(jìn)步,讓更多的創(chuàng)新想法能夠在統(tǒng)一的平臺(tái)上得到驗(yàn)證。
平臺(tái)的技術(shù)實(shí)現(xiàn)細(xì)節(jié)也體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。比如,在處理物體碰撞時(shí),DualTHOR不僅檢測(cè)碰撞的發(fā)生,還模擬碰撞后的物理效果,如物體的彈跳、滾動(dòng)等。這種細(xì)致的物理模擬雖然增加了計(jì)算復(fù)雜度,但為AI提供了更真實(shí)的反饋信息。
說(shuō)到底,DualTHOR代表了機(jī)器人仿真技術(shù)的一個(gè)重要里程碑。它不僅解決了雙手協(xié)作這個(gè)長(zhǎng)期被忽視的問(wèn)題,還引入了真實(shí)世界的不確定性,讓AI訓(xùn)練更加貼近實(shí)際應(yīng)用需求。雖然實(shí)驗(yàn)結(jié)果顯示現(xiàn)有AI模型在這些任務(wù)上還有很大改進(jìn)空間,但這正是DualTHOR的價(jià)值所在——它為我們指出了前進(jìn)的方向。
對(duì)于普通人來(lái)說(shuō),DualTHOR的意義可能要在幾年后才會(huì)顯現(xiàn)。當(dāng)家庭服務(wù)機(jī)器人真正走進(jìn)千家萬(wàn)戶時(shí),我們會(huì)發(fā)現(xiàn)那些能夠熟練使用雙手、能夠應(yīng)對(duì)各種意外情況的機(jī)器人,很可能就是在類似DualTHOR這樣的平臺(tái)上訓(xùn)練出來(lái)的。到那時(shí),我們或許會(huì)感謝今天這些看似枯燥的技術(shù)研究,因?yàn)檎撬鼈冏屛覀兊臋C(jī)器人助手變得如此貼心和可靠。
這項(xiàng)研究也提醒我們,人工智能的發(fā)展并不總是一帆風(fēng)順的。即使是最先進(jìn)的AI模型,在面對(duì)新的挑戰(zhàn)時(shí)也可能顯得力不從心。但正是這種挑戰(zhàn)推動(dòng)了技術(shù)的進(jìn)步,讓我們不斷接近創(chuàng)造真正智能機(jī)器的目標(biāo)。DualTHOR平臺(tái)的出現(xiàn),為這個(gè)目標(biāo)的實(shí)現(xiàn)又邁出了堅(jiān)實(shí)的一步。
Q&A
Q1:DualTHOR是什么?它能做什么? A:DualTHOR是一個(gè)專門為雙臂人形機(jī)器人設(shè)計(jì)的仿真訓(xùn)練平臺(tái)。它能讓AI機(jī)器人在虛擬的家庭環(huán)境中練習(xí)雙手協(xié)作任務(wù),比如一邊扶住容器一邊接水,或者同時(shí)操作多個(gè)物品。平臺(tái)還會(huì)制造意外情況來(lái)測(cè)試機(jī)器人的應(yīng)變能力。
Q2:為什么現(xiàn)有的AI模型在雙手協(xié)作上表現(xiàn)不好? A:主要原因是現(xiàn)有的訓(xùn)練環(huán)境大多只考慮單手操作,缺乏雙手協(xié)調(diào)的訓(xùn)練數(shù)據(jù)。就像一個(gè)只練習(xí)過(guò)單手彈琴的人突然要演奏雙手協(xié)奏曲一樣,AI模型缺乏空間推理和時(shí)序規(guī)劃的能力,不知道如何協(xié)調(diào)兩只手的動(dòng)作。
Q3:DualTHOR對(duì)普通人有什么意義? A:雖然普通人不會(huì)直接使用這個(gè)平臺(tái),但它將幫助開(kāi)發(fā)更智能的家庭服務(wù)機(jī)器人。未來(lái)這些機(jī)器人能更好地幫助我們做家務(wù)、照顧老人或輔助殘障人士,讓我們的生活更加便利。這項(xiàng)技術(shù)是實(shí)現(xiàn)真正實(shí)用的家庭機(jī)器人的重要一步。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。