這項(xiàng)由中科院自動化所、北京大學(xué)、清華大學(xué)以及AgiBo公司聯(lián)合開展的研究于2025年6月發(fā)表在arXiv預(yù)印本平臺上,論文標(biāo)題為"DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning"。有興趣深入了解的讀者可以通過https://github.com/ds199895/DualTHOR.git訪問完整代碼和論文資料。
當(dāng)你伸手去拿桌上的咖啡杯時,可能從未意識到這個看似簡單的動作背后隱藏著多么復(fù)雜的協(xié)調(diào)機(jī)制。你的左手可能在穩(wěn)住杯子,右手同時在擰開水龍頭,兩只手完美配合,仿佛有著心靈感應(yīng)。然而,要讓機(jī)器人做到這一點(diǎn),卻是人工智能領(lǐng)域的一個巨大挑戰(zhàn)。
近年來,隨著人工智能技術(shù)的快速發(fā)展,我們看到了越來越多令人驚嘆的智能機(jī)器人。它們能夠識別物體、理解語言,甚至進(jìn)行復(fù)雜的推理。但是,當(dāng)涉及到需要兩只手協(xié)調(diào)工作的任務(wù)時,這些機(jī)器人往往表現(xiàn)得像初學(xué)者一樣笨拙。就好比一個人試圖同時用兩只手演奏鋼琴,但兩只手卻完全不聽大腦的指揮,各自為政。
這個問題的根源在于現(xiàn)有的機(jī)器人訓(xùn)練環(huán)境過于簡化。大多數(shù)仿真平臺就像一個只有單手操作設(shè)備的實(shí)驗(yàn)室,根本無法讓機(jī)器人學(xué)會雙手協(xié)作的精妙藝術(shù)。更糟糕的是,這些平臺往往假設(shè)所有操作都會百分之百成功,就像一個永遠(yuǎn)不會出錯的理想世界。但現(xiàn)實(shí)生活中,咖啡杯可能會滑落,抽屜可能會卡住,機(jī)器人需要學(xué)會如何應(yīng)對這些突發(fā)狀況。
正是基于這樣的背景,研究團(tuán)隊(duì)開發(fā)了一個革命性的仿真平臺——DualTHOR。這個平臺就像為機(jī)器人打造的一個真實(shí)世界的鏡像,不僅讓機(jī)器人能夠練習(xí)雙手協(xié)作,還會故意制造一些"意外情況",迫使機(jī)器人學(xué)會靈活應(yīng)變。
DualTHOR平臺的創(chuàng)新之處在于它首次將雙臂人形機(jī)器人引入了家庭環(huán)境的仿真訓(xùn)練中。研究團(tuán)隊(duì)選擇了兩款現(xiàn)實(shí)中存在的機(jī)器人作為主角:Unitree H1和Agibot X1。H1機(jī)器人就像一個力大無窮的搬運(yùn)工,特別擅長處理需要力量的任務(wù),比如搬動重物或打開緊閉的容器。而X1機(jī)器人則像一個精細(xì)工藝的鐘表匠,在需要精確操作的任務(wù)中表現(xiàn)卓越,比如抓取小物件或操作精密設(shè)備。
這個仿真環(huán)境包含了356個不同的任務(wù),涵蓋了從臥室到廚房的各種家庭場景。每個場景都經(jīng)過精心設(shè)計(jì),確保機(jī)器人能夠體驗(yàn)到真實(shí)家庭生活中可能遇到的各種情況。廚房里有需要同時操作的咖啡機(jī)和水龍頭,臥室里有需要一手扶住一手整理的衣柜,客廳里有需要協(xié)調(diào)移動的家具。
更重要的是,DualTHOR引入了一個前所未有的"意外機(jī)制"。在現(xiàn)實(shí)生活中,并不是每個動作都會按預(yù)期進(jìn)行。有時候杯子會滑落,有時候抽屜會卡住,有時候開關(guān)會失靈。DualTHOR會隨機(jī)模擬這些真實(shí)世界中的不確定性,迫使機(jī)器人學(xué)會重新規(guī)劃和應(yīng)對失敗。就好比一個烹飪學(xué)徒不僅要學(xué)會按食譜做菜,還要學(xué)會在忘記放鹽或火候過大時如何補(bǔ)救。
在技術(shù)實(shí)現(xiàn)上,DualTHOR采用了先進(jìn)的物理引擎和逆運(yùn)動學(xué)求解器。逆運(yùn)動學(xué)聽起來很復(fù)雜,但其實(shí)就像人腦控制手臂的機(jī)制一樣。當(dāng)你想要伸手夠到某個物體時,大腦會自動計(jì)算出肩膀、肘部、腕部各個關(guān)節(jié)需要如何轉(zhuǎn)動。DualTHOR為機(jī)器人提供了類似的"大腦",能夠?qū)崟r計(jì)算出達(dá)到目標(biāo)位置所需的所有關(guān)節(jié)角度。
研究團(tuán)隊(duì)還特別注重動作的連續(xù)性。在許多傳統(tǒng)仿真平臺中,機(jī)器人的動作就像電影中的"閃現(xiàn)"特效一樣,瞬間從一個狀態(tài)跳躍到另一個狀態(tài)。而DualTHOR中的機(jī)器人動作是連續(xù)流暢的,就像真人一樣自然。這種連續(xù)性不僅讓仿真更加真實(shí),也為機(jī)器人提供了更豐富的學(xué)習(xí)數(shù)據(jù)。
為了測試現(xiàn)有人工智能模型在雙手協(xié)作方面的能力,研究團(tuán)隊(duì)設(shè)計(jì)了一個全面的評估體系。他們將任務(wù)分為三個類別:必須使用雙手的任務(wù)、可以使用雙手但也能單手完成的任務(wù),以及傳統(tǒng)的單手任務(wù)。必須使用雙手的任務(wù)就像抬起一臺沉重的咖啡機(jī)或者一邊扶住容器一邊接水,這些任務(wù)如果只用一只手根本無法完成。可以使用雙手的任務(wù)則像同時整理多個物品,雖然可以分別進(jìn)行,但雙手同時操作明顯更高效。
實(shí)驗(yàn)結(jié)果令人深思。研究團(tuán)隊(duì)測試了包括GPT-4o、Gemini等在內(nèi)的多個主流人工智能模型,發(fā)現(xiàn)它們在雙手協(xié)作任務(wù)上的表現(xiàn)都不盡如人意。即使是最先進(jìn)的模型,在需要雙手必須協(xié)作的任務(wù)上成功率也只有百分之三十到四十。這就好比讓一個優(yōu)秀的單手鋼琴演奏者突然改用雙手演奏協(xié)奏曲,結(jié)果可想而知。
更讓人意外的是,當(dāng)研究團(tuán)隊(duì)引入"意外機(jī)制"后,所有模型的表現(xiàn)都出現(xiàn)了顯著下降。在最困難的設(shè)置下(只有20%的動作成功率),即使是單手任務(wù)的成功率也降到了30%以下。這說明現(xiàn)有的人工智能模型在面對不確定性時缺乏足夠的魯棒性,就像一個只在完美條件下訓(xùn)練的司機(jī),一旦遇到雨天或路況不佳就手足無措。
特別有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)H1機(jī)器人的整體表現(xiàn)略好于X1機(jī)器人。這主要是因?yàn)镠1機(jī)器人更大的體型帶來了更廣的操作范圍,能夠夠到更多位置的物體。這種差異提醒我們,在設(shè)計(jì)機(jī)器人時,物理特性和任務(wù)需求之間的匹配同樣重要。
DualTHOR平臺還引入了一個創(chuàng)新的任務(wù)回放機(jī)制。傳統(tǒng)的仿真平臺如果要測試不同的策略,往往需要重新啟動整個環(huán)境,這就像玩游戲時每次都要從頭開始。而DualTHOR提供了"撤銷"和"重做"功能,研究人員可以輕松地回到之前的狀態(tài),嘗試不同的解決方案。這大大提高了研究效率,也讓數(shù)據(jù)收集變得更加便捷。
在視覺感知方面,DualTHOR提供了多角度的觀察視野。機(jī)器人不僅有安裝在頭部的第一人稱視角攝像頭,還有從不同角度觀察的第三人稱攝像頭。這就像給機(jī)器人裝上了多個眼睛,能夠全方位地觀察環(huán)境,減少因視角盲區(qū)導(dǎo)致的操作失誤。
環(huán)境的物理仿真也達(dá)到了新的高度。DualTHOR不僅模擬了基本的碰撞檢測,還包含了復(fù)雜的流體動力學(xué)。當(dāng)機(jī)器人打開水龍頭時,水會真實(shí)地流淌并逐漸充滿容器;當(dāng)機(jī)器人傾倒液體時,液體會按照物理定律流動。這種細(xì)致的物理仿真為機(jī)器人提供了更真實(shí)的學(xué)習(xí)環(huán)境。
研究團(tuán)隊(duì)在論文中詳細(xì)分析了各種失敗案例,這些分析為改進(jìn)人工智能模型提供了寶貴的洞察。一個典型的失敗模式是"空間推理錯誤":機(jī)器人會制定一個看起來合理的計(jì)劃,但沒有考慮到雙手的空間限制。比如,右手已經(jīng)拿著物品,但AI卻試圖用右手去開抽屜,這種錯誤反映了現(xiàn)有模型在空間推理和狀態(tài)跟蹤方面的不足。
另一個常見問題是"時序規(guī)劃失誤"。在需要雙手協(xié)調(diào)的任務(wù)中,動作的時序安排至關(guān)重要。就像做飯時需要在合適的時機(jī)加入不同的食材一樣,機(jī)器人也需要精確安排雙手的動作時序。但實(shí)驗(yàn)結(jié)果顯示,現(xiàn)有的AI模型在這方面還有很大的改進(jìn)空間。
DualTHOR的意外機(jī)制設(shè)計(jì)也很有技巧。研究團(tuán)隊(duì)根據(jù)不同物體的屬性設(shè)計(jì)了相應(yīng)的失敗模式。比如,易碎物品可能會破裂,裝有液體的容器可能會灑漏,機(jī)械設(shè)備可能會卡住。這些失敗模式都基于現(xiàn)實(shí)世界的觀察,讓仿真環(huán)境更加貼近真實(shí)情況。
值得注意的是,這個平臺不僅對學(xué)術(shù)研究有價值,對實(shí)際應(yīng)用也具有重要意義。隨著家庭服務(wù)機(jī)器人的發(fā)展,雙手協(xié)作能力將成為一個關(guān)鍵特性。用戶期望機(jī)器人能夠像人類助手一樣,同時處理多個任務(wù),在復(fù)雜環(huán)境中靈活操作。DualTHOR為開發(fā)這樣的機(jī)器人提供了一個理想的訓(xùn)練環(huán)境。
研究團(tuán)隊(duì)還特別關(guān)注了平臺的可擴(kuò)展性。DualTHOR基于Unity引擎構(gòu)建,這意味著研究人員可以輕松添加新的機(jī)器人模型、新的任務(wù)場景或新的物理特性。目前平臺支持H1和X1兩種機(jī)器人,但團(tuán)隊(duì)已經(jīng)在開發(fā)對更多機(jī)器人型號的支持,包括Unitree G1等新興機(jī)器人平臺。
從技術(shù)架構(gòu)來看,DualTHOR采用了模塊化設(shè)計(jì)。逆運(yùn)動學(xué)求解器作為獨(dú)立的服務(wù)運(yùn)行,通過HTTP接口與主仿真環(huán)境通信。這種設(shè)計(jì)不僅提高了系統(tǒng)的穩(wěn)定性,還使得研究人員可以針對不同的機(jī)器人模型定制專門的求解器。
對于機(jī)器人控制而言,DualTHOR支持離散控制和連續(xù)控制兩種模式。離散控制類似于游戲中的按鍵操作,每次執(zhí)行一個預(yù)定義的動作。連續(xù)控制則更像真實(shí)的機(jī)器人操作,可以精確控制每個關(guān)節(jié)的角度和速度。這種靈活性讓不同類型的研究都能在同一平臺上進(jìn)行。
實(shí)驗(yàn)數(shù)據(jù)還揭示了一個有趣的現(xiàn)象:在面對意外情況時,一些看似更簡單的AI模型反而表現(xiàn)出了更好的適應(yīng)性。這提醒我們,在復(fù)雜任務(wù)中,簡單但魯棒的方法有時比復(fù)雜但脆弱的方法更有效。這個發(fā)現(xiàn)對于實(shí)際部署的機(jī)器人系統(tǒng)具有重要的指導(dǎo)意義。
研究團(tuán)隊(duì)還發(fā)現(xiàn),現(xiàn)有的AI模型普遍缺乏"常識推理"能力。在人類看來理所當(dāng)然的事情,比如不能用已經(jīng)占用的手去拿其他東西,對AI來說卻是一個挑戰(zhàn)。這反映了當(dāng)前AI訓(xùn)練數(shù)據(jù)的局限性——大多數(shù)數(shù)據(jù)都是單任務(wù)、單手操作的記錄,缺乏復(fù)雜的多任務(wù)協(xié)調(diào)示例。
DualTHOR的評估指標(biāo)也經(jīng)過了精心設(shè)計(jì)。除了傳統(tǒng)的任務(wù)成功率,研究團(tuán)隊(duì)還引入了"優(yōu)雅程度"指標(biāo),評估機(jī)器人完成任務(wù)的方式是否自然流暢。一個機(jī)器人可能最終完成了任務(wù),但如果過程磕磕絆絆,充滿不必要的重復(fù)動作,那么這樣的表現(xiàn)在實(shí)際應(yīng)用中也是不可接受的。
在數(shù)據(jù)收集方面,DualTHOR產(chǎn)生的軌跡數(shù)據(jù)比傳統(tǒng)平臺豐富得多。每個任務(wù)執(zhí)行過程都被完整記錄,包括每個時間步的機(jī)器人狀態(tài)、環(huán)境狀態(tài)、動作選擇和執(zhí)行結(jié)果。這些數(shù)據(jù)為研究雙手協(xié)作的機(jī)器學(xué)習(xí)算法提供了寶貴的資源。
環(huán)境的多樣性也是DualTHOR的一大亮點(diǎn)。平臺包含了臥室、廚房、客廳等多種場景,每種場景都有獨(dú)特的物品配置和交互可能性。這種多樣性確保了在平臺上訓(xùn)練的AI模型能夠具備更好的泛化能力,在面對新環(huán)境時不會完全束手無策。
研究結(jié)果對未來的發(fā)展方向也提出了明確建議。首先,需要開發(fā)專門針對雙手協(xié)作的AI架構(gòu),現(xiàn)有的單任務(wù)模型顯然無法勝任復(fù)雜的協(xié)調(diào)任務(wù)。其次,訓(xùn)練數(shù)據(jù)需要包含更多的失敗案例和恢復(fù)策略,讓AI學(xué)會如何從錯誤中恢復(fù)。最后,空間推理和時序規(guī)劃能力需要得到特別加強(qiáng)。
DualTHOR平臺的開源性質(zhì)也值得稱贊。研究團(tuán)隊(duì)將完整的代碼和文檔發(fā)布在GitHub上,讓全世界的研究人員都能夠使用和改進(jìn)這個平臺。這種開放的態(tài)度有助于加速整個領(lǐng)域的進(jìn)步,讓更多的創(chuàng)新想法能夠在統(tǒng)一的平臺上得到驗(yàn)證。
平臺的技術(shù)實(shí)現(xiàn)細(xì)節(jié)也體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。比如,在處理物體碰撞時,DualTHOR不僅檢測碰撞的發(fā)生,還模擬碰撞后的物理效果,如物體的彈跳、滾動等。這種細(xì)致的物理模擬雖然增加了計(jì)算復(fù)雜度,但為AI提供了更真實(shí)的反饋信息。
說到底,DualTHOR代表了機(jī)器人仿真技術(shù)的一個重要里程碑。它不僅解決了雙手協(xié)作這個長期被忽視的問題,還引入了真實(shí)世界的不確定性,讓AI訓(xùn)練更加貼近實(shí)際應(yīng)用需求。雖然實(shí)驗(yàn)結(jié)果顯示現(xiàn)有AI模型在這些任務(wù)上還有很大改進(jìn)空間,但這正是DualTHOR的價值所在——它為我們指出了前進(jìn)的方向。
對于普通人來說,DualTHOR的意義可能要在幾年后才會顯現(xiàn)。當(dāng)家庭服務(wù)機(jī)器人真正走進(jìn)千家萬戶時,我們會發(fā)現(xiàn)那些能夠熟練使用雙手、能夠應(yīng)對各種意外情況的機(jī)器人,很可能就是在類似DualTHOR這樣的平臺上訓(xùn)練出來的。到那時,我們或許會感謝今天這些看似枯燥的技術(shù)研究,因?yàn)檎撬鼈冏屛覀兊臋C(jī)器人助手變得如此貼心和可靠。
這項(xiàng)研究也提醒我們,人工智能的發(fā)展并不總是一帆風(fēng)順的。即使是最先進(jìn)的AI模型,在面對新的挑戰(zhàn)時也可能顯得力不從心。但正是這種挑戰(zhàn)推動了技術(shù)的進(jìn)步,讓我們不斷接近創(chuàng)造真正智能機(jī)器的目標(biāo)。DualTHOR平臺的出現(xiàn),為這個目標(biāo)的實(shí)現(xiàn)又邁出了堅(jiān)實(shí)的一步。
Q&A
Q1:DualTHOR是什么?它能做什么? A:DualTHOR是一個專門為雙臂人形機(jī)器人設(shè)計(jì)的仿真訓(xùn)練平臺。它能讓AI機(jī)器人在虛擬的家庭環(huán)境中練習(xí)雙手協(xié)作任務(wù),比如一邊扶住容器一邊接水,或者同時操作多個物品。平臺還會制造意外情況來測試機(jī)器人的應(yīng)變能力。
Q2:為什么現(xiàn)有的AI模型在雙手協(xié)作上表現(xiàn)不好? A:主要原因是現(xiàn)有的訓(xùn)練環(huán)境大多只考慮單手操作,缺乏雙手協(xié)調(diào)的訓(xùn)練數(shù)據(jù)。就像一個只練習(xí)過單手彈琴的人突然要演奏雙手協(xié)奏曲一樣,AI模型缺乏空間推理和時序規(guī)劃的能力,不知道如何協(xié)調(diào)兩只手的動作。
Q3:DualTHOR對普通人有什么意義? A:雖然普通人不會直接使用這個平臺,但它將幫助開發(fā)更智能的家庭服務(wù)機(jī)器人。未來這些機(jī)器人能更好地幫助我們做家務(wù)、照顧老人或輔助殘障人士,讓我們的生活更加便利。這項(xiàng)技術(shù)是實(shí)現(xiàn)真正實(shí)用的家庭機(jī)器人的重要一步。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。