在靈巧機器人領(lǐng)域,一項重大突破正在改變機器人如何學(xué)習(xí)復(fù)雜的手部操作技能。來自斯坦福大學(xué)、哥倫比亞大學(xué)、摩根大通AI研究院、卡內(nèi)基梅隆大學(xué)和英偉達的研究團隊,由Mengda Xu、Han Zhang、Yifan Hou、Zhenjia Xu、Linxi Fan、Manuela Veloso和Shuran Song共同合作,于2025年5月發(fā)表了題為《DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation》的研究論文。這項研究提出了一個創(chuàng)新框架,允許機器人直接從人類手部動作中學(xué)習(xí)復(fù)雜的靈巧操作技能。有興趣深入了解的讀者可以通過項目網(wǎng)站https://dex-umi.github.io/獲取更多信息。
人類的手部具有令人難以置信的靈巧性,能夠完成各種復(fù)雜任務(wù)。然而,將這些技能傳遞給機器人一直面臨著巨大挑戰(zhàn),主要是因為人手與機器人手之間存在顯著的"身體差異鴻溝"。想象一下,如果你試圖教一個有六只手指、關(guān)節(jié)結(jié)構(gòu)完全不同的外星人如何系鞋帶,你就能理解研究人員面臨的挑戰(zhàn)了。這種差異表現(xiàn)在多個方面:關(guān)節(jié)結(jié)構(gòu)不同、接觸表面形狀差異、觸覺信息獲取方式不同,以及視覺外觀迥異。
更復(fù)雜的是,當今市場上存在各種各樣的靈巧機器人手設(shè)計,每種都有不同的工程權(quán)衡,如自由度、電機范圍、驅(qū)動機制和整體尺寸。這就像是要為十幾種不同品牌、形狀各異的吉他設(shè)計一套通用的彈奏方法一樣困難。
傳統(tǒng)上,研究人員使用遠程操作來控制靈巧機器人手。然而,遠程操作面臨著空間觀察不匹配和缺乏直接觸覺反饋的問題。想象你站在房間一角,通過望遠鏡觀察并用特殊手套控制房間另一端的機械手,這種方式顯然不如直接用自己的手來得直觀和有效。
研究團隊提出了一個核心問題:如何最小化這種"身體差異鴻溝",使人類手部可以成為各種不同機器人手的通用操作接口?為了回答這個問題,他們開發(fā)了DexUMI框架,這個框架包含硬件和軟件兩層適配組件,旨在縮小行動和觀察之間的差距。
硬件適配層采用了一種可穿戴的手部外骨骼設(shè)計。這就像是一種特殊的手套,但不僅僅是手套那么簡單。用戶可以直接佩戴它來收集操作數(shù)據(jù)。這個外骨骼是通過一個硬件優(yōu)化框架為每個目標機器人手專門設(shè)計的,該框架會優(yōu)化外骨骼參數(shù)(如連桿長度)以緊密匹配機器人手指軌跡,同時保持對人類手部的舒適穿戴性。
這種硬件適配方案帶來了幾個關(guān)鍵優(yōu)勢:首先,它提供了直觀的示范和直接觸覺反饋。不像遠程操作系統(tǒng),可穿戴外骨骼沒有空間不匹配問題,允許用戶在操作過程中直接接觸物體,使示范變得直觀且無需實際機器人也能完成。其次,它記錄了對機器人手可行的動作。外骨骼會約束人類手部動作以匹配目標手的運動學(xué)特性,確保記錄的動作是可轉(zhuǎn)移的。第三,它能捕獲精確的關(guān)節(jié)動作。不像基于重定向的方法,我們的外骨骼直接從編碼器讀取精確的關(guān)節(jié)角度,消除了由于視覺指尖跟蹤導(dǎo)致的不準確性。最后,它還能匹配用于學(xué)習(xí)的觸覺信息。大多數(shù)用于數(shù)據(jù)收集的手持夾具不記錄觸覺信息,而我們的設(shè)計在指尖上包含了額外的觸覺傳感器,記錄與機器人手相同的觸覺信息。
軟件適配層則以數(shù)據(jù)處理管道的形式出現(xiàn),它彌合了人類示范和機器人部署之間的視覺觀察差距。想象你在看一段教學(xué)視頻,但視頻中的人手和你的機器人手完全不同,這會導(dǎo)致學(xué)習(xí)困難。軟件處理管道首先使用視頻分割技術(shù)從示范視頻中移除人手和外骨骼,然后用對應(yīng)的機器人手和環(huán)境背景重新繪制視頻,使其與目標動作相匹配。這種適配確保了訓(xùn)練和機器人部署之間的視覺輸入一致性,盡管人手和機器人手在視覺上存在差異。
通過硬件和軟件兩層適配,DexUMI允許研究團隊在各種任務(wù)上收集數(shù)據(jù),同時最小化運動學(xué)和視覺差距,然后將技能轉(zhuǎn)移到機器人上。綜合實際實驗證明了DexUMI在兩種不同類型的靈巧手上的能力:6自由度的Inspire手和12自由度的XHand。與遠程操作相比,該方法實現(xiàn)了3.2倍的數(shù)據(jù)收集效率,并在四項任務(wù)中達到了平均86%的成功率,包括長期任務(wù)和需要多指接觸的復(fù)雜任務(wù)。
一、硬件適配:彌合身體差異鴻溝
現(xiàn)代機器人手通常在解剖學(xué)上模仿人類手部,這意味著手部外骨骼設(shè)計會與佩戴者的人類手部爭奪空間。最大的挑戰(zhàn)在于拇指,其旋前-旋后運動可以掃過一個很大的空間,容易導(dǎo)致人類拇指與簡單設(shè)計的外骨骼之間發(fā)生嚴重碰撞。想象一下,如果你要在手上戴一個機械裝置,而這個裝置的拇指部分和你自己的拇指總是撞在一起,使用起來會非常困難。
研究團隊的外骨骼設(shè)計有兩個主要目標:首先是共享關(guān)節(jié)動作映射,即外骨骼和目標機器人手必須共享相同的關(guān)節(jié)到指尖位置映射,包括它們的限制,這樣動作才能轉(zhuǎn)移;其次是可穿戴性,外骨骼必須允許用戶的手進行足夠的自然運動。
雖然第一個目標可以用數(shù)學(xué)方式定義,但可穿戴性目標很難具體寫下來。研究團隊的解決方案是參數(shù)化外骨骼設(shè)計,并將可穿戴性要求作為設(shè)計參數(shù)的約束條件,然后通過求解優(yōu)化問題找到一個能夠適應(yīng)可穿戴性同時保持運動學(xué)關(guān)系的解決方案。為了使優(yōu)化變得可行,他們優(yōu)先考慮指尖鏈接的精確運動學(xué),同時對不太可能接觸物體的鏈接的運動學(xué)給予更大的靈活性。
舉個例子,對于難以直接表示的欠驅(qū)動手(如Inspire Hand),他們使用運動捕捉系統(tǒng)記錄指尖在SE(3)空間中的姿態(tài)。他們?yōu)槊總€手指和法蘭3D打印了標記安裝組件并安裝在Inspire Hand上。對于只有單個自由度的食指、中指、無名指和小指,他們均勻采樣了16個電機命令值,并記錄相應(yīng)的指尖姿態(tài)。對于拇指,由于它有兩個自由度(擺動和彎曲),他們首先固定擺動值,然后均勻采樣彎曲電機值,并重復(fù)不同擺動值的這一過程。
獲得指尖姿態(tài)后,他們應(yīng)用雙層優(yōu)化公式來確定每個手指的設(shè)計參數(shù)。對于所有五個手指,他們使用四桿連桿作為連桿設(shè)計。對于每個采樣的設(shè)計參數(shù),他們使用PlaCo模擬指尖姿態(tài)。對于拇指,他們最小化了所有擺動電機值的總體損失,因為拇指的結(jié)構(gòu)配置應(yīng)該保持一致,無論擺動電機值如何。
而對于有詳細URDF文件的XHand,他們可以直接從URDF結(jié)構(gòu)中提取連桿長度。關(guān)節(jié)限制也在URDF文件中指定,并通過物理約束連桿運動來防止超出指定范圍的旋轉(zhuǎn)在外骨骼設(shè)計中實現(xiàn)。類似于Inspire Hand外骨骼設(shè)計,他們采用保守策略,對每個關(guān)節(jié)設(shè)置稍微更緊的約束。例如,如果實際關(guān)節(jié)旋轉(zhuǎn)范圍是-110°到20°,相應(yīng)的外骨骼限制設(shè)為-105°到15°。這種預(yù)防措施考慮到了3D打印外骨骼連桿在人類施加的扭矩下可能的變形,這可能導(dǎo)致意外的關(guān)節(jié)偏轉(zhuǎn)。
二、傳感器集成:捕捉完整的交互信息
外骨骼上的傳感器需要滿足以下設(shè)計目標:捕獲足夠的信息和最小化身體差異鴻溝。
為了精確捕獲關(guān)節(jié)動作,研究團隊在每個驅(qū)動關(guān)節(jié)上集成了關(guān)節(jié)編碼器,使用阻性位置編碼器同時適用于XHand和Inspire手。他們選擇了Alps編碼器,因為其尺寸和精度適合要求。由于關(guān)節(jié)摩擦和電機反沖,外骨骼關(guān)節(jié)編碼器與機器人手電機值之間的映射通常是非線性的,因此他們?yōu)槊總€關(guān)節(jié)訓(xùn)練了一個簡單的回歸模型來獲取這種映射。
為了捕獲6自由度腕部姿態(tài),他們使用iPhone ARKit,因為智能手機代表了能夠提供精確空間跟蹤的最容易獲取的設(shè)備。這個跟蹤設(shè)備只在數(shù)據(jù)收集時需要,不需要用于機器人部署。
在視覺觀察方面,他們在腕部下方安裝了一個150°對角視場的廣角攝像頭OAK-1,同時用于外骨骼和目標機器人靈巧手。這個位置的選擇是為了有效捕獲手與物體的交互。重要的是,外骨骼和機器人手腕部框架中的攝像頭姿態(tài)是相同的,這保持了訓(xùn)練和部署之間的視覺一致性。
觸覺感知方面,可穿戴外骨骼允許用戶直接接觸物體并接收觸覺反饋。然而,這種人類觸覺反饋不能直接轉(zhuǎn)移到機器人靈巧手上。因此,他們在外骨骼上安裝觸覺傳感器來捕獲和轉(zhuǎn)換這些觸覺交互。為確保傳感器讀數(shù)一致,他們在外骨骼上安裝了與目標機器人手相同類型的觸覺傳感器。對于XHand,他們使用了手上自帶的電磁觸覺傳感器。對于Inspire-Hand,他們?yōu)橥夤趋篮蜋C器人手都安裝了相同的阻性觸覺傳感器Force Sensitive Resistor。
三、軟件適配:彌合視覺差距
研究中的一個關(guān)鍵挑戰(zhàn)是人類示范和機器人執(zhí)行之間的視覺差距。想象一下,如果你通過觀看一個使用完全不同工具的人來學(xué)習(xí)一項技能,這會增加學(xué)習(xí)難度。為了彌合這一差距,研究團隊開發(fā)了一個數(shù)據(jù)處理管道,將示范圖像轉(zhuǎn)換為機器人將看到的樣子,就好像機器人手在收集數(shù)據(jù)一樣。
該適配過程包括四個步驟:首先,使用SAM2分割觀察視頻中的人手和外骨骼。研究團隊建立了一個協(xié)議,人類操作者總是以相同的手勢開始,這樣他們可以為所有示范重復(fù)使用相同的提示點。第二步是修復(fù)環(huán)境背景,使用ProPainter這一基于流的修復(fù)方法來完全填充缺失區(qū)域。第三步是記錄相應(yīng)的機器人手視頻,通過在機器人手上重放記錄的關(guān)節(jié)動作,并錄制只有機器人手的另一個視頻。然后再次使用SAM2提取機器人手像素并丟棄背景。
最后一步是組合機器人示范。重要的是要保持適當?shù)恼趽蹶P(guān)系:機器人手并不總是出現(xiàn)在頂部。研究團隊開發(fā)了一種考慮遮擋的合成方法,利用一致的腕下攝像頭設(shè)置,以及外骨骼與機器人手之間的運動學(xué)和形狀相似性。他們通過取外骨骼掩碼與機器人手掩碼的交集來計算可見掩碼。不是簡單地覆蓋像素,而是只在那些像素存在于可見掩碼中時,才用機器人手像素有選擇地替換修復(fù)后觀察中的像素。這保留了從腕下攝像頭視角看到的手與物體之間的自然遮擋關(guān)系。
四、評估與實驗結(jié)果
為了驗證DexUMI的有效性,研究團隊在兩種不同的機器人手上進行了測試:Inspire Hand(IHand)和XHand。Inspire Hand是一種十二自由度(六個主動自由度)的欠驅(qū)動手,拇指有兩個主動和兩個被動自由度,而其余每個手指有一個主動和一個被動自由度。XHand則是一種完全驅(qū)動的手,有十二個主動自由度,拇指包含三個自由度,食指有三個自由度,其余每個手指有兩個自由度。
研究團隊設(shè)計了四項不同的實際任務(wù)來測試系統(tǒng):首先是立方體拾取任務(wù),要求從桌子上拿起一個2.5厘米寬的立方體并放入杯中,這評估了DexUMI系統(tǒng)的基本能力和精度。第二項是蛋盒開啟任務(wù),需要多指協(xié)調(diào):手需要食指、中指、無名指和小指對蛋盒頂部施加向下壓力,同時使用拇指抬起前閂鎖。第三項是使用工具的茶葉拾取任務(wù),主要挑戰(zhàn)是穩(wěn)定操作可變形的鑷子,需要多指接觸。最后是廚房任務(wù),包括四個連續(xù)步驟:關(guān)閉爐灶旋鈕、將平底鍋從爐灶移到臺面、從容器中拿鹽、最后在鍋中的食物上撒鹽。這項任務(wù)測試了DexUMI在長期任務(wù)中的能力,需要精確動作、觸覺感知和超越使用指尖的技能。
實驗比較了政策行動空間選擇、觸覺感知和軟件適配對系統(tǒng)性能的影響。研究團隊比較了手指動作軌跡的形式(絕對位置或相對軌跡)、有無觸覺傳感器輸入的政策,以及有無軟件適配的變體,包括掩碼(用綠色掩碼替換外骨骼或機器人手占據(jù)的像素)和原始版本(簡單傳遞包含外骨骼的未修改圖像作為政策輸入)。
研究發(fā)現(xiàn),DexUMI框架能夠?qū)崿F(xiàn)高效的靈巧政策學(xué)習(xí)。如表1所示,DexUMI系統(tǒng)在兩種機器人手的所有四項任務(wù)中都達到了高成功率。系統(tǒng)能夠處理精確操作、長期任務(wù)和協(xié)調(diào)多指接觸,同時有效地泛化到各種操作場景。
相對手指軌跡對噪聲和硬件缺陷更具魯棒性。表1顯示相對手指軌跡在所有任務(wù)中一致地取得更好的成功率。研究表明,相對軌跡可以使關(guān)鍵接觸事件更可靠。這種差異可能有兩個原因:首先,相對動作具有比絕對動作更簡單的分布,因此更容易學(xué)習(xí);其次,相對動作學(xué)習(xí)了一種反應(yīng)性行為,即增量動作會不斷累積直到達到關(guān)鍵事件(如手指在接觸時閉合)。然而,絕對動作學(xué)習(xí)的是靜態(tài)映射,如果映射有錯誤就會停滯。
有趣的是,只有相對手指軌跡能從嘈雜的觸覺反饋中受益。XHand上的觸覺傳感器在承受高壓后會漂移并變得不一致。因此,在大多數(shù)情況下,有觸覺會使結(jié)果變差。研究團隊觀察到,只有相對軌跡的政策才能從這種觸覺感知中受益。對于手動安裝觸覺傳感器更嘈雜的Inspire手,添加觸覺傳感器作為輸入后,所有方法的性能都變差。然而,與使用絕對軌跡的方法相比,相對軌跡的政策仍然受到的性能下降較小。
觸覺反饋可以改善具有清晰力量配置文件的任務(wù)性能。研究團隊試圖了解什么類型的任務(wù)會從觸覺感知中受益。他們關(guān)注XHand,因為其觸覺傳感器提供更清晰的讀數(shù)。他們觀察到,觸覺反饋顯著提高了拾取鹽的性能。這項任務(wù)突出了觸覺的效果,因為觸覺傳感器在手指接觸鹽碗時會給出清晰、較大的讀數(shù),而且由于相機視圖大部分被碗擋住,抓取時幾乎沒有有用的視覺信息。在這種情況下,觸覺反饋完全改變了政策行為。有觸覺傳感器時,手指總是先插入鹽中然后閉合手指。沒有觸覺反饋時,手指有時試圖在空中抓取鹽。相反,觸覺信息對鑷子操作沒有幫助,因為手部運動與力反饋之間缺乏強相關(guān)性。握住鑷子只會觸發(fā)最小的觸覺傳感器讀數(shù)。
最后,DexUMI框架能夠高效收集靈巧手數(shù)據(jù)。研究團隊比較了三種方式的數(shù)據(jù)收集效率:DexUMI、裸人手和遠程操作,都是在茶葉拾取工具任務(wù)上進行。同一人類操作者使用每種方法在15分鐘內(nèi)收集數(shù)據(jù)。他們根據(jù)獲得的成功示范數(shù)量計算了收集吞吐量(CT)。如圖7所示,雖然DexUMI仍然比直接人類手部操作慢,但它實現(xiàn)了比傳統(tǒng)遠程操作方法高3.2倍的效率,顯著減少了靈巧操作數(shù)據(jù)收集所需的時間。
五、局限性與未來工作
盡管DexUMI展示了出色的性能,研究團隊也坦承系統(tǒng)存在一些局限性。在硬件適配方面,雖然DexUMI展示了跨欠驅(qū)動和完全驅(qū)動手的泛化能力,但優(yōu)化框架仍需要針對特定硬件進行調(diào)整,特別是在可穿戴性方面。未來工作方向之一是完全自動化的優(yōu)化公式,給定機器人手模型和人手的描述。此外,當前的公式只關(guān)注匹配指尖工作空間,未來工作可以考慮模擬其他潛在的接觸幾何形狀,如掌部。
在可穿戴性方面,硬件優(yōu)化流程使外骨骼可穿戴,允許人類相對輕松地長時間操作。然而,可穿戴性可以通過集成軟材料進一步改善,例如用于接觸人手部分的TPU。此外,由于目標手的設(shè)計和3D打印材料強度的限制,用戶可能仍會在完全伸展某些手指時遇到限制。
觸覺傳感器的可靠性是另一個關(guān)鍵問題。研究團隊發(fā)現(xiàn),可靠的觸覺傳感器對于維持外骨骼和相應(yīng)機器人手之間的一致觸覺觀察至關(guān)重要,從而減少身體差異鴻溝。在他們的實現(xiàn)中,添加到Inspire手及其外骨骼上的阻性觸覺傳感器對它們在手指上的附著方式非常敏感。同時,XHand及其外骨骼上的電磁觸覺傳感器在暴露于高壓后容易漂移。由于人手產(chǎn)生的力比機器人手大,當人類操作外骨骼時,觸覺傳感器讀數(shù)經(jīng)常漂移。未來工作可以考慮其他類型的觸覺傳感器,如基于視覺的觸覺傳感器和電容式F/T傳感器。
在材料限制方面,實驗表明DexUMI能夠捕獲精細的指尖動作,如閉合鑷子。然而,研究團隊有時發(fā)現(xiàn)編碼器由于3D打印材料強度限制而無法精確捕獲人類運動;有時,人手會在操作物體時稍微扭曲外骨骼連桿。在這種情況下,編碼器無法捕獲這種扭曲。
軟件適配方面,目前仍需要實際機器人硬件來獲取機器人手圖像。然而,這一要求可以通過實現(xiàn)一個圖像生成模型來消除,該模型接收電機值作為輸入并生成相應(yīng)的手部姿態(tài)圖像作為輸出。盡管當前的軟件適配管道已經(jīng)能夠產(chǎn)生高保真的機器人手圖像,但研究團隊觀察到,由于修復(fù)過程的限制,機器人手上的照明效果無法完全復(fù)制,并且圖像中的某些區(qū)域可能會模糊。此外,DexUMI目前要求攝像頭牢固地附著在機器人手/外骨骼上,不支持移動攝像頭。
最后,現(xiàn)有機器人手硬件也存在一些限制。研究團隊發(fā)現(xiàn),由于反沖和摩擦,Inspire Hand和XHand都缺乏足夠的精度。例如,Inspire Hand的指尖位置在從1000到500電機單位移動時與從0到500電機單位移動時不同。雖然在這兩種情況下期望的電機值相同,但最終的指尖位置卻有所不同。這種現(xiàn)象在兩種機器人手中都被觀察到。此外,機器人手與人手之間的尺寸差異可能導(dǎo)致可穿戴性問題。例如,如果機器人手是人手的兩倍大,人手和外骨骼都難以達到機器人手所需的關(guān)節(jié)配置。
許多這些可穿戴性問題源于現(xiàn)有商業(yè)硬件的設(shè)計約束。一個有趣的方向是探索反向設(shè)計范式:首先設(shè)計一個對人類舒適且完全可操作的外骨骼,然后使用該外骨骼作為設(shè)計機器人手的基礎(chǔ)。
總結(jié)來說,DexUMI代表了一個可擴展且高效的數(shù)據(jù)收集和政策學(xué)習(xí)框架,使用人手作為接口將人手運動轉(zhuǎn)換為精確的機器人手動作,同時提供自然的觸覺反饋。通過廣泛的具有挑戰(zhàn)性的實際實驗,研究團隊展示了DexUMI在學(xué)習(xí)精確、接觸豐富和長期任務(wù)的靈巧操作政策方面的能力。這項工作建立了一種超越傳統(tǒng)遠程操作的新方法,能夠高效且大規(guī)模地收集實際靈巧手數(shù)據(jù)。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。