麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的方昊書(shū)(Hao-Shu Fang)教授,聯(lián)合加州大學(xué)伯克利分校的研究團(tuán)隊(duì),在2024年9月發(fā)表了一項(xiàng)突破性研究。這項(xiàng)發(fā)表在arXiv預(yù)印本平臺(tái)的研究(論文編號(hào):2509.04441v2),向我們展示了一個(gè)革命性的機(jī)器人訓(xùn)練系統(tǒng)——DEXOP。感興趣的讀者可以通過(guò)該編號(hào)或訪問(wèn)項(xiàng)目網(wǎng)站dex-op.github.io查詢(xún)完整論文。
當(dāng)我們看到鋼琴大師行云流水般彈奏肖邦夜曲,或者外科醫(yī)生精準(zhǔn)地進(jìn)行微創(chuàng)手術(shù)時(shí),不禁會(huì)想:如果機(jī)器人也能擁有這樣的靈巧雙手該有多好?這個(gè)看似遙不可及的夢(mèng)想,如今正在MIT的實(shí)驗(yàn)室里一步步變?yōu)楝F(xiàn)實(shí)。
傳統(tǒng)的機(jī)器人就像戴著厚厚手套的工人,雖然力氣很大,但要讓它們做精細(xì)活就顯得笨手笨腳。比如讓機(jī)器人擰開(kāi)一個(gè)小小的藥瓶蓋,或者從桌上準(zhǔn)確拿起一枚硬幣,這些對(duì)人類(lèi)來(lái)說(shuō)輕而易舉的動(dòng)作,對(duì)機(jī)器人卻是巨大的挑戰(zhàn)。問(wèn)題的關(guān)鍵在于,機(jī)器人缺乏人類(lèi)手指那種精妙的觸覺(jué)反饋和靈活性。
研究團(tuán)隊(duì)發(fā)現(xiàn),要讓機(jī)器人變得靈巧,最大的障礙不是硬件技術(shù),而是如何收集高質(zhì)量的訓(xùn)練數(shù)據(jù)。就像教孩子學(xué)習(xí)寫(xiě)字需要大量練習(xí)一樣,機(jī)器人也需要觀看和模仿大量的人類(lèi)操作才能學(xué)會(huì)復(fù)雜的手部動(dòng)作。但現(xiàn)有的數(shù)據(jù)收集方法都存在各種問(wèn)題。
目前主流的方法有三種。第一種是在虛擬環(huán)境中訓(xùn)練機(jī)器人,這就像讓司機(jī)只在游戲中練車(chē)一樣,雖然成本低廉,但現(xiàn)實(shí)世界的復(fù)雜性遠(yuǎn)超想象,機(jī)器人往往無(wú)法將虛擬世界學(xué)到的技能順利轉(zhuǎn)移到真實(shí)環(huán)境中。第二種是分析人類(lèi)操作的視頻,這種方法能夠獲得豐富的動(dòng)作數(shù)據(jù),但卻無(wú)法捕捉到關(guān)鍵的力度和觸覺(jué)信息。就像僅僅通過(guò)觀看視頻學(xué)習(xí)按摩手法,你能看到動(dòng)作,卻感受不到力度的輕重緩急。第三種是遠(yuǎn)程操控機(jī)器人,讓人類(lèi)實(shí)時(shí)控制機(jī)器人的動(dòng)作,但這種方法缺乏觸覺(jué)反饋,操作者就像隔著厚厚的玻璃墻工作,無(wú)法感受到操作對(duì)象的質(zhì)感和阻力。
方昊書(shū)教授的團(tuán)隊(duì)提出了一個(gè)全新的解決方案——"近操作"(perioperation)。如果說(shuō)傳統(tǒng)的遠(yuǎn)程操控是"隔山打牛",那么近操作就是"身臨其境"。他們?cè)O(shè)計(jì)的DEXOP系統(tǒng),就像是一副神奇的機(jī)械手套,讓使用者能夠直接用自己的手去操控一只被動(dòng)的機(jī)器人手,同時(shí)感受到真實(shí)的觸覺(jué)反饋。
這個(gè)系統(tǒng)的設(shè)計(jì)理念非常巧妙。研究人員將一只裝滿各種傳感器的機(jī)器人手通過(guò)精密的機(jī)械連桿系統(tǒng)連接到人類(lèi)佩戴的外骨骼手套上。當(dāng)人類(lèi)移動(dòng)手指時(shí),機(jī)械連桿會(huì)同步驅(qū)動(dòng)機(jī)器人手做出相同的動(dòng)作。更重要的是,當(dāng)機(jī)器人手接觸到物體時(shí),所產(chǎn)生的阻力和觸覺(jué)信息會(huì)通過(guò)同樣的機(jī)械連桿傳遞回人類(lèi)的手指,讓操作者能夠真切地感受到物體的硬度、重量和表面紋理。
這種設(shè)計(jì)有三個(gè)關(guān)鍵優(yōu)勢(shì)。首先是讓數(shù)據(jù)收集變得更加自然。傳統(tǒng)的遠(yuǎn)程操控就像戴著厚手套干活,操作者無(wú)法感受到力度,經(jīng)常會(huì)出現(xiàn)抓握過(guò)緊導(dǎo)致物體損壞,或者力度不夠?qū)е挛矬w滑落的情況。而DEXOP系統(tǒng)讓操作者能夠感受到真實(shí)的觸覺(jué)反饋,就像直接用手操作一樣自然。這不僅提高了操作的精確度,也大大加快了數(shù)據(jù)收集的速度。
其次是最大化數(shù)據(jù)的可轉(zhuǎn)移性。DEXOP系統(tǒng)將人手和機(jī)器人手分離設(shè)計(jì),允許研究人員精確調(diào)校兩者的運(yùn)動(dòng)學(xué)結(jié)構(gòu),確保收集到的數(shù)據(jù)能夠完美地轉(zhuǎn)移到真實(shí)的機(jī)器人上。這就像為機(jī)器人量身定制一套完美的"學(xué)習(xí)教材",確保它們能夠準(zhǔn)確地重現(xiàn)人類(lèi)的操作技巧。
第三是擴(kuò)展任務(wù)的多樣性。DEXOP系統(tǒng)通過(guò)各種巧妙的機(jī)械設(shè)計(jì),極大地?cái)U(kuò)展了可以完成的任務(wù)類(lèi)型。比如,它配備了"指甲"結(jié)構(gòu),讓機(jī)器人能夠抓取那些貼在桌面上的薄片物體,就像人類(lèi)用指甲摳起一張貼紙一樣。它還設(shè)計(jì)了手指分叉關(guān)節(jié),讓機(jī)器人能夠調(diào)整手指間的距離,適應(yīng)不同大小的物體。柔軟的手掌墊則讓機(jī)器人能夠進(jìn)行全手掌操作,比如一只手握住瓶子,另一只手?jǐn)Q開(kāi)瓶蓋。
研究團(tuán)隊(duì)開(kāi)發(fā)了三個(gè)不同版本的DEXOP系統(tǒng)。最高級(jí)的DEXOP-12版本擁有4根手指和12個(gè)自由度,能夠完成最復(fù)雜的操作任務(wù)。DEXOP-9版本有3根手指和9個(gè)自由度,在保持靈活性的同時(shí)簡(jiǎn)化了系統(tǒng)復(fù)雜度。而DEXOP-7版本則專(zhuān)門(mén)為與現(xiàn)有的EyeSight機(jī)器人手配套設(shè)計(jì),確保數(shù)據(jù)的完美轉(zhuǎn)移。
在實(shí)際測(cè)試中,DEXOP系統(tǒng)展現(xiàn)出了驚人的性能。研究人員設(shè)計(jì)了四個(gè)具有挑戰(zhàn)性的測(cè)試任務(wù)來(lái)比較DEXOP與傳統(tǒng)遠(yuǎn)程操控的效果。這些任務(wù)包括使用電鉆擰螺絲、安裝燈泡、包裝盒子和開(kāi)啟瓶蓋,每一個(gè)都需要精確的手部協(xié)調(diào)和觸覺(jué)反饋。
在電鉆擰螺絲的任務(wù)中,傳統(tǒng)遠(yuǎn)程操控的表現(xiàn)可以說(shuō)是慘不忍睹。四名測(cè)試者在使用遠(yuǎn)程操控時(shí),竟然一次都沒(méi)有成功完成任務(wù)。主要問(wèn)題在于他們無(wú)法準(zhǔn)確判斷是否按下了電鉆的觸發(fā)器,也難以將鉆頭精確對(duì)準(zhǔn)小小的螺絲頭。而使用DEXOP系統(tǒng)時(shí),測(cè)試者平均每分鐘能夠完成6次任務(wù),接近人類(lèi)直接操作時(shí)每分鐘11次的水平。
在燈泡安裝任務(wù)中,差距同樣明顯。使用遠(yuǎn)程操控時(shí),測(cè)試者平均需要86秒才能完成一次安裝,而且20次嘗試中只有15次成功。使用DEXOP系統(tǒng)時(shí),平均完成時(shí)間縮短到僅僅11秒,效率提升了近8倍。這種巨大的效率提升主要?dú)w功于DEXOP提供的真實(shí)觸覺(jué)反饋,讓操作者能夠準(zhǔn)確感受到燈泡與燈座的接觸情況。
包裝盒子的任務(wù)更是凸顯了觸覺(jué)反饋的重要性。在沒(méi)有觸覺(jué)反饋的情況下,操作者經(jīng)常會(huì)在折疊紙盒邊緣時(shí)用力過(guò)猛,導(dǎo)致整個(gè)盒子被推走,或者在插入固定片時(shí)無(wú)法準(zhǔn)確感受插入深度。使用遠(yuǎn)程操控時(shí),20次嘗試中只有3次成功,平均耗時(shí)80秒。而DEXOP系統(tǒng)讓成功率大幅提升,平均每分鐘能完成5次包裝,比遠(yuǎn)程操控快了7倍。
即使是相對(duì)簡(jiǎn)單的開(kāi)瓶蓋任務(wù),DEXOP也展現(xiàn)出了明顯優(yōu)勢(shì)。雖然遠(yuǎn)程操控也能完成這個(gè)任務(wù),但DEXOP的效率仍然高出2.4倍,平均每分鐘能完成12次開(kāi)瓶操作。
為了驗(yàn)證DEXOP收集的數(shù)據(jù)確實(shí)能夠成功訓(xùn)練機(jī)器人,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)復(fù)雜的雙手協(xié)作任務(wù)——燈具組裝。這個(gè)任務(wù)需要機(jī)器人用一只手抓取燈座,另一只手拿起燈泡,然后將燈泡精確插入并擰緊,最后安裝燈罩。整個(gè)過(guò)程涉及六個(gè)連續(xù)的步驟,每一步都需要精確的手部控制和力度感知。
研究人員用DEXOP系統(tǒng)收集了160個(gè)示范動(dòng)作,同時(shí)用傳統(tǒng)遠(yuǎn)程操控收集了40個(gè)示范動(dòng)作,然后訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)控制真實(shí)的機(jī)器人。結(jié)果顯示,混合了DEXOP數(shù)據(jù)的機(jī)器人在各個(gè)步驟上都表現(xiàn)出色,綜合成功率達(dá)到了51.3%。相比之下,僅使用200個(gè)遠(yuǎn)程操控示范訓(xùn)練的機(jī)器人成功率只有42.5%,盡管數(shù)據(jù)總量更多。
更有趣的是,研究人員發(fā)現(xiàn)DEXOP數(shù)據(jù)不僅質(zhì)量更高,收集效率也更快。在關(guān)鍵的燈泡擰緊步驟中,使用遠(yuǎn)程操控的操作者平均需要38秒,因?yàn)樗麄儫o(wú)法感受到擰緊的程度,經(jīng)常過(guò)度旋轉(zhuǎn)。而使用DEXOP系統(tǒng)的操作者只需要6秒就能完成同樣的操作,因?yàn)樗麄兡軌蛲ㄟ^(guò)觸覺(jué)反饋準(zhǔn)確判斷何時(shí)停止旋轉(zhuǎn)。
DEXOP系統(tǒng)的核心技術(shù)在于其精妙的機(jī)械連桿設(shè)計(jì)。對(duì)于食指、中指和無(wú)名指,系統(tǒng)使用了雙重四連桿機(jī)構(gòu)來(lái)實(shí)現(xiàn)精確的動(dòng)作傳遞。第一個(gè)四連桿負(fù)責(zé)控制近端指節(jié)的彎曲,第二個(gè)四連桿控制遠(yuǎn)端指節(jié)的動(dòng)作。這種設(shè)計(jì)確保了人手和機(jī)器人手之間運(yùn)動(dòng)的精確同步。
拇指的控制更加復(fù)雜,因?yàn)樗枰瑫r(shí)實(shí)現(xiàn)彎曲和分叉兩個(gè)維度的運(yùn)動(dòng)。研究人員設(shè)計(jì)了一個(gè)空間四連桿機(jī)構(gòu),通過(guò)巧妙的幾何設(shè)計(jì)讓單一的連桿系統(tǒng)能夠控制拇指的三個(gè)自由度。這種設(shè)計(jì)的挑戰(zhàn)在于,人類(lèi)拇指的兩個(gè)旋轉(zhuǎn)軸距離很近,如果直接復(fù)制這種結(jié)構(gòu),外骨骼會(huì)與用戶(hù)的拇指發(fā)生碰撞。因此,研究人員將外骨骼的分叉軸向下移動(dòng)到靠近手腕的位置,并讓拇指外骨骼繞過(guò)用戶(hù)的拇指,避免了碰撞問(wèn)題。
為了確保DEXOP收集的數(shù)據(jù)能夠無(wú)縫轉(zhuǎn)移到真實(shí)機(jī)器人上,研究團(tuán)隊(duì)采用了協(xié)同設(shè)計(jì)的方法。他們不僅設(shè)計(jì)了DEXOP的被動(dòng)機(jī)器人手,還相應(yīng)地修改了真實(shí)的EyeSight機(jī)器人手,確保兩者具有完全相同的運(yùn)動(dòng)學(xué)結(jié)構(gòu)和傳感器配置。這種做法的好處是消除了數(shù)據(jù)轉(zhuǎn)移過(guò)程中的任何不匹配,讓機(jī)器人能夠完美重現(xiàn)人類(lèi)的操作。
在傳感器配置方面,DEXOP系統(tǒng)配備了先進(jìn)的全手觸覺(jué)感知系統(tǒng)。每個(gè)手指和手掌都安裝了基于視覺(jué)的觸覺(jué)傳感器,能夠捕捉接觸時(shí)的形變圖像。這些傳感器使用魚(yú)眼鏡頭,視野角度達(dá)到220度,能夠覆蓋整個(gè)傳感器表面。通過(guò)分析觸覺(jué)圖像的變化,系統(tǒng)可以重建出接觸力的大小和方向,為機(jī)器人提供豐富的觸覺(jué)信息。
系統(tǒng)的數(shù)據(jù)記錄功能也經(jīng)過(guò)精心設(shè)計(jì)。除了手部關(guān)節(jié)角度和觸覺(jué)圖像外,DEXOP還能記錄全局手部位置信息。研究人員將DEXOP安裝在定制的手臂外骨骼上,這個(gè)外骨骼的運(yùn)動(dòng)學(xué)結(jié)構(gòu)與目標(biāo)機(jī)器人完全匹配,確保記錄的手臂運(yùn)動(dòng)能夠準(zhǔn)確轉(zhuǎn)移到機(jī)器人身上。
在實(shí)際應(yīng)用中,DEXOP系統(tǒng)展現(xiàn)出了令人印象深刻的多樣性。它能夠完成需要精確手指控制的任務(wù),比如重新定向一個(gè)小圓盤(pán),這需要手指間的精確協(xié)調(diào)來(lái)旋轉(zhuǎn)物體而不讓它掉落。它也能處理微小物體的操作,比如拿起M2螺絲帽并將其擰到螺絲上,這種操作對(duì)傳統(tǒng)機(jī)器人來(lái)說(shuō)幾乎是不可能的。
DEXOP在醫(yī)療器械操作方面也展現(xiàn)出潛力。系統(tǒng)能夠精確控制注射器,包括抽取液體和精確注射,這種精細(xì)的力度控制對(duì)醫(yī)療應(yīng)用至關(guān)重要。在工具使用方面,DEXOP能夠操作復(fù)雜的多功能工具,比如紙張切割器,需要一只手固定工具,另一只手操作切割機(jī)構(gòu)。
全手操作是DEXOP的另一個(gè)強(qiáng)項(xiàng)。在開(kāi)啟調(diào)味瓶蓋的任務(wù)中,系統(tǒng)需要用手指和手掌牢牢固定瓶身,同時(shí)用拇指精確旋轉(zhuǎn)瓶蓋。這種操作需要全手的協(xié)調(diào)配合,傳統(tǒng)的雙指夾持器根本無(wú)法勝任。類(lèi)似地,在操作噴霧器時(shí),DEXOP能夠用拇指按壓噴頭,同時(shí)用其他手指穩(wěn)定瓶身,實(shí)現(xiàn)精確的噴霧控制。
研究團(tuán)隊(duì)在硬件特性測(cè)試中發(fā)現(xiàn),DEXOP-7版本的性能完全可以匹敵真實(shí)的機(jī)器人手。在力量輸出方面,DEXOP的拇指指尖能夠產(chǎn)生約70牛頓的力量,食指和中指能夠產(chǎn)生約60牛頓的力量,這些數(shù)值與EyeSight機(jī)器人手相當(dāng),也接近人類(lèi)手指的最大輸出力量。
在工作空間覆蓋方面,DEXOP與機(jī)器人手的關(guān)節(jié)活動(dòng)范圍幾乎完全匹配。MCP關(guān)節(jié)能夠旋轉(zhuǎn)110-120度,PIP關(guān)節(jié)達(dá)到105度,拇指的各個(gè)關(guān)節(jié)也都能覆蓋與真實(shí)機(jī)器人手相同的活動(dòng)范圍。這種精確的匹配確保了操作者在使用DEXOP時(shí)的體驗(yàn)與控制真實(shí)機(jī)器人手完全一致。
在速度響應(yīng)方面,DEXOP在某些關(guān)節(jié)上甚至超越了機(jī)器人手的性能。PIP和IP關(guān)節(jié)的最大角速度分別達(dá)到15弧度/秒和9弧度/秒,比機(jī)器人手快2-3倍。雖然拇指關(guān)節(jié)的速度相對(duì)較慢,但在實(shí)際操作中,這樣的速度已經(jīng)完全夠用,過(guò)快的速度反而可能導(dǎo)致控制不穩(wěn)定。
為了驗(yàn)證學(xué)習(xí)效果,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)包含六個(gè)階段的復(fù)雜雙手操作任務(wù)。第一階段要求機(jī)器人準(zhǔn)確抓取燈座,這看似簡(jiǎn)單,實(shí)際上需要機(jī)器人能夠適應(yīng)燈座位置的細(xì)微變化。第二階段抓取燈泡更具挑戰(zhàn)性,因?yàn)榍蛐挝矬w對(duì)抓取點(diǎn)的要求更高,稍有偏差就會(huì)導(dǎo)致滑落。
第三階段的燈泡插入是整個(gè)任務(wù)的技術(shù)難點(diǎn)。機(jī)器人需要將燈泡的螺紋部分精確對(duì)準(zhǔn)燈座的內(nèi)螺紋,這需要毫米級(jí)的精度。如果初始對(duì)準(zhǔn)不夠準(zhǔn)確,機(jī)器人必須能夠通過(guò)觸覺(jué)反饋檢測(cè)到偏差并進(jìn)行調(diào)整。第四階段的燈泡安裝需要機(jī)器人感知旋轉(zhuǎn)的阻力變化,判斷何時(shí)擰緊到位。
第五階段重新回到基礎(chǔ)抓取,但這次的對(duì)象是燈罩,需要機(jī)器人識(shí)別新物體的幾何特征并執(zhí)行可靠的力量抓取。最后階段的燈罩安裝需要雙手精確協(xié)調(diào),避免碰撞和傾斜,這考驗(yàn)了機(jī)器人的空間推理能力。
在政策學(xué)習(xí)實(shí)驗(yàn)中,研究人員使用了行為克隆的方法來(lái)訓(xùn)練機(jī)器人。輸入數(shù)據(jù)包括雙手的腕部攝像頭圖像、觸覺(jué)傳感器圖像和當(dāng)前關(guān)節(jié)狀態(tài)。為了強(qiáng)調(diào)接觸變化的重要性,系統(tǒng)使用觸覺(jué)圖像與初始狀態(tài)的差值作為輸入,這樣能夠更好地突出物體接觸時(shí)的變化。
網(wǎng)絡(luò)輸出分為兩部分:機(jī)器人手臂的關(guān)節(jié)位置變化量和機(jī)械手的絕對(duì)關(guān)節(jié)位置。使用相對(duì)變化量可以提高系統(tǒng)對(duì)硬件差異的魯棒性,而絕對(duì)位置控制則確保了機(jī)械手動(dòng)作的精確性。為了提高泛化能力,訓(xùn)練過(guò)程中加入了多種數(shù)據(jù)增強(qiáng)技術(shù),包括顏色抖動(dòng)、關(guān)節(jié)噪聲和視覺(jué)信息丟失。
實(shí)驗(yàn)結(jié)果顯示,混合DEXOP和遠(yuǎn)程操控?cái)?shù)據(jù)訓(xùn)練的策略在所有任務(wù)階段都表現(xiàn)最佳,總體成功率達(dá)到51.3%。令人意外的是,使用更多遠(yuǎn)程操控?cái)?shù)據(jù)的策略表現(xiàn)反而更差,這說(shuō)明數(shù)據(jù)質(zhì)量比數(shù)量更重要。DEXOP數(shù)據(jù)的高質(zhì)量主要體現(xiàn)在操作的自然性和觸覺(jué)信息的豐富性上。
分析數(shù)據(jù)收集時(shí)間發(fā)現(xiàn),DEXOP在各個(gè)階段都顯著快于遠(yuǎn)程操控。特別是在需要精確力度控制的燈泡擰緊階段,DEXOP只需6秒,而遠(yuǎn)程操控需要38秒。這種效率差異直接反映在訓(xùn)練數(shù)據(jù)的質(zhì)量上,DEXOP數(shù)據(jù)更少包含不必要的重復(fù)動(dòng)作和猶豫操作。
研究團(tuán)隊(duì)在討論中指出,近操作系統(tǒng)對(duì)制造精度和傳感器校準(zhǔn)比較敏感。硬件不匹配可能導(dǎo)致收集的數(shù)據(jù)無(wú)法直接用于機(jī)器人部署。在本研究中,這個(gè)問(wèn)題通過(guò)加入少量遠(yuǎn)程操控?cái)?shù)據(jù)得到了緩解,但更根本的解決方案是提高外骨骼的校準(zhǔn)精度,或者開(kāi)發(fā)對(duì)小幅誤差更魯棒的學(xué)習(xí)算法。
當(dāng)前系統(tǒng)仍有改進(jìn)空間。比如,從觸覺(jué)和運(yùn)動(dòng)學(xué)數(shù)據(jù)估計(jì)關(guān)節(jié)力矩仍然需要傳感器校準(zhǔn)和實(shí)時(shí)推理?,F(xiàn)有的EyeSight機(jī)器人手的自由度還不足以完成非常復(fù)雜的手內(nèi)操作任務(wù)。此外,當(dāng)前的DEXOP只能提供本體感覺(jué)反饋,還無(wú)法向人類(lèi)提供觸覺(jué)反饋。
盡管存在這些限制,DEXOP已經(jīng)展現(xiàn)出了巨大的潛力。隨著機(jī)器人硬件能力的不斷提升,高質(zhì)量訓(xùn)練數(shù)據(jù)的缺乏正在成為主要瓶頸。DEXOP這樣的系統(tǒng)填補(bǔ)了原始人類(lèi)示范和機(jī)器人泛化之間的關(guān)鍵空白,通過(guò)讓人類(lèi)更容易捕獲豐富的觸覺(jué)驅(qū)動(dòng)數(shù)據(jù),有望加速數(shù)據(jù)、硬件和算法的協(xié)同進(jìn)化。
從技術(shù)發(fā)展的角度來(lái)看,DEXOP代表了機(jī)器人學(xué)習(xí)領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。傳統(tǒng)方法要么依賴(lài)昂貴的仿真環(huán)境,要么受限于數(shù)據(jù)質(zhì)量問(wèn)題。DEXOP通過(guò)創(chuàng)新的硬件設(shè)計(jì),讓高質(zhì)量數(shù)據(jù)的獲取變得更加高效和自然。這種方法不僅提高了數(shù)據(jù)收集的效率,更重要的是提升了數(shù)據(jù)的質(zhì)量和可轉(zhuǎn)移性。
研究的意義遠(yuǎn)不止于技術(shù)層面。在制造業(yè),DEXOP訓(xùn)練的機(jī)器人可能很快就能勝任裝配線上需要精細(xì)操作的工作。在醫(yī)療領(lǐng)域,具備精確觸覺(jué)反饋的機(jī)器人助手可能會(huì)革命性地改變手術(shù)和康復(fù)治療。在家庭服務(wù)方面,能夠精確操作各種日常用品的機(jī)器人將真正走進(jìn)普通人的生活。
說(shuō)到底,DEXOP的出現(xiàn)標(biāo)志著我們向真正靈巧的機(jī)器人又邁進(jìn)了一大步。雖然距離科幻電影中那些無(wú)所不能的機(jī)器人助手還有距離,但我們已經(jīng)能夠看到這個(gè)未來(lái)的雛形。就像最初笨重的計(jì)算機(jī)最終演變成人人手中的智能手機(jī)一樣,今天的DEXOP可能就是明天普及化智能機(jī)器人的前身。
當(dāng)我們想象未來(lái)的某一天,家里的機(jī)器人助手能夠像人類(lèi)一樣輕松地為我們泡茶、整理房間,甚至協(xié)助處理精細(xì)的手工活時(shí),我們應(yīng)該記住,這個(gè)未來(lái)的實(shí)現(xiàn)離不開(kāi)像DEXOP這樣的基礎(chǔ)技術(shù)突破。它不僅是一個(gè)巧妙的工程解決方案,更是人類(lèi)在探索智能機(jī)器道路上的重要里程碑。對(duì)于那些希望深入了解這項(xiàng)技術(shù)的讀者,可以通過(guò)論文編號(hào)2509.04441v2或訪問(wèn)項(xiàng)目網(wǎng)站dex-op.github.io獲取更多詳細(xì)信息。
Q&A
Q1:DEXOP是什么?它和傳統(tǒng)的機(jī)器人控制方式有什么不同?
A:DEXOP是MIT研發(fā)的一套機(jī)器人訓(xùn)練系統(tǒng),它像一副神奇的機(jī)械手套,讓人類(lèi)能夠直接用自己的手控制機(jī)器人手,同時(shí)感受到真實(shí)的觸覺(jué)反饋。與傳統(tǒng)的遠(yuǎn)程操控不同,DEXOP讓操作者能夠感受到物體的硬度、重量和質(zhì)感,就像直接用手操作一樣自然。
Q2:DEXOP系統(tǒng)的數(shù)據(jù)收集效率比傳統(tǒng)方法高多少?
A:在測(cè)試中,DEXOP的效率遠(yuǎn)超傳統(tǒng)遠(yuǎn)程操控。比如在電鉆擰螺絲任務(wù)中,遠(yuǎn)程操控者一次都沒(méi)成功,而DEXOP用戶(hù)平均每分鐘完成6次。在燈泡安裝任務(wù)中,DEXOP比遠(yuǎn)程操控快8倍,只需11秒就能完成。
Q3:DEXOP訓(xùn)練出來(lái)的機(jī)器人能做什么復(fù)雜的事情?
A:DEXOP訓(xùn)練的機(jī)器人能夠完成許多需要精細(xì)操作的任務(wù),包括安裝燈泡、開(kāi)啟藥瓶、操作注射器、使用紙張切割器等。在測(cè)試的燈具組裝任務(wù)中,機(jī)器人需要用雙手協(xié)作完成六個(gè)連續(xù)步驟,成功率達(dá)到51.3%,展現(xiàn)出了接近人類(lèi)水平的操作能力。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。