在機(jī)器人研究的前沿領(lǐng)域,紐約大學(xué)和加州大學(xué)伯克利分校的研究團(tuán)隊(duì)剛剛發(fā)布了一項(xiàng)突破性成果。2025年5月26日發(fā)表于arXiv的論文《EgoZero: Robot Learning from Smart Glasses》,由Vincent Liu、Ademi Adeniji、Haotian Zhan(三位第一作者共同貢獻(xiàn))、Raunaq Bhirangi、Pieter Abbeel和Lerrel Pinto合作完成,向我們展示了一種全新的機(jī)器人學(xué)習(xí)方法。這項(xiàng)研究的成果可以在項(xiàng)目官方網(wǎng)站https://egozero-robot.github.io上查看,包括代碼實(shí)現(xiàn)和演示視頻。
一、現(xiàn)實(shí)世界中的機(jī)器人學(xué)習(xí)困境
想象一下,你剛買了一臺(tái)智能音箱,只需簡(jiǎn)單設(shè)置就能識(shí)別各種口音和語調(diào)的語音指令;或者一款新手機(jī),能夠精準(zhǔn)識(shí)別照片中的人臉和物體。這些人工智能技術(shù)已經(jīng)變得如此普遍和高效,但為什么我們家中的機(jī)器人助手仍然顯得如此笨拙和有限呢?
答案就藏在數(shù)據(jù)的獲取方式上。語言模型可以從互聯(lián)網(wǎng)上海量的文本中學(xué)習(xí),圖像識(shí)別系統(tǒng)可以通過數(shù)以百萬計(jì)的照片訓(xùn)練自己,但機(jī)器人卻面臨著一個(gè)根本性的瓶頸:它們需要在真實(shí)物理世界中收集數(shù)據(jù),而這種數(shù)據(jù)收集過程既昂貴又耗時(shí)。
研究團(tuán)隊(duì)指出,這個(gè)瓶頸并非源于現(xiàn)實(shí)世界中缺乏數(shù)據(jù)——恰恰相反,人類每天都在執(zhí)行各種精細(xì)的操作任務(wù),這些都是潛在的寶貴學(xué)習(xí)資源。真正的挑戰(zhàn)在于如何有效地捕捉和表示這些人類行為,并將其轉(zhuǎn)化為機(jī)器人可以學(xué)習(xí)的形式。
過去的研究嘗試過使用人類示范作為監(jiān)督信號(hào)來訓(xùn)練機(jī)器人,但都面臨各種限制:需要額外的穿戴設(shè)備、需要機(jī)器人訓(xùn)練數(shù)據(jù)、需要多相機(jī)校準(zhǔn)、需要在線微調(diào)、只能產(chǎn)生低精度的基于可負(fù)擔(dān)性的策略,或者需要特殊的數(shù)據(jù)處理技巧來跨越人機(jī)形態(tài)差距。其他基于視覺的學(xué)習(xí)方法則依賴于大規(guī)模的多機(jī)器人數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,但尚未展示純粹從人類數(shù)據(jù)實(shí)現(xiàn)零樣本遷移的能力。
二、EgoZero:一種全新的機(jī)器人學(xué)習(xí)范式
EgoZero的核心理念可以用一個(gè)簡(jiǎn)單的問題來概括:機(jī)器人能否僅僅通過觀察人類在自然環(huán)境中的行為來學(xué)習(xí)操作技能,而無需任何機(jī)器人自身的訓(xùn)練數(shù)據(jù)?
這個(gè)看似簡(jiǎn)單的問題背后隱藏著復(fù)雜的技術(shù)挑戰(zhàn)。想象一下,你在教一個(gè)從未見過西紅柿的孩子如何切西紅柿。你不僅需要展示切的動(dòng)作,還需要讓孩子理解什么是西紅柿、如何握刀、用多大的力度等等。而對(duì)于機(jī)器人來說,這個(gè)問題更加復(fù)雜,因?yàn)闄C(jī)器人的"手"和人類的手完全不同,它的"眼睛"(攝像頭)也與人類視角有很大差異。
EgoZero通過一種輕量級(jí)的框架解決了這個(gè)問題,它允許機(jī)器人直接從使用Project Aria智能眼鏡捕獲的第一人稱人類示范中學(xué)習(xí)操作策略。這種方法完全消除了對(duì)機(jī)器人遠(yuǎn)程操作、校準(zhǔn)或額外穿戴設(shè)備的需求,讓人類可以自由地與世界互動(dòng),同時(shí)仍能為機(jī)器人提供有效的監(jiān)督信號(hào)。
受到之前研究的啟發(fā),EgoZero通過將狀態(tài)和動(dòng)作表示為緊湊的點(diǎn)集來克服形態(tài)差距。這種基于點(diǎn)的表示同時(shí)統(tǒng)一了人類和機(jī)器人的分布,提高了策略學(xué)習(xí)的樣本效率和可解釋性,并能夠泛化到新的視覺場(chǎng)景和形態(tài)。
然而,在野外收集第一人稱數(shù)據(jù)時(shí),研究者無法使用之前研究中的多相機(jī)校準(zhǔn)設(shè)置來精確計(jì)算點(diǎn)表示。因此,EgoZero引入了新方法,從原始視覺和測(cè)距輸入中精確導(dǎo)出狀態(tài)和動(dòng)作表示。
三、技術(shù)創(chuàng)新:從人類動(dòng)作到機(jī)器人學(xué)習(xí)的橋梁
要理解EgoZero的技術(shù)創(chuàng)新,我們可以將其想象為一種翻譯系統(tǒng),它將"人類語言"(動(dòng)作、視角和意圖)翻譯成"機(jī)器人語言"(可執(zhí)行的機(jī)械動(dòng)作)。這種翻譯過程分為幾個(gè)關(guān)鍵步驟:
首先,研究團(tuán)隊(duì)使用Project Aria智能眼鏡記錄人類示范。這種眼鏡配備了多種傳感器、SDK和額外的機(jī)器感知服務(wù)(MPS)。研究中使用了魚眼RGB相機(jī)和兩個(gè)SLAM相機(jī)進(jìn)行數(shù)據(jù)捕獲,并從MPS獲取準(zhǔn)確的在線6DoF手部姿勢(shì)、相機(jī)內(nèi)參和相機(jī)外參。每次記錄包含RGB圖像、6DoF手掌姿勢(shì)和6DoF相機(jī)外參。
接下來,研究者定義了與形態(tài)無關(guān)的狀態(tài)和動(dòng)作空間。對(duì)于動(dòng)作空間,他們將其定義為3D端點(diǎn)自我中心坐標(biāo)和抓取閉合的連接空間。由于Aria只提供手部姿勢(shì)而沒有端點(diǎn)信息,他們使用HaMeR模型來計(jì)算21關(guān)鍵點(diǎn)自我中心手部模型。雖然HaMeR在相機(jī)框架中的端點(diǎn)預(yù)測(cè)不準(zhǔn)確,但在手部框架中的預(yù)測(cè)更可靠。因此,他們將HaMeR的局部手部變形與Aria的自我中心手部信息組合起來。
對(duì)于狀態(tài)空間,他們將其定義為自我中心物體點(diǎn)集和機(jī)器人端點(diǎn)動(dòng)作的連接空間。提取物體的點(diǎn)表示需要從多個(gè)相機(jī)進(jìn)行三角測(cè)量或使用深度進(jìn)行反投影,但Project Aria眼鏡無法提供這兩種功能。即使最先進(jìn)的單目度量深度模型在有接地條件的情況下也不一致且不準(zhǔn)確。
因此,研究者依靠Aria的精確SLAM外參和CoTracker3來對(duì)整個(gè)示范軌跡進(jìn)行2D點(diǎn)三角測(cè)量。這假設(shè)物體在抓取前是靜止的,相機(jī)有足夠的移動(dòng),環(huán)境不是隨機(jī)的。他們使用Grounding DINO和DIFT將專家標(biāo)記的UV坐標(biāo)映射到起始幀上,并使用CoTracker3跟蹤這些點(diǎn),以獲得相機(jī)位姿和UV坐標(biāo)軌跡。然后通過優(yōu)化最小化每一幀中的像素重投影誤差,同時(shí)添加軟深度懲罰以在存在多個(gè)解決方案時(shí)偏向更近的解決方案。
在獲取了這些形態(tài)無關(guān)的狀態(tài)和動(dòng)作表示后,他們使用行為克隆方法訓(xùn)練了一個(gè)基于Transformer的閉環(huán)策略。該策略被建模為正態(tài)分布的均值,并通過最小化負(fù)對(duì)數(shù)似然函數(shù)進(jìn)行訓(xùn)練。他們還對(duì)策略進(jìn)行了各種增強(qiáng),包括歷史緩沖區(qū)輸入、時(shí)間聚合動(dòng)作分塊和隨機(jī)3D變換,這些對(duì)于野外遷移是必要的。
在推理階段,他們使用Grounding DINO和DIFT來裁剪和映射專家標(biāo)記的UV坐標(biāo)到起始幀上,并使用iPhone表示靜止的自我中心視圖,因?yàn)樗试S使用精確的深度將點(diǎn)反投影到3D空間。通過在推理開始時(shí)校準(zhǔn)iPhone到機(jī)器人的變換,策略的3D預(yù)測(cè)被映射到機(jī)器人框架中。
四、實(shí)驗(yàn)驗(yàn)證:從人類示范到機(jī)器人執(zhí)行
EgoZero的有效性通過在Franka Panda抓取機(jī)器人上進(jìn)行的一系列實(shí)驗(yàn)得到了驗(yàn)證。研究團(tuán)隊(duì)設(shè)計(jì)了七種不同的操作任務(wù)來測(cè)試他們的方法:
1. 打開烤箱門:機(jī)器人抓住并拉下烤箱門的把手,每次評(píng)估時(shí)烤箱的位置都會(huì)變化。 2. 將面包放在盤子上:機(jī)器人從桌子上拿起一片可變形的面包并將其放在盤子上,面包的位置在每次評(píng)估時(shí)都會(huì)變化。 3. 用掃帚清掃板子:機(jī)器人從籃子里拿起一把迷你掃帚并清掃木板,掃帚、籃子和板子的位置在每次評(píng)估時(shí)都會(huì)變化。 4. 擦板子:機(jī)器人從桌子上拿起白板擦并用它擦白板,擦子和板子的位置在每次評(píng)估時(shí)都會(huì)變化。 5. 將水果分類到碗中:機(jī)器人被提示拿起檸檬、酸橙和蜜橘中的一種,并將其放入碗中,水果和碗的位置在每次評(píng)估時(shí)都會(huì)變化。 6. 折毛巾:機(jī)器人抬起毛巾的一端(靠近相機(jī)的一端)并將其折疊到毛巾的另一端上,毛巾的位置在每次評(píng)估時(shí)都會(huì)變化。 7. 將書插入書架:機(jī)器人拿起一本書并將其插入書架,書和書架的位置在每次評(píng)估時(shí)都會(huì)變化。
對(duì)于每項(xiàng)任務(wù),研究團(tuán)隊(duì)收集了100個(gè)示范,每個(gè)示范大約需要12秒,總共大約20分鐘的數(shù)據(jù)收集時(shí)間。他們?cè)谑痉董h(huán)境中變化了物體位置,但在推理時(shí)環(huán)境中沒有收集任何數(shù)據(jù)。
實(shí)驗(yàn)結(jié)果令人印象深刻。EgoZero在七個(gè)操作任務(wù)上實(shí)現(xiàn)了平均70%的零樣本成功率,證明了從野外人類數(shù)據(jù)到真實(shí)世界機(jī)器人執(zhí)行的有效遷移。更令人驚訝的是,這一成功是在完全沒有機(jī)器人訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)的。
五、與基線方法的比較及消融研究
為了證明EgoZero特定公式的有效性,研究團(tuán)隊(duì)將其與幾種基線方法進(jìn)行了比較,這些方法是從過去的工作中改編的:
1. 從圖像學(xué)習(xí):他們實(shí)現(xiàn)了Baku的變體,該變體從圖像輸入預(yù)測(cè)統(tǒng)一動(dòng)作空間中的動(dòng)作。由于人類和機(jī)器人之間的視覺分布差異很大,很難從人類視頻中學(xué)習(xí)閉環(huán)策略并實(shí)現(xiàn)零樣本機(jī)器人遷移。過去的研究只展示了使用Aria眼鏡的人類視頻作為機(jī)器人數(shù)據(jù)的補(bǔ)充,需要仔細(xì)重新規(guī)范化人類數(shù)據(jù)分布。此外,Aria的魚眼鏡頭通過在空間和時(shí)間上非均勻地扭曲2D-3D對(duì)應(yīng)關(guān)系,加劇了這個(gè)問題。從類似的機(jī)器人和相機(jī)分布產(chǎn)生的豐富視覺數(shù)據(jù)中學(xué)習(xí)3D分布更可靠。
2. 從可負(fù)擔(dān)性學(xué)習(xí):一些研究探索了在沒有機(jī)器人數(shù)據(jù)的情況下從第一人稱人類視頻中學(xué)習(xí),基于可負(fù)擔(dān)性的設(shè)置。通常,這是通過依賴預(yù)訓(xùn)練的抓取模型生成的開環(huán)軌跡來完成的。他們通過預(yù)測(cè)類似于之前研究的本體感知標(biāo)志物來消融他們的閉環(huán)公式——具體來說,是初始和最終抓取,在推理過程中執(zhí)行它們之間的線性軌跡。雖然從可負(fù)擔(dān)性學(xué)習(xí)策略在3D表示中很簡(jiǎn)單,但它在需要復(fù)雜非線性運(yùn)動(dòng)的任務(wù)上失敗了,比如他們的"將面包放在盤子上"和"擦板子"任務(wù)。在機(jī)器人上部署時(shí),這些策略表現(xiàn)出不正確的行為:機(jī)器人試圖將面包拖到盤子上,并用擦子推板子。在其他部分成功的任務(wù)中,策略因生成過于簡(jiǎn)單的軌跡而失敗,在執(zhí)行過程中經(jīng)常碰到其他物體。這些失敗表明,閉環(huán)策略對(duì)于學(xué)習(xí)更精確的復(fù)雜運(yùn)動(dòng)是必要的,即使在不跟蹤物體狀態(tài)的情況下也是如此。
消融研究進(jìn)一步探索了使野外人類數(shù)據(jù)零樣本遷移成為可能的關(guān)鍵設(shè)計(jì)組件:
1. 3D增強(qiáng):雖然之前的研究已經(jīng)探索過3D增強(qiáng),但他們表明這對(duì)于野外零樣本遷移確實(shí)是必要的。在統(tǒng)一的3D狀態(tài)-動(dòng)作空間中,策略學(xué)習(xí)了密集的3D到3D映射。沒有3D增強(qiáng),策略學(xué)習(xí)的3D到3D映射體積更小更稀疏。因此,策略在3D位置之間的插值效果不佳,對(duì)新位置的魯棒性較差。因此,當(dāng)給定新的自我中心視圖時(shí),它往往處于分布外狀態(tài)。他們證明,當(dāng)使用3D增強(qiáng)訓(xùn)練時(shí),他們的策略可以泛化到遠(yuǎn)遠(yuǎn)超出其訓(xùn)練數(shù)據(jù)體積的物體配置。雖然他們的策略學(xué)習(xí)框架類似于之前的研究,但這些工作不需要3D增強(qiáng)來展示良好的成功率,這表明在自我中心數(shù)據(jù)上學(xué)習(xí)魯棒策略引入了學(xué)習(xí)可泛化表示的額外復(fù)雜性。
2. 單目深度估計(jì):Aria眼鏡無法提供提取地面真實(shí)深度信息的方法:它既不能可靠地三角測(cè)量物體(因?yàn)樗邢鄼C(jī)之間的重疊視野有限),也沒有內(nèi)置的激光雷達(dá)或深度傳感器。因此,他們通過相機(jī)軌跡上的三角測(cè)量來定位物體以獲取其3D信息。為了證明單目度量深度模型不是一個(gè)可行的選項(xiàng),他們用從度量深度模型反投影的方法消融了他們的三角測(cè)量方法。他們觀察到,即使在場(chǎng)景中使用多個(gè)Aruco標(biāo)簽進(jìn)行校準(zhǔn),最好的度量深度模型也會(huì)產(chǎn)生>5cm的誤差。這表明深度圖在空間上是不均勻扭曲的,可能是由Aria的魚眼造成的畸變。所有使用估計(jì)深度訓(xùn)練的策略都毫無例外地失敗了。
研究還探討了零樣本泛化的多個(gè)維度:
1. 物體姿態(tài)泛化:在數(shù)據(jù)收集和機(jī)器人評(píng)估中,他們改變了物體的姿態(tài)。如果有多個(gè)物體,他們也改變了它們相對(duì)于彼此的位置。他們觀察到,使用具有3D狀態(tài)表示的對(duì)應(yīng)性編碼了物體的姿態(tài),并允許他們的策略從野外數(shù)據(jù)進(jìn)行泛化。他們注意到,他們的人類示范中的空間多樣性遠(yuǎn)大于機(jī)器人在其工作空間中可以訪問的多樣性。這種多樣性,結(jié)合3D增強(qiáng),使策略在更大的3D體積中學(xué)習(xí)了更一般的解決方案,從而實(shí)現(xiàn)了對(duì)機(jī)器人的零樣本遷移。他們將物體姿態(tài)的多樣性限制在人類會(huì)現(xiàn)實(shí)地操作的范圍內(nèi)(例如,烤箱門對(duì)相機(jī)是可見的)。
2. 物體語義泛化:基于先前研究,他們還證明了3D表示允許零樣本物體類別泛化。由于他們的訓(xùn)練和推理圖像差異很大(Aria魚眼與iPhone針孔),他們引入了Grounding DINO來裁剪圖像以提高DIFT的成功率;這不是之前研究實(shí)現(xiàn)的,因?yàn)樗麄兊南鄼C(jī)和背景在訓(xùn)練和推理之間是相同的。由于Grounding DINO是語言條件的,他們只需用物體類別(例如"烤箱")提示它,就可以讓它泛化到完全新的物體實(shí)例。這種預(yù)訓(xùn)練模型的組合將視覺多樣性壓縮成幾何抽象,允許EgoZero在自我中心設(shè)置中跨視覺分布進(jìn)行泛化。
3. 相機(jī)泛化:基于視覺的策略最大的限制因素之一是,學(xué)習(xí)對(duì)小的個(gè)別像素變化的不變性需要大量數(shù)據(jù)。例如,之前的研究在10,000多小時(shí)的跨實(shí)施數(shù)據(jù)上進(jìn)行訓(xùn)練,但當(dāng)推理相機(jī)(和端點(diǎn))與用于收集機(jī)器人訓(xùn)練數(shù)據(jù)的相機(jī)不同時(shí),其零樣本性能顯著降低。為了解決這個(gè)問題,其他研究使用Aria眼鏡進(jìn)行人類數(shù)據(jù)收集、機(jī)器人數(shù)據(jù)收集和策略推理,但仍然需要幾個(gè)小時(shí)的人類和機(jī)器人數(shù)據(jù)以及仔細(xì)的重新規(guī)范化才能達(dá)到良好的成功率。由于EgoZero從3D點(diǎn)集學(xué)習(xí)策略,EgoZero完全與相機(jī)無關(guān)。他們?cè)谒袑?shí)驗(yàn)中通過在推理中使用iPhone證明了這一點(diǎn)。
4. 人類尺度泛化:對(duì)于每項(xiàng)任務(wù),他們?cè)?-3個(gè)不同的環(huán)境中收集數(shù)據(jù),在不同高度的桌面上,有各種背景干擾物,有多個(gè)獨(dú)特的示范者。他們執(zhí)行示范時(shí),有的移動(dòng),有的站立不動(dòng),有的坐下。人類示范者的差異在訓(xùn)練數(shù)據(jù)中提供了額外的多樣性。這些在高度和抓握方面的差異仍然被編碼在同一個(gè)統(tǒng)一的表示空間中。
六、EgoZero的局限性與未來發(fā)展方向
盡管EgoZero取得了令人印象深刻的成果,研究團(tuán)隊(duì)也坦率地承認(rèn)了當(dāng)前方法的幾個(gè)局限性:
1. 3D表示的局限性:推理過程中最大的錯(cuò)誤來源是對(duì)應(yīng)模型DIFT。對(duì)應(yīng)通過對(duì)狀態(tài)空間進(jìn)行排序來編碼姿態(tài),使策略學(xué)習(xí)變得樣本高效。在更大的數(shù)據(jù)規(guī)模下,姿態(tài)信息可以直接從密集的無序幾何信息中學(xué)習(xí)(例如,使用接地分割模型)。對(duì)應(yīng)錯(cuò)誤可能是一個(gè)更普遍的限制的癥狀:策略受其3D點(diǎn)輸入的準(zhǔn)確性上限的約束。雖然使用3D點(diǎn)可以簡(jiǎn)化策略學(xué)習(xí),但它沒有信息來糾正3D測(cè)量誤差。
2. 三角測(cè)量的局限性:他們依賴運(yùn)動(dòng)結(jié)構(gòu)來定位Aria的抓取前軌跡上的物體。雖然當(dāng)相機(jī)運(yùn)動(dòng)有限時(shí),這種算法的魯棒性較差,但他們發(fā)現(xiàn)自然任務(wù)演示的相機(jī)運(yùn)動(dòng)通常是足夠的。此外,三角測(cè)量需要靜止的物體,這意味著他們無法跟蹤物體。未來,立體相機(jī)或廉價(jià)的激光雷達(dá)可以消除這些約束,并允許在隨機(jī)設(shè)置中進(jìn)行閉環(huán)策略學(xué)習(xí)。研究團(tuán)隊(duì)希望隨著硬件設(shè)計(jì)的改進(jìn),深度估計(jì)將變得更加容易。
3. 手部模型的局限性:在這項(xiàng)工作中,他們使用HaMeR和Aria的手部姿勢(shì)來提取完整的動(dòng)作空間,這兩者都引入了輕微的不準(zhǔn)確性。Aria的手部姿勢(shì)并不總是預(yù)測(cè)手上的相同位置,而HaMeR在手上預(yù)測(cè)不一致的錯(cuò)誤旋轉(zhuǎn)和平移分量。即使精心調(diào)整了公式,動(dòng)作標(biāo)簽仍然包含1-2厘米的誤差,阻止策略解決高精度任務(wù)。研究團(tuán)隊(duì)希望手部估計(jì)方法將隨著更好的研究和硬件設(shè)計(jì)變得更加可靠。
七、結(jié)論:邁向以人為中心的機(jī)器人技術(shù)
總的來說,EgoZero代表了機(jī)器人學(xué)習(xí)領(lǐng)域的一個(gè)重要突破。它不僅展示了從第一人稱視角的人類數(shù)據(jù)到機(jī)器人執(zhí)行的有效零樣本遷移,而且為解決機(jī)器人學(xué)習(xí)中的數(shù)據(jù)瓶頸提供了一種可行的方法。
這項(xiàng)研究的核心貢獻(xiàn)可以總結(jié)為以下幾點(diǎn):
1. EgoZero策略在七個(gè)任務(wù)上實(shí)現(xiàn)了70%的零樣本成功率,僅使用Project Aria智能眼鏡記錄的人類數(shù)據(jù)進(jìn)行訓(xùn)練。據(jù)研究團(tuán)隊(duì)所知,這是第一個(gè)成功將野外人類數(shù)據(jù)轉(zhuǎn)化為閉環(huán)策略的方法,無需任何機(jī)器人數(shù)據(jù)。
2. EgoZero策略僅使用100個(gè)訓(xùn)練示范(每項(xiàng)任務(wù)20分鐘的數(shù)據(jù)收集)就展示了強(qiáng)大的零樣本泛化特性,證明了從統(tǒng)一3D狀態(tài)-動(dòng)作表示中學(xué)習(xí)的魯棒性、可轉(zhuǎn)移性和數(shù)據(jù)效率。
3. 當(dāng)評(píng)估新的相機(jī)視角、空間配置和完全超出分布的物體實(shí)例時(shí),EgoZero實(shí)現(xiàn)了高成功率——驗(yàn)證了他們提出的從物體中提取精確3D表示的方法,即使在沒有精確深度測(cè)量的情況下也是如此。
更廣泛地說,這項(xiàng)研究表明,野外人類數(shù)據(jù)可以作為真實(shí)世界機(jī)器人學(xué)習(xí)的可擴(kuò)展基礎(chǔ),為機(jī)器人技術(shù)提供豐富、多樣和自然的訓(xùn)練數(shù)據(jù)鋪平了道路。雖然EgoZero代表了如何從人類數(shù)據(jù)實(shí)現(xiàn)強(qiáng)大零樣本遷移的初步概念證明,但研究團(tuán)隊(duì)也承認(rèn)了一些限制,其中許多他們希望隨著硬件和機(jī)器人學(xué)習(xí)方法的共同改進(jìn)而得到解決。
歸根結(jié)底,人類數(shù)據(jù)在其可擴(kuò)展性和形態(tài)完整性方面具有巨大潛力。EgoZero提供了一個(gè)框架,未來的研究可以在此基礎(chǔ)上擴(kuò)展到完全靈巧和雙手設(shè)置。這項(xiàng)工作為一種更以人為中心、可擴(kuò)展和豐富的機(jī)器人技術(shù)主題提供了可能性,使機(jī)器人能夠從人類在日常生活中自然執(zhí)行的各種任務(wù)中學(xué)習(xí)。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。