作者| 金旺
欄目| 機器人新紀(jì)元
當(dāng)14臺人形機器人在NVIDIA CES 2025發(fā)布會上緩緩升起時,NVIDIA創(chuàng)始人黃仁勛稱,“通用機器人的ChatGPT時刻即將到來。”
這是CES 2025的一個高光時刻,也注定將會是全球機器人產(chǎn)業(yè)發(fā)展的一個歷史時刻。
作為如今全球算力供應(yīng)商,NVIDIA的機器人版圖這些年也在徐徐展開。
尤其是在這波由生成式AI推動的人形機器人浪潮下,在數(shù)據(jù)和模型成為驅(qū)動機器人商業(yè)落地的關(guān)鍵時,NVIDIA構(gòu)建了一套完整的Isaac GR00T Blueprint,為通用機器人的訓(xùn)練提供了一個數(shù)字孿生訓(xùn)練場。
在這個數(shù)字孿生訓(xùn)練場中,藏著的是NVIDIA的三臺計算機和一套工作流,以及黃仁勛看到的“通用機器人的ChatGPT時刻”。
01 破解人形機器人的數(shù)據(jù)難題
2021年8月,在特斯拉第一屆人工智能日上,當(dāng)特斯拉創(chuàng)始人馬斯克用“皮套人”偽裝的人形機器人登上舞臺的那一刻,機器人產(chǎn)業(yè)迎來了一個全新的開端,尤其是人形機器人,進入到了一個資本紅利期。
與此同時,隨著2022年11月ChatGPT的面世,以生成式AI為代表的人工智能技術(shù)浪潮的來臨,為機器人產(chǎn)業(yè)再添一把火,具身智能涌現(xiàn),機器人產(chǎn)業(yè)隨之也迎來了一個技術(shù)紅利期。
在過去兩年里,僅僅是在國內(nèi),就涌入了數(shù)十家人形機器人初創(chuàng)團隊,而在這波由人工智能、具身智能催生的人形機器人熱潮中,數(shù)據(jù)成了機器人進化的一大難題。
以全球矚目的ChatGPT為例,其背后的大模型早在2022年6月迭代到GPT-3時,參數(shù)規(guī)模就已經(jīng)達到1750億,而據(jù)中國信通院分析數(shù)據(jù)顯示,大模型的知識密度還在以平均每8個月翻一番的速度增強。
正因如此,才有了GPT系列大模型展現(xiàn)出的越來越超乎想象的知識問答、圖文生成能力。
相較于基于海量互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練出的圖文大模型,具身大模型可用的數(shù)據(jù)量,尤其是聚焦到機器人領(lǐng)域,就顯得有些捉襟見肘,以至于不少機器人企業(yè)內(nèi)部都組建了數(shù)據(jù)采集部門,通過遙操作方式為機器人采集來自真實世界中的數(shù)據(jù)。
例如,谷歌DeepMind團隊與斯坦福團隊在2024年1月共同推出的Mobile ALOHA,就是一套基于遙操作模式進行數(shù)據(jù)采集的低成本開源機器人。
與此同時,特斯拉2024年在大量招聘機器人“數(shù)據(jù)采集員”,這些“數(shù)據(jù)采集員”通過穿戴動捕設(shè)備和VR設(shè)備來為Optimus采集數(shù)據(jù),國內(nèi)智元機器人也于2024年在上海臨港區(qū)投建了數(shù)據(jù)采集超級工廠,而出自這一工廠的機器人百萬真機數(shù)據(jù)集AgiBot World在2024年年底由智元機器人對外開源。
不過,由人類“數(shù)據(jù)采集員”從真實世界中采集數(shù)據(jù),這一模式往往費時又費力。
在近日的NVIDIA媒體研討會上,銀河通用創(chuàng)始人兼CTO王鶴將機器人與汽車作對比指出,“對于用戶而言,開車是剛需,將車賣給用戶后,用戶會自愿駕駛汽車,這些汽車廠商數(shù)據(jù)采集的成本可以是負數(shù),但是對于人形機器人而言,如果沒有功能,就沒人愿意購買,更沒人愿意遙操作機器人采集數(shù)據(jù),人形機器人公司在這方面只能冷啟動。”
谷歌曾經(jīng)就組建過一支16人的機器人研究團隊,這支團隊在谷歌山景城辦公室的3個廚房中,用13個機器人,花了17個月的時間,采集到了13萬條來自真實世界的數(shù)據(jù),為了采集這些數(shù)據(jù),谷歌花費了上千萬美元。
那么,是否還有其它更高效率、更低成本的方法,可以破解人形機器人的數(shù)據(jù)難題?
NVIDIA給出的答案是,通過仿真環(huán)境提供合成數(shù)據(jù)。
仿真并不是什么新概念,在芯片設(shè)計領(lǐng)域,芯片在制造之前都需要進行仿真,以確保最終制造出的芯片功能完美無缺。
NVIDIA機器人與邊緣計算副總裁Deepu Talla指出,“由于仿真技術(shù)的精度不足,導(dǎo)致仿真技術(shù)過往這些年里并沒有在機器人領(lǐng)域得到很好的應(yīng)用,Omniverse的出現(xiàn),縮小了仿真與真實世界之間的差距。”
Omniverse是NVIDIA專為虛擬協(xié)作和物理級準(zhǔn)確實時模擬打造的開放式3D仿真平臺,這一平臺在2021年發(fā)布后,就因高精度真實世界仿真能力被《時代》周刊評選為2021年最佳發(fā)明之一。
而就在剛剛過去的CES 2025上,繼在GTC 2024上發(fā)布Project GR00T人形機器人基礎(chǔ)模型后,NVIDIA創(chuàng)始人黃仁勛再次對外發(fā)布了世界基礎(chǔ)模型Cosmos。
據(jù)Deepu Talla介紹,“NVIDIA Cosmos是一個‘世界基礎(chǔ)模型’,可以生成高度逼真、類似視頻游戲的環(huán)境,用于機器人訓(xùn)練,通過將少量的現(xiàn)實世界數(shù)據(jù)與使用像NVIDIA Cosmos這樣的工具生成的大規(guī)模合成數(shù)據(jù)相結(jié)合,我們可以克服機器人技術(shù)中數(shù)據(jù)稀缺的問題。”
不過,在CES 2025上,黃仁勛面向機器人領(lǐng)域?qū)ν獍l(fā)布的,不僅僅有世界基礎(chǔ)模型Cosmos,還有面向機器人研發(fā)的一套完整的工作流。
02 “三臺計算機”和“一套工作流”
2012年,是ImageNet挑戰(zhàn)賽舉辦的第三年,這一年,多倫多大學(xué)教授Geoffrey Hinton帶著他的兩位學(xué)生Alex Krizhevsky和Ilya Sutskever參加了這場比賽,并憑借AlexNet模型一舉拿下了這屆大賽的冠軍。
計算機圖像識別是人工智能領(lǐng)域一個重要分支,AlexNet模型之所以能在這屆大賽中拿下冠軍,是因為它以當(dāng)時大家都不看好的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),獨辟蹊徑地摒棄了逐層無監(jiān)督方法,通過有監(jiān)督學(xué)習(xí)方法大大提升了圖像識別的準(zhǔn)確率。
在2012年的ImageNet挑戰(zhàn)賽中,AlexNet模型圖像識別準(zhǔn)確率達到了驚人的84%。
當(dāng)然,AlexNet模型還有另一個獨特之處,那就是摒棄了當(dāng)時主流的通用處理器,換上了兩個更適合深度學(xué)習(xí)模型訓(xùn)練場景的NVIDIA GTX 580,盡管當(dāng)時的GTX 580主流應(yīng)用場景依然是電子游戲。
這一年之后,卷積神經(jīng)網(wǎng)絡(luò)在學(xué)術(shù)界重回主流視野,以深度學(xué)習(xí)為代表的人工智能技術(shù)開始成為全球科技領(lǐng)域的焦點。
NVIDIA是在2016年的GTC大會上,正式對外發(fā)布了首款針對深度學(xué)習(xí)場景的GPU,DGX-1,也是在這一年,NVIDIA首次將GTC大會帶到了中國,黃仁勛在發(fā)布會現(xiàn)場宣布,“我們不再是一個半導(dǎo)體公司,而是一個人工智能計算公司。”
值得注意的是,NVIDIA的第一臺DGX-1 AI超級計算機,是由黃仁勛捐贈給了當(dāng)時剛剛成立不久的OpenAI。
鮮為人知的是,OpenAI成立之初內(nèi)部就有設(shè)立機器人研發(fā)團隊,OpenAI CEO Sam Altman相信人形機器人是通用人工智能的未來,也希望通過機器人推動通用人工智能技術(shù)落地。
實際上,DGX后來也成了NVIDIA進軍機器人領(lǐng)域的第一臺計算機。
1月7日,CES 2025的開幕主題演講中,機器人成了NVIDIA重點關(guān)注領(lǐng)域之一,為此,黃仁勛還在演講中正式發(fā)布了面向包括人形機器人在內(nèi)的物理AI領(lǐng)域打造的三臺計算機。
人形機器人在開發(fā)過程中,由于涉及包括AI模型訓(xùn)練、機器人運動仿真在內(nèi)的大量計算,為此,NVIDIA面向物理AI和機器人訓(xùn)練、仿真、運行構(gòu)建了三臺計算機,這三臺計算機分別為:
用于AI模型訓(xùn)練的超級計算機NVIDIA NeMo、用于軟件開發(fā)和仿真測試運行在NVIDIA OVX服務(wù)器上的Omniverse和Isaac Sim,以及用于機器人本地部署的機器人專用計算平臺Jetson Thor。
這其中,NVIDIA針對具有智能大腦的計算平臺的布局可以追溯至10年前。
2014年,NVIDIA面向嵌入式場景推出了Jetson TK1,自那時起,Jetson系列計算平臺開始成為機器人端側(cè)算力的重要支撐。
2018年又推出了Jetson Xavier,2022年推出的Jetson Orin性能更是較上一代Xavier提升了10倍。
而即將推出的Jetson Thor是為滿足人形機器人對算力的巨大需求而設(shè)計,可以說是目前最強嵌入式AI計算平臺。
Isaac Sim則是NVIDIA在2019年對外發(fā)布的,基于Omniverse的仿真平臺,用于在物理的虛擬環(huán)境中仿真和測試AI驅(qū)動的機器人。
在今年的CES上,針對機器人的合成運動生成,NVIDIA再次發(fā)布了一個名為NVIDIA Isaac GR00T Blueprint的仿真工作流,基于此,機器人可以從少量人類示范中生成大量合成運動數(shù)據(jù)集,極大降低了在真實世界中收集廣泛、高質(zhì)量數(shù)據(jù)的難度和成本。
這套工作流共分為四步:
第一步,GR00T-Teleop借助Apple Vision Pro在數(shù)字孿生環(huán)境中捕捉人類動作,這些人類動作被記錄下來作為金標(biāo)準(zhǔn),并在仿真環(huán)境中由機器人模仿學(xué)習(xí);
第二步,GR00T-Mimic將捕捉到的人類示范動作擴展為更大的合成運動數(shù)據(jù)集;
第三步,基于Omniverse和Cosmos平臺構(gòu)建的GR00T-Gen通過域隨機化和3D提升技術(shù),指數(shù)級擴增這個數(shù)據(jù)集;
第四步,擴增后的數(shù)據(jù)集作為機器人策略的輸入,在Isaac Lab中教會機器人如何在其環(huán)境中高效且安全地移動和互動。
作為國內(nèi)人形機器人領(lǐng)域明星企業(yè)銀河通用的創(chuàng)始人,王鶴同樣相信合成數(shù)據(jù)是推動人形機器人智能發(fā)展的關(guān)鍵,他們也是最早基于NVIDIA Isaac Sim和Omniverse和成機器人操作數(shù)據(jù),并研發(fā)出了機器人VLA模型的團隊。
據(jù)王鶴透露,“銀河通用已經(jīng)訓(xùn)練出了全球第一個10億級參數(shù)規(guī)模的端到端具身抓取基礎(chǔ)大模型GraspVLA,基于這一模型的機器人具備泛化抓取能力,即使面對一些特殊零件抓取任務(wù),只需要采集100條數(shù)據(jù)并掌握零件名稱后,就能實現(xiàn)對這一零件的泛化抓取。”
不過,對于NVIDIA而言,通過這樣三臺計算機和一套工作流并不是為了制造人形機器人,Deepu Talla解釋稱,“我們的目標(biāo)是打造一個平臺,讓每個人都能創(chuàng)建自己的機器人。”
03 通用機器人的ChatGPT時刻
據(jù)《中國人形機器人創(chuàng)新發(fā)展報告 2025》統(tǒng)計數(shù)據(jù)顯示,2024年中國人形機器人整機企業(yè)有79家,市場規(guī)模約為27.6億元,預(yù)計2025年將翻倍至53億元,2029年有望達750億元。
市場規(guī)模階躍式增長,是人形機器人產(chǎn)業(yè)熱潮的真實寫照。
為什么我們需要機器人,尤其是人形機器人?
Deepu Talla認(rèn)為,現(xiàn)在至少有三個原因正在讓機器人變得不可或缺:
第一,危險工作,例如礦工或其它在危險環(huán)境中工作的人員,機器人可以替代人類承擔(dān)這些危險任務(wù);
第二,勞動力短缺,人口短缺已經(jīng)成為一個全球趨勢,未來將會由機器人彌補因人口短缺帶來的勞動力不足的問題;
第三,養(yǎng)老需求,人口老齡化是如今另一個社會問題,尤其是伴隨著人類壽命越來越長,我們未來將需要一個機器人來幫助解決老年人護理和陪伴問題。
然而,作為全球科技領(lǐng)域終極難題,人形機器人一直難以在養(yǎng)老看護、社會服務(wù),以及更多商用場景中得到落地。
以生成式AI、大模型為代表的人工智能技術(shù)的突破和迅猛發(fā)展,讓機器人運動控制能力有了泛化的可能,也讓我們看到了人形機器人在現(xiàn)實場景落地的可能。
于是,在GTC 2024上,黃仁勛將來自全球不同國家的9款明星人形機器人請到了舞臺上,讓全世界看到了人形機器人正在加速照進現(xiàn)實,彼時一并發(fā)布的,還有NVIDIA首個人形機器人通用基礎(chǔ)模型 Project GR00T。
而在過去一年里,我們看到,國內(nèi)包括宇樹、傅利葉、銀河通用、智元機器人在內(nèi)的多家團隊的機器人進入工業(yè)、零售等場景中,開始測試人形機器人的實際應(yīng)用能力。
然而,在人形機器人進入真實場景后,由于訓(xùn)練數(shù)據(jù)不足,數(shù)據(jù)越發(fā)成為機器人突破的瓶頸,NVIDIA Isaac GR00T Blueprint的發(fā)布,從根本上解決了這一問題。
正是在解決了這一問題后,在CES 2025上,當(dāng)再次將來自全球不同國家的14款人形機器人請到舞臺上時,黃仁勛給出了他的斷言,“通用機器人的ChatGPT時刻即將到來。”
也是在這時,特斯拉官宣將在2025年量產(chǎn)數(shù)千臺人形機器人,國內(nèi)多家明星企業(yè)更是早在2024年相繼對外公布了人形機器人量產(chǎn)計劃。
2025年,我們迎來了人形機器人第一個量產(chǎn)之年,也將迎來通用機器人的ChatGPT時刻。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。
關(guān)注智造、硬件、機器人。