作者 | 金旺
欄目 | 機(jī)器人新紀(jì)元
2025年,人形機(jī)器人進(jìn)入量產(chǎn)之年。
來自IDC的統(tǒng)計(jì)數(shù)據(jù)顯示,2024年中國(guó)人形機(jī)器人商用銷售出貨量約為2000臺(tái),預(yù)計(jì)到2030年將會(huì)達(dá)到6萬臺(tái)。
更直觀的數(shù)據(jù)是,今年不少國(guó)內(nèi)頭部人形機(jī)器人團(tuán)隊(duì)陸續(xù)對(duì)外公布了拿到的量產(chǎn)合同或交付訂單,有團(tuán)隊(duì)交付了數(shù)百臺(tái)產(chǎn)品,也有團(tuán)隊(duì)拿到了上千臺(tái)訂單,甚至有天太機(jī)器人與多個(gè)戰(zhàn)略合作伙伴,共同簽署了全球首個(gè)具身智能人形機(jī)器人萬臺(tái)訂單。
人形機(jī)器人不僅是人工智能從虛擬世界走向物理世界、是具身智能的關(guān)鍵載體,2025年,作為人形機(jī)器人的關(guān)鍵技術(shù),具身智能正式被寫入了政府工作報(bào)告,成為國(guó)家戰(zhàn)略性新興產(chǎn)業(yè)。
一方面,人工智能技術(shù)突破推動(dòng)了人形機(jī)器人的快速發(fā)展;
另一方面,在人形機(jī)器人批量進(jìn)入商業(yè)市場(chǎng)時(shí),目前所具備的能力仍以執(zhí)行抓取、放置、分揀等基礎(chǔ)任務(wù)為主,在算力、算法、數(shù)據(jù),乃至整機(jī)研發(fā)上。
如何推動(dòng)人形機(jī)器人持續(xù)成長(zhǎng)、成長(zhǎng)為未來新一代生產(chǎn)力,仍是一個(gè)值得整個(gè)產(chǎn)業(yè)思考的關(guān)鍵問題。
在9月13日的PEC 2025 AI創(chuàng)新者大會(huì)暨第二屆提示工程峰會(huì)上的年度提問環(huán)節(jié),至頂科技&科技行者主編金旺與
國(guó)地共建具身智能機(jī)器人創(chuàng)新中心學(xué)術(shù)委員會(huì)主任、首席研究員 張強(qiáng)
數(shù)字華夏聯(lián)合創(chuàng)始人&軟件與應(yīng)用中心總經(jīng)理 陳軍民
地瓜機(jī)器人技術(shù)副總裁 隋偉
跨維智能具身智能算法總監(jiān) 郭成凱
冪特科技聯(lián)合創(chuàng)始人兼CTO 王志成
進(jìn)行了一場(chǎng)以《新物種時(shí)代:人形機(jī)器人如何“長(zhǎng)大”?》為主題的深度對(duì)話。
在這場(chǎng)深度對(duì)話中,他們從硬件、算法、數(shù)據(jù)、算力全維度,一起探討了人形機(jī)器人的技術(shù)現(xiàn)狀、成長(zhǎng)空間,以及商業(yè)化路徑。
以下為本場(chǎng)對(duì)話經(jīng)編輯后的內(nèi)容:
01 具身智能熱潮中,人形機(jī)器人的技術(shù)收斂了嗎?
問:經(jīng)過這幾年的高速發(fā)展,人形機(jī)器人在硬件本體上收斂到了哪幾種主流技術(shù)方案?
陳軍民:機(jī)器人發(fā)展至少有四五十年了,這一波人形機(jī)器人浪潮興起有兩個(gè)核心因素:人工智能與具身智能。
自2022年起,運(yùn)控智能、交互智能、作業(yè)智能、具身智能四條技術(shù)線齊頭并進(jìn)、互相促進(jìn)。
我們數(shù)字華夏定位有溫度的AI人形交互機(jī)器人,從設(shè)計(jì)、研發(fā)到商業(yè)落地全棧閉環(huán)。我們機(jī)器人具備交互智能與具身智能能力,我們把硬件收斂為“鐵三角”:
第一是關(guān)節(jié)模塊,這是機(jī)器人的核心部件,它也可以理解為是機(jī)器人的肌肉,直接決定了運(yùn)動(dòng)性能與整個(gè)機(jī)器人的成本;
第二是大小腦硬件,也就是有大腦的AI算力板和小腦的控制板,“大腦”感知物理世界并做出決策,“小腦”負(fù)責(zé)將其分解為每個(gè)關(guān)節(jié)電機(jī)的具體控制指令,并確保整個(gè)過程快速且穩(wěn)定,二者通過高速總線(如EtherCAT、CAN FD)進(jìn)行通信;
第三是多模態(tài)融合的感知設(shè)備,例如通過雙目RGB、深度相機(jī)、激光雷達(dá)看三維世界,通過麥克風(fēng)、電子皮膚實(shí)現(xiàn)聽觸同步,讓機(jī)器人像人一樣“看見”并“讀懂”現(xiàn)實(shí)。
正因?yàn)橛辛诉@些感知設(shè)備,機(jī)器人可以對(duì)現(xiàn)實(shí)的物理世界進(jìn)行感知和交互,這使得硬件方面現(xiàn)在有了一定的技術(shù)收斂。
問:具身模型現(xiàn)在分為端到端和分層決策兩類,就現(xiàn)階段技術(shù)進(jìn)程來看,兩類技術(shù)架構(gòu)分別適合怎樣的人形機(jī)器人應(yīng)用,或執(zhí)行怎么樣的任務(wù)?
郭成凱:天下大勢(shì),合久必分,分久必合,這是一個(gè)永恒的話題。
其實(shí)從深度學(xué)習(xí)出現(xiàn),2014年人臉識(shí)別技術(shù)突破之后,大量專用的深度學(xué)習(xí)模型開始涌現(xiàn),例如人臉識(shí)別、目標(biāo)檢測(cè)、語義分割、意圖識(shí)別等。
所以2017年左右達(dá)到了頂峰,大量深度學(xué)習(xí)企業(yè)做專有模型來執(zhí)行任務(wù),但是當(dāng)時(shí)大家從來沒有想過會(huì)有一個(gè)模型能一統(tǒng)天下。
在ChatGPT出現(xiàn)之后,一下突破了大家的認(rèn)知,因?yàn)槌霈F(xiàn)了Scaling Law——把所有知識(shí)喂給一個(gè)大語言模型,用更多的數(shù)據(jù)和算力去做的時(shí)候,一個(gè)模型就可以解決自然語言里的所有問題。
人形機(jī)器人這個(gè)概念在ChatGPT爆發(fā)之后,一線投資機(jī)構(gòu)就開始投進(jìn)來了,在2023年6月之前,人形機(jī)器人的概念已經(jīng)在投資界做好了布局。
因?yàn)楫?dāng)時(shí)大家的預(yù)測(cè)是說到2025年,在GPT5或GPT6的時(shí)刻可能會(huì)將整個(gè)視覺壓縮到一個(gè)模型中,實(shí)現(xiàn)世界模型的突破。
這個(gè)情況下,當(dāng)整個(gè)世界有一個(gè)模型就能解決所有問題時(shí),很自然就想到了通過控制機(jī)械臂去解決物理世界的問題,所以人形機(jī)器人在2023年6月一下子就爆發(fā)了出來。
到今天,大家發(fā)現(xiàn)人形機(jī)器人比想象中要更復(fù)雜,因?yàn)樗俗匀徽Z言之外,還有機(jī)械臂本體問題、機(jī)械臂運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)的特征,以及外部環(huán)境問題,所以它的狀態(tài)空間更復(fù)雜,而且GPT5也沒能達(dá)到大家的預(yù)期。
更好用的模型是針對(duì)一個(gè)特定場(chǎng)景、特定任務(wù)做大量數(shù)據(jù)訓(xùn)練,解決一個(gè)特定場(chǎng)景的問題。所以這種端到端的模型非常流行,而且解決了很多問題。
但是大家明確知道它沒有世界知識(shí),目前這么強(qiáng)的多模態(tài)大模型,完全可以以指揮大腦、小腦的方式,讓小腦的原子任務(wù)通過大腦去做調(diào)度分析來實(shí)現(xiàn)整套方案。
所以現(xiàn)在分層方案、大小腦方案是真實(shí)落地過程中更實(shí)際的一個(gè)方案。
但是現(xiàn)在整個(gè)業(yè)界認(rèn)為,機(jī)器人領(lǐng)域也有Scaling Law,最終也可能收斂到一個(gè)模型去解決所有問題,所以大家也都在往這個(gè)方向去努力。
問:在打造人形機(jī)器人通用感知系統(tǒng),現(xiàn)在有怎樣的新技術(shù)進(jìn)展可以分享,這樣的通用感知系統(tǒng)為現(xiàn)在的人形機(jī)器人帶來了怎樣的關(guān)鍵能力提升?
張強(qiáng):在大家對(duì)人形機(jī)器人期待的背后,其實(shí)我們也還是會(huì)不斷地去回答VC或市場(chǎng)的問題,你做這個(gè)東西要干什么?
最開始是給予它一定的基礎(chǔ)控制能力,讓大家看到一個(gè)可能性。因?yàn)槲覀冏鰴C(jī)器人、做AI,我覺得唯一的目的就是通用。
如果說我要做一個(gè)專用的事情,完全不需要人工智能,AI的魅力其實(shí)就在于通用。
我給你(AI)看100張貓的照片,不是要讓你在100張貓的照片里學(xué)什么,而是要讓你在看到第101張照片的時(shí)候,你知道它是貓不是狗。這其實(shí)是一個(gè)泛化和通用的能力。
只有有了這種能力,我們才能讓它真正在現(xiàn)實(shí)中去工作,機(jī)器人更是如此。
最開始我們做基礎(chǔ)視覺任務(wù),分類、分割、檢測(cè)等用的都是專用模型,但很顯然人不是這樣處理空間的,到后來我們就有了做通用表征的模型,人形機(jī)器人他要面對(duì)的場(chǎng)景其實(shí)更復(fù)雜一些。
黃仁勛認(rèn)為,未來一共會(huì)有三種形態(tài)的機(jī)器人,自動(dòng)駕駛汽車、人形機(jī)器人、無人機(jī)。
自動(dòng)駕駛汽車是在一個(gè)非常規(guī)則化的場(chǎng)景里——有道路、交通標(biāo)識(shí)、有自己的規(guī)則,自動(dòng)駕駛汽車的感知系統(tǒng)就建立成了符合它的感知形狀。
人形機(jī)器人要面對(duì)的是另一套感知世界,是和人非常匹配的感知世界,如何去使用一個(gè)更好的通用感知系統(tǒng),其實(shí)對(duì)于人形機(jī)器人下個(gè)階段非常關(guān)鍵。
第一個(gè)階段存在的運(yùn)控型公司再往下講自己的故事的時(shí)候,一定會(huì)有各種各樣的傳感器進(jìn)來,那視覺肯定是最先進(jìn)來的傳感器,因?yàn)槟阌辛诉@個(gè)傳感器才能讓人形機(jī)器人的控制變得更好。
問:人形機(jī)器人現(xiàn)在對(duì)仿真數(shù)據(jù)和真實(shí)數(shù)據(jù)有怎樣的需求?
王志成:冪特科技的英文名是PowerTech,我們希望通過自己的努力,使具身智能的數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),使具身智能的智能冪次進(jìn)化。
目前具身的數(shù)據(jù)確實(shí)非常稀缺,特別是數(shù)據(jù)多樣性的稀缺是制約具身智能破局的關(guān)鍵。以目前數(shù)采方案來看,數(shù)據(jù)量也很難實(shí)現(xiàn)指數(shù)級(jí)增長(zhǎng)。
仿真數(shù)據(jù)的好處是可以快速地去生成具有一定隨機(jī)性的大量數(shù)據(jù),這里的關(guān)鍵點(diǎn)不是大量,而是隨機(jī)性,通過隨機(jī)性可以彌補(bǔ)一些真機(jī)無法覆蓋的場(chǎng)景。
但是通過仿真很難復(fù)刻整個(gè)世界,會(huì)有一定人為設(shè)計(jì)的痕跡,我覺得更多、更大量的數(shù)據(jù)需要來自于真實(shí)世界。
真實(shí)的數(shù)據(jù)有兩個(gè)優(yōu)點(diǎn):
一個(gè)是,它可以快速在特定場(chǎng)景搭建數(shù)采通路,可以盡快在特定場(chǎng)景構(gòu)建Demo;
另一個(gè)是,真機(jī)數(shù)據(jù)可以提供真實(shí)世界物理交互的力學(xué)信息,可以提供真實(shí)世界的觸覺反饋,這兩點(diǎn)是人形機(jī)器人在真實(shí)世界落地必不可少的。
問:如何低成本、獲取高質(zhì)量、海量數(shù)據(jù)?
王志成:在回答這個(gè)問題之前,我們先要回答這幾個(gè)問題:
什么樣的數(shù)據(jù)采集方案可以使得我們的數(shù)據(jù)成指數(shù)級(jí)增長(zhǎng)?
什么樣的數(shù)據(jù)獲取方案可以不用穿戴額外設(shè)備?
什么樣的數(shù)據(jù)獲取方案可以盡可能貼近真實(shí)世界的多樣性?
我覺得使用人類視頻數(shù)據(jù)是一個(gè)比較好能回答這三個(gè)問題的方案。
我們是通過3D人體姿態(tài)識(shí)別和人的動(dòng)作軌跡還原,可以使得視頻數(shù)據(jù)真正通過重定向映射到人形機(jī)器人上,生成真正可以用來去做后訓(xùn)練的數(shù)據(jù)。
我們也關(guān)注到特斯拉最近在做技術(shù)路線的轉(zhuǎn)型,更聚焦到人類視頻數(shù)據(jù)上,我相信他們也有類似的思考。
問:智源研究院的分級(jí)標(biāo)準(zhǔn)中指出在具備感知能力的L3到具備認(rèn)知能力的L4階段過渡,參照自動(dòng)駕駛發(fā)展,這一階段的人形機(jī)器人對(duì)算力提出了怎樣的需求?
隋偉:其實(shí)現(xiàn)在具身這一塊的自動(dòng)化等級(jí)分級(jí),并沒有像自動(dòng)駕駛那樣形成一個(gè)非常明確的標(biāo)準(zhǔn)。
在自動(dòng)駕駛領(lǐng)域,L2是低階輔助駕駛,L3是有限的高階輔助駕駛。L3其實(shí)是一個(gè)很重要的節(jié)點(diǎn),因?yàn)閺某霈F(xiàn)事故的責(zé)任劃規(guī)角度來看,L3就已經(jīng)將事故責(zé)任從駕駛員劃歸到了主機(jī)廠。
所以從法規(guī)上來講,沒有一家企業(yè)可以宣稱它是L3,但從技術(shù)角度來講的話,其實(shí)很多這種方案廠商或主機(jī)廠商已經(jīng)可以實(shí)現(xiàn)一些L3的功能,例如在高速上就完全可以實(shí)現(xiàn)L3,在城區(qū)的話,也可以實(shí)現(xiàn)有限制的L3。
現(xiàn)在自動(dòng)駕駛的水平,在城市場(chǎng)景里可以做到80-100公里接管一次,這就是MPI指標(biāo),這個(gè)指標(biāo)肯定是越高越好。我們現(xiàn)在看到城市的高階輔助駕駛一般80-100公里接管一次就已經(jīng)是一個(gè)非常好的體驗(yàn)。
L4的話,就是robot taxi,那就需要做到幾十萬公里接管一次,所以這個(gè)其實(shí)要求還非常高。
回到具身的話,我們看現(xiàn)在具身還并沒有這樣一個(gè)明確的標(biāo)準(zhǔn),但現(xiàn)在這波具身主要的價(jià)值就是往通用性在走,所以從最近的技術(shù)發(fā)展來看,確實(shí)也都在往L4的路線在走,也就是VLA這個(gè)路線。
自動(dòng)駕駛現(xiàn)在的算力要求是,基礎(chǔ)的輔助駕駛、我們說的是L2,大概需要幾TOPS到十幾TOPS就可以完成了,像高速這個(gè)場(chǎng)景的話,就需要幾十到100TOPS這個(gè)區(qū)間;
高階自動(dòng)駕駛現(xiàn)在有兩條路線,一個(gè)是端到端的路線,大概需要500TOPS左右就能實(shí)現(xiàn)一個(gè)城區(qū)的NOA高階輔助駕駛,也就是對(duì)標(biāo)L3左右;
L4現(xiàn)在還沒有看到,到幾十萬公里接管一次這種能力還在發(fā)展當(dāng)中,但是確實(shí)是在往VLA這個(gè)技術(shù)路線的發(fā)展,那我們現(xiàn)在預(yù)測(cè)大概需要1000-2000TOPS左右起步。
具身和自動(dòng)駕駛還會(huì)有些不一樣,具身最大的挑戰(zhàn)性在于環(huán)境的多樣性和任務(wù)的多樣性。因?yàn)樽詣?dòng)駕駛就一個(gè)任務(wù),就是做駕駛?cè)蝿?wù),但是具身面對(duì)的任務(wù)非常多,對(duì)于算力的要求現(xiàn)在也還沒有非常明確。
地瓜機(jī)器人是提供AI算力芯片的,我們也接觸了很多客戶,基本上普遍認(rèn)為VLA模型,3B-7B的模型容量,所需的算力大概在在500到1000TOPS左右。
從目前具身現(xiàn)狀來看的話,如果是要走通用性,那算力肯定是要從大概500-1000TOPS起步。
02 現(xiàn)有技術(shù)儲(chǔ)備下,人形機(jī)器人有怎樣的成長(zhǎng)空間?
問:現(xiàn)在行業(yè)中有一種觀點(diǎn)是,人形機(jī)器人本體性能已經(jīng)很好,但是模型能力不足是現(xiàn)階段發(fā)展瓶頸,您怎么看現(xiàn)在人形機(jī)器人軟硬件發(fā)展現(xiàn)狀,以及就您了解今年模型有哪些最新技術(shù)突破提升了人形機(jī)器人的“智能”?
張強(qiáng):目前國(guó)內(nèi)人形機(jī)器人用到的硬件基本上還是沿著2017年mini cheetah開源路線在走,我們是將它的成本做下來、做到量產(chǎn),用行星模組將人形機(jī)器人堆起來并實(shí)現(xiàn)了運(yùn)動(dòng)控制。
但坦率來講,美國(guó)在硬件上做得確實(shí)比我們好,不管是波士頓動(dòng)力用的滾珠絲杠+力控諧波,還是說像特斯拉Optimus的硬件,這些機(jī)器人的電機(jī)電調(diào),從關(guān)節(jié)模組、傳感器配置到 精密生產(chǎn),其實(shí)是更領(lǐng)先于我們。
但是我們確實(shí)打了一個(gè)漂亮的仗,我們通過大膽嘗AI強(qiáng)化學(xué)習(xí)模型,在量產(chǎn)化機(jī)器上取得了非常好的效果。
模型上來看,我覺得中美現(xiàn)在在同一個(gè)階段,接下來的發(fā)展就是看硬件能不能再支撐起來下一代的模型。
我這里有兩個(gè)觀點(diǎn),我覺得現(xiàn)在人形機(jī)器人的硬件也缺、軟件也缺,硬件缺乏的是——我們現(xiàn)在只是暫時(shí)性地解決了一些動(dòng)力性問題,比如說我們的關(guān)節(jié)模組已經(jīng)有一定的發(fā)展空間。
我最開始在做人形機(jī)器人,大概2021年時(shí)候,我們想拿AI模型去做這個(gè)事情的時(shí)候,發(fā)現(xiàn)在國(guó)內(nèi)根本買不到適用的關(guān)節(jié)模組。但現(xiàn)在大家都知道這是一個(gè)非常大的蛋糕、百億級(jí)市場(chǎng),這個(gè)行業(yè)得到了快速發(fā)展。
還有沒有解決的是,我們?cè)谌诵螜C(jī)器人上,下一代要用到的很多傳感器、新型關(guān)節(jié)、新型結(jié)構(gòu)還沒有探索,這個(gè)是我們?cè)谧鲇布切枰^續(xù)去做的。
我們看到機(jī)器人控制算法在一些人形機(jī)器人的前沿問題上,它是在仿真里做的。
為什么在仿真里可以實(shí)現(xiàn),在現(xiàn)實(shí)中卻用不了?
有一個(gè)問題是,機(jī)器人在現(xiàn)實(shí)中受到的噪音、各種問題還是非常大,Sim2Real的時(shí)候是有g(shù)ap的。如果我的硬件可以做到非常透明、魯棒性很好,那Sim2Real的gap其實(shí)是可以被縮小的。
軟件上需要的努力是模型要更加robust,不能說在仿真環(huán)境中干凈的信號(hào)下可以,在現(xiàn)實(shí)中就無法實(shí)現(xiàn)。
如果這兩點(diǎn)都能做到的話,其實(shí)機(jī)器人在下一個(gè)階段會(huì)有更好的表現(xiàn),我自己預(yù)估,會(huì)很快到來,可能一兩年就會(huì)有一個(gè)突破性進(jìn)展。
問:今年跨維智能先后發(fā)布了兩款人形機(jī)器人產(chǎn)品,W1和W1 Pro,開始走軟硬一體模式,跨維智能為什么會(huì)有這樣的技術(shù)路線轉(zhuǎn)變?
郭成凱:跨越智能從2021年成立開始就一直致力于做Physical AI的公司,我們的創(chuàng)始人賈老師作為一個(gè)頂尖科學(xué)家,一直堅(jiān)信Sim2Real這個(gè)方向,而且我們是做最專業(yè)的,從開始成立一直在打造工業(yè)級(jí)Sim2Real引擎,用于工業(yè)制造領(lǐng)域。
很多工廠只需要給一個(gè)CAD模型,我們直接可以用合成數(shù)據(jù)訓(xùn)練出一個(gè)模塊,完全在工業(yè)級(jí)達(dá)到3個(gè)9精度的檢測(cè)。
我們整個(gè)Sim2Real引擎是完全自研的,也是國(guó)內(nèi)為數(shù)不多可以對(duì)標(biāo)英偉達(dá)Isaac Sim和Isaac Lab的一套系統(tǒng)。所以我們的slogan是邁向通用物理世界的AI。
人形機(jī)器人是我們今年的一個(gè)新產(chǎn)品,是雙向奔赴的結(jié)果,因?yàn)槲覀円恢痹谧鯯im2Real和物理AI面向通用物理世界。
通用物理世界最大的Agent是什么?我們認(rèn)為是人形機(jī)器人。
而對(duì)于機(jī)器人領(lǐng)域,去年我們很多研討會(huì)討論更多的是,為什么要用人形機(jī)器人,為什么不是特種機(jī)器人,四足或八足。
就機(jī)器人領(lǐng)域來講,今年其實(shí)這個(gè)問題大家問的少了,大家甚至認(rèn)為只要你做人形機(jī)器人企業(yè)、具身智能企業(yè),如果你不是雙足的,你可能都不是這個(gè)行業(yè)的玩家。
最主要的原因是,在通用泛化領(lǐng)域里,只有人形機(jī)器人才能解決通用世界的問題。
前段時(shí)間波士頓動(dòng)力的一個(gè)演示視頻,一個(gè)機(jī)器人從一個(gè)箱子里拿物體到另外一個(gè)箱子里的時(shí)候,本來我們訓(xùn)練模型時(shí),你可以讓它一直「拿過來-放下去」,但是不小心掉了的話,對(duì)于一個(gè)普通機(jī)器人照樣會(huì)嘗試去拿,這時(shí)候它其實(shí)夠不到了。
對(duì)于人來講,你通過遙操作方式訓(xùn)練它,人退一步或前進(jìn)一步,很自然就把它拿起來放回去了,然后再回來拿箱子。這種操作只有人的動(dòng)作可以直接交給機(jī)器人的策略模型,而其它任何系統(tǒng)都可能面臨你要做一些特殊設(shè)置,最終無法實(shí)現(xiàn)人類級(jí)別的泛化。
所以這一塊我覺得我們跨維智能在推出自己的本體,在我們新的引擎基礎(chǔ)上開始往前走是一個(gè)雙向奔赴的結(jié)果,也是兩個(gè)行業(yè)雙向奔赴的一個(gè)結(jié)果。
問:我們知道現(xiàn)在有一種說法是“有多少數(shù)據(jù)、就有多少智能”,打造數(shù)據(jù)工廠這樣一條技術(shù)鏈路的難點(diǎn)是什么?
王志成:我非常同意您說的“有多少數(shù)據(jù),就有多少智能”。
如果說講泛化性,我覺得其實(shí)得從兩個(gè)方面去講,一個(gè)是從數(shù)據(jù),一個(gè)是從模型。
從數(shù)據(jù)層面來看,我們需要思考的問題是,按照目前數(shù)據(jù)獲取方式都是呈線性增長(zhǎng)趨勢(shì),如果模式不變,或者說沒有一種呈指數(shù)方式獲取數(shù)據(jù)的方法,我覺得到今年年底可能只是有些以前不能干的任務(wù)現(xiàn)在能干了,或者以前能干的任務(wù)現(xiàn)在干得更細(xì)了,不會(huì)有本質(zhì)上的突破。
我們認(rèn)為泛化性如果真發(fā)生本質(zhì)的突破,一定是數(shù)據(jù)獲取方式上有了新的質(zhì)變。
從模型層面來看,現(xiàn)在比較火的VLA是從LLM或VLM演進(jìn)而來,無論是LLM還是VLM,本質(zhì)上都是為language設(shè)計(jì)的,它的強(qiáng)項(xiàng)在于理解。人形機(jī)器人的核心是action,從理解到動(dòng)作是有很大的鴻溝的,從特征和信息維度來看,有很大的差別。
我認(rèn)為,從真正適配人形機(jī)器人泛化性來入手設(shè)計(jì)模型會(huì)更有必要,這會(huì)是一個(gè)大問題,需要整個(gè)行業(yè)一起努力。
綜上,提升人形機(jī)器人的泛化性,需要從數(shù)據(jù)和模型兩個(gè)維度去做本質(zhì)突破。
問:要進(jìn)入到更廣泛的應(yīng)用場(chǎng)景中,人形機(jī)器人,或更廣泛的具身機(jī)器人對(duì)端側(cè)算力有怎樣的需求?
隋偉:其實(shí)云端算力和端上算力早在2015年,在自動(dòng)駕駛領(lǐng)域就有爭(zhēng)論,那時(shí)候因?yàn)檫吘墏?cè)沒有特別好的算力芯片支持,還是CNN模型,所以當(dāng)時(shí)有一部分人認(rèn)為應(yīng)該在云端來計(jì)算,把數(shù)據(jù)直接傳到云端上去,GPU推理完將結(jié)果返回端上。
實(shí)際上在用的時(shí)候會(huì)有很多的問題,第一是數(shù)據(jù)傳輸成本,那時(shí)候的車還只有前置攝像頭,現(xiàn)在已經(jīng)有十幾路攝像頭,再加上激光雷達(dá),這些數(shù)據(jù)傳上去后,傳輸?shù)男?、帶寬是一個(gè)很大的問題。
另一個(gè)就是安全性的問題,因?yàn)樗鼘?duì)網(wǎng)絡(luò)要求很高,如果車輛在路上突然遇到信號(hào)丟失的情況,這就沒有辦法做這種智能化計(jì)算了,對(duì)安全來說是一個(gè)很大的隱患。
還有就是隱私問題,數(shù)據(jù)上傳到云端后,個(gè)人隱私也是一個(gè)非常重要的點(diǎn),尤其是現(xiàn)在大家隱私安全意識(shí)越來越強(qiáng)了。
回到具身領(lǐng)域來看,其實(shí)也是同樣的問題。
具身數(shù)據(jù)量比自動(dòng)駕駛還要大,因?yàn)閭鞲衅鬟€沒有收斂,所以數(shù)據(jù)傳輸就變得非常重要。
我們認(rèn)為端上有非常大的價(jià)值,端上處理模型也是未來發(fā)展趨勢(shì),現(xiàn)在的問題在于,有些任務(wù)從成本和性能角度來講,目前還不太能做到端上,例如通用的陪聊類模型,背后LLM模型的推理需要很大的計(jì)算量。所以目前我們看到這類產(chǎn)品的此類功能都是放在云端進(jìn)行的。
對(duì)于VLA來說,目前也有一些客戶在嘗試放到云上,但是會(huì)出現(xiàn)延遲,數(shù)據(jù)鏈路非常長(zhǎng),所以現(xiàn)在都在追求將這些模型放到端上。
端上的算力的話,今年我們有一個(gè)560TOPS的算力,這個(gè)算力基本上就能滿足現(xiàn)有像π0、RDT這樣的模型部署。
03 具身商用元年里,人形機(jī)器人有怎樣商業(yè)化路徑?
問:請(qǐng)您結(jié)合實(shí)際落地中遇到的問題談一談,基于現(xiàn)在已有的人形機(jī)器人,有怎樣的商業(yè)價(jià)值?
陳軍民:我從兩個(gè)方面來回答:
第一,行業(yè)視角:從技術(shù)演示到真正商業(yè)應(yīng)用落地,是整個(gè)人形機(jī)器人行業(yè)要跨越的重要階段。
目前來看,整個(gè)機(jī)器人還集中在:接待、指引、展示、表演、陪伴??梢哉f這幾個(gè)領(lǐng)域都還達(dá)不到人機(jī)協(xié)同程度,更多的是提供一些情緒價(jià)值,不是“生產(chǎn)力”。
第二,數(shù)字華夏打法。從去年開始我們一共推出了三款人形機(jī)器人:仿人系列夏瀾、通用系列夏起、IP小人形星行俠。
通過一年多的交互機(jī)器人市場(chǎng)推廣,我們發(fā)現(xiàn)市場(chǎng)對(duì)人形機(jī)器人的需求還蠻大,但當(dāng)前技術(shù)還不足以支撐規(guī)模商用。
根據(jù)市場(chǎng)與技術(shù)的平衡,我們今年4月份推出了一個(gè)小人形星行俠產(chǎn)品,全球首發(fā)的雙形態(tài)人形機(jī)器人,既可以在雙足行走,也可以在輪子上進(jìn)行作業(yè)操作。
去年我們連推三款:仿人旗艦“夏瀾”(妹妹)、通用平臺(tái)“夏起”(哥哥)、IP 小尺寸“星行俠”(弟弟)。
跑了一年市場(chǎng),結(jié)論只有一句:需求很旺,技術(shù)不夠。
于是我們今年4月把“星行俠”單獨(dú)拿出來做減法,做成全球首款“雙形態(tài)”小人形——雙足能走,輪式能干。
為什么是它先商用量產(chǎn)?
我挑三個(gè)硬指標(biāo):
1)安全——星行俠大部分是站在輪子上服務(wù)人類,有必要的時(shí)候,也可以抱它下來走一走,商用落地的安全性可以保障。
2)續(xù)航——輪式反向補(bǔ)電,一口氣干 8 小時(shí),徹底告別“2 小時(shí)焦慮”;
3)成本——有手有腳的具身交互機(jī)器人才十幾萬,渠道敢囤、客戶敢用。
我們目前正在進(jìn)行第二輪融資,我們這一輪融資的目的就是去規(guī)模商用這款人形機(jī)器人。
問:現(xiàn)在人形機(jī)器人在工業(yè)場(chǎng)景的應(yīng)用有哪些成熟能力?近期會(huì)有怎樣高價(jià)值的商業(yè)落地技能?
郭成凱:2023年人形機(jī)器人爆火的另一個(gè)原因是馬斯克提出人形機(jī)器人進(jìn)工廠,但是從行業(yè)發(fā)展到今天來講的話,很多人反饋,馬斯克的人形機(jī)器人進(jìn)汽車工廠打工的概念其實(shí)是忽悠了大家,從真實(shí)落地角度來講,它還不具備在汽車工廠里代替工人去做裝配或各種復(fù)雜任務(wù)。
但是,大家會(huì)發(fā)現(xiàn),人形機(jī)器人有個(gè)天然優(yōu)勢(shì),以前傳統(tǒng)工業(yè)生產(chǎn)過程中是以單點(diǎn)、單臂操作為主。因?yàn)樗鼙WC這種工業(yè)生產(chǎn)的7x24小時(shí)工作,實(shí)際上雙臂的協(xié)同或更多的協(xié)同本身就比較少。但是人形機(jī)器人的天然優(yōu)勢(shì)是,它是雙臂可以協(xié)同的,而且我們現(xiàn)在VLA的模型也好,包括LBM模型或其他各種現(xiàn)在人形機(jī)器模型都在雙臂協(xié)同上證明了它有很多很驚艷的效果。在這一點(diǎn)上反倒是衍生出了很多新需求,最明顯的是工業(yè)分揀。
另外一個(gè)是人形機(jī)器人上有一雙高自由度的靈巧手,這雙靈手可以處理各種不同任務(wù),例如不同形狀、材質(zhì),甚至不同大小的包裹,流水線上有軟箱子,還有各種不同形狀的水杯。
另外還有一些因?yàn)槿诵螜C(jī)器人可以雙足行走,通過性會(huì)比較好,和人比較接近,會(huì)有這種搬箱子之類的操作,以前工業(yè)級(jí)還沒有把這種功能完全釋放出來。
另外,在一些像組裝創(chuàng)景,也會(huì)在工業(yè)生產(chǎn)線上有一些多模態(tài)大模型讓整個(gè)流程變得更智能。
大家現(xiàn)在還是過于高估人形機(jī)器人兩年之內(nèi)的可能性,低估了它十年之后的可能性。原因就是一般技術(shù)迭代是以1.1倍速度在增長(zhǎng),十年之后就是十倍,但是兩三年沒什么太大區(qū)別。
但是我們明顯能感覺到的是,人形機(jī)器人的發(fā)展速度已經(jīng)達(dá)到了1.3倍以上,這種發(fā)展絕對(duì)是超出大家想象的。
所以我們覺得,樂觀估計(jì),兩年左右會(huì)出現(xiàn)人形機(jī)器人的ChatGPT時(shí)刻。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。
關(guān)注智造、硬件、機(jī)器人。