作者 | 金旺
欄目 | 機器人新紀元
就在上個月,由北京人形機器人創(chuàng)新中心牽頭,上海人形機器人創(chuàng)新中心、浙江人形機器人創(chuàng)新中心,以及優(yōu)必選、宇樹科技、中國信通院等共同參與制定的《人形機器人智能化分級》團體標準正式發(fā)布。
在這個標準中,根據(jù)感知認知、決策學習、執(zhí)行表現(xiàn)、協(xié)作交互四個能力維度,制定了類似自動駕駛的L1-L5級評級標準。
在推動具身智能機器人就四個維度能力升級過程中,既依賴數(shù)據(jù)、算法能力的提升,也對算力提出了更高的要求。
作為自為自動駕駛汽車提供算力的地平線孵化而出的機器人團隊,地瓜機器人在6月11日正式對外發(fā)布了新款算控一體開發(fā)平臺RDK S100。
據(jù)地瓜機器人開發(fā)者生態(tài)副總裁胡春旭在會上介紹稱,“大小腦協(xié)同是具身智能機器人的必經(jīng)之路,基于大小腦協(xié)同異構架構設計的RDK S100,是行業(yè)內(nèi)首款具備百TOPS算力的算控一體化機器人開發(fā)套件。”
這時,地瓜機器人剛剛完成1億美元A輪融資,志在成為機器人時代的Wintel,打造機器人時代的CUDA。
01 端到端or大小腦?
根據(jù)IFR統(tǒng)計數(shù)據(jù)顯示,2023年,中國工業(yè)機器人裝機量為27.63萬臺,在全球裝機量占比高達51%,這時的中國工業(yè)機器人裝機量已經(jīng)連續(xù)多年位居全球第一。
機器人并非一個全新的產(chǎn)業(yè),在這波人形機器人爆火全球之前,人形機器人技術也已經(jīng)發(fā)展了半個多世紀,非人形機器人更是在工業(yè)、倉儲、餐飲、酒店等多個場景落地應用多年。
不同的是,2022年11月,ChatGPT的發(fā)布,成了機器人產(chǎn)業(yè)走向智能化、通用化的一個拐點。
基于“機器人行業(yè)與大模型進入到了一個互相滲透階段”的判斷,2024年,地平線將機器人事業(yè)部拆分而出,地瓜機器人由此而來。
2024年,機器人也已經(jīng)不是一個新鮮事物,機器人運動控制鏈路由感知、決策和規(guī)劃、動作控制和生成三大環(huán)節(jié)構成已經(jīng)成為行業(yè)共識,但在具身智能實現(xiàn)路徑上,卻形成了端到端和大小腦兩條不同的技術路徑。
端到端技術路徑以谷歌2023年7月對外發(fā)布的RT-2模型為代表,RT-2是一個完整的VLA(視覺-語言-動作)模型,研究人員只需通過語音給出指令,搭載RT-2的機器人就可以自動完成從視覺識別到動作執(zhí)行的全過程。
不過,RT-2雖然通過把互聯(lián)網(wǎng)上的視頻作為輔助訓練數(shù)據(jù),在一定程度上提升了模型的泛化性,但由于谷歌團隊最初進行數(shù)據(jù)采集的廚房里的場景相對固定,一旦在真實世界中遇到與訓練數(shù)據(jù)有較大差異的場景,機器人就無法再精準執(zhí)行任務。
用于訓練VLA模型的數(shù)據(jù)嚴重不足,就成了當下端到端技術路徑的瓶頸。
相較而言,地瓜機器人短期內(nèi)走的是另一條路徑,大小腦協(xié)同路徑。
胡春旭借智元機器人提出的具身智能分級標準指出,“現(xiàn)在我們正處于從G2(任務編排)跨越到G3(認知推理和規(guī)劃)的發(fā)展階段,而大小腦協(xié)同技術將會是解決從G2跨越到G3發(fā)展階段的關鍵方法。”
之所以有如此判斷,是因為大小腦技術路線的本質(zhì)是分層決策模型,其中,大腦負責理解和分解任務、制定任務執(zhí)行策略,小腦負責具體的動作執(zhí)行并反饋結果。
這一技術路線實現(xiàn)難度更低、可解釋性更高,可控性也更好,與此同時,由于對于數(shù)據(jù)量要求較小,也在一定程度上規(guī)避了當下具身智能模型訓練過程中數(shù)據(jù)量嚴重不足的問題。
正因如此,胡春旭指出,“我們認為,在三年之內(nèi),基于這種技術路徑的機器人更容易在餐飲配送、酒店迎賓、無人駕駛汽車,乃至四足機器人、人形機器人數(shù)據(jù)采集環(huán)節(jié)實現(xiàn)規(guī)?;涞?/strong>。”
那么,在這一階段,機器人需要配備多少算力?又需要怎樣的專用芯片?
02 大小腦需要怎樣的計算單元?
6月11日,在深圳科創(chuàng)學院的地瓜機器人發(fā)布會現(xiàn)場,胡春旭對外展示了13個搭載地瓜機器人RDK S100套件的實際應用案例,我們在發(fā)布會現(xiàn)場看到了這個當下關注度頗高的應用案例——會跳舞的宇樹G1。
自從宇樹的人形機器人登上春晚舞臺后,人形機器人跳舞的熱度不斷飆升,然而,要實現(xiàn)人形機器人精準的運動控制,仿真環(huán)境與現(xiàn)實世界之間的動力學差異是所有機器人團隊都要面對的一大難題。
地瓜機器人不僅成功在RDK S100上部署了ASAP框架,結合Delta動作模型實現(xiàn)了宇樹G1人形機器人在真實環(huán)境中的高效全身運動控制,還基于地瓜機器人獨特的異構計算架構,大幅降低了模型部署的資源占用。
據(jù)悉,這次在BPU上進行模型推理時,模型推理占用率僅為2%,相較于純CPU推理,CPU占用率降低了250%,這為機器人的視覺檢測、目標識別、路徑導航和智能決策等復雜任務留出了更多算力空間。
RDK S100是地瓜機器人此次正式對外發(fā)布的算控一體化機器人開發(fā)套件,胡春旭指出,“RDK S100解決的正是最先推動具身機器人實現(xiàn)產(chǎn)業(yè)落地的分層決策大小腦模型的算力需求。”
據(jù)胡春旭透露,“地瓜機器人是從市場需求出發(fā),基于市場需求反向推導出具身機器人對SoC的具體需求。”
在當下的分層決策大小腦模型中,根據(jù)具體執(zhí)行任務不同,大腦和小腦分別對算力提出了如下需求:
大腦執(zhí)行的是視覺推理、感知計算、任務規(guī)劃,這些任務不需要很強的實時性,但對算力有著很高的需求,目前行業(yè)中普遍采用CPU、GPU作為大腦的計算單元;
小腦接收來自大腦的運動指令,并將指令轉(zhuǎn)化為實時動作,這些任務對實時性有著很高的要求,但并不像大腦那樣對算力有著極高的需求,現(xiàn)在行業(yè)中普遍采用MCU作為小腦的計算單元。
為了為大小腦模型提供算力,目前市面上的主流方案是通過硬件分層——大小腦基于不同芯片分別提供算力,并通過外圍總線進行連接。
作為面向具身智能場景推出的算控一體化機器人開發(fā)套件,RDK S100是在單一SoC上整合了包括用于通信和邏輯決策的CPU、用于模型推理的BPU,以及用于底層高頻控制的MCU。
在RDK S100開發(fā)套件中,地瓜機器人通過6個Cortex-A78AE核心和針對Transformer優(yōu)化的全新一代Nash架構的BPU構成了機器人的“大腦”,用于滿足各類復雜決策和規(guī)劃任務的計算需求,通過4個Arm Cortex R52+MCU組成的高性能“小腦”,用于進行機器人動作的實時響應。
地瓜機器人團隊認為,這樣的異構計算架構,是實現(xiàn)大小腦這一具身智能技術路徑的最佳方案。
這其中最為獨特是地瓜機器人由地平線授權而來的BPU。
由于CPU本身更適合做邏輯處理和任務調(diào)度,為了給機器人提供用于模型推理所需的大算力,地瓜機器人引入了BPU架構。
具體而言,在前文提到的宇樹G1跳舞的演示案例中,人形機器人運動控制執(zhí)行邏輯如下:
宇樹G1的各個關節(jié)由宇樹的驅(qū)動器來進行控制,驅(qū)動器之間的通信基于宇樹開放的網(wǎng)絡SDK實現(xiàn),而這些SDK中的網(wǎng)絡通信功能最終是由CPU提供算力;
此外,CPU作為中央處理器也會并行執(zhí)行網(wǎng)絡通信、實時查看模型推理結果等任務;
BPU作為超級計算單元,重點在于完成所有模型推理工作,讓機器人各個關節(jié)在不同時刻形成特定運動序列,并最終經(jīng)由CPU的調(diào)度將這個運動序列發(fā)送到各個關節(jié)執(zhí)行動作。
據(jù)胡春旭在會上透露,“由此實現(xiàn)的人形機器人運動控制,相較于完全通過CPU進行模型推理,CPU實現(xiàn)了68%的計算資源釋放。”
03 做具身智能時代的CUDA
2025年6月,是地瓜機器人獨立運營一周年。
在這一年里,我們能夠看到,依然不斷有新團隊涌入具身智能這一賽道。
地瓜機器人CEO王叢在發(fā)布會上稱,地瓜機器人在這兩年看到了三個大趨勢:
第一,傳統(tǒng)機器人智能化升級,包括掃地機器人、割草機器人、協(xié)作機器人等都在進行智能化升級;
第二,新機器人團隊不斷涌現(xiàn),幾乎每1-2個月,就會在諸如陪伴機器人、網(wǎng)球機器人、水下機器人等新興領域有一些消費機器人團隊出現(xiàn);
第三,具身智能領域正在急劇發(fā)生著變化。
基于這三大趨勢,王叢認為,“具身機器人賽道最終將會涌入成百上千家公司,背后需要百萬級開發(fā)者群體支撐機器人生態(tài),這就需要一家做infra(基礎設施)的公司和平臺支撐整個行業(yè)的發(fā)展。”
地瓜機器人的目標,正是成為這樣一家機器人軟硬件生態(tài),做機器人基礎設施提供商。
據(jù)悉,目前地瓜機器人已經(jīng)從硬件芯片、基于芯片聯(lián)合優(yōu)化的操作系統(tǒng),到算法倉庫、支撐機器人算法迭代的云平臺進行了全棧技術布局。
在芯片層面,面向低功耗和高性價比場景,地瓜機器人已經(jīng)擁有5TOPS算力的RDK X3和10TOPS算力的RDK X5,面向高算力場景,地瓜機器人今天又發(fā)布了分別擁有80TOPS和128TOPS的RDK S100系列套件。
據(jù)悉,今年晚些時候,地瓜機器人還會進一步發(fā)布面向端到端技術路徑應用、超過300TOPS算力的RDK S系列新品。
在具身算法層面,地瓜機器人已經(jīng)與清華、浙大、上交大、深圳大學、香港大學、華中科技大學等高校建立了合作關系,面向智能導航、Locomotion、Manipulation、數(shù)據(jù)引擎四大領域進行關鍵算法突破和布局。
在具身機器人云平臺層面,地瓜機器人在2025年打造了行業(yè)內(nèi)最大的并行化具身訓練場,并正在打造具身智能模型訓練工具鏈,基于此來建立機器人開發(fā)范式。
據(jù)王叢透露,“基于這樣的生態(tài)布局,地瓜機器人芯片出貨量已經(jīng)超過500萬,服務下游機器人品類超過100個,并搭建起了擁有近10萬開發(fā)者的機器人開發(fā)生態(tài)圈。”
這里不得不說,地瓜機器人是幸運的,背靠國內(nèi)AI獨角獸團隊地平線,地瓜機器人擁有著其他機器人團隊難以企及的雄厚資源。
而這也是地瓜機器人能夠打造百TOPS級算力的RDK S100,并能將價格打到2499元的核心原因。
不過,地瓜機器人想要打造的不僅僅是RDK系列芯片,他們有著更大的野心。
就在此次發(fā)布會上,在接受媒體采訪時,談到同樣在積極布局具身機器人賽道的英偉達,胡春旭指出:
“英偉達的偉大之處在于早早的構建了CUDA,為AI時代變革提供了一個基礎平臺,地瓜機器人現(xiàn)在在做的事很像十幾年前英偉達在AI生態(tài)中做的事。
我們也希望,未來可以構建出類似英偉達CUDA的機器人生態(tài)。”
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。
關注智造、硬件、機器人。