作者| 金旺
欄目| 機(jī)器人新紀(jì)元
2024年8月19日,星動紀(jì)元官宣發(fā)布新一代人形機(jī)器人——星動STAR 1。
與一年前公司成立時發(fā)布的首款產(chǎn)品小星和小星MAX不同的是,這次星動紀(jì)元發(fā)布的星動STAR 1是一款產(chǎn)品級人形機(jī)器人。
據(jù)星動紀(jì)元創(chuàng)始人、清華大學(xué)交叉信息研究院助理教授陳建宇透露,"星動紀(jì)元團(tuán)隊內(nèi)部就多項指標(biāo)對這代人形機(jī)器人進(jìn)行了一系列的測試驗證,最終讓這代人形機(jī)器人達(dá)到了產(chǎn)品級標(biāo)準(zhǔn)。"
據(jù)悉,星動紀(jì)元團(tuán)隊早在2022年完成了第一代人形機(jī)器人研發(fā),在這之后不到兩年時間里,他們的人形機(jī)器人進(jìn)行了多次迭代,到前不久發(fā)布的星動STAR 1,實則已經(jīng)是星動紀(jì)元團(tuán)隊研發(fā)的第六代人形機(jī)器人。
我們在上周的2024世界機(jī)器人大會(WRC 2024)現(xiàn)場,看到了星動紀(jì)元這款新產(chǎn)品。
據(jù)陳建宇透露,“星動STAR 1不僅各方面性能得到了極大的提升,還將AI與大模型技術(shù)應(yīng)用到了這代人形機(jī)器人上,實現(xiàn)了端到端的泛化行走與抓取。”
此外,星動紀(jì)元也正在進(jìn)行人形機(jī)器人的商業(yè)化探索,開始推動人形機(jī)器人在工業(yè)領(lǐng)域進(jìn)行商業(yè)化驗證。
關(guān)于人形機(jī)器人的技術(shù)卡點和商業(yè)難題,我們在WRC 2024期間與陳建宇進(jìn)行了一場深度對話,在這場對話中,我們了解到了他眼中的人形機(jī)器人的現(xiàn)在和未來。
01 操作大模型,提升泛化性
問:星動STAR 1在哪些方面得到了進(jìn)一步提升?
陳建宇:去年我們發(fā)布的是第三代人形機(jī)器人,今年我們發(fā)布了第六代(星動STAR 1),和去年的小星相比,今年的星動STAR 1的自由度從20個增加到了55個,關(guān)節(jié)扭矩從去年的150N·m也提升到了400N·m,關(guān)節(jié)轉(zhuǎn)速達(dá)到了25rad/s,性能達(dá)到世界頂尖水平。
實際上,我們這代產(chǎn)品在軟硬件方面都得到了很大的提升。
硬件方面,包括靈巧手XHAND在內(nèi)的所有核心零部件,我們都已經(jīng)完成了自主研發(fā)。
軟件方面,去年我們采用的是傳統(tǒng)控制方法,只實現(xiàn)了人形機(jī)器人慢速行走,現(xiàn)在我們采用端到端純學(xué)習(xí)方法,僅僅通過一個神經(jīng)網(wǎng)絡(luò)就實現(xiàn)了人形機(jī)器人在不同環(huán)境中的泛化行走和抓取。
問:星動STAR 1是什么時候立項的,這代產(chǎn)品研發(fā)過程中最難的是什么?
陳建宇:我們平均一代人形機(jī)器人產(chǎn)品幾個月就能迭代完成,而且這個迭代速度還在越來越快。
之所以產(chǎn)品迭代越來越快,是因為我們在人形機(jī)器人研發(fā)過程中積累了很多通用的技術(shù),而且我們在將這些技術(shù)能力逐步進(jìn)行模塊化,我們在研發(fā)星動STAR 1這代產(chǎn)品時,很多模塊是直接從之前產(chǎn)品中復(fù)用而來。
就這代產(chǎn)品的難點而言,一方面是它的腿部性能達(dá)到了極致性能,另一方面是我們的靈巧手有了很大的改進(jìn)。
問:現(xiàn)在人形機(jī)器人的標(biāo)準(zhǔn)化做得如何?
陳建宇:現(xiàn)在已經(jīng)有一些標(biāo)準(zhǔn)化組織在做人形機(jī)器人標(biāo)準(zhǔn)化相關(guān)工作,包括人形機(jī)器人的技術(shù)路線,有一些大家也開始達(dá)成共識。
就我們自身而言,我們的硬件技術(shù)路線,例如我們的關(guān)節(jié)技術(shù)演進(jìn)路線,早在2022年就已經(jīng)確定下來,我們的關(guān)節(jié)這幾年一直都在沿著我們最初制定的技術(shù)路線演進(jìn),如今這條技術(shù)路線也已經(jīng)逐漸成為人形機(jī)器人產(chǎn)業(yè)的一個主流趨勢。
就靈巧手而言,現(xiàn)在很多整機(jī)廠商還都是外采,我們這次則設(shè)計了一種全新的、可以很方便適用AI算法的硬件架構(gòu),基于這一硬件架構(gòu),我們自研了靈巧手XHAND,我們這套架構(gòu)在未來也很可能會成為人形機(jī)器人靈巧手新的共識。
問:星動STAR 1在運動控制領(lǐng)域是如何應(yīng)用大模型的?
陳建宇:我們研究了人形機(jī)器人的操作大模型,基于語言和視覺信號的輸入,通過操作大模型讓人形機(jī)器人直接輸出動作,相較而言,這是一個端到端的語言-視覺-動作大模型。
通過大量的數(shù)據(jù)訓(xùn)練,這樣的操作大模型具備較好的泛化性,這使得我們的人形機(jī)器人有了舉一反三的能力——在進(jìn)入到一個新的任務(wù)場景中,我們的人形機(jī)器人只需要少量數(shù)據(jù)就能學(xué)會相關(guān)技能。
這些都是我們在實驗中觀察到的現(xiàn)象。
例如在一個新的任務(wù)場景中,我們只對人形機(jī)器人進(jìn)行了幾個簡單物品的操作訓(xùn)練,之后我們發(fā)現(xiàn),人形機(jī)器人在面對更復(fù)雜的環(huán)境和物體時,在沒有進(jìn)行針對性訓(xùn)練的情況下就能夠準(zhǔn)確地進(jìn)行相應(yīng)的操作,這就讓人形機(jī)器人具備了泛化性。
問:操作大模型訓(xùn)練數(shù)據(jù)是如何收集的?
陳建宇:我們的操作大模型的訓(xùn)練數(shù)據(jù)可以來自四個方面:基于遙操作方式獲取的數(shù)據(jù)、基于仿真環(huán)境生成的數(shù)據(jù)、高質(zhì)量的開源數(shù)據(jù)集和人類的操作數(shù)據(jù)。
其中,人類的操作數(shù)據(jù)使用起來很有難度,我們現(xiàn)在也在想辦法把這類數(shù)據(jù)利用起來,這就需要我們在算法底層做創(chuàng)新和改進(jìn)。
02 人形機(jī)器人的具身智能瓶頸
問:人形機(jī)器人應(yīng)用的瓶頸,是缺少剛需場景,還是技術(shù)不夠成熟?
陳建宇:兩方面其實都有。
人形機(jī)器人是一個全新的產(chǎn)品品類,這類產(chǎn)品的應(yīng)用需求確實需要大家去探索,技術(shù)方面的話,也確實需要得到進(jìn)一步發(fā)展。
大家剛開始做這件事沒多久,包括我們第一代人形機(jī)器人也是一個相對簡單的形態(tài),經(jīng)過這兩年六代產(chǎn)品的迭代,我們的人形機(jī)器人在行走能力方面走得越來越快、越來越穩(wěn),手部的操作也越來越智能,能夠做更多事情。
實際上,人形機(jī)器人技術(shù)發(fā)展到現(xiàn)在已經(jīng)初步具備在一些簡單場景中執(zhí)行任務(wù)的能力。
問:人形機(jī)器人技術(shù)發(fā)展瓶頸在哪里?
陳建宇:未來人形機(jī)器人的具身智能如何去做,這是最大的不確定性。
就如何實現(xiàn)通用的具身智能,目前最前沿的學(xué)術(shù)界都還很難回答這一問題。
我們已經(jīng)看到很多技術(shù)路徑,這些技術(shù)路徑都有可能成為未來通用智能的可能性,我們團(tuán)隊現(xiàn)在也在不同路徑上做相應(yīng)的探索,這是我們未來的競爭優(yōu)勢。
問:怎么看現(xiàn)在人形機(jī)器人技術(shù)發(fā)展速度?
陳建宇:現(xiàn)在人形機(jī)器人技術(shù)發(fā)展非常快,以往人形機(jī)器人的研究方法,是以線性增長的趨勢推動整個產(chǎn)業(yè)發(fā)展,現(xiàn)在在數(shù)據(jù)驅(qū)動的時代,整個產(chǎn)業(yè)有了階躍式發(fā)展的可能。
所以,人形機(jī)器人完全有可能以超出大家預(yù)期的速度發(fā)展。
對于人形機(jī)器人產(chǎn)業(yè)的發(fā)展,我會更樂觀一些,很多人看到的是人形機(jī)器人現(xiàn)在能做什么,這些能力距離他們心中理想的人形機(jī)器人形態(tài)還有多遠(yuǎn),但我看到的是以后人形機(jī)器人會發(fā)展成什么樣。
問:星動STAR 1有怎樣的商業(yè)計劃?
陳建宇:我們會先就我們的靈巧手XHAND進(jìn)行商業(yè)化,我們的靈巧手也會根據(jù)市場需求進(jìn)行后續(xù)的產(chǎn)品迭代。
至于星動STAR 1人形機(jī)器人,我們是按頂配性能來做的,相當(dāng)于汽車中的保時捷,但由于我們自下而上進(jìn)行了全棧的技術(shù)自研和供應(yīng)鏈把控,因此它的最終售價也不會特別貴(具體價格我們會在后續(xù)公布)。
為什么我們會強(qiáng)調(diào)人形機(jī)器人的性能?
這是因為我們希望我們的人形機(jī)器人真可以去干活兒、甚至干人干不了的活兒,這就需要人形機(jī)器人在力量、效率上都有很好的表現(xiàn)。
03 工業(yè)依然是第一場景
問:人形機(jī)器人最早的商業(yè)落地場景是什么?
陳建宇:我認(rèn)為人形機(jī)器人最先會落地在工業(yè)領(lǐng)域,這是基于以下三個判斷:
第一,工業(yè)是一個勞動密集型產(chǎn)業(yè),而且正在面臨勞動力短缺的問題;
第二,我們做過一個估算,人形機(jī)器人在工業(yè)領(lǐng)域得到大規(guī)模應(yīng)用后,它的成本能夠完全得到覆蓋;
第三,對比家用或服務(wù)類應(yīng)用場景,工業(yè)場景對人形機(jī)器人的應(yīng)用需求,實現(xiàn)起來的技術(shù)難度會相對低一些,相對更容易實現(xiàn)。
基于以上三點判斷,我們現(xiàn)在主要也是在工業(yè)領(lǐng)域做人形機(jī)器人的技術(shù)和產(chǎn)品驗證。
問:人形機(jī)器人已經(jīng)到了賣貨階段了嗎?
陳建宇:目前大家已經(jīng)在賣貨的人形機(jī)器人,不會是最終真正大規(guī)模應(yīng)用的人形機(jī)器人。
我們看到,馬斯克在推動人形機(jī)器人進(jìn)汽車工廠,他對于人形機(jī)器人商業(yè)化落地的判斷,是基于他們真正在汽車工廠中解決了哪些問題、真正做到了哪些工人在做的事情提出的,他們?nèi)诵螜C(jī)器人量產(chǎn)時間線也是基于在實際工廠場景應(yīng)用情況制定的。
但是目前大家還沒有真正找到一個引爆需求的場景,大家正在賣的人形機(jī)器人也并不是為了滿足真實市場需求而做的,更多是為一些早期嘗鮮者提供,所以由此產(chǎn)生的銷量不會很大。
對于我們而言,我們也會為早期嘗鮮者提供人形機(jī)器人產(chǎn)品,在這方面,我們確實也接收到了一些需求,但要真正推動人形機(jī)器人量產(chǎn),一定要解決諸如工業(yè)場景這樣足夠大的場景中的某些需求。
只有真正滿足了這類需求,能夠提供一個有價值的解決方案,我們才能將人形機(jī)器人順利部署下去,從而推動人形機(jī)器人實現(xiàn)規(guī)?;慨a(chǎn)。
問:人形機(jī)器人什么時候能夠規(guī)模量產(chǎn)?
陳建宇:我覺得大家現(xiàn)在暫時不用過于重視人形機(jī)器人量產(chǎn)這件事,現(xiàn)在人形機(jī)器人真正的問題不是量產(chǎn),而是:
第一,現(xiàn)在生產(chǎn)出的人形機(jī)器人是否能夠真正被用起來;
第二,這些能夠被用起來的人形機(jī)器人所需要的技術(shù),是否真能夠?qū)胍?guī)?;慨a(chǎn)的產(chǎn)品中。
也就是說,人形機(jī)器人的客戶需求在哪里,你的技術(shù)是否能夠達(dá)到客戶的需求,這是我們開啟人形機(jī)器人規(guī)?;慨a(chǎn)的先決條件。
問:人形機(jī)器人要量產(chǎn),在技術(shù)上還有哪些瓶頸?
陳建宇:現(xiàn)在人形機(jī)器人最大的技術(shù)瓶頸依然在具身智能。
硬件決定了人形機(jī)器人應(yīng)用落地能力的上限,但是目前人形機(jī)器人產(chǎn)業(yè)擁有的硬件基礎(chǔ)支撐起來的應(yīng)用上限,具身智能算法還暫時沒有達(dá)到。
也就是說,人形機(jī)器人的硬件基礎(chǔ)本身能夠支撐它完成的一些任務(wù),由于現(xiàn)有AI算法的能力不足,目前的人形機(jī)器人還無法真正實現(xiàn)這樣的產(chǎn)品力。
具身智能技術(shù)的發(fā)展不如人形機(jī)器人硬件成熟,也就成了現(xiàn)在人形機(jī)器人產(chǎn)業(yè)最大的卡點。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。
關(guān)注智造、硬件、機(jī)器人。