作者| 金旺
欄目| 機器人新紀元
2023年的人形機器人熱潮,以迅雷不及掩耳之勢席卷了全球。
這年8月,在WRC 2023上,優(yōu)必選董事長兼CEO周劍在演講中分析人形機器人未來趨勢和優(yōu)必選發(fā)展歷路時,優(yōu)必選新一代人形機器人也悄然出現(xiàn)在了未來規(guī)劃中。
這款當時并未對外透露太多信息的人形機器人,正是這年年底與周劍一同在優(yōu)必選上市現(xiàn)場完成敲鑼儀式的Walker S。
這之后,我們看到,Walker S開始進入汽車工廠,在工業(yè)場景中進行實地測試,例如在汽車工廠流水線上與人類協(xié)作完成汽車裝配、質(zhì)檢任務(wù)。
自著手研發(fā)人形機器人到真正讓人形機器人進入到汽車工廠中,算上初代原型機,優(yōu)必選研發(fā)團隊先后研發(fā)了五代產(chǎn)品,技術(shù)攻關(guān)了近十二年。
近期,人工智能技術(shù)再次迎來范式突破,人形機器人也在大模型的加持下進入實際產(chǎn)業(yè)場景。
優(yōu)必選科技副總裁、研究院執(zhí)行院長焦繼超告訴科技行者,“在大模型的加持下,人形機器人的能力得到了極大的提升,尤其是在實際使用和用戶體驗上都有了不小的進步。”
“這讓人形機器人在實際場景中具備了更強的魯棒性和適應(yīng)性。”
01 落地前夜
2024年4月1日,優(yōu)必選與百度官宣合作,優(yōu)必選人形機器人Walker S接入百度文心大模型,在大模型的加持下,人形機器人學會了疊衣服、學會了分揀歸類。
這次演示中,在現(xiàn)場工程師的配合下,Walker S也多了幾分靈性。
優(yōu)必選是國內(nèi)最早做人形機器人的商業(yè)團隊之一,早在2016年,優(yōu)必選開始研發(fā)第一代人形機器人原型機,和大多數(shù)追求人形機器人技術(shù)自研的團隊一樣,優(yōu)必選先從人形機器人下半身和運動控制算法做起。
在之后的幾年里,優(yōu)必選人形機器人以每1-2年進行一次大版本迭代的速度,學會了越來越多人類的技能,也變得越來越智能。
實際上,優(yōu)必選研究院早在2016年就已經(jīng)成立,焦繼超告訴科技行者,“研究院很早就以人形機器人量產(chǎn)落地為目標,從軟硬件兩方面進行了技術(shù)拆解和全棧技術(shù)自研。”
例如,硬件方面,優(yōu)必選重點自研了人形機器人的一體化關(guān)節(jié),優(yōu)必選Walker S上搭載的最新自研一體化關(guān)節(jié),峰值扭矩已經(jīng)達到了300N.m。
軟件方面,優(yōu)必選則是劃分出了多模態(tài)感知、定位導(dǎo)航、運動控制、語音交互,以及現(xiàn)在與大模型相關(guān)的技術(shù),不斷進行著技術(shù)攻關(guān)。
以涉及目標檢測、識別、語義分割等技術(shù)的定位導(dǎo)航和路徑規(guī)劃技術(shù)為例:
早年間,人形機器人定位導(dǎo)航和路徑規(guī)劃技術(shù)普遍基于預(yù)設(shè)路徑方式,這一技術(shù)路徑的好處是算法模型簡單,但由于只能實現(xiàn)固定位置移動和操作,這一階段的人形機器人更多被用于科研領(lǐng)域,難以在商用場景發(fā)揮太大作用。
區(qū)別于傳統(tǒng)預(yù)設(shè)路徑技術(shù)路線,人工智能技術(shù)的突破讓自主決策和自主路徑規(guī)劃成為可能。
優(yōu)必選最早是在導(dǎo)航系統(tǒng)中加入了自主規(guī)劃能力。
“導(dǎo)航系統(tǒng)中的自主規(guī)劃實現(xiàn)起來相對簡單,主要解決的是計算從A點到B點的最短路徑,以及一些避障問題,”焦繼超告訴科技行者。
而將語義感知、手眼協(xié)同上的運動控制加入到優(yōu)必選人形機器人的網(wǎng)絡(luò)系統(tǒng)中,是2021年的事兒。
2021年7月7日,在WRC 2021開幕當天,優(yōu)必選新一代人形機器人Walker X正式對外發(fā)布。
Walker X身高1.3米,體重63kg,最快行走速度能夠達到3km/h,在步態(tài)規(guī)劃、柔順力控、視覺感知、語音交互等方面進行了一系列技術(shù)提升。在WRC 2021現(xiàn)場,優(yōu)必選演示了Walker X上樓梯、下象棋、單腿平衡、手眼協(xié)同等能力。
據(jù)焦繼超透露,“在這一代人形機器人上,我們已經(jīng)在驗證語義VSLAM這樣的全自主規(guī)劃技術(shù)。”
以手眼協(xié)調(diào)為例,當Walker X通過視覺系統(tǒng)識別到需要抓取的物體后,它會自己識別出抓取點的位置、規(guī)劃出抓取該物體的路徑,自主完成這一任務(wù)的執(zhí)行過程。
這之后的兩年里,優(yōu)必選研究院繼續(xù)對用于人形機器人的語義VSLAM算法進行優(yōu)化,經(jīng)過多次技術(shù)迭代后,如今,這套算法已經(jīng)可以讓Walker S進入汽車工廠,去到實際工業(yè)場景中真正做一些事。
02 中樞神經(jīng)大模型
“現(xiàn)在Walker S上用的語義VSLAM系統(tǒng)和特斯拉Optimus的類似,都是通過對被識別物體進行特征提取,然后與空間位置信息進行關(guān)聯(lián),并通過端側(cè)控制器實現(xiàn)完全自主的端到端路徑規(guī)劃和運動控制。”
談及如今Walker S的自主定位導(dǎo)航能力,焦繼超如是說。
實際上,從Walker X進化到Walker S,優(yōu)必選研究院對人形機器人關(guān)鍵技術(shù)進行了全方位的升級,Walker S的身高按照平均男性身高重新設(shè)計成了170cm,關(guān)節(jié)扭矩做到了300N.m,控制器算力也升級到了200T。
更重要的是,這一年,優(yōu)必選為Walker S接入了大模型。
焦繼超告訴科技行者,“大模型解決的是人形機器人泛化性的問題。”
在此之前,人形機器人進入到實際應(yīng)用場景中時,遇到最大的問題是“非標”問題,這是因為傳統(tǒng)基于決策樹或狀態(tài)機構(gòu)建的算法模型普遍遵循參數(shù)模型化思路,基于這一思路構(gòu)建起的模型適應(yīng)能力很差,一旦人形機器人的應(yīng)用場景發(fā)生變化,模型就需要迭代,甚至重寫。
這就造成了要將人形機器人部署到實際應(yīng)用環(huán)境中,就需要針對不同應(yīng)用場景中的問題逐個解決。
有了大模型后,人形機器人的算法模型的適應(yīng)性和泛化能力得到了極大的提升,再讓人形機器人進入新場景時,只需要讓人形機器人進行簡單適配,就能夠在不同場景中進行應(yīng)用。
這時,優(yōu)必選需要花更多時間解決的問題已經(jīng)轉(zhuǎn)變?yōu)?,當面對具體場景時,如何提高模型的魯棒性,讓人形機器人因大模型提升的適應(yīng)性和部署效率能夠在真實應(yīng)用環(huán)境中得到切實落地。
焦繼超和他的團隊想到的辦法是,將大模型輕量化,轉(zhuǎn)換為“小模型”應(yīng)用到人形機器人上,在人形機器人上形成端到端的AI能力。
接著再通過優(yōu)必選這些年積累的數(shù)據(jù)、場景,將搭載這些AI模型的人形機器人快速推到客戶的實際應(yīng)用場景中進行測試,焦繼超和他的團隊再從中總結(jié)、抽取出共性任務(wù)和功能進行適配和解耦,優(yōu)化端側(cè)“小模型”。
焦繼超以Walker S已經(jīng)進入到的工業(yè)場景為例介紹稱,“不同工廠環(huán)境中有80%的功能需求是通用的,我們只需要針對剩余20%的需求,根據(jù)用戶需求和場景變化,通過現(xiàn)場采集數(shù)據(jù)進行算法模型迭代。”
這樣就避免了以往針對每個新需求都要從頭開發(fā)算法模型的困境。
不過,焦繼超也指出,大模型雖然可以提升人形機器人的泛化能力,但就人形機器人的基礎(chǔ)功能而言,并不是模型越大越好。
在優(yōu)必選的人形機器人系統(tǒng)中,多模態(tài)感知、運動控制、定位導(dǎo)航等模塊,優(yōu)必選研發(fā)團隊都會結(jié)合不同的深度學習小模型來實現(xiàn),只有當涉及到抽象任務(wù)拆解和推理,大模型將會發(fā)揮類似中樞神經(jīng)的重要作用。
這其中,大模型解決的最重要的是決策問題。
焦繼超解釋稱,“在人形機器人幾個功能模塊中,決策是最抽象,也是最難做的一個模塊,因為需要根據(jù)不同的感知信息來進行推理,它有更多的推理過程,而這是大模型擅長的。”
在前不久優(yōu)必選官方發(fā)布的搭載百度文心一言大模型的Walker S進行智能分揀視頻中,Walker S正是通過調(diào)用文心一言大模型進行的子任務(wù)拆解和推理,配合視覺語言模型保證檢測精度和泛化抓取,這才有了當時的演示效果。
焦繼超告訴科技行者,“如今的Walker S從感知到?jīng)Q策都已經(jīng)接入了不同的AI模型,再輔以大模型的智能調(diào)度,Walker S實現(xiàn)了一定意義上的全AI能力。”
然而,大模型雖然帶來了泛化能力,讓人形機器人走到了真實場景中,但也帶來了對海量數(shù)據(jù)的需求。
03 破壁數(shù)據(jù)瓶頸
大模型熱潮背后,本質(zhì)上是一次人工智能范式的升級。
上一代人工智能是以卷積神經(jīng)網(wǎng)絡(luò)為標準網(wǎng)絡(luò)架構(gòu),如今的大模型背后,則是以Transformer為標準網(wǎng)絡(luò)架構(gòu)。
“數(shù)據(jù)和場景的不斷積累,推動了人工智能在網(wǎng)絡(luò)架構(gòu)上的技術(shù)進步,”焦繼超如是說。
與此同時,大模型相關(guān)技術(shù)的出現(xiàn),在一定程度上又反過來解決了人工智能數(shù)據(jù)量不足的這一瓶頸問題。
在優(yōu)必選內(nèi)部,就用于人形機器人訓練的數(shù)據(jù)的收集有這樣一個“二八定律”:
用于人形機器人訓練的20%的數(shù)據(jù),由真實的機器人在實際場景中進行遙操作收集而來,80%的數(shù)據(jù)則是在仿真環(huán)境下生成而來。
就前者而言,焦繼超告訴科技行者,“人形機器人區(qū)別于其他機器人的靈巧操作,例如工具使用、工廠中的零件分揀,這些需要通過收集真實環(huán)境中的現(xiàn)場數(shù)據(jù)獲得,另一方面,諸如桌椅板凳、地面墻面、人類和環(huán)境等通用目標識別,則可以通過我們此前基于其他類型機器人積累的數(shù)據(jù)來直接訓練人形機器人。”
就后者而言,如今業(yè)界普遍應(yīng)用的方法是Sim2Real,也就是在仿真環(huán)境下生成數(shù)據(jù),大模型的本質(zhì)是生成式AI,生成人形機器人的訓練數(shù)據(jù),自然也成了其能力之一。
為此,優(yōu)必選自己搭建了人形機器人智能仿真系統(tǒng)UNDERS2,通過這一系統(tǒng),優(yōu)必選可以低成本地為人形機器人模擬和生成多樣化的場景。
當然,大模型的生成魔力在人形機器人領(lǐng)域應(yīng)用僅僅一年有余,在進行具體人形機器人的模型訓練過程中依然存在不少問題。
數(shù)據(jù)可信是焦繼超看到的第一個問題。
以最近很火的Sora為例,當它基于真實世界中的數(shù)據(jù)生成新的場景數(shù)據(jù)時,可能會遵循物理規(guī)律,也能夠像在真實世界中一樣進行合理分布,但無法保證所生成的數(shù)據(jù)可信度。
數(shù)據(jù)冗余是焦繼超看到的第二個問題。
基于已知數(shù)據(jù)生成的新數(shù)據(jù),可能生成了10萬張,甚至100萬張圖片,但最終真正有用的可能只有6萬張或8萬張,其余的新增數(shù)據(jù)都是沒什么用的冗余數(shù)據(jù)。
在這個過程中,如何生成或甄別高可信數(shù)據(jù),以及如何盡量避免生成大量冗余數(shù)據(jù),就成了人形機器人大模型發(fā)展過程中的一個不可忽視的問題。
“數(shù)據(jù)確實是現(xiàn)在人形機器人發(fā)展的一大瓶頸”,焦繼超如是說。
如何提升數(shù)據(jù)質(zhì)量和可信度,在人形機器人訓練階段、測試驗證階段如何設(shè)定真實數(shù)據(jù)與生成數(shù)據(jù)的比例,每個人形機器人團隊都有自己的經(jīng)驗。
而用于端到端大模型訓練的數(shù)據(jù)集,也將是人形機器人接下來行業(yè)競爭的一大壁壘。
04 讓人形機器人先進入工廠
2022年12月,谷歌RT-1模型發(fā)布。
這是一個機器人端到端模型,只要通過圖像或文本輸入一段任務(wù)描述,就可以控制機器人執(zhí)行相應(yīng)的動作。
憑借在指定環(huán)境中高達97%的任務(wù)執(zhí)行成功率,谷歌的RT系列在全球范圍內(nèi)迅速獲得了廣泛的關(guān)注。然而,在這一項目中,依然存在一個不可忽視的短板,那就是場景泛化能力。
同樣關(guān)注到這一項目的焦繼超解釋稱,“谷歌RT系列用到的是強化學習算法,強化學習的優(yōu)點是能夠構(gòu)建一個純端到端的控制模型,但是它對動態(tài)環(huán)境的響應(yīng)能力和適應(yīng)性一直比較差。”
實際上,焦繼超在做人形機器人時,也會遇到一些人稱用強化學習已經(jīng)能夠讓人形機器人實現(xiàn)怎樣的能力,這時,焦繼超通常會再問一個問題:這樣的人形機器人在動態(tài)場景運行的怎么樣?
“很多基于強化學習的人形機器人,往往在同一個場景中加一個動態(tài)目標,運動能力很可能就會‘失效’。”
焦繼超告訴科技行者,泛化能力往往取決于兩項指標,一是數(shù)據(jù),二是技術(shù)路線。
優(yōu)必選的技術(shù)路線是通過大模型做決策控制,通過結(jié)合深度學習的小模型構(gòu)建功能模塊,來構(gòu)建擁有泛化能力的人形機器人。
優(yōu)必選真正開始結(jié)合大模型技術(shù)做人形機器人研究,是在2023年,當深入其中后,焦繼超發(fā)現(xiàn)依然有不少難題,諸如數(shù)據(jù)場景夠不夠,如何做模型與動作的匹配,端側(cè)模型如何做輕量化。
要解決這些問題,需要大量的算法研發(fā)、優(yōu)化和驗證工作,焦繼超和他的團隊前前后后花了有一年多的時間,將定位精度做到了±3cm,定位頻率做到了20幀/秒,這才讓優(yōu)必選的Walker S真正有了落地能力。
在這個過程中,國內(nèi)一些汽車廠商開始找到優(yōu)必選,希望能夠與優(yōu)必選合作,將人形機器人應(yīng)用到汽車生產(chǎn)環(huán)節(jié)。
之所以汽車廠商想要將人形機器人應(yīng)用到汽車生產(chǎn)工廠中,是因為伴隨著老齡化加劇,這些工廠已經(jīng)面臨著招工難的問題。
一邊是年輕人不再愿意進入工廠做這些枯燥的工作,工廠招工面臨難題,另一面則是人工成本越來越高,導(dǎo)致最終產(chǎn)品是否依然能夠在全球市場競爭中依然擁有足夠的競爭力的問題。
這使得即便現(xiàn)在人形機器人還難以高效地在工廠中執(zhí)行任務(wù),汽車廠商依然愿意提前布局,為未來做技術(shù)儲備。
而之所以人形機器人普遍會將汽車工廠作為第一個落地應(yīng)用場景,焦繼超稱,“主要是因為工廠是一個通用性比較高,也是一個比較可控的場景。”
實際上,用于工廠場景的人形機器人,也將是首先進入批量生產(chǎn)的人形機器人。
焦繼超告訴科技行者,量產(chǎn)是人形機器人區(qū)別于產(chǎn)品研發(fā)另一個重要階段。
如果是產(chǎn)品研發(fā),實驗室有一兩臺人形機器人搭建成功就可以對外發(fā)布,而如果是量產(chǎn),則對人形機器人的穩(wěn)定性、可靠性,以及人形機器人的生產(chǎn)制造工藝有著很高的要求,即便是百分之一的誤差,都會造成很大影響。
優(yōu)必選針對工廠場景應(yīng)用的人形機器人,如今也有了明確計劃:
今年內(nèi)進入新能源汽車產(chǎn)線實訓,并在年底前完成交付,明年將進行小批量交付。
這一年,在大模型的加持下,人形機器人繼續(xù)加速進化,在工業(yè)場景中開始尋找破壁的機會。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關(guān)系領(lǐng)域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。
關(guān)注智造、硬件、機器人。