av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

2024-04-23 10:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2024-04-23 10:02 ? 金旺

對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

作者| 金旺

欄目| 機器人新紀元

2023年的人形機器人熱潮,以迅雷不及掩耳之勢席卷了全球。

這年8月,在WRC 2023上,優(yōu)必選董事長兼CEO周劍在演講中分析人形機器人未來趨勢和優(yōu)必選發(fā)展歷路時,優(yōu)必選新一代人形機器人也悄然出現(xiàn)在了未來規(guī)劃中。

這款當時并未對外透露太多信息的人形機器人,正是這年年底與周劍一同在優(yōu)必選上市現(xiàn)場完成敲鑼儀式的Walker S。

這之后,我們看到,Walker S開始進入汽車工廠,在工業(yè)場景中進行實地測試,例如在汽車工廠流水線上與人類協(xié)作完成汽車裝配、質(zhì)檢任務(wù)。

自著手研發(fā)人形機器人到真正讓人形機器人進入到汽車工廠中,算上初代原型機,優(yōu)必選研發(fā)團隊先后研發(fā)了五代產(chǎn)品,技術(shù)攻關(guān)了近十二年。

近期,人工智能技術(shù)再次迎來范式突破,人形機器人也在大模型的加持下進入實際產(chǎn)業(yè)場景。

優(yōu)必選科技副總裁、研究院執(zhí)行院長焦繼超告訴科技行者,“在大模型的加持下,人形機器人的能力得到了極大的提升,尤其是在實際使用和用戶體驗上都有了不小的進步。”

“這讓人形機器人在實際場景中具備了更強的魯棒性和適應(yīng)性。”

01 落地前夜

2024年4月1日,優(yōu)必選與百度官宣合作,優(yōu)必選人形機器人Walker S接入百度文心大模型,在大模型的加持下,人形機器人學會了疊衣服、學會了分揀歸類。

這次演示中,在現(xiàn)場工程師的配合下,Walker S也多了幾分靈性。

對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

優(yōu)必選是國內(nèi)最早做人形機器人的商業(yè)團隊之一,早在2016年,優(yōu)必選開始研發(fā)第一代人形機器人原型機,和大多數(shù)追求人形機器人技術(shù)自研的團隊一樣,優(yōu)必選先從人形機器人下半身和運動控制算法做起。

在之后的幾年里,優(yōu)必選人形機器人以每1-2年進行一次大版本迭代的速度,學會了越來越多人類的技能,也變得越來越智能。

實際上,優(yōu)必選研究院早在2016年就已經(jīng)成立,焦繼超告訴科技行者,“研究院很早就以人形機器人量產(chǎn)落地為目標,從軟硬件兩方面進行了技術(shù)拆解和全棧技術(shù)自研。”

例如,硬件方面,優(yōu)必選重點自研了人形機器人的一體化關(guān)節(jié),優(yōu)必選Walker S上搭載的最新自研一體化關(guān)節(jié),峰值扭矩已經(jīng)達到了300N.m。

軟件方面,優(yōu)必選則是劃分出了多模態(tài)感知、定位導(dǎo)航、運動控制、語音交互,以及現(xiàn)在與大模型相關(guān)的技術(shù),不斷進行著技術(shù)攻關(guān)。

對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

以涉及目標檢測、識別、語義分割等技術(shù)的定位導(dǎo)航和路徑規(guī)劃技術(shù)為例:

早年間,人形機器人定位導(dǎo)航和路徑規(guī)劃技術(shù)普遍基于預(yù)設(shè)路徑方式,這一技術(shù)路徑的好處是算法模型簡單,但由于只能實現(xiàn)固定位置移動和操作,這一階段的人形機器人更多被用于科研領(lǐng)域,難以在商用場景發(fā)揮太大作用。

區(qū)別于傳統(tǒng)預(yù)設(shè)路徑技術(shù)路線,人工智能技術(shù)的突破讓自主決策和自主路徑規(guī)劃成為可能。

優(yōu)必選最早是在導(dǎo)航系統(tǒng)中加入了自主規(guī)劃能力。

“導(dǎo)航系統(tǒng)中的自主規(guī)劃實現(xiàn)起來相對簡單,主要解決的是計算從A點到B點的最短路徑,以及一些避障問題,”焦繼超告訴科技行者。

而將語義感知、手眼協(xié)同上的運動控制加入到優(yōu)必選人形機器人的網(wǎng)絡(luò)系統(tǒng)中,是2021年的事兒。

2021年7月7日,在WRC 2021開幕當天,優(yōu)必選新一代人形機器人Walker X正式對外發(fā)布。

Walker X身高1.3米,體重63kg,最快行走速度能夠達到3km/h,在步態(tài)規(guī)劃、柔順力控、視覺感知、語音交互等方面進行了一系列技術(shù)提升。在WRC 2021現(xiàn)場,優(yōu)必選演示了Walker X上樓梯、下象棋、單腿平衡、手眼協(xié)同等能力。

對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

據(jù)焦繼超透露,“在這一代人形機器人上,我們已經(jīng)在驗證語義VSLAM這樣的全自主規(guī)劃技術(shù)。”

以手眼協(xié)調(diào)為例,當Walker X通過視覺系統(tǒng)識別到需要抓取的物體后,它會自己識別出抓取點的位置、規(guī)劃出抓取該物體的路徑,自主完成這一任務(wù)的執(zhí)行過程。

這之后的兩年里,優(yōu)必選研究院繼續(xù)對用于人形機器人的語義VSLAM算法進行優(yōu)化,經(jīng)過多次技術(shù)迭代后,如今,這套算法已經(jīng)可以讓Walker S進入汽車工廠,去到實際工業(yè)場景中真正做一些事。

02 中樞神經(jīng)大模型

“現(xiàn)在Walker S上用的語義VSLAM系統(tǒng)和特斯拉Optimus的類似,都是通過對被識別物體進行特征提取,然后與空間位置信息進行關(guān)聯(lián),并通過端側(cè)控制器實現(xiàn)完全自主的端到端路徑規(guī)劃和運動控制。”

談及如今Walker S的自主定位導(dǎo)航能力,焦繼超如是說。

實際上,從Walker X進化到Walker S,優(yōu)必選研究院對人形機器人關(guān)鍵技術(shù)進行了全方位的升級,Walker S的身高按照平均男性身高重新設(shè)計成了170cm,關(guān)節(jié)扭矩做到了300N.m,控制器算力也升級到了200T。

更重要的是,這一年,優(yōu)必選為Walker S接入了大模型。

焦繼超告訴科技行者,“大模型解決的是人形機器人泛化性的問題。”

在此之前,人形機器人進入到實際應(yīng)用場景中時,遇到最大的問題是“非標”問題,這是因為傳統(tǒng)基于決策樹或狀態(tài)機構(gòu)建的算法模型普遍遵循參數(shù)模型化思路,基于這一思路構(gòu)建起的模型適應(yīng)能力很差,一旦人形機器人的應(yīng)用場景發(fā)生變化,模型就需要迭代,甚至重寫。

這就造成了要將人形機器人部署到實際應(yīng)用環(huán)境中,就需要針對不同應(yīng)用場景中的問題逐個解決。

有了大模型后,人形機器人的算法模型的適應(yīng)性和泛化能力得到了極大的提升,再讓人形機器人進入新場景時,只需要讓人形機器人進行簡單適配,就能夠在不同場景中進行應(yīng)用。

這時,優(yōu)必選需要花更多時間解決的問題已經(jīng)轉(zhuǎn)變?yōu)?,當面對具體場景時,如何提高模型的魯棒性,讓人形機器人因大模型提升的適應(yīng)性和部署效率能夠在真實應(yīng)用環(huán)境中得到切實落地。

焦繼超和他的團隊想到的辦法是,將大模型輕量化,轉(zhuǎn)換為“小模型”應(yīng)用到人形機器人上,在人形機器人上形成端到端的AI能力。

對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

接著再通過優(yōu)必選這些年積累的數(shù)據(jù)、場景,將搭載這些AI模型的人形機器人快速推到客戶的實際應(yīng)用場景中進行測試,焦繼超和他的團隊再從中總結(jié)、抽取出共性任務(wù)和功能進行適配和解耦,優(yōu)化端側(cè)“小模型”。

焦繼超以Walker S已經(jīng)進入到的工業(yè)場景為例介紹稱,“不同工廠環(huán)境中有80%的功能需求是通用的,我們只需要針對剩余20%的需求,根據(jù)用戶需求和場景變化,通過現(xiàn)場采集數(shù)據(jù)進行算法模型迭代。”

這樣就避免了以往針對每個新需求都要從頭開發(fā)算法模型的困境。

不過,焦繼超也指出,大模型雖然可以提升人形機器人的泛化能力,但就人形機器人的基礎(chǔ)功能而言,并不是模型越大越好。

在優(yōu)必選的人形機器人系統(tǒng)中,多模態(tài)感知、運動控制、定位導(dǎo)航等模塊,優(yōu)必選研發(fā)團隊都會結(jié)合不同的深度學習小模型來實現(xiàn),只有當涉及到抽象任務(wù)拆解和推理,大模型將會發(fā)揮類似中樞神經(jīng)的重要作用。

這其中,大模型解決的最重要的是決策問題。

焦繼超解釋稱,“在人形機器人幾個功能模塊中,決策是最抽象,也是最難做的一個模塊,因為需要根據(jù)不同的感知信息來進行推理,它有更多的推理過程,而這是大模型擅長的。”

在前不久優(yōu)必選官方發(fā)布的搭載百度文心一言大模型的Walker S進行智能分揀視頻中,Walker S正是通過調(diào)用文心一言大模型進行的子任務(wù)拆解和推理,配合視覺語言模型保證檢測精度和泛化抓取,這才有了當時的演示效果。

對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

焦繼超告訴科技行者,“如今的Walker S從感知到?jīng)Q策都已經(jīng)接入了不同的AI模型,再輔以大模型的智能調(diào)度,Walker S實現(xiàn)了一定意義上的全AI能力。”

然而,大模型雖然帶來了泛化能力,讓人形機器人走到了真實場景中,但也帶來了對海量數(shù)據(jù)的需求。

03 破壁數(shù)據(jù)瓶頸

大模型熱潮背后,本質(zhì)上是一次人工智能范式的升級。

上一代人工智能是以卷積神經(jīng)網(wǎng)絡(luò)為標準網(wǎng)絡(luò)架構(gòu),如今的大模型背后,則是以Transformer為標準網(wǎng)絡(luò)架構(gòu)。

“數(shù)據(jù)和場景的不斷積累,推動了人工智能在網(wǎng)絡(luò)架構(gòu)上的技術(shù)進步,”焦繼超如是說。

與此同時,大模型相關(guān)技術(shù)的出現(xiàn),在一定程度上又反過來解決了人工智能數(shù)據(jù)量不足的這一瓶頸問題。

在優(yōu)必選內(nèi)部,就用于人形機器人訓練的數(shù)據(jù)的收集有這樣一個“二八定律”:

用于人形機器人訓練的20%的數(shù)據(jù),由真實的機器人在實際場景中進行遙操作收集而來,80%的數(shù)據(jù)則是在仿真環(huán)境下生成而來。

就前者而言,焦繼超告訴科技行者,“人形機器人區(qū)別于其他機器人的靈巧操作,例如工具使用、工廠中的零件分揀,這些需要通過收集真實環(huán)境中的現(xiàn)場數(shù)據(jù)獲得,另一方面,諸如桌椅板凳、地面墻面、人類和環(huán)境等通用目標識別,則可以通過我們此前基于其他類型機器人積累的數(shù)據(jù)來直接訓練人形機器人。”

對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

就后者而言,如今業(yè)界普遍應(yīng)用的方法是Sim2Real,也就是在仿真環(huán)境下生成數(shù)據(jù),大模型的本質(zhì)是生成式AI,生成人形機器人的訓練數(shù)據(jù),自然也成了其能力之一。

為此,優(yōu)必選自己搭建了人形機器人智能仿真系統(tǒng)UNDERS2,通過這一系統(tǒng),優(yōu)必選可以低成本地為人形機器人模擬和生成多樣化的場景。

對話優(yōu)必選焦繼超:大模型加速人形機器人“進廠打工”

當然,大模型的生成魔力在人形機器人領(lǐng)域應(yīng)用僅僅一年有余,在進行具體人形機器人的模型訓練過程中依然存在不少問題。

數(shù)據(jù)可信是焦繼超看到的第一個問題。

以最近很火的Sora為例,當它基于真實世界中的數(shù)據(jù)生成新的場景數(shù)據(jù)時,可能會遵循物理規(guī)律,也能夠像在真實世界中一樣進行合理分布,但無法保證所生成的數(shù)據(jù)可信度。

數(shù)據(jù)冗余是焦繼超看到的第二個問題。

基于已知數(shù)據(jù)生成的新數(shù)據(jù),可能生成了10萬張,甚至100萬張圖片,但最終真正有用的可能只有6萬張或8萬張,其余的新增數(shù)據(jù)都是沒什么用的冗余數(shù)據(jù)。

在這個過程中,如何生成或甄別高可信數(shù)據(jù),以及如何盡量避免生成大量冗余數(shù)據(jù),就成了人形機器人大模型發(fā)展過程中的一個不可忽視的問題。

“數(shù)據(jù)確實是現(xiàn)在人形機器人發(fā)展的一大瓶頸”,焦繼超如是說。

如何提升數(shù)據(jù)質(zhì)量和可信度,在人形機器人訓練階段、測試驗證階段如何設(shè)定真實數(shù)據(jù)與生成數(shù)據(jù)的比例,每個人形機器人團隊都有自己的經(jīng)驗。

而用于端到端大模型訓練的數(shù)據(jù)集,也將是人形機器人接下來行業(yè)競爭的一大壁壘。

04 讓人形機器人先進入工廠

2022年12月,谷歌RT-1模型發(fā)布。

這是一個機器人端到端模型,只要通過圖像或文本輸入一段任務(wù)描述,就可以控制機器人執(zhí)行相應(yīng)的動作。

憑借在指定環(huán)境中高達97%的任務(wù)執(zhí)行成功率,谷歌的RT系列在全球范圍內(nèi)迅速獲得了廣泛的關(guān)注。然而,在這一項目中,依然存在一個不可忽視的短板,那就是場景泛化能力。

同樣關(guān)注到這一項目的焦繼超解釋稱,“谷歌RT系列用到的是強化學習算法,強化學習的優(yōu)點是能夠構(gòu)建一個純端到端的控制模型,但是它對動態(tài)環(huán)境的響應(yīng)能力和適應(yīng)性一直比較差。”

實際上,焦繼超在做人形機器人時,也會遇到一些人稱用強化學習已經(jīng)能夠讓人形機器人實現(xiàn)怎樣的能力,這時,焦繼超通常會再問一個問題:這樣的人形機器人在動態(tài)場景運行的怎么樣?

“很多基于強化學習的人形機器人,往往在同一個場景中加一個動態(tài)目標,運動能力很可能就會‘失效’。”

焦繼超告訴科技行者,泛化能力往往取決于兩項指標,一是數(shù)據(jù),二是技術(shù)路線。

優(yōu)必選的技術(shù)路線是通過大模型做決策控制,通過結(jié)合深度學習的小模型構(gòu)建功能模塊,來構(gòu)建擁有泛化能力的人形機器人。

優(yōu)必選真正開始結(jié)合大模型技術(shù)做人形機器人研究,是在2023年,當深入其中后,焦繼超發(fā)現(xiàn)依然有不少難題,諸如數(shù)據(jù)場景夠不夠,如何做模型與動作的匹配,端側(cè)模型如何做輕量化。

要解決這些問題,需要大量的算法研發(fā)、優(yōu)化和驗證工作,焦繼超和他的團隊前前后后花了有一年多的時間,將定位精度做到了±3cm,定位頻率做到了20幀/秒,這才讓優(yōu)必選的Walker S真正有了落地能力。

在這個過程中,國內(nèi)一些汽車廠商開始找到優(yōu)必選,希望能夠與優(yōu)必選合作,將人形機器人應(yīng)用到汽車生產(chǎn)環(huán)節(jié)。

之所以汽車廠商想要將人形機器人應(yīng)用到汽車生產(chǎn)工廠中,是因為伴隨著老齡化加劇,這些工廠已經(jīng)面臨著招工難的問題。

一邊是年輕人不再愿意進入工廠做這些枯燥的工作,工廠招工面臨難題,另一面則是人工成本越來越高,導(dǎo)致最終產(chǎn)品是否依然能夠在全球市場競爭中依然擁有足夠的競爭力的問題。

這使得即便現(xiàn)在人形機器人還難以高效地在工廠中執(zhí)行任務(wù),汽車廠商依然愿意提前布局,為未來做技術(shù)儲備。

而之所以人形機器人普遍會將汽車工廠作為第一個落地應(yīng)用場景,焦繼超稱,“主要是因為工廠是一個通用性比較高,也是一個比較可控的場景。”

實際上,用于工廠場景的人形機器人,也將是首先進入批量生產(chǎn)的人形機器人。

焦繼超告訴科技行者,量產(chǎn)是人形機器人區(qū)別于產(chǎn)品研發(fā)另一個重要階段。

如果是產(chǎn)品研發(fā),實驗室有一兩臺人形機器人搭建成功就可以對外發(fā)布,而如果是量產(chǎn),則對人形機器人的穩(wěn)定性、可靠性,以及人形機器人的生產(chǎn)制造工藝有著很高的要求,即便是百分之一的誤差,都會造成很大影響。

優(yōu)必選針對工廠場景應(yīng)用的人形機器人,如今也有了明確計劃:

今年內(nèi)進入新能源汽車產(chǎn)線實訓,并在年底前完成交付,明年將進行小批量交付。

這一年,在大模型的加持下,人形機器人繼續(xù)加速進化,在工業(yè)場景中開始尋找破壁的機會。

分享至
0贊

好文章,需要你的鼓勵

金旺

Wille
關(guān)注智造、硬件、機器人。
推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-