作者 | 金旺
欄目 | 機(jī)器人新紀(jì)元
8月8日,2025世界機(jī)器人大會(huì)(WRC 2025)在京召開。
相較往年,今年大會(huì)已經(jīng)完全轉(zhuǎn)向了具身機(jī)器人,即便是在傳統(tǒng)工業(yè)機(jī)器人展臺(tái)上,也不乏各種形態(tài)的具身機(jī)器人,乃至人形機(jī)器人。
這樣的改變?cè)醋杂谌昵坝纱竽P拖破鸬娜斯ぶ悄軣岢?,也是在這波熱潮中,一家名為自變量機(jī)器人的具身智能團(tuán)隊(duì)在2023年年底成立。
這家公司成立之初就聚焦研發(fā)端到端通用具身大模型,自變量機(jī)器人創(chuàng)始人兼CEO王潛認(rèn)為,通用具身大模型是獨(dú)立于于數(shù)字世界的基礎(chǔ)模型。
“它不是大語言模型的延伸,而是平行于大語言模型的物理世界中的基礎(chǔ)模型。”
秉持著這樣的理念,自變量機(jī)器人團(tuán)隊(duì)隨后訓(xùn)練出了WALL-A模型,與此同時(shí),2025年,他們也不再只是一家具身智能模型公司,隨著自研本體整機(jī)的面世,公司重新被定位到了軟硬一體具身智能公司。
在這次展會(huì)上,自變量機(jī)器人的量子2號(hào)具身機(jī)器人正式亮相,這成了自變量機(jī)器人邁入真實(shí)世界的一個(gè)全新載體。
更多關(guān)于具身智能的技術(shù)難題、發(fā)展瓶頸,以及自變量機(jī)器人的未來發(fā)展計(jì)劃,我們?cè)诖髸?huì)上與王潛進(jìn)行了一場(chǎng)對(duì)話,王潛給出了他眼中的答案。
01 人形機(jī)器人的ChatGPT時(shí)刻,仍需3-5年
問:人形機(jī)器人的“ChatGPT時(shí)刻”何時(shí)到來?其中技術(shù)難點(diǎn)是什么?
王潛:預(yù)計(jì)需要3-5年時(shí)間周期,才會(huì)達(dá)到類似ChatGPT的水平。
機(jī)器人模型與語言模型不同,應(yīng)用場(chǎng)景復(fù)雜,會(huì)有一個(gè)比較平滑的過渡過程,它不會(huì)像自動(dòng)駕駛技術(shù)發(fā)展一樣有一個(gè)突變的過程,因此也不會(huì)有因此帶來的大的商業(yè)上的波折。
要達(dá)到ChatGPT水平,關(guān)鍵首先是Scaling Law可以持續(xù)發(fā)揮作用,這也是我們已經(jīng)確定的,然后需要足夠多的數(shù)據(jù)、足夠大的具身模型,同時(shí)模型架構(gòu)和訓(xùn)練方法等方面還需要持續(xù)向前演進(jìn)。
我認(rèn)為這條路徑已經(jīng)相對(duì)清晰,與大語言模型走的是類似的路徑。
問:您認(rèn)為硬件是否仍是機(jī)器人發(fā)展的障礙?
王潛:我個(gè)人認(rèn)為,兩三年前,具身機(jī)器人或人形機(jī)器人賽道興起時(shí),硬件就已經(jīng)不是障礙,因?yàn)槟菚r(shí)技術(shù)路線已經(jīng)相對(duì)成熟,大家能做的機(jī)器人硬件也已經(jīng)達(dá)到了相當(dāng)水準(zhǔn),只是還需要產(chǎn)品化、商業(yè)化。
從模型來看,大家已經(jīng)做了幾十年,但除了抓取、放置,依然沒有做到讓機(jī)器人執(zhí)行更復(fù)雜的任務(wù),這是機(jī)器人現(xiàn)在無法更像人一樣的關(guān)鍵。
問:現(xiàn)階段限制機(jī)器人產(chǎn)業(yè)化應(yīng)用的因素有哪些?
王潛:主要限制因素是機(jī)器人的“大腦”。
大家在展館中看到了大量運(yùn)動(dòng)能力做得很不錯(cuò)的機(jī)器人,但與此同時(shí),他們能夠提供的“實(shí)用價(jià)值”有限,更多提供的還是“形式價(jià)值”。
這個(gè)并不是硬件問題,核心在于人工智能水平還未達(dá)到,所以本身模型能力是其中的關(guān)鍵。
當(dāng)然,就機(jī)器人整個(gè)產(chǎn)業(yè)鏈而言,包括零部件、成本等也都尚未完全成熟,但是我們已經(jīng)走在了正確的路上。
問:過去一兩年機(jī)器人領(lǐng)域的技術(shù)突破是什么?
王潛:過去一兩年,行業(yè)有兩個(gè)重要變化:
第一,行業(yè)逐漸形成了共識(shí),我們確實(shí)需要一個(gè)完全端到端的模型;
第二,這樣的模型一定是一個(gè)基礎(chǔ)通用模型。
2023年大模型浪潮剛剛興起時(shí),還沒什么人相信機(jī)器人端到端技術(shù)路徑,我們?cè)谀菚r(shí)率先走上了這條技術(shù)路線,但如今這已經(jīng)成為行業(yè)趨勢(shì),我覺得這是整個(gè)行業(yè)統(tǒng)一思想、向一個(gè)正確方向前進(jìn)的標(biāo)志。
未來兩三年,具身機(jī)器人領(lǐng)域預(yù)計(jì)會(huì)出現(xiàn)類似語言模型的Scaling Law帶來的重大技術(shù)突破,我對(duì)此非常樂觀。
02 復(fù)雜交互不用仿真數(shù)據(jù),數(shù)據(jù)質(zhì)量是技術(shù)難題
問:如何解決數(shù)據(jù)稀缺問題?在數(shù)據(jù)篩選和應(yīng)用方面有何策略?
王潛:我們現(xiàn)在一個(gè)大的策略是,所有涉及到復(fù)雜物理交互(如接觸豐富的手部操作)完全不使用仿真數(shù)據(jù)。
我們?cè)谶@個(gè)方面探索了十幾年,基本結(jié)論是,手部復(fù)雜操作無法通過仿真數(shù)據(jù)來進(jìn)化。
不過,導(dǎo)航、走路、高級(jí)任務(wù)推理和規(guī)劃更適合用仿真數(shù)據(jù),很多團(tuán)隊(duì)的機(jī)器人走路都是在虛擬世界中訓(xùn)練出來,然后遷移到真實(shí)世界中。
此外,手部pick and place這樣的操作用仿真數(shù)據(jù)訓(xùn)練也是完全沒問題的。
關(guān)于仿真數(shù)據(jù)我們的態(tài)度一向比較明確,當(dāng)然我們也在廣泛使用互聯(lián)網(wǎng)視頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,但最核心是現(xiàn)實(shí)生活中收集到的真實(shí)數(shù)據(jù),包括機(jī)器人和人工采集的數(shù)據(jù)。
問:數(shù)據(jù)收集的途徑有哪些?是否考慮與地方數(shù)據(jù)中心合作?
王潛:我們有集中式的數(shù)據(jù)采集場(chǎng)地,此外也有在現(xiàn)實(shí)環(huán)境中分散式收集數(shù)據(jù)的渠道,以及機(jī)器人實(shí)際部署后的回流數(shù)據(jù)和其他來源數(shù)據(jù)。
對(duì)于地方共建數(shù)據(jù)中心,我們持開放態(tài)度,愿意參與進(jìn)去。
值得注意的是,數(shù)據(jù)收集的質(zhì)量控制是非常困難的事情,整體采集管理和收集上來的數(shù)據(jù)是否有用,是一個(gè)有待驗(yàn)證的問題。
與之相對(duì)的是,我們自有場(chǎng)地采集的數(shù)據(jù)是經(jīng)過充分驗(yàn)證的,質(zhì)量更有保障。
問:如何判斷數(shù)據(jù)質(zhì)量?
王潛:這是一個(gè)非常復(fù)雜的問題,也是整個(gè)具身模型研發(fā)最核心的問題。
以語言模型為例,DeepSeek開源了模型和infra,但唯獨(dú)沒有開源數(shù)據(jù),所以大家今天都可以復(fù)制一個(gè)DeepSeek,但是沒人能達(dá)到DeepSeek-r1的水平,其中最核心的know-how來自數(shù)據(jù)。
03 具身模型不是語言模型的延伸
問:團(tuán)隊(duì)是否有做過跨本體泛化?
王潛:我們有做過,跨本體泛化需微調(diào),肯定可以泛化過去,通過已經(jīng)訓(xùn)練好的進(jìn)行遷移也肯定沒有從頭做預(yù)訓(xùn)練那么困難。
但是里面需要注入多少資源、做多少事情、ROI是否算得過來、商業(yè)是否能走通,是一個(gè)比較大的問題,本質(zhì)上是一個(gè)比較“重”的事情。
問:自變量的具身模型已經(jīng)能做怎樣的長(zhǎng)序列任務(wù)?
王潛:復(fù)雜性上,我們可處理目前已知的最復(fù)雜的任務(wù),如拉上散開衣服的拉鏈或扣扣子、然后掛起來。
長(zhǎng)程上來講,只要模型推理能力足夠,中間不出現(xiàn)幻覺,且環(huán)境允許,理論上我們可以做任意長(zhǎng)的任務(wù)。這是因?yàn)槲覀冊(cè)谀P椭幸肓怂季S鏈(CoT)方法。
大家之前做具身模型更多是調(diào)用一個(gè)r1這樣的模型做高級(jí)推理和規(guī)劃,當(dāng)需要執(zhí)行動(dòng)作時(shí),再調(diào)用一個(gè)安全的模型執(zhí)行動(dòng)作,這理論上還是有很多情況無法處理,是走不通的。
我們具身模型輸出的內(nèi)容包含語言、視覺、動(dòng)作,輸出的語言和視覺可以再輸回去,所以在一個(gè)模型里可以構(gòu)建無限長(zhǎng)的思維鏈,這已經(jīng)屬于后訓(xùn)練,其中的一些動(dòng)作可能訓(xùn)練過,但整個(gè)動(dòng)作序列放到一起沒訓(xùn)練過。
這樣的任務(wù)我們依然能做,因?yàn)樗旧碛泻芎玫牧銟颖就评砟芰Α?/p>
問:現(xiàn)在機(jī)器人只能做pick and place,復(fù)雜任務(wù)、長(zhǎng)序列任務(wù)執(zhí)行瓶頸在哪里?
王潛:瓶頸在模型訓(xùn)練本身。
類似GPT-3出現(xiàn)前,翻譯任務(wù)很困難,但通用模型出現(xiàn)后,所有這樣的任務(wù)都可以做得很好,對(duì)此我們還是非常期待。
這里特別要說明的是,我們認(rèn)為這樣的具身基礎(chǔ)模型是獨(dú)立于數(shù)字世界的基礎(chǔ)模型,它不是語言模型的延伸,是平行于大語言模型的物理世界中的基礎(chǔ)模型,因?yàn)槲锢硎澜绾蛿?shù)字世界相比有大量的物理規(guī)律、隨機(jī)性是不同的。
04 家庭是機(jī)器人最大市場(chǎng),3-4年會(huì)出現(xiàn)早期產(chǎn)品
問:您覺得未來家庭對(duì)機(jī)器人有怎樣的需求?
王潛:我認(rèn)為在所有機(jī)器人應(yīng)用場(chǎng)景中,家庭和生活相關(guān)場(chǎng)景(如養(yǎng)老)的需求是最大的單一市場(chǎng)。
經(jīng)濟(jì)學(xué)有過測(cè)算,人類家務(wù)勞動(dòng)未計(jì)入GDP,但占比高達(dá)四分之一,因此家庭機(jī)器人市場(chǎng)潛力巨大,甚至可能比工業(yè)場(chǎng)景,以及所有其他場(chǎng)景都要更大。
問:決定機(jī)器人從展臺(tái)走進(jìn)家庭的關(guān)鍵是什么?
王潛:關(guān)鍵在于模型能力,目前硬件已基本滿足需求,但還需要一個(gè)足夠好的“大腦”,使其有具像人一樣有操作、思考和判斷能力。
時(shí)間上來看,預(yù)計(jì)3到4年我們就能夠看到有這樣的C端早期產(chǎn)品出現(xiàn)。
問:消費(fèi)市場(chǎng)價(jià)格能下探到多少?
王潛:消費(fèi)者能接受、產(chǎn)業(yè)鏈能夠提供的一個(gè)價(jià)格,可能在1-2萬美元之間,也就是10萬元上下,但是現(xiàn)在大家還是做不到這一點(diǎn),這需要產(chǎn)業(yè)鏈成本進(jìn)一步優(yōu)化。
問:公司未來是專注于本體,還是模型?
王潛:我們現(xiàn)在走的是軟硬一體的路徑,直接面向終端提供完整的產(chǎn)品或解決方案,而非單獨(dú)出售模型。
機(jī)器人相對(duì)特殊,無法形成像Windows或Android這樣的商業(yè)模式,機(jī)器人需軟硬件高度耦合,軟硬一體是最合理的商業(yè)模式。
問:有無研發(fā)雙足人形機(jī)器人計(jì)劃。
王潛:我們暫時(shí)沒有研發(fā)雙足機(jī)器人計(jì)劃,未來較長(zhǎng)時(shí)間,尤其是在室內(nèi)場(chǎng)景將以輪式機(jī)器人為主。
問:有怎樣的商業(yè)化思考?
王潛:第一個(gè)很明顯的是,我們開始有硬件,硬件本身是一個(gè)很好的產(chǎn)品。
其次我們從簡(jiǎn)單到復(fù)雜,先進(jìn)入科研市場(chǎng),再逐步擴(kuò)展到復(fù)雜的、傳統(tǒng)機(jī)器人做不了的場(chǎng)景,再到最復(fù)雜的場(chǎng)景,這個(gè)過程中我們會(huì)一直持續(xù)在所有領(lǐng)域收集數(shù)據(jù)、探索市場(chǎng)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。
關(guān)注智造、硬件、機(jī)器人。