作者 | 金旺
欄目 | 機(jī)器人新紀(jì)元
2024年1月,騰訊發(fā)布《2024數(shù)字科技前沿應(yīng)用趨勢(shì)》報(bào)告,在這份報(bào)告中,“AI加速人形機(jī)器人‘手、腦’進(jìn)化”排在十大前沿應(yīng)用趨勢(shì)第三位。
于是,我們看到,3月30日,在上海舉辦的首屆中國(guó)具身智能大會(huì)上,騰訊Robotics X實(shí)驗(yàn)室成了大會(huì)四大鉆石贊助商之一,騰訊首席科學(xué)家、Robotics X實(shí)驗(yàn)室主任張正友在大會(huì)上也做了具身智能主題演講。
張正友在大會(huì)上指出,AGI的終極形態(tài),會(huì)是一個(gè)機(jī)器人形態(tài)。
在人形機(jī)器人最熱鬧的這一年里,騰訊做了靈巧手、機(jī)械臂(相當(dāng)于人形機(jī)器人上半身的手臂控制能力),也做了各種四足機(jī)器人(相當(dāng)于人形機(jī)器人的下半身的運(yùn)動(dòng)能力)。
科技行者在騰訊關(guān)于機(jī)器人的未來(lái)規(guī)劃中,已經(jīng)看到了人形機(jī)器人的身影。
現(xiàn)在,我們可以再期待一下騰訊的人形機(jī)器人了。
01 智能,是否需要具身?
什么是具身智能?
張正友指出,所謂具身智能,是指有物理載體的智能體(也就是智能機(jī)器人)在與物理世界的交互過(guò)程中,通過(guò)感知、控制和自主學(xué)習(xí)來(lái)積累知識(shí)和技能,形成智能,并由此影響物理世界的能力。
實(shí)際上,具身智能并不是什么新鮮事物,早在1950年,人工智能之父艾倫·圖靈發(fā)表的那篇大名鼎鼎的論文《Computing Machinery and Intelligence》中,就已經(jīng)提出了這一概念。
OpenAI CEO奧特曼也曾指出,“如果我們有了通用人工智能,而在物理世界中完成一件事唯一的方法還是讓人類自己去做,那就太令人沮喪了。”
“我們會(huì)在某個(gè)時(shí)候以某種方式重返機(jī)器人領(lǐng)域。”
奧特曼最初構(gòu)建OpenAI時(shí),就是想基于機(jī)器人來(lái)實(shí)現(xiàn)通用人工智能,只不過(guò),命運(yùn)多舛,才有了后來(lái)的ChatGPT和Sora。
實(shí)際上,OpenAI在過(guò)去兩年里已經(jīng)相繼投資了兩家人形機(jī)器人公司,一家是1X Technologies、另一家是Figure AI。
那么,智能,到底是否需要具身呢?
這一問(wèn)題在產(chǎn)業(yè)界其實(shí)依然有兩種聲音:
一種聲音認(rèn)為,智能并不一定與物理形態(tài)有關(guān),智能主要關(guān)乎信息處理、問(wèn)題解決和決策制定,這些都可以通過(guò)軟件或算法實(shí)現(xiàn)。
另一種聲音則認(rèn)為,身體對(duì)于智能至關(guān)重要,智能源于生物體與周圍環(huán)境之間的互動(dòng),這需要物理形態(tài)。
張正友在大會(huì)上指出,“我相信大家都認(rèn)為智能是需要具身的,否則就不會(huì)來(lái)參加這場(chǎng)具身智能大會(huì)了。”
贊同這一觀點(diǎn)的人,當(dāng)然也包括張正友本人。
實(shí)際上,張正友在演講中也指出,AGI的終極形態(tài),是一個(gè)機(jī)器人形態(tài)。
02 騰訊造機(jī)器人的A2G
2018年,張正友正式加入騰訊,并在這一年組建了騰訊機(jī)器人實(shí)驗(yàn)室,Robotics X實(shí)驗(yàn)室。
張正友說(shuō),騰訊這一實(shí)驗(yàn)室成立之初定了,團(tuán)隊(duì)內(nèi)部定下了一個(gè)指導(dǎo)方針——A2G。
具體而言,是用ABCDEFG代指了幾個(gè)技術(shù)要素的英文縮寫(xiě),翻譯過(guò)來(lái),這幾個(gè)要素分別為:人工智能、機(jī)器人本體、精準(zhǔn)控制、發(fā)育學(xué)習(xí)、情感理解、靈巧操控、守護(hù)天使。
其中,人工智能、機(jī)器人本體、精準(zhǔn)控制為底層基礎(chǔ)能力,發(fā)育學(xué)習(xí)、情感理解、靈巧控制構(gòu)成了更上層的中間層能力。
最上層的G,具體是指通過(guò)部署在環(huán)境中的傳感器,讓環(huán)境和機(jī)器人信息共通,通過(guò)云與家人和世界互聯(lián),讓機(jī)器人成為守護(hù)天使。
這是一個(gè)相當(dāng)宏大的愿望,一個(gè)宏大到很難說(shuō)這個(gè)實(shí)驗(yàn)室還要經(jīng)歷幾代科學(xué)家的努力,才能達(dá)成夙愿。
不過(guò),就這樣,騰訊在這一年開(kāi)始了機(jī)器人的技術(shù)研發(fā),各類機(jī)器人在之后幾年里也陸續(xù)面世:
2019年12月,騰訊發(fā)布了自平衡自行車;
2020年10月,騰訊發(fā)布了的四足機(jī)器人Jamaca學(xué)會(huì)了走梅花樁;
2021年2月,騰訊發(fā)布了多模態(tài)四足機(jī)器人Max;
2021年11月,騰訊發(fā)布了IDC運(yùn)維機(jī)器人;
……
到2023年,騰訊又發(fā)布了擁有靈巧手和機(jī)械臂的機(jī)器人,這款機(jī)器人還學(xué)會(huì)了調(diào)酒。
就在大家覺(jué)得機(jī)器人離走進(jìn)人類生活已經(jīng)近在咫尺時(shí),實(shí)際上,AGI+機(jī)器人的模式創(chuàng)新才剛剛開(kāi)始。
03 再造一個(gè)新范式
也是在本次大會(huì)上,張正友重提了一個(gè)概念“SLAP范式”。
每個(gè)科學(xué)家要想自成一派,就要?jiǎng)?chuàng)造一套自己的理論。
早在2018年,Robotics X實(shí)驗(yàn)室成立后,張正友就提出了SLAP范式。
這一范式的提出,其實(shí)基于張正友對(duì)智能控制的理解。
張正友說(shuō),“我們感興趣的機(jī)器人要能應(yīng)對(duì)不同環(huán)境,即使在不確定性很大的環(huán)境中,仍然能夠有自主調(diào)整和規(guī)劃的系統(tǒng)。”
這就要求機(jī)器人有兩類自主能力:
一類是反應(yīng)式的自主能力,另一類是有意識(shí)的自主能力。
反應(yīng)式的自主能力是說(shuō),在遇到被人踢了一腳這樣意想不到的情況后,機(jī)器人能夠很快適應(yīng)變化,并調(diào)整自己的姿態(tài);
有意識(shí)的自主能力則是說(shuō),機(jī)器人要有自主規(guī)劃能力。
要實(shí)現(xiàn)這樣的具身智能,顯然已經(jīng)無(wú)法依賴傳統(tǒng)的“感知-計(jì)劃-行動(dòng)”的控制范式,于是,張正友提出了SLAP范式。
SLAP范式同樣是幾個(gè)英文單詞的所系,具體而言是,感知、行動(dòng)、學(xué)習(xí)、計(jì)劃。
這套范式與傳統(tǒng)控制范式最主要的區(qū)別在于,張正友將感知與行動(dòng)連系到了一起,并將學(xué)習(xí)滲透到了各個(gè)模塊。
“只有感知與行動(dòng)緊密相連,才能夠把反應(yīng)是怎樣實(shí)現(xiàn)的搞清楚。”
張正友提出的這一范式,其實(shí)也參考了人類大腦的思考范式,并參考人類大腦,提出了具身智能的三層系統(tǒng):
第一層是原始控制層(Primitive Level Control),通過(guò)運(yùn)動(dòng)數(shù)據(jù),對(duì)機(jī)器人進(jìn)行訓(xùn)練。
第二層是環(huán)境感知控制層(Environmental Level Control),通過(guò)對(duì)環(huán)境的感知,實(shí)現(xiàn)機(jī)器人在不同環(huán)境中的平穩(wěn)運(yùn)動(dòng)。
第三層是策略控制層(Strategic Level Control),通過(guò)給定相關(guān)任務(wù),機(jī)器人進(jìn)行自行推理,然后在環(huán)境中實(shí)現(xiàn)類似人類大腦的控制決策。
實(shí)際上,騰訊的四足機(jī)器人的控制系統(tǒng)就是這樣一步一步構(gòu)建出來(lái)的。
不過(guò),這些都是騰訊過(guò)去幾年做的工作。
現(xiàn)在,騰訊Robotics X實(shí)驗(yàn)室正在將多模態(tài)大模型融合到機(jī)器人系統(tǒng)中,增強(qiáng)機(jī)器人環(huán)境感知和視覺(jué)能力,讓他們的機(jī)器人能夠聽(tīng)懂人話,能夠和人類在語(yǔ)言和動(dòng)作上進(jìn)行簡(jiǎn)單的交互。
至于未來(lái)規(guī)劃,科技行者在現(xiàn)場(chǎng)也了解到,騰訊Robotics X實(shí)驗(yàn)室至少已經(jīng)有了兩方面考慮:
首先,騰訊將就三維感知數(shù)據(jù)和騰訊的混元大模型或開(kāi)源大模型LLAMA2-7B優(yōu)化策略控制層;
其次,騰訊也已經(jīng)將人形機(jī)器人寫(xiě)到了未來(lái)計(jì)劃中。
接下來(lái),我們可以期待一下騰訊的人形機(jī)器人了。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。
關(guān)注智造、硬件、機(jī)器人。