作者|金旺
從早稻田大學(xué)1972年研發(fā)的WABOT,到特斯拉2022年首秀的Optimus,人類科學(xué)家對人形機器人的研發(fā)走過了半個世紀。在這半個世紀里,人形機器人的發(fā)展已經(jīng)從本田ASIMO、波士頓動力Atlas代表的技術(shù)驗證期,過渡到了以特斯拉Optimus為代表的商業(yè)試水期,一個新的機器人時代正在開啟。
為此,至頂科技特別策劃推出《機器人新紀元》專題報道,旨在探尋全球機器人團隊的技術(shù)變遷和創(chuàng)新故事。
本文收錄于至頂科技《機器人新紀元》專題。
2022年11月30日,OpenAI對外公布了由GPT 3.5系列大語言模型訓(xùn)練而成的對話式AI——ChatGPT,自此ChatGPT成為通用人工智能的代名詞,開啟了逆襲之路。
ChatGPT的出現(xiàn)標志著人工智能發(fā)展進入到了一個新的階段,這個階段的標志性特性是“通用型”,而人們討論最多的則是大模型,尤其在OpenAI在今年3月14日正式發(fā)布了GPT 4,也就是第四代生成式預(yù)訓(xùn)練模型后,通用人工智能大模型讓各個行業(yè)再次興奮起來。
與此同時,在人工智能與機器人結(jié)合方面,具身智能應(yīng)運而生。
2023年7月6日,在中關(guān)村智友研究院主辦的首屆科技創(chuàng)變者大會上,王田苗(北航機器人研究所名譽所長、中關(guān)村智友研究院院長)、黃鐵軍(北京智源人工智能研究院院長、北大多媒體信息處理國家重點實驗室主任)、鄧志東(清華大學(xué)教授、博導(dǎo)、清華人工智能研究院視覺智能研究中心主任)、樊瑜波(北航醫(yī)學(xué)科學(xué)與工程學(xué)院院長、生物與醫(yī)學(xué)工程學(xué)院院長)、熊蓉(浙江大學(xué)求是特聘教授,迦智科技創(chuàng)始人)幾位人工智能、機器人領(lǐng)域領(lǐng)軍人物,就新一代人工智能為包括機器人產(chǎn)業(yè)在內(nèi)帶來的機遇與挑戰(zhàn)進行了一場深度對話。
我們有幸在這個科技創(chuàng)變新周期,現(xiàn)場聆聽了這場重磅對話。以下為本次論壇圓桌對話內(nèi)容,科技行者進行了不改變原意的整理:
10年內(nèi),更聰明的機器人進入家庭
王田苗:科技創(chuàng)變者宏觀尺度上來看,未來5-10年,會有哪些新賽道值得all in?
黃鐵軍:我覺得未來幾年里,機器人和人工智能技術(shù)融合發(fā)展值得關(guān)注。
今天人工智能很熱,已經(jīng)占據(jù)了歷史機遇窗口期,那么下一個歷史新機遇是什么?
我認為人工智能下一個重大突破是通用感知模型,即面向自動駕駛、機器人等領(lǐng)域的具身智能模型,通用感知模型的快速發(fā)展會帶來是一個巨大新機遇。
大語言模型的突破,為通用人工智能打了一個很好的基礎(chǔ),語言事關(guān)人對世界的認知和理解,在這方面,可以說大部分認知問題已經(jīng)得到解決。如果感知能力得到進一步提升,類腦的通用智能模型將會逐漸形成。
以自動駕駛為例,目前我們通過機器視覺或激光雷達不斷讓自動駕駛汽車實實在在地感知這個世界,但其實它仍然缺少對世界的認知。例如汽車前方道路上有一個大塑料袋或一塊大石頭,現(xiàn)在的自動駕駛汽車遇到這樣的場景,肯定會停下來,但是人類駕駛員看到汽車前方有一個被風(fēng)吹得鼓鼓的塑料袋,能夠直接判斷出它不會對汽車行駛造成什么風(fēng)險,可能就直接開過去了。
今天自動駕駛和人類駕駛員的區(qū)別就在于,人對物體的物理屬性和潛在風(fēng)險是有常識認知的,今天的機器視覺并沒有的,無論是雷達還是攝像頭。
所以大語言模型出現(xiàn)之后,再回過頭來看,這樣認知上的能力就有可能實現(xiàn)。下一個人工智能大模型的爆點,放在自動駕駛領(lǐng)域,有可能就是實現(xiàn)L4/L5級別的自動駕駛;放在機器人領(lǐng)域,有可能是有類人大腦的機器人。
原來總是認為很復(fù)雜的場景,例如玻璃制品是容易碎的,有水的地面容易滑倒,在實現(xiàn)認知智能后,這些一直以來無法靠傳統(tǒng)不斷補充Corner case來完成的,現(xiàn)在只需要一個通用人工智能模型,一個有認知、有感知,在現(xiàn)實世界中擁有常識的人工智能模型就能實現(xiàn)。
我對技術(shù)發(fā)展比較樂觀,我認為,1-3年,L4/L5級別的自動駕駛就能夠?qū)崿F(xiàn),5-10年,能夠進入工廠、進入家庭的很聰明的機器人就能實現(xiàn)。
如何用技術(shù)應(yīng)對人口老齡化難題?
王田苗:樊老師認為哪個賽道值得關(guān)注?
樊瑜波:現(xiàn)在我們社會的老齡化不斷加劇,人類的平均壽命在不斷延長,80歲以上的平均壽命已經(jīng)到來,甚至很快還會有很多原來不經(jīng)常出現(xiàn)的慢性病會相繼出現(xiàn),人的機能衰老和逐漸半失能、失能也會成為必然。
如何應(yīng)對人口老齡化問題,為老年人提供生活輔助和支持就成了一個大賽道。但要支撐這方面的產(chǎn)業(yè)應(yīng)用,需要融合各個學(xué)科中的知識和技術(shù)。
從科技角度來看,未來生物活性智能材料是一個非常重要的方向。
永遠不要低估生命,生命所蘊含的東西我們還遠遠不能企及。
開一個玩笑來看的話,人每天吃一個饅頭、喝一碗稀飯,大腦所進行的運算如果換用人工智能,需要大量服務(wù)器、消耗大量能量、占據(jù)相當(dāng)大的數(shù)據(jù)資源才能實現(xiàn)。所以相對人工智能AI,我認為生物智能BI更博大精深。
所以生物科學(xué)里的多樣性,例如情感對人類身體形成的獎賞機制、懲罰機制,我們還遠遠不能定量化描述。我認為生物活性智能材料,以及由此帶來的新傳感,或者新的一些干預(yù)手段,還有很大的機會。
王田苗:您走訪了很多養(yǎng)老機構(gòu),您認為當(dāng)下養(yǎng)老場景中陪護和護理兩類機器人哪類更重要?
樊瑜波:這兩類機器人都很重要。
我曾經(jīng)去日本的養(yǎng)老院訪問過,他們的養(yǎng)老院中有一種海豹機器人,賣得很貴,也經(jīng)過了FDA的認證,但其實工作原理很簡單,老人撫摸它時,它能發(fā)出一些模擬海豹發(fā)出的可愛的聲音,再就沒有更復(fù)雜的功能了,但在養(yǎng)老院里,老人很喜歡抱著它。所以情感交互是重要的。當(dāng)然人的坐臥行等日?;顒拥妮o助也是必不可少的。
大模型助推機器人產(chǎn)業(yè)落地
王田苗:您覺得特別值得科技創(chuàng)建者來推動聯(lián)合這樣一個賽道是什么?
鄧志東:現(xiàn)在來看的話,我比較看好人工智能、人形機器人、自動駕駛?cè)齻€方向。
2012年以來,人工智能熱潮在全世界再次興起,最初主要是以深度卷積神經(jīng)網(wǎng)絡(luò)為代表的弱人工智能,整個弱人工智能應(yīng)該說全面賦能了自動駕駛,但是我們實際并沒有看到真正有L4級自動駕駛技術(shù)在產(chǎn)業(yè)落地。
去年年底以ChatGPT為代表的通用人工智能出現(xiàn)之前,其實大家對人工智能產(chǎn)業(yè)是有懷疑的,尤其是看不到多少成功落地的案例。通用人工智能出現(xiàn)以后,這樣的現(xiàn)狀有所改變,如何去用大模型?如何用這樣的通用AI能力去賦能自動駕駛與機器人?
機器人在弱人工智能時代,其實與人工智能之間的結(jié)合并不是很多,但現(xiàn)在與大模型結(jié)合有了新的機會。
大模型的能力,再加上思維鏈等提示詞工程甚至可以實現(xiàn)零樣本學(xué)習(xí),這有可能更多地推動人工智能與自動駕駛、機器人的結(jié)合,在未來或有更多真正產(chǎn)業(yè)落地應(yīng)用的機會。
王田苗:我有個個人觀點,基于人工智能大模型進行創(chuàng)業(yè)的團隊,現(xiàn)在更需要在大模型的基礎(chǔ)上找出具體應(yīng)用場景來創(chuàng)新?
鄧志東:我同意這樣的觀點。
我覺得做大模型其實非常困難,我們更應(yīng)該關(guān)注怎么去用好大模型,搞機器人、自動駕駛的,更應(yīng)該關(guān)注怎么去使用,使用大模型的能力,這個是最重要的事情。
我有三個觀點:
第一,我們應(yīng)該更多關(guān)注大模型的應(yīng)用,語言智能是我們?nèi)祟惡蛣游镏g的根本區(qū)別,所以用語言智能就可以提供與人類一致的感知、預(yù)測、決策及規(guī)控能力,甚至可以用我們?nèi)祟惤?jīng)驗去對它進行反饋矯正;
第二,利用世界的知識模型、知識圖譜去推動完成目標的理解,之前我們只能做到感知,做不到理解,現(xiàn)在從某種意義上說視覺理解可以通過世界知識模型的構(gòu)建來實現(xiàn);
第三,用大模型支撐自然人機交互,通過它可以進行完全自然的人機交互,從而進一步實現(xiàn)主動感知。
我覺得這三個方面是很重要的。最重要的是,對通用人工智能來說,同一個模型可以干很多事情,例如可以做感知,可以做決策,可以做規(guī)劃,甚至可以做性能評估等,這與弱人工智能一個模型只能完成一個任務(wù)是完全不同的。
大模型+機器人,從封閉環(huán)境走向開放環(huán)境
王田苗:您認為人工智能為機器人產(chǎn)業(yè)帶來了哪些機會?
熊蓉:人工智能技術(shù)與機器人結(jié)合能夠不斷提升機器人的智能移動能力、智能操作能力,以及智能交互能力。
第一,像現(xiàn)在大模型的誕生,直觀來講,我們會看到它對機器人和人的這種自然語言交互、以及視覺交互,能夠有一個很好地提升。
我們在早幾年也有看到市場上出現(xiàn)過一些家庭陪伴聊天機器人,但當(dāng)時只是熱了一陣子,因為它整體交互能力做得不夠好,給人的感覺還是比較呆板、不夠智能,現(xiàn)在語言大模型在這方面有了很好的提升。
第二,我們現(xiàn)在可以把語言和視覺的大模型與機器人的技能學(xué)習(xí)結(jié)合,例如與操作能力的學(xué)習(xí)結(jié)合起來。
我們之前也做過這樣的嘗試,通過預(yù)訓(xùn)練的語言大模型、視覺大模型和機器人抓取模型結(jié)合,我們可以看到:
一方面,我們可以給它靈活地下達指令;
另外一方面,我們可以實現(xiàn)一個有目標性的智能抓取,改變了前面我們必須模塊化定義機器人的目標檢測、定位、抓取決策,任何一個環(huán)節(jié)出錯都有可能影響最后的成功率。
而機器人抓取模型的學(xué)習(xí),例如2015年谷歌用16臺機器人訓(xùn)練了6個月時間,實現(xiàn)的是無目標抓取,只是抓取,并不識別物體。
我們現(xiàn)在做的,是把二者進行結(jié)合,實現(xiàn)有目標的智能抓取。
因此,將感知智能和運動智能結(jié)合,實現(xiàn)感知運動智能,可以進一步提升機器人的智能性,從而更好地適應(yīng)開放動態(tài)的環(huán)境。
這可以改變我們現(xiàn)在的機器人還是在一種受限受控的環(huán)境下運行的現(xiàn)狀,從面向工業(yè)應(yīng)用場景推廣到更加開放動態(tài)的環(huán)境,帶動服務(wù)機器人的發(fā)展。
王田苗:您認為什么場景中會出現(xiàn)單品出貨量超過100萬臺的機器人物種?
熊蓉:人工智能從專用人工智能走向了通用人工智能,對機器人而言,也需要從專用型機器人向通用型機器人去發(fā)展,這也是為什么現(xiàn)在人工智能熱潮中,人形機器人也形成了一個熱潮的原因。
因為它代表的是未來一個通用型機器人,可以適應(yīng)各種應(yīng)用場景。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。
關(guān)注智造、硬件、機器人。