作者 | 金旺
欄目 | 機器人新紀(jì)元
來自中國機器人產(chǎn)業(yè)發(fā)展報告的數(shù)據(jù)顯示,2022年,中國服務(wù)機器人市場規(guī)模首次超過了工業(yè)機器人。
而之所以有這樣的發(fā)展趨勢,離不開這些年人工智能技術(shù)在機器人領(lǐng)域的推廣應(yīng)用。
實際上,智能化已經(jīng)是機器人產(chǎn)業(yè)的大勢所趨,而且有了推動機器人產(chǎn)業(yè)發(fā)展的可能,就連全球機器人領(lǐng)域明星企業(yè)波士頓動力,也在2022年成立了人工智能研究院,在花大力氣研究機器人的認(rèn)知智能和運動智能。
這其中,視覺智能又是這些年在機器人領(lǐng)域應(yīng)用最廣,也是不少機器人能夠在封閉或半封閉空間實現(xiàn)“自動駕駛”的關(guān)鍵。
2023年7月,來自GGII的統(tǒng)計數(shù)據(jù)顯示,在3D視覺傳感器這一細分領(lǐng)域,奧比中光在中國服務(wù)機器人領(lǐng)域2022年的市占率達到了71.09%。
奧比中光董事長兼CEO黃源浩稱,“奧比中光2013年成立,2015年就開始為機器人產(chǎn)業(yè)提供3D視覺傳感器。”
他認(rèn)為,大模型對于整個機器人產(chǎn)業(yè)的影響堪比“核彈”。
在WRC 2023現(xiàn)場,我們與黃源浩進行了一次深入交流,聊了聊大模型如何影響機器人產(chǎn)業(yè)、人形機器人軟硬件如何協(xié)同發(fā)展,以及奧比中光在機器人領(lǐng)域的產(chǎn)業(yè)布局。
“核彈”大模型,變革機器人
問:大模型,尤其是視覺大模型的出現(xiàn),對機器人產(chǎn)業(yè)有怎樣的影響?
黃源浩:視覺大模型和語言大模型類似,都是基于谷歌在2017年提出的transformer架構(gòu)。
這讓機器視覺經(jīng)歷了一次從基于CNN的架構(gòu)到基于transformer架構(gòu)的變化,機器人由此也變得聰明了很多。
為什么這么說?
因為基于CNN架構(gòu)的機器視覺算法模型的學(xué)習(xí)過程需要大量的樣本數(shù)據(jù),這樣的模型和你下1萬盤棋,它記住了怎么下棋,也就學(xué)會了下棋。
但基于transformer架構(gòu)的機器視覺算法模型,可能只需要很小的樣本,在下棋方面就有了不錯的能力,這樣的大模型已經(jīng)接近零樣本學(xué)習(xí),甚至已經(jīng)和人腦的學(xué)習(xí)模式有點相似了。
這就讓機器人有了類腦的能力,能夠?qū)崿F(xiàn)端到端控制,你只需要輸入各種感知信息,輸出直接就是動作了。
這也是為什么我會覺得大模型對于機器人產(chǎn)業(yè)而言會是一個核彈,因為它讓機器人有了和人相似的運動控制模式。
問:大模型對3D視覺技術(shù)發(fā)展,會有怎樣的影響?
黃源浩:現(xiàn)在大模型在朝著多模態(tài)方向發(fā)展,而多模態(tài)的大模型,本身已經(jīng)在以圖像、3D圖像,甚至熱成像圖像作為輸入數(shù)據(jù)了,這是它需要的一個基礎(chǔ)信息。
另外就3D視覺而言,基于激光雷達和大模型兩種方式的視覺技術(shù)是相輔相成的。
基于激光雷達的視覺技術(shù)更精準(zhǔn),但遠距離定位能力會有所缺失;基于大模型的視覺技術(shù)現(xiàn)在還沒那么精準(zhǔn),工作模式類似人眼,但它能夠?qū)崿F(xiàn)遠距離定位。
我有一個觀點是,未來機器人在某些方面的性能會比人表現(xiàn)得更好,比如機器人的感知能力。
問:現(xiàn)在3D視覺在機器人的認(rèn)知智能和運動智能上,分別能實現(xiàn)哪些功能?
黃源浩:認(rèn)知智能其實更容易做,現(xiàn)在也已經(jīng)做得很不錯了,現(xiàn)在基于3D圖像數(shù)據(jù)訓(xùn)練的視覺模型,進行一些測距等工作已經(jīng)比人更精準(zhǔn),將來基于這類模型的機器人很有可能會比人更聰明。
例如人如果要將一個凳子從一個地方搬到另一個地方,用肉眼觀察通道的寬度,可能不知道是否能搬得過去,機器人看一眼就能測量出結(jié)果,這就是機器人比人厲害的地方,其中實現(xiàn)的就是認(rèn)知智能。
至于涉及到?jīng)Q策、規(guī)劃、控制等運動智能,目前有些企業(yè)或者機構(gòu)做的是確定性模型,基于確定性模型的機器人可能拍出來的運動演示視頻很好看,但在實際演示過程中,可能失敗幾百次后調(diào)了某一個參數(shù),然后再測試幾百次,又調(diào)了另外一個參數(shù),這樣往復(fù)測試才拍出一個不錯的demo視頻。
然而,這樣實現(xiàn)的運動模型目前沒有泛化能力,如果換到一個新的環(huán)境,模型也就無法完全適用了,這也是為什么像波士頓動力這樣已經(jīng)創(chuàng)立了超過30年的公司仍沒能實現(xiàn)商業(yè)化的原因。
大模型到來之后,只要把基于transformer架構(gòu)的大模型部署好,隨著數(shù)據(jù)不斷輸入,機器人就可以做各種動作;當(dāng)成功做出一個動作,這樣產(chǎn)生的就是一個好的樣本數(shù)據(jù),沒成功就是一個不好的樣本數(shù)據(jù)……。慢慢地,它自己就能學(xué)會如何運動。
大模型的參數(shù)量級非常大,普遍都在10億級乃至百億級,如果純靠人,是無法實現(xiàn)這樣級別的參數(shù)調(diào)參的。因而,企業(yè)基于確定性模型研發(fā)的機器人,如果再遷移到新模式上,可能只能貢獻10%-20%的能力,80%-90%都要基于transformer框架重新再做模型訓(xùn)練。
今年大模型發(fā)展這么迅速,接下來你會發(fā)現(xiàn),無論是四足機器人,還是人形機器人,它的進化速度會比原來快很多。
明年世界機器人大會上,相信我們就會看到,這些機器人已經(jīng)聰明很多了。
今年大會上的機器人還沒有很多互動演示,估計明年至少四足機器人會出現(xiàn)比較好的互動能力,后年人形機器人也可能會有很好的互動能力,甚至能跑起來。
人形機器人,軟硬件發(fā)展如何協(xié)同?
問:激光雷達、3D視覺在人形機器人上,現(xiàn)在有怎樣的應(yīng)用?
黃源浩:現(xiàn)在人形機器人產(chǎn)品中,基本都有傳感器,激光雷達、避障傳感器正常也都有。
實際上,人形機器人未來必然會有多種傳感器做數(shù)據(jù)輸入,像特斯拉的多目方案會是一種輸入方式,我們這種雙目結(jié)構(gòu)光傳感器也會是一種輸入方式,激光雷達當(dāng)然也會是一種必不可少的輸入方式。
目前人形機器人的功能、性能都還不夠強,隨著它的能力變得越來越強,量產(chǎn)能力上來了,元器件的成本也就會隨之下降,這是一個產(chǎn)業(yè)化必然要經(jīng)歷的一個過程。
問:您如何看人形機器人未來的商用情況?
黃源浩:在我看來,人形機器人現(xiàn)在就像一個小孩,它一定會長大,長大過程中會逐漸學(xué)會一些技能,等到它18歲、20歲的時候,可能就能夠?qū)崿F(xiàn)普及應(yīng)用了。
這么來看,其實還有20年,現(xiàn)在他才剛剛1歲,20年后人形機器人說不定會有幾十億個。
而要說人形機器人第一個商用場景,我認(rèn)為大概率會是工業(yè),像在汽車工廠里,未來人會越來越少,預(yù)計5-10年就能大規(guī)模實現(xiàn)無人化工廠了。
其它諸如家庭陪伴這樣的場景,我認(rèn)為可能不會那么快到來,還需要一定時間。
問:人形機器人的軟硬件技術(shù)如何協(xié)同發(fā)展?
黃源浩:當(dāng)下人形機器人的智商和運動控制能力像是剛出生的孩子,但他的身體骨架已經(jīng)接近七八歲,所以現(xiàn)在我們處于一個硬件發(fā)展快于軟件算法發(fā)展的階段。
可能再發(fā)展幾年,硬件相對軟件,又會變成短板。
例如機器人的關(guān)節(jié),現(xiàn)在一個成年男性能夠輕松抬起30公斤、50公斤的重物,但人形機器人拿5公斤、10公斤的重物就已經(jīng)很難平衡行走了;
此外,人的關(guān)節(jié)可以用一輩子,但人形機器人的關(guān)節(jié)可能使用500次、1000次后,各項指標(biāo)就會下降。
所以現(xiàn)在硬件也還沒有準(zhǔn)備好。
如果將人形機器人的軟件和硬件比作它的兩條腿的話,只有人形機器人的“兩條腿”邁步走路,整個產(chǎn)業(yè)才能持續(xù)前進。
問:所以現(xiàn)在其實是硬件已經(jīng)發(fā)展到一定階段,軟件算法需要跟上的階段,而大模型的出現(xiàn),讓人們看到了人形機器人在軟件上實現(xiàn)快速突破的可能。
黃源浩:傳統(tǒng)人工智能可能短期還追不上人形機器人硬件的發(fā)展,但是大模型的出現(xiàn)大大加速了這個過程,同時,行業(yè)也在硬件上攻堅克難,往前邁步。
機器人迎來產(chǎn)業(yè)大分工
問:今年7月你們發(fā)布了一個機器人視覺產(chǎn)業(yè)技術(shù)中臺,奧比中光具體在機器人領(lǐng)域有怎樣的思考業(yè)務(wù)部署?
黃源浩:其實2016年我們就開始為機器人企業(yè)供貨3D視覺傳感器了,之前機器人出貨量相對比較少,但7年下來,我們確實為機器人產(chǎn)業(yè)提供了很多視覺傳感器。
其實transformer在2017年就被谷歌提出了,只是GPT、大模型的出現(xiàn),讓大家意識到了這個框架的強大, transformer架構(gòu)出現(xiàn)的這幾年,我們也一直在思考,也許大模型的出現(xiàn)會讓機器人產(chǎn)業(yè),站到20年前互聯(lián)網(wǎng)行業(yè)發(fā)展初期的時間節(jié)點上,而它之后將會保持高速發(fā)展。
在機器人產(chǎn)業(yè)中,未來除了陪伴類機器人會是大批量出貨的產(chǎn)品外,還會有幾十億小批量、多型號、多機種的各類機器人。
現(xiàn)在機器人企業(yè)很多,未來經(jīng)過大浪淘沙后,還會有兩三千家機器人企業(yè)。
現(xiàn)在每個機器人企業(yè)都得自己做關(guān)節(jié)、傳感器、模型算法等等,這種模式的投入產(chǎn)出比顯然是不夠的。
對于機器人這個新興產(chǎn)業(yè),尤其是人形機器人,沒有自研技術(shù),就很難獲得資本市場青睞。
但隨著產(chǎn)業(yè)的發(fā)展,市場的關(guān)注點會逐漸從技術(shù)這個單一維度轉(zhuǎn)向更注重投入產(chǎn)出比,投入產(chǎn)出比能否至少打平,就成了一個企業(yè)未來是否能夠融到資金的關(guān)鍵。
我的觀察是,現(xiàn)在強調(diào)自研能力的機器人企業(yè),慢慢會轉(zhuǎn)向外采,整個產(chǎn)業(yè)會走向一個更符合現(xiàn)在商業(yè)世界規(guī)則的大分工時代。
這也是為什么我們會做一個產(chǎn)業(yè)技術(shù)中臺的原因,從技術(shù)角度看,奧比中光的綜合能力很強,從傳感器、雷達、模型算法,到小批量多機種的機器人制造,我們都積累了很強的能力。
就制造角度而言,機器人行業(yè)更需要的小批量、多機種的制造,這也是奧比中光的優(yōu)勢。
我們對機器人視覺產(chǎn)業(yè)技術(shù)中臺的定位是,不做機器人(整機)品牌,但是整個機器人產(chǎn)業(yè)需要的諸如視覺傳感器、激光雷達等提供通用能力的產(chǎn)品,我們會盡我們所能去提供,并邀請生態(tài)伙伴一起進來,推動整個機器人產(chǎn)業(yè)發(fā)展。
問:奧比中光機器人業(yè)務(wù)目標(biāo)要實現(xiàn)怎樣的業(yè)務(wù)規(guī)模?
黃源浩:機器人產(chǎn)業(yè)每年肯定是持續(xù)上升的,也會是我們一條持續(xù)增長且增長很快的業(yè)務(wù)線。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
關(guān)注智造、硬件、機器人。