作者| 金旺
欄目| 機(jī)器人新紀(jì)元
2024年12月3日,美國(guó)斯坦福大學(xué)教授李飛飛第一個(gè)空間智能項(xiàng)目終于趕在年終歲末上線(xiàn)。
僅憑上傳的一張圖片,就可以生成一個(gè)可交互3D線(xiàn)上空間,這是李飛飛World Labs團(tuán)隊(duì)帶給全球科技領(lǐng)域的第一個(gè)空間智能禮物。
在李飛飛這個(gè)項(xiàng)目上線(xiàn)不久前,位于大洋彼岸的中國(guó)上海,一家中國(guó)科技公司也完成了他們一次關(guān)鍵技術(shù)迭代,隨著這次技術(shù)迭代一同面世的,是他們內(nèi)部籌劃多年的3D激光雷達(dá)產(chǎn)品——SLAMTEC Aurora。
與市面上大多數(shù)激光雷達(dá)不同的是,這款產(chǎn)品不需要基于任何特定平臺(tái)、也沒(méi)有什么安裝要求,甚至不需要進(jìn)行二次配置,只要通電,Aurora就可以進(jìn)入工作狀態(tài)。
在拿到這款產(chǎn)品后,他們的測(cè)試團(tuán)隊(duì)先是拿著Aurora在一個(gè)多樓層的大型商場(chǎng)進(jìn)行了逐層建圖,后又將它帶上了汽車(chē),開(kāi)車(chē)沿著上海內(nèi)環(huán)跑了整整一圈。
陳士凱說(shuō),“當(dāng)我們開(kāi)車(chē)沿著上海內(nèi)環(huán)線(xiàn)跑完一圈后,我們發(fā)現(xiàn),帶在車(chē)上的Aurora已經(jīng)把整個(gè)內(nèi)環(huán)線(xiàn)的‘高清地圖’構(gòu)建了出來(lái)。”
這是思嵐科技成立的第十二年,是陳士凱和他的團(tuán)隊(duì)進(jìn)入這一領(lǐng)域的第十六年。
在過(guò)去這十幾年里,陳士凱已經(jīng)數(shù)不清究竟做了多少款激光雷達(dá),嚴(yán)格意義上來(lái)說(shuō),思嵐科技并不是一家激光雷達(dá)公司,他們最初的定位是做空間定位導(dǎo)航。
不過(guò),陳士凱一直覺(jué)得,空間定位導(dǎo)航這個(gè)詞太技術(shù)了,也無(wú)法很好地表達(dá)思嵐科技所做的事,直到今年,受李飛飛World Labs的啟發(fā),陳士凱找到了一個(gè)可以更精準(zhǔn)解釋他們?cè)谧龅氖碌亩ㄎ?,空間感知。
和李飛飛的空間智能不同的是,陳士凱的空間感知是通過(guò)技術(shù)手段真真切切地將現(xiàn)實(shí)世界空間地圖“復(fù)刻”到虛擬世界的一條路徑。
在A(yíng)urora面世后,這條路徑成了具身智能機(jī)器人邁入現(xiàn)實(shí)世界的重要一步。
01 算力的量變和質(zhì)變
2009年,智能手機(jī)剛剛面世,移動(dòng)互聯(lián)網(wǎng)僅僅掀開(kāi)了扉頁(yè),國(guó)內(nèi)硬件創(chuàng)業(yè)潮還未開(kāi)啟,商業(yè)機(jī)器人依然是一件遙不可及的事情,這一年,身在當(dāng)時(shí)全球科技霸主英特爾公司的陳士凱,有了創(chuàng)業(yè)的想法。
陳士凱形容自己是一個(gè)“不安分”的人,從小就喜歡動(dòng)手做一些電子小玩意,大學(xué)進(jìn)入上海交通大學(xué)后,本想在大三分專(zhuān)業(yè)時(shí)進(jìn)入軟硬結(jié)合的自動(dòng)化專(zhuān)業(yè),卻又由于種種原因,選了更適合自己的計(jì)算機(jī)專(zhuān)業(yè)。
更重要的是,陳士凱身邊還有著一群同樣“不安分”的人,這讓他們?cè)谀莻€(gè)大多數(shù)人選擇進(jìn)入外企謀一份不錯(cuò)的工作或借著互聯(lián)網(wǎng)熱潮創(chuàng)業(yè)做網(wǎng)游的年代,有了創(chuàng)業(yè)做更硬核的機(jī)器人的想法。
2009年的國(guó)內(nèi)市場(chǎng),雖然沒(méi)有什么機(jī)器人產(chǎn)業(yè),甚至沒(méi)有很好的機(jī)器人創(chuàng)業(yè)環(huán)境,但當(dāng)時(shí)的陳士凱從PC產(chǎn)業(yè)的發(fā)展中發(fā)現(xiàn),機(jī)器人這一終端產(chǎn)品的終極形態(tài)即將到來(lái)。
這樣的判斷源于當(dāng)時(shí)他在行業(yè)中看到的一些變化。
首先是PC產(chǎn)業(yè)已經(jīng)顯現(xiàn)出了沒(méi)落的趨勢(shì),大家開(kāi)始思考下一個(gè)有意義的時(shí)代、可能改變?nèi)祟?lèi)生活的產(chǎn)業(yè)是什么。
智能家居是當(dāng)時(shí)很多人看好的一個(gè)未來(lái)產(chǎn)業(yè),傳奇人物、蘋(píng)果iPod 之父Tony Fadell正是在2010年創(chuàng)業(yè)做了智能家居項(xiàng)目Nest,這家公司幾年后被谷歌收購(gòu),并由此掀起了智能家居熱潮。
此外,科大訊飛的語(yǔ)音合成技術(shù)在2008年首次超過(guò)普通人說(shuō)話(huà)水平,后經(jīng)上海世博會(huì)上的產(chǎn)品展示,開(kāi)始嶄露頭角,人工智能技術(shù)率先在語(yǔ)音合成領(lǐng)域得到驗(yàn)證。
對(duì)于陳士凱而言,這些都不是他想要做的,但這樣的變化讓他意識(shí)到:
“智能家居本質(zhì)上是對(duì)PC的一次應(yīng)用,或者說(shuō)是計(jì)算設(shè)備的一次外延,而要讓智能家居有更高的靈活性,機(jī)器人就成了一個(gè)很好的載體;
人工智能技術(shù)未來(lái)一定會(huì)得到普及,而人工智能技術(shù)的終局,也將會(huì)是機(jī)器人。”
此外,當(dāng)時(shí)身在英特爾的陳士凱還意識(shí)到了另外一個(gè)重要趨勢(shì),那就是整個(gè)IT產(chǎn)業(yè)中的算力正在愈發(fā)具有可移動(dòng)性。
如果說(shuō)從基礎(chǔ)算力到可移動(dòng)算力是一次量變,那么,算力從可移動(dòng)到自主移動(dòng)將是一次質(zhì)變的飛躍。
于是,“不安分”的陳士凱拉著一群“不安分”的好友,開(kāi)始研究如何做出一款家用機(jī)器人。
這一年還有另一個(gè)時(shí)代背景是,創(chuàng)客運(yùn)動(dòng)開(kāi)始在全球興起,一個(gè)名為Maker faire活動(dòng)席卷全球,也是在這時(shí),互聯(lián)網(wǎng)上一個(gè)智能垃圾桶的演示視頻,讓陳士凱有了興趣。
那是一位不喜歡總是要跑到垃圾桶旁邊丟垃圾的日本極客的奇思妙想,他將自己家中的垃圾桶改造成了一個(gè)可以自主移動(dòng)的智能垃圾桶,當(dāng)你隨意丟出垃圾時(shí),它會(huì)像接球一樣接到你丟出的垃圾。
這個(gè)智能垃圾桶,本質(zhì)上已經(jīng)是一個(gè)機(jī)器人,正是這樣一個(gè)機(jī)器人讓陳士凱更加確信,自主移動(dòng)是研發(fā)機(jī)器人繞不開(kāi)的問(wèn)題。
然而,在那個(gè)機(jī)器人蠻荒時(shí)代,行業(yè)里并沒(méi)有很好的移動(dòng)機(jī)器人解決方案,即便是掃地機(jī)器人鼻祖iRobot,當(dāng)時(shí)使用的移動(dòng)方案還停留在隨機(jī)碰撞方案,自主移動(dòng)對(duì)于那時(shí)的機(jī)器人還是天方夜譚。
既然繞不過(guò)去,那么,陳士凱的團(tuán)隊(duì)該用什么辦法來(lái)解決這個(gè)問(wèn)題呢?
02 讓機(jī)器人有激光雷達(dá)可用
2020年10月,iPhone 12正式發(fā)布,和大多數(shù)通過(guò)增加攝像頭數(shù)量來(lái)提升智能手機(jī)攝影能力的方案不同,蘋(píng)果為iPhone 12 Pro系列產(chǎn)品增加入了一顆激光雷達(dá),由此實(shí)現(xiàn)了景深測(cè)量和3D掃描建圖。
這樣的激光雷達(dá)應(yīng)用,在十年前是無(wú)法想象的。
如果回到十年前,激光雷達(dá)更多是被應(yīng)用在軍事和工業(yè)領(lǐng)域,動(dòng)輒大幾萬(wàn)的售價(jià),勸退了很多想要將它應(yīng)用到消費(fèi)硬件中的團(tuán)隊(duì)。
說(shuō)起來(lái),激光雷達(dá)是上世紀(jì)五六十年代出現(xiàn)的技術(shù),最早可以追溯到1960年美國(guó)休斯實(shí)驗(yàn)室發(fā)明的人類(lèi)歷史上第一臺(tái)激光器,關(guān)于激光雷達(dá)的理論基礎(chǔ),在2010年前后已經(jīng)相當(dāng)詳實(shí),但真正要在消費(fèi)領(lǐng)域應(yīng)用,當(dāng)時(shí)有參考價(jià)值的文獻(xiàn)寥寥無(wú)幾。
陳士凱認(rèn)為,激光雷達(dá)是機(jī)器人自主移動(dòng)解決方案的關(guān)鍵。
為此,他在那段時(shí)間里翻閱了很多文獻(xiàn)資料,直到看到一篇關(guān)于簡(jiǎn)易激光測(cè)距的論文,才找到了方向。
在這篇論文中,作者簡(jiǎn)述了一種通過(guò)一支激光筆、一個(gè)羅技攝像頭,基于三角測(cè)距原理實(shí)現(xiàn)的激光測(cè)距,不同于復(fù)雜的ToF原理,基于這種方法進(jìn)行激光測(cè)距,硬件成本被控制到了300元左右。
陳士凱和他的團(tuán)隊(duì)在工作之余,開(kāi)始嘗試將這套系統(tǒng)復(fù)制出來(lái),等到他們將這套系統(tǒng)復(fù)制出來(lái)后發(fā)現(xiàn),測(cè)距效果遠(yuǎn)超他們的預(yù)期,于是,他們又基于這套系統(tǒng)向前邁了一步——通過(guò)將激光筆固定在電機(jī)上形成旋轉(zhuǎn)器件,由此實(shí)現(xiàn)激光掃描圖。
更重要的是,陳士凱發(fā)現(xiàn),他們后來(lái)由此設(shè)計(jì)出的激光雷達(dá),并不比當(dāng)時(shí)商用市場(chǎng)買(mǎi)來(lái)的激光雷達(dá)差多少。這讓陳士凱下定決心要研發(fā)一款可以用于消費(fèi)級(jí)機(jī)器人的激光雷達(dá),以此解決機(jī)器人最關(guān)鍵的自主移動(dòng)難題。
從頭自研一款激光雷達(dá),還是為了應(yīng)用到消費(fèi)級(jí)機(jī)器人上,讓機(jī)器人擁有自主移動(dòng)能力,這件事兒在那個(gè)年代聽(tīng)起來(lái)很瘋狂,尤其是科研領(lǐng)域還沒(méi)有什么能夠拿來(lái)做參考的學(xué)術(shù)成果,這讓這件事變得難上加難。
對(duì)于已經(jīng)摸到方向的陳士凱來(lái)說(shuō),當(dāng)時(shí)擺在他們面前的是三個(gè)現(xiàn)實(shí)問(wèn)題:
第一,如何將激光筆+攝像頭這個(gè)雛形方案做得足夠小,小到可以裝到小型機(jī)器人里;
第二,如何讓攝像頭滿(mǎn)足激光雷達(dá)掃描過(guò)程中需要的采集幀率的需求,要知道,即便是今年蘋(píng)果發(fā)布的iPhone 16,攝像幀率最高也只能到120FPS,而激光雷達(dá)所需要的幀率至少要在1000FPS以上;
第三,如何將硬件成本控制在百元級(jí),讓它適用于消費(fèi)產(chǎn)品。
當(dāng)?shù)贸鲞@樣的結(jié)論,陳士凱和他的團(tuán)隊(duì)是近乎絕望的,尤其是當(dāng)時(shí)在國(guó)內(nèi)芯片供應(yīng)鏈中,想要找到一家能夠在這樣短時(shí)間內(nèi)研發(fā)出提升10倍幀率的攝像頭幾乎是不可能的事。
山重水復(fù)疑無(wú)路,絕處往往也會(huì)有一線(xiàn)生機(jī),對(duì)于陳士凱而言,這一線(xiàn)生機(jī)由Neato帶來(lái)。
Neato是掃地機(jī)器人發(fā)展史上另一個(gè)無(wú)法忽視的團(tuán)隊(duì),這個(gè)團(tuán)隊(duì)成立于2005年,雖然他們成立時(shí)間不如iRobot早,但是他們卻是最早將激光雷達(dá)應(yīng)用到掃地機(jī)器人的廠(chǎng)商。
2008年,Neato開(kāi)發(fā)出了一款硬件成本在200元左右的激光雷達(dá),并在之后發(fā)表的一篇論文中闡述了一種通過(guò)消費(fèi)級(jí)CMOS芯片實(shí)現(xiàn)激光測(cè)距的方法。
由于Neato作為一家商業(yè)公司,相關(guān)專(zhuān)利還在申請(qǐng)中,論文中并未過(guò)多解釋實(shí)現(xiàn)方法,但這已經(jīng)足夠證明,消費(fèi)級(jí)CMOS確實(shí)可以用于激光雷達(dá)的研發(fā)。
那段時(shí)間里,陳士凱將市面上能找到的所有CMOS芯片的數(shù)據(jù)手冊(cè)拿來(lái)翻了個(gè)遍,后來(lái)是在機(jī)緣巧合之下發(fā)現(xiàn),基于非常規(guī)用法和特殊配置,可以讓CMOS芯片超性能工作,但這往往不在芯片廠(chǎng)商原本支持的工作范圍之內(nèi)。
突破了激光雷達(dá)的信號(hào)采集幀率問(wèn)題后,陳士凱和他的團(tuán)隊(duì)一步一步找到了自己的產(chǎn)品研發(fā)節(jié)奏,并在2012年底完成了第一代激光雷達(dá)產(chǎn)品RPLIDAR A1。
RPLIDAR A1在2014年正式面世,不僅實(shí)現(xiàn)了6米半徑范圍內(nèi)2000次/秒激光測(cè)距,還將激光雷達(dá)的價(jià)格從萬(wàn)元打到了2000元,兩年之后,經(jīng)過(guò)重新設(shè)計(jì)的A1更是將價(jià)格打到了900元。
激光雷達(dá)至此不再讓機(jī)器人高不可攀,A1也成了思嵐科技改寫(xiě)機(jī)器人歷史的起點(diǎn)。
03 干掉激光雷達(dá),改寫(xiě)機(jī)器人歷史
2015年,隨著產(chǎn)業(yè)鏈成熟和各種新奇的想法塵埃落定,屬于那一代人的創(chuàng)客運(yùn)動(dòng)接近尾聲,國(guó)內(nèi)硬件創(chuàng)業(yè)進(jìn)入集中爆發(fā)期。
中國(guó)商用機(jī)器人產(chǎn)業(yè)大門(mén)在這一年緩緩開(kāi)啟,尤其是各類(lèi)服務(wù)機(jī)器人在這一年開(kāi)始涌入市場(chǎng)。
第一批涌入商用場(chǎng)景的服務(wù)機(jī)器人,大都遇到了一個(gè)經(jīng)典問(wèn)題——在一個(gè)千平、乃至萬(wàn)平的商業(yè)大場(chǎng)景地圖構(gòu)建過(guò)程中,通常會(huì)遇到各種環(huán)形走廊,機(jī)器人在經(jīng)過(guò)這些環(huán)形走廊時(shí),在機(jī)器人運(yùn)行界面上,構(gòu)建出的環(huán)路地圖總是無(wú)法首尾相連。
這就是機(jī)器人的閉環(huán)問(wèn)題,究其原因,是因?yàn)楫?dāng)時(shí)激光雷達(dá)的閉環(huán)檢測(cè)理論不夠成熟,由此也使得那些年的機(jī)器人定位導(dǎo)航系統(tǒng)備受詬病。
陳士凱告訴我們,其實(shí)這個(gè)問(wèn)題解決起來(lái)并不難,大家當(dāng)時(shí)都能想到的是,用粒子濾波方案來(lái)解決這個(gè)問(wèn)題。
對(duì)于這一方案,陳士凱做了一個(gè)通俗的比喻,一個(gè)人畫(huà)地圖總會(huì)有誤差,如果幾十、甚至上百人同時(shí)畫(huà)一張地圖,我們就可以以上帝視角,從其中篩選出最符合真實(shí)場(chǎng)景的地圖。
不過(guò),通過(guò)粒子濾波方案雖然在一定程度上可以解決地圖的閉環(huán)問(wèn)題,但也帶來(lái)了另一個(gè)問(wèn)題——算力問(wèn)題。
這里就不得不提到機(jī)器人另一關(guān)鍵要素,操作系統(tǒng)。
2007年,斯坦福大學(xué)人工智能實(shí)驗(yàn)室里誕生了一個(gè)機(jī)器人開(kāi)源操作系統(tǒng)項(xiàng)目,這個(gè)項(xiàng)目的創(chuàng)建者Willow Garage給它取了一個(gè)通俗易懂的名字Robot Operating System,這就是現(xiàn)在在全球機(jī)器人市場(chǎng)得到廣泛使用的ROS系統(tǒng)。
不過(guò),陳士凱的團(tuán)隊(duì)在做技術(shù)開(kāi)發(fā)時(shí),并沒(méi)有用這個(gè)操作系統(tǒng)。
其一是因?yàn)樗紞箍萍紙F(tuán)隊(duì)前身創(chuàng)建較早,2009年的ROS系統(tǒng)還沒(méi)有完整的代碼庫(kù),無(wú)法在市場(chǎng)中得到廣泛使用。
其二是陳士凱后來(lái)發(fā)現(xiàn),ROS當(dāng)時(shí)的目標(biāo)并不是做成更具商業(yè)價(jià)值的產(chǎn)品,而是一個(gè)用于做技術(shù)研究的產(chǎn)物,因而ROS不會(huì)考慮很多商業(yè)問(wèn)題,例如它不會(huì)考慮內(nèi)存爆炸問(wèn)題——機(jī)器人中的程序一直在跑,占用內(nèi)存不斷增長(zhǎng),最終就會(huì)導(dǎo)致系統(tǒng)崩潰。
因而,原生的ROS系統(tǒng)往往需要非常豪華的硬件配置,以一臺(tái)掃地機(jī)器人為例,當(dāng)年如果采用ROS系統(tǒng),至少需要一顆英特爾的高性能處理器、內(nèi)存也需要3-4G,整個(gè)算力存儲(chǔ)成本合下來(lái)要兩三千。
更重要的是,在創(chuàng)業(yè)之前,陳士凱在英特爾一個(gè)很特別的軟件研發(fā)部門(mén)工作,他在這個(gè)部門(mén)負(fù)責(zé)的工作是通過(guò)軟件優(yōu)化讓硬件跑出更高的性能,這就是軟硬結(jié)合的理念。
不過(guò),后來(lái)是另一家全球科技巨頭——蘋(píng)果將這一理念做到了全球之最。
正是在英特爾這段工作經(jīng)歷,讓陳士凱認(rèn)識(shí)到,未來(lái)真正能賦予機(jī)器人靈魂、改變機(jī)器人歷史的,是軟件,而非硬件。
于是,在研發(fā)機(jī)器人、解決機(jī)器人亟需的激光雷達(dá)時(shí),思嵐科技內(nèi)部也并行立項(xiàng)了一個(gè)研發(fā)機(jī)器人系統(tǒng)的項(xiàng)目,也就是思嵐科技的定位導(dǎo)航系統(tǒng)。
思嵐科技的定位導(dǎo)航系統(tǒng)一方面也是面向行業(yè)的一個(gè)開(kāi)源系統(tǒng),另一方面是思嵐科技如今諸如激光雷達(dá)、機(jī)器人移動(dòng)底盤(pán)和開(kāi)發(fā)平臺(tái)軟硬結(jié)合的關(guān)鍵。
陳士凱告訴我們,“思嵐科技的機(jī)器人操作系統(tǒng)走的路子有點(diǎn)像蘋(píng)果的iOS,雖然由于種種原因沒(méi)能像安卓系統(tǒng)一樣成為機(jī)器人領(lǐng)域全球廣泛使用的操作系統(tǒng),但卻成了思嵐科技各產(chǎn)品線(xiàn)的一個(gè)核心技術(shù)壁壘。”
思嵐科技的定位導(dǎo)航系統(tǒng)自2014年隨RPLIDAR A1以模塊化方案一并發(fā)布后,如今已經(jīng)經(jīng)歷了三個(gè)大的版本,分別是:
在2016年研發(fā)完成的能夠滿(mǎn)足商用場(chǎng)景萬(wàn)平建圖需求的2.0系統(tǒng),在2019年引入在線(xiàn)閉環(huán)和自學(xué)習(xí)方案的3.0系統(tǒng),以及在今年實(shí)現(xiàn)的以視覺(jué)為主,視覺(jué)、激光、慣導(dǎo)多傳感器融合的4.0系統(tǒng)。
搭載思嵐科技4.0版本定位導(dǎo)航系統(tǒng)的模塊化產(chǎn)品,就是前文提到的3D激光雷達(dá)產(chǎn)品——SLAMTEC Aurora,而Aurora已經(jīng)不只是一個(gè)解決方案,陳士凱稱(chēng)之為“思嵐科技的一次自我革命。”
在以往面對(duì)商用場(chǎng)景時(shí),大場(chǎng)景建圖面積被視為一個(gè)重要指標(biāo),陳士凱稱(chēng),“如果按這個(gè)邏輯,在A(yíng)urora已經(jīng)測(cè)試過(guò)的場(chǎng)景中,實(shí)現(xiàn)千萬(wàn)平米建圖已經(jīng)完全沒(méi)有問(wèn)題。”
據(jù)陳士凱介紹,“思嵐科技團(tuán)隊(duì)在將Aurora裝到汽車(chē)上并在上海內(nèi)環(huán)測(cè)試時(shí)候,上海內(nèi)環(huán)線(xiàn)全長(zhǎng)是47.7公里,我們?cè)谡麄€(gè)測(cè)試過(guò)程中將內(nèi)環(huán)線(xiàn)周邊全部房屋建筑都構(gòu)建到了3D地圖中。”
在此過(guò)程中,激光雷達(dá)的建圖邏輯已經(jīng)悄然改變。
在行業(yè)中已經(jīng)摸爬滾打十幾年的陳士凱一個(gè)深刻的感受是,“行業(yè)真正需要的并不是激光雷雷達(dá),而是空間感知能力。”
基于這樣的認(rèn)知,陳士凱向我們透露,“我們未來(lái)的目標(biāo)是干掉激光雷達(dá)這個(gè)品類(lèi)。”
04 什么是具身智能的當(dāng)下?
2022年11月,ChatGPT面世,人工智能進(jìn)入到一個(gè)全新的時(shí)刻。
信奉軟硬結(jié)合的陳士凱一直認(rèn)為,“一個(gè)不那么完美的硬件結(jié)合一個(gè)足夠智能的系統(tǒng),往往會(huì)帶來(lái)真正的技術(shù)變革。”
毫無(wú)疑問(wèn),ChatGPT就是這樣一個(gè)足夠智能的系統(tǒng)。
因而,在ChatGPT面世后,思嵐科技團(tuán)隊(duì)開(kāi)始基于大模型做各種測(cè)試,例如讓大模型模擬一個(gè)機(jī)器人,向它輸入一個(gè)攝像頭畫(huà)面并讓它輸出一個(gè)控制指令。
當(dāng)思嵐科技團(tuán)隊(duì)通過(guò)語(yǔ)音指令讓大模型找出客廳中的冰箱時(shí),大模型會(huì)先判斷這是一個(gè)客廳,然后觀(guān)察視野范圍內(nèi)有沒(méi)有冰箱,如果沒(méi)有冰箱它會(huì)轉(zhuǎn)過(guò)頭來(lái)再探索背面的空間,看是否有冰箱,這是以往的算法所無(wú)法實(shí)現(xiàn)的。
陳士凱當(dāng)時(shí)對(duì)此的分析是,“以往的機(jī)器人對(duì)你輸入的指令本質(zhì)上是進(jìn)行判斷,它并不具有歷史經(jīng)驗(yàn),但是深度學(xué)習(xí)讓機(jī)器人有了這樣的可能。”
大模型讓機(jī)器人擁有了更擬人的思考能力,實(shí)際上,如今的Aurora在導(dǎo)航建圖上,同樣擁有了擬人的邏輯。
Aurora的擬人邏輯能力,在思嵐內(nèi)部其實(shí)也經(jīng)歷過(guò)多次蛻變。
時(shí)至今日,通過(guò)激光雷達(dá)進(jìn)行導(dǎo)航建圖已被驗(yàn)證,成本問(wèn)題也早已不再是激光雷達(dá)進(jìn)入機(jī)器人領(lǐng)域,乃至消費(fèi)市場(chǎng)的瓶頸,但是激光雷達(dá)有著自身的先天缺陷。
例如面對(duì)長(zhǎng)走廊只能采集到兩條平行的直線(xiàn),面對(duì)高地起伏的路面,除非價(jià)格昂貴的3D激光雷達(dá),普通激光雷達(dá)難以進(jìn)行準(zhǔn)確識(shí)別。
正因如此,早在2015年,思嵐科技內(nèi)部就成立了視覺(jué)方案研究小組,開(kāi)始重新基于視覺(jué)算法研究導(dǎo)航建圖方案。
也是在這一年,思嵐科技內(nèi)部就有了一個(gè)名為Aurora的項(xiàng)目,當(dāng)時(shí)陳士凱基于第一性原理在考慮空間定位產(chǎn)品的終極形態(tài)時(shí),他認(rèn)為,”未來(lái)激光雷達(dá)一定會(huì)是一個(gè)通電就能用的獨(dú)立設(shè)備。“
第一款實(shí)現(xiàn)陳士凱這一構(gòu)想的產(chǎn)品是思嵐科技2018年對(duì)外發(fā)布的Mapper,不過(guò),這款產(chǎn)品構(gòu)建出的依然是二維地圖,無(wú)法識(shí)別出高低起伏的路面。
直到2024年年初,基于視覺(jué)、激光、慣導(dǎo)多傳感器融合思路的3D導(dǎo)航建圖產(chǎn)品Aurora正式立項(xiàng)。
在這代產(chǎn)品中,思嵐科技做了另一個(gè)大膽的嘗試,引入深度學(xué)習(xí)算法。
陳士凱告訴我們,“二維激光的結(jié)構(gòu)簡(jiǎn)單,能夠提取的特征數(shù)據(jù)并不多,因而行業(yè)里基于激光的深度學(xué)習(xí)研究已經(jīng)觸碰到了行業(yè)前沿,另一方面,在引入視覺(jué)方案并以視覺(jué)方案為主導(dǎo)后,我們開(kāi)始通過(guò)深度學(xué)習(xí)進(jìn)行視覺(jué)算法的研究。”
自2015年重新研究視覺(jué)方案時(shí),思嵐科技團(tuán)隊(duì)發(fā)現(xiàn),攝像頭直接影響了視覺(jué)方案最終的表現(xiàn)。
當(dāng)時(shí)市面上已經(jīng)有不少開(kāi)源視覺(jué)算法,基于開(kāi)源算法跑下來(lái)的數(shù)據(jù)各種好,等到基于攝像頭進(jìn)行實(shí)際場(chǎng)景測(cè)試時(shí),跑出來(lái)的數(shù)據(jù)并不理想,這顯然是攝像頭“有問(wèn)題”。
“當(dāng)時(shí)市面上沒(méi)有一款攝像頭能滿(mǎn)足我們的需求,”回憶起攻克視覺(jué)算法在導(dǎo)航建圖方面的難題時(shí),陳士凱如是說(shuō)。
為此,思嵐科技團(tuán)隊(duì)最早在進(jìn)行視覺(jué)算法研究之前,先是從攝像頭的研發(fā)入手,直接參與到了硬件設(shè)計(jì)和調(diào)校中,將研發(fā)出符合自己需求的攝像頭交到供應(yīng)鏈廠(chǎng)商進(jìn)行代工、生產(chǎn)。
這既符合以技術(shù)立命的思嵐科技的調(diào)性,也符合思嵐科技軟硬結(jié)合的發(fā)展思路,最終也成了2024年10月發(fā)布的Aurora的技術(shù)壁壘。
2024年10月,思嵐科技Aurora正式發(fā)布,Aurora的發(fā)布再一次將3D導(dǎo)航建圖方案的成本從萬(wàn)元級(jí)打到了千元級(jí),這讓思嵐科技對(duì)這款產(chǎn)品有了很高的期待,期待它可以為整個(gè)行業(yè)開(kāi)啟3D建圖定位的新紀(jì)元。
此外,在A(yíng)urora對(duì)外發(fā)布時(shí),陳士凱也給了它一個(gè)新的標(biāo)簽——具身智能。
前不久,特斯拉官網(wǎng)上發(fā)布了一個(gè)新視頻,這個(gè)視頻展現(xiàn)了特斯拉的人形機(jī)器人通過(guò)內(nèi)部視覺(jué)系統(tǒng)進(jìn)行環(huán)境地圖構(gòu)建、路徑規(guī)劃,并基于此執(zhí)行最終目標(biāo)任務(wù)的能力。
陳士凱看到這段視頻后發(fā)現(xiàn),“特斯拉已經(jīng)開(kāi)始考慮落地到實(shí)際場(chǎng)景中的一些更為現(xiàn)實(shí)的問(wèn)題,地圖構(gòu)建、路徑規(guī)劃就是其中的一個(gè)關(guān)鍵問(wèn)題,而特斯拉在視頻中展現(xiàn)的這套視覺(jué)系統(tǒng)其實(shí)與思嵐科技Aurora中采用的深度學(xué)習(xí)+視覺(jué)+激光雷達(dá)的方案有諸多相似之處。”
而談到具身智能,陳士凱認(rèn)為,“機(jī)械臂+輪式底盤(pán)會(huì)是這幾年在實(shí)際商業(yè)場(chǎng)景中更有價(jià)值的形態(tài),思嵐科技所擅長(zhǎng)的是為這些機(jī)器人廠(chǎng)商提供包括運(yùn)動(dòng)控制、導(dǎo)航建圖在內(nèi)的空間感知方案,機(jī)器人廠(chǎng)商則可以將更多精力放到在工廠(chǎng)搬運(yùn)環(huán)節(jié)更需要的靈巧手的研發(fā)上。”
據(jù)陳士凱透露,基于這樣的思路,思嵐科技已經(jīng)參與到了諸多具身智能機(jī)器人的場(chǎng)景落地中。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀(guān)點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話(huà)題的分析框架,識(shí)別不同觀(guān)點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀(guān)的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。
關(guān)注智造、硬件、機(jī)器人。