這項(xiàng)由谷歌DeepMind的本·莫蘭(Ben Moran)、毛羅·科米(Mauro Comi)等研究人員領(lǐng)導(dǎo)的創(chuàng)新研究,于2025年6月發(fā)表在人工智能頂級學(xué)術(shù)期刊上。有興趣深入了解的讀者可以通過論文編號arXiv:2506.04120v1獲取完整研究內(nèi)容。這項(xiàng)研究團(tuán)隊(duì)還包括來自倫敦大學(xué)學(xué)院和布里斯托大學(xué)的專家學(xué)者,代表了當(dāng)前機(jī)器人學(xué)習(xí)領(lǐng)域的前沿探索。
想象一下,你剛搬進(jìn)一個(gè)新家,想要制作一個(gè)精確的室內(nèi)布置圖,但你只有一部手機(jī)攝像頭,而且拍攝時(shí)手還在微微顫抖。更麻煩的是,家里的寵物不停地在鏡頭前跑來跑去,讓畫面變得混亂。這就是現(xiàn)實(shí)世界中機(jī)器人面臨的挑戰(zhàn)——它們需要從不完美、嘈雜的感知數(shù)據(jù)中理解和重建周圍的世界。
傳統(tǒng)的方法就像要求一個(gè)新手?jǐn)z影師必須使用專業(yè)設(shè)備和完美的拍攝條件才能工作。但現(xiàn)實(shí)中,大多數(shù)機(jī)器人都是"業(yè)余選手",它們的傳感器并不完美,動作也不夠精確,周圍環(huán)境更是千變?nèi)f化。這就好比你試圖用一臺老舊的相機(jī)在昏暗的房間里給不停動來動去的孩子拍照——結(jié)果往往是模糊不清的。
這項(xiàng)突破性研究提出了一個(gè)全新的解決方案,就像給機(jī)器人配備了一雙"魔法眼睛"。這雙眼睛不僅能看到表面現(xiàn)象,還能透過混亂的表象理解物體的真實(shí)形狀、位置和物理特性。更神奇的是,它能將這些理解轉(zhuǎn)化為一個(gè)完美的虛擬世界,讓機(jī)器人可以在其中安全地練習(xí)和學(xué)習(xí),就像飛行員在模擬器中訓(xùn)練一樣。
研究團(tuán)隊(duì)的核心創(chuàng)新在于開發(fā)了一種名為"SplatMesh"的混合表示方法。如果我們把傳統(tǒng)方法比作用積木搭建房子,那么SplatMesh就像是用可塑橡皮泥來塑造——它既能保持物體的基本骨架結(jié)構(gòu),又能精確地描繪表面的每一個(gè)細(xì)節(jié)。這種方法的巧妙之處在于,它能同時(shí)處理物體的幾何形狀(就像房子的框架)和視覺外觀(就像房子的裝修和色彩),而且這兩者是緊密關(guān)聯(lián)的,一個(gè)改變時(shí)另一個(gè)也會相應(yīng)調(diào)整。
更令人驚嘆的是,整個(gè)系統(tǒng)采用了端到端的優(yōu)化策略。這就像一個(gè)超級智能的室內(nèi)設(shè)計(jì)師,它不僅能看懂你粗糙的手繪草圖,還能自動糾正測量誤差,補(bǔ)充缺失的細(xì)節(jié),最終生成一套完美的裝修方案。在機(jī)器人的世界里,這意味著系統(tǒng)能同時(shí)校準(zhǔn)機(jī)器人的動作誤差、修正相機(jī)的位置偏差,并重建出精確的物體模型。
一、機(jī)器人的"視覺挑戰(zhàn)"——為什么需要這項(xiàng)技術(shù)
想象你正在教一個(gè)朋友如何在你家廚房做飯,但這個(gè)朋友戴著度數(shù)不對的眼鏡,而且手腳還有些不協(xié)調(diào)。每當(dāng)他試圖拿起一個(gè)杯子時(shí),要么伸手的位置偏了,要么對杯子的形狀判斷錯(cuò)誤。這就是現(xiàn)代機(jī)器人面臨的根本挑戰(zhàn)——它們需要在一個(gè)充滿不確定性的真實(shí)世界中準(zhǔn)確地感知和操作物體。
傳統(tǒng)的機(jī)器人訓(xùn)練方法就像在一個(gè)完美的攝影棚里工作。所有的燈光都恰到好處,每個(gè)物體都精確地放在預(yù)定位置,相機(jī)也固定在最佳角度。在這種理想環(huán)境下,機(jī)器人確實(shí)能表現(xiàn)得很好。但一旦它們走出"攝影棚",進(jìn)入真實(shí)世界,問題就開始層出不窮了。
現(xiàn)實(shí)世界就像一個(gè)熱鬧的菜市場。燈光忽明忽暗,人們不停地走動,物體的位置隨時(shí)在變化,而且你的相機(jī)可能還是一臺老舊的手機(jī),拍出來的照片有時(shí)候會抖動或者模糊。在這種環(huán)境下,傳統(tǒng)的3D重建技術(shù)就像一個(gè)挑剔的畫家,它要求模特必須一動不動地保持同一個(gè)姿勢幾個(gè)小時(shí),周圍的光線也不能有絲毫變化。
更復(fù)雜的是,現(xiàn)有的技術(shù)往往把"看"和"理解物理特性"當(dāng)作兩個(gè)完全分離的任務(wù)。這就好比一個(gè)人只能看到物體的顏色和形狀,但不知道它是硬的還是軟的,是重的還是輕的。對于需要實(shí)際操作物體的機(jī)器人來說,這種割裂是致命的。它們不僅需要知道一個(gè)蘋果長什么樣,還需要知道怎樣才能穩(wěn)穩(wěn)地抓起它而不把它捏爛。
研究團(tuán)隊(duì)發(fā)現(xiàn),目前最先進(jìn)的3D重建技術(shù)雖然能生成非常逼真的圖像,但這些技術(shù)就像電影中的特效——看起來很真實(shí),但你無法真正觸摸或操作其中的物體。這些"數(shù)字幻影"無法直接用于物理仿真,更不能幫助機(jī)器人學(xué)習(xí)如何在真實(shí)世界中操作物體。
另一個(gè)重大挑戰(zhàn)是相機(jī)校準(zhǔn)問題。傳統(tǒng)方法需要精確知道每個(gè)相機(jī)的確切位置和角度,這就像要求你閉著眼睛準(zhǔn)確地指出房間里每件家具的位置一樣困難。在實(shí)際的機(jī)器人系統(tǒng)中,相機(jī)經(jīng)常安裝在機(jī)器人的手臂上,隨著機(jī)器人的運(yùn)動而不斷移動。由于機(jī)械磨損、溫度變化和控制誤差,機(jī)器人關(guān)節(jié)的實(shí)際位置往往與理論計(jì)算值存在偏差,這導(dǎo)致相機(jī)位置的估計(jì)也變得不準(zhǔn)確。
研究團(tuán)隊(duì)選擇了ALOHA2雙臂機(jī)器人作為測試平臺,這是一個(gè)相對低成本的機(jī)器人系統(tǒng)。就像選擇一輛經(jīng)濟(jì)型汽車而不是豪華跑車來測試導(dǎo)航系統(tǒng)一樣,這種選擇更能反映現(xiàn)實(shí)應(yīng)用場景。ALOHA2配備了四個(gè)RGB相機(jī)——兩個(gè)固定在桌面上,兩個(gè)安裝在機(jī)器人的手腕上。這種配置雖然實(shí)用,但也帶來了獨(dú)特的挑戰(zhàn):相機(jī)數(shù)量有限,視角受限,而且移動相機(jī)的位置估計(jì)存在誤差。
在這種條件下,傳統(tǒng)的建圖軟件如COLMAP根本無法正常工作。COLMAP就像一個(gè)需要參照物的測量員,它依賴于在不同視角中找到相同的特征點(diǎn)來確定相機(jī)位置。但在動態(tài)的機(jī)器人操作場景中,這些特征點(diǎn)要么被機(jī)器人手臂遮擋,要么因?yàn)楣庹兆兓兊媚:磺濉?/p>
更讓人頭疼的是物體分割問題。想象你要在一張全家福中準(zhǔn)確地框出每個(gè)人的輪廓,這在機(jī)器人的世界里就是物體分割。現(xiàn)有的AI分割工具在處理人、動物、常見物品時(shí)表現(xiàn)出色,但面對機(jī)器人手臂這樣的工業(yè)設(shè)備時(shí)就顯得力不從心了。機(jī)器人手臂通常色彩單調(diào),缺乏明顯的紋理特征,而且形狀會隨著關(guān)節(jié)角度的變化而發(fā)生劇烈改變。這就像試圖在一張模糊的照片中區(qū)分出幾根相似的金屬管子——即使是人眼也會感到困難。
正是這些現(xiàn)實(shí)挑戰(zhàn)推動研究團(tuán)隊(duì)開發(fā)出了全新的解決方案。他們沒有回避這些困難,而是將其視為設(shè)計(jì)挑戰(zhàn)的核心約束。就像建筑師在設(shè)計(jì)房屋時(shí)必須考慮地基條件、氣候因素和材料限制一樣,這項(xiàng)研究從一開始就將真實(shí)世界的不完美性納入了解決方案的核心設(shè)計(jì)中。
二、SplatMesh——機(jī)器人的"魔法透鏡"
在解決了傳統(tǒng)方法的局限性之后,研究團(tuán)隊(duì)開發(fā)出了一種革命性的場景表示方法,他們稱之為SplatMesh。如果我們把傳統(tǒng)的3D建模比作用樂高積木搭建房子,那么SplatMesh就像是用一種神奇的智能粘土——它既保持了積木的結(jié)構(gòu)穩(wěn)定性,又具備了粘土的靈活塑形能力。
SplatMesh的核心思想是將物體的幾何結(jié)構(gòu)和外觀表現(xiàn)巧妙地結(jié)合在一起。想象你正在制作一個(gè)生日蛋糕,蛋糕的海綿體就像是幾何骨架,為整個(gè)蛋糕提供形狀和支撐;而上面的奶油裝飾和彩色糖霜就像是外觀層,讓蛋糕看起來美味誘人。在SplatMesh中,三角形網(wǎng)格扮演著海綿體的角色,定義了物體的基本形狀和結(jié)構(gòu),而3D高斯點(diǎn)就像是奶油裝飾,負(fù)責(zé)呈現(xiàn)物體表面的精細(xì)紋理、顏色和光澤。
這種設(shè)計(jì)的巧妙之處在于,兩個(gè)層次之間不是簡單的疊加關(guān)系,而是有機(jī)的融合。每個(gè)3D高斯點(diǎn)都被"錨定"在三角形網(wǎng)格的表面上,就像磁鐵被吸附在金屬表面一樣。當(dāng)?shù)讓拥膸缀涡螤畎l(fā)生變化時(shí),表面的高斯點(diǎn)會自動跟隨調(diào)整,確保整體表現(xiàn)的一致性。這就好比當(dāng)你調(diào)整蛋糕胚的形狀時(shí),上面的裝飾也會自然地跟著變形,而不會出現(xiàn)裝飾與蛋糕分離的情況。
在傳統(tǒng)的3D重建方法中,獲取物體的幾何形狀和外觀通常需要兩個(gè)完全獨(dú)立的流程。這就像讓兩個(gè)完全不溝通的團(tuán)隊(duì)分別負(fù)責(zé)設(shè)計(jì)房屋的結(jié)構(gòu)和裝修——結(jié)果往往是結(jié)構(gòu)工程師設(shè)計(jì)的承重墻與室內(nèi)設(shè)計(jì)師的布局方案相沖突。而SplatMesh通過將兩者緊密耦合,確保了幾何調(diào)整和外觀優(yōu)化能夠協(xié)調(diào)進(jìn)行,避免了傳統(tǒng)方法中常見的不一致問題。
具體來說,SplatMesh的幾何層使用標(biāo)準(zhǔn)的三角形網(wǎng)格來表示物體的基本形狀。研究團(tuán)隊(duì)選擇從一個(gè)簡單的球形網(wǎng)格開始,這就像雕塑家從一塊粗糙的石料開始雕刻一樣。通過優(yōu)化過程,這個(gè)初始的球形會逐漸變形,就像粘土在雕塑家手中逐漸成型,最終形成目標(biāo)物體的準(zhǔn)確幾何形狀。
在外觀層面,SplatMesh使用了3D高斯散射技術(shù)的改進(jìn)版本。每個(gè)高斯點(diǎn)就像是一個(gè)微小的彩色光源,它有自己的位置、大小、方向和顏色特性。更重要的是,這些高斯點(diǎn)不是隨意散布在空間中的,而是嚴(yán)格約束在幾何網(wǎng)格的表面上。這種約束確保了外觀信息與幾何結(jié)構(gòu)的緊密對應(yīng),避免了傳統(tǒng)方法中可能出現(xiàn)的"懸浮"或"錯(cuò)位"問題。
為了進(jìn)一步確保表面的真實(shí)性,研究團(tuán)隊(duì)還引入了"表面元素"(Surfel)約束。這個(gè)技術(shù)就像給每個(gè)高斯點(diǎn)戴上了一個(gè)特殊的"緊身衣",限制它只能在與表面平行的方向上擴(kuò)展,而在垂直于表面的方向上則被壓縮得非常薄。這樣做的效果是讓每個(gè)高斯點(diǎn)更像真實(shí)表面的一小塊區(qū)域,而不是空間中的一團(tuán)霧氣。
這種設(shè)計(jì)帶來了多重優(yōu)勢。首先,由于幾何結(jié)構(gòu)是顯式表示的,可以直接應(yīng)用各種幾何約束和規(guī)則化技術(shù)。這就像在雕刻過程中可以隨時(shí)使用卡尺測量,確保比例的準(zhǔn)確性。研究團(tuán)隊(duì)使用了拉普拉斯平滑等技術(shù)來確保重建出的表面足夠光滑自然,避免出現(xiàn)不合理的尖銳邊緣或凹凸。
其次,顯式的幾何表示使得生成的模型可以直接用于物理仿真。傳統(tǒng)的神經(jīng)輻射場方法生成的是一種"幽靈般"的表示——你可以從任何角度觀看它,但無法真正觸摸或操作它。而SplatMesh生成的網(wǎng)格模型就像真實(shí)的物理對象一樣,可以直接導(dǎo)入到MuJoCo等物理仿真引擎中,讓機(jī)器人在虛擬環(huán)境中練習(xí)抓取、移動和操作這些物體。
第三個(gè)重要優(yōu)勢是計(jì)算效率。由于高斯點(diǎn)的數(shù)量和分布是受控的(它們被限制在網(wǎng)格表面),整個(gè)渲染過程比傳統(tǒng)的體積渲染方法更加高效。這就像用噴槍在模板上繪畫比隨意揮灑顏料更加精確和高效一樣。
在優(yōu)化過程中,SplatMesh的兩個(gè)層次會協(xié)同進(jìn)化。當(dāng)系統(tǒng)發(fā)現(xiàn)當(dāng)前的幾何形狀無法很好地解釋觀察到的圖像時(shí),它會調(diào)整網(wǎng)格的頂點(diǎn)位置,就像雕塑家根據(jù)參考照片調(diào)整雕塑的輪廓一樣。同時(shí),表面的高斯點(diǎn)也會相應(yīng)地調(diào)整它們的顏色、透明度和其他屬性,以更好地匹配真實(shí)物體的外觀。
這種協(xié)同優(yōu)化過程的一個(gè)關(guān)鍵特性是梯度的流動。在傳統(tǒng)的深度學(xué)習(xí)中,我們說"梯度"就像水流一樣,從最終的目標(biāo)(比如圖像的相似度)反向流動到各個(gè)參數(shù)。在SplatMesh中,這種梯度流可以同時(shí)影響幾何形狀和外觀參數(shù),確保整個(gè)系統(tǒng)朝著統(tǒng)一的目標(biāo)進(jìn)化,而不是各自為政。
研究團(tuán)隊(duì)還精心設(shè)計(jì)了高斯點(diǎn)的初始化策略。他們使用重心坐標(biāo)系統(tǒng)來確定每個(gè)高斯點(diǎn)在三角形面片上的位置,這就像在每個(gè)三角形區(qū)域內(nèi)撒種子一樣,確保覆蓋的均勻性。根據(jù)不同的應(yīng)用需求,每個(gè)三角形面片上會放置6到20個(gè)高斯點(diǎn),就像根據(jù)畫布的大小選擇合適密度的畫筆一樣。
三、端到端優(yōu)化——讓機(jī)器人"眼腦手"協(xié)調(diào)工作
傳統(tǒng)的機(jī)器人系統(tǒng)就像一個(gè)分工過細(xì)的工廠流水線——每個(gè)工位只負(fù)責(zé)一個(gè)特定任務(wù),信息在不同部門之間傳遞時(shí)經(jīng)常出現(xiàn)誤差累積和溝通障礙。研究團(tuán)隊(duì)提出的端到端優(yōu)化方案則完全不同,它更像是一個(gè)技藝精湛的手工藝人,能夠同時(shí)協(xié)調(diào)眼睛觀察、大腦思考和雙手操作,形成一個(gè)統(tǒng)一協(xié)調(diào)的整體。
這種端到端方法的核心理念是將機(jī)器人系統(tǒng)中的所有不確定因素——從相機(jī)的精確位置到物體的確切形狀,從機(jī)器人關(guān)節(jié)的實(shí)際角度到表面材質(zhì)的光學(xué)特性——統(tǒng)統(tǒng)視為可以同時(shí)優(yōu)化的變量。就像一個(gè)廚師在調(diào)配一道復(fù)雜菜肴時(shí),不僅要調(diào)整鹽的用量,還要同時(shí)考慮火候、時(shí)間、其他調(diào)料的比例,最終讓所有元素協(xié)調(diào)一致地服務(wù)于最終的口味目標(biāo)。
整個(gè)優(yōu)化過程建立在一個(gè)簡單而強(qiáng)大的原理之上:讓虛擬世界中渲染出的圖像盡可能接近真實(shí)世界中機(jī)器人看到的畫面。這聽起來容易,但實(shí)現(xiàn)起來需要解決一系列技術(shù)挑戰(zhàn)。想象你正在制作一個(gè)電影場景的微縮模型,你不僅要確保模型中每個(gè)建筑物的比例正確,還要調(diào)整燈光、相機(jī)角度和演員的位置,讓拍攝出的畫面與真實(shí)場景完全一致。
在機(jī)器人的應(yīng)用場景中,這個(gè)過程更加復(fù)雜,因?yàn)?演員"(機(jī)器人手臂)在不斷運(yùn)動,"攝影師"(相機(jī))的位置也在變化,而且我們對這些位置的了解并不完全準(zhǔn)確。研究團(tuán)隊(duì)巧妙地利用了現(xiàn)代深度學(xué)習(xí)中的自動微分技術(shù),讓整個(gè)系統(tǒng)能夠自動計(jì)算出每個(gè)參數(shù)的微小調(diào)整如何影響最終的圖像質(zhì)量。
這種自動微分就像是給系統(tǒng)裝上了一套極其敏感的反饋網(wǎng)絡(luò)。當(dāng)系統(tǒng)發(fā)現(xiàn)渲染出的圖像與真實(shí)觀察存在差異時(shí),它能夠準(zhǔn)確地追蹤這種差異的來源——是因?yàn)槲矬w形狀估計(jì)有誤,還是相機(jī)位置偏差,或者是機(jī)器人關(guān)節(jié)角度不準(zhǔn)確。然后,系統(tǒng)會同時(shí)對所有這些可能的誤差源進(jìn)行微調(diào),就像一個(gè)經(jīng)驗(yàn)豐富的調(diào)音師能夠同時(shí)調(diào)整樂隊(duì)中多個(gè)樂器的音調(diào),讓整體演奏更加和諧。
在技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)將整個(gè)系統(tǒng)分為兩個(gè)緊密連接的部分:可微分物理仿真和可微分渲染??晌⒎治锢矸抡尕?fù)責(zé)根據(jù)機(jī)器人的關(guān)節(jié)角度計(jì)算出機(jī)器人各個(gè)部位(包括安裝在手腕上的相機(jī))的精確位置。這就像一個(gè)超級精確的人體運(yùn)動追蹤系統(tǒng),能夠根據(jù)關(guān)節(jié)角度推算出身體每個(gè)部位的空間坐標(biāo)。
可微分渲染則負(fù)責(zé)根據(jù)物體的3D模型和相機(jī)位置生成相應(yīng)的圖像。這個(gè)過程就像一個(gè)虛擬攝影師,它不僅要知道在哪里拍照,還要了解被拍攝物體的每一個(gè)細(xì)節(jié),從形狀到顏色,從表面紋理到光澤度。更重要的是,這個(gè)"虛擬攝影師"能夠告訴系統(tǒng),如果稍微調(diào)整物體的形狀或者移動一下相機(jī)的位置,拍出來的照片會有什么樣的變化。
研究團(tuán)隊(duì)使用了MuJoCo MJX作為物理仿真引擎,這是一個(gè)專門為機(jī)器人研究設(shè)計(jì)的高性能仿真器。MJX的特殊之處在于它完全基于JAX框架構(gòu)建,支持自動微分計(jì)算。這意味著當(dāng)機(jī)器人關(guān)節(jié)角度發(fā)生微小變化時(shí),系統(tǒng)能夠自動計(jì)算出這種變化如何影響機(jī)器人末端執(zhí)行器和相機(jī)的位置,進(jìn)而影響最終的成像效果。
在渲染方面,團(tuán)隊(duì)改進(jìn)了3D高斯散射的渲染管道,使其能夠處理復(fù)雜的機(jī)器人場景。傳統(tǒng)的高斯散射主要用于靜態(tài)場景的新視角合成,而這里需要處理動態(tài)的機(jī)器人運(yùn)動和多物體交互。研究團(tuán)隊(duì)開發(fā)了自定義的CUDA內(nèi)核來加速前向和反向傳播計(jì)算,確保整個(gè)優(yōu)化過程能夠在合理的時(shí)間內(nèi)完成。
優(yōu)化目標(biāo)函數(shù)的設(shè)計(jì)體現(xiàn)了這種端到端方法的精妙之處。它不是單一的圖像重建誤差,而是多個(gè)相互關(guān)聯(lián)的損失項(xiàng)的加權(quán)組合。光度損失確保渲染圖像的顏色和亮度與真實(shí)觀察匹配;幾何正則化項(xiàng)確保重建出的物體形狀合理光滑;表面法向量一致性確保物體表面的朝向正確;輪廓匹配損失確保物體的邊界準(zhǔn)確。
這些不同的損失項(xiàng)就像交響樂中的不同聲部,每一個(gè)都有自己的"旋律",但最終要協(xié)調(diào)一致地服務(wù)于整體的"樂章"。研究團(tuán)隊(duì)精心調(diào)整了各個(gè)損失項(xiàng)的權(quán)重,確保系統(tǒng)在優(yōu)化過程中不會過分偏向某一個(gè)方面而忽略其他重要特性。
特別值得一提的是輪廓損失的設(shè)計(jì)。傳統(tǒng)的二值化掩碼監(jiān)督存在一個(gè)問題:當(dāng)預(yù)測的物體輪廓與真實(shí)輪廓不重疊時(shí),系統(tǒng)無法獲得有效的梯度信息來指導(dǎo)優(yōu)化方向。研究團(tuán)隊(duì)通過引入二維歐幾里得距離變換巧妙地解決了這個(gè)問題。這種方法就像在地圖上畫等高線一樣,為輪廓周圍的每個(gè)像素賦予了到最近邊界的距離信息,讓系統(tǒng)即使在輪廓完全錯(cuò)位的情況下也能找到正確的優(yōu)化方向。
在實(shí)際應(yīng)用中,整個(gè)優(yōu)化過程采用了交替更新的策略。系統(tǒng)首先固定幾何參數(shù),優(yōu)化外觀相關(guān)的高斯參數(shù),讓虛擬物體"穿上"正確的"外衣";然后固定外觀參數(shù),調(diào)整幾何形狀和位置參數(shù),讓物體的"骨架"更加準(zhǔn)確。這種交替優(yōu)化策略就像雕塑家在創(chuàng)作時(shí)既要關(guān)注整體輪廓,又要雕琢細(xì)節(jié)紋理,通過反復(fù)調(diào)整最終達(dá)到理想效果。
四、實(shí)驗(yàn)驗(yàn)證——從仿真到現(xiàn)實(shí)的跨越
為了驗(yàn)證這套創(chuàng)新系統(tǒng)的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列從簡單到復(fù)雜、從仿真環(huán)境到真實(shí)世界的綜合性實(shí)驗(yàn)。這個(gè)驗(yàn)證過程就像新藥的臨床試驗(yàn)一樣嚴(yán)謹(jǐn),從實(shí)驗(yàn)室的小白鼠實(shí)驗(yàn)開始,逐步過渡到人體試驗(yàn),每一步都要確保安全性和有效性。
首先,團(tuán)隊(duì)在完全可控的仿真環(huán)境中測試了系統(tǒng)的基本能力。他們使用了著名的YCB物體數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了64種日常生活中常見的物體,從香蕉、蘋果這樣的水果,到咖啡杯、工具這樣的用品。就像演員在正式演出前需要在排練廳里反復(fù)練習(xí)一樣,仿真實(shí)驗(yàn)讓研究團(tuán)隊(duì)能夠在完全可控的條件下測試系統(tǒng)的各項(xiàng)功能。
在仿真實(shí)驗(yàn)中,每個(gè)物體都從50個(gè)不同的視角進(jìn)行拍攝,這些視角均勻分布在物體周圍的上半球面上,模擬了真實(shí)情況下相機(jī)可能的觀察位置。團(tuán)隊(duì)將這些數(shù)據(jù)按照80%和20%的比例分為訓(xùn)練集和測試集,就像學(xué)生考試前用大部分時(shí)間學(xué)習(xí),留一小部分內(nèi)容用來檢驗(yàn)學(xué)習(xí)效果一樣。
仿真實(shí)驗(yàn)的結(jié)果令人鼓舞。在幾何重建方面,SplatMesh方法達(dá)到了0.073平方毫米的倒角距離誤差,這個(gè)數(shù)字意味著重建出的物體表面與真實(shí)表面的平均偏差不到0.3毫米,相當(dāng)于一根頭發(fā)絲的粗細(xì)。相比之下,沒有使用拉普拉斯正則化的版本誤差達(dá)到0.237平方毫米,而不使用表面約束的版本誤差為0.122平方毫米,這證明了系統(tǒng)各個(gè)技術(shù)組件的重要性。
在新視角合成質(zhì)量方面,團(tuán)隊(duì)使用了三個(gè)標(biāo)準(zhǔn)指標(biāo)來評估渲染圖像的質(zhì)量。峰值信噪比(PSNR)達(dá)到了30.91分貝,這個(gè)數(shù)值表明重建圖像與原始圖像之間的差異非常小,就像高保真音響設(shè)備能夠準(zhǔn)確重現(xiàn)原始錄音一樣。結(jié)構(gòu)相似性指數(shù)(SSIM)達(dá)到0.970,接近完美的1.0,說明重建圖像在結(jié)構(gòu)上與原始圖像高度一致。學(xué)習(xí)感知圖像塊相似性(LPIPS)僅為0.044,這個(gè)較低的數(shù)值表明重建圖像在人眼感知上與原始圖像幾乎無法區(qū)分。
特別有意思的是與現(xiàn)有先進(jìn)方法的比較結(jié)果。NeRFacto作為當(dāng)前最先進(jìn)的神經(jīng)輻射場實(shí)現(xiàn),在PSNR上取得了30.29的成績,與SplatMesh相當(dāng),但在LPIPS指標(biāo)上為0.057,略遜于SplatMesh的0.044。更重要的是,NeRFacto生成的表示無法直接用于物理仿真,而SplatMesh生成的網(wǎng)格模型可以直接導(dǎo)入機(jī)器人仿真器中使用。
傳統(tǒng)3D高斯散射方法的表現(xiàn)則相對較差,PSNR僅為26.97,這主要是因?yàn)閭鹘y(tǒng)方法缺乏幾何約束,高斯點(diǎn)可能擴(kuò)散到物體表面之外的空間中,導(dǎo)致渲染質(zhì)量下降。這就像沒有模具約束的果凍,雖然顏色正確但形狀模糊不清。
真實(shí)世界實(shí)驗(yàn)的挑戰(zhàn)要大得多。研究團(tuán)隊(duì)使用ALOHA2雙臂機(jī)器人平臺收集了真實(shí)的操作數(shù)據(jù),這個(gè)過程就像讓學(xué)生從課堂走向社會實(shí)踐一樣,充滿了意想不到的挑戰(zhàn)。ALOHA2是一個(gè)相對低成本的機(jī)器人系統(tǒng),具有14個(gè)自由度(每只手臂6個(gè)關(guān)節(jié)加上1個(gè)夾爪),配備4個(gè)RGB相機(jī),代表了典型的實(shí)用型機(jī)器人配置。
數(shù)據(jù)收集過程持續(xù)了約40秒,生成了6個(gè)觀察軌跡,總共包含1168幀圖像。在這些數(shù)據(jù)中,研究團(tuán)隊(duì)特意保留了每個(gè)移動相機(jī)的8幀圖像作為測試數(shù)據(jù),用來驗(yàn)證系統(tǒng)在未見過的視角下的重建質(zhì)量。這就像保留一部分考試題目不給學(xué)生練習(xí),用來檢驗(yàn)真實(shí)的掌握程度。
真實(shí)世界實(shí)驗(yàn)的結(jié)果證明了端到端優(yōu)化方法的關(guān)鍵重要性。當(dāng)系統(tǒng)能夠同時(shí)優(yōu)化相機(jī)外參數(shù)時(shí),香蕉的幾何重建誤差僅為16.96平方毫米的平方根(約4.1毫米),新視角合成的PSNR達(dá)到24.49分貝。但當(dāng)相機(jī)參數(shù)固定在機(jī)器人關(guān)節(jié)編碼器提供的名義值時(shí),幾何重建完全失敗,誤差飆升到11.67平方毫米的平方根(約3.4倍的惡化),PSNR也下降到24.49分貝。這種巨大的性能差異清楚地表明,對于實(shí)際的機(jī)器人系統(tǒng)來說,聯(lián)合優(yōu)化相機(jī)校準(zhǔn)和物體重建是必不可少的。
為了進(jìn)一步驗(yàn)證方法的優(yōu)越性,研究團(tuán)隊(duì)還與最新的3D重建基礎(chǔ)模型TRELLIS進(jìn)行了比較。TRELLIS是一個(gè)基于大規(guī)模數(shù)據(jù)訓(xùn)練的生成模型,能夠從單張圖像推斷出物體的3D形狀。在某些情況下,TRELLIS確實(shí)能夠生成高質(zhì)量的形狀預(yù)測,比如對桃子的重建誤差僅為2.70平方毫米的平方根。但TRELLIS也存在明顯的局限性:它有時(shí)會產(chǎn)生各向異性的尺度扭曲,添加不存在的幾何結(jié)構(gòu)(如額外的地面平面),或者對簡單形狀的基本3D結(jié)構(gòu)理解失敗。
更重要的是,TRELLIS的輸出不包含度量尺度或物體姿態(tài)信息,而SplatMesh方法能夠生成度量準(zhǔn)確的重建結(jié)果,并在機(jī)器人工作空間內(nèi)準(zhǔn)確定位物體的6D姿態(tài)。這種差異就像GPS導(dǎo)航與手繪地圖的區(qū)別——前者能夠提供精確的坐標(biāo)和方向信息,后者雖然可能在藝術(shù)性上更好,但缺乏實(shí)用的精度。
機(jī)器人姿態(tài)校準(zhǔn)實(shí)驗(yàn)進(jìn)一步證明了方法的實(shí)用價(jià)值。研究團(tuán)隊(duì)在仿真環(huán)境中為機(jī)器人關(guān)節(jié)角度添加了不同程度的高斯噪聲,模擬真實(shí)機(jī)器人系統(tǒng)中常見的編碼器誤差和機(jī)械間隙。結(jié)果顯示,即使在相對較大的噪聲條件下(標(biāo)準(zhǔn)差0.03弧度,約1.7度),系統(tǒng)仍能將工具中心點(diǎn)的位置誤差從32.6毫米降低到18.5毫米,實(shí)現(xiàn)了約43%的誤差減少。
這種校準(zhǔn)能力的實(shí)際意義不容小覷。在真實(shí)的機(jī)器人應(yīng)用中,即使是幾毫米的位置誤差也可能導(dǎo)致抓取失敗或碰撞事故。通過視覺反饋進(jìn)行在線校準(zhǔn),就像給機(jī)器人裝上了"糾錯(cuò)系統(tǒng)",讓它能夠根據(jù)實(shí)際看到的結(jié)果來修正自己的動作,而不是盲目相信理論計(jì)算值。
五、創(chuàng)新應(yīng)用——從文本到3D物體的"魔法變換"
除了核心的機(jī)器人感知和重建功能,研究團(tuán)隊(duì)還展示了SplatMesh技術(shù)在3D資產(chǎn)生成方面的驚人潛力。這項(xiàng)功能就像是科幻電影中的"物質(zhì)復(fù)制器",能夠根據(jù)簡單的文字描述或單張圖片,創(chuàng)造出完整的3D物體模型,并且這些模型可以直接在物理仿真器中使用。
這個(gè)"魔法變換"的過程融合了多項(xiàng)前沿技術(shù)。首先,系統(tǒng)使用CAT3D模型根據(jù)文本提示或單張圖像生成多視角一致的圖像序列。這個(gè)過程就像一個(gè)想象力豐富的插畫師,能夠根據(jù)你的文字描述,從不同角度繪制出同一個(gè)物體的多張草圖,確保每張圖之間保持邏輯一致性。
CAT3D生成的40張多視角圖像為后續(xù)的3D重建提供了豐富的視覺信息。這些圖像覆蓋了物體周圍的完整視角,就像圍繞雕塑作品走一圈,從每個(gè)角度都仔細(xì)觀察一遍。與傳統(tǒng)的單視角3D重建方法相比,這種多視角輸入大大提高了重建的準(zhǔn)確性和完整性。
接下來,SplatMesh系統(tǒng)開始發(fā)揮作用,將這些2D圖像轉(zhuǎn)化為完整的3D表示。整個(gè)過程就像一個(gè)技藝精湛的陶藝師,根據(jù)參考圖片塑造陶土,不僅要確保形狀準(zhǔn)確,還要讓表面紋理和色彩都與參考保持一致。系統(tǒng)同時(shí)優(yōu)化幾何網(wǎng)格和外觀高斯參數(shù),確保從任何角度觀看生成的3D模型都與對應(yīng)的參考圖像高度匹配。
但是,3D高斯表示雖然在渲染質(zhì)量上表現(xiàn)出色,卻無法直接被傳統(tǒng)的物理仿真器使用。這就像制作了一個(gè)全息投影,看起來非常逼真,但你無法真正觸摸或操作它。為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一套紋理貼圖烘焙流程,將3D高斯的外觀信息轉(zhuǎn)換為標(biāo)準(zhǔn)的紋理貼圖格式。
這個(gè)轉(zhuǎn)換過程采用了逆向渲染技術(shù),就像逆向工程一樣巧妙。系統(tǒng)首先使用優(yōu)化好的SplatMesh從多個(gè)視角渲染物體圖像,然后將這些圖像信息"投射"到物體表面的UV坐標(biāo)系統(tǒng)中。UV坐標(biāo)系統(tǒng)就像是給3D物體貼標(biāo)簽的方法,將復(fù)雜的立體表面"展開"成平面圖片,就像把地球表面展開成世界地圖一樣。
通過這種方式,最終生成的資產(chǎn)包含兩個(gè)部分:一個(gè)標(biāo)準(zhǔn)的三角形網(wǎng)格定義物體的幾何形狀,一張紋理貼圖定義物體的外觀。這種格式可以被幾乎所有主流的3D軟件和物理仿真器直接使用,包括MuJoCo、Gazebo、Unity等。這就像制作了一個(gè)標(biāo)準(zhǔn)規(guī)格的零件,可以在任何兼容的機(jī)器上使用。
研究團(tuán)隊(duì)展示了多個(gè)令人印象深刻的生成案例。從簡單的文本提示"一個(gè)雪人"開始,系統(tǒng)能夠生成一個(gè)完整的雪人3D模型,包括準(zhǔn)確的幾何形狀(圓形的身體堆疊)和逼真的外觀(白色的表面紋理、橙色的胡蘿卜鼻子等)。更復(fù)雜的例子包括"一個(gè)咖啡機(jī)"或"一個(gè)小機(jī)器人",系統(tǒng)都能生成相應(yīng)的高質(zhì)量3D模型。
這種生成能力的實(shí)際應(yīng)用價(jià)值巨大。在機(jī)器人訓(xùn)練中,研究人員經(jīng)常需要大量不同的物體來測試算法的泛化能力。傳統(tǒng)方法需要手工建模每個(gè)物體,這個(gè)過程既耗時(shí)又需要專業(yè)技能。而現(xiàn)在,研究人員只需要用自然語言描述想要的物體,系統(tǒng)就能自動生成相應(yīng)的3D模型,大大加速了數(shù)據(jù)集構(gòu)建的過程。
更進(jìn)一步,這種技術(shù)還支持從真實(shí)物體的單張照片生成3D模型。想象你在咖啡店看到一個(gè)有趣的杯子,只需要拍一張照片,系統(tǒng)就能重建出完整的3D模型,讓機(jī)器人在仿真環(huán)境中學(xué)習(xí)如何操作這個(gè)杯子。這種能力將真實(shí)世界與虛擬世界之間的轉(zhuǎn)換變得極其便捷,就像在現(xiàn)實(shí)和數(shù)字世界之間架起了一座橋梁。
在質(zhì)量評估方面,生成的資產(chǎn)在幾何精度和外觀保真度上都表現(xiàn)出色。研究團(tuán)隊(duì)使用了多項(xiàng)指標(biāo)來驗(yàn)證生成質(zhì)量,包括與參考圖像的像素級相似性、幾何一致性檢查、以及在物理仿真器中的表現(xiàn)。結(jié)果顯示,生成的模型不僅在視覺上令人滿意,在物理仿真中也表現(xiàn)出合理的行為特性。
這種3D資產(chǎn)生成功能還具有很好的可控性。用戶可以通過調(diào)整文本描述或提供額外的參考圖像來影響生成結(jié)果的風(fēng)格和特征。比如,"一個(gè)藍(lán)色的咖啡杯"與"一個(gè)陶瓷質(zhì)感的白色咖啡杯"會生成明顯不同的模型。這種可控性讓系統(tǒng)不僅僅是一個(gè)自動化工具,更像是一個(gè)聽從指揮的數(shù)字助手。
六、技術(shù)局限與未來展望
盡管這項(xiàng)研究取得了令人矚目的成果,但研究團(tuán)隊(duì)以科學(xué)的嚴(yán)謹(jǐn)態(tài)度坦承了當(dāng)前方法的一些局限性,就像一個(gè)誠實(shí)的工匠在展示作品時(shí)也會指出哪些地方還有改進(jìn)空間。這些局限性并不是缺陷,而是指向未來發(fā)展方向的路標(biāo)。
首先,最顯著的限制來自于優(yōu)化方法本身的特性。整個(gè)系統(tǒng)依賴梯度下降進(jìn)行參數(shù)優(yōu)化,這就像登山者只能感知腳下的坡度方向一樣,容易陷入局部最優(yōu)解而錯(cuò)過全局最佳方案。在3D重建的語境下,這意味著如果初始猜測距離真實(shí)答案太遠(yuǎn),系統(tǒng)可能會收斂到錯(cuò)誤的解,就像拼圖游戲中如果一開始就放錯(cuò)了關(guān)鍵拼塊,后續(xù)很難糾正整體布局。
這種局限性在幾何重建中表現(xiàn)得尤為明顯。由于系統(tǒng)使用固定拓?fù)涞木W(wǎng)格表示,重建出的物體形狀在拓?fù)渖媳仨毰c初始網(wǎng)格一致。簡單來說,如果初始化時(shí)使用的是球形網(wǎng)格,那么最終重建的物體在拓?fù)渖弦仓荒苁乔蛐蔚淖冃伟姹?mdash;—它可以被拉伸、壓縮、彎曲,但不能產(chǎn)生洞穴或分離的部分。這就像用一塊完整的橡皮泥雕塑,可以捏出各種形狀,但無法制作出甜甜圈那樣中間有洞的形狀。
針對這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)提出了幾種可能的解決思路。一種方法是通過更智能的初始化策略來緩解局部最優(yōu)問題。比如,可以根據(jù)粗略的物體類別選擇更合適的初始網(wǎng)格拓?fù)?,或者使用多個(gè)不同的初始化進(jìn)行并行優(yōu)化,然后選擇最佳結(jié)果。另一種更根本的解決方案是引入更通用的不確定性感知推理方法,而不是僅僅依賴點(diǎn)估計(jì)優(yōu)化。
第二個(gè)重要局限是渲染模型的表現(xiàn)力。當(dāng)前的3D高斯散射方法無法很好地處理復(fù)雜的光照效果,特別是反射、陰影和重光照等現(xiàn)象。這就像一個(gè)畫家只會畫靜物寫生,卻不懂如何表現(xiàn)光影變化的效果。在真實(shí)的機(jī)器人應(yīng)用中,當(dāng)機(jī)器人移動物體或改變場景布局時(shí),光照條件會發(fā)生變化,而當(dāng)前系統(tǒng)無法準(zhǔn)確預(yù)測這些變化對物體外觀的影響。
這個(gè)限制在某些應(yīng)用場景中可能造成問題。比如,如果機(jī)器人需要在不同光照條件下識別同一個(gè)物體,或者需要預(yù)測移動物體后的場景外觀,當(dāng)前系統(tǒng)的表現(xiàn)就會受限。雖然已有一些研究工作開始探索可重光照的高斯散射方法,但這些技術(shù)通常需要更復(fù)雜的數(shù)據(jù)采集過程,可能與實(shí)際機(jī)器人應(yīng)用的便利性要求相沖突。
第三個(gè)技術(shù)限制來自于底層仿真平臺的能力邊界。由于系統(tǒng)基于MuJoCo的JAX實(shí)現(xiàn)(MJX),目前只能處理剛體物理仿真,無法模擬軟體、流體或其他復(fù)雜材料的行為。這就像一個(gè)機(jī)械工程師只熟悉金屬和塑料的特性,卻不了解橡膠或液體的行為規(guī)律。在真實(shí)世界中,機(jī)器人經(jīng)常需要處理各種材質(zhì)的物體,從柔軟的毛巾到粘稠的液體,當(dāng)前系統(tǒng)還無法為這些復(fù)雜材料建立準(zhǔn)確的物理模型。
不過,研究團(tuán)隊(duì)對此保持樂觀態(tài)度。MJX作為一個(gè)開源項(xiàng)目仍在持續(xù)發(fā)展中,未來很可能會擴(kuò)展對更多物理現(xiàn)象的支持。而且,SplatMesh框架本身具有良好的擴(kuò)展性,當(dāng)?shù)讓臃抡婺芰υ鰪?qiáng)時(shí),整個(gè)系統(tǒng)也能相應(yīng)地處理更復(fù)雜的場景。
第四個(gè)挑戰(zhàn)是計(jì)算效率和可擴(kuò)展性。雖然當(dāng)前系統(tǒng)在處理單個(gè)物體或簡單場景時(shí)表現(xiàn)良好,但隨著場景復(fù)雜度的增加,計(jì)算需求也會快速增長。這就像一個(gè)餐廳的廚師能夠精心制作一道菜,但面對滿桌宴席時(shí)就需要更多時(shí)間和資源。在實(shí)際的機(jī)器人應(yīng)用中,往往需要同時(shí)處理多個(gè)物體、多個(gè)機(jī)器人和動態(tài)變化的環(huán)境,這對系統(tǒng)的計(jì)算能力提出了更高要求。
為了應(yīng)對這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)正在探索多種優(yōu)化策略。包括更高效的網(wǎng)絡(luò)架構(gòu)、分層處理機(jī)制、以及利用現(xiàn)代GPU集群進(jìn)行并行計(jì)算等。他們還在研究如何將一些計(jì)算密集的操作預(yù)先進(jìn)行,以減少在線處理的負(fù)擔(dān)。
展望未來,這項(xiàng)技術(shù)有著廣闊的發(fā)展前景和應(yīng)用潛力。在短期內(nèi),研究團(tuán)隊(duì)計(jì)劃將方法擴(kuò)展到更復(fù)雜的多物體場景,開發(fā)更智能的初始化策略,以及提高對動態(tài)場景的處理能力。他們還在探索如何將這種技術(shù)與大型視覺-語言模型結(jié)合,實(shí)現(xiàn)更自然的人機(jī)交互界面。
從長期來看,這種端到端的感知-建模-仿真一體化方法可能會根本性地改變機(jī)器人的學(xué)習(xí)和部署模式。想象一個(gè)未來的家用機(jī)器人,它能夠觀察家庭環(huán)境中的任何新物體,自動建立準(zhǔn)確的3D模型,然后在虛擬環(huán)境中練習(xí)操作技能,最后將學(xué)到的技能遷移到真實(shí)世界中。這種"看一眼就會用"的能力將大大降低機(jī)器人應(yīng)用的門檻,讓更多普通用戶能夠受益于機(jī)器人技術(shù)。
在工業(yè)應(yīng)用方面,這種技術(shù)可能會催生新的制造模式。工廠可以快速為新產(chǎn)品建立數(shù)字孿生模型,優(yōu)化生產(chǎn)流程,甚至實(shí)現(xiàn)大規(guī)模個(gè)性化定制。在教育和娛樂領(lǐng)域,用戶可以通過簡單的文字描述創(chuàng)建3D內(nèi)容,為虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用提供豐富的素材。
結(jié)論
說到底,谷歌DeepMind這項(xiàng)研究的真正價(jià)值并不僅僅在于解決了一個(gè)特定的技術(shù)問題,而是為我們展現(xiàn)了一種全新的思考方式——如何讓機(jī)器人像人類一樣,通過觀察和實(shí)踐來理解世界。
想象一個(gè)剛學(xué)會走路的孩子,他并不需要先學(xué)習(xí)復(fù)雜的物理公式或者精確的測量技術(shù),而是通過不斷地觸摸、抓取、擺弄各種物品,逐漸建立起對這個(gè)世界的認(rèn)知。這項(xiàng)研究讓機(jī)器人獲得了類似的能力——它們可以用"眼睛"觀察,用"大腦"思考,用"雙手"驗(yàn)證,在這個(gè)過程中不斷完善對環(huán)境的理解。
更重要的是,這種端到端的學(xué)習(xí)方式打破了傳統(tǒng)方法中各個(gè)模塊之間的壁壘。就像一個(gè)優(yōu)秀的廚師不會把選料、切配、烹飪、擺盤當(dāng)作完全獨(dú)立的步驟,而是讓它們相互配合、相互促進(jìn)一樣,這項(xiàng)技術(shù)讓機(jī)器人的感知、建模和行動能力形成了一個(gè)有機(jī)的整體。
從實(shí)用角度來看,這項(xiàng)技術(shù)的意義深遠(yuǎn)。它降低了機(jī)器人應(yīng)用的技術(shù)門檻,讓原本需要專業(yè)團(tuán)隊(duì)數(shù)月才能完成的3D建模工作,變成了普通用戶幾分鐘就能搞定的事情。一個(gè)小餐廳的老板可以簡單地拍幾張照片,就讓機(jī)器人學(xué)會處理新的餐具;一個(gè)家庭用戶可以用文字描述,就讓家用機(jī)器人理解新買的物品。
這種"降維打擊"式的技術(shù)進(jìn)步,往往是推動整個(gè)行業(yè)跨越式發(fā)展的關(guān)鍵。就像智能手機(jī)的出現(xiàn)讓每個(gè)人都成為了攝影師一樣,這項(xiàng)技術(shù)可能會讓每個(gè)普通用戶都成為機(jī)器人的"訓(xùn)練師"。
當(dāng)然,任何技術(shù)都不是萬能的,這項(xiàng)研究也有其局限性。但正如研究團(tuán)隊(duì)坦誠承認(rèn)的那樣,這些局限性為未來的研究指明了方向。科學(xué)的進(jìn)步從來都是一個(gè)螺旋上升的過程,每一項(xiàng)突破都會帶來新的問題,而解決這些問題又會推動技術(shù)的進(jìn)一步發(fā)展。
歸根結(jié)底,這項(xiàng)研究的最大貢獻(xiàn)可能在于它改變了我們對機(jī)器人學(xué)習(xí)的基本認(rèn)知。它告訴我們,機(jī)器人不必像傳統(tǒng)工業(yè)設(shè)備那樣依賴精確的預(yù)編程,也不必像科幻電影中的AI那樣需要海量數(shù)據(jù)和超級計(jì)算機(jī)。相反,它們可以像生物一樣,通過與環(huán)境的直接交互來學(xué)習(xí)和適應(yīng)。
這種生物啟發(fā)的學(xué)習(xí)模式,可能正是通向真正智能機(jī)器人的關(guān)鍵路徑。當(dāng)機(jī)器人能夠像人類嬰兒一樣通過探索來學(xué)習(xí),當(dāng)它們能夠在不完美的真實(shí)世界中茁壯成長,我們離科幻小說中那些既實(shí)用又智能的機(jī)器人伙伴,也許就真的不遠(yuǎn)了。
如果你對這項(xiàng)技術(shù)的具體實(shí)現(xiàn)細(xì)節(jié)感興趣,或者想要深入了解研究方法和實(shí)驗(yàn)數(shù)據(jù),建議查閱原始論文(arXiv:2506.04120v1)。畢竟,科學(xué)的美妙之處正在于,每一個(gè)看似復(fù)雜的突破,都是由無數(shù)個(gè)精巧的細(xì)節(jié)和嚴(yán)謹(jǐn)?shù)尿?yàn)證組成的。而這些細(xì)節(jié),往往比我們用故事講述的版本更加精彩。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。