這項(xiàng)由清華大學(xué)計(jì)算機(jī)系郭文軒、徐修維、尹航等研究人員與南洋理工大學(xué)王子威合作完成的研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過項(xiàng)目主頁(yè)https://gwxuan.github.io/IGL-Nav/訪問完整論文和演示材料。
當(dāng)你在一個(gè)陌生的商場(chǎng)里迷路時(shí),你會(huì)掏出手機(jī)找到目標(biāo)商店的照片,然后按圖索驥找到那里?,F(xiàn)在,清華大學(xué)的研究團(tuán)隊(duì)讓機(jī)器人也擁有了這種能力,而且比人類更加精準(zhǔn)。他們開發(fā)的IGL-Nav系統(tǒng),能夠讓機(jī)器人僅僅通過一張照片,就在完全陌生的環(huán)鏡中準(zhǔn)確找到拍攝地點(diǎn)。
傳統(tǒng)的機(jī)器人導(dǎo)航就像是一個(gè)只會(huì)看地圖的司機(jī),需要預(yù)先知道所有道路信息。而這個(gè)新系統(tǒng)更像是一個(gè)經(jīng)驗(yàn)豐富的探險(xiǎn)家,能夠一邊探索未知環(huán)境,一邊建立3D地圖,同時(shí)準(zhǔn)確定位目標(biāo)照片的拍攝位置。更令人驚訝的是,這張目標(biāo)照片可以用任何相機(jī)在任何角度拍攝,甚至可以是用手機(jī)隨手拍的一張照片。
一、現(xiàn)有導(dǎo)航技術(shù)的瓶頸
目前的機(jī)器人圖像導(dǎo)航技術(shù)面臨著一個(gè)根本性矛盾。一方面,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法就像是讓一個(gè)人在完全黑暗中反復(fù)碰壁來學(xué)會(huì)走路,效率極低且容易忘記之前學(xué)到的東西。另一方面,基于地圖的方法雖然更加可靠,但它們構(gòu)建的地圖就像是平面圖紙,缺乏真實(shí)世界的立體信息。
以往最先進(jìn)的RNR-Map系統(tǒng)雖然嘗試用神經(jīng)輻射場(chǎng)技術(shù)來構(gòu)建可渲染的地圖,但這種方法就像是把一個(gè)立體的房間壓扁成一張平面圖。這種"壓扁"的處理方式導(dǎo)致了一個(gè)嚴(yán)重問題:目標(biāo)照片必須是水平拍攝的,就像傳統(tǒng)相機(jī)只能水平拍照一樣。但在現(xiàn)實(shí)生活中,人們拍照時(shí)會(huì)有各種角度,可能仰拍、俯拍,或者傾斜拍攝。
更關(guān)鍵的是,這些傳統(tǒng)方法需要大量的計(jì)算時(shí)間來優(yōu)化神經(jīng)網(wǎng)絡(luò),就像是每次畫一幅畫都要重新學(xué)習(xí)繪畫技巧一樣低效。在機(jī)器人需要實(shí)時(shí)決策的場(chǎng)景中,這種延遲是不可接受的。
二、3D高斯點(diǎn)云的革命性應(yīng)用
清華團(tuán)隊(duì)選擇了3D高斯點(diǎn)云技術(shù)作為解決方案的核心。如果把傳統(tǒng)的神經(jīng)輻射場(chǎng)比作用無數(shù)個(gè)小畫筆在空中作畫,那么3D高斯點(diǎn)云就像是用無數(shù)個(gè)發(fā)光的小球來重建現(xiàn)實(shí)世界。每個(gè)小球都有自己的位置、顏色、透明度和形狀信息,它們組合在一起就能精確重現(xiàn)三維場(chǎng)景。
這種方法的優(yōu)勢(shì)就像是樂高積木與傳統(tǒng)雕塑的區(qū)別。傳統(tǒng)方法需要精雕細(xì)琢每一個(gè)細(xì)節(jié),而3D高斯點(diǎn)云則可以快速組裝,還能隨時(shí)調(diào)整。當(dāng)機(jī)器人看到新的場(chǎng)景時(shí),系統(tǒng)能夠立即預(yù)測(cè)出對(duì)應(yīng)的高斯點(diǎn)云參數(shù),而不需要像傳統(tǒng)方法那樣進(jìn)行耗時(shí)的優(yōu)化過程。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)特殊的神經(jīng)網(wǎng)絡(luò),能夠直接從RGB-D圖像(帶有深度信息的彩色圖像)預(yù)測(cè)出高斯點(diǎn)云的所有參數(shù)。這個(gè)過程就像是一個(gè)經(jīng)驗(yàn)豐富的建筑師,僅僅看一眼房間就能立即畫出完整的3D結(jié)構(gòu)圖。網(wǎng)絡(luò)首先提取圖像的特征信息,然后通過專門的"高斯頭部"模塊預(yù)測(cè)每個(gè)像素對(duì)應(yīng)的3D高斯參數(shù),包括位置、不透明度、協(xié)方差矩陣和球諧函數(shù)系數(shù)。
三、分層定位策略:從粗略到精確
面對(duì)6自由度相機(jī)姿態(tài)的巨大搜索空間,研究團(tuán)隊(duì)提出了一個(gè)巧妙的"粗定位到精定位"策略。這就像是在大海中尋找一座小島,先用望遠(yuǎn)鏡找到大致方向,再用精密儀器確定準(zhǔn)確位置。
在粗定位階段,系統(tǒng)采用了一個(gè)基于球面坐標(biāo)的巧妙設(shè)計(jì)。研究人員觀察到,人們拍照時(shí)相機(jī)頂部邊緣通常與地面平行,基于這個(gè)觀察,他們將6自由度的相機(jī)姿態(tài)簡(jiǎn)化為5維空間:3維位置加上2維旋轉(zhuǎn)角度。這種簡(jiǎn)化就像是把復(fù)雜的立體幾何問題轉(zhuǎn)換為相對(duì)簡(jiǎn)單的球面幾何問題。
系統(tǒng)將3D空間離散化為體素網(wǎng)格,同時(shí)將目標(biāo)圖像的方向離散化為球面上的多個(gè)點(diǎn)。通過將目標(biāo)圖像在不同方向上的3D特征與場(chǎng)景特征進(jìn)行匹配,系統(tǒng)能夠快速找到最可能的目標(biāo)位置。這個(gè)過程被巧妙地轉(zhuǎn)換為3D卷積運(yùn)算,大大提高了計(jì)算效率。
當(dāng)機(jī)器人通過粗定位接近目標(biāo)區(qū)域后,系統(tǒng)會(huì)啟動(dòng)精定位模式。這時(shí),系統(tǒng)使用一個(gè)基于渲染的停止器來判斷目標(biāo)是否出現(xiàn)在視野中。一旦確認(rèn)目標(biāo)在視野內(nèi),系統(tǒng)就會(huì)啟動(dòng)基于微分渲染的優(yōu)化過程,通過匹配渲染圖像與目標(biāo)圖像來精確確定相機(jī)姿態(tài)。
四、漸進(jìn)式場(chǎng)景重建
傳統(tǒng)的3D重建方法需要收集完整的圖像序列后再進(jìn)行離線優(yōu)化,就像是必須拍完所有照片才能沖洗膠卷。而IGL-Nav系統(tǒng)采用了漸進(jìn)式重建策略,能夠像拍立得相機(jī)一樣即拍即現(xiàn)。
當(dāng)機(jī)器人每接收到一幀新的RGB-D圖像時(shí),系統(tǒng)立即通過前饋神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)對(duì)應(yīng)的高斯點(diǎn)云參數(shù)。這些新的高斯點(diǎn)被直接添加到現(xiàn)有的場(chǎng)景表示中,同時(shí)系統(tǒng)會(huì)根據(jù)不透明度和點(diǎn)云密度對(duì)冗余的高斯點(diǎn)進(jìn)行修剪,確保內(nèi)存使用的高效性。
這種增量式更新機(jī)制使得系統(tǒng)能夠在探索過程中同步建立場(chǎng)景模型,不需要額外的離線處理時(shí)間。相應(yīng)的3D特征嵌入也會(huì)同步更新,為后續(xù)的目標(biāo)定位提供實(shí)時(shí)的場(chǎng)景信息。
五、導(dǎo)航?jīng)Q策與路徑規(guī)劃
整個(gè)導(dǎo)航過程分為兩個(gè)階段:探索發(fā)現(xiàn)和目標(biāo)到達(dá)。在探索階段,系統(tǒng)結(jié)合粗定位結(jié)果和前沿探索策略來指導(dǎo)機(jī)器人的移動(dòng)。系統(tǒng)維護(hù)一個(gè)在線占用地圖,標(biāo)識(shí)已探索、未探索和障礙區(qū)域。
當(dāng)粗定位模塊給出的激活得分超過預(yù)設(shè)閾值時(shí),機(jī)器人會(huì)優(yōu)先探索得分最高的區(qū)域。如果所有區(qū)域的得分都很低,系統(tǒng)會(huì)選擇最近的前沿區(qū)域繼續(xù)探索。這種策略既保證了目標(biāo)搜索的效率,又確保了對(duì)環(huán)境的充分探索。
一旦基于渲染的停止器檢測(cè)到目標(biāo)出現(xiàn)在視野中,系統(tǒng)立即切換到精定位模式。通過優(yōu)化相機(jī)姿態(tài),系統(tǒng)能夠準(zhǔn)確計(jì)算出目標(biāo)照片的拍攝位置,然后使用快速行進(jìn)法進(jìn)行路徑規(guī)劃,引導(dǎo)機(jī)器人到達(dá)目標(biāo)位置。
六、實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)
研究團(tuán)隊(duì)在Gibson數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證。在傳統(tǒng)的圖像目標(biāo)導(dǎo)航任務(wù)中,IGL-Nav在所有難度級(jí)別上都顯著超越了現(xiàn)有的最先進(jìn)方法。在直線路徑的總體成功率達(dá)到76.8%,在彎曲路徑的總體成功率達(dá)到73.5%,相比之前的最佳方法分別提升了8.6%和7.8%。
更令人印象深刻的是在自由視角圖像目標(biāo)導(dǎo)航任務(wù)上的表現(xiàn)。這是一個(gè)更加貼近現(xiàn)實(shí)應(yīng)用的任務(wù)設(shè)置,允許目標(biāo)圖像從任意角度和高度拍攝。在這個(gè)更具挑戰(zhàn)性的任務(wù)中,IGL-Nav的性能依然保持領(lǐng)先。即使在零樣本轉(zhuǎn)移的情況下(直接將在傳統(tǒng)任務(wù)上訓(xùn)練的模型應(yīng)用到新任務(wù)),IGL-Nav的表現(xiàn)仍然超過了其他方法在監(jiān)督學(xué)習(xí)條件下的結(jié)果。
研究團(tuán)隊(duì)還分析了系統(tǒng)各個(gè)模塊的貢獻(xiàn)。實(shí)驗(yàn)顯示,使用3級(jí)細(xì)分的球面離散化能夠在精度和計(jì)算效率之間取得最佳平衡?;?D高斯渲染的停止器和匹配約束優(yōu)化顯著優(yōu)于傳統(tǒng)的基于特征匹配的方法。
七、真實(shí)世界部署
為了驗(yàn)證系統(tǒng)的實(shí)際應(yīng)用價(jià)值,研究團(tuán)隊(duì)將IGL-Nav部署到了真實(shí)的機(jī)器人平臺(tái)上。他們使用手機(jī)隨意拍攝的照片作為目標(biāo)圖像,測(cè)試機(jī)器人在復(fù)雜室內(nèi)環(huán)境中的導(dǎo)航能力。
實(shí)驗(yàn)結(jié)果表明,盡管模型完全基于仿真數(shù)據(jù)訓(xùn)練,沒有在真實(shí)世界數(shù)據(jù)上進(jìn)行任何微調(diào),IGL-Nav依然能夠成功引導(dǎo)機(jī)器人到達(dá)目標(biāo)位置。這種強(qiáng)大的泛化能力源于3D高斯表示的顯式性質(zhì)和系統(tǒng)設(shè)計(jì)的通用性。
在實(shí)際部署中,系統(tǒng)能夠處理各種實(shí)際挑戰(zhàn),包括光照變化、視角差異和環(huán)境動(dòng)態(tài)性。機(jī)器人能夠建立高質(zhì)量的3D場(chǎng)景重建,準(zhǔn)確定位手機(jī)拍攝的自由視角目標(biāo)圖像,并成功導(dǎo)航到目標(biāo)位置。
八、技術(shù)創(chuàng)新與突破
IGL-Nav系統(tǒng)的核心創(chuàng)新在于首次將前饋式3D高斯點(diǎn)云技術(shù)應(yīng)用于圖像目標(biāo)導(dǎo)航任務(wù)。相比傳統(tǒng)的隱式表示方法,3D高斯點(diǎn)云提供了更高的渲染效率和更強(qiáng)的幾何表達(dá)能力。系統(tǒng)能夠在保持高精度的同時(shí)實(shí)現(xiàn)實(shí)時(shí)性能,這在以往的方法中是難以同時(shí)滿足的。
分層定位策略的設(shè)計(jì)也展現(xiàn)了研究團(tuán)隊(duì)的深刻洞察。通過將復(fù)雜的6自由度搜索問題分解為粗定位和精定位兩個(gè)階段,系統(tǒng)不僅提高了計(jì)算效率,還增強(qiáng)了定位的魯棒性。粗定位階段的3D卷積實(shí)現(xiàn)特別巧妙,將點(diǎn)云匹配問題轉(zhuǎn)換為高效的并行計(jì)算問題。
此外,系統(tǒng)對(duì)自由視角圖像目標(biāo)導(dǎo)航任務(wù)的支持填補(bǔ)了該領(lǐng)域的一個(gè)重要空白。傳統(tǒng)方法通常假設(shè)目標(biāo)圖像必須由機(jī)器人相機(jī)拍攝,這嚴(yán)重限制了實(shí)際應(yīng)用的靈活性。IGL-Nav打破了這一限制,使得任何相機(jī)拍攝的圖像都可以作為導(dǎo)航目標(biāo)。
九、局限性與未來發(fā)展
盡管IGL-Nav在多個(gè)方面取得了突破,但系統(tǒng)仍然存在一些局限性。目前系統(tǒng)需要目標(biāo)圖像的深度信息和相機(jī)內(nèi)參,雖然可以通過單目深度估計(jì)來預(yù)測(cè)這些信息,但這會(huì)引入一定的誤差。未來的改進(jìn)方向包括開發(fā)更加魯棒的單目深度估計(jì)方法,或者設(shè)計(jì)不依賴深度信息的定位策略。
另一個(gè)潛在的改進(jìn)方向是處理動(dòng)態(tài)環(huán)境的能力。當(dāng)前系統(tǒng)主要針對(duì)靜態(tài)場(chǎng)景設(shè)計(jì),對(duì)于包含移動(dòng)物體的環(huán)境可能需要額外的處理機(jī)制。此外,在大規(guī)模環(huán)境中的內(nèi)存管理和計(jì)算效率優(yōu)化也是值得進(jìn)一步研究的問題。
從應(yīng)用角度來看,IGL-Nav為服務(wù)機(jī)器人、自動(dòng)導(dǎo)航和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域開辟了新的可能性。系統(tǒng)的實(shí)時(shí)性和高精度使其特別適合需要快速響應(yīng)的實(shí)際應(yīng)用場(chǎng)景。隨著硬件計(jì)算能力的不斷提升和算法的進(jìn)一步優(yōu)化,這類技術(shù)有望在更廣泛的場(chǎng)景中得到應(yīng)用。
說到底,IGL-Nav系統(tǒng)代表了圖像目標(biāo)導(dǎo)航技術(shù)的一個(gè)重要里程碑。它不僅在技術(shù)上實(shí)現(xiàn)了多項(xiàng)突破,更重要的是為這一領(lǐng)域指明了新的發(fā)展方向。通過將顯式3D表示與高效定位策略相結(jié)合,該系統(tǒng)證明了在保持高性能的同時(shí)實(shí)現(xiàn)實(shí)時(shí)導(dǎo)航是完全可能的。對(duì)于普通人而言,這項(xiàng)技術(shù)意味著未來的機(jī)器人助手將能夠更好地理解和導(dǎo)航我們的生活環(huán)境,僅僅通過一張照片就能準(zhǔn)確找到任何我們想要去的地方。這種能力將在老人護(hù)理、殘障輔助、智能家居等眾多領(lǐng)域產(chǎn)生深遠(yuǎn)影響,讓技術(shù)真正服務(wù)于改善人類的生活質(zhì)量。
Q&A
Q1:IGL-Nav系統(tǒng)是什么?它能解決什么問題?
A:IGL-Nav是清華大學(xué)開發(fā)的機(jī)器人圖像導(dǎo)航系統(tǒng),能讓機(jī)器人僅通過一張照片就找到拍攝地點(diǎn)。它解決了傳統(tǒng)導(dǎo)航方法需要預(yù)先建圖、只能處理水平拍攝照片等限制,支持任意角度拍攝的照片作為導(dǎo)航目標(biāo)。
Q2:3D高斯點(diǎn)云技術(shù)比傳統(tǒng)方法有什么優(yōu)勢(shì)?
A:3D高斯點(diǎn)云就像用發(fā)光小球重建現(xiàn)實(shí)世界,比傳統(tǒng)神經(jīng)輻射場(chǎng)更高效。它能實(shí)時(shí)預(yù)測(cè)場(chǎng)景參數(shù),不需要耗時(shí)的離線優(yōu)化,同時(shí)保持高質(zhì)量的3D重建和渲染效果,特別適合機(jī)器人實(shí)時(shí)導(dǎo)航需求。
Q3:這個(gè)系統(tǒng)在現(xiàn)實(shí)中有什么實(shí)際應(yīng)用?
A:IGL-Nav已在真實(shí)機(jī)器人上成功部署,能處理手機(jī)隨拍的照片作為目標(biāo)。未來可應(yīng)用于服務(wù)機(jī)器人、老人護(hù)理、殘障輔助、智能家居等領(lǐng)域,讓機(jī)器人助手更好地理解和導(dǎo)航生活環(huán)境。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。