這項(xiàng)由上??萍即髮W(xué)何旭明教授團(tuán)隊(duì)聯(lián)合瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)研究人員共同完成的研究于2025年7月發(fā)表在arXiv預(yù)印本平臺上,有興趣深入了解的讀者可以通過https://github.com/tongshw/GeoDistill訪問完整論文和代碼。
現(xiàn)代社會(huì)中,從自動(dòng)駕駛汽車到增強(qiáng)現(xiàn)實(shí)應(yīng)用,都需要解決一個(gè)看似簡單卻極其困難的問題:如何讓計(jì)算機(jī)準(zhǔn)確知道自己在哪里?特別是當(dāng)你只有一張地面拍攝的照片時(shí),如何在衛(wèi)星地圖上找到對應(yīng)的確切位置?這就像是讓一個(gè)人站在街頭,僅憑眼前的景象就能在世界地圖上準(zhǔn)確指出自己的位置一樣困難。
傳統(tǒng)的解決方案通常需要大量精確標(biāo)注的數(shù)據(jù),就如同需要無數(shù)個(gè)"活地圖"來告訴計(jì)算機(jī)每個(gè)位置的準(zhǔn)確坐標(biāo)。但這種方法成本極高,就像雇傭成千上萬的測量員去標(biāo)記每一個(gè)角落一樣昂貴且不現(xiàn)實(shí)。更糟糕的是,在一個(gè)城市訓(xùn)練出來的系統(tǒng),到了另一個(gè)城市往往就"水土不服",表現(xiàn)大打折扣。
上??萍即髮W(xué)的研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案,他們開發(fā)了名為GeoDistill的框架,這個(gè)系統(tǒng)就像是培養(yǎng)了一位善于觀察細(xì)節(jié)的"偵探"。這位"偵探"不需要知道每個(gè)地方的精確坐標(biāo),只需要粗略的位置信息(比如手機(jī)GPS提供的大概位置),就能通過學(xué)習(xí)辨識關(guān)鍵的視覺線索來實(shí)現(xiàn)精確定位。
研究團(tuán)隊(duì)的核心創(chuàng)新在于采用了一種"師父帶徒弟"的學(xué)習(xí)方式。系統(tǒng)中設(shè)置了兩個(gè)角色:一個(gè)是看到完整全景圖像的"師父",另一個(gè)是只能看到部分視野的"徒弟"。師父因?yàn)樾畔⒏?,通常能給出較為準(zhǔn)確的位置判斷。而徒弟雖然信息有限,卻被要求給出同樣準(zhǔn)確的答案。在這個(gè)過程中,徒弟被迫學(xué)會(huì)關(guān)注那些真正重要的視覺特征,比如道路標(biāo)線、建筑輪廓等關(guān)鍵細(xì)節(jié),而不是依賴于整體的場景布局。
這種訓(xùn)練方式就像教一個(gè)新手司機(jī)認(rèn)路:經(jīng)驗(yàn)豐富的師父可以從全景后視鏡看到完整路況做出判斷,而新手只能通過側(cè)窗看到有限視野。為了做出同樣準(zhǔn)確的判斷,新手必須學(xué)會(huì)敏銳地捕捉那些最關(guān)鍵的路標(biāo)和地標(biāo)特征。通過這種訓(xùn)練,新手逐漸培養(yǎng)出比師父更敏銳的細(xì)節(jié)觀察能力。
更有趣的是,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)專門的方向估計(jì)網(wǎng)絡(luò),解決了之前弱監(jiān)督方法無法準(zhǔn)確判斷朝向的問題。這個(gè)網(wǎng)絡(luò)能夠在不需要精確位置信息的情況下,僅通過比較地面圖像和衛(wèi)星圖像的結(jié)構(gòu)特征來判斷拍攝方向,就像是通過對比街景和地圖上的道路布局來確定朝向。
為了驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)在兩個(gè)重要的數(shù)據(jù)集上進(jìn)行了廣泛測試。VIGOR數(shù)據(jù)集包含了來自美國四個(gè)城市的10萬多對地面全景圖和對應(yīng)的航拍圖像,而KITTI數(shù)據(jù)集則提供了德國地區(qū)通過針孔相機(jī)拍攝的有限視野地面圖像。實(shí)驗(yàn)結(jié)果顯示,這種新方法不僅在訓(xùn)練區(qū)域內(nèi)表現(xiàn)優(yōu)異,更重要的是在完全未見過的新區(qū)域中也能保持良好的定位精度。
在VIGOR數(shù)據(jù)集的跨區(qū)域測試中,應(yīng)用了GeoDistill框架的系統(tǒng)相比原始方法,定位精度平均提升了超過25%。特別值得注意的是,當(dāng)系統(tǒng)使用更強(qiáng)大的DINO特征提取器時(shí),甚至能夠超越一些需要精確標(biāo)注數(shù)據(jù)的完全監(jiān)督方法。這就像是一個(gè)僅僅通過觀察和模仿學(xué)習(xí)的學(xué)生,最終超越了那些接受過系統(tǒng)性專業(yè)訓(xùn)練的學(xué)生。
研究團(tuán)隊(duì)還深入分析了系統(tǒng)的各個(gè)組成部分。他們發(fā)現(xiàn),傳統(tǒng)的隨機(jī)遮擋策略(類似于隨機(jī)在照片上貼黑色補(bǔ)?。┩鶗?huì)破壞重要的場景結(jié)構(gòu),反而降低學(xué)習(xí)效果。而他們提出的視野限制策略(FoV-based masking)能夠保持場景的幾何連貫性,就像是通過調(diào)節(jié)相機(jī)鏡頭的焦距來控制視野范圍,確??吹降膬?nèi)容仍然有意義。
在不確定性處理方面,研究團(tuán)隊(duì)采用了一種巧妙的"銳化"策略。由于師父的判斷雖然相對準(zhǔn)確但仍然存在噪聲,直接讓徒弟完全模仿可能會(huì)學(xué)到錯(cuò)誤信息。因此,他們對師父的判斷進(jìn)行"銳化"處理,突出高置信度的部分,弱化不確定的部分,就像是在模糊的照片中突出清晰的部分,讓學(xué)習(xí)目標(biāo)更加明確。
更進(jìn)一步,系統(tǒng)還采用了雙向知識流動(dòng)的機(jī)制。在學(xué)習(xí)過程中,不僅徒弟要向師父學(xué)習(xí),師父也會(huì)逐漸吸收徒弟學(xué)到的精細(xì)觀察能力。這種機(jī)制通過指數(shù)移動(dòng)平均的方式實(shí)現(xiàn),確保了師父能夠持續(xù)改進(jìn),成為更好的學(xué)習(xí)目標(biāo)。這就像是師父在教學(xué)過程中也從徒弟的新發(fā)現(xiàn)中獲得啟發(fā),不斷完善自己的判斷能力。
關(guān)于視野大小的選擇,研究團(tuán)隊(duì)進(jìn)行了細(xì)致的分析。他們發(fā)現(xiàn),如果給徒弟的視野太?。ㄐ∮?0度),任務(wù)變得過于困難,就像讓人在管中窺豹的情況下判斷整體位置一樣不現(xiàn)實(shí)。而如果視野太大(超過240度),則與師父看到的信息相差不大,失去了訓(xùn)練的意義。因此,他們選擇了180度到240度的動(dòng)態(tài)視野范圍,既保證了任務(wù)的可行性,又維持了足夠的學(xué)習(xí)挑戰(zhàn)性。
在與現(xiàn)有最先進(jìn)方法的比較中,GeoDistill展現(xiàn)出了顯著的優(yōu)勢。在VIGOR數(shù)據(jù)集的跨區(qū)域測試中,即使是基于VGG骨干網(wǎng)絡(luò)的版本也能在中位數(shù)定位誤差上超越所有對比方法。而使用DINO特征的版本更是在所有指標(biāo)上都達(dá)到了最優(yōu)性能,平均定位誤差降低到2.68米,方向估計(jì)誤差僅為2.72度。這種精度已經(jīng)能夠滿足大多數(shù)實(shí)際應(yīng)用的需求。
值得一提的是,這種方法的通用性非常強(qiáng)。研究團(tuán)隊(duì)成功將其應(yīng)用于兩種不同類型的基礎(chǔ)架構(gòu):既適用于弱監(jiān)督的G2SWeakly方法,也能夠增強(qiáng)完全監(jiān)督的CCVPE方法。這種即插即用的特性使得現(xiàn)有的定位系統(tǒng)都能夠受益于這一創(chuàng)新,無需進(jìn)行大規(guī)模的架構(gòu)修改。
在實(shí)際應(yīng)用價(jià)值方面,這項(xiàng)研究解決了跨視角定位領(lǐng)域的一個(gè)關(guān)鍵瓶頸:如何在減少對精確標(biāo)注數(shù)據(jù)依賴的同時(shí),提高系統(tǒng)的泛化能力。對于自動(dòng)駕駛、機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實(shí)等應(yīng)用來說,這意味著可以用更低的成本部署更可靠的定位系統(tǒng)。特別是在那些難以獲得精確測量數(shù)據(jù)的地區(qū),這種方法提供了一條可行的技術(shù)路徑。
從技術(shù)發(fā)展的角度來看,GeoDistill代表了從"數(shù)據(jù)驅(qū)動(dòng)"向"策略驅(qū)動(dòng)"學(xué)習(xí)的重要轉(zhuǎn)變。它證明了通過巧妙的訓(xùn)練策略設(shè)計(jì),即使在數(shù)據(jù)質(zhì)量有限的情況下,也能夠?qū)崿F(xiàn)優(yōu)異的性能。這種思路對于其他需要處理多模態(tài)、跨域數(shù)據(jù)的計(jì)算機(jī)視覺任務(wù)具有重要的借鑒意義。
研究團(tuán)隊(duì)的實(shí)驗(yàn)還揭示了一個(gè)有趣的現(xiàn)象:經(jīng)過這種特殊訓(xùn)練的"徒弟"模型往往比原本的"師父"模型表現(xiàn)更好。這說明了專注于細(xì)節(jié)特征學(xué)習(xí)的價(jià)值,也證實(shí)了"教學(xué)相長"在人工智能訓(xùn)練中的有效性。這種現(xiàn)象在機(jī)器學(xué)習(xí)領(lǐng)域被稱為自蒸餾,通過這種方式,模型能夠不斷自我改進(jìn),達(dá)到更高的性能水平。
此外,研究團(tuán)隊(duì)還對比了不同遮擋策略的效果。他們發(fā)現(xiàn),基于最大激活的遮擋和隨機(jī)補(bǔ)丁遮擋都不如基于視野的遮擋效果好。這是因?yàn)榍皟煞N方法可能會(huì)破壞重要的幾何結(jié)構(gòu),而視野限制策略能夠保持場景的空間連貫性,讓模型學(xué)習(xí)更加合理的特征表示。
在不同數(shù)據(jù)集上的測試結(jié)果也展現(xiàn)了方法的魯棒性。KITTI數(shù)據(jù)集與VIGOR數(shù)據(jù)集在圖像類型上存在顯著差異:前者是有限視野的針孔相機(jī)圖像,后者是360度全景圖像。盡管存在這些差異,GeoDistill在兩個(gè)數(shù)據(jù)集上都取得了一致的改進(jìn)效果,證明了方法的通用性。
從計(jì)算效率的角度來看,這種方法也具有明顯優(yōu)勢。由于不需要復(fù)雜的數(shù)據(jù)預(yù)處理和精確標(biāo)注,訓(xùn)練過程更加高效。同時(shí),推理時(shí)只需要使用單一的"師父"模型,不會(huì)增加額外的計(jì)算負(fù)擔(dān)。這使得該方法在實(shí)際部署中具有良好的可操作性。
研究團(tuán)隊(duì)還考慮了方向估計(jì)的獨(dú)特挑戰(zhàn)。由于全景圖像的球面投影特性,直線在圖像中會(huì)呈現(xiàn)為曲線,這給直接比較帶來了困難。為了解決這個(gè)問題,他們采用了球面變換將全景圖像投影到鳥瞰視角,使其與衛(wèi)星圖像在幾何結(jié)構(gòu)上保持一致。這種預(yù)處理確保了方向估計(jì)的準(zhǔn)確性,同時(shí)避免了復(fù)雜的幾何校正過程。
說到底,這項(xiàng)研究解決的是一個(gè)非常實(shí)際的問題:如何讓計(jì)算機(jī)在資源有限的情況下學(xué)會(huì)精確定位。就像培養(yǎng)一個(gè)善于觀察的偵探,通過巧妙的訓(xùn)練策略,讓AI系統(tǒng)學(xué)會(huì)抓住關(guān)鍵線索而不被無關(guān)信息干擾。這種能力對于未來的智能城市、自動(dòng)駕駛和增強(qiáng)現(xiàn)實(shí)應(yīng)用都具有重要意義。歸根結(jié)底,這不僅僅是一個(gè)技術(shù)改進(jìn),更是對人工智能學(xué)習(xí)機(jī)制的深度理解和創(chuàng)新應(yīng)用。
對于普通人而言,這項(xiàng)技術(shù)的應(yīng)用前景非常廣闊。以后當(dāng)你用手機(jī)拍攝街景時(shí),應(yīng)用可能瞬間就能告訴你準(zhǔn)確的位置和方向,而不需要等待GPS信號或進(jìn)行復(fù)雜的校準(zhǔn)。對于那些GPS信號較弱的室內(nèi)外交界區(qū)域,這種視覺定位技術(shù)將發(fā)揮重要作用。隨著這類技術(shù)的成熟和普及,我們的生活將變得更加便利和智能。感興趣的讀者如果想要了解更多技術(shù)細(xì)節(jié),可以訪問研究團(tuán)隊(duì)在GitHub上開源的完整代碼和論文資料。
Q&A
Q1:GeoDistill是什么?它能做什么? A:GeoDistill是上??萍即髮W(xué)團(tuán)隊(duì)開發(fā)的跨視角定位框架,它的核心能力是僅通過地面照片就能在衛(wèi)星地圖上找到精確位置和方向,就像讓計(jì)算機(jī)學(xué)會(huì)"看地圖認(rèn)路",而且不需要昂貴的精確標(biāo)注數(shù)據(jù)。
Q2:這個(gè)技術(shù)會(huì)不會(huì)比GPS更準(zhǔn)確? A:在某些場景下是的。GeoDistill的定位精度可以達(dá)到2.68米,在GPS信號較弱的地方(如高樓林立的城市峽谷或室內(nèi)外交界處)表現(xiàn)更好,而且能夠同時(shí)提供精確的方向信息。
Q3:普通人能使用這個(gè)技術(shù)嗎? A:目前這還是研究階段的技術(shù),但研究團(tuán)隊(duì)已經(jīng)在GitHub上開源了代碼。未來這種技術(shù)很可能被集成到手機(jī)應(yīng)用、導(dǎo)航軟件或增強(qiáng)現(xiàn)實(shí)應(yīng)用中,讓普通用戶也能受益。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。