這項(xiàng)由英國(guó)曼徹斯特大學(xué)的項(xiàng)翔、中國(guó)大灣區(qū)大學(xué)的陳新凱等研究者領(lǐng)導(dǎo)的研究發(fā)表于2025年8月的計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議論文集。研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為"Distilled-3DGS"的創(chuàng)新技術(shù),成功解決了3D場(chǎng)景重建領(lǐng)域的一個(gè)重大難題。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以訪(fǎng)問(wèn)項(xiàng)目主頁(yè)https://distilled3dgs.github.io或GitHub代碼庫(kù)https://github.com/lt-xiang/Distilled-3DGS獲取完整資料。
3D場(chǎng)景重建技術(shù)就像是給現(xiàn)實(shí)世界拍照然后在電腦里重建出一個(gè)完全相同的虛擬世界,這項(xiàng)技術(shù)在VR游戲、自動(dòng)駕駛汽車(chē)、建筑設(shè)計(jì)等領(lǐng)域都有廣泛應(yīng)用。然而,現(xiàn)有的先進(jìn)技術(shù)面臨著一個(gè)讓人頭疼的問(wèn)題:要想獲得清晰逼真的3D場(chǎng)景效果,系統(tǒng)需要處理數(shù)百萬(wàn)個(gè)微小的3D點(diǎn)(被稱(chēng)為高斯點(diǎn)),這就像用數(shù)百萬(wàn)個(gè)彩色小球來(lái)拼裝一個(gè)完整的房間模型。雖然效果很棒,但這些海量的數(shù)據(jù)讓電腦的內(nèi)存和存儲(chǔ)空間承受巨大壓力,普通設(shè)備根本跑不動(dòng)。
研究團(tuán)隊(duì)巧妙地借用了人工智能領(lǐng)域的"知識(shí)蒸餾"概念來(lái)解決這個(gè)難題。知識(shí)蒸餾原本是讓一個(gè)小型AI模型向多個(gè)大型AI老師學(xué)習(xí),從而在保持小巧輕便的同時(shí)獲得接近大模型的能力。研究者將這個(gè)思路創(chuàng)新性地應(yīng)用到3D場(chǎng)景重建中,開(kāi)發(fā)了一套"多師傅帶徒弟"的訓(xùn)練系統(tǒng)。
整個(gè)系統(tǒng)的工作流程就像一個(gè)精心設(shè)計(jì)的師徒傳承故事。首先,研究團(tuán)隊(duì)訓(xùn)練了三個(gè)不同特色的"師傅模型"。第一個(gè)師傅是標(biāo)準(zhǔn)的3DGS模型,就像一位經(jīng)驗(yàn)豐富的老工匠,能夠穩(wěn)定地重建高質(zhì)量的3D場(chǎng)景。第二個(gè)師傅在訓(xùn)練過(guò)程中會(huì)故意給自己的3D點(diǎn)添加一些隨機(jī)擾動(dòng),就像一位在顛簸路面上依然能保持穩(wěn)定的老司機(jī),這種訓(xùn)練方式讓它對(duì)各種意外情況都有很強(qiáng)的適應(yīng)能力。第三個(gè)師傅則采用了"隨機(jī)休息"的策略,在訓(xùn)練時(shí)會(huì)隨機(jī)讓一些3D點(diǎn)"打盹",迫使其他點(diǎn)承擔(dān)更多工作,這樣訓(xùn)練出來(lái)的模型更加靈活,不會(huì)過(guò)分依賴(lài)某些特定的3D點(diǎn)。
有了這三位各有特長(zhǎng)的師傅后,系統(tǒng)開(kāi)始訓(xùn)練一個(gè)輕量級(jí)的"學(xué)徒模型"。學(xué)徒模型只使用師傅們一半甚至更少的3D點(diǎn)數(shù)量,但要努力學(xué)會(huì)師傅們的所有技能。訓(xùn)練過(guò)程中,三位師傅會(huì)分別對(duì)同一個(gè)場(chǎng)景進(jìn)行渲染,然后將他們的結(jié)果融合成一個(gè)"標(biāo)準(zhǔn)答案"。學(xué)徒模型需要不斷調(diào)整自己的參數(shù),讓自己的渲染結(jié)果盡可能接近這個(gè)標(biāo)準(zhǔn)答案。
研究團(tuán)隊(duì)還發(fā)明了一種巧妙的"空間分布學(xué)習(xí)"方法來(lái)幫助學(xué)徒掌握3D場(chǎng)景的幾何結(jié)構(gòu)。這個(gè)方法就像教學(xué)徒畫(huà)素描時(shí)不僅要關(guān)注每個(gè)細(xì)節(jié),還要掌握整體的構(gòu)圖比例。具體來(lái)說(shuō),系統(tǒng)會(huì)把3D空間劃分成許多小格子,然后統(tǒng)計(jì)師傅和學(xué)徒在每個(gè)格子里放置了多少個(gè)3D點(diǎn),通過(guò)對(duì)比這些分布模式,學(xué)徒能夠?qū)W會(huì)如何在保持較少點(diǎn)數(shù)的情況下依然準(zhǔn)確捕捉場(chǎng)景的空間結(jié)構(gòu)。
為了驗(yàn)證這套方法的效果,研究團(tuán)隊(duì)在多個(gè)知名數(shù)據(jù)集上進(jìn)行了大規(guī)模測(cè)試。這些數(shù)據(jù)集包含了從室內(nèi)房間到戶(hù)外花園,從簡(jiǎn)單物品到復(fù)雜建筑等各種場(chǎng)景。測(cè)試結(jié)果令人振奮:在Mip-NeRF360數(shù)據(jù)集上,新方法在減少86%存儲(chǔ)空間的同時(shí),圖像質(zhì)量(PSNR指標(biāo))還提升了0.55分貝。在Tanks&Temples數(shù)據(jù)集上,存儲(chǔ)空間減少了87.5%,圖像質(zhì)量提升了0.62分貝。這就像一個(gè)魔術(shù)師不僅讓行李箱變得更輕便,里面的物品質(zhì)量反而更好了。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比分析,將新方法與現(xiàn)有的各種3D場(chǎng)景壓縮技術(shù)進(jìn)行比較。結(jié)果顯示,無(wú)論是與傳統(tǒng)的網(wǎng)格簡(jiǎn)化方法相比,還是與最新的神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)相比,Distilled-3DGS都展現(xiàn)出了明顯的優(yōu)勢(shì)。特別值得一提的是,在處理復(fù)雜室外場(chǎng)景時(shí),這種優(yōu)勢(shì)更加明顯,因?yàn)槎鄮煾迪到y(tǒng)能夠更好地處理光照變化、遮擋關(guān)系等復(fù)雜情況。
為了深入理解每個(gè)組件的貢獻(xiàn),研究者進(jìn)行了細(xì)致的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),三個(gè)師傅中的每一個(gè)都發(fā)揮著不可替代的作用:標(biāo)準(zhǔn)師傅提供穩(wěn)定的基礎(chǔ)質(zhì)量,擾動(dòng)師傅增強(qiáng)了系統(tǒng)的魯棒性,而隨機(jī)失活師傅則防止了過(guò)擬合問(wèn)題。當(dāng)移除任何一個(gè)師傅時(shí),學(xué)徒的性能都會(huì)明顯下降??臻g分布學(xué)習(xí)方法也被證明是必不可少的,沒(méi)有它,學(xué)徒很難準(zhǔn)確掌握?qǐng)鼍暗膸缀谓Y(jié)構(gòu),圖像質(zhì)量會(huì)下降0.16分貝。
這項(xiàng)研究的意義遠(yuǎn)不止技術(shù)本身。它為3D內(nèi)容在移動(dòng)設(shè)備、網(wǎng)頁(yè)瀏覽器等資源受限環(huán)境中的應(yīng)用開(kāi)辟了新的可能性。過(guò)去那些只能在高端工作站上運(yùn)行的3D應(yīng)用,現(xiàn)在有望在普通手機(jī)上流暢運(yùn)行。對(duì)于VR和AR應(yīng)用來(lái)說(shuō),這意味著更輕便的頭戴設(shè)備和更長(zhǎng)的電池續(xù)航時(shí)間。對(duì)于自動(dòng)駕駛汽車(chē)而言,這意味著能夠在車(chē)載計(jì)算機(jī)上實(shí)時(shí)構(gòu)建更精確的環(huán)境模型。
從技術(shù)創(chuàng)新的角度來(lái)看,這項(xiàng)研究首次將知識(shí)蒸餾技術(shù)成功應(yīng)用到3D高斯點(diǎn)云這種非結(jié)構(gòu)化數(shù)據(jù)上,這本身就是一個(gè)重要的突破。傳統(tǒng)的知識(shí)蒸餾主要針對(duì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)化特征,而3D高斯點(diǎn)云是無(wú)序的、數(shù)量可變的點(diǎn)集合,如何在這種情況下實(shí)現(xiàn)有效的知識(shí)傳遞是一個(gè)全新的挑戰(zhàn)。研究團(tuán)隊(duì)提出的多師傅融合策略和空間分布匹配方法為解決這類(lèi)問(wèn)題提供了新的思路。
當(dāng)然,這項(xiàng)技術(shù)也有一些局限性。首先,訓(xùn)練過(guò)程需要同時(shí)訓(xùn)練多個(gè)師傅模型,這意味著初期的訓(xùn)練時(shí)間和計(jì)算資源消耗會(huì)增加幾倍。其次,在生成蒸餾標(biāo)簽時(shí)需要多個(gè)模型同時(shí)進(jìn)行推理,這會(huì)顯著增加GPU內(nèi)存的使用量。不過(guò),這些額外的成本主要集中在訓(xùn)練階段,一旦訓(xùn)練完成,最終的學(xué)徒模型在實(shí)際應(yīng)用時(shí)仍然非常輕量高效。
研究團(tuán)隊(duì)表示,未來(lái)的工作方向包括探索端到端的蒸餾流程,以及針對(duì)高斯點(diǎn)參數(shù)的自適應(yīng)剪枝策略。他們還計(jì)劃將這項(xiàng)技術(shù)擴(kuò)展到動(dòng)態(tài)場(chǎng)景和多視角視頻的處理上,這將為4D內(nèi)容創(chuàng)建和時(shí)序3D重建帶來(lái)新的突破。
這項(xiàng)研究的成功發(fā)表也反映了當(dāng)前3D計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展趨勢(shì):在追求更高質(zhì)量的同時(shí),如何讓技術(shù)變得更加實(shí)用和普及。Distilled-3DGS的出現(xiàn)為這個(gè)平衡點(diǎn)的實(shí)現(xiàn)提供了一個(gè)優(yōu)雅的解決方案,它不僅在學(xué)術(shù)界引起了廣泛關(guān)注,也為工業(yè)界的實(shí)際應(yīng)用提供了可行的技術(shù)路徑。
說(shuō)到底,這項(xiàng)研究就像是給3D世界重建技術(shù)裝上了一臺(tái)高效的"壓縮機(jī)",在大幅減少存儲(chǔ)和計(jì)算需求的同時(shí),還能保持甚至提升視覺(jué)效果的質(zhì)量。隨著VR、AR和元宇宙概念的日益普及,這樣的技術(shù)突破將讓更多普通用戶(hù)能夠享受到高質(zhì)量的3D沉浸式體驗(yàn),真正推動(dòng)3D技術(shù)從實(shí)驗(yàn)室走向千家萬(wàn)戶(hù)。
Q&A
Q1:Distilled-3DGS是什么技術(shù)?它解決了什么問(wèn)題?
A:Distilled-3DGS是一種3D場(chǎng)景重建壓縮技術(shù),主要解決了現(xiàn)有3D高斯點(diǎn)云技術(shù)需要海量存儲(chǔ)空間和計(jì)算資源的問(wèn)題。它通過(guò)"多師傅帶徒弟"的知識(shí)蒸餾方法,讓輕量級(jí)模型在減少86%以上存儲(chǔ)空間的同時(shí),還能保持甚至提升圖像質(zhì)量。
Q2:這項(xiàng)技術(shù)的多師傅訓(xùn)練系統(tǒng)是如何工作的?
A:系統(tǒng)訓(xùn)練三個(gè)不同特色的師傅模型:標(biāo)準(zhǔn)師傅提供穩(wěn)定基礎(chǔ),擾動(dòng)師傅增強(qiáng)適應(yīng)能力,隨機(jī)失活師傅防止過(guò)擬合。然后這三個(gè)師傅共同指導(dǎo)一個(gè)輕量級(jí)學(xué)徒模型學(xué)習(xí),學(xué)徒只需要師傅們一半的3D點(diǎn)數(shù)量就能達(dá)到相近的重建效果。
Q3:Distilled-3DGS技術(shù)有什么實(shí)際應(yīng)用價(jià)值?
A:這項(xiàng)技術(shù)能讓原本只能在高端設(shè)備上運(yùn)行的3D應(yīng)用在普通手機(jī)上流暢運(yùn)行,為VR/AR設(shè)備帶來(lái)更輕便的體驗(yàn)和更長(zhǎng)續(xù)航,幫助自動(dòng)駕駛汽車(chē)實(shí)時(shí)構(gòu)建更精確的環(huán)境模型,推動(dòng)3D技術(shù)從實(shí)驗(yàn)室真正走向大眾市場(chǎng)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。