av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 深度圖表示重新思考:如何讓3D高斯分布渲染更清晰的物體邊界

深度圖表示重新思考:如何讓3D高斯分布渲染更清晰的物體邊界

2025-06-09 15:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 15:32 ? 科技行者

這項(xiàng)來(lái)自浙江大學(xué)、莫納什大學(xué)和MBZUAI聯(lián)合研究團(tuán)隊(duì)的最新研究《Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting》于2025年6月發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2506.05327v1)。該研究由施督超、王偉杰(共同第一作者)、陳東尼、張澤宇、邊家旺、莊博涵和沈春華教授共同完成。有興趣深入了解的讀者可以通過(guò)項(xiàng)目主頁(yè)https://aim-uofa.github.io/PMLoss獲取更多信息。

想象一下,你正在使用一款先進(jìn)的3D建模軟件,可以從幾張照片快速創(chuàng)建逼真的3D場(chǎng)景。但當(dāng)你放大查看時(shí),發(fā)現(xiàn)物體的邊緣總是有些模糊不清,就像用模糊的剪刀剪出來(lái)的一樣。這正是當(dāng)前前饋式3D高斯分布渲染(Feed-Forward 3D Gaussian Splatting,簡(jiǎn)稱3DGS)技術(shù)面臨的核心問(wèn)題。

3D高斯分布渲染是一種近年來(lái)備受關(guān)注的新型3D場(chǎng)景表示和渲染技術(shù),它能夠以極快的速度生成高質(zhì)量的新視角圖像。不過(guò),傳統(tǒng)的3DGS需要對(duì)每個(gè)新場(chǎng)景進(jìn)行耗時(shí)的優(yōu)化,限制了它在實(shí)際應(yīng)用中的便捷性。因此,研究人員開(kāi)發(fā)了前饋式3DGS方法,可以直接從輸入圖像快速預(yù)測(cè)3D場(chǎng)景,無(wú)需逐場(chǎng)景優(yōu)化。

然而,這些前饋式方法往往使用深度圖作為中間表示,而深度圖在物體邊界處常常存在不連續(xù)性,導(dǎo)致生成的3D點(diǎn)云破碎或稀疏,最終影響渲染質(zhì)量。這就像是用低質(zhì)量的拼圖片試圖拼出一幅完整畫(huà)作,邊緣總是對(duì)不齊。

針對(duì)這一問(wèn)題,研究團(tuán)隊(duì)提出了一種名為PM-Loss的新型正則化損失函數(shù),基于預(yù)訓(xùn)練Transformer模型預(yù)測(cè)的點(diǎn)圖(pointmap)。雖然點(diǎn)圖本身的準(zhǔn)確度可能不如深度圖,但它能有效強(qiáng)化幾何平滑性,特別是在物體邊界周圍。這就像是給拼圖添加了一個(gè)指導(dǎo)模板,幫助我們更準(zhǔn)確地對(duì)齊邊緣。

通過(guò)這種方法,研究團(tuán)隊(duì)顯著改善了前饋式3DGS在各種架構(gòu)和場(chǎng)景下的表現(xiàn),始終提供更好的渲染結(jié)果。他們的成果不僅提高了視覺(jué)質(zhì)量,還為未來(lái)前饋式3DGS的發(fā)展提供了新的思路。

一、深度圖的不足:前饋式3DGS面臨的挑戰(zhàn)

想象你正在用透明塑料片畫(huà)一座房子的輪廓,然后將這些輪廓疊加起來(lái)形成一個(gè)3D模型。這基本上就是深度圖的工作方式——它記錄了場(chǎng)景中每個(gè)點(diǎn)到相機(jī)的距離。雖然這種方法在平滑表面上效果不錯(cuò),但在物體邊界處卻會(huì)出現(xiàn)問(wèn)題。

深度圖在物體邊界處常常呈現(xiàn)出急劇的深度變化或不連續(xù)性。這就像是在畫(huà)輪廓時(shí),筆突然跳到了完全不同的高度。當(dāng)我們將這些深度值轉(zhuǎn)換為3D點(diǎn)時(shí),這些不連續(xù)性會(huì)導(dǎo)致生成的3D點(diǎn)云出現(xiàn)斷裂或稀疏區(qū)域,就像拼圖缺了幾塊一樣。

研究人員在論文中詳細(xì)分析了這一問(wèn)題。他們展示了當(dāng)前主流的前饋式3DGS方法(如DepthSplat和MVSplat)如何使用深度圖來(lái)生成3D高斯分布。這些方法首先預(yù)測(cè)場(chǎng)景的深度圖,然后將其反投影為3D點(diǎn)云,最后在這些點(diǎn)上放置3D高斯分布。由于深度圖的固有局限性,這些方法在物體邊界處往往產(chǎn)生質(zhì)量較差的結(jié)果。

例如,在論文圖1中,我們可以清楚地看到DepthSplat生成的3D點(diǎn)云在物體邊界處有大量漂浮的點(diǎn)和噪聲,導(dǎo)致渲染的新視角圖像在這些區(qū)域出現(xiàn)明顯的失真和黑邊。這就像是用模糊的相機(jī)拍攝出來(lái)的照片,邊緣總是有些朦朧不清。

二、點(diǎn)圖的優(yōu)勢(shì):平滑幾何的強(qiáng)大先驗(yàn)

如果說(shuō)深度圖就像只測(cè)量高度的地形圖,那么點(diǎn)圖(pointmap)則更像是一個(gè)完整的3D模型。點(diǎn)圖直接在世界坐標(biāo)系中編碼三維點(diǎn)的XYZ坐標(biāo),而不僅僅是相機(jī)空間中的單一深度值。

近年來(lái),以DUSt3R、Fast3R和VGGT為代表的點(diǎn)圖回歸方法在3D重建領(lǐng)域取得了顯著進(jìn)展。這些方法使用大型Transformer模型直接從圖像預(yù)測(cè)密集的3D點(diǎn)云,簡(jiǎn)化了傳統(tǒng)的多視角立體視覺(jué)過(guò)程。這就像是從多張照片中直接"看"出一個(gè)完整的3D物體,而不需要復(fù)雜的測(cè)量和計(jì)算。

這些點(diǎn)圖模型的一個(gè)關(guān)鍵優(yōu)勢(shì)在于它們能夠產(chǎn)生更加平滑、連續(xù)的幾何表示,特別是在物體邊界處。這是因?yàn)樗鼈儾皇苌疃炔贿B續(xù)性的影響,而是學(xué)習(xí)了更加全局化的幾何先驗(yàn)知識(shí)。

然而,將點(diǎn)圖作為前饋式3DGS的先驗(yàn)并不是一件容易的事。點(diǎn)圖隱含地編碼了粗略的相機(jī)姿態(tài),而前饋式3DGS則需要明確提供準(zhǔn)確的相機(jī)姿態(tài),這導(dǎo)致直接整合兩者變得困難?,F(xiàn)有的一些方法如Splatt3R和NoPoSplat通過(guò)忽略相機(jī)姿態(tài)或需要緩慢的測(cè)試時(shí)間姿態(tài)對(duì)齊來(lái)解決這個(gè)問(wèn)題,但這些方法限制了其在實(shí)際場(chǎng)景中的應(yīng)用。

三、PM-Loss:巧妙利用點(diǎn)圖先驗(yàn)的新方法

研究團(tuán)隊(duì)提出的PM-Loss創(chuàng)新性地將點(diǎn)圖的幾何先驗(yàn)知識(shí)轉(zhuǎn)化為一個(gè)簡(jiǎn)單有效的訓(xùn)練損失,而不是作為一個(gè)復(fù)雜的網(wǎng)絡(luò)組件。這就像是給一個(gè)繪畫(huà)學(xué)徒提供一個(gè)參考草圖,而不是直接接管他的畫(huà)筆。

具體來(lái)說(shuō),PM-Loss引導(dǎo)從預(yù)測(cè)深度反投影得到的點(diǎn)云學(xué)習(xí),以大規(guī)模3D重建模型(如Fast3R、VGGT)預(yù)測(cè)的全局點(diǎn)圖作為偽真值。這種指導(dǎo)需要確保源點(diǎn)和目標(biāo)點(diǎn)在同一空間中,并且有高效的測(cè)量方式。

對(duì)于前者,研究人員發(fā)現(xiàn)Umeyama算法可以高效地對(duì)齊兩個(gè)點(diǎn)云,利用深度圖和點(diǎn)圖之間的一一對(duì)應(yīng)關(guān)系。想象一下,這就像是將兩張透明紙上的圖案精確對(duì)齊,使它們完美重疊。實(shí)驗(yàn)表明,這種對(duì)齊方法比常用的ICP算法快近250倍(0.9毫秒 vs 238.3毫秒)。

對(duì)于后者,他們使用Chamfer距離直接在3D空間中對(duì)它們進(jìn)行正則化,這比在2D空間應(yīng)用的方法效果顯著更好。Chamfer距離可以看作是測(cè)量?jī)蓚€(gè)點(diǎn)云之間"相似度"的一種方法,就像是測(cè)量?jī)蓚€(gè)拼圖之間有多少部分可以完美對(duì)接。

PM-Loss的一個(gè)關(guān)鍵見(jiàn)解是重新計(jì)算3D空間中的最近鄰居進(jìn)行監(jiān)督,而不是直接依賴一對(duì)一的像素對(duì)應(yīng)關(guān)系(這會(huì)退化為深度損失)。這種設(shè)計(jì)使監(jiān)督對(duì)姿態(tài)不對(duì)齊和預(yù)測(cè)噪聲更加魯棒。想象一下,這就像是允許拼圖的各個(gè)部分稍微移動(dòng)位置,只要整體形狀相似即可,而不是要求每個(gè)像素都一一對(duì)應(yīng)。

四、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果:PM-Loss的強(qiáng)大效果

研究團(tuán)隊(duì)在多個(gè)大規(guī)模數(shù)據(jù)集上評(píng)估了他們的方法,包括DL3DV、RealEstate10K和DTU。他們將PM-Loss應(yīng)用于兩個(gè)代表性的前饋式3DGS模型:MVSplat和DepthSplat,并與原始模型進(jìn)行了詳細(xì)比較。

在視覺(jué)質(zhì)量方面,添加PM-Loss后的模型在兩個(gè)大規(guī)模數(shù)據(jù)集上都取得了顯著提升,PSNR提高至少2dB。這相當(dāng)于從標(biāo)清視頻升級(jí)到高清視頻的體驗(yàn)提升。視覺(jué)對(duì)比結(jié)果清楚地表明,原始模型常常在場(chǎng)景邊界處失敗,形成黑色區(qū)域,而使用PM-Loss的模型則能更準(zhǔn)確地恢復(fù)這些區(qū)域,顯著提高渲染視圖的視覺(jué)質(zhì)量。

在點(diǎn)云質(zhì)量方面,PM-Loss同樣表現(xiàn)出色。在DL3DV數(shù)據(jù)集上,與原始DepthSplat相比,添加PM-Loss后生成的3D高斯分布更加清晰、邊界更加清晰,大大減少了邊界周圍的漂浮偽影和噪聲。在DTU數(shù)據(jù)集上,無(wú)論是2視圖、4視圖還是6視圖輸入,添加PM-Loss的模型在準(zhǔn)確性、完整性和整體Chamfer距離上都取得了更好的結(jié)果。

研究團(tuán)隊(duì)還進(jìn)行了廣泛的消融研究,驗(yàn)證了各種設(shè)計(jì)選擇的有效性。他們比較了不同的距離測(cè)量方法,證明了3D"最近鄰"Chamfer損失優(yōu)于2D"一對(duì)一"深度損失。他們還探索了不同點(diǎn)圖來(lái)源的影響,發(fā)現(xiàn)雖然更高質(zhì)量的點(diǎn)圖(如VGGT)能提供更好的效果,但即使使用質(zhì)量較低的點(diǎn)圖(如Fast3R),PM-Loss仍然能顯著優(yōu)于基線方法。

關(guān)于效率,PM-Loss引入的額外計(jì)算成本主要來(lái)自點(diǎn)云對(duì)齊和Chamfer損失計(jì)算,總共僅需約65毫秒,即使對(duì)大量3D高斯分布(約458,752個(gè))也是如此,使其能夠高效地集成到大多數(shù)現(xiàn)有的前饋式3DGS模型中。

五、PM-Loss的更廣泛意義和應(yīng)用前景

PM-Loss不僅僅是一個(gè)技術(shù)改進(jìn),它代表了一種新的思路:如何巧妙地整合不同模型和表示的優(yōu)勢(shì),而不是簡(jiǎn)單地替換或疊加它們。這就像是一名廚師不僅知道各種食材的特性,還知道如何將它們完美搭配,創(chuàng)造出超越單一食材的美味佳肴。

在實(shí)際應(yīng)用中,PM-Loss可以為許多依賴3D場(chǎng)景重建的領(lǐng)域帶來(lái)提升,例如:

虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí):更準(zhǔn)確的物體邊界意味著VR/AR體驗(yàn)中的物體會(huì)看起來(lái)更自然、更真實(shí),減少了"飄浮感"和邊緣偽影,提高沉浸感。

機(jī)器人視覺(jué):更準(zhǔn)確的3D場(chǎng)景理解可以幫助機(jī)器人更好地識(shí)別和交互物體,特別是在物體邊界處,減少抓取或?qū)Ш藉e(cuò)誤。

內(nèi)容創(chuàng)作:為電影、游戲和虛擬產(chǎn)品展示提供更高質(zhì)量、更高效的3D內(nèi)容生成工具,減少手動(dòng)修復(fù)邊界問(wèn)題的工作量。

值得注意的是,PM-Loss是一種即插即用的解決方案,它不需要修改現(xiàn)有模型的架構(gòu),只需要在訓(xùn)練過(guò)程中添加一個(gè)額外的損失項(xiàng)。這使得它非常易于集成到現(xiàn)有的前饋式3DGS管道中,為實(shí)際應(yīng)用提供了便利。

研究團(tuán)隊(duì)在論文中也坦率地指出了方法的局限性:PM-Loss的效果受限于預(yù)訓(xùn)練點(diǎn)圖模型的質(zhì)量,點(diǎn)圖中的錯(cuò)誤可能會(huì)通過(guò)損失函數(shù)傳播到前饋式3DGS模型中。未來(lái),隨著更強(qiáng)大的點(diǎn)圖模型的發(fā)展,PM-Loss的效果可能會(huì)進(jìn)一步提升。

六、結(jié)論與未來(lái)展望

這項(xiàng)研究通過(guò)引入PM-Loss,成功地解決了前饋式3DGS中由深度圖引起的不連續(xù)性問(wèn)題。通過(guò)利用點(diǎn)圖作為幾何先驗(yàn),PM-Loss顯著改善了3D高斯分布的質(zhì)量,特別是在物體邊界處,從而提高了新視角合成的視覺(jué)質(zhì)量。

從更廣泛的角度來(lái)看,這項(xiàng)工作展示了如何巧妙地融合不同模型和表示的優(yōu)勢(shì),而不是簡(jiǎn)單地替換或堆疊它們。它提供了一種高效、有效的方法,可以將預(yù)訓(xùn)練大模型中的知識(shí)轉(zhuǎn)移到下游任務(wù)中,這在當(dāng)前AI領(lǐng)域是一個(gè)重要的研究方向。

未來(lái)的研究可能會(huì)探索更多種類的幾何先驗(yàn),或者開(kāi)發(fā)更高效的對(duì)齊和損失計(jì)算方法。隨著點(diǎn)圖回歸模型的不斷改進(jìn),PM-Loss的效果也可能會(huì)進(jìn)一步提升。此外,將這種方法擴(kuò)展到更多的3D視覺(jué)任務(wù),如物體檢測(cè)、分割和跟蹤,也是值得探索的方向。

總的來(lái)說(shuō),這項(xiàng)研究不僅為前饋式3DGS提供了一個(gè)有效的解決方案,也為如何利用預(yù)訓(xùn)練模型的知識(shí)提供了一個(gè)啟發(fā)性的案例。隨著3D視覺(jué)技術(shù)的不斷發(fā)展,我們可以期待更多像PM-Loss這樣的創(chuàng)新方法出現(xiàn),進(jìn)一步推動(dòng)計(jì)算機(jī)視覺(jué)和圖形學(xué)的邊界。

如果你對(duì)這項(xiàng)研究感興趣,可以訪問(wèn)項(xiàng)目主頁(yè)https://aim-uofa.github.io/PMLoss獲取更多信息,包括代碼、預(yù)訓(xùn)練模型和更多實(shí)驗(yàn)結(jié)果。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-