av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 自由飛翔的3D高斯:浙大研究團(tuán)隊(duì)打造高效動(dòng)態(tài)場(chǎng)景重建新方法

自由飛翔的3D高斯:浙大研究團(tuán)隊(duì)打造高效動(dòng)態(tài)場(chǎng)景重建新方法

2025-06-09 16:58
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 16:58 ? 科技行者

近日,浙江大學(xué)和吉利汽車研究院的聯(lián)合研究團(tuán)隊(duì)發(fā)表了一項(xiàng)突破性研究,為動(dòng)態(tài)3D場(chǎng)景重建領(lǐng)域帶來(lái)了全新解決方案。這項(xiàng)名為"FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction"(自由時(shí)空高斯:用于動(dòng)態(tài)場(chǎng)景重建的任意時(shí)空高斯)的研究由王一帆、楊佩珊、徐震、孫加明、張占華、陳勇、包華軍、彭思達(dá)和周曉巍共同完成,周曉巍教授擔(dān)任通訊作者。論文于2024年6月在計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)表。

一、研究背景:為何我們需要更好的動(dòng)態(tài)場(chǎng)景重建技術(shù)?

想象一下,你正在觀看一場(chǎng)足球比賽的直播?,F(xiàn)在的技術(shù)只能讓你從固定的幾個(gè)攝像機(jī)角度觀看比賽,但如果你能隨意切換到任何視角——比如從守門員背后看球飛來(lái)的軌跡,或者從球員視角體驗(yàn)進(jìn)球瞬間,那該有多酷?這正是動(dòng)態(tài)視圖合成技術(shù)的魅力所在,它能讓我們從任意角度觀看真實(shí)世界中發(fā)生的動(dòng)態(tài)場(chǎng)景。

這項(xiàng)技術(shù)不僅對(duì)電影制作、視頻游戲和虛擬現(xiàn)實(shí)具有廣泛應(yīng)用,還可能徹底改變我們觀看體育賽事、音樂(lè)會(huì)和其他現(xiàn)場(chǎng)活動(dòng)的方式。傳統(tǒng)方法使用紋理網(wǎng)格序列來(lái)表示動(dòng)態(tài)3D場(chǎng)景,但這需要復(fù)雜的硬件設(shè)置才能實(shí)現(xiàn)高質(zhì)量重建,因此僅限于受控環(huán)境使用。隨后,基于NeRF(神經(jīng)輻射場(chǎng))的方法在動(dòng)態(tài)視圖合成方面取得了令人印象深刻的成果,但這些表示在計(jì)算上非常昂貴,導(dǎo)致渲染速度慢,阻礙了實(shí)際應(yīng)用。

近期,一種流行的動(dòng)態(tài)視圖合成方法是將3D高斯基元(想象成3D空間中的小氣泡)與變形場(chǎng)結(jié)合,來(lái)模擬動(dòng)態(tài)場(chǎng)景。這些方法在規(guī)范空間中基于高斯基元模擬場(chǎng)景的幾何和外觀,然后使用神經(jīng)網(wǎng)絡(luò)來(lái)模擬場(chǎng)景運(yùn)動(dòng),將規(guī)范空間中的場(chǎng)景變形到特定時(shí)刻的觀察空間場(chǎng)景。雖然這些方法在小運(yùn)動(dòng)場(chǎng)景上實(shí)現(xiàn)了實(shí)時(shí)高質(zhì)量渲染,但它們常常難以處理具有復(fù)雜運(yùn)動(dòng)的場(chǎng)景。

二、研究創(chuàng)新:高斯基元的自由化與時(shí)空革命

浙大團(tuán)隊(duì)認(rèn)為,當(dāng)前方法之所以難以處理復(fù)雜運(yùn)動(dòng)場(chǎng)景,一個(gè)合理的原因是:當(dāng)物體在場(chǎng)景中大幅移動(dòng)時(shí),這些方法需要在規(guī)范空間和觀察空間之間建立長(zhǎng)距離對(duì)應(yīng)關(guān)系,而這種關(guān)系很難從RGB觀察中恢復(fù),正如之前研究中所討論的那樣。

針對(duì)這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種新穎的4D表示方法,名為FreeTimeGS,用于重建具有復(fù)雜運(yùn)動(dòng)的動(dòng)態(tài)3D場(chǎng)景。與之前僅在規(guī)范空間定義高斯基元的方法不同,F(xiàn)reeTimeGS允許高斯基元在任意位置和時(shí)間步驟出現(xiàn),具有強(qiáng)大的靈活性。

這就像是從固定的演員陣容到可以隨時(shí)加入演出的自由藝人。傳統(tǒng)方法就像一個(gè)戲劇團(tuán),所有演員(高斯基元)都必須從頭到尾參與整個(gè)表演,即使某些演員只在特定場(chǎng)景中短暫出現(xiàn)。而FreeTimeGS則像是一個(gè)開(kāi)放的街頭表演,演員可以在任何時(shí)間點(diǎn)加入或離開(kāi),根據(jù)需要靈活地參與表演,這大大提高了表演(場(chǎng)景重建)的質(zhì)量和效率。

此外,研究團(tuán)隊(duì)為每個(gè)高斯基元分配了一個(gè)明確的運(yùn)動(dòng)函數(shù),使其能夠隨時(shí)間移動(dòng)到相鄰區(qū)域,這促進(jìn)了高斯基元沿時(shí)間維度的重用,并減少了表示冗余。簡(jiǎn)單來(lái)說(shuō),就是讓每個(gè)"演員"不僅可以在特定時(shí)間出場(chǎng),還能按照預(yù)定的軌跡在場(chǎng)景中移動(dòng),這樣一個(gè)演員就能擔(dān)任多個(gè)角色,大大提高了效率。

通過(guò)賦予高斯基元高度的自由度,這種表示方法有兩個(gè)顯著優(yōu)勢(shì):首先,它顯著提高了模擬動(dòng)態(tài)3D場(chǎng)景的能力和渲染質(zhì)量,這一點(diǎn)在實(shí)驗(yàn)中得到了充分證明。其次,與基于變形的方法相比,該方法只需要模擬高斯基元和觀察場(chǎng)景之間的短距離運(yùn)動(dòng)。因此,他們的運(yùn)動(dòng)函數(shù)可以實(shí)現(xiàn)為簡(jiǎn)單的線性函數(shù),緩解了病態(tài)優(yōu)化問(wèn)題。

三、技術(shù)挑戰(zhàn)與巧妙解決:高透明度高斯的"遮光"問(wèn)題

在實(shí)驗(yàn)過(guò)程中,研究團(tuán)隊(duì)發(fā)現(xiàn),僅用渲染損失優(yōu)化FreeTimeGS容易在快速移動(dòng)區(qū)域陷入局部最小值,導(dǎo)致渲染質(zhì)量下降。為解決這個(gè)問(wèn)題,他們深入分析了高斯基元的不透明度分布,發(fā)現(xiàn)其中相當(dāng)一部分接近1(完全不透明)。

這就像是給舞臺(tái)上的演員穿了過(guò)于鮮艷的服裝,導(dǎo)致站在前排的演員完全遮擋了后排演員,使觀眾無(wú)法看到完整的表演。研究結(jié)果表明,一些高斯基元的高不透明度可能阻止梯度傳播到所有高斯基元,從而阻礙優(yōu)化過(guò)程。

受此啟發(fā),研究團(tuán)隊(duì)設(shè)計(jì)了一種簡(jiǎn)單的正則化策略,在優(yōu)化早期階段對(duì)高斯基元的高不透明度進(jìn)行懲罰。這就像是要求所有演員穿半透明的服裝,確保站在后排的演員也能被觀眾看到,直到每個(gè)演員都找到了自己的最佳位置。這一策略有效緩解了局部最小值問(wèn)題,提高了渲染質(zhì)量。

四、實(shí)驗(yàn)驗(yàn)證:從數(shù)字到視覺(jué)的卓越表現(xiàn)

為驗(yàn)證方法的有效性,研究團(tuán)隊(duì)在多個(gè)廣泛使用的多視圖動(dòng)態(tài)新視圖合成數(shù)據(jù)集上評(píng)估了FreeTimeGS,包括Neural3DV和ENeRF-Outdoor。他們的方法與現(xiàn)有最先進(jìn)方法相比,在這些公共數(shù)據(jù)集上取得了最高質(zhì)量的結(jié)果。

更值得注意的是,為了進(jìn)一步評(píng)估和展示方法在具有挑戰(zhàn)性場(chǎng)景中的能力,研究團(tuán)隊(duì)還收集了一個(gè)名為SelfCap的數(shù)據(jù)集,與Neural3DV相比,該數(shù)據(jù)集包含了更快、更復(fù)雜的運(yùn)動(dòng)場(chǎng)景。在這個(gè)數(shù)據(jù)集上,他們的方法在質(zhì)量和效率方面均大幅超越了最先進(jìn)的方法。

具體來(lái)看,與當(dāng)前最先進(jìn)的方法4DGS和STGS相比,他們的方法在SelfCap數(shù)據(jù)集上的PSNR(峰值信噪比,一種衡量圖像質(zhì)量的指標(biāo))提高了2.4dB和1.4dB。對(duì)于動(dòng)態(tài)區(qū)域,PSNR提升更為顯著,分別提高了4.1dB和2.6dB。更令人印象深刻的是,他們的方法支持1080p分辨率的實(shí)時(shí)渲染,使用單個(gè)RTX 4090 GPU能達(dá)到450 FPS的渲染速度。

五、技術(shù)實(shí)現(xiàn):FreeTimeGS的核心機(jī)制詳解

FreeTimeGS的核心是其特殊的4D表示方法。每個(gè)高斯基元由八個(gè)可學(xué)習(xí)參數(shù)組成:位置、時(shí)間、持續(xù)時(shí)間、速度、尺度、方向、不透明度和球諧系數(shù)。

想象一下,每個(gè)高斯基元就像是一個(gè)特殊的氣球,它可以在特定時(shí)間出現(xiàn)在3D空間的任何位置,并按照預(yù)定義的軌跡移動(dòng)。這個(gè)氣球有特定的大小(尺度)、方向、透明度(不透明度)和顏色(由球諧系數(shù)決定)。

為了計(jì)算任意時(shí)間點(diǎn)t和位置x處高斯基元的不透明度和顏色,系統(tǒng)首先根據(jù)其運(yùn)動(dòng)函數(shù)移動(dòng)高斯基元,獲取其在時(shí)間t的實(shí)際空間位置。基于移動(dòng)后的高斯基元,系統(tǒng)通過(guò)球諧模型計(jì)算其顏色,并通過(guò)結(jié)合原始不透明度、時(shí)間不透明度和空間距離計(jì)算其不透明度。

時(shí)間不透明度是一個(gè)關(guān)鍵創(chuàng)新,它控制高斯基元隨時(shí)間的影響。為了使高斯基元的時(shí)間和持續(xù)時(shí)間能夠通過(guò)渲染梯度自動(dòng)調(diào)整,時(shí)間不透明度被建模為具有縮放參數(shù)的高斯分布。

在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了多種優(yōu)化策略:

1. 4D正則化:設(shè)計(jì)了一個(gè)正則化損失來(lái)約束高斯基元的高不透明度值。時(shí)間不透明度作為正則化損失的權(quán)重,代表高斯基元在特定時(shí)間的影響。對(duì)于影響較小的高斯基元,減少對(duì)它們的懲罰。

2. 周期性重定位:設(shè)計(jì)了一個(gè)周期性重定位策略,將低不透明度的高斯基元移動(dòng)到需要更多基元的區(qū)域。具體來(lái)說(shuō),他們?yōu)槊總€(gè)高斯基元設(shè)計(jì)了一個(gè)采樣分?jǐn)?shù),衡量需要更多基元的區(qū)域。每隔N次迭代,他們將不透明度低于閾值的高斯基元移動(dòng)到采樣分?jǐn)?shù)高的區(qū)域。

3. 表示初始化:提出了一種策略來(lái)初始化高斯基元的位置、時(shí)間和速度。對(duì)于每個(gè)視頻幀,首先使用ROMA獲取多視圖圖像之間的2D匹配,然后通過(guò)3D三角測(cè)量計(jì)算3D點(diǎn)。這些3D點(diǎn)及其對(duì)應(yīng)的時(shí)間步驟用于初始化高斯基元的位置和時(shí)間。隨后,通過(guò)k最近鄰算法匹配兩個(gè)視頻幀的3D點(diǎn),將點(diǎn)對(duì)之間的平移作為高斯基元的速度。

在優(yōu)化過(guò)程中,他們進(jìn)一步根據(jù)訓(xùn)練進(jìn)度調(diào)整速度的優(yōu)化率,這有助于在早期階段模擬快速運(yùn)動(dòng),在后期階段模擬復(fù)雜運(yùn)動(dòng)。

六、消融實(shí)驗(yàn):FreeTimeGS各組件的重要性

為了驗(yàn)證各個(gè)提出組件的有效性,研究團(tuán)隊(duì)在SelfCap數(shù)據(jù)集的60幀dance1序列上進(jìn)行了消融實(shí)驗(yàn),并進(jìn)一步報(bào)告了10幀最快運(yùn)動(dòng)子序列的結(jié)果,以評(píng)估方法在高運(yùn)動(dòng)場(chǎng)景中的性能。

實(shí)驗(yàn)結(jié)果表明:

1. 運(yùn)動(dòng)表示:與4DGS使用的運(yùn)動(dòng)表示相比,F(xiàn)reeTimeGS提出的運(yùn)動(dòng)表示顯著提高了模擬動(dòng)態(tài)3D場(chǎng)景的能力,尤其是在具有快速和復(fù)雜運(yùn)動(dòng)的區(qū)域。

2. 4D正則化:沒(méi)有4D正則化,具有大不透明度的高斯會(huì)阻礙優(yōu)化過(guò)程,導(dǎo)致細(xì)節(jié)區(qū)域的次優(yōu)結(jié)果。研究團(tuán)隊(duì)還測(cè)試了不同正則化權(quán)重值的效果,最終選擇λreg = 1e-2作為所有實(shí)驗(yàn)的設(shè)置。

3. 周期性重定位:沒(méi)有周期性重定位,模型傾向于使用更多低不透明度的高斯來(lái)模擬場(chǎng)景,當(dāng)高斯數(shù)量有限時(shí)導(dǎo)致次優(yōu)結(jié)果。

4. 4D初始化:提出的4D初始化方法顯著提高了模型對(duì)場(chǎng)景中快速運(yùn)動(dòng)的建模能力。

這些實(shí)驗(yàn)證明了FreeTimeGS各個(gè)組件的重要性,每個(gè)組件都對(duì)最終的高質(zhì)量結(jié)果做出了貢獻(xiàn)。

七、局限性與未來(lái)展望:邁向更完美的動(dòng)態(tài)場(chǎng)景重建

盡管取得了令人印象深刻的成果,F(xiàn)reeTimeGS仍有一些局限性。首先,該方法仍然需要對(duì)每個(gè)動(dòng)態(tài)場(chǎng)景進(jìn)行漫長(zhǎng)的重建過(guò)程。未來(lái)的工作可能通過(guò)在提出的表示上整合生成式先驗(yàn),實(shí)現(xiàn)無(wú)優(yōu)化重建來(lái)緩解這一問(wèn)題。

另一個(gè)局限是當(dāng)前表示不支持重光照,僅專注于新視圖合成。未來(lái)的工作可以擴(kuò)展當(dāng)前表示,加入表面法線和材質(zhì)屬性,以擴(kuò)展其在重光照方面的適用性。

總的來(lái)說(shuō),F(xiàn)reeTimeGS為動(dòng)態(tài)3D場(chǎng)景重建提供了一種新穎的4D表示方法,通過(guò)允許高斯基元在任意時(shí)間和位置出現(xiàn),結(jié)合可優(yōu)化的顯式運(yùn)動(dòng)函數(shù)和時(shí)間不透明度函數(shù),該表示能夠更加忠實(shí)和靈活地表示動(dòng)態(tài)場(chǎng)景。此外,提出的簡(jiǎn)單正則化策略有效緩解了優(yōu)化過(guò)程中的局部最小值問(wèn)題。實(shí)驗(yàn)結(jié)果表明,F(xiàn)reeTimeGS在多個(gè)廣泛使用的多視圖動(dòng)態(tài)新視圖合成數(shù)據(jù)集上實(shí)現(xiàn)了更高的渲染質(zhì)量和渲染速度。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-