近日,浙江大學(xué)和吉利汽車研究院的聯(lián)合研究團隊發(fā)表了一項突破性研究,為動態(tài)3D場景重建領(lǐng)域帶來了全新解決方案。這項名為"FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction"(自由時空高斯:用于動態(tài)場景重建的任意時空高斯)的研究由王一帆、楊佩珊、徐震、孫加明、張占華、陳勇、包華軍、彭思達和周曉巍共同完成,周曉巍教授擔任通訊作者。論文于2024年6月在計算機視覺領(lǐng)域發(fā)表。
一、研究背景:為何我們需要更好的動態(tài)場景重建技術(shù)?
想象一下,你正在觀看一場足球比賽的直播?,F(xiàn)在的技術(shù)只能讓你從固定的幾個攝像機角度觀看比賽,但如果你能隨意切換到任何視角——比如從守門員背后看球飛來的軌跡,或者從球員視角體驗進球瞬間,那該有多酷?這正是動態(tài)視圖合成技術(shù)的魅力所在,它能讓我們從任意角度觀看真實世界中發(fā)生的動態(tài)場景。
這項技術(shù)不僅對電影制作、視頻游戲和虛擬現(xiàn)實具有廣泛應(yīng)用,還可能徹底改變我們觀看體育賽事、音樂會和其他現(xiàn)場活動的方式。傳統(tǒng)方法使用紋理網(wǎng)格序列來表示動態(tài)3D場景,但這需要復(fù)雜的硬件設(shè)置才能實現(xiàn)高質(zhì)量重建,因此僅限于受控環(huán)境使用。隨后,基于NeRF(神經(jīng)輻射場)的方法在動態(tài)視圖合成方面取得了令人印象深刻的成果,但這些表示在計算上非常昂貴,導(dǎo)致渲染速度慢,阻礙了實際應(yīng)用。
近期,一種流行的動態(tài)視圖合成方法是將3D高斯基元(想象成3D空間中的小氣泡)與變形場結(jié)合,來模擬動態(tài)場景。這些方法在規(guī)范空間中基于高斯基元模擬場景的幾何和外觀,然后使用神經(jīng)網(wǎng)絡(luò)來模擬場景運動,將規(guī)范空間中的場景變形到特定時刻的觀察空間場景。雖然這些方法在小運動場景上實現(xiàn)了實時高質(zhì)量渲染,但它們常常難以處理具有復(fù)雜運動的場景。
二、研究創(chuàng)新:高斯基元的自由化與時空革命
浙大團隊認為,當前方法之所以難以處理復(fù)雜運動場景,一個合理的原因是:當物體在場景中大幅移動時,這些方法需要在規(guī)范空間和觀察空間之間建立長距離對應(yīng)關(guān)系,而這種關(guān)系很難從RGB觀察中恢復(fù),正如之前研究中所討論的那樣。
針對這個問題,研究團隊提出了一種新穎的4D表示方法,名為FreeTimeGS,用于重建具有復(fù)雜運動的動態(tài)3D場景。與之前僅在規(guī)范空間定義高斯基元的方法不同,F(xiàn)reeTimeGS允許高斯基元在任意位置和時間步驟出現(xiàn),具有強大的靈活性。
這就像是從固定的演員陣容到可以隨時加入演出的自由藝人。傳統(tǒng)方法就像一個戲劇團,所有演員(高斯基元)都必須從頭到尾參與整個表演,即使某些演員只在特定場景中短暫出現(xiàn)。而FreeTimeGS則像是一個開放的街頭表演,演員可以在任何時間點加入或離開,根據(jù)需要靈活地參與表演,這大大提高了表演(場景重建)的質(zhì)量和效率。
此外,研究團隊為每個高斯基元分配了一個明確的運動函數(shù),使其能夠隨時間移動到相鄰區(qū)域,這促進了高斯基元沿時間維度的重用,并減少了表示冗余。簡單來說,就是讓每個"演員"不僅可以在特定時間出場,還能按照預(yù)定的軌跡在場景中移動,這樣一個演員就能擔任多個角色,大大提高了效率。
通過賦予高斯基元高度的自由度,這種表示方法有兩個顯著優(yōu)勢:首先,它顯著提高了模擬動態(tài)3D場景的能力和渲染質(zhì)量,這一點在實驗中得到了充分證明。其次,與基于變形的方法相比,該方法只需要模擬高斯基元和觀察場景之間的短距離運動。因此,他們的運動函數(shù)可以實現(xiàn)為簡單的線性函數(shù),緩解了病態(tài)優(yōu)化問題。
三、技術(shù)挑戰(zhàn)與巧妙解決:高透明度高斯的"遮光"問題
在實驗過程中,研究團隊發(fā)現(xiàn),僅用渲染損失優(yōu)化FreeTimeGS容易在快速移動區(qū)域陷入局部最小值,導(dǎo)致渲染質(zhì)量下降。為解決這個問題,他們深入分析了高斯基元的不透明度分布,發(fā)現(xiàn)其中相當一部分接近1(完全不透明)。
這就像是給舞臺上的演員穿了過于鮮艷的服裝,導(dǎo)致站在前排的演員完全遮擋了后排演員,使觀眾無法看到完整的表演。研究結(jié)果表明,一些高斯基元的高不透明度可能阻止梯度傳播到所有高斯基元,從而阻礙優(yōu)化過程。
受此啟發(fā),研究團隊設(shè)計了一種簡單的正則化策略,在優(yōu)化早期階段對高斯基元的高不透明度進行懲罰。這就像是要求所有演員穿半透明的服裝,確保站在后排的演員也能被觀眾看到,直到每個演員都找到了自己的最佳位置。這一策略有效緩解了局部最小值問題,提高了渲染質(zhì)量。
四、實驗驗證:從數(shù)字到視覺的卓越表現(xiàn)
為驗證方法的有效性,研究團隊在多個廣泛使用的多視圖動態(tài)新視圖合成數(shù)據(jù)集上評估了FreeTimeGS,包括Neural3DV和ENeRF-Outdoor。他們的方法與現(xiàn)有最先進方法相比,在這些公共數(shù)據(jù)集上取得了最高質(zhì)量的結(jié)果。
更值得注意的是,為了進一步評估和展示方法在具有挑戰(zhàn)性場景中的能力,研究團隊還收集了一個名為SelfCap的數(shù)據(jù)集,與Neural3DV相比,該數(shù)據(jù)集包含了更快、更復(fù)雜的運動場景。在這個數(shù)據(jù)集上,他們的方法在質(zhì)量和效率方面均大幅超越了最先進的方法。
具體來看,與當前最先進的方法4DGS和STGS相比,他們的方法在SelfCap數(shù)據(jù)集上的PSNR(峰值信噪比,一種衡量圖像質(zhì)量的指標)提高了2.4dB和1.4dB。對于動態(tài)區(qū)域,PSNR提升更為顯著,分別提高了4.1dB和2.6dB。更令人印象深刻的是,他們的方法支持1080p分辨率的實時渲染,使用單個RTX 4090 GPU能達到450 FPS的渲染速度。
五、技術(shù)實現(xiàn):FreeTimeGS的核心機制詳解
FreeTimeGS的核心是其特殊的4D表示方法。每個高斯基元由八個可學(xué)習參數(shù)組成:位置、時間、持續(xù)時間、速度、尺度、方向、不透明度和球諧系數(shù)。
想象一下,每個高斯基元就像是一個特殊的氣球,它可以在特定時間出現(xiàn)在3D空間的任何位置,并按照預(yù)定義的軌跡移動。這個氣球有特定的大?。ǔ叨龋?、方向、透明度(不透明度)和顏色(由球諧系數(shù)決定)。
為了計算任意時間點t和位置x處高斯基元的不透明度和顏色,系統(tǒng)首先根據(jù)其運動函數(shù)移動高斯基元,獲取其在時間t的實際空間位置?;谝苿雍蟮母咚够到y(tǒng)通過球諧模型計算其顏色,并通過結(jié)合原始不透明度、時間不透明度和空間距離計算其不透明度。
時間不透明度是一個關(guān)鍵創(chuàng)新,它控制高斯基元隨時間的影響。為了使高斯基元的時間和持續(xù)時間能夠通過渲染梯度自動調(diào)整,時間不透明度被建模為具有縮放參數(shù)的高斯分布。
在訓(xùn)練過程中,研究團隊采用了多種優(yōu)化策略:
1. 4D正則化:設(shè)計了一個正則化損失來約束高斯基元的高不透明度值。時間不透明度作為正則化損失的權(quán)重,代表高斯基元在特定時間的影響。對于影響較小的高斯基元,減少對它們的懲罰。
2. 周期性重定位:設(shè)計了一個周期性重定位策略,將低不透明度的高斯基元移動到需要更多基元的區(qū)域。具體來說,他們?yōu)槊總€高斯基元設(shè)計了一個采樣分數(shù),衡量需要更多基元的區(qū)域。每隔N次迭代,他們將不透明度低于閾值的高斯基元移動到采樣分數(shù)高的區(qū)域。
3. 表示初始化:提出了一種策略來初始化高斯基元的位置、時間和速度。對于每個視頻幀,首先使用ROMA獲取多視圖圖像之間的2D匹配,然后通過3D三角測量計算3D點。這些3D點及其對應(yīng)的時間步驟用于初始化高斯基元的位置和時間。隨后,通過k最近鄰算法匹配兩個視頻幀的3D點,將點對之間的平移作為高斯基元的速度。
在優(yōu)化過程中,他們進一步根據(jù)訓(xùn)練進度調(diào)整速度的優(yōu)化率,這有助于在早期階段模擬快速運動,在后期階段模擬復(fù)雜運動。
六、消融實驗:FreeTimeGS各組件的重要性
為了驗證各個提出組件的有效性,研究團隊在SelfCap數(shù)據(jù)集的60幀dance1序列上進行了消融實驗,并進一步報告了10幀最快運動子序列的結(jié)果,以評估方法在高運動場景中的性能。
實驗結(jié)果表明:
1. 運動表示:與4DGS使用的運動表示相比,F(xiàn)reeTimeGS提出的運動表示顯著提高了模擬動態(tài)3D場景的能力,尤其是在具有快速和復(fù)雜運動的區(qū)域。
2. 4D正則化:沒有4D正則化,具有大不透明度的高斯會阻礙優(yōu)化過程,導(dǎo)致細節(jié)區(qū)域的次優(yōu)結(jié)果。研究團隊還測試了不同正則化權(quán)重值的效果,最終選擇λreg = 1e-2作為所有實驗的設(shè)置。
3. 周期性重定位:沒有周期性重定位,模型傾向于使用更多低不透明度的高斯來模擬場景,當高斯數(shù)量有限時導(dǎo)致次優(yōu)結(jié)果。
4. 4D初始化:提出的4D初始化方法顯著提高了模型對場景中快速運動的建模能力。
這些實驗證明了FreeTimeGS各個組件的重要性,每個組件都對最終的高質(zhì)量結(jié)果做出了貢獻。
七、局限性與未來展望:邁向更完美的動態(tài)場景重建
盡管取得了令人印象深刻的成果,F(xiàn)reeTimeGS仍有一些局限性。首先,該方法仍然需要對每個動態(tài)場景進行漫長的重建過程。未來的工作可能通過在提出的表示上整合生成式先驗,實現(xiàn)無優(yōu)化重建來緩解這一問題。
另一個局限是當前表示不支持重光照,僅專注于新視圖合成。未來的工作可以擴展當前表示,加入表面法線和材質(zhì)屬性,以擴展其在重光照方面的適用性。
總的來說,F(xiàn)reeTimeGS為動態(tài)3D場景重建提供了一種新穎的4D表示方法,通過允許高斯基元在任意時間和位置出現(xiàn),結(jié)合可優(yōu)化的顯式運動函數(shù)和時間不透明度函數(shù),該表示能夠更加忠實和靈活地表示動態(tài)場景。此外,提出的簡單正則化策略有效緩解了優(yōu)化過程中的局部最小值問題。實驗結(jié)果表明,F(xiàn)reeTimeGS在多個廣泛使用的多視圖動態(tài)新視圖合成數(shù)據(jù)集上實現(xiàn)了更高的渲染質(zhì)量和渲染速度。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。