近日,由浙江大學(xué)ZIP實(shí)驗(yàn)室的王威杰、ByteDance Seed的陳俊宇以及莫納什大學(xué)的張澤宇等研究者共同發(fā)表的論文《ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS》在arXiv上引起廣泛關(guān)注(arXiv:2505.23734v1,2025年5月29日)。這項(xiàng)研究為當(dāng)前3D場(chǎng)景渲染技術(shù)提供了一個(gè)突破性的解決方案,使得前饋式3D高斯渲染(Feed-forward 3DGS)能夠處理更多的輸入視圖,同時(shí)保持高效率和高質(zhì)量的渲染效果。
想象一下,你正在嘗試通過(guò)多張照片重建一個(gè)完整的3D場(chǎng)景,比如你家的客廳或花園。傳統(tǒng)的3D高斯渲染技術(shù)就像是一個(gè)手工藝人,需要花費(fèi)大量時(shí)間逐步調(diào)整,直到完美重現(xiàn)場(chǎng)景。而前饋式3DGS則像是一位經(jīng)驗(yàn)豐富的魔術(shù)師,只需一揮魔杖(一次前向傳遞),就能將這些照片轉(zhuǎn)化為生動(dòng)的3D場(chǎng)景。然而,這位魔術(shù)師有一個(gè)限制——他的"魔法帽"(編碼器)容量有限,當(dāng)輸入的照片過(guò)多時(shí),他要么表現(xiàn)欠佳,要么需要消耗過(guò)多的內(nèi)存資源。
這正是研究團(tuán)隊(duì)要解決的核心問(wèn)題。他們將目光投向了信息瓶頸理論(Information Bottleneck),這一理論提供了一個(gè)優(yōu)雅的框架來(lái)平衡信息壓縮和保留。就像是一個(gè)旅行者需要在有限的行李箱中盡可能高效地打包行李,只帶上真正必需的物品一樣,研究團(tuán)隊(duì)開(kāi)發(fā)了名為ZPressor的輕量級(jí)模塊,它能夠智能地"打包"多視圖輸入的信息,去除冗余但保留關(guān)鍵細(xì)節(jié)。
ZPressor的核心思想非常巧妙。首先,它將輸入視圖分為兩組:錨點(diǎn)視圖(anchor views)和支持視圖(support views)。錨點(diǎn)視圖就像是一群"代表",負(fù)責(zé)存儲(chǔ)和傳遞關(guān)鍵信息,而支持視圖中的信息則被壓縮并融合到這些代表中。為了確保這些"代表"能最大程度地覆蓋場(chǎng)景信息,研究者使用了一種稱(chēng)為最遠(yuǎn)點(diǎn)采樣(farthest point sampling)的技術(shù)來(lái)選擇錨點(diǎn)視圖,就像是在一個(gè)大房間里盡可能均勻地放置幾個(gè)攝像頭,以獲得最全面的覆蓋。
研究團(tuán)隊(duì)在DL3DV-10K和RealEstate10K兩個(gè)大型基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果令人振奮。他們將ZPressor集成到多個(gè)現(xiàn)有的前饋式3DGS模型中,包括pixelSplat、MVSplat和DepthSplat。在所有測(cè)試中,添加了ZPressor的模型不僅在中等數(shù)量的輸入視圖(如12個(gè)視圖)下表現(xiàn)更好,而且在處理密集輸入視圖(如36個(gè)視圖)時(shí)仍能保持良好的性能和計(jì)算效率,而原始模型在這種情況下通常會(huì)出現(xiàn)顯著的性能下降或內(nèi)存溢出。例如,在36個(gè)輸入視圖的情況下,添加了ZPressor的DepthSplat比原始模型在PSNR上提高了4.65dB,同時(shí)將推理時(shí)間減少了約70%,內(nèi)存使用減少了約80%。
一、ZPressor的核心原理:信息瓶頸視角下的解決方案
想象一下信息瓶頸理論就像是精簡(jiǎn)行李的藝術(shù)。當(dāng)你要長(zhǎng)途旅行時(shí),你不可能帶上家里的所有物品,而是需要精心挑選真正必需的東西。信息瓶頸理論也是如此,它要求我們從原始數(shù)據(jù)中提取出一個(gè)壓縮表示,這個(gè)表示既要盡可能?。ㄏ袷且粋€(gè)小巧的行李箱),又要包含完成任務(wù)所需的全部關(guān)鍵信息(像是旅行中真正需要的物品)。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的前饋式3DGS模型之所以在處理大量輸入視圖時(shí)表現(xiàn)不佳,根本原因在于它們的編碼器能力有限。這些編碼器就像是容量固定的容器,當(dāng)?shù)谷胩嘈畔r(shí),它們要么溢出(內(nèi)存不足),要么無(wú)法有效處理(性能下降)。尤其是在像素對(duì)齊的設(shè)計(jì)中,3D高斯基元的數(shù)量會(huì)隨著輸入視圖的增加而線(xiàn)性增長(zhǎng),導(dǎo)致計(jì)算資源需求急劇上升。
ZPressor通過(guò)實(shí)現(xiàn)信息瓶頸原理解決了這個(gè)問(wèn)題。從數(shù)學(xué)角度看,信息瓶頸目標(biāo)是最小化以下得分:
IB分?jǐn)?shù) = β × I(X, Z) - I(Z, Y)
這個(gè)公式中,I(X, Z)是壓縮得分,表示壓縮表示Z保留了多少輸入X的信息;I(Z, Y)是預(yù)測(cè)得分,表示Z對(duì)于預(yù)測(cè)目標(biāo)Y有多大幫助;β是平衡這兩個(gè)目標(biāo)的參數(shù)。
簡(jiǎn)單來(lái)說(shuō),壓縮得分就像是"行李箱輕量化"的目標(biāo),我們希望它盡可能小;而預(yù)測(cè)得分則是"帶夠必需品"的目標(biāo),我們希望它盡可能大。ZPressor正是通過(guò)平衡這兩個(gè)看似矛盾的目標(biāo),實(shí)現(xiàn)了對(duì)多視圖輸入的高效壓縮。
二、ZPressor的技術(shù)設(shè)計(jì):優(yōu)雅簡(jiǎn)潔的三步法
ZPressor的設(shè)計(jì)非常優(yōu)雅,可以概括為三個(gè)主要步驟,就像是一場(chǎng)精心編排的舞蹈。
首先是錨點(diǎn)視圖選擇。想象你需要在一個(gè)大房間里放置幾個(gè)攝像頭,以盡可能捕捉房間的全貌。你會(huì)如何放置這些攝像頭?自然是盡量均勻分布,互相之間保持適當(dāng)距離。ZPressor采用的最遠(yuǎn)點(diǎn)采樣(FPS)算法正是基于這種直覺(jué)。它首先隨機(jī)選擇一個(gè)視圖作為第一個(gè)錨點(diǎn),然后迭代地選擇與現(xiàn)有錨點(diǎn)集合距離最遠(yuǎn)的視圖作為新的錨點(diǎn),直到選滿(mǎn)預(yù)定數(shù)量。這樣,選出的錨點(diǎn)視圖能夠最大程度地覆蓋整個(gè)場(chǎng)景信息。
第二步是支持視圖分配。每個(gè)非錨點(diǎn)視圖(即支持視圖)被分配給與其攝像機(jī)位置最近的錨點(diǎn)視圖。這就像是選舉制度中的選區(qū)劃分,每個(gè)公民(支持視圖)被分配到最近的投票站(錨點(diǎn)視圖)。這種分配方式確保了支持視圖中的信息能夠與最相關(guān)的錨點(diǎn)視圖融合,從而保持場(chǎng)景的局部一致性。
第三步,也是最關(guān)鍵的一步,是視圖信息融合。這一步使用了交叉注意力(cross-attention)機(jī)制,將支持視圖的信息壓縮并融合到對(duì)應(yīng)的錨點(diǎn)視圖中。具體來(lái)說(shuō),錨點(diǎn)視圖的特征作為查詢(xún)(queries),而支持視圖的特征提供鍵(keys)和值(values)。這種設(shè)計(jì)使得錨點(diǎn)視圖能夠有選擇地吸收支持視圖中的補(bǔ)充信息,同時(shí)避免信息冗余。
整個(gè)過(guò)程就像是一個(gè)高效的信息提煉系統(tǒng)。錨點(diǎn)視圖就像是信息的"容器",而支持視圖則是信息的"源泉"。通過(guò)交叉注意力機(jī)制,系統(tǒng)從支持視圖中提取出最有價(jià)值的信息,并將其融合到錨點(diǎn)視圖中,形成一個(gè)緊湊但信息豐富的表示。
為了進(jìn)一步增強(qiáng)信息流動(dòng),研究團(tuán)隊(duì)還添加了自注意力層,并將多個(gè)包含交叉注意力和自注意力的模塊堆疊起來(lái)。這些設(shè)計(jì)使得ZPressor能夠更有效地壓縮和融合多視圖信息,從而大大提高了前饋式3DGS模型的可擴(kuò)展性。
三、實(shí)驗(yàn)驗(yàn)證:令人信服的性能提升
研究團(tuán)隊(duì)在兩個(gè)大型基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn):DL3DV-10K和RealEstate10K。DL3DV-10K是一個(gè)具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集,包含來(lái)自10,510個(gè)真實(shí)場(chǎng)景的5130萬(wàn)幀;RealEstate10K則是一個(gè)包含約10萬(wàn)個(gè)視頻片段的大型數(shù)據(jù)集,這些片段來(lái)自YouTube上的房屋參觀(guān)視頻。
實(shí)驗(yàn)設(shè)計(jì)非常全面。研究團(tuán)隊(duì)將ZPressor集成到三個(gè)代表性的前饋式3DGS模型中:DepthSplat、MVSplat和pixelSplat。他們使用12個(gè)輸入視圖(其中6個(gè)作為錨點(diǎn)視圖)訓(xùn)練模型,然后在不同數(shù)量的輸入視圖(從8個(gè)到36個(gè))上進(jìn)行評(píng)估。
結(jié)果令人印象深刻。在所有情況下,集成了ZPressor的模型都顯著優(yōu)于原始模型。特別是在處理大量輸入視圖時(shí),性能差距更為明顯。例如,在DL3DV數(shù)據(jù)集上,當(dāng)使用36個(gè)輸入視圖時(shí),添加了ZPressor的DepthSplat比原始模型在PSNR(峰值信噪比,衡量圖像質(zhì)量的指標(biāo))上提高了4.65dB,這是一個(gè)相當(dāng)顯著的提升。
更令人驚訝的是,原始的pixelSplat模型在處理超過(guò)8個(gè)輸入視圖時(shí)就會(huì)遇到內(nèi)存不足(OOM)的問(wèn)題,而添加了ZPressor的版本能夠輕松處理多達(dá)36個(gè)輸入視圖,并且表現(xiàn)優(yōu)異。這清楚地展示了ZPressor在提高模型可擴(kuò)展性方面的巨大潛力。
除了圖像質(zhì)量指標(biāo)外,研究團(tuán)隊(duì)還評(píng)估了模型的效率。結(jié)果顯示,添加ZPressor不僅提高了渲染質(zhì)量,還大幅降低了計(jì)算成本。例如,在處理36個(gè)輸入視圖時(shí),添加了ZPressor的DepthSplat比原始模型的推理時(shí)間減少了約70%,內(nèi)存使用減少了約80%。這種效率提升對(duì)于實(shí)際應(yīng)用至關(guān)重要,尤其是在資源受限的設(shè)備上。
視覺(jué)比較結(jié)果更加直觀(guān)地展示了ZPressor的效果。在36個(gè)輸入視圖的情況下,原始DepthSplat和MVSplat模型產(chǎn)生的渲染結(jié)果中存在明顯的偽影和噪點(diǎn),而它們的ZPressor增強(qiáng)版本則產(chǎn)生了顯著更清晰、更真實(shí)的渲染結(jié)果。這些視覺(jué)比較結(jié)果直觀(guān)地證明了ZPressor在提高渲染質(zhì)量方面的顯著效果。
四、深入分析:揭示ZPressor的工作機(jī)制
為了更深入地理解ZPressor的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了一系列細(xì)致的分析實(shí)驗(yàn)。
首先,他們分析了瓶頸約束(即錨點(diǎn)視圖的數(shù)量)在不同信息內(nèi)容的場(chǎng)景中的影響。研究團(tuán)隊(duì)使用幀距作為場(chǎng)景覆蓋范圍和信息內(nèi)容的代理,比較了幀距為50(CG50)和幀距為100(CG100)兩種設(shè)置下的性能。結(jié)果顯示,在CG50設(shè)置下,將錨點(diǎn)視圖從7個(gè)增加到9個(gè)會(huì)導(dǎo)致性能下降,這表明7個(gè)聚類(lèi)已經(jīng)足夠,額外的聚類(lèi)會(huì)引入冗余。而在CG100設(shè)置下,增加錨點(diǎn)視圖反而提高了性能,這表明信息內(nèi)容更豐富的場(chǎng)景需要更高的信息瓶頸。這一發(fā)現(xiàn)證實(shí)了ZPressor確實(shí)是根據(jù)信息瓶頸原理工作的。
其次,研究團(tuán)隊(duì)分析了信息融合策略的重要性。他們比較了三種設(shè)置:默認(rèn)設(shè)置(將支持視圖融合到錨點(diǎn)視圖中)、不進(jìn)行融合(w/o fusion)、以及融合重復(fù)的錨點(diǎn)視圖而非支持視圖(fuse anchors)。結(jié)果顯示,去掉信息融合步驟會(huì)導(dǎo)致性能顯著下降,而融合重復(fù)的錨點(diǎn)視圖效果不如默認(rèn)設(shè)置。這證明了ZPressor的關(guān)鍵在于從支持視圖中提取補(bǔ)充信息并將其融合到錨點(diǎn)視圖中。
最后,研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了ZPressor各組件的作用。結(jié)果顯示,移除多塊堆疊設(shè)計(jì)或自注意力層都會(huì)導(dǎo)致性能輕微下降,證明這些組件確實(shí)有助于增強(qiáng)信息融合效果。然而,即使是最簡(jiǎn)化的ZPressor變體也顯著優(yōu)于基線(xiàn)模型,這進(jìn)一步證明了信息瓶頸是前饋式3DGS模型的關(guān)鍵限制因素,而ZPressor有效地解決了這一問(wèn)題。
五、跨數(shù)據(jù)集泛化能力與實(shí)際應(yīng)用前景
除了主要實(shí)驗(yàn)外,研究團(tuán)隊(duì)還評(píng)估了ZPressor的跨數(shù)據(jù)集泛化能力。他們使用在RealEstate10K上預(yù)訓(xùn)練的模型在ACID數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果顯示添加了ZPressor的模型表現(xiàn)出色,尤其是在輸入視圖數(shù)量增加時(shí),性能優(yōu)勢(shì)更加明顯。這證明了ZPressor不僅在原訓(xùn)練數(shù)據(jù)集上有效,還能在新的、未見(jiàn)過(guò)的場(chǎng)景中保持其優(yōu)勢(shì)。
從實(shí)際應(yīng)用角度看,ZPressor為前饋式3DGS技術(shù)開(kāi)辟了新的可能性。以前,這些模型在處理大量輸入視圖時(shí)會(huì)遇到嚴(yán)重的性能和內(nèi)存限制,這大大限制了它們?cè)趶?fù)雜場(chǎng)景重建中的應(yīng)用。而有了ZPressor,這些模型現(xiàn)在能夠在80GB的GPU上處理480P分辨率下的100多個(gè)輸入視圖,這意味著它們可以應(yīng)用于更廣泛的實(shí)際場(chǎng)景,如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和3D內(nèi)容創(chuàng)建。
當(dāng)然,ZPressor也有其局限性。正如研究團(tuán)隊(duì)在論文中指出的,在極端密集的視圖設(shè)置下(如1000個(gè)輸入視圖),即使ZPressor也只能將其壓縮到約50個(gè)視圖,以保持信息緊湊性。而處理50個(gè)視圖的3D高斯仍然對(duì)典型GPU提出了相當(dāng)大的計(jì)算挑戰(zhàn)。未來(lái)的工作可能需要探索將ZPressor與3D高斯合并或內(nèi)存高效渲染相結(jié)合,以進(jìn)一步擴(kuò)展前饋式3DGS處理極端密集輸入視圖的能力。
六、結(jié)論與未來(lái)展望
這項(xiàng)研究的意義遠(yuǎn)超過(guò)技術(shù)本身。它不僅提供了一個(gè)實(shí)用的解決方案來(lái)提高前饋式3DGS模型的可擴(kuò)展性,還為理解和解決深度學(xué)習(xí)中的信息瓶頸問(wèn)題提供了新的視角。通過(guò)將信息瓶頸理論應(yīng)用于3D場(chǎng)景重建,研究團(tuán)隊(duì)展示了如何在保持高性能的同時(shí)實(shí)現(xiàn)有效的信息壓縮。
對(duì)于普通用戶(hù)來(lái)說(shuō),這項(xiàng)技術(shù)的進(jìn)步意味著更高質(zhì)量、更高效的3D內(nèi)容創(chuàng)建和渲染。想象一下,你可以使用智能手機(jī)拍攝家中或戶(hù)外場(chǎng)景的多張照片,然后一個(gè)增強(qiáng)了ZPressor的前饋式3DGS系統(tǒng)能夠迅速將這些照片轉(zhuǎn)化為高質(zhì)量的3D模型,可以在虛擬現(xiàn)實(shí)中探索,或者用于家居設(shè)計(jì)、房地產(chǎn)展示等應(yīng)用。這種技術(shù)可以使3D內(nèi)容創(chuàng)建變得更加普及和民主化,不再需要專(zhuān)業(yè)的設(shè)備和技能。
從研究角度看,ZPressor為解決深度學(xué)習(xí)中的信息瓶頸問(wèn)題提供了一個(gè)成功案例。這種方法可能被應(yīng)用到其他領(lǐng)域,如自然語(yǔ)言處理、多模態(tài)學(xué)習(xí)等,以提高模型的效率和可擴(kuò)展性。
未來(lái),研究團(tuán)隊(duì)可能會(huì)探索如何進(jìn)一步提高ZPressor的效率,例如通過(guò)更先進(jìn)的視圖選擇策略或更高效的信息融合機(jī)制。他們也可能?chē)L試將ZPressor與其他技術(shù)相結(jié)合,如神經(jīng)輻射場(chǎng)(NeRF)或輕量級(jí)3D表示,以開(kāi)發(fā)更強(qiáng)大、更通用的3D場(chǎng)景重建系統(tǒng)。
總而言之,ZPressor代表了3D場(chǎng)景重建領(lǐng)域的一個(gè)重要進(jìn)步。通過(guò)創(chuàng)新性地應(yīng)用信息瓶頸理論,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)簡(jiǎn)單而有效的解決方案,大大提高了前饋式3DGS模型的可擴(kuò)展性和效率。這項(xiàng)工作不僅推動(dòng)了學(xué)術(shù)研究的前沿,還為實(shí)際應(yīng)用提供了新的可能性,讓高質(zhì)量的3D內(nèi)容創(chuàng)建和渲染變得更加可行和普及。
對(duì)于那些對(duì)這項(xiàng)研究感興趣的讀者,可以通過(guò)項(xiàng)目頁(yè)面https://lhmd.top/zpressor獲取更多信息,包括視頻結(jié)果、代碼和訓(xùn)練好的模型。研究團(tuán)隊(duì)的開(kāi)源精神值得贊賞,這將有助于更廣泛的研究社區(qū)建立在這一重要工作的基礎(chǔ)上,進(jìn)一步推動(dòng)3D視覺(jué)領(lǐng)域的發(fā)展。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。