近日,由浙江大學(xué)ZIP實(shí)驗(yàn)室的王威杰、ByteDance Seed的陳俊宇以及莫納什大學(xué)的張澤宇等研究者共同發(fā)表的論文《ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS》在arXiv上引起廣泛關(guān)注(arXiv:2505.23734v1,2025年5月29日)。這項(xiàng)研究為當(dāng)前3D場(chǎng)景渲染技術(shù)提供了一個(gè)突破性的解決方案,使得前饋式3D高斯渲染(Feed-forward 3DGS)能夠處理更多的輸入視圖,同時(shí)保持高效率和高質(zhì)量的渲染效果。
想象一下,你正在嘗試通過多張照片重建一個(gè)完整的3D場(chǎng)景,比如你家的客廳或花園。傳統(tǒng)的3D高斯渲染技術(shù)就像是一個(gè)手工藝人,需要花費(fèi)大量時(shí)間逐步調(diào)整,直到完美重現(xiàn)場(chǎng)景。而前饋式3DGS則像是一位經(jīng)驗(yàn)豐富的魔術(shù)師,只需一揮魔杖(一次前向傳遞),就能將這些照片轉(zhuǎn)化為生動(dòng)的3D場(chǎng)景。然而,這位魔術(shù)師有一個(gè)限制——他的"魔法帽"(編碼器)容量有限,當(dāng)輸入的照片過多時(shí),他要么表現(xiàn)欠佳,要么需要消耗過多的內(nèi)存資源。
這正是研究團(tuán)隊(duì)要解決的核心問題。他們將目光投向了信息瓶頸理論(Information Bottleneck),這一理論提供了一個(gè)優(yōu)雅的框架來平衡信息壓縮和保留。就像是一個(gè)旅行者需要在有限的行李箱中盡可能高效地打包行李,只帶上真正必需的物品一樣,研究團(tuán)隊(duì)開發(fā)了名為ZPressor的輕量級(jí)模塊,它能夠智能地"打包"多視圖輸入的信息,去除冗余但保留關(guān)鍵細(xì)節(jié)。
ZPressor的核心思想非常巧妙。首先,它將輸入視圖分為兩組:錨點(diǎn)視圖(anchor views)和支持視圖(support views)。錨點(diǎn)視圖就像是一群"代表",負(fù)責(zé)存儲(chǔ)和傳遞關(guān)鍵信息,而支持視圖中的信息則被壓縮并融合到這些代表中。為了確保這些"代表"能最大程度地覆蓋場(chǎng)景信息,研究者使用了一種稱為最遠(yuǎn)點(diǎn)采樣(farthest point sampling)的技術(shù)來選擇錨點(diǎn)視圖,就像是在一個(gè)大房間里盡可能均勻地放置幾個(gè)攝像頭,以獲得最全面的覆蓋。
研究團(tuán)隊(duì)在DL3DV-10K和RealEstate10K兩個(gè)大型基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果令人振奮。他們將ZPressor集成到多個(gè)現(xiàn)有的前饋式3DGS模型中,包括pixelSplat、MVSplat和DepthSplat。在所有測(cè)試中,添加了ZPressor的模型不僅在中等數(shù)量的輸入視圖(如12個(gè)視圖)下表現(xiàn)更好,而且在處理密集輸入視圖(如36個(gè)視圖)時(shí)仍能保持良好的性能和計(jì)算效率,而原始模型在這種情況下通常會(huì)出現(xiàn)顯著的性能下降或內(nèi)存溢出。例如,在36個(gè)輸入視圖的情況下,添加了ZPressor的DepthSplat比原始模型在PSNR上提高了4.65dB,同時(shí)將推理時(shí)間減少了約70%,內(nèi)存使用減少了約80%。
一、ZPressor的核心原理:信息瓶頸視角下的解決方案
想象一下信息瓶頸理論就像是精簡(jiǎn)行李的藝術(shù)。當(dāng)你要長(zhǎng)途旅行時(shí),你不可能帶上家里的所有物品,而是需要精心挑選真正必需的東西。信息瓶頸理論也是如此,它要求我們從原始數(shù)據(jù)中提取出一個(gè)壓縮表示,這個(gè)表示既要盡可能小(像是一個(gè)小巧的行李箱),又要包含完成任務(wù)所需的全部關(guān)鍵信息(像是旅行中真正需要的物品)。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的前饋式3DGS模型之所以在處理大量輸入視圖時(shí)表現(xiàn)不佳,根本原因在于它們的編碼器能力有限。這些編碼器就像是容量固定的容器,當(dāng)?shù)谷胩嘈畔r(shí),它們要么溢出(內(nèi)存不足),要么無法有效處理(性能下降)。尤其是在像素對(duì)齊的設(shè)計(jì)中,3D高斯基元的數(shù)量會(huì)隨著輸入視圖的增加而線性增長(zhǎng),導(dǎo)致計(jì)算資源需求急劇上升。
ZPressor通過實(shí)現(xiàn)信息瓶頸原理解決了這個(gè)問題。從數(shù)學(xué)角度看,信息瓶頸目標(biāo)是最小化以下得分:
IB分?jǐn)?shù) = β × I(X, Z) - I(Z, Y)
這個(gè)公式中,I(X, Z)是壓縮得分,表示壓縮表示Z保留了多少輸入X的信息;I(Z, Y)是預(yù)測(cè)得分,表示Z對(duì)于預(yù)測(cè)目標(biāo)Y有多大幫助;β是平衡這兩個(gè)目標(biāo)的參數(shù)。
簡(jiǎn)單來說,壓縮得分就像是"行李箱輕量化"的目標(biāo),我們希望它盡可能??;而預(yù)測(cè)得分則是"帶夠必需品"的目標(biāo),我們希望它盡可能大。ZPressor正是通過平衡這兩個(gè)看似矛盾的目標(biāo),實(shí)現(xiàn)了對(duì)多視圖輸入的高效壓縮。
二、ZPressor的技術(shù)設(shè)計(jì):優(yōu)雅簡(jiǎn)潔的三步法
ZPressor的設(shè)計(jì)非常優(yōu)雅,可以概括為三個(gè)主要步驟,就像是一場(chǎng)精心編排的舞蹈。
首先是錨點(diǎn)視圖選擇。想象你需要在一個(gè)大房間里放置幾個(gè)攝像頭,以盡可能捕捉房間的全貌。你會(huì)如何放置這些攝像頭?自然是盡量均勻分布,互相之間保持適當(dāng)距離。ZPressor采用的最遠(yuǎn)點(diǎn)采樣(FPS)算法正是基于這種直覺。它首先隨機(jī)選擇一個(gè)視圖作為第一個(gè)錨點(diǎn),然后迭代地選擇與現(xiàn)有錨點(diǎn)集合距離最遠(yuǎn)的視圖作為新的錨點(diǎn),直到選滿預(yù)定數(shù)量。這樣,選出的錨點(diǎn)視圖能夠最大程度地覆蓋整個(gè)場(chǎng)景信息。
第二步是支持視圖分配。每個(gè)非錨點(diǎn)視圖(即支持視圖)被分配給與其攝像機(jī)位置最近的錨點(diǎn)視圖。這就像是選舉制度中的選區(qū)劃分,每個(gè)公民(支持視圖)被分配到最近的投票站(錨點(diǎn)視圖)。這種分配方式確保了支持視圖中的信息能夠與最相關(guān)的錨點(diǎn)視圖融合,從而保持場(chǎng)景的局部一致性。
第三步,也是最關(guān)鍵的一步,是視圖信息融合。這一步使用了交叉注意力(cross-attention)機(jī)制,將支持視圖的信息壓縮并融合到對(duì)應(yīng)的錨點(diǎn)視圖中。具體來說,錨點(diǎn)視圖的特征作為查詢(queries),而支持視圖的特征提供鍵(keys)和值(values)。這種設(shè)計(jì)使得錨點(diǎn)視圖能夠有選擇地吸收支持視圖中的補(bǔ)充信息,同時(shí)避免信息冗余。
整個(gè)過程就像是一個(gè)高效的信息提煉系統(tǒng)。錨點(diǎn)視圖就像是信息的"容器",而支持視圖則是信息的"源泉"。通過交叉注意力機(jī)制,系統(tǒng)從支持視圖中提取出最有價(jià)值的信息,并將其融合到錨點(diǎn)視圖中,形成一個(gè)緊湊但信息豐富的表示。
為了進(jìn)一步增強(qiáng)信息流動(dòng),研究團(tuán)隊(duì)還添加了自注意力層,并將多個(gè)包含交叉注意力和自注意力的模塊堆疊起來。這些設(shè)計(jì)使得ZPressor能夠更有效地壓縮和融合多視圖信息,從而大大提高了前饋式3DGS模型的可擴(kuò)展性。
三、實(shí)驗(yàn)驗(yàn)證:令人信服的性能提升
研究團(tuán)隊(duì)在兩個(gè)大型基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn):DL3DV-10K和RealEstate10K。DL3DV-10K是一個(gè)具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集,包含來自10,510個(gè)真實(shí)場(chǎng)景的5130萬幀;RealEstate10K則是一個(gè)包含約10萬個(gè)視頻片段的大型數(shù)據(jù)集,這些片段來自YouTube上的房屋參觀視頻。
實(shí)驗(yàn)設(shè)計(jì)非常全面。研究團(tuán)隊(duì)將ZPressor集成到三個(gè)代表性的前饋式3DGS模型中:DepthSplat、MVSplat和pixelSplat。他們使用12個(gè)輸入視圖(其中6個(gè)作為錨點(diǎn)視圖)訓(xùn)練模型,然后在不同數(shù)量的輸入視圖(從8個(gè)到36個(gè))上進(jìn)行評(píng)估。
結(jié)果令人印象深刻。在所有情況下,集成了ZPressor的模型都顯著優(yōu)于原始模型。特別是在處理大量輸入視圖時(shí),性能差距更為明顯。例如,在DL3DV數(shù)據(jù)集上,當(dāng)使用36個(gè)輸入視圖時(shí),添加了ZPressor的DepthSplat比原始模型在PSNR(峰值信噪比,衡量圖像質(zhì)量的指標(biāo))上提高了4.65dB,這是一個(gè)相當(dāng)顯著的提升。
更令人驚訝的是,原始的pixelSplat模型在處理超過8個(gè)輸入視圖時(shí)就會(huì)遇到內(nèi)存不足(OOM)的問題,而添加了ZPressor的版本能夠輕松處理多達(dá)36個(gè)輸入視圖,并且表現(xiàn)優(yōu)異。這清楚地展示了ZPressor在提高模型可擴(kuò)展性方面的巨大潛力。
除了圖像質(zhì)量指標(biāo)外,研究團(tuán)隊(duì)還評(píng)估了模型的效率。結(jié)果顯示,添加ZPressor不僅提高了渲染質(zhì)量,還大幅降低了計(jì)算成本。例如,在處理36個(gè)輸入視圖時(shí),添加了ZPressor的DepthSplat比原始模型的推理時(shí)間減少了約70%,內(nèi)存使用減少了約80%。這種效率提升對(duì)于實(shí)際應(yīng)用至關(guān)重要,尤其是在資源受限的設(shè)備上。
視覺比較結(jié)果更加直觀地展示了ZPressor的效果。在36個(gè)輸入視圖的情況下,原始DepthSplat和MVSplat模型產(chǎn)生的渲染結(jié)果中存在明顯的偽影和噪點(diǎn),而它們的ZPressor增強(qiáng)版本則產(chǎn)生了顯著更清晰、更真實(shí)的渲染結(jié)果。這些視覺比較結(jié)果直觀地證明了ZPressor在提高渲染質(zhì)量方面的顯著效果。
四、深入分析:揭示ZPressor的工作機(jī)制
為了更深入地理解ZPressor的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了一系列細(xì)致的分析實(shí)驗(yàn)。
首先,他們分析了瓶頸約束(即錨點(diǎn)視圖的數(shù)量)在不同信息內(nèi)容的場(chǎng)景中的影響。研究團(tuán)隊(duì)使用幀距作為場(chǎng)景覆蓋范圍和信息內(nèi)容的代理,比較了幀距為50(CG50)和幀距為100(CG100)兩種設(shè)置下的性能。結(jié)果顯示,在CG50設(shè)置下,將錨點(diǎn)視圖從7個(gè)增加到9個(gè)會(huì)導(dǎo)致性能下降,這表明7個(gè)聚類已經(jīng)足夠,額外的聚類會(huì)引入冗余。而在CG100設(shè)置下,增加錨點(diǎn)視圖反而提高了性能,這表明信息內(nèi)容更豐富的場(chǎng)景需要更高的信息瓶頸。這一發(fā)現(xiàn)證實(shí)了ZPressor確實(shí)是根據(jù)信息瓶頸原理工作的。
其次,研究團(tuán)隊(duì)分析了信息融合策略的重要性。他們比較了三種設(shè)置:默認(rèn)設(shè)置(將支持視圖融合到錨點(diǎn)視圖中)、不進(jìn)行融合(w/o fusion)、以及融合重復(fù)的錨點(diǎn)視圖而非支持視圖(fuse anchors)。結(jié)果顯示,去掉信息融合步驟會(huì)導(dǎo)致性能顯著下降,而融合重復(fù)的錨點(diǎn)視圖效果不如默認(rèn)設(shè)置。這證明了ZPressor的關(guān)鍵在于從支持視圖中提取補(bǔ)充信息并將其融合到錨點(diǎn)視圖中。
最后,研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了ZPressor各組件的作用。結(jié)果顯示,移除多塊堆疊設(shè)計(jì)或自注意力層都會(huì)導(dǎo)致性能輕微下降,證明這些組件確實(shí)有助于增強(qiáng)信息融合效果。然而,即使是最簡(jiǎn)化的ZPressor變體也顯著優(yōu)于基線模型,這進(jìn)一步證明了信息瓶頸是前饋式3DGS模型的關(guān)鍵限制因素,而ZPressor有效地解決了這一問題。
五、跨數(shù)據(jù)集泛化能力與實(shí)際應(yīng)用前景
除了主要實(shí)驗(yàn)外,研究團(tuán)隊(duì)還評(píng)估了ZPressor的跨數(shù)據(jù)集泛化能力。他們使用在RealEstate10K上預(yù)訓(xùn)練的模型在ACID數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果顯示添加了ZPressor的模型表現(xiàn)出色,尤其是在輸入視圖數(shù)量增加時(shí),性能優(yōu)勢(shì)更加明顯。這證明了ZPressor不僅在原訓(xùn)練數(shù)據(jù)集上有效,還能在新的、未見過的場(chǎng)景中保持其優(yōu)勢(shì)。
從實(shí)際應(yīng)用角度看,ZPressor為前饋式3DGS技術(shù)開辟了新的可能性。以前,這些模型在處理大量輸入視圖時(shí)會(huì)遇到嚴(yán)重的性能和內(nèi)存限制,這大大限制了它們?cè)趶?fù)雜場(chǎng)景重建中的應(yīng)用。而有了ZPressor,這些模型現(xiàn)在能夠在80GB的GPU上處理480P分辨率下的100多個(gè)輸入視圖,這意味著它們可以應(yīng)用于更廣泛的實(shí)際場(chǎng)景,如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和3D內(nèi)容創(chuàng)建。
當(dāng)然,ZPressor也有其局限性。正如研究團(tuán)隊(duì)在論文中指出的,在極端密集的視圖設(shè)置下(如1000個(gè)輸入視圖),即使ZPressor也只能將其壓縮到約50個(gè)視圖,以保持信息緊湊性。而處理50個(gè)視圖的3D高斯仍然對(duì)典型GPU提出了相當(dāng)大的計(jì)算挑戰(zhàn)。未來的工作可能需要探索將ZPressor與3D高斯合并或內(nèi)存高效渲染相結(jié)合,以進(jìn)一步擴(kuò)展前饋式3DGS處理極端密集輸入視圖的能力。
六、結(jié)論與未來展望
這項(xiàng)研究的意義遠(yuǎn)超過技術(shù)本身。它不僅提供了一個(gè)實(shí)用的解決方案來提高前饋式3DGS模型的可擴(kuò)展性,還為理解和解決深度學(xué)習(xí)中的信息瓶頸問題提供了新的視角。通過將信息瓶頸理論應(yīng)用于3D場(chǎng)景重建,研究團(tuán)隊(duì)展示了如何在保持高性能的同時(shí)實(shí)現(xiàn)有效的信息壓縮。
對(duì)于普通用戶來說,這項(xiàng)技術(shù)的進(jìn)步意味著更高質(zhì)量、更高效的3D內(nèi)容創(chuàng)建和渲染。想象一下,你可以使用智能手機(jī)拍攝家中或戶外場(chǎng)景的多張照片,然后一個(gè)增強(qiáng)了ZPressor的前饋式3DGS系統(tǒng)能夠迅速將這些照片轉(zhuǎn)化為高質(zhì)量的3D模型,可以在虛擬現(xiàn)實(shí)中探索,或者用于家居設(shè)計(jì)、房地產(chǎn)展示等應(yīng)用。這種技術(shù)可以使3D內(nèi)容創(chuàng)建變得更加普及和民主化,不再需要專業(yè)的設(shè)備和技能。
從研究角度看,ZPressor為解決深度學(xué)習(xí)中的信息瓶頸問題提供了一個(gè)成功案例。這種方法可能被應(yīng)用到其他領(lǐng)域,如自然語言處理、多模態(tài)學(xué)習(xí)等,以提高模型的效率和可擴(kuò)展性。
未來,研究團(tuán)隊(duì)可能會(huì)探索如何進(jìn)一步提高ZPressor的效率,例如通過更先進(jìn)的視圖選擇策略或更高效的信息融合機(jī)制。他們也可能嘗試將ZPressor與其他技術(shù)相結(jié)合,如神經(jīng)輻射場(chǎng)(NeRF)或輕量級(jí)3D表示,以開發(fā)更強(qiáng)大、更通用的3D場(chǎng)景重建系統(tǒng)。
總而言之,ZPressor代表了3D場(chǎng)景重建領(lǐng)域的一個(gè)重要進(jìn)步。通過創(chuàng)新性地應(yīng)用信息瓶頸理論,研究團(tuán)隊(duì)開發(fā)了一個(gè)簡(jiǎn)單而有效的解決方案,大大提高了前饋式3DGS模型的可擴(kuò)展性和效率。這項(xiàng)工作不僅推動(dòng)了學(xué)術(shù)研究的前沿,還為實(shí)際應(yīng)用提供了新的可能性,讓高質(zhì)量的3D內(nèi)容創(chuàng)建和渲染變得更加可行和普及。
對(duì)于那些對(duì)這項(xiàng)研究感興趣的讀者,可以通過項(xiàng)目頁面https://lhmd.top/zpressor獲取更多信息,包括視頻結(jié)果、代碼和訓(xùn)練好的模型。研究團(tuán)隊(duì)的開源精神值得贊賞,這將有助于更廣泛的研究社區(qū)建立在這一重要工作的基礎(chǔ)上,進(jìn)一步推動(dòng)3D視覺領(lǐng)域的發(fā)展。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。