這項由香港科技大學(xué)計算機科學(xué)與工程系的王子鵬和徐丹教授領(lǐng)導(dǎo)的研究發(fā)表于2025年的神經(jīng)信息處理系統(tǒng)會議(NeurIPS 2025),有興趣深入了解的讀者可以通過論文編號arXiv:2509.17083v2查詢完整論文。
想象一下,你正在用手機觀看一部精彩的3D電影,畫面既清晰逼真又流暢無卡頓,同時手機內(nèi)存占用卻只有原來的二十分之一。這聽起來像科幻小說的情節(jié),但香港科技大學(xué)的研究團(tuán)隊卻讓這個看似不可能的事情變成了現(xiàn)實。他們開發(fā)出一種名為"混合輻射場"(HyRF)的革命性技術(shù),成功解決了3D圖像渲染領(lǐng)域一個長期存在的難題:如何在保證畫質(zhì)的同時大幅減少內(nèi)存占用。
在我們深入了解這項技術(shù)之前,讓我們先理解一下當(dāng)前3D渲染技術(shù)面臨的挑戰(zhàn)。目前最主流的3D渲染技術(shù)叫做"3D高斯濺射",你可以把它想象成用無數(shù)個發(fā)光的小球來構(gòu)建一個3D場景。每個小球都需要記錄大量的信息,包括它的位置、顏色、大小、旋轉(zhuǎn)角度等等,總共需要59個參數(shù)。這就像給每個小球都配備了一本厚厚的說明書,雖然能夠制作出非常精美的3D畫面,但代價是占用了大量的存儲空間。
研究團(tuán)隊發(fā)現(xiàn)了一個巧妙的解決方案。他們意識到,就像拍攝一張照片時,遠(yuǎn)處的山峰不需要和近處的花朵一樣清晰的細(xì)節(jié)一樣,3D場景中的不同元素也可以用不同精度的方法來處理。于是他們創(chuàng)造了一種"雙重身份"的渲染系統(tǒng),讓每個3D元素既有簡化的基本信息,又能通過神經(jīng)網(wǎng)絡(luò)智能補充復(fù)雜的細(xì)節(jié)。
這種方法的核心理念可以用搭積木來比喻。傳統(tǒng)的方法就像給每塊積木都刻上復(fù)雜的花紋和圖案,雖然精美但制作成本很高。而研究團(tuán)隊的新方法則是先用簡單的積木搭建基本框架,然后用一支神奇的畫筆(神經(jīng)網(wǎng)絡(luò))在需要的地方添加精美的裝飾。這樣既保證了最終作品的美觀,又大大降低了制作成本。
一、神經(jīng)網(wǎng)絡(luò)和3D渲染的完美結(jié)合
要理解這項技術(shù)的革命性意義,我們需要先了解目前3D渲染技術(shù)的兩個主要流派。第一種是基于神經(jīng)網(wǎng)絡(luò)的方法,就像有一位極其聰明的畫家,只需要很少的信息就能畫出栩栩如生的3D場景,但這位畫家工作速度比較慢。第二種是基于3D高斯濺射的方法,就像有一群工作效率極高的工人,能夠快速構(gòu)建3D場景,但他們需要大量的材料和工具。
研究團(tuán)隊的突破在于讓這兩種方法優(yōu)勢互補。他們創(chuàng)建了一個混合系統(tǒng),既保留了神經(jīng)網(wǎng)絡(luò)的智能和存儲效率,又保持了3D高斯濺射的渲染速度。這就像讓那位聰明的畫家和高效的工人團(tuán)隊合作:工人負(fù)責(zé)快速搭建基本框架,畫家負(fù)責(zé)添加精美的細(xì)節(jié)。
在技術(shù)實現(xiàn)上,研究團(tuán)隊做了一個關(guān)鍵的設(shè)計決定:將原本需要59個參數(shù)的3D高斯點簡化為只需要8個參數(shù)的基礎(chǔ)版本。這8個參數(shù)包括3D位置坐標(biāo)、基礎(chǔ)顏色、基本大小和透明度。這就像把一個復(fù)雜的機器人簡化為一個基礎(chǔ)的骨架,然后通過外部的智能系統(tǒng)來控制它的復(fù)雜行為。
與此同時,他們設(shè)計了兩個專門的神經(jīng)網(wǎng)絡(luò)分別處理幾何信息和外觀信息。幾何網(wǎng)絡(luò)負(fù)責(zé)處理物體的形狀、大小和旋轉(zhuǎn)等空間屬性,而外觀網(wǎng)絡(luò)則專門處理顏色和光照效果。這種分工就像讓一個建筑師專門負(fù)責(zé)房屋結(jié)構(gòu)設(shè)計,另一個室內(nèi)設(shè)計師專門負(fù)責(zé)裝修效果,兩者各司其職卻又完美配合。
這種設(shè)計的巧妙之處在于充分利用了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。神經(jīng)網(wǎng)絡(luò)能夠從大量的訓(xùn)練數(shù)據(jù)中學(xué)會如何根據(jù)基礎(chǔ)信息推斷出復(fù)雜的細(xì)節(jié)。比如,當(dāng)它看到一個簡單的紅色球體時,它能夠自動推斷出這個球體在不同光照角度下應(yīng)該呈現(xiàn)什么樣的顏色變化,或者它的邊緣應(yīng)該有怎樣的陰影效果。
二、突破性的雙重神經(jīng)網(wǎng)絡(luò)架構(gòu)
研究團(tuán)隊在設(shè)計過程中遇到了一個重要的技術(shù)挑戰(zhàn):如何讓神經(jīng)網(wǎng)絡(luò)既要處理物體的幾何屬性,又要處理視覺外觀,而這兩類信息的性質(zhì)完全不同。幾何信息相對穩(wěn)定,比如一個杯子的形狀不會因為觀察角度改變而發(fā)生變化。但外觀信息卻高度依賴于觀察角度,同一個杯子從不同角度看會呈現(xiàn)出不同的光澤和反射效果。
傳統(tǒng)的方法是讓一個神經(jīng)網(wǎng)絡(luò)同時處理這兩類信息,但這就像讓一個人同時學(xué)習(xí)數(shù)學(xué)和繪畫,雖然不是不可能,但效果往往不盡如人意。研究團(tuán)隊的解決方案是創(chuàng)建兩個專門的神經(jīng)網(wǎng)絡(luò),就像讓數(shù)學(xué)家專門負(fù)責(zé)幾何計算,藝術(shù)家專門負(fù)責(zé)視覺效果。
幾何網(wǎng)絡(luò)的工作方式可以這樣理解:給定一個3D空間中的點,它需要預(yù)測這個點處的物體應(yīng)該有多大、如何旋轉(zhuǎn)、以及有多透明。這就像有一個建筑工程師,只要你告訴他一個地址,他就能告訴你那里應(yīng)該建什么樣的結(jié)構(gòu)。
外觀網(wǎng)絡(luò)則更加復(fù)雜,它不僅需要知道空間位置,還需要考慮觀察者的視角。這就像有一個攝影師,不僅要知道拍攝對象在哪里,還要考慮光線方向、拍攝角度等因素來決定最終的成像效果。為了實現(xiàn)這一點,研究團(tuán)隊在外觀網(wǎng)絡(luò)的輸入中加入了視線方向信息,讓網(wǎng)絡(luò)能夠根據(jù)不同的觀察角度生成相應(yīng)的顏色效果。
這種分離設(shè)計帶來了顯著的性能提升。當(dāng)兩個網(wǎng)絡(luò)各自專注于自己擅長的領(lǐng)域時,它們都能達(dá)到更高的精度。就像專業(yè)分工能提高生產(chǎn)效率一樣,這種技術(shù)分工也大大提高了3D渲染的質(zhì)量和效率。
更重要的是,這種設(shè)計讓整個系統(tǒng)具有了很強的靈活性。如果將來需要改進(jìn)幾何處理,只需要升級幾何網(wǎng)絡(luò)而不影響外觀網(wǎng)絡(luò);反之亦然。這為技術(shù)的持續(xù)改進(jìn)提供了良好的基礎(chǔ)。
三、智能的混合渲染流程
研究團(tuán)隊不滿足于僅僅改進(jìn)3D對象的表示方法,他們還創(chuàng)新了整個渲染流程,讓計算機能夠更智能地處理3D場景的顯示。這個創(chuàng)新的渲染流程可以分為三個協(xié)同工作的階段,就像一個高效的工廠生產(chǎn)線。
第一個階段叫做"可見性預(yù)篩選",這個過程就像有一個聰明的門衛(wèi)站在相機前面,在處理之前就把那些肯定不會出現(xiàn)在最終畫面中的3D對象給篩掉。比如,當(dāng)你用相機拍攝房間的一角時,房間另一邊的家具是不會出現(xiàn)在畫面中的,所以沒必要為它們浪費計算資源。這個預(yù)篩選過程大大減少了需要處理的數(shù)據(jù)量,就像事先整理好要洗的衣服,能讓洗衣過程更加高效。
第二個階段是核心的混合處理過程。經(jīng)過預(yù)篩選后剩下的3D對象會被送到神經(jīng)網(wǎng)絡(luò)中進(jìn)行"智能升級"。神經(jīng)網(wǎng)絡(luò)會根據(jù)每個簡化3D對象的位置和基礎(chǔ)信息,預(yù)測出它完整的幾何和外觀屬性。這就像有一個經(jīng)驗豐富的化妝師,只需要看到一個人的基本輪廓,就能想象出化妝后的完整效果。然后,這些預(yù)測出的屬性會與存儲的基礎(chǔ)屬性進(jìn)行合并,形成最終用于渲染的完整3D對象信息。
第三個階段是背景渲染的創(chuàng)新處理。研究團(tuán)隊發(fā)現(xiàn),傳統(tǒng)的3D高斯濺射方法在處理遠(yuǎn)距離背景時效果不佳,經(jīng)常出現(xiàn)模糊不清的情況。這就像用傳統(tǒng)相機拍攝遠(yuǎn)山時,山峰總是顯得朦朧不清。為了解決這個問題,他們設(shè)計了一個巧妙的背景處理系統(tǒng)。
這個背景系統(tǒng)的工作原理是構(gòu)建一個虛擬的大球面,將整個場景包圍起來。當(dāng)渲染系統(tǒng)需要顯示背景內(nèi)容時,它會計算從觀察點發(fā)出的視線與這個球面的交點,然后讓神經(jīng)網(wǎng)絡(luò)預(yù)測交點處應(yīng)該顯示的顏色。這就像在房間里掛了一幅360度的環(huán)形畫,無論從哪個角度看,都能看到合適的背景內(nèi)容。
最后,系統(tǒng)會將前景的3D對象和背景圖像進(jìn)行智能合成。這個合成過程使用了專業(yè)的透明度混合技術(shù),確保遠(yuǎn)近物體的層次關(guān)系正確,就像攝影師在后期制作中將不同層的圖像完美融合一樣。
這種三階段的渲染流程不僅提高了最終圖像的質(zhì)量,還顯著提升了渲染速度。通過預(yù)篩選減少了無用計算,通過智能背景處理解決了遠(yuǎn)景模糊問題,通過混合技術(shù)實現(xiàn)了高質(zhì)量的最終合成。整個流程就像一條優(yōu)化過的生產(chǎn)線,每個環(huán)節(jié)都發(fā)揮著重要作用,最終產(chǎn)出高質(zhì)量的3D圖像。
四、令人矚目的實驗結(jié)果
為了驗證這項技術(shù)的有效性,研究團(tuán)隊進(jìn)行了一系列全面而嚴(yán)格的測試。他們選擇了多個不同類型的數(shù)據(jù)集進(jìn)行驗證,這就像讓一個新開發(fā)的汽車在城市道路、高速公路、山區(qū)小徑等各種路況下進(jìn)行測試,以確保其在各種環(huán)境下都能表現(xiàn)出色。
測試涵蓋了25個不同的場景,包括室內(nèi)環(huán)境、戶外風(fēng)景、物體特寫以及大規(guī)模城市場景等。這些場景就像為新技術(shù)設(shè)置的各種"考試題目",每一個都考驗著技術(shù)的不同方面。比如,室內(nèi)場景考驗的是對復(fù)雜光照的處理能力,戶外場景測試的是對遠(yuǎn)景背景的渲染效果,而大規(guī)模城市場景則檢驗的是系統(tǒng)處理大量數(shù)據(jù)時的性能表現(xiàn)。
實驗結(jié)果令人印象深刻。在圖像質(zhì)量方面,新技術(shù)在多個評價指標(biāo)上都達(dá)到了最佳水平。研究團(tuán)隊使用了三個專業(yè)的圖像質(zhì)量評價標(biāo)準(zhǔn):PSNR(衡量圖像清晰度)、SSIM(評估圖像結(jié)構(gòu)相似性)和LPIPS(測量人眼感知差異)。這就像用不同的尺子來測量一件衣服的質(zhì)量,從材質(zhì)、做工、外觀等多個角度進(jìn)行綜合評價。
更令人驚喜的是存儲效率的巨大提升。與傳統(tǒng)的3D高斯濺射方法相比,新技術(shù)將模型大小減少了超過20倍。這意味著原本需要240MB存儲空間的3D場景,現(xiàn)在只需要大約12MB就能實現(xiàn)同樣甚至更好的效果。這種壓縮效果就像把一個裝滿書籍的大書架壓縮成一個小書包,但里面的知識內(nèi)容卻絲毫沒有減少。
在渲染速度方面,新技術(shù)依然保持了實時渲染的能力,平均每秒能夠生成100多幀圖像。這個速度足以支持流暢的實時應(yīng)用,比如虛擬現(xiàn)實游戲或者實時3D視頻通話。這就像有一個既省油又跑得快的汽車,在提高效率的同時完全沒有犧牲性能。
特別值得一提的是,在處理大規(guī)模城市場景時,新技術(shù)的優(yōu)勢更加明顯。傳統(tǒng)方法在處理這類復(fù)雜場景時往往需要占用數(shù)千MB的存儲空間,而且渲染速度也會顯著下降。但新技術(shù)不僅將存儲需求降低到了幾百MB,還保持了良好的渲染速度,這為未來的城市數(shù)字化、自動駕駛等應(yīng)用提供了強有力的技術(shù)支撐。
研究團(tuán)隊還特別測試了技術(shù)的壓縮潛力。他們發(fā)現(xiàn),通過應(yīng)用一些標(biāo)準(zhǔn)的數(shù)據(jù)壓縮技術(shù),模型大小還能進(jìn)一步減少。最終的壓縮版本不僅在存儲效率上超越了現(xiàn)有的所有3D壓縮方法,在圖像質(zhì)量上也保持了領(lǐng)先地位。這就像發(fā)明了一種新的打包方法,不僅能讓行李箱裝下更多東西,打包后的物品還能保持更好的狀態(tài)。
五、技術(shù)創(chuàng)新的深度剖析
為了更好地理解這項技術(shù)的創(chuàng)新之處,研究團(tuán)隊進(jìn)行了詳細(xì)的消融實驗,這就像醫(yī)生為了確診病因而進(jìn)行的各項單獨檢查。他們系統(tǒng)地測試了技術(shù)中每個組件的作用,以確保每一個設(shè)計決定都是必要和有效的。
首先,他們驗證了雙重神經(jīng)網(wǎng)絡(luò)設(shè)計的重要性。通過對比實驗發(fā)現(xiàn),如果使用單一神經(jīng)網(wǎng)絡(luò)同時處理幾何和外觀信息,圖像質(zhì)量會出現(xiàn)明顯下降。這就像讓一個人同時當(dāng)廚師和服務(wù)員,雖然能夠完成工作,但效果遠(yuǎn)不如專業(yè)分工來得好。具體來說,單一網(wǎng)絡(luò)方法會導(dǎo)致3D場景中出現(xiàn)明顯的空洞和不連續(xù)現(xiàn)象,特別是在物體邊緣和紋理復(fù)雜的區(qū)域。
其次,混合渲染中的背景處理模塊也被證明是至關(guān)重要的。當(dāng)研究團(tuán)隊移除背景渲染功能時,遠(yuǎn)景區(qū)域的圖像質(zhì)量出現(xiàn)了顯著下降,特別是天空和遠(yuǎn)山等區(qū)域變得模糊不清。這驗證了他們對傳統(tǒng)3D高斯濺射方法在遠(yuǎn)景處理上存在缺陷的判斷。通過引入智能背景渲染,不僅解決了這個問題,還為整體圖像質(zhì)量帶來了提升。
可見性預(yù)篩選功能的測試結(jié)果同樣令人印象深刻。這個看似簡單的優(yōu)化帶來了近4倍的渲染速度提升,而且完全沒有影響圖像質(zhì)量。這就像在工廠生產(chǎn)線上安裝了一個智能分揀系統(tǒng),大大提高了生產(chǎn)效率卻沒有增加任何成本。
研究團(tuán)隊還特別分析了每個存儲參數(shù)的重要性。他們發(fā)現(xiàn),不同的基礎(chǔ)參數(shù)對最終效果的貢獻(xiàn)是不同的。顏色信息的存儲對于光照變化明顯的場景特別重要,缺少這些信息會導(dǎo)致不自然的顏色變化。尺寸信息則對細(xì)小結(jié)構(gòu)的準(zhǔn)確重建至關(guān)重要,缺少這些信息會導(dǎo)致細(xì)節(jié)丟失。透明度信息雖然看起來不起眼,但對于防止圖像中出現(xiàn)"漂浮物"現(xiàn)象非常重要。
訓(xùn)練效率的分析也帶來了意外的驚喜。研究團(tuán)隊發(fā)現(xiàn),新方法不僅在最終效果上表現(xiàn)出色,在訓(xùn)練過程中也展現(xiàn)出了更好的收斂特性。這意味著達(dá)到相同的訓(xùn)練效果需要更少的時間和計算資源,這為技術(shù)的實際應(yīng)用降低了門檻。
通過這些深入的分析,研究團(tuán)隊不僅驗證了技術(shù)設(shè)計的合理性,還為未來的改進(jìn)指明了方向。每個組件都被證明是不可或缺的,整個系統(tǒng)的設(shè)計呈現(xiàn)出了很強的科學(xué)性和工程實用性。
說到底,這項由香港科技大學(xué)研究團(tuán)隊開發(fā)的混合輻射場技術(shù),成功地在3D渲染領(lǐng)域?qū)崿F(xiàn)了一個看似不可能的平衡:既要畫質(zhì)好,又要占用少,還要速度快。他們通過巧妙的設(shè)計,讓神經(jīng)網(wǎng)絡(luò)的智能和3D高斯濺射的效率完美結(jié)合,就像讓聰明的大腦和靈巧的雙手協(xié)同工作一樣。
這項技術(shù)的意義遠(yuǎn)不止于技術(shù)本身的突破。它為我們展示了一種全新的思路:面對看似矛盾的需求時,我們不必在其中做出艱難的選擇,而是可以通過創(chuàng)新的方法讓看似對立的優(yōu)勢和諧共存。這種思維方式不僅適用于技術(shù)研究,在很多生活和工作場景中都能給我們啟發(fā)。
從實際應(yīng)用的角度來看,這項技術(shù)將為虛擬現(xiàn)實、游戲開發(fā)、電影制作、建筑設(shè)計等眾多領(lǐng)域帶來革命性的改變。我們可能很快就能在普通的手機或平板電腦上體驗到前所未有的高質(zhì)量3D內(nèi)容,而不用擔(dān)心設(shè)備性能不夠或存儲空間不足的問題。對于內(nèi)容創(chuàng)作者來說,這意味著他們可以用更少的資源創(chuàng)作出更精美的3D作品,讓創(chuàng)意的表達(dá)不再受到技術(shù)條件的限制。
這項研究也為我們思考未來的數(shù)字世界提供了新的可能性。當(dāng)3D內(nèi)容的創(chuàng)建和分享變得如此高效時,我們的數(shù)字生活方式可能會發(fā)生根本性的變化。也許不久的將來,3D內(nèi)容就會像今天的照片和視頻一樣普及,成為我們?nèi)粘=涣骱捅磉_(dá)的重要方式。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過論文編號arXiv:2509.17083v2查詢這篇發(fā)表在NeurIPS 2025會議上的完整研究論文。
Q&A
Q1:混合輻射場技術(shù)(HyRF)是什么?它解決了什么問題?
A:混合輻射場是香港科技大學(xué)開發(fā)的3D渲染技術(shù),它巧妙地結(jié)合了神經(jīng)網(wǎng)絡(luò)和3D高斯濺射的優(yōu)勢。主要解決了傳統(tǒng)3D渲染中的內(nèi)存占用過大問題,能夠?qū)⒛P痛笮p少20倍以上,同時保持高質(zhì)量的圖像效果和實時渲染速度。
Q2:這項技術(shù)相比傳統(tǒng)3D高斯濺射方法有什么優(yōu)勢?
A:傳統(tǒng)3D高斯濺射需要為每個3D點存儲59個參數(shù),占用大量內(nèi)存?;旌陷椛鋱黾夹g(shù)將這個數(shù)字減少到8個基礎(chǔ)參數(shù),其余信息通過神經(jīng)網(wǎng)絡(luò)智能預(yù)測。這樣既大幅降低了存儲需求,又通過專門的背景渲染解決了遠(yuǎn)景模糊問題,整體效果更好。
Q3:普通用戶什么時候能用上這項技術(shù)?
A:這項技術(shù)已經(jīng)在學(xué)術(shù)界發(fā)表并公開了詳細(xì)方案,為實際應(yīng)用奠定了基礎(chǔ)??紤]到其顯著的性能優(yōu)勢和實用價值,預(yù)計很快就會被集成到游戲引擎、3D建模軟件、虛擬現(xiàn)實設(shè)備等產(chǎn)品中,普通用戶可能在未來幾年內(nèi)就能體驗到相關(guān)應(yīng)用。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。