av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 RenderFormer:微軟與浙大聯(lián)合開發(fā)的變革性三角網(wǎng)格神經(jīng)渲染技術(shù)

RenderFormer:微軟與浙大聯(lián)合開發(fā)的變革性三角網(wǎng)格神經(jīng)渲染技術(shù)

2025-06-02 16:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-02 16:30 ? 科技行者

在計(jì)算機(jī)圖形學(xué)領(lǐng)域,一項(xiàng)突破性的研究成果于2025年5月由浙江大學(xué)CAD&CG國家重點(diǎn)實(shí)驗(yàn)室和微軟亞洲研究院的聯(lián)合團(tuán)隊(duì)發(fā)布。這篇題為《RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination》的論文將于2025年8月10-14日在溫哥華舉辦的SIGGRAPH 2025會(huì)議上正式發(fā)表,該研究由浙江大學(xué)的曾沖和吳洪智,微軟亞洲研究院的董悅和童欣,以及威廉瑪麗學(xué)院的Pieter Peers共同完成。這項(xiàng)工作代表了渲染技術(shù)的一個(gè)全新方向,首次實(shí)現(xiàn)了無需針對(duì)特定場景進(jìn)行訓(xùn)練或微調(diào)的全局光照神經(jīng)渲染。

一、傳統(tǒng)渲染的革命:從物理模擬到神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換

傳統(tǒng)的計(jì)算機(jī)圖形渲染技術(shù),就像是按照嚴(yán)格的物理法則一步步模擬光線在虛擬場景中的傳播過程。想象一下,如果你要畫一個(gè)玻璃杯中倒映的景象,你需要精確計(jì)算每道光線如何從光源出發(fā),經(jīng)過空氣,穿過玻璃,反射,最終到達(dá)你的眼睛。這個(gè)過程極其復(fù)雜且計(jì)算密集,就像是要跟蹤一個(gè)彈球在復(fù)雜房間中的每一次彈跳軌跡。

而RenderFormer則采用了一種全新的思路:它不再試圖模擬光線的物理傳播過程,而是將渲染問題重新定義為一種序列到序列的轉(zhuǎn)換任務(wù)。這有點(diǎn)像是,與其教計(jì)算機(jī)如何一步步計(jì)算光線反射,不如直接教它"看到這樣的場景,應(yīng)該呈現(xiàn)出什么樣的圖像"。具體來說,RenderFormer將一系列表示三角形及其反射屬性的"令牌"(tokens)轉(zhuǎn)換為表示最終渲染圖像中像素塊的輸出令牌。

傳統(tǒng)渲染方法和神經(jīng)網(wǎng)絡(luò)渲染之間的關(guān)鍵區(qū)別在于,傳統(tǒng)方法需要遞歸地計(jì)算光線的傳播,這就像是解一個(gè)需要不斷引用自身的數(shù)學(xué)方程;而RenderFormer則直接"求解"這個(gè)方程,無需遞歸計(jì)算,也不會(huì)產(chǎn)生蒙特卡洛積分中常見的噪點(diǎn),更不需要如光柵化渲染那樣進(jìn)行復(fù)雜的算法修改。

更重要的是,與現(xiàn)有的針對(duì)合成場景的神經(jīng)渲染方法不同,RenderFormer不需要針對(duì)每個(gè)場景或物體進(jìn)行單獨(dú)訓(xùn)練(圖1中的物體并不在訓(xùn)練集中),這大大提高了其實(shí)用性和靈活性。

二、RenderFormer的雙階段架構(gòu):分而治之的光照計(jì)算

RenderFormer采用了一個(gè)兩階段的架構(gòu),兩個(gè)階段都基于現(xiàn)在非常強(qiáng)大的Transformer模型。這有點(diǎn)像是將復(fù)雜的渲染任務(wù)分給兩個(gè)專家團(tuán)隊(duì):第一個(gè)團(tuán)隊(duì)負(fù)責(zé)計(jì)算場景中所有物體之間的光照關(guān)系,第二個(gè)團(tuán)隊(duì)則負(fù)責(zé)根據(jù)第一個(gè)團(tuán)隊(duì)的結(jié)果,計(jì)算出最終的圖像。

在第一個(gè)階段,也就是視角無關(guān)階段(view-independent stage),RenderFormer處理三角形之間的光傳輸。想象一下,這個(gè)階段就像是在計(jì)算房間里每個(gè)物體如何相互投射光線和陰影,不管你站在房間的哪個(gè)位置觀察。這個(gè)階段將輸入的三角形序列轉(zhuǎn)換為包含光照信息的三角形序列。

第二個(gè)階段是視角相關(guān)階段(view-dependent stage),它接收第一階段處理后的三角形序列,以及表示虛擬相機(jī)視角的光線束令牌作為輸入。這個(gè)階段就像是從特定視角出發(fā),收集第一階段計(jì)算的光照信息,然后確定每個(gè)像素應(yīng)該顯示什么顏色。這有點(diǎn)像是拿著相機(jī)在已經(jīng)計(jì)算好光照效果的虛擬場景中拍照。

兩個(gè)階段都使用了Transformer架構(gòu),這種架構(gòu)因其在處理長距離關(guān)系(比如一個(gè)三角形對(duì)場景中所有其他三角形的影響)方面的能力而被選擇。然而,與典型的Transformer不同的是,RenderFormer使用了基于三角形在3D空間中位置的相對(duì)位置編碼,而不是基于序列索引位置的編碼。

想象一下,在傳統(tǒng)的文本Transformer中,單詞的位置很重要——"狗咬人"和"人咬狗"意思完全不同。但在RenderFormer中,重要的不是三角形在序列中的位置,而是它們?cè)?D空間中的相對(duì)位置關(guān)系,因?yàn)檫@決定了它們之間的光照交互。

三、空間位置編碼:3D世界中的關(guān)系表示

在傳統(tǒng)的Transformer模型中,位置編碼通常用來表示序列中元素的順序,就像是給一串珠子編號(hào)。但在3D場景渲染中,三角形在序列中的順序并不重要,重要的是它們?cè)?D空間中的位置關(guān)系。

RenderFormer采用了一種創(chuàng)新的相對(duì)空間位置編碼方法,基于旋轉(zhuǎn)位置編碼(RoPE)。這種方法不是簡單地給每個(gè)三角形一個(gè)固定的位置標(biāo)簽,而是編碼三角形之間的相對(duì)位置關(guān)系。想象一下,這就像是不關(guān)心兩個(gè)人在隊(duì)列中的具體位置,而只關(guān)心他們之間的距離和方向。

更重要的是,這種編碼方式使得RenderFormer對(duì)場景的整體平移保持不變。也就是說,如果將整個(gè)場景(包括光源和相機(jī))一起移動(dòng),渲染結(jié)果不會(huì)改變。這就像是將一個(gè)完整的棋盤從桌子的這一端移到另一端,棋子之間的關(guān)系保持不變。

然而,由于三維旋轉(zhuǎn)不滿足交換律的特性,使得RenderFormer當(dāng)前對(duì)場景旋轉(zhuǎn)的不變性實(shí)現(xiàn)相對(duì)困難。為了提高對(duì)場景旋轉(zhuǎn)的穩(wěn)定性,研究團(tuán)隊(duì)在訓(xùn)練過程中隨機(jī)旋轉(zhuǎn)場景(包括相機(jī)),使模型能夠?qū)W習(xí)適應(yīng)不同的旋轉(zhuǎn)角度。

四、三角形與光線的表示:如何描述虛擬世界

在RenderFormer中,每個(gè)三角形都需要編碼所有與渲染相關(guān)的信息,如表面法線、反射屬性和發(fā)光特性(如果是光源)。

對(duì)于法線信息,RenderFormer為每個(gè)三角形的三個(gè)頂點(diǎn)存儲(chǔ)法線,并使用NeRF風(fēng)格的位置編碼對(duì)其進(jìn)行編碼。這些法線可以在三角形上進(jìn)行插值和歸一化。想象一下,這就像是記錄了三角形表面每個(gè)點(diǎn)的朝向,就像是知道一張紙?jiān)诳臻g中如何傾斜。

對(duì)于表面反射特性,RenderFormer使用了微表面BRDF模型,采用GGX法線分布,通過漫反射反照率、高光反照率和粗糙度進(jìn)行參數(shù)化。這些參數(shù)與發(fā)光特性一起被堆疊成一個(gè)10維向量,然后通過一個(gè)線性層擴(kuò)展為768維向量。這有點(diǎn)像是詳細(xì)記錄了物體表面對(duì)不同角度的光線如何反射,從而決定了它看起來是亮閃閃的金屬,還是啞光的塑料。

在視角相關(guān)階段,RenderFormer將虛擬相機(jī)編碼為一系列8×8像素補(bǔ)丁的光線束。由于場景在視角相關(guān)階段以相機(jī)坐標(biāo)表示,所有光線的原點(diǎn)都是(0,0,0),因此只需要編碼每條光線的歸一化方向。這就像是從相機(jī)出發(fā),記錄了每個(gè)像素"看"的方向。

五、訓(xùn)練與數(shù)據(jù)集:教會(huì)AI理解光線

RenderFormer的訓(xùn)練采用端到端的方式,使用AdamW優(yōu)化器,在8個(gè)NVIDIA A100 GPU上進(jìn)行訓(xùn)練,每個(gè)GPU配備40GB顯存。訓(xùn)練分為兩個(gè)階段:首先在256×256分辨率下訓(xùn)練500,000次迭代(約5天時(shí)間),然后在512×512分辨率下進(jìn)行額外的100,000次微調(diào)迭代(約3天時(shí)間)。

訓(xùn)練數(shù)據(jù)由合成場景組成,這些場景包含從Objaverse數(shù)據(jù)集中隨機(jī)選擇的1到3個(gè)物體,放置在四個(gè)模板場景之一中。相機(jī)放置在場景外部,視野角度在30°到60°之間均勻采樣,并指向場景中心(帶有一些擾動(dòng))。光源數(shù)量從1到8個(gè)不等,強(qiáng)度在2,500到5,000 W/單位?之間均勻采樣。

材質(zhì)參數(shù)要么按物體分配,要么按三角形分配,比例為1:1。漫反射反照率被隨機(jī)分配一個(gè)RGB顏色,最大強(qiáng)度設(shè)置為使其與單色高光反照率的總和在0.9到1.0之間。粗糙度在[0.01, 1.0]范圍內(nèi)對(duì)數(shù)采樣。

由于Transformer中注意力層的計(jì)算復(fù)雜度與令牌數(shù)量成二次方關(guān)系,RenderFormer將場景中的三角形總數(shù)限制為4,096個(gè)。為了適應(yīng)這一限制,研究團(tuán)隊(duì)對(duì)Objaverse數(shù)據(jù)集中的物體進(jìn)行了重新網(wǎng)格化處理,先移除內(nèi)部或畸形的三角形,然后使用Qslim降低面數(shù)至256到3,072之間。

訓(xùn)練數(shù)據(jù)包括800萬張HDR訓(xùn)練圖像,對(duì)應(yīng)200萬個(gè)合成場景,每個(gè)場景從4個(gè)不同視角渲染。其中一半是256×256分辨率(最大三角形數(shù)為1,536),另一半是512×512分辨率(最大三角形數(shù)為4,096)。所有圖像都使用Blender Cycles渲染,每像素4,096個(gè)樣本。

六、RenderFormer的性能與局限性

RenderFormer在各種場景上的測試表明,它能夠成功地渲染包含陰影、漫反射間接光照、高光反射、軟硬陰影以及多光源等全局光照效果的圖像。雖然渲染結(jié)果在視覺上與參考渲染相似,但并非完全相同。

在速度方面,RenderFormer相比傳統(tǒng)路徑追蹤方法如Blender Cycles有顯著優(yōu)勢。例如,對(duì)于圖1中的場景,使用4,096樣本/像素的Cycles渲染需要約3-12秒,而RenderFormer僅需約0.06-0.1秒。這種效率提升對(duì)于實(shí)時(shí)應(yīng)用特別重要。

然而,RenderFormer也存在一些局限性。首先,由于Transformer的計(jì)算成本,當(dāng)前版本限制了三角形網(wǎng)格最多為4,096個(gè)三角形。雖然實(shí)驗(yàn)表明RenderFormer可以處理更大的三角形網(wǎng)格,但會(huì)損失一些細(xì)節(jié)。

其次,RenderFormer受到訓(xùn)練數(shù)據(jù)變化的約束。當(dāng)前訓(xùn)練數(shù)據(jù)僅包括單一反射率模型,每個(gè)三角形分配參數(shù)(無紋理),最多8個(gè)漫反射光源,且相機(jī)位于場景邊界框外部。在這些限制之外的場景可能會(huì)導(dǎo)致渲染質(zhì)量下降。

此外,RenderFormer對(duì)于超過訓(xùn)練中看到的最大光源數(shù)量(8個(gè))的場景處理不可靠,可能導(dǎo)致不完整的陰影或缺失的高光。同樣,當(dāng)光源放置在場景內(nèi)部或使用彩色光源時(shí),也會(huì)產(chǎn)生不正確的結(jié)果。不過,這些問題可以通過擴(kuò)展訓(xùn)練集或利用光傳輸?shù)木€性性質(zhì)來解決,比如分別渲染每個(gè)光源然后合成最終圖像。

七、消融研究與模型分析:深入理解RenderFormer的工作原理

為了更好地理解RenderFormer的各個(gè)組件的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了一系列消融研究。這些研究表明,視角無關(guān)階段和視角相關(guān)階段都是獲得良好結(jié)果所必需的。完全消除視角無關(guān)階段會(huì)導(dǎo)致渲染質(zhì)量明顯下降,表明這個(gè)階段在解決全局光照問題中起著關(guān)鍵作用。

關(guān)于模型大小,研究發(fā)現(xiàn)更大的模型通常產(chǎn)生更準(zhǔn)確的結(jié)果。例如,具有768維特征長度的205M參數(shù)模型性能優(yōu)于具有384維特征長度的45M參數(shù)模型。然而,渲染通常需要在準(zhǔn)確性和速度之間取得平衡,理想的注意力層數(shù)取決于網(wǎng)格大小、分辨率和硬件等多種因素。

研究團(tuán)隊(duì)還通過可視化視角無關(guān)階段轉(zhuǎn)換后的令牌來分析RenderFormer的內(nèi)部工作原理。這些可視化表明,視角無關(guān)階段能夠解決三角形之間的顯著部分漫反射光傳輸和陰影問題,甚至能夠處理比單個(gè)三角形更精細(xì)的陰影細(xì)節(jié)。

同樣,通過可視化視角相關(guān)階段中特定光線束的注意力權(quán)重,研究人員發(fā)現(xiàn)主要權(quán)重分布在直接可見的三角形上,以及反射方向周圍的三角形上。這種分布隨著材料粗糙度的增加而變化,符合物理渲染的預(yù)期行為。

八、未來方向:邁向全神經(jīng)渲染管線

雖然當(dāng)前版本的RenderFormer仍有一些限制,但研究團(tuán)隊(duì)認(rèn)為,通過進(jìn)一步的開發(fā)和優(yōu)化,RenderFormer有潛力提供一種替代渲染范式,既適用于正向渲染,也適用于反向渲染應(yīng)用。

未來的研究方向包括:擴(kuò)展訓(xùn)練集以支持更廣泛的相機(jī)和光源位置;加入更多的反射率模型,包括透明度和次表面散射;支持環(huán)境光照和非漫反射光源;以及探索基于現(xiàn)有圖形加速結(jié)構(gòu)(如BVH)的層次注意力方法,以支持更復(fù)雜的場景和更大的三角形網(wǎng)格。

由于RenderFormer完全基于可學(xué)習(xí)的神經(jīng)組件,因此天然完全可微分,無需依賴現(xiàn)有的固定(即不可學(xué)習(xí)的)渲染算法,如光柵化、光線追蹤或光線行進(jìn)。這種特性使其特別適合于反向渲染應(yīng)用,可以直接從數(shù)據(jù)中學(xué)習(xí)渲染過程。

RenderFormer代表了計(jì)算機(jī)圖形學(xué)向全神經(jīng)渲染管線邁出的重要一步,開創(chuàng)了一種新的思考和解決虛擬場景渲染問題的方式。盡管仍處于初始階段,但它已經(jīng)展示了神經(jīng)網(wǎng)絡(luò)在直接從三角形網(wǎng)格渲染全局光照?qǐng)D像方面的巨大潛力,而無需針對(duì)特定場景進(jìn)行訓(xùn)練或微調(diào)。

九、技術(shù)細(xì)節(jié):Transformer架構(gòu)的創(chuàng)新應(yīng)用

RenderFormer的核心是Transformer架構(gòu),這種架構(gòu)因其處理長距離依賴關(guān)系的能力而被選擇,非常適合模擬光線在場景中的傳播。視角無關(guān)階段使用12個(gè)Transformer層,每層有6個(gè)頭和768個(gè)隱藏單元,后面是一個(gè)768×4的前饋全連接網(wǎng)絡(luò)。視角相關(guān)階段使用類似的架構(gòu),但只重復(fù)注意力層6次。

為了穩(wěn)定訓(xùn)練,RenderFormer采用了預(yù)歸一化(使用RMS-Normalization)、SwiGLU激活函數(shù)和QK-Normalization。此外,視角相關(guān)階段需要比視角無關(guān)階段更高的精度(tf32 vs bf16)才能在訓(xùn)練期間收斂。

損失函數(shù)方面,RenderFormer在監(jiān)督方式下訓(xùn)練,通過計(jì)算渲染的參考HDR圖像和RenderFormer預(yù)測之間的L1損失。為了避免亮部高光中的小誤差主導(dǎo)損失,研究團(tuán)隊(duì)在計(jì)算L1損失之前對(duì)圖像應(yīng)用了對(duì)數(shù)變換。此外,為了最小化感知差異,還包括了對(duì)色調(diào)映射版本圖像的LPIPS損失。最終損失為:L1損失 + 0.05×LPIPS損失。

RenderFormer的性能與靈活性使其成為一種有前途的新型渲染方法,特別是在需要快速渲染和全局光照效果的應(yīng)用中。隨著進(jìn)一步的研究和優(yōu)化,RenderFormer有望在計(jì)算機(jī)圖形學(xué)領(lǐng)域開辟新的可能性。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-