當你在游戲中看到那些令人驚嘆的3D場景,或者在電影中被震撼的視覺特效所吸引時,你可能想象不到這些畫面背后需要多么復雜的制作流程。傳統(tǒng)的3D視頻制作就像建造一座精美的宮殿,需要先搭建詳細的框架,然后精心雕琢每一個細節(jié),最后還要調整燈光和材質,整個過程耗時費力。然而,來自韓國浦項科技大學(POSTECH)的研究團隊最近發(fā)表了一項突破性研究,他們開發(fā)出一種名為VideoFrom3D的全新框架,能夠僅憑粗糙的3D幾何模型就生成高質量的場景視頻。
這項由POSTECH的金?寧(Geonung Kim)、韓??(Janghyeok Han)和趙??(Sunghyun Cho)教授領導的研究成果發(fā)表在2025年12月舉辦的SIGGRAPH Asia 2025會議上,論文編號為979-8-4007-2137-3/2025/12。對于想要深入了解技術細節(jié)的讀者,可以通過DOI 10.1145/3757377.3763871查詢完整論文,研究團隊還在GitHub上開源了相關代碼。
傳統(tǒng)3D制作流程的痛點就像裝修房子一樣復雜。設計師首先需要構思整體概念,然后建造詳細的3D模型,接著為每個表面添加紋理,調整燈光效果,最后渲染出最終畫面。更麻煩的是,如果客戶想要修改某個細節(jié),比如改變攝像機角度或者調整視覺風格,整個流程可能需要重新來過。這就像你已經裝修好了房間,但突然想換個風格,結果發(fā)現需要重新刷墻、換家具、調整燈光,工作量巨大。
VideoFrom3D框架的出現就像給3D制作帶來了一場革命。用戶只需要提供三樣東西:一個粗糙的3D幾何模型(就像房子的基本框架),一條攝像機運動軌跡(告訴系統(tǒng)從哪個角度拍攝),以及一張參考圖片(展示想要的視覺風格)。系統(tǒng)就能自動生成一段高質量的場景視頻,整個過程就像魔法一樣神奇。
研究團隊發(fā)現了一個有趣的現象:雖然視頻生成模型在處理復雜場景時表現不佳,但圖像生成模型卻能產出非常精美的單幀畫面。這就像發(fā)現了兩位各有所長的藝術家——一位擅長畫靜態(tài)的精美插畫,另一位擅長制作連貫的動畫序列。于是他們想到了一個巧妙的解決方案:讓圖像生成模型先創(chuàng)作幾幅關鍵的"錨點"畫面,然后讓視頻生成模型負責在這些畫面之間進行平滑的過渡補間。
VideoFrom3D的核心創(chuàng)新在于巧妙地結合了圖像擴散模型和視頻擴散模型的優(yōu)勢。研究團隊觀察到,當前的圖像生成AI能夠創(chuàng)造出令人驚嘆的高質量單張圖片,就像一位技藝精湛的畫家能夠繪制出細節(jié)豐富的靜態(tài)作品。相比之下,視頻生成AI雖然能夠處理動態(tài)序列,但在復雜場景中往往會產生模糊或扭曲的結果,就像一位動畫師雖然能讓畫面動起來,但在處理復雜場景時容易出現細節(jié)丟失。
為了驗證這一觀察,研究團隊進行了一項對比實驗。他們使用相同的文本描述讓不同的AI模型生成復雜戶外場景。結果發(fā)現,擁有20億參數的圖像生成模型StableDiffusion3能夠產出清晰逼真的建筑細節(jié),而擁有更多參數(20億和50億)的視頻生成模型CogVideoX卻生成了扭曲變形的結構,視覺質量明顯較低。在量化評估中,圖像模型在美學質量和圖像質量方面都顯著優(yōu)于視頻模型。
這種差異的根本原因在于任務復雜度的不同。圖像生成模型只需要專注于創(chuàng)造高質量的靜態(tài)畫面,就像專業(yè)攝影師只需要捕捉完美的瞬間。而視頻生成模型則需要同時處理三個挑戰(zhàn):生成高質量的單幀畫面、確保畫面間的自然運動、維持整個序列的時間一致性。這種多重任務的復雜性使得視頻模型很難在每個方面都達到圖像模型的水準。
基于這一洞察,研究團隊設計了一個兩階段的生成策略。第一階段使用稀疏錨點視圖生成(SAG)模塊,利用圖像擴散模型創(chuàng)建幾個高質量的關鍵幀,這些關鍵幀就像電影制作中的關鍵鏡頭,定義了整個序列的視覺基調和主要構圖。第二階段使用幾何引導的生成插值(GGI)模塊,利用視頻擴散模型在這些關鍵幀之間進行平滑的過渡補間,就像動畫師在關鍵幀之間添加中間幀來創(chuàng)造流暢的動作。
SAG模塊的工作就像一位經驗豐富的攝影師,需要在不同的拍攝角度創(chuàng)造出既符合場景結構又保持視覺一致性的精美照片。這個過程面臨三個主要挑戰(zhàn):如何確保生成的圖像準確反映3D幾何結構,如何讓所有圖像都符合用戶指定的視覺風格,以及如何保證不同視角的圖像之間具有視覺一致性。
為了解決結構準確性問題,研究團隊采用了一種巧妙的邊緣引導策略。他們從輸入的3D模型中提取四種類型的幾何邊緣:輪廓邊、折痕邊、物體邊界和交線。這些邊緣就像建筑圖紙中的線條,精確定義了場景中各個物體的形狀和邊界。然后,他們使用預訓練的ControlNet來將這些幾何約束融入到圖像生成過程中。
有趣的是,研究團隊并沒有專門訓練一個針對3D幾何邊緣的ControlNet,而是巧妙地利用了現有的HED邊緣檢測ControlNet。雖然HED邊緣檢測器是為2D圖像設計的,與3D幾何邊緣并不完全匹配,但實驗證明這種方法非常有效。更重要的是,這種策略避免了收集大量3D模型與自然圖像配對數據的困難,因為這樣的數據集在實際中幾乎不存在。
為了實現風格一致性,研究團隊采用了分布對齊策略。他們?yōu)槊總€參考風格圖像訓練一個輕量級的LoRA適配器,這個過程就像給畫家提供一個特定的調色板和畫風指導。通過這種方式,圖像生成模型能夠學會模仿參考圖像的視覺特征,包括色彩搭配、光影效果和整體氛圍。
最具創(chuàng)新性的部分是稀疏外觀引導采樣技術,這是為了解決多視角一致性問題而設計的。當系統(tǒng)需要生成第二個錨點視圖時,它首先將已生成的第一個視圖通過光流變形到新的視角位置。雖然這種變形會產生一些扭曲和空洞,但它提供了寶貴的外觀和語義信息。
在生成過程中,系統(tǒng)采用了一種替換操作策略。在擴散模型的前幾個去噪步驟中,系統(tǒng)會將變形圖像的潛在特征替換到對應的已觀察區(qū)域。這種操作只在早期步驟中進行,目的是傳遞語義和顏色信息,而不是保留扭曲的細節(jié)。通過這種方式,系統(tǒng)能夠在已觀察區(qū)域生成與第一個視圖一致的內容,同時在未觀察區(qū)域生成自然協調的新內容。
這種方法的成功很大程度上依賴于前面提到的分布對齊過程。如果沒有風格參考的約束,未觀察區(qū)域通常占據畫面的大部分,系統(tǒng)很難基于有限的引導信息生成一致的內容。但有了風格對齊,系統(tǒng)的解決空間被縮小到特定的風格范圍內,使得一致性生成成為可能。
GGI模塊的任務就像一位技藝精湛的動畫師,需要在已有的關鍵幀之間創(chuàng)造出流暢自然的過渡動畫。這個模塊基于預訓練的圖像到視頻擴散模型CogVideoX-5B構建,但加入了專門的幾何引導和攝像機控制機制。
為了處理起始和結束兩個錨點幀,系統(tǒng)采用了一種巧妙的編碼策略。它將起始幀和結束幀通過VAE編碼器轉換為潛在特征,而中間幀位置則用零值占位符填充。這樣就形成了一個時間序列:[編碼的起始幀, 空, 空, ..., 空, 編碼的結束幀]。這種設計告訴視頻生成模型需要在兩個已知端點之間進行插值。
攝像機軌跡控制是通過基于光流的方法實現的。系統(tǒng)首先從3D幾何和攝像機軌跡中計算出連續(xù)的光流場,這些光流描述了場景中每個像素點在相鄰幀之間的運動軌跡。然后,系統(tǒng)使用這些光流對初始噪聲進行遞歸變形,創(chuàng)建出一個編碼了攝像機運動信息的"變形噪聲體積"。
這種變形噪聲的概念可以這樣理解:就像在一塊布料上畫出運動軌跡,然后按照這些軌跡拉伸布料,最終的變形模式就包含了運動信息。在視頻生成過程中,這個變形噪聲為擴散模型提供了關于期望攝像機運動的隱式指導。
然而,僅僅依靠變形噪聲還不足以實現精確的軌跡控制。變形噪聲在下采樣的潛在空間中構建,空間分辨率降低了8倍,時間分辨率降低了4倍,這限制了運動引導的精細程度。此外,為了在變形過程中保持高斯分布特性,系統(tǒng)需要不斷重新注入高斯噪聲,這使得光流信息只能以隱式方式編碼,難以實現精確控制。
為了解決這個問題,研究團隊引入了結構引導機制。系統(tǒng)將從3D幾何中提取的邊緣圖序列通過VAE編碼,然后與其他特征一起輸入到擴散模型中。這些邊緣圖就像動畫制作中的參考線稿,為每一幀提供了精確的結構約束,確保生成的視頻嚴格遵循輸入幾何的形狀。
整個GGI模塊的推理過程可以描述為一個條件擴散采樣過程。在每個時間步,擴散模型接收當前的噪聲潛在特征、錨點幀信息、結構引導和變形噪聲,然后預測并移除一部分噪聲。這個過程重復進行,直到生成清晰的視頻序列。
訓練GGI模塊面臨一個實際挑戰(zhàn):理想情況下需要大量包含粗糙幾何、攝像機軌跡和對應高質量多視角圖像的數據集,但這樣的數據在現實中極其稀少。為了解決這個問題,研究團隊采用了一種巧妙的數據適配策略。
他們使用DL3DV-10K數據集作為訓練基礎,這個數據集包含了各種靜態(tài)場景的視頻。雖然這些視頻沒有對應的3D幾何模型,但研究團隊通過計算機視覺技術模擬了所需的訓練條件。
對于光流信息,他們使用RAFT算法從訓練視頻中計算相鄰幀之間的光流,這些光流用于生成變形噪聲體積,模擬攝像機運動的引導信息。
更有趣的是結構引導的模擬方法。由于訓練視頻缺乏3D幾何模型,研究團隊設計了一個兩步驟的邊緣圖合成流程。首先,他們使用單目深度估計器從視頻幀中估計深度圖。然后,將HED邊緣檢測器應用到這些深度圖上,提取結構邊緣。
這種方法的巧妙之處在于它能夠復現推理時3D幾何邊緣的兩個關鍵特性:無紋理信息和來源于粗糙幾何。深度圖本身不包含紋理細節(jié),而HED檢測器會選擇性地提取強結構輪廓,忽略弱邊緣信號。這樣生成的邊緣圖與推理時從3D模型提取的邊緣圖非常相似,有效減少了訓練和推理之間的域差距。
訓練目標被設計為一個標準的去噪任務。系統(tǒng)學習預測在給定條件下應該移除的噪聲,這些條件包括錨點幀、結構引導和變形噪聲。通過這種方式,模型學會了如何在幾何約束和運動引導下生成高質量的中間幀。
研究團隊通過廣泛的實驗驗證了VideoFrom3D在各種場景下的有效性。他們構建了一個包含16個3D模型的測試數據集,涵蓋了4個物體中心場景、2個室內場景、8個戶外場景和2個室內外過渡場景。每個模型都使用三種不同的風格進行測試,總共生成了48個視頻。
在物體中心場景中,系統(tǒng)展現出了處理簡單幾何體的可靠性。即使是基本的幾何形狀,系統(tǒng)也能根據參考風格生成豐富的視覺細節(jié),就像一位藝術家能夠將簡單的素描轉化為精美的畫作。
戶外場景測試展示了系統(tǒng)處理復雜空間結構和大幅度攝像機運動的能力。在一個測試案例中,攝像機進行了大范圍的平移和旋轉,系統(tǒng)依然能夠生成結構準確、視覺連貫的視頻序列。這種魯棒性對于實際應用非常重要,因為真實的攝像機軌跡往往包含復雜的運動模式。
室內場景和室內外過渡場景的測試更加具有挑戰(zhàn)性。這些場景涉及復雜的空間轉換,比如從房間到走廊,或者從室內到戶外。系統(tǒng)需要處理不同區(qū)域之間的視覺風格變化,同時保持整體的連貫性。實驗結果表明,VideoFrom3D能夠很好地處理這些復雜的空間過渡。
特別有趣的是非真實感渲染的測試。系統(tǒng)不僅能夠生成照片級真實的場景,還能夠創(chuàng)造動畫風格和繪畫風格的視頻。這種多樣性展示了框架的通用性,表明它不局限于特定的視覺風格。
研究團隊還展示了一個令人印象深刻的時間變化效果。通過為不同的錨點幀分配不同的季節(jié)風格(如春夏秋冬),系統(tǒng)能夠生成展現時間流逝的視頻序列。在這種情況下,他們故意省略了外觀引導采樣中的替換操作,允許風格在錨點幀之間自然過渡,創(chuàng)造出季節(jié)變化的動畫效果。
為了驗證VideoFrom3D的有效性,研究團隊與多個基線方法進行了全面比較。這些基線代表了當前解決類似問題的不同技術路線。
在純視頻擴散方法方面,他們比較了VACE和深度條件的圖像到視頻模型(Depth-I2V)。VACE使用深度圖作為結構線索,而Depth-I2V是在DL3DV-10K數據集上訓練的,通過將深度圖連接到潛在輸入來實現條件控制。
他們還與三個代表不同技術范式的少樣本重建模型進行了比較:基于視頻擴散的MVSplat360、基于回歸的LVSM和基于多視角擴散的SEVA。為了公平比較,這些模型都使用SAG模塊生成的錨點圖像作為輸入。
在視覺保真度評估中,由于缺乏真實的中間幀作為參考,研究團隊采用了一種巧妙的偽真值構建方法。他們將錨點幀變形到目標幀位置,然后合成這些變形結果,僅在已知區(qū)域計算PSNR、SSIM和LPIPS指標。
結構保真度通過比較真實深度圖和從生成視頻估計的深度圖來評估。為了補償單目深度估計中的非線性誤差和場景相關的尺度變化,他們在計算PSNR之前應用了直方圖均衡化。
視覺質量評估使用了CLIP美學評分和MUSIQ評分,這些指標能夠客觀評估圖像的美學質量和感知質量。風格一致性通過CLIP圖像相似度以及主體一致性和背景一致性指標來衡量。
實驗結果顯示,VideoFrom3D在大多數指標上都取得了最佳性能。在視覺質量方面,它顯著超越了純視頻擴散方法,這驗證了圖像-視頻協作策略的有效性。在結構保真度方面,它也明顯優(yōu)于其他方法,表明幾何引導機制的重要作用。
定性比較更加直觀地展示了各方法的差異。Depth-I2V和VACE通常產生低質量的結果,缺乏足夠的細節(jié),這反映了視頻擴散模型在復雜場景生成方面的局限性。MVSplat360經常產生嚴重的偽影,這是因為在錨點視圖距離較大時,中間3D表示重建經常失敗。LVSM在需要強生成先驗的區(qū)域產生模糊輸出,而SEVA在具有挑戰(zhàn)性的軌跡下經常失敗,主要是由于依賴顯式攝像機姿態(tài)導致的尺度歧義。
為了更深入地理解VideoFrom3D的工作機制,研究團隊進行了詳細的消融實驗和分析。這些實驗就像解剖一臺精密機器,逐一檢查每個組件的作用和重要性。
在SAG模塊的分析中,他們重點驗證了稀疏外觀引導采樣的效果。對比實驗顯示,沒有外觀引導時,生成的第二個錨點視圖在屋頂、窗戶和立面顏色圖案等細節(jié)方面與第一個視圖存在顯著差異。而采用外觀引導后,這些細節(jié)保持了視覺一致性,證明了該技術的有效性。
GGI模塊的結構條件分析揭示了不同引導信息的重要性。在沒有任何結構條件的情況下,系統(tǒng)經常產生嚴重的結構扭曲。使用直接從RGB圖像提取的HED邊緣會導致細節(jié)丟失,而使用他們設計的模擬結構條件(HED-S)能夠準確保持結構并避免細節(jié)損失。
一個有趣的實驗是驗證是否可以僅使用SAG模塊進行密集視圖生成。研究團隊比較了完整方法和僅SAG方法的時間剖面圖,這種可視化顯示了固定像素區(qū)域隨時間的變化。結果顯示,僅SAG方法由于生成過程的固有隨機性導致嚴重的閃爍和時間不一致性,這突出了GGI模塊對于一致視頻合成的必要性。
在結構條件的選擇方面,研究團隊比較了不同類型的幾何引導。Canny邊緣條件在粗糙幾何下產生視覺單調的結果,因為精細紋理訓練邊緣與稀疏測試輸入之間存在不匹配。深度條件往往忽略深度圖中的弱信號,使其對引導詳細幾何不夠有效。相比之下,HED邊緣條件能夠很好地泛化到粗糙和詳細的情況,因為其估計器是在稀疏的人工標注邊緣圖上訓練的,這些邊緣圖與3D模型派生邊緣的分布非常接近。
性能分析顯示,在LoRA訓練完成后,生成單個軌跡需要197秒。雖然這個時間看起來不短,但考慮到傳統(tǒng)3D制作流程可能需要數小時甚至數天,這種效率提升仍然是顯著的。
盡管VideoFrom3D取得了令人矚目的成果,研究團隊也誠實地指出了當前方法的一些局限性。這種客觀的態(tài)度體現了嚴謹的科學精神,也為未來的改進指明了方向。
首先,系統(tǒng)不支持實時交互式攝像機控制。這意味著用戶無法像玩游戲那樣實時改變視角,而必須預先定義攝像機軌跡。這個限制主要源于擴散模型的生成特性,每次生成都需要經過多個去噪步驟,無法達到實時渲染的速度要求。
其次,由于擴散模型固有的隨機性,生成的視頻可能出現時間不一致性。雖然GGI模塊在很大程度上緩解了這個問題,但完全消除隨機性帶來的不一致性仍然是一個挑戰(zhàn)。這就像即使是最熟練的畫家,每次作畫時也會有細微的差異。
第三,方法需要進行LoRA訓練,這需要大量的計算時間。每個新的風格參考都需要訓練一個專門的適配器,這在一定程度上限制了系統(tǒng)的即時可用性。雖然研究團隊提出了一些緩解策略,如單一LoRA支持多種風格和后提示策略,但這個問題仍然存在。
另一個潛在的局限是系統(tǒng)無法保證像素級的跨視角一致性。傳統(tǒng)的3D渲染能夠確保同一個3D點在不同視角下的像素對應關系完全準確,但生成式方法由于其概率性質,難以達到這種精確度。這意味著VideoFrom3D更適合用于視覺化和概念展示,而不是需要精確幾何一致性的應用。
此外,系統(tǒng)對輸入幾何的質量有一定要求。雖然它能夠處理粗糙的幾何,但如果輸入過于簡化或存在拓撲錯誤,可能會影響最終結果的質量。這就像即使是最好的廚師,也需要基本合格的食材才能做出美味的菜肴。
盡管存在這些局限,VideoFrom3D仍然代表了3D場景視頻生成領域的重要進步。它成功地將復雜的3D制作流程簡化為一個更加直觀和高效的過程,為設計師和創(chuàng)作者提供了新的可能性。
未來的改進方向可能包括:開發(fā)更快的生成算法以支持實時交互、設計更好的一致性約束機制、探索無需訓練的風格適配方法,以及提高對復雜幾何的處理能力。隨著AI技術的不斷發(fā)展,這些挑戰(zhàn)很可能在不久的將來得到解決。
說到底,VideoFrom3D的意義不僅在于技術本身,更在于它所代表的思路轉變。它告訴我們,復雜的創(chuàng)作任務可以通過巧妙的AI協作來簡化,傳統(tǒng)的制作流程可以通過生成式AI得到根本性的改進。對于普通用戶來說,這意味著3D內容創(chuàng)作的門檻正在快速降低,未來我們可能都能成為自己故事的導演和視覺設計師。這項研究為我們展示了一個更加民主化的創(chuàng)作未來,在那里,想象力比技術技能更加重要。
Q&A
Q1:VideoFrom3D需要什么樣的輸入材料才能生成視頻?
A:VideoFrom3D需要三樣輸入:一個粗糙的3D幾何模型(可以是簡單建?;颥F有3D素材),一條攝像機運動軌跡(定義拍攝角度和路徑),以及一張參考圖片(展示想要的視覺風格)。系統(tǒng)會根據這些輸入自動生成高質量的場景視頻。
Q2:VideoFrom3D與傳統(tǒng)3D視頻制作相比有什么優(yōu)勢?
A:傳統(tǒng)制作需要詳細建模、紋理制作、燈光調整等多個復雜步驟,修改成本很高。VideoFrom3D只需粗糙幾何就能生成高質量視頻,大大簡化了流程,特別適合早期設計探索和快速迭代,能將原本需要數天的工作縮短到幾分鐘。
Q3:VideoFrom3D生成的視頻質量如何,有什么應用場景?
A:系統(tǒng)能生成電影級質量的場景視頻,支持照片級真實感和藝術風格渲染,甚至能制作季節(jié)變化等時間效果。主要適用于建筑設計可視化、游戲場景預覽、電影概念展示、VR內容制作等需要快速視覺化的場景,特別適合概念階段的設計驗證。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。