av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 一張照片變出立體城鎮(zhèn):UCSC和哥倫比亞大學聯(lián)合研發(fā)的3DTown技術突破

一張照片變出立體城鎮(zhèn):UCSC和哥倫比亞大學聯(lián)合研發(fā)的3DTown技術突破

2025-05-27 11:37
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 11:37 ? 科技行者

從單一圖像構建三維城鎮(zhèn):讓虛擬世界變得觸手可及

這項由加州大學圣克魯茲分校(UC Santa Cruz)的Kaizhi Zheng和Jing Gu、哥倫比亞大學(Columbia University)的Ruijian Zhang以及Cybever AI的Jie Yang、加州大學圣克魯茲分校的Xin Eric Wang共同完成的研究,于2025年5月發(fā)表在arXiv預印本平臺(arXiv:2505.15765v1)。有興趣深入了解的讀者可以通過研究團隊的項目網(wǎng)站(https://eric-ai-lab.github.io/3dtown.github.io/)查看更多信息。

一、為什么我們需要從單張圖像生成3D場景?

想象一下,你正在開發(fā)一款虛擬現(xiàn)實游戲,需要大量精美的3D城鎮(zhèn)場景,但你既沒有昂貴的3D掃描設備,也沒有足夠的人力去手動建模?;蛘吣闶且患曳康禺a(chǎn)公司,想要快速將平面圖紙轉化為可交互的虛擬樣板房。這時,如果能有一種技術,只需一張鳥瞰圖就能自動生成完整的3D場景,那將是多么便捷!

這正是加州大學圣克魯茲分校和哥倫比亞大學研究團隊開發(fā)的"3DTown"技術所要解決的問題。在我們?nèi)粘I钪?,從平面到立體的轉換無處不在——從看平面電視到體驗3D電影,從紙質(zhì)圖紙到實體建筑。但在數(shù)字世界里,這種轉換往往需要專業(yè)設備、多角度拍攝或耗時的人工建模。3DTown提供了一種輕量級的替代方案:僅需一張俯視圖,就能生成逼真、連貫的3D場景。

目前的3D生成技術在單個物體層面已經(jīng)取得了顯著成果,但當擴展到整個場景時,常常會出現(xiàn)幾何不一致、布局混亂和網(wǎng)格質(zhì)量低下等問題。想象一下,如果你用現(xiàn)有技術處理一張城鎮(zhèn)俯視圖,可能會得到一個建筑物懸浮在空中、道路扭曲變形,或者紋理模糊不清的奇怪世界。3DTown團隊正是要解決這些挑戰(zhàn),讓生成的3D世界既真實又連貫。

二、3DTown:一種無需訓練的3D場景生成新方法

3DTown的核心思想可以比作搭建積木城堡的過程。想象你有一張城堡的俯視照片,而不是直接嘗試一次性復制整個城堡(這很容易出錯),你決定將照片分成小區(qū)域,一塊一塊地搭建,再確保它們能無縫銜接。

研究團隊的方法基于兩個關鍵原則:區(qū)域化生成和空間感知的3D修復。區(qū)域化生成就像是將大拼圖分解成小塊,先完成每個小塊,再將它們組合起來,這樣可以提高圖像到3D的對齊精度和分辨率。而空間感知的3D修復則像是在拼圖的接縫處使用特殊膠水,確保全局場景的連貫性和高質(zhì)量幾何生成。

具體來說,3DTown首先將輸入的俯視圖分解成重疊的區(qū)域,然后使用預訓練的3D物體生成器(如Trellis)處理每個區(qū)域。這就像是請一位精通雕刻單個建筑的藝術家來處理城鎮(zhèn)的每個街區(qū)。接著,通過一種稱為"掩碼校正流修復"的過程填充缺失的幾何信息,同時保持結構連續(xù)性。這相當于一位專家在檢查整個城鎮(zhèn)模型,發(fā)現(xiàn)缺失部分后進行修復,同時確保修復的部分與原有部分風格一致。

這種模塊化設計允許3DTown克服分辨率瓶頸并保持空間結構,而無需進行3D監(jiān)督訓練或微調(diào)。你可以把它想象成一個非常聰明的助手,他不需要特別學習如何搭建城鎮(zhèn)模型,而是利用已有的單體建筑知識,通過合理的分解和組合策略,創(chuàng)造出完整且連貫的城鎮(zhèn)場景。

三、技術細節(jié):3DTown如何將平面變成立體?

### 1. 結構化潛在表示:積木的基本單元

在開始構建3D場景之前,3DTown需要一種有效的方式來表示3D結構。想象你在玩一種特殊的積木游戲,每個積木塊(稱為體素)都有兩個屬性:它的位置(在3D空間中的坐標)和它的特征(顏色、質(zhì)地等)。

在技術層面,研究團隊使用了結構化潛在表示,這是一種由位置索引和潛在特征向量組成的數(shù)據(jù)結構。位置索引告訴我們體素在3D網(wǎng)格中的位置,而潛在特征向量則包含了體素的外觀和幾何信息。這就像給每個積木塊一個地址標簽(告訴你它應該放在哪里)和一個屬性卡片(告訴你它應該是什么樣子)。

### 2. 空間先驗初始化:搭建骨架

當你拿到一張城鎮(zhèn)的俯視圖時,第一步是要理解這個城鎮(zhèn)的大致結構。3DTown使用單目深度估計器從輸入圖像中預測深度信息,并推斷相機參數(shù),從而構建像素級點云。這就像是從平面照片中提取出景物的大致高低關系,建立一個初步的3D骨架。

然而,由于遮擋,這些點云會有很多缺失區(qū)域。為了解決這個問題,研究團隊提出了一種方法:先單獨生成具有標志性的建筑物(如城堡中心的主塔),然后將后續(xù)生成內(nèi)容建立在這些標志性結構的幾何基礎上。這就像是先搭建城堡的主要塔樓,然后再圍繞它添加其他建筑。

### 3. 區(qū)域化生成:分而治之

直接將預訓練的物體生成器應用于整個場景會導致低分辨率幾何和布局失真。想象一下,如果你試圖一次性描繪整個城市,很容易忽略細節(jié)或錯誤安排建筑物位置。

為了解決這個問題,3DTown將場景分割成重疊的區(qū)域,并對每個區(qū)域單獨進行處理。每個區(qū)域都與其對應的圖像裁剪部分關聯(lián),確保生成內(nèi)容與圖像證據(jù)緊密對應。這就像是將一張大地圖分成多個小區(qū)域,分別繪制后再拼接起來,這樣每個區(qū)域都能得到足夠的關注和細節(jié)處理。

### 4. 空間感知的3D修復:無縫連接

雖然區(qū)域化生成提高了局部保真度,但它也引入了一個新挑戰(zhàn):如何確保區(qū)域之間的全局一致性?3DTown借鑒了2D擴散模型中的無訓練修復方法(如RePaint),并將其適應于3D生成。

具體來說,對于每個區(qū)域級子網(wǎng)格,系統(tǒng)會將已知的活動體素標記為保留,而將未知體素標記為重新生成。使用掩碼校正流管道,系統(tǒng)能夠完成區(qū)域結構并獲得局部特征,同時保持與已知內(nèi)容的一致性。這就像是在拼圖的接縫處使用特殊的過渡技術,確保每塊拼圖能夠自然地融合在一起,沒有明顯的斷裂或不協(xié)調(diào)。

### 5. 區(qū)域融合:組裝完整場景

生成每個區(qū)域后,系統(tǒng)會更新場景級結構化潛在表示,用區(qū)域級潛在表示替換相應部分。由于區(qū)域是使用分塊策略提取的,某些區(qū)域可能只包含前景地標的部分觀察。為了保持地標完整性,系統(tǒng)會在融合過程中丟棄對應于部分前景的結構化潛在表示。

每個區(qū)域都是從場景級潛在表示的最新版本中提取的,確保區(qū)域之間的一致性。如果一個區(qū)域與先前生成的區(qū)域重疊,其重疊體素會在生成過程中被約束為匹配現(xiàn)有內(nèi)容。這強制了連續(xù)性并避免了重疊區(qū)域中的不一致性,從而實現(xiàn)了相鄰區(qū)域之間的平滑過渡,同時保留了已合成的內(nèi)容。

最終,完整的場景級潛在表示通過物體解碼器解碼,產(chǎn)生場景級網(wǎng)格和3D高斯分布。完整的紋理場景使用物理渲染烘焙和高斯分布渲染的組合進行渲染。這就像是將所有精心制作的模型部件組裝起來,并為它們上色、添加紋理,最終呈現(xiàn)出一個完整而生動的3D城鎮(zhèn)。

四、實驗成果:3DTown與現(xiàn)有技術的比較

為了評估3DTown的性能,研究團隊構建了一個包含100個多樣化俯視場景圖像的自定義測試集。這些圖像由GPT-4o生成,涵蓋了"雪地村莊"、"沙漠城鎮(zhèn)"等各種風格。

由于缺乏地面真實網(wǎng)格,團隊通過模型間的成對比較來衡量性能。對于每個參考圖像,兩個生成的場景在三個標準上進行評估:幾何質(zhì)量、布局一致性和紋理一致性。幾何質(zhì)量評估哪個網(wǎng)格包含更詳細、更精細的結構,更接近圖像證據(jù)。布局一致性評估生成的網(wǎng)格是否與參考圖像具有相同的布局。紋理一致性衡量生成的網(wǎng)格紋理與參考圖像相應部分的一致程度。

研究結果令人印象深刻。無論是在人類偏好還是GPT-4o評估中,3DTown都大幅優(yōu)于現(xiàn)有技術,包括Trellis、Hunyuan3D-2和TripoSG。例如,在人類偏好評估中,3DTown在幾何質(zhì)量方面的勝率比Trellis高37個百分點(68.5%對31.5%),比TripoSG高55個百分點(77.5%對22.5%)。

從質(zhì)量上看,3DTown生成的場景資產(chǎn)具有清晰的結構、一致的布局和逼真的表面細節(jié),與參考俯視圖緊密匹配。相比之下,Trellis通常生成過度集中、低分辨率的結構,缺乏外圍細節(jié)。Hunyuan3D-2在布局扭曲和幾何幻覺方面表現(xiàn)出明顯問題,盡管在隔離部分的紋理上尚可接受。TripoSG保持了一些構圖結構,但經(jīng)常引入重復對象,忽略參考圖像中的布局證據(jù)。

研究團隊還進行了消融研究,以評估3DTown關鍵組件的貢獻:區(qū)域化生成策略和預生成地標的使用。結果表明,移除區(qū)域化生成會導致性能大幅下降,這表明整體生成無法充分利用預訓練模型的能力。沒有區(qū)域化條件,模型難以解析空間上下文和圖像到3D的對應關系,產(chǎn)生低分辨率和空間不連貫的輸出。

同樣,禁用地標感知初始化,僅依靠單目深度構建空間先驗,也會導致幾何和布局質(zhì)量明顯下降,特別是在包含大型前景結構(如門或塔)的區(qū)域。由于區(qū)域化生成以空間塊處理場景,地標充當錨點,維持區(qū)域邊界之間的對象連續(xù)性。沒有它們,模型更容易在區(qū)域之間產(chǎn)生不連貫或不匹配的內(nèi)容。

五、3DTown的意義與應用前景

3DTown的出現(xiàn)為從單一圖像生成高質(zhì)量、連貫3D場景提供了一種有效的方法。這項技術有望在多個領域產(chǎn)生深遠影響:

在游戲開發(fā)中,設計師可以通過繪制簡單的俯視圖快速生成復雜的3D環(huán)境,大大加速游戲世界的構建過程。想象一下,一個小型獨立游戲工作室不再需要投入大量資源進行3D建模,而是可以通過繪制2D地圖快速生成可玩的3D世界。

在虛擬現(xiàn)實和增強現(xiàn)實領域,3DTown可以幫助創(chuàng)建更豐富、更沉浸式的體驗。從旅游景點的虛擬預覽到歷史遺址的數(shù)字重建,只需一張俯視圖或平面圖就能創(chuàng)建可探索的3D環(huán)境。

在城市規(guī)劃和建筑設計中,3DTown可以將概念草圖或鳥瞰圖快速轉化為可視化的3D模型,幫助規(guī)劃者和利益相關者更好地理解和評估設計方案。想象一個城市規(guī)劃師只需繪制一張新社區(qū)的俯視圖,就能立即生成一個詳細的3D模型,用于公眾咨詢和決策支持。

在教育領域,3DTown可以幫助學生更直觀地理解地理、歷史和建筑概念。教師可以將平面地圖或歷史遺址的俯視圖轉化為交互式3D模型,增強學習體驗。

然而,3DTown也存在一些局限性。預訓練的3D生成器是在單物體圖像上訓練的,即使經(jīng)過區(qū)域分解,底層分布不匹配仍可能導致塊級幻覺,如重復的外觀或不現(xiàn)實的屋頂形狀。此外,粗糙的空間先驗由于遮擋而包含許多空洞,主導這類空洞的區(qū)域有時會從生成器繼承空或過度平滑的表面。

未來的研究方向可能包括場景級微調(diào)或領域適應,以減少這些幻覺;集成不確定性感知的深度完成、多視圖線索或語義先驗,以產(chǎn)生更密集的支架和更可靠的修復。隨著這些改進的實現(xiàn),我們可以期待3DTown及類似技術在數(shù)字內(nèi)容創(chuàng)建和虛擬環(huán)境構建中發(fā)揮越來越重要的作用。

結論:單張圖片到3D世界的橋梁

歸根結底,3DTown代表了一種突破性的方法,能夠從單一俯視圖生成高質(zhì)量、連貫的3D場景。通過結合區(qū)域化生成和空間感知的3D修復,這項技術克服了現(xiàn)有方法的局限性,在幾何質(zhì)量、布局一致性和紋理保真度方面取得了顯著改進。

就像魔術師能從帽子里變出一只兔子一樣,3DTown能從一張平面圖像中"變出"一個立體世界。但與魔術不同,這不是幻覺,而是基于堅實科學原理的技術創(chuàng)新。它為創(chuàng)建虛擬環(huán)境提供了一種更簡單、更高效的方式,有望在游戲開發(fā)、虛擬現(xiàn)實、城市規(guī)劃和教育等多個領域產(chǎn)生廣泛影響。

如果你對3DTown感興趣,可以訪問項目網(wǎng)站(https://eric-ai-lab.github.io/3dtown.github.io/)了解更多信息,或查閱原始論文獲取完整的技術細節(jié)。隨著技術的不斷發(fā)展,我們可以期待在不久的將來,從平面到立體的轉換會變得更加簡單和普遍,為我們打開一個充滿可能性的數(shù)字世界。

分享至
1贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-