這項(xiàng)由天工大學(xué)(Skywork AI)聯(lián)合香港科技大學(xué)(廣州)、中科院計(jì)算所和北京師范大學(xué)的研究團(tuán)隊(duì)開發(fā)的Matrix-3D技術(shù),發(fā)表于2025年8月的技術(shù)報(bào)告中。感興趣的讀者可以通過https://matrix-3d.github.io項(xiàng)目主頁獲取完整論文和演示。
當(dāng)你在社交媒體上看到一張美麗的風(fēng)景照片時(shí),是否曾經(jīng)想過能夠真正"走進(jìn)"這張照片,像在游戲中一樣自由探索其中的世界?Matrix-3D技術(shù)讓這個(gè)想法成為了現(xiàn)實(shí)。就像魔術(shù)師能夠把一張平面的畫變成立體的微縮世界一樣,Matrix-3D能夠從一張普通照片或一段文字描述出發(fā),創(chuàng)造出一個(gè)完整的、可以自由探索的3D虛擬世界。
這項(xiàng)技術(shù)的核心創(chuàng)新在于使用了全景圖像作為中間表示。傳統(tǒng)的方法就像通過一個(gè)小窗戶觀察外面的世界,視野非常有限,生成的3D場(chǎng)景往往只能從特定角度觀看,從其他方向看就會(huì)露出明顯的破綻。而Matrix-3D采用的全景表示法就像給你配了一副360度的眼鏡,能夠同時(shí)捕捉到周圍的所有景象。這種方法能夠生成真正全方位可探索的3D世界,無論你從哪個(gè)角度觀察,都能看到連貫一致的場(chǎng)景。
研究團(tuán)隊(duì)的解決方案分為三個(gè)主要步驟,就像制作一部3D電影的完整流程。首先,如果輸入的是文字描述或普通照片,系統(tǒng)會(huì)將其轉(zhuǎn)換為全景圖像,這就像是先畫出一張360度的設(shè)計(jì)草圖。接著,系統(tǒng)會(huì)根據(jù)預(yù)設(shè)的移動(dòng)路徑生成一段全景視頻,展現(xiàn)從不同位置觀察這個(gè)世界的連續(xù)畫面,這相當(dāng)于拍攝一段環(huán)繞式的紀(jì)錄片。最后,系統(tǒng)將這些2D的全景視頻內(nèi)容轉(zhuǎn)換為真正的3D世界,讓用戶可以自由地在其中行走和探索。
在第二步生成全景視頻的過程中,研究團(tuán)隊(duì)遇到了一個(gè)重要的技術(shù)挑戰(zhàn)。以往的方法通常使用點(diǎn)云渲染作為軌跡引導(dǎo),但這種方法經(jīng)常會(huì)產(chǎn)生摩爾紋等視覺瑕疵,就像老式電視機(jī)收到干擾信號(hào)時(shí)出現(xiàn)的條紋一樣。Matrix-3D團(tuán)隊(duì)創(chuàng)新性地采用了場(chǎng)景網(wǎng)格渲染技術(shù),這種方法能夠更準(zhǔn)確地處理物體之間的遮擋關(guān)系,生成的視頻質(zhì)量更加清晰流暢,幾何結(jié)構(gòu)也更加一致。
為了將2D全景視頻轉(zhuǎn)換為3D世界,團(tuán)隊(duì)提供了兩種不同的解決方案,就像提供快餐和精工細(xì)作兩種服務(wù)選項(xiàng)。第一種是基于優(yōu)化的重建方法,這種方法就像手工雕刻藝術(shù)品一樣,能夠生成非常精細(xì)和準(zhǔn)確的3D場(chǎng)景,但需要較長(zhǎng)的處理時(shí)間。具體過程是從生成的全景視頻中選擇關(guān)鍵幀,將每個(gè)全景圖像分割成12張透視圖像,然后使用3D高斯濺射技術(shù)進(jìn)行優(yōu)化重建。第二種是大型全景重建模型,這種方法就像工廠流水線一樣高效快速,能夠直接從視頻潛在表示中推斷出3D高斯屬性,實(shí)現(xiàn)快速的3D世界生成。
大型全景重建模型的訓(xùn)練過程特別有趣,采用了兩階段訓(xùn)練策略。由于視頻潛在表示和3D高斯屬性之間存在較大的域差異,就像要把一種語言翻譯成另一種完全不同的語言一樣困難,直接聯(lián)合訓(xùn)練往往會(huì)失敗。因此,研究團(tuán)隊(duì)首先訓(xùn)練模型預(yù)測(cè)深度信息,這相當(dāng)于先教模型理解場(chǎng)景的遠(yuǎn)近關(guān)系,然后再凍結(jié)深度相關(guān)參數(shù),訓(xùn)練其他3D高斯屬性。這種分步驟的訓(xùn)練方法確保了模型能夠穩(wěn)定收斂并生成高質(zhì)量的3D場(chǎng)景。
為了訓(xùn)練這些模型,研究團(tuán)隊(duì)還創(chuàng)建了Matrix-Pano數(shù)據(jù)集,這是第一個(gè)包含精確相機(jī)軌跡和深度信息的大規(guī)模合成全景視頻數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含116,759個(gè)高質(zhì)量的靜態(tài)全景視頻序列,每個(gè)序列都配有對(duì)應(yīng)的3D探索軌跡、深度圖和文本標(biāo)注。數(shù)據(jù)集的創(chuàng)建過程就像建造一個(gè)巨大的虛擬電影制片廠,使用虛幻引擎5等物理引擎生成各種場(chǎng)景,涵蓋室內(nèi)外不同環(huán)境、天氣和光照條件。
在軌跡采樣方面,團(tuán)隊(duì)開發(fā)了一個(gè)智能的路徑生成算法。系統(tǒng)首先識(shí)別可行走的表面,如道路或地板,然后應(yīng)用德勞內(nèi)三角剖分算法創(chuàng)建非重疊的三角網(wǎng)格。路徑采樣通過三個(gè)步驟完成:隨機(jī)選擇兩個(gè)網(wǎng)格頂點(diǎn)作為起點(diǎn)和終點(diǎn),使用迪杰斯特拉算法計(jì)算最短路徑,最后應(yīng)用拉普拉斯平滑減少急轉(zhuǎn)彎,生成自然流暢的移動(dòng)軌跡。為了確保生成高質(zhì)量的數(shù)據(jù),系統(tǒng)還實(shí)現(xiàn)了碰撞檢測(cè)機(jī)制,移除會(huì)導(dǎo)致幾何穿插或物體相交的軌跡。
實(shí)驗(yàn)結(jié)果顯示,Matrix-3D在全景視頻生成和3D世界重建方面都達(dá)到了最先進(jìn)的性能。在與現(xiàn)有全景視頻生成方法的比較中,包括360DVD、Imagine360和GenEx等方法,Matrix-3D在視覺質(zhì)量指標(biāo)PSNR、SSIM和LPIPS等方面都表現(xiàn)出明顯優(yōu)勢(shì)。特別是在480p分辨率下,Matrix-3D的PSNR達(dá)到23.7,遠(yuǎn)超其他方法的16.1以下的表現(xiàn)。在與相機(jī)控制視頻生成方法ViewCrafter和TrajectoryCrafter的比較中,Matrix-3D不僅在圖像質(zhì)量方面表現(xiàn)更佳,在相機(jī)可控性方面也顯示出更低的旋轉(zhuǎn)誤差和平移誤差。
在3D世界重建的評(píng)估中,研究團(tuán)隊(duì)將兩種重建方法與現(xiàn)有的ODGS方法進(jìn)行了比較。優(yōu)化based的重建方法在PSNR指標(biāo)上達(dá)到27.62,大幅超越ODGS的22.04,同時(shí)在LPIPS和SSIM指標(biāo)上也表現(xiàn)優(yōu)異。而前饋式重建方法雖然在質(zhì)量上稍遜于優(yōu)化方法,但在速度上有巨大優(yōu)勢(shì),只需10秒就能完成重建,相比ODGS的745秒和優(yōu)化方法的571秒有顯著提升。
Matrix-3D技術(shù)的一個(gè)特色功能是無限探索能力。用戶可以從輸入圖像和初始軌跡開始生成第一段3D場(chǎng)景,然后環(huán)顧四周,改變方向,沿著新的軌跡繼續(xù)探索。這種方法使得用戶能夠在任意方向上自由導(dǎo)航3D場(chǎng)景,創(chuàng)造出真正無邊界的虛擬體驗(yàn)。這就像在一個(gè)不斷擴(kuò)展的虛擬世界中進(jìn)行探險(xiǎn),每次轉(zhuǎn)向都可能發(fā)現(xiàn)新的景象。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融研究來驗(yàn)證各個(gè)組件的有效性。在軌跡引導(dǎo)方面,使用場(chǎng)景網(wǎng)格渲染相比點(diǎn)云渲染在多個(gè)指標(biāo)上都有提升,特別是在幾何一致性和紋理連續(xù)性方面表現(xiàn)更佳。在深度預(yù)測(cè)組件的比較中,DPT頭部相比簡(jiǎn)單的3D反卷積上采樣模塊能夠產(chǎn)生更準(zhǔn)確的深度估計(jì),這得益于其利用多尺度信息的能力。兩階段訓(xùn)練策略的有效性也得到了驗(yàn)證,研究發(fā)現(xiàn)聯(lián)合預(yù)測(cè)射線距離和其他3DGS屬性往往導(dǎo)致訓(xùn)練不穩(wěn)定和重建質(zhì)量下降。
與最新發(fā)布的WorldLabs技術(shù)的比較顯示,Matrix-3D生成的場(chǎng)景范圍明顯更大。在相同輸入圖像下,兩種方法都能生成3D場(chǎng)景,但Matrix-3D能夠支持更遠(yuǎn)距離的導(dǎo)航探索,生成的可探索區(qū)域更加廣闊。這種差異在實(shí)際應(yīng)用中非常重要,因?yàn)楦蟮奶剿鞣秶馕吨玫挠脩趔w驗(yàn)和更廣泛的應(yīng)用可能性。
Matrix-3D技術(shù)的應(yīng)用前景非常廣泛。在游戲設(shè)計(jì)領(lǐng)域,開發(fā)者可以快速從概念藝術(shù)或照片生成可玩的游戲場(chǎng)景。在影視制作中,導(dǎo)演可以從劇本描述或參考圖像創(chuàng)建虛擬拍攝環(huán)境。在虛擬現(xiàn)實(shí)應(yīng)用中,用戶可以將個(gè)人照片轉(zhuǎn)換為沉浸式VR體驗(yàn)。在自動(dòng)駕駛和具身智能的AI訓(xùn)練中,這項(xiàng)技術(shù)可以生成大量多樣化的虛擬環(huán)境用于算法測(cè)試和訓(xùn)練。
當(dāng)然,這項(xiàng)技術(shù)目前還存在一些限制。首先是推理速度相對(duì)較慢,生成單個(gè)場(chǎng)景需要數(shù)十分鐘時(shí)間,這主要是因?yàn)橄到y(tǒng)基于視頻擴(kuò)散模型構(gòu)建。其次,在Matrix-Pano數(shù)據(jù)集中,半透明或多孔區(qū)域(如樹木和圍欄)偶爾會(huì)出現(xiàn)深度值的不自然過渡。最后,從視頻潛在表示估計(jì)深度特別具有挑戰(zhàn)性,因?yàn)闈撛诳臻g壓縮了原始視頻并且只編碼外觀線索,而視頻VAE的目標(biāo)函數(shù)并不包含幾何信息。
未來的研究方向包括幾個(gè)有趣的方向。首先是為未見區(qū)域生成場(chǎng)景內(nèi)容,這可以通過特定的軌跡設(shè)置或集成3D對(duì)象生成來實(shí)現(xiàn)。其次是增強(qiáng)生成3D世界的可編輯性,支持用戶驅(qū)動(dòng)的操作,如場(chǎng)景修改和語義級(jí)交互,比如"在房子旁邊添加一棵樹"或"從道路上移除汽車"等高級(jí)命令。最后是擴(kuò)展到動(dòng)態(tài)場(chǎng)景生成,使場(chǎng)景中的每個(gè)對(duì)象都能移動(dòng)和交互,為用戶提供更沉浸的體驗(yàn),同時(shí)推進(jìn)世界模型的研究。
說到底,Matrix-3D代表了3D世界生成技術(shù)的一個(gè)重要進(jìn)步。這項(xiàng)技術(shù)將我們從靜態(tài)圖片觀察者變成了虛擬世界的探索者,讓每個(gè)人都能輕松創(chuàng)建屬于自己的3D虛擬空間。隨著技術(shù)的不斷改進(jìn)和優(yōu)化,我們有理由期待未來能夠看到更多基于這項(xiàng)技術(shù)的創(chuàng)新應(yīng)用,讓數(shù)字世界和現(xiàn)實(shí)世界的邊界變得更加模糊。無論是為了娛樂、教育還是專業(yè)應(yīng)用,Matrix-3D都為我們打開了一扇通向無限可能的大門。
Q&A
Q1:Matrix-3D技術(shù)是如何工作的?它能從什么開始生成3D世界?
A:Matrix-3D技術(shù)分三個(gè)步驟工作:首先將輸入的文字描述或普通照片轉(zhuǎn)換為360度全景圖像,然后根據(jù)預(yù)設(shè)路徑生成全景視頻,最后將視頻轉(zhuǎn)換為可探索的3D世界。它可以從一張照片或一段文字描述開始,創(chuàng)造出完整的虛擬3D環(huán)境。
Q2:Matrix-3D生成的3D世界質(zhì)量如何?與其他技術(shù)相比有什么優(yōu)勢(shì)?
A:Matrix-3D在多項(xiàng)質(zhì)量指標(biāo)上都優(yōu)于現(xiàn)有方法。在視覺質(zhì)量PSNR指標(biāo)上達(dá)到23.7,遠(yuǎn)超其他方法的16.1。它最大的優(yōu)勢(shì)是生成真正全方位可探索的3D世界,而傳統(tǒng)方法只能從特定角度觀看,從其他方向會(huì)露出破綻。
Q3:Matrix-3D技術(shù)的處理速度如何?普通人能使用嗎?
A:Matrix-3D提供兩種處理方式:精細(xì)重建需要約10分鐘,快速重建只需10秒。目前這項(xiàng)技術(shù)還在研究階段,普通用戶可以通過項(xiàng)目主頁https://matrix-3d.github.io了解詳情,但尚未商業(yè)化普及。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。