這項(xiàng)由新加坡南洋理工大學(xué)S-Lab實(shí)驗(yàn)室的曹宇康博士聯(lián)合美國得州農(nóng)工大學(xué)、香港科技大學(xué)等多個(gè)頂尖研究機(jī)構(gòu)完成的綜合性研究,于2025年7月28日發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的頂級期刊arXiv預(yù)印本上。有興趣深入了解的讀者可以通過論文編號arXiv:2507.21045v1訪問完整研究內(nèi)容。這項(xiàng)研究首次建立了4D空間智能重建的完整分級體系,為從二維視頻中構(gòu)建三維動(dòng)態(tài)世界提供了全新的理論框架。
想象一下,當(dāng)你觀看一部電影時(shí),你的大腦能夠自動(dòng)理解畫面中的物體距離、人物動(dòng)作,甚至預(yù)測下一秒會發(fā)生什么?,F(xiàn)在,科學(xué)家們正在嘗試讓計(jì)算機(jī)也具備這種神奇的能力——從一段普通的視頻中,不僅要看懂其中的內(nèi)容,還要完整重建出一個(gè)可以互動(dòng)的三維世界。這就是4D空間智能重建技術(shù)要解決的核心問題。
在這個(gè)領(lǐng)域,研究者們就像建筑師一樣,需要從平面的建筑圖紙(二維視頻)中建造出完整的建筑物(三維世界),并且這個(gè)建筑物還要能夠隨時(shí)間變化和運(yùn)動(dòng)。這聽起來簡單,但實(shí)際操作起來卻充滿挑戰(zhàn)。以往的方法就像盲人摸象,每個(gè)研究團(tuán)隊(duì)只關(guān)注其中某個(gè)部分,缺乏一個(gè)統(tǒng)一的框架來指導(dǎo)整個(gè)領(lǐng)域的發(fā)展。
曹宇康博士帶領(lǐng)的這個(gè)國際研究團(tuán)隊(duì)意識到了這個(gè)問題。他們發(fā)現(xiàn),盡管近年來相關(guān)技術(shù)發(fā)展迅猛,但學(xué)術(shù)界缺乏一個(gè)清晰的路線圖來解釋這個(gè)復(fù)雜系統(tǒng)是如何一步步構(gòu)建起來的。就像烹飪一道復(fù)雜菜肴,你需要知道先放什么后放什么,每個(gè)步驟的作用是什么,最終才能做出令人滿意的美食。
研究團(tuán)隊(duì)通過分析大量已有研究,創(chuàng)造性地提出了一個(gè)五層級的智能等級系統(tǒng)。這個(gè)系統(tǒng)就像攀登一座五層樓的大樓,每一層都有特定的功能,只有下層搭建穩(wěn)固了,上層才能順利建設(shè)。
一、第一層級:建立空間感知的基礎(chǔ)——深度、姿態(tài)和追蹤
在這個(gè)體系的最底層,計(jì)算機(jī)需要學(xué)會最基本的空間感知能力,就像嬰兒剛出生時(shí)需要先學(xué)會辨別距離和方向一樣。這一層主要解決三個(gè)基本問題:物體離鏡頭有多遠(yuǎn)(深度估計(jì))、攝像機(jī)在什么位置以什么角度拍攝(相機(jī)姿態(tài)估計(jì)),以及畫面中的物體是如何移動(dòng)的(3D追蹤)。
深度估計(jì)技術(shù)就像人類的雙眼視覺系統(tǒng)。當(dāng)你看向遠(yuǎn)方的山峰時(shí),你的大腦會自動(dòng)判斷山峰比眼前的樹木更遠(yuǎn)。計(jì)算機(jī)也需要從單個(gè)攝像頭拍攝的平面畫面中推斷出這種深度信息。早期的方法需要大量計(jì)算,就像一個(gè)人要仔細(xì)測量每個(gè)物體的位置才能判斷遠(yuǎn)近。但隨著深度學(xué)習(xí)技術(shù)的發(fā)展,現(xiàn)在的系統(tǒng)可以像訓(xùn)練有素的藝術(shù)家一樣,僅憑經(jīng)驗(yàn)就能快速準(zhǔn)確地判斷畫面的空間層次。
特別值得一提的是,最新的方法如DepthCrafter和ChronoDepth利用了視頻擴(kuò)散模型的強(qiáng)大能力。這些模型就像擁有了豐富經(jīng)驗(yàn)的老師傅,通過學(xué)習(xí)大量視頻樣本,能夠生成時(shí)間上連貫一致的深度序列。這意味著不僅單幀畫面的深度判斷準(zhǔn)確,而且整個(gè)視頻序列中物體的深度變化也符合物理規(guī)律。
相機(jī)姿態(tài)估計(jì)則解決了另一個(gè)基礎(chǔ)問題:攝像機(jī)本身在空間中的位置和朝向。這就像你在一個(gè)陌生房間里醒來,需要知道自己站在哪里、面朝哪個(gè)方向一樣重要。傳統(tǒng)的視覺里程計(jì)算法像是一個(gè)細(xì)心的記錄員,通過追蹤畫面中的特征點(diǎn)來推算相機(jī)的運(yùn)動(dòng)軌跡。而現(xiàn)代的學(xué)習(xí)方法則更像是一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)航員,能夠從視覺線索中直接推斷出位置信息。
3D追蹤技術(shù)要解決的是物體運(yùn)動(dòng)的問題。當(dāng)你看著一個(gè)飛舞的蝴蝶時(shí),你的眼睛會自然地跟蹤它的運(yùn)動(dòng)軌跡。計(jì)算機(jī)的3D追蹤系統(tǒng)需要在三維空間中持續(xù)定位和跟蹤移動(dòng)物體。OmniMotion等方法通過建立準(zhǔn)3D規(guī)范體積來實(shí)現(xiàn)這一功能,就像在三維空間中鋪設(shè)了一張無形的網(wǎng),能夠捕捉和記錄每個(gè)物體的運(yùn)動(dòng)軌跡。
最近出現(xiàn)的統(tǒng)一建模方法試圖將這三個(gè)基本任務(wù)整合在一起解決。DUSt3R等方法就像是多面手工匠,能夠同時(shí)處理深度、姿態(tài)和點(diǎn)映射的估計(jì)。這種統(tǒng)一方法的優(yōu)勢在于不同任務(wù)之間可以相互促進(jìn)和糾錯(cuò),就像一個(gè)樂隊(duì)中的不同樂器相互配合,最終演奏出和諧的樂章。VGGT更是將這一思想推向極致,采用端到端的transformer架構(gòu),能夠在幾秒鐘內(nèi)完成復(fù)雜的三維屬性估計(jì)。
二、第二層級:構(gòu)建場景的基本組件——物體、人物和建筑
有了第一層級的空間感知基礎(chǔ),系統(tǒng)現(xiàn)在需要識別和重建場景中的具體元素,就像一個(gè)室內(nèi)設(shè)計(jì)師需要識別房間里的家具、裝飾品和建筑結(jié)構(gòu)一樣。這一層級的工作重點(diǎn)是將抽象的幾何信息轉(zhuǎn)化為有意義的三維物體。
在進(jìn)入具體方法之前,我們需要理解不同三維表示方法的特點(diǎn)。點(diǎn)云就像一堆散落的珍珠,每個(gè)點(diǎn)都記錄著位置和顏色信息,雖然簡單直觀,但缺乏連續(xù)性。網(wǎng)格表示則像是用三角形拼接起來的藝術(shù)品,能夠精確描述物體表面,適合實(shí)時(shí)渲染,但構(gòu)建復(fù)雜形狀時(shí)會變得繁瑣。神經(jīng)輻射場(NeRF)革命性地提出了用神經(jīng)網(wǎng)絡(luò)來表示三維場景的方法,就像用數(shù)學(xué)公式來描述一個(gè)完整的世界,能夠產(chǎn)生照片般逼真的渲染結(jié)果。3D高斯點(diǎn)云(3DGS)則在效率和質(zhì)量之間找到了平衡點(diǎn),將場景表示為一系列三維高斯分布,既能快速渲染又能保持高質(zhì)量效果。
小規(guī)模三維重建主要關(guān)注單個(gè)物體或局部場景的精確還原。傳統(tǒng)方法通常依賴結(jié)構(gòu)光運(yùn)動(dòng)(SfM)和多視角立體視覺(MVS)技術(shù),就像考古學(xué)家通過多個(gè)角度的照片來重建古代文物的完整形狀。這些方法雖然可靠,但往往需要大量計(jì)算且對噪聲敏感。
基于NeRF的表面重建方法如NeuS和VolSDF通過同時(shí)優(yōu)化有符號距離函數(shù)和輻射場,能夠提取出高質(zhì)量的網(wǎng)格表面。這就像雕塑家先在心中構(gòu)想完整的作品形象,然后逐步雕琢出精美的細(xì)節(jié)。而基于3DGS的方法如2DGS和SuGaR則通過不同的策略來獲得網(wǎng)格表面,有的采用多視角深度融合,有的將高斯函數(shù)集成到SDF場中。
相比之下,大規(guī)模三維重建面臨著更多挑戰(zhàn)。NeRF++首先解決了無界場景的問題,通過將輻射場分解為有界前景和反球面背景組件,實(shí)現(xiàn)了超越攝像機(jī)視錐范圍的渲染。Mip-NeRF360進(jìn)一步通過錐形采樣和非線性失真場解決了混疊和尺度不平衡問題,就像給相機(jī)裝上了超廣角鏡頭和防畸變系統(tǒng)。
面對大規(guī)模場景,分區(qū)策略成為關(guān)鍵解決方案。Block-NeRF和MegaNeRF將場景分解為多個(gè)獨(dú)立的局部網(wǎng)絡(luò),就像城市規(guī)劃師將整個(gè)城市劃分為不同街區(qū)分別管理。這種方法不僅提高了訓(xùn)練效率,還支持街區(qū)級別的導(dǎo)航和探索。CityGS等方法更是采用分治訓(xùn)練和細(xì)節(jié)層次(LoD)策略,實(shí)現(xiàn)了大規(guī)模場景的實(shí)時(shí)渲染。
三、第三層級:捕捉時(shí)間維度——動(dòng)態(tài)場景的4D重建
靜態(tài)的三維重建就像博物館里的雕塑作品,美麗但缺乏生命力。真正的世界是動(dòng)態(tài)的,充滿了運(yùn)動(dòng)和變化。第三層級的任務(wù)就是為三維世界添加時(shí)間維度,讓靜態(tài)場景變成會動(dòng)的、有生命力的4D表現(xiàn)。
目前主要有兩種思路來處理動(dòng)態(tài)場景。第一種方法是建立一個(gè)靜態(tài)的"標(biāo)準(zhǔn)模板",然后學(xué)習(xí)這個(gè)模板隨時(shí)間的變形規(guī)律,就像制作動(dòng)畫時(shí)先畫出角色的標(biāo)準(zhǔn)姿勢,再讓它按照劇本要求做出各種動(dòng)作。D-NeRF開創(chuàng)了這一思路,通過學(xué)習(xí)變形場來描述場景的時(shí)間變化。
第二種方法則直接將時(shí)間作為額外的輸入?yún)?shù)融入到三維表示中,相當(dāng)于給每個(gè)三維點(diǎn)都標(biāo)上時(shí)間戳,讓系統(tǒng)知道在什么時(shí)候這個(gè)位置應(yīng)該呈現(xiàn)什么狀態(tài)。Neural Scene Flow Fields等方法采用了這種直接建模時(shí)間的策略,能夠更自然地處理復(fù)雜的動(dòng)態(tài)現(xiàn)象。
在動(dòng)態(tài)表面重建方面,研究者們面臨著更大的挑戰(zhàn)。傳統(tǒng)方法往往依賴預(yù)定義的物體模板,就像給演員準(zhǔn)備好戲服,然后讓他們按照劇本表演。但這種方法的局限性很明顯——現(xiàn)實(shí)世界中的運(yùn)動(dòng)往往比預(yù)設(shè)的模板復(fù)雜得多。
現(xiàn)代的方法如LASR和ViSER采用可微分渲染技術(shù),能夠直接從視頻中學(xué)習(xí)物體的形狀和運(yùn)動(dòng)。這就像讓計(jì)算機(jī)觀察真實(shí)演員的表演,然后學(xué)會模仿他們的每一個(gè)動(dòng)作細(xì)節(jié)。BANMo、PPR等方法進(jìn)一步將這種思路擴(kuò)展到鉸接物體,能夠處理具有關(guān)節(jié)結(jié)構(gòu)的復(fù)雜運(yùn)動(dòng)。
在新視角合成方面,研究的目標(biāo)是實(shí)現(xiàn)"子彈時(shí)間"效果——就像《黑客帝國》中的經(jīng)典鏡頭,觀眾可以在時(shí)間暫停的情況下自由切換觀察角度?;贜eRF的方法通過場景特定的優(yōu)化來建模非剛性運(yùn)動(dòng)、動(dòng)態(tài)外觀和復(fù)雜光照效果。而基于3DGS的方法則利用顯式點(diǎn)表示的優(yōu)勢,能夠更高效地編碼動(dòng)態(tài)幾何和外觀變化。
人體中心的動(dòng)態(tài)建模是這一層級的重要分支。SMPL參數(shù)模型為人體建模提供了標(biāo)準(zhǔn)框架,通過姿態(tài)參數(shù)和形狀參數(shù)來描述不同的人體狀態(tài)。SMPL就像是人體的"通用模板",通過調(diào)整參數(shù)可以生成不同體型、不同姿勢的人體模型。
早期的人體網(wǎng)格恢復(fù)方法通常采用逐幀處理的策略,就像拍攝一組連續(xù)照片然后逐張分析。但這種方法容易產(chǎn)生時(shí)間不一致性。后來的視頻基礎(chǔ)方法通過整合時(shí)間信息,使用循環(huán)網(wǎng)絡(luò)、變分自編碼器等技術(shù)來保持運(yùn)動(dòng)的連貫性。
自中心視角的運(yùn)動(dòng)追蹤帶來了新的挑戰(zhàn)和機(jī)遇。當(dāng)攝像頭安裝在人的頭部時(shí),視野范圍有限且運(yùn)動(dòng)復(fù)雜,就像戴著頭盔的摩托車手試圖觀察自己的身體動(dòng)作。但這種視角也提供了豐富的頭部運(yùn)動(dòng)信息,可以作為全身運(yùn)動(dòng)生成的重要線索。一點(diǎn)追蹤和三點(diǎn)追蹤技術(shù)通過不同程度的約束信息來推斷完整的身體姿態(tài)。
外觀豐富的動(dòng)態(tài)人體建模則追求更高的視覺真實(shí)感。VideoAvatar引入了規(guī)范空間映射的概念,將姿態(tài)估計(jì)與幾何紋理學(xué)習(xí)解耦,這就像分別訓(xùn)練演員的動(dòng)作表演和化妝造型,最后再組合出完整的角色形象。基于NeRF和3DGS的方法進(jìn)一步提升了渲染質(zhì)量,能夠生成電影級別的視覺效果。
四、第四層級:理解交互關(guān)系——場景組件間的相互作用
前面三個(gè)層級解決了"看到什么"和"如何運(yùn)動(dòng)"的問題,第四層級要解決的是"為什么這樣運(yùn)動(dòng)"——也就是場景中不同元素之間的交互關(guān)系。這就像從單純觀察演員的動(dòng)作,發(fā)展到理解他們之間的對話和互動(dòng)邏輯。
人往往是交互的中心,因此大部分研究都圍繞人與環(huán)境的交互展開。這些交互可以分為三大類:人與物體的交互、人與場景的交互,以及人與人之間的交互。
人物交互重建是一個(gè)相對較新但快速發(fā)展的研究領(lǐng)域。早期研究主要受限于高質(zhì)量3D交互數(shù)據(jù)的缺乏,研究者們不得不采用傳統(tǒng)優(yōu)化框架,通過啟發(fā)式接觸先驗(yàn)來重建人物空間關(guān)系。這就像考古學(xué)家根據(jù)有限的文物碎片來推測古代人的生活方式。
隨著可擴(kuò)展數(shù)據(jù)收集方法的出現(xiàn),學(xué)習(xí)方法開始顯示出顯著優(yōu)勢。一些研究通過學(xué)習(xí)有符號距離場來建模物體與人體的接近程度,然后基于學(xué)習(xí)到的場進(jìn)行后優(yōu)化。這種方法就像先訓(xùn)練一個(gè)"空間感知專家",讓它學(xué)會判斷人和物體之間的合理距離關(guān)系。
基于生成模型的方法如歸一化流則學(xué)習(xí)人物空間排列的分布特征,通過輸入視頻條件來生成合理的交互配置。這種方法的優(yōu)勢在于能夠緩解異常預(yù)測問題,就像有了一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)演,能夠指導(dǎo)演員做出更自然的互動(dòng)動(dòng)作。
但傳統(tǒng)方法的一個(gè)重要局限是對精確物體幾何模板的依賴,這大大限制了它們在多樣化場景中的應(yīng)用。最新的方法如HDM和InterTrack通過擴(kuò)散模型學(xué)習(xí)物體類別內(nèi)的幾何對應(yīng)關(guān)系,實(shí)現(xiàn)了幾何無關(guān)的3D交互點(diǎn)云重建,這就像從臨摹特定物體發(fā)展到能夠創(chuàng)作任意形狀的藝術(shù)作品。
人場景交互的研究面臨著更大的挑戰(zhàn),因?yàn)樾枰瑫r(shí)處理可移動(dòng)物體和固定環(huán)境結(jié)構(gòu)。早期方法專注于從圖像幀估算人與靜態(tài)場景的接觸關(guān)系,但由于訓(xùn)練數(shù)據(jù)稀疏和3D場景幾何不準(zhǔn)確,效果有限。
為了解決數(shù)據(jù)規(guī)模和質(zhì)量問題,一些研究構(gòu)建了合成數(shù)據(jù)集。GTA-IM利用游戲引擎中的3D資產(chǎn)構(gòu)建包含視頻和偽3D標(biāo)簽的合成數(shù)據(jù)。CIRCLES通過VR應(yīng)用將真實(shí)世界運(yùn)動(dòng)捕捉與數(shù)字環(huán)境集成。TRUMANS則在現(xiàn)實(shí)中復(fù)制3D場景資產(chǎn)。這些方法提供了更豐富準(zhǔn)確的3D標(biāo)簽,就像為演員搭建了專業(yè)的拍攝場地。
然而,3D資產(chǎn)與真實(shí)環(huán)境之間仍存在顯著差距。從真實(shí)世界視頻聯(lián)合重建人和動(dòng)態(tài)場景仍然是一個(gè)極具挑戰(zhàn)性的問題。SitComs3D針對電視節(jié)目的多鏡頭同場景特點(diǎn),通過不同表示方式解耦人和場景。JOSH利用先進(jìn)的低級3D屬性預(yù)測模型,聯(lián)合恢復(fù)人體運(yùn)動(dòng)、3D場景結(jié)構(gòu)、相機(jī)姿態(tài)和接觸關(guān)系,并通過基于物理的約束進(jìn)行優(yōu)化。
人人交互的建模同樣充滿挑戰(zhàn)。早期的單目和稀疏多視角系統(tǒng)使用3D關(guān)鍵點(diǎn)熱圖進(jìn)行多人姿態(tài)估計(jì),但忽略了幾何約束和物理接觸,導(dǎo)致結(jié)果不夠真實(shí)。
為解決這個(gè)問題,研究者們引入了實(shí)例級先驗(yàn)和幾何碰撞損失來獲得物理合理的多人交互。BUDDI和HumanInteraction進(jìn)一步利用擴(kuò)散模型和VQ-VAE等生成模型來建模交互先驗(yàn),這為后續(xù)優(yōu)化迭代提供了理想的初始估計(jì)。MultiPhys則采用了另一種策略,結(jié)合物理模擬器通過模仿學(xué)習(xí)框架在物理正確的運(yùn)動(dòng)空間中搜索最優(yōu)策略。
外觀豐富的人中心交互重建代表了這一領(lǐng)域的前沿發(fā)展。HOSNeRF通過擴(kuò)展人體骨架來包含物體骨骼,允許模型處理接觸引入的變形。其獲取顏色和密度值的過程可以表示為一個(gè)條件函數(shù),其中可學(xué)習(xí)的狀態(tài)嵌入代表了規(guī)范空間中不同幀的物體狀態(tài)。
其他方法進(jìn)一步擴(kuò)展了這一方向:NeuMan通過為人和場景訓(xùn)練獨(dú)立的NeRF來實(shí)現(xiàn)解耦,提高了靈活性和場景組合能力;PPR結(jié)合可微分物理模擬與可微分渲染,通過坐標(biāo)下降優(yōu)化重建以提高真實(shí)感;RAC將方法泛化到動(dòng)物和人類,通過學(xué)習(xí)固定骨長的一致骨架來實(shí)現(xiàn)。
自中心人中心交互的研究專注于從第一人稱視角捕捉交互行為。這類視頻獨(dú)特地記錄了佩戴者與物體、環(huán)境和其他人的交互,攜帶著豐富的動(dòng)態(tài)世界信息?,F(xiàn)有基準(zhǔn)和模型主要關(guān)注手物交互,H2O等早期工作使用頭戴RGB-D相機(jī)和多個(gè)第三人稱相機(jī)捕捉自中心手物交互。HOI4D進(jìn)一步擴(kuò)大了自中心手物交互捕捉的規(guī)模,HOT3D則利用Project Aria眼鏡和Quest 3頭戴設(shè)備實(shí)現(xiàn)更精確的手和物體姿態(tài)標(biāo)注。
五、第五層級:融入物理世界的規(guī)律——物理定律與約束
前四個(gè)層級讓計(jì)算機(jī)學(xué)會了觀察、識別、跟蹤和理解交互,但還缺少一個(gè)關(guān)鍵要素:對物理世界基本規(guī)律的理解。第五層級要解決的是讓重建的4D場景不僅看起來真實(shí),更要符合物理定律,能夠支持真實(shí)的物理交互和模擬。
這一層級的重要性在具身AI和機(jī)器人應(yīng)用中尤為突出。當(dāng)我們希望機(jī)器人能夠從觀看人類行為的視頻中學(xué)習(xí)技能時(shí),重建的場景必須遵循重力、摩擦、碰撞等物理規(guī)律,否則機(jī)器人就無法將學(xué)到的動(dòng)作遷移到真實(shí)世界中。
基于物理的角色動(dòng)畫是這一領(lǐng)域的重要分支。傳統(tǒng)的角色動(dòng)畫制作就像木偶戲表演,動(dòng)畫師需要手動(dòng)控制每個(gè)關(guān)節(jié)的運(yùn)動(dòng)。而基于物理的方法則像是訓(xùn)練真實(shí)的運(yùn)動(dòng)員,讓虛擬角色在符合物理規(guī)律的約束下自主學(xué)習(xí)各種動(dòng)作技能。
DeepMimic開創(chuàng)了通過直接軌跡跟蹤來學(xué)習(xí)動(dòng)態(tài)運(yùn)動(dòng)的方法,就像讓學(xué)生模仿老師的每一個(gè)動(dòng)作細(xì)節(jié)。AMP進(jìn)一步采用生成對抗框架,通過判別器來評判運(yùn)動(dòng)的真實(shí)性,引導(dǎo)控制器在訓(xùn)練過程中產(chǎn)生更自然的動(dòng)作。但AMP需要為每個(gè)任務(wù)訓(xùn)練單獨(dú)的策略,這就像為每項(xiàng)運(yùn)動(dòng)都需要專門的教練。
為了提取更通用的運(yùn)動(dòng)先驗(yàn),ASE、CALM、ControlVAE等方法試圖學(xué)習(xí)可以跨任務(wù)重用的運(yùn)動(dòng)表示。MaskedMimic引入了條件變分自編碼器進(jìn)行多任務(wù)學(xué)習(xí),但在泛化到未見控制信號方面仍有困難。
文本驅(qū)動(dòng)的控制方法代表了另一個(gè)重要發(fā)展方向。SuperPADL采用多階段訓(xùn)練流程,結(jié)合強(qiáng)化學(xué)習(xí)和行為克隆來實(shí)現(xiàn)自然語言指導(dǎo)的角色行為。PDP使用擴(kuò)散模型創(chuàng)建能夠解釋文本命令的多模態(tài)控制器,通過在訓(xùn)練期間注入噪聲來提高魯棒性。
分層控制框架試圖解決文本驅(qū)動(dòng)物理控制器在表達(dá)力和多樣性方面的不足。這些方法將問題分解為高級規(guī)劃階段和低級控制器,規(guī)劃器可能生成軌跡、路徑點(diǎn)或部分身體目標(biāo),然后由強(qiáng)化學(xué)習(xí)策略進(jìn)行跟蹤。CLoSD結(jié)合了基于擴(kuò)散的運(yùn)動(dòng)學(xué)規(guī)劃器和基于物理的跟蹤器,但高級運(yùn)動(dòng)學(xué)規(guī)劃和低級物理可行性之間的不匹配常常導(dǎo)致足部滑動(dòng)或抖動(dòng)等問題。
人物交互的物理建模面臨額外的復(fù)雜性,需要精細(xì)的接觸控制、多體協(xié)調(diào)和真實(shí)的物理響應(yīng)。早期系統(tǒng)使用手工狀態(tài)機(jī)或倒立擺等模型來模擬跑步或跳躍等行為。更近期的工作使用深度強(qiáng)化學(xué)習(xí)來建模更多樣化的交互,包括體育運(yùn)動(dòng)和工具使用。
接觸感知獎(jiǎng)勵(lì)的引入顯著改善了復(fù)雜交互任務(wù)的性能。這種以接觸為中心的視角允許跨廣泛交互場景的統(tǒng)一訓(xùn)練,無需手工制作的獎(jiǎng)勵(lì)或單獨(dú)的流水線,就像訓(xùn)練出了一個(gè)通用的"接觸專家"。
物理可信的3D場景重建是另一個(gè)重要研究方向。PhysicsNeRF通過注入顯式物理指導(dǎo)——包括深度排序、稀疏性和跨視角對齊損失,實(shí)現(xiàn)了即使在極度稀疏的多視角輸入下也能獲得穩(wěn)定且物理一致的幾何形狀。
PBR-NeRF等逆向渲染流水線將神經(jīng)輻射場與基于物理的渲染先驗(yàn)相結(jié)合,能夠聯(lián)合優(yōu)化幾何、光照和空間變化材質(zhì),有效緩解了原始NeRF中物理上不可能的反照率-光照糾纏問題。
CAST首先從單張RGB圖像檢索CAD代理,然后應(yīng)用物理感知校正步驟,嚴(yán)格執(zhí)行支撐、非穿透和物體關(guān)系約束,產(chǎn)生接觸一致的布局。PhyRecon提出利用模擬器的可微分梯度來改善重建場景組件的物理可信度。
Aug-NeRF采用三級物理基礎(chǔ)增強(qiáng)作為訓(xùn)練過程中的正則化策略,顯著減少了視角不一致的浮動(dòng)物并增強(qiáng)了泛化能力。平面反射感知NeRF等專門方法通過顯式建模二次反射光線來消除玻璃和鏡子等反射表面后面經(jīng)常出現(xiàn)的幻覺浮動(dòng)物。
這些技術(shù)的發(fā)展為構(gòu)建可用于機(jī)器人訓(xùn)練、虛擬現(xiàn)實(shí)交互和物理模擬的高質(zhì)量4D環(huán)境奠定了基礎(chǔ)。當(dāng)虛擬世界能夠準(zhǔn)確模擬物理規(guī)律時(shí),我們就可以在其中進(jìn)行各種實(shí)驗(yàn)和訓(xùn)練,然后將結(jié)果遷移到真實(shí)世界中。
回過頭來看整個(gè)五層級體系,我們可以發(fā)現(xiàn)這是一個(gè)逐步提升的認(rèn)知過程。第一層級讓系統(tǒng)獲得基本的空間感知能力,第二層級學(xué)會識別和重建具體物體,第三層級添加了時(shí)間維度來處理動(dòng)態(tài)變化,第四層級理解了交互關(guān)系,第五層級最終融入了物理世界的基本規(guī)律。
這個(gè)體系就像人類認(rèn)知發(fā)展的縮影。嬰兒首先學(xué)會感知距離和方向,然后識別物體,接著理解運(yùn)動(dòng)和變化,再學(xué)會交互和社會關(guān)系,最后形成對物理世界規(guī)律的理解。計(jì)算機(jī)的4D空間智能發(fā)展似乎也在遵循著類似的路徑。
目前的技術(shù)發(fā)展還面臨著許多挑戰(zhàn)。在第一層級,處理遮擋、動(dòng)態(tài)物體運(yùn)動(dòng)和非朗伯表面仍然困難,許多方法還需要后處理步驟或手工調(diào)參。第二層級缺乏通用最優(yōu)的場景表示,在無界或無紋理區(qū)域恢復(fù)精細(xì)幾何仍然困難。第三層級的前饋方法在速度-泛化-質(zhì)量之間存在權(quán)衡,復(fù)雜動(dòng)態(tài)現(xiàn)象的處理仍是未解決問題。第四層級的方法常常需要精確物體模板,缺乏大規(guī)模高質(zhì)量數(shù)據(jù)集。第五層級的強(qiáng)化學(xué)習(xí)方法樣本效率低,計(jì)算成本高,泛化能力有限。
但這些挑戰(zhàn)也指明了未來的發(fā)展方向。隨著世界模型、視覺-語言基礎(chǔ)模型和多模態(tài)數(shù)據(jù)收集技術(shù)的發(fā)展,4D空間智能有望在不久的將來實(shí)現(xiàn)重大突破。這不僅會革命性地改變電影制作、游戲開發(fā)和虛擬現(xiàn)實(shí)體驗(yàn),更會為機(jī)器人技術(shù)、自動(dòng)駕駛和具身AI開辟全新的可能性。
說到底,4D空間智能重建技術(shù)的最終目標(biāo)是讓計(jì)算機(jī)能夠像人類一樣理解和重建我們生活的這個(gè)三維動(dòng)態(tài)世界。雖然距離這個(gè)目標(biāo)還有不少路要走,但這項(xiàng)研究為我們提供了清晰的路線圖。每一個(gè)層級的突破都會帶來實(shí)際應(yīng)用的進(jìn)步,而五個(gè)層級的協(xié)同發(fā)展最終將實(shí)現(xiàn)真正智能的4D空間理解系統(tǒng)。對于普通人來說,這意味著未來我們可能只需要用手機(jī)拍攝一段視頻,就能生成一個(gè)完整的、可交互的、符合物理規(guī)律的虛擬世界——這種技術(shù)將徹底改變我們創(chuàng)造、分享和體驗(yàn)數(shù)字內(nèi)容的方式。
Q&A
Q1:4D空間智能重建是什么?它能做什么? A:4D空間智能重建是讓計(jì)算機(jī)從普通視頻中構(gòu)建三維動(dòng)態(tài)世界的技術(shù)。它能從二維視頻中提取深度信息、識別物體、跟蹤運(yùn)動(dòng)、理解交互關(guān)系,最終生成符合物理規(guī)律的可交互三維場景,就像從平面電影中重建出一個(gè)真實(shí)可探索的虛擬世界。
Q2:這個(gè)五層級體系有什么實(shí)際應(yīng)用價(jià)值? A:這個(gè)體系為4D重建技術(shù)提供了清晰發(fā)展路徑,每個(gè)層級都有具體應(yīng)用:第一層用于AR/VR定位,第二層用于三維建模,第三層用于動(dòng)態(tài)場景生成,第四層用于交互系統(tǒng),第五層用于機(jī)器人訓(xùn)練。整合后可實(shí)現(xiàn)電影特效、游戲制作、虛擬現(xiàn)實(shí)等應(yīng)用的重大突破。
Q3:普通人何時(shí)能夠使用這些技術(shù)? A:部分基礎(chǔ)功能已經(jīng)在商用產(chǎn)品中出現(xiàn),如手機(jī)的人像模式、AR濾鏡等。完整的4D重建功能預(yù)計(jì)在3-5年內(nèi)會有消費(fèi)級產(chǎn)品,屆時(shí)用戶可能只需拍攝一段視頻就能生成完整的三維場景,用于社交分享、教育培訓(xùn)或娛樂體驗(yàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。