av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<var id="evuq1"><button id="evuq1"><span id="evuq1"></span></button></var>

<center id="evuq1"><big id="evuq1"><strong id="evuq1"></strong></big></center>

<s id="evuq1"></s>

<style id="evuq1"></style>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

Adobe團(tuán)隊首次實現(xiàn)"時空魔法"：讓AI從幾張照片重建任意時刻的4D世界

計算機(jī)視覺4D重建時空表示學(xué)習(xí)

Adobe團(tuán)隊首次實現(xiàn)"時空魔法"：讓AI從幾張照片重建任意時刻的4D世界

作者：科技行者

2025-06-27 11:42

分享至：

Adobe研究團(tuán)隊開發(fā)的4D-LRM系統(tǒng)實現(xiàn)了從稀疏多視角圖像重建動態(tài)4D場景的突破。該技術(shù)采用統(tǒng)一的時空表示學(xué)習(xí)方法，通過Transformer架構(gòu)直接預(yù)測4D高斯基元，能在1.5秒內(nèi)重建24幀動態(tài)序列。在多種相機(jī)配置下表現(xiàn)優(yōu)異，為AR/VR、影視制作和機(jī)器人學(xué)等領(lǐng)域提供了新的技術(shù)可能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-27 11:42 ? 科技行者

這項由Adobe Research聯(lián)合密歇根大學(xué)、北卡羅來納大學(xué)教堂山分校等頂尖院校研究團(tuán)隊開發(fā)的突破性技術(shù)，于2025年6月發(fā)表在計算機(jī)視覺領(lǐng)域的頂級會議上。有興趣深入了解的讀者可以通過arXiv:2506.18890v1訪問完整論文。

想象一下，如果你只有幾張不同角度、不同時間拍攝的照片，卻能夠重建出一個完整的4D世界——不僅包含物體的三維形狀，還能展現(xiàn)它在任何時刻的運(yùn)動狀態(tài)。這聽起來像是科幻電影中的情節(jié)，但Adobe的研究團(tuán)隊已經(jīng)讓這個夢想成為現(xiàn)實。

這個被稱為"4D-LRM"（Large Space-Time Reconstruction Model）的AI系統(tǒng)，就像一位擁有超強(qiáng)想象力的藝術(shù)家，能夠從少數(shù)幾張"快照"中重新構(gòu)建整個動態(tài)場景。與傳統(tǒng)的3D重建技術(shù)只能還原靜態(tài)物體不同，4D-LRM能夠捕捉時間的流逝，重現(xiàn)物體的每一個動作細(xì)節(jié)。

過去，科學(xué)家們在處理動態(tài)場景重建時就像是在解一道極其復(fù)雜的拼圖游戲。傳統(tǒng)方法大致分為三種思路：第一種像是雕刻師傅，需要從大量密集的視頻數(shù)據(jù)中一點一點優(yōu)化雕琢，耗時費(fèi)力且對輸入要求極高；第二種像是測量員，專門估算幾何形狀和相機(jī)位置，但無法進(jìn)行新視角的合成；第三種像是畫家，能創(chuàng)造出視覺上令人信服的作品，但往往無法保證重建的準(zhǔn)確性，特別是單視角視頻存在運(yùn)動歧義的根本問題。

Adobe團(tuán)隊的創(chuàng)新之處在于，他們將4D重建視為一個統(tǒng)一的"時空表示學(xué)習(xí)"問題。這就好比訓(xùn)練一位超級記憶大師，讓他能夠從片段化的記憶中完整重現(xiàn)整個事件的發(fā)生過程。研究團(tuán)隊采用了一種叫做"4D高斯散布"的表示方法，這種方法將空間和時間統(tǒng)一處理，每個"高斯基元"都像是一個小小的時空膠囊，記錄著特定位置在特定時刻的信息。

該系統(tǒng)的核心架構(gòu)基于Transformer，這是目前最先進(jìn)的AI架構(gòu)之一。研究團(tuán)隊將輸入的多視角圖像轉(zhuǎn)換成包含時間信息的"圖像令牌"，然后通過深度學(xué)習(xí)網(wǎng)絡(luò)直接預(yù)測出4D高斯基元。這個過程就像是一位經(jīng)驗豐富的導(dǎo)演，能夠從幾個關(guān)鍵鏡頭中重建整部電影的情節(jié)。

在技術(shù)實現(xiàn)上，4D-LRM采用了"像素對齊高斯"的巧妙設(shè)計。對于輸入圖像的每個像素，系統(tǒng)都會預(yù)測一個對應(yīng)的4D高斯基元，這些基元包含了20個參數(shù)：3個RGB顏色通道、4個時空尺度參數(shù)、8個用于4D旋轉(zhuǎn)的四元數(shù)參數(shù)、1個透明度參數(shù)，以及4個時空中心坐標(biāo)。為了處理稀疏視角或有限視野覆蓋的情況，研究團(tuán)隊還引入了可選的"自由高斯令牌"，讓模型能夠生成不依賴于特定像素位置的高斯基元。

研究團(tuán)隊構(gòu)建了一個基于Objaverse的大規(guī)模4D數(shù)據(jù)集進(jìn)行訓(xùn)練。這個數(shù)據(jù)集包含了32000個動態(tài)物體和783000個靜態(tài)3D物體（通過添加微小運(yùn)動轉(zhuǎn)換為24幀序列）。訓(xùn)練采用了課程學(xué)習(xí)策略，先在128×128分辨率下預(yù)訓(xùn)練10萬步，然后在256×256分辨率下繼續(xù)訓(xùn)練2萬步，整個過程在160塊A100 GPU上進(jìn)行。

實驗結(jié)果令人印象深刻。4D-LRM在多種相機(jī)配置下都表現(xiàn)出色，包括交替標(biāo)準(zhǔn)視角、幀插值、雙旋轉(zhuǎn)相機(jī)和隨機(jī)視角等場景。在Consistent4D數(shù)據(jù)集上，模型達(dá)到了超過30的PSNR分?jǐn)?shù)，顯著優(yōu)于傳統(tǒng)的逐幀3D重建方法。更重要的是，4D-LRM只需一次前向推理就能重建24幀動態(tài)序列，在單塊A100 GPU上耗時不到1.5秒，實現(xiàn)了真正的實時性能。

研究團(tuán)隊還深入分析了模型的插值能力。他們發(fā)現(xiàn)，當(dāng)某些時間戳缺失時，4D-LRM會自動學(xué)習(xí)將某些高斯基元重新分配到這些缺失區(qū)域，有效填補(bǔ)時間空隙。在插值設(shè)置下，預(yù)測的4D高斯基元往往具有更大的時間方差，使每個高斯基元能夠影響更廣泛的相鄰時間戳，從而提高插值質(zhì)量和時間覆蓋范圍。

在4D內(nèi)容生成方面，4D-LRM也展現(xiàn)出了強(qiáng)大的潛力。通過與SV3D等擴(kuò)散模型結(jié)合，系統(tǒng)能夠從單張圖像生成動態(tài)4D內(nèi)容，在保真度和推理速度方面都超越了現(xiàn)有的生成式4D建模方法。這種結(jié)合生成先驗與重建模型的方式，為4D內(nèi)容創(chuàng)作開辟了新的可能性。

不過，這項技術(shù)也存在一些局限性。當(dāng)物體遵循非線性運(yùn)動軌跡時，4D-LRM有時會遇到困難，因為橢球高斯基元的核密度是沿主方向?qū)R的，難以有效捕捉彎曲或分支的運(yùn)動路徑。此外，模型在處理快速運(yùn)動和自遮擋場景時，可能出現(xiàn)時間重影等問題。

從技術(shù)發(fā)展前景來看，4D-LRM為未來的研究指明了幾個重要方向。研究團(tuán)隊認(rèn)為，長上下文處理是一個關(guān)鍵挑戰(zhàn)——如何讓模型高效處理數(shù)百張輸入圖像，支持1K或2K高分辨率，這需要在架構(gòu)層面的根本性突破，包括混合模型處理長上下文和測試時訓(xùn)練策略。

另一個重要方向是移除3D歸納偏置。目前4D-LRM依賴于已知的相機(jī)姿態(tài)，未來的研究應(yīng)該致力于從未標(biāo)定的圖像中學(xué)習(xí)重建，甚至摒棄顯式的3D表示如NeRF或3DGS，直接從"野外"視頻中進(jìn)行4D重建。

從物體級別擴(kuò)展到場景級別也是一個重要挑戰(zhàn)。雖然4D-LRM目前專注于物體重建，但場景級別的"任意視角"概念更為復(fù)雜——我們無法觀察墻后的內(nèi)容。雖然GS-LRM已證明該架構(gòu)可以擴(kuò)展到場景級重建，但目前缺乏許可兼容的高質(zhì)量4D場景數(shù)據(jù)集，而且物體級數(shù)據(jù)的增強(qiáng)策略無法直接遷移到場景級設(shè)置。

這項研究的意義遠(yuǎn)超技術(shù)本身。在AR/VR應(yīng)用中，4D-LRM能夠?qū)崿F(xiàn)更真實的虛擬體驗，用戶可以從任意角度觀察動態(tài)虛擬物體。在影視制作領(lǐng)域，這項技術(shù)可以大大降低特效制作成本，從少量實拍素材生成完整的動態(tài)場景。在機(jī)器人學(xué)和具身AI領(lǐng)域，準(zhǔn)確的4D世界模型對于機(jī)器人理解和操作動態(tài)環(huán)境至關(guān)重要。

研究團(tuán)隊在性能分析中還發(fā)現(xiàn)了一些有趣的規(guī)律。隨著輸入視角數(shù)量的增加，模型性能在48個視角時達(dá)到峰值，之后略有下降。這可能是由于過多的高斯基元導(dǎo)致4D表示過于擁擠，以及Transformer在處理超長輸入序列時的局限性。這一發(fā)現(xiàn)為未來設(shè)計能處理更長上下文的4D-LRM變體提供了重要指導(dǎo)。

在訓(xùn)練時縮放分析中，研究團(tuán)隊比較了多種設(shè)計選擇的效果。增加監(jiān)督視角數(shù)量能略微改善收斂速度，但會增加迭代時間。從零開始引入自由高斯基元不會顯著影響重建質(zhì)量，但會大幅減慢訓(xùn)練速度?；贖exPlane的分解式4DGS表示效果不如統(tǒng)一的時空表示，這證實了研究團(tuán)隊的設(shè)計選擇。

說到底，4D-LRM代表了計算機(jī)視覺領(lǐng)域的一個重要里程碑。它首次實現(xiàn)了真正意義上的大規(guī)模4D重建，能夠從稀疏的多視角輸入重建任意視角和時刻的動態(tài)場景。這項技術(shù)不僅在學(xué)術(shù)上具有開創(chuàng)性意義，在實際應(yīng)用中也展現(xiàn)出巨大潛力。

歸根結(jié)底，我們正在見證AI技術(shù)如何重新定義我們對空間和時間的理解和重建能力。從靜態(tài)的照片到動態(tài)的4D世界，從被動的觀察到主動的重建，4D-LRM讓我們離"數(shù)字孿生"的夢想又近了一步。未來，當(dāng)我們能夠從幾張手機(jī)照片就重建出完整的動態(tài)場景時，現(xiàn)實與虛擬的邊界將變得更加模糊，而這種技術(shù)進(jìn)步將為人類社會帶來前所未有的可能性。

有興趣深入了解這項突破性研究的讀者，可以訪問Adobe Research的官方頁面或通過arXiv論文庫獲取完整技術(shù)細(xì)節(jié)。

Q&A

Q1：4D-LRM是什么？它能做什么？ A：4D-LRM是Adobe開發(fā)的AI系統(tǒng)，能從幾張不同角度、不同時間的照片重建完整的4D動態(tài)場景。它就像一位超級藝術(shù)家，不僅能還原物體的三維形狀，還能重現(xiàn)物體在任意時刻的運(yùn)動狀態(tài)，實現(xiàn)從任意視角觀察任意時間的動態(tài)重建。

Q2：4D-LRM會不會取代傳統(tǒng)的3D建模和動畫制作？ A：4D-LRM在特定場景下具有明顯優(yōu)勢，特別是快速原型制作和稀疏數(shù)據(jù)重建方面。但它更可能作為現(xiàn)有工作流程的強(qiáng)大補(bǔ)充工具，而非完全替代。傳統(tǒng)方法在精細(xì)控制和復(fù)雜場景處理方面仍有獨特價值，未來更可能是多種技術(shù)的融合應(yīng)用。

Q3：普通人如何使用4D-LRM技術(shù)？ A：目前4D-LRM主要是研究階段的技術(shù)，普通用戶還無法直接使用。不過Adobe作為商業(yè)軟件公司，未來很可能將這項技術(shù)集成到Creative Suite等產(chǎn)品中。研究代碼和模型可能會在GitHub等平臺開源，技術(shù)愛好者可以關(guān)注相關(guān)進(jìn)展。

計算機(jī)視覺4D重建時空表示學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<blockquote id="08xpd"><rt id="08xpd"></rt></blockquote>

^{<thead id="08xpd"></thead>}