av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 記憶堅實的世界:斯坦福和上海交大研究團隊為視頻世界模型打造長期空間記憶

記憶堅實的世界:斯坦福和上海交大研究團隊為視頻世界模型打造長期空間記憶

2025-06-09 16:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 16:59 ? 科技行者

在人工智能迅速發(fā)展的今天,我們正在見證視頻生成技術(shù)的革命性突破。最近,由斯坦福大學(xué)、上海交通大學(xué)、香港中文大學(xué)、上海人工智能實驗室和南洋理工大學(xué)的研究團隊聯(lián)合發(fā)表了一篇引人注目的論文《具有長期空間記憶的視頻世界模型》(Video World Models with Long-term Spatial Memory)。這篇論文發(fā)表于2025年6月5日的arXiv預(yù)印本平臺(arXiv:2506.05284v1),由Tong Wu、Shuai Yang(共同第一作者)、Ryan Po、Yinghao Xu、Ziwei Liu、Dahua Lin和Gordon Wetzstein共同完成。有興趣深入了解的讀者可以通過https://spmem.github.io/訪問項目主頁。

一、為什么我們需要讓AI記住它生成的世界?

想象一下,你在玩一個開放世界的電子游戲。你探索了一座城堡,離開去探險,然后幾小時后決定回到那座城堡。令人驚訝的是,城堡的布局、裝飾和整體外觀都與你第一次訪問時完全相同。這種一致性對于創(chuàng)造沉浸式體驗至關(guān)重要。

然而,當前的視頻世界模型——也就是那些能夠根據(jù)指令自動生成連續(xù)視頻的AI系統(tǒng)——在這方面面臨著嚴重的挑戰(zhàn)。它們往往會"忘記"之前生成的場景細節(jié),導(dǎo)致在重訪已生成區(qū)域時出現(xiàn)不一致性。就好像游戲世界每次你轉(zhuǎn)身離開后又重新隨機生成了一樣!

這個問題的核心在于這些模型的"記憶"能力有限。目前的視頻生成模型通常只能"記住"最近生成的幾幀畫面,用作生成下一幀的參考。這就像只能記住最近5分鐘發(fā)生的事情,而忘記了5分鐘前的一切。這種短期記憶限制極大地阻礙了這些模型創(chuàng)建長期一致的虛擬世界的能力。

為什么會這樣呢?這主要是因為計算復(fù)雜度的問題。視頻生成模型中的注意力機制需要處理所有歷史幀之間的關(guān)系,這會導(dǎo)致計算復(fù)雜度隨著幀數(shù)增加而呈二次增長。簡單來說,讓AI"記住"的畫面越多,需要的計算資源就呈爆炸性增長,很快就會超出實際硬件能承受的范圍。

斯坦福大學(xué)和上海交大的研究團隊受到人類記憶機制的啟發(fā),提出了一個創(chuàng)新的解決方案。我們?nèi)祟惒⒉皇呛唵蔚赜涀∵^去所有經(jīng)歷的每一個細節(jié),而是通過不同類型的記憶系統(tǒng)組織信息:工作記憶用于短期記住近期事件,空間記憶用于記住環(huán)境的布局和結(jié)構(gòu),而情節(jié)記憶則幫助我們記住特定的重要事件和經(jīng)歷。

研究團隊模仿這種多層次的記憶結(jié)構(gòu),為視頻世界模型設(shè)計了三種互補的記憶機制: 1. 短期工作記憶:類似于現(xiàn)有模型使用的最近生成幀 2. 長期空間記憶:使用三維點云表示持久的空間結(jié)構(gòu) 3. 稀疏情節(jié)記憶:存儲關(guān)鍵歷史幀作為重要參考點

就像人類記憶系統(tǒng)的分工合作一樣,這三種記憶機制各司其職,協(xié)同工作,使AI能夠在生成長視頻時保持場景的一致性,即使攝像機回到之前已經(jīng)"看過"的區(qū)域。

二、如何構(gòu)建AI的"三重記憶系統(tǒng)"?

研究團隊設(shè)計的記憶系統(tǒng)讓我們聯(lián)想到人類大腦中的不同記憶區(qū)域。讓我們深入了解每種記憶類型是如何工作的。

首先是短期工作記憶。想象你正在做一道復(fù)雜的數(shù)學(xué)題,需要暫時記住一些中間步驟和數(shù)值。這就是工作記憶的功能——暫時存儲我們正在處理的信息。在視頻生成模型中,短期工作記憶由最近生成的幾幀視頻(通常是5-10幀)組成。這些幀為模型提供了關(guān)于當前場景中動態(tài)元素(如移動的人物或車輛)的即時上下文,確保運動的連貫性和短期一致性。

但僅有短期記憶是不夠的。想象你離開家去度假兩周,當你回來時,你仍然記得你家的布局、家具的位置以及整體結(jié)構(gòu)。這就是空間記憶的作用——幫助我們記住環(huán)境的物理結(jié)構(gòu)和布局。

研究團隊設(shè)計的長期空間記憶使用一種稱為"點云"的三維表示。這種表示法就像是用無數(shù)小點標記出場景中所有物體的位置和外觀,共同構(gòu)成了整個場景的三維地圖。更重要的是,系統(tǒng)能夠區(qū)分場景中的靜態(tài)部分(如建筑物和樹木)和動態(tài)部分(如行走的人或移動的車輛),并且只將靜態(tài)部分存儲在長期空間記憶中。

研究團隊使用了一種稱為"截斷符號距離函數(shù)融合"(TSDF融合)的技術(shù)來實現(xiàn)這一點。這聽起來很復(fù)雜,但其原理其實很直觀。想象一下,如果你多次拍攝同一個場景,靜態(tài)物體(如建筑物)在每張照片中的位置應(yīng)該是一致的,而動態(tài)物體(如行人)則會出現(xiàn)在不同位置。TSDF融合技術(shù)就是通過比較多幀圖像,找出哪些元素保持不變(靜態(tài)部分),哪些元素在變化(動態(tài)部分),然后只保留那些靜態(tài)的、一致的元素在空間記憶中。

最后一種是情節(jié)記憶,這就像是我們記住生活中特定重要事件的能力——比如你的大學(xué)畢業(yè)典禮或第一次約會的細節(jié)。在AI系統(tǒng)中,研究團隊設(shè)計的情節(jié)記憶存儲了一系列關(guān)鍵的歷史參考幀。當系統(tǒng)探索到新區(qū)域時,它會保存這些區(qū)域的關(guān)鍵幀作為"快照",以便將來需要時參考。這些情節(jié)記憶幀幫助系統(tǒng)記住特定視角下場景的詳細視覺特征,這些特征可能在點云表示中丟失。

這三種記憶機制如何協(xié)同工作呢?想象你正在使用這個AI系統(tǒng)探索一個虛擬城市。系統(tǒng)使用短期工作記憶來確保你看到的人物行走動作流暢自然;使用長期空間記憶來記住城市的建筑布局、街道結(jié)構(gòu)和其他靜態(tài)元素;當你轉(zhuǎn)身回頭看之前走過的街道時,系統(tǒng)會從情節(jié)記憶中檢索相關(guān)的關(guān)鍵幀,確保你看到的街道與之前看到的完全一致,包括其中的細節(jié)和紋理。

三、從理論到實踐:如何訓(xùn)練這樣的記憶系統(tǒng)?

要訓(xùn)練一個具有長期記憶能力的視頻世界模型,研究團隊需要專門的數(shù)據(jù)和創(chuàng)新的訓(xùn)練方法。這就像教一個孩子記住一個城市的布局——你需要帶他多次游覽這個城市的不同部分,然后測試他是否能記住路線和地標。

研究團隊首先從MiraData數(shù)據(jù)集中收集了原始視頻。這個數(shù)據(jù)集包含了豐富的、長時間的視頻序列,非常適合訓(xùn)練需要理解長期一致性的模型。他們將每個視頻分割成97幀的片段,其中前49幀作為"源序列",后48幀作為"目標序列",中間有一幀重疊以保持連續(xù)性。

接下來,研究團隊使用一個名為Mega-SaM的4D重建工具從這些視頻中提取相機內(nèi)參、外參和每幀的深度圖。簡單來說,這個工具可以理解視頻中相機是如何移動的,以及場景中不同物體有多遠。然后,他們將這些信息輸入到TSDF融合系統(tǒng)中,將源序列的RGB-D觀測(即顏色和深度信息)整合到一個體積網(wǎng)格中。這個過程會自動抑制由動態(tài)物體(如行人)造成的不一致深度信息,從而得到一個干凈的靜態(tài)場景重建。

有了這些處理過的數(shù)據(jù),研究團隊為每個訓(xùn)練樣本創(chuàng)建了以下成對數(shù)據(jù): - 源視頻序列及其相機軌跡 - 從融合的靜態(tài)點云中渲染的目標軌跡的靜態(tài)場景引導(dǎo) - 目標序列的完整RGB幀作為監(jiān)督信號

這就像是給AI系統(tǒng)提供了一本詳細的"記憶訓(xùn)練手冊":首先觀看視頻的開始部分,然后使用從中提取的靜態(tài)場景知識,預(yù)測視頻后續(xù)部分應(yīng)該是什么樣子。通過不斷重復(fù)這個過程,AI系統(tǒng)逐漸學(xué)會了如何維護和利用長期空間記憶。

研究團隊最終構(gòu)建了一個包含90,000個結(jié)構(gòu)化視頻樣本的數(shù)據(jù)集,每個樣本都配有明確的3D空間記憶和未來觀測。他們使用這個數(shù)據(jù)集來訓(xùn)練他們的模型,使其能夠?qū)W習(xí)如何有效地存儲和檢索不同類型的記憶。

四、記憶系統(tǒng)如何引導(dǎo)視頻生成?

現(xiàn)在,讓我們看看這個記憶增強的系統(tǒng)如何實際工作。想象一下廚師在準備一道復(fù)雜的菜肴,需要同時參考食譜(長期計劃)、關(guān)注當前正在烹飪的步驟(短期工作記憶),并回想過去做過的類似菜肴的經(jīng)驗(情節(jié)記憶)。研究團隊的視頻生成系統(tǒng)以類似的方式整合了三種不同的記憶機制。

系統(tǒng)的核心是一個稱為"擴散變換器"(DiT)的視頻生成模型。這種模型通過迭代去噪過程生成視頻幀,就像藝術(shù)家從模糊的草圖逐漸精細化到細節(jié)豐富的畫作。研究團隊基于CogVideoX-5B-I2V架構(gòu)實現(xiàn)了他們的系統(tǒng),這是一個強大的預(yù)訓(xùn)練視頻生成模型。

為了將靜態(tài)點云渲染整合到生成過程中,研究團隊設(shè)計了一個類似于ControlNet的架構(gòu)。想象這就像是給藝術(shù)家提供了一個場景的線框圖,幫助他們保持透視和比例正確。系統(tǒng)首先沿著輸入軌跡從當前靜態(tài)空間記憶中渲染條件視頻,背景中缺少點云的區(qū)域設(shè)置為黑色。然后使用預(yù)訓(xùn)練的3DVAE將這個靜態(tài)點云渲染編碼為條件潛在變量。這些條件信息通過從主DiT塊復(fù)制的前18個預(yù)訓(xùn)練DiT塊進行處理,并通過零初始化的線性層添加到主DiT中相應(yīng)的特征圖。

為了支持動態(tài)元素的生成和現(xiàn)有動態(tài)元素的時間延續(xù),系統(tǒng)將源視頻最后五幀的標記與目標視頻標記沿幀維度連接起來,提供動態(tài)上下文引導(dǎo)。此外,目標條件標記也與前面提到的近期上下文標記結(jié)合,確保幀級對應(yīng)關(guān)系。

最后,為了在記憶幀和當前生成的幀之間建立信息交換,系統(tǒng)選擇代表性的歷史關(guān)鍵幀作為輔助參考幀。這些參考幀也由3DVAE編碼并被分塊為參考標記。系統(tǒng)添加了一個歷史交叉注意力機制,引導(dǎo)當前生成幀和記憶幀之間的信息交換。具體來說,視頻標記作為查詢,參考標記作為鍵和值。

在實際使用過程中,系統(tǒng)自回歸地生成視頻幀,每次生成幾幀,然后將這些新幀納入上下文窗口,用于生成下一批幀。同時,系統(tǒng)在線更新空間記憶和情節(jié)記憶,為未來的生成提供更好的長期一致性。這就像是一個不斷學(xué)習(xí)和記憶的系統(tǒng),隨著探索的繼續(xù),其對世界的理解也在不斷豐富和完善。

五、實驗證明:記憶增強確實有效

研究團隊進行了全面的評估,證明他們的記憶增強方法在多個方面顯著優(yōu)于現(xiàn)有方法。他們的評估集中在三個關(guān)鍵方面:視角回憶一致性、整體視頻質(zhì)量和用戶研究。

首先是視角回憶一致性。想象你參觀一座城市,早上看了某個景點,下午又回到同一個地方。如果這是真實世界,你會期望看到基本相同的景色(除了可能的光線變化和移動物體)。研究團隊設(shè)計了一個"視角回憶"實驗,讓系統(tǒng)生成沿著前進然后返回的相機軌跡的視頻,并比較相同相機位置處生成的幀。他們使用PSNR、SSIM和LPIPS等圖像重建指標來評估這種一致性。

結(jié)果令人印象深刻:他們的方法在PSNR上達到了19.10,而最接近的基線方法只有12.16;在SSIM上達到了0.6471,而基線最高只有0.4512;在LPIPS上達到了0.3069(越低越好),而基線最低只有0.5874。這意味著他們的系統(tǒng)在重訪同一場景時,能夠生成更加一致的圖像,大大減少了"忘記"現(xiàn)象。

第二個評估維度是整體視頻質(zhì)量。研究團隊使用VBench指標套件評估了六個方面:美學(xué)質(zhì)量、成像質(zhì)量、時間閃爍、運動平滑度、主體一致性和背景一致性。與基線方法相比,他們的方法在大多數(shù)指標上表現(xiàn)更好,特別是在美學(xué)質(zhì)量、減少時間閃爍和運動平滑度方面。這表明記憶增強不僅改善了長期一致性,還提高了整體視頻質(zhì)量。

最后,研究團隊進行了一項全面的用戶研究,邀請20位有視頻/3D/4D生成經(jīng)驗的受試者對他們的方法和三個基線方法生成的結(jié)果進行排名。他們選擇了14個代表性用例,包括靜態(tài)場景的新視角合成、動態(tài)場景的新視角合成(第一人稱和第三人稱視角),以及覆蓋真實和游戲風(fēng)格的場景樣式。用戶從三個角度評估結(jié)果:相機準確性、靜態(tài)一致性和動態(tài)合理性。

用戶研究結(jié)果明確顯示,他們的方法在所有三個評估標準上都顯著優(yōu)于基線,平均人類排名分數(shù)分別為3.6260(相機準確性)、3.3846(靜態(tài)一致性)和3.4011(動態(tài)合理性),遠高于基線方法。

為了深入了解各個記憶組件的貢獻,研究團隊還進行了消融實驗,移除短期工作記憶或長期情節(jié)記憶,并比較結(jié)果。實驗表明,每個組件都一致地貢獻到性能改進中。特別是,上下文幀(工作記憶)在增強短期運動連貫性方面起著關(guān)鍵作用,而歷史參考幀(情節(jié)記憶)則幫助模型更好地保留和利用時間距離較遠的細節(jié),提高靜態(tài)區(qū)域和主體的長期一致性,并進一步增強涉及移動實體的運動的合理性和連續(xù)性。

六、局限性與未來展望

盡管研究團隊的方法取得了顯著的進步,但仍存在一些局限性。最顯著的問題是他們用于存儲新生成信息到空間記憶中的TSDF融合算法并不完美。特別是,當從與之前觀測非常不同的相機位置查看之前生成的內(nèi)容時,會引入偽影。

研究團隊展示了一個失敗案例:當連續(xù)相機位置之間的距離過大,軌跡展現(xiàn)過于突兀的角度變化時,4D重建可能會失敗,導(dǎo)致幀之間出現(xiàn)明顯的鬼影偽影。結(jié)果,TSDF融合會過濾掉大量本應(yīng)屬于靜態(tài)區(qū)域的點云,最終導(dǎo)致極度稀疏的空間記憶和關(guān)鍵信息的丟失。例如,蜘蛛俠在摩天大樓之間快速擺蕩的場景說明了這種具有挑戰(zhàn)性的相機軌跡如何導(dǎo)致空間記憶存儲中的遺漏,從而導(dǎo)致不精確的相機控制和不一致性。

此外,研究團隊指出,他們的記憶機制主要設(shè)計用于實現(xiàn)空間一致性,而近期的幀打包策略(如FramePacker)主要關(guān)注角色一致性。未來的工作可能會結(jié)合這些機制,同時實現(xiàn)兩種類型的一致性。他們解決的遺忘問題只是視頻世界模型面臨的幾個挑戰(zhàn)之一。另一個挑戰(zhàn)是"漂移"——由于隨時間累積的錯誤導(dǎo)致圖像質(zhì)量下降,這是他們沒有解決的問題。

盡管如此,這項研究為提高視頻世界模型的長期一致性邁出了重要一步。通過引入受人類記憶機制啟發(fā)的記憶系統(tǒng),研究團隊展示了如何使視頻生成模型"記住"它們已經(jīng)生成的世界,為內(nèi)容創(chuàng)作或為代理或機器人創(chuàng)建訓(xùn)練數(shù)據(jù)的視頻世界模型鋪平了道路。

七、總結(jié):向人類般的AI記憶邁進

歸根結(jié)底,斯坦福和上海交大研究團隊的這項工作向我們展示了AI系統(tǒng)如何通過模仿人類的記憶機制變得更加智能和實用。就像我們?nèi)祟愐揽抗ぷ饔洃浱幚硌矍暗娜蝿?wù),依靠空間記憶導(dǎo)航熟悉的環(huán)境,依靠情節(jié)記憶回憶特定經(jīng)歷一樣,這個增強的視頻世界模型現(xiàn)在也擁有了多層次的記憶系統(tǒng),使其能夠創(chuàng)建更加一致和沉浸式的視頻體驗。

這項研究的實際應(yīng)用非常廣泛。從游戲開發(fā)到虛擬現(xiàn)實,從電影制作到機器人訓(xùn)練,任何需要生成長時間、一致視頻內(nèi)容的領(lǐng)域都可能從中受益。想象一下未來的AI助手能夠為你創(chuàng)建一個虛擬旅游體驗,帶你游覽一個虛構(gòu)的城市,而無論你如何探索,城市的布局和外觀都保持一致。

當然,這項研究只是朝著更智能、更人性化的AI系統(tǒng)邁出的一步。隨著技術(shù)的不斷發(fā)展,我們可以期待看到更加復(fù)雜和高效的記憶機制,進一步縮小AI系統(tǒng)與人類認知能力之間的差距。

如果你對這項研究感興趣,可以通過訪問https://spmem.github.io/了解更多詳情,或者直接閱讀論文原文。這項突破性的工作無疑將為視頻生成和世界模型的未來發(fā)展鋪平道路,讓我們拭目以待這些技術(shù)將如何改變我們創(chuàng)建和體驗虛擬世界的方式。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-