av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

牛津大學(xué)團隊打造"記憶大師"：讓AI記住看過的每一幀畫面，創(chuàng)造無限虛擬世界

人工智能視頻生成記憶機制

牛津大學(xué)團隊打造"記憶大師"：讓AI記住看過的每一幀畫面，創(chuàng)造無限虛擬世界

作者：科技行者

2025-06-26 12:51

分享至：

牛津大學(xué)研究團隊開發(fā)出VMem記憶系統(tǒng)，首次解決了AI視頻生成中的長期一致性問題。該系統(tǒng)通過創(chuàng)新的表面元素索引機制，讓AI能夠智能記憶和檢索歷史畫面，確保生成的視頻在長時間播放和視角切換時保持高度連貫。實驗證明VMem在多項指標上顯著優(yōu)于現(xiàn)有技術(shù)，為虛擬現(xiàn)實、游戲開發(fā)等領(lǐng)域提供了重要技術(shù)突破。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-26 12:51 ? 科技行者

這項由牛津大學(xué)計算機視覺實驗室的李潤佳、Philip Torr、Andrea Vedaldi和Tomas Jakab等研究人員共同完成的突破性研究，發(fā)表于2025年6月23日的計算機視覺頂級會議論文集（arXiv:2506.18903v1）。有興趣深入了解技術(shù)細節(jié)的讀者可以通過arXiv平臺訪問完整論文。這項研究首次解決了AI生成視頻時的"健忘癥"問題，讓人工智能能夠像人類一樣記住曾經(jīng)見過的場景，從而創(chuàng)造出前所未有的連貫虛擬世界。

想象你正在玩一個開放世界的電子游戲，從廚房走到客廳，再到臥室，最后又回到廚房。你期望廚房看起來和剛才離開時完全一樣，但如果游戲的AI有"健忘癥"，你可能會發(fā)現(xiàn)廚房的布局完全變了樣。這正是當(dāng)前AI視頻生成技術(shù)面臨的核心挑戰(zhàn)。

現(xiàn)有的AI視頻生成技術(shù)就像一個患有短期記憶障礙的畫家。當(dāng)你要求它繪制一個房間的不同角度時，它每次都像第一次看到這個房間一樣，無法保持前后一致。這導(dǎo)致生成的視頻在長時間播放后會出現(xiàn)嚴重的畫面不連貫，物體位置隨意變化，甚至整個場景結(jié)構(gòu)都會發(fā)生扭曲。

牛津大學(xué)的研究團隊設(shè)計了一個革命性的解決方案，他們稱之為"Surfel-Indexed View Memory"（簡稱VMem），這就像給AI裝上了一個超級記憶系統(tǒng)。這個系統(tǒng)不僅能記住每一幀畫面，更重要的是能夠智能地理解哪些記憶對當(dāng)前要生成的畫面最有用。

VMem的工作原理可以比作一個經(jīng)驗豐富的導(dǎo)游。當(dāng)導(dǎo)游帶你參觀一座博物館時，他不會把所有房間的信息一股腦地告訴你，而是會根據(jù)你當(dāng)前所在的位置，有選擇性地分享最相關(guān)的信息。如果你正在參觀埃及展廳，他會重點介紹埃及文物的歷史，而不是隔壁希臘展廳的內(nèi)容。

這個記憶系統(tǒng)的核心在于一種叫做"表面元素"（surfels）的技術(shù)概念。可以把這些表面元素想象成場景中的"記憶錨點"。就像你在旅行時會在重要景點拍照留念一樣，VMem會在3D場景的關(guān)鍵表面位置設(shè)置這些記憶錨點，每個錨點都記錄著曾經(jīng)從哪些角度觀察過這個位置。

當(dāng)AI需要生成新的視角時，VMem首先會查看這個新視角能看到哪些表面區(qū)域，然后迅速找出之前拍攝過這些區(qū)域的最佳角度。這就像你想畫一幅靜物寫生，你不會隨意選擇參考照片，而是會挑選那些角度最合適、光線最好的照片作為參考。

這種方法的巧妙之處在于它并不需要構(gòu)建完美精確的3D模型。傳統(tǒng)的方法就像要求畫家在作畫前必須先制作一個完全準確的雕塑模型，這不僅耗時費力，而且任何小錯誤都會影響最終作品。而VMem更像是一個聰明的攝影師，它只需要知道大概的空間關(guān)系，就能選出最合適的參考照片。

在具體實現(xiàn)上，研究團隊使用了一種類似"拼貼畫"的技術(shù)。當(dāng)需要生成新畫面時，系統(tǒng)會從記憶庫中選出最相關(guān)的幾張歷史畫面，然后像拼貼藝術(shù)家一樣，將這些畫面的精華部分融合成全新的視角。這個過程完全自動化，而且速度很快。

為了驗證這個系統(tǒng)的效果，研究團隊設(shè)計了一系列嚴格的測試。他們讓AI生成長達數(shù)百幀的視頻序列，并特意設(shè)計了"回到原點"的路徑。就像測試一個人的方向感，你蒙住他的眼睛帶他繞一圈，看他能否準確回到起點。結(jié)果顯示，使用VMem的AI系統(tǒng)在回到起始位置時，能夠幾乎完美地重現(xiàn)最初的場景，而傳統(tǒng)方法生成的場景則出現(xiàn)了明顯的變形和不一致。

研究團隊還在多個不同類型的數(shù)據(jù)集上進行了測試，包括室內(nèi)場景和戶外景觀。無論是復(fù)雜的室內(nèi)家具布局，還是宏偉的建筑景觀，VMem都展現(xiàn)出了優(yōu)異的一致性保持能力。特別是在處理遮擋關(guān)系時，這個系統(tǒng)表現(xiàn)出了近乎人類的空間理解能力。

與現(xiàn)有技術(shù)相比，VMem在多個關(guān)鍵指標上都取得了顯著提升。在畫面質(zhì)量方面，新方法生成的圖像更加清晰自然。在空間一致性方面，物體的位置和大小保持穩(wěn)定，不會出現(xiàn)隨意飄移的現(xiàn)象。最重要的是，在長期一致性測試中，VMem展現(xiàn)出了前所未有的穩(wěn)定性，即使在生成數(shù)百幀的長視頻后，畫面依然保持高度連貫。

這項技術(shù)的應(yīng)用前景極其廣闊。在虛擬現(xiàn)實領(lǐng)域，用戶可以在無限擴展的虛擬世界中自由探索，而不用擔(dān)心場景突然變樣。在游戲開發(fā)方面，開發(fā)者可以用單張概念圖就生成完整的游戲關(guān)卡。在電影制作中，導(dǎo)演可以從一個靜態(tài)場景圖像出發(fā)，創(chuàng)造出復(fù)雜的運鏡序列。

當(dāng)然，這項技術(shù)也面臨一些挑戰(zhàn)。目前系統(tǒng)主要在室內(nèi)場景上進行了訓(xùn)練，對于復(fù)雜的自然景觀或包含大量運動物體的場景，效果可能會有所下降。此外，由于使用了擴散模型技術(shù)，單幀畫面的生成速度還不能達到實時要求，這在一定程度上限制了其在實時交互應(yīng)用中的使用。

研究團隊也坦誠地指出了當(dāng)前評估方法的局限性。由于缺乏專門針對長期一致性的標準化測試基準，他們主要使用循環(huán)路徑測試作為評估手段。雖然這種方法有效，但相對簡單，無法完全展現(xiàn)VMem在處理復(fù)雜遮擋關(guān)系方面的全部潛力。

盡管存在這些限制，VMem代表了AI視頻生成技術(shù)的一個重要里程碑。它首次實現(xiàn)了真正意義上的"有記憶"視頻生成，為創(chuàng)建一致性虛擬世界提供了可行的技術(shù)路徑。隨著計算能力的提升和訓(xùn)練數(shù)據(jù)的豐富，這項技術(shù)有望在不久的將來實現(xiàn)更廣泛的應(yīng)用。

從技術(shù)實現(xiàn)的角度來看，VMem的設(shè)計理念極其巧妙。它沒有試圖解決3D重建的所有技術(shù)難題，而是聚焦于解決視頻生成中的一致性問題。這種"夠用就好"的工程哲學(xué)體現(xiàn)了研究團隊的務(wù)實態(tài)度。系統(tǒng)只需要粗略的幾何信息就能有效工作，這大大降低了技術(shù)實現(xiàn)的復(fù)雜度和計算成本。

在具體的技術(shù)架構(gòu)上，VMem采用了模塊化設(shè)計，可以輕松集成到現(xiàn)有的視頻生成流水線中。這意味著其他研究團隊和開發(fā)者可以相對容易地將這項技術(shù)應(yīng)用到自己的項目中。這種開放性設(shè)計理念有助于推動整個領(lǐng)域的快速發(fā)展。

實驗結(jié)果顯示，VMem在保持高畫質(zhì)的同時顯著提升了生成效率。傳統(tǒng)方法需要在每一幀生成時考慮所有歷史信息，計算復(fù)雜度隨著序列長度平方級增長。而VMem通過智能選擇最相關(guān)的歷史信息，將計算復(fù)雜度控制在可管理的范圍內(nèi)。

研究團隊在論文中詳細比較了VMem與多種現(xiàn)有方法的性能。在短期生成任務(wù)中，VMem在所有主要指標上都優(yōu)于競爭對手。在長期生成任務(wù)中，這種優(yōu)勢更加明顯。特別是在循環(huán)路徑測試中，VMem生成的視頻在返回起始點時幾乎能夠完美重現(xiàn)原始場景，而其他方法都出現(xiàn)了不同程度的漂移現(xiàn)象。

值得一提的是，VMem的記憶機制還具有一定的抗噪能力。即使在輸入的幾何信息存在誤差的情況下，系統(tǒng)依然能夠選擇出合適的參考視角。這種魯棒性來源于其基于投票的視角選擇機制，多個記憶錨點的共同作用能夠有效過濾掉單個錨點的錯誤信息。

從更廣闊的視角來看，VMem的成功為人工智能的記憶機制研究提供了新的思路。傳統(tǒng)的AI系統(tǒng)往往依賴于端到端的學(xué)習(xí)，試圖讓模型自動學(xué)會所有必要的能力。而VMem展示了顯式記憶結(jié)構(gòu)的價值，證明了在某些任務(wù)中，精心設(shè)計的記憶機制可能比純粹的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更加有效。

說到底，VMem的出現(xiàn)標志著AI視頻生成技術(shù)從"無狀態(tài)"向"有記憶"的重要轉(zhuǎn)變。就像人類的認知能力離不開記憶一樣，真正智能的AI系統(tǒng)也需要具備有效的記憶機制。VMem不僅解決了當(dāng)前視頻生成中的技術(shù)難題，更重要的是為構(gòu)建更智能、更一致的AI系統(tǒng)指明了方向。隨著這項技術(shù)的不斷完善和推廣應(yīng)用，我們有理由期待在不久的將來能夠看到更加逼真、更加連貫的AI生成內(nèi)容，為虛擬現(xiàn)實、游戲娛樂、影視制作等眾多領(lǐng)域帶來革命性的變化。對于普通用戶而言，這意味著更加沉浸式的數(shù)字體驗和更加豐富的創(chuàng)作可能性。

Q&A

Q1：VMem是什么？它解決了什么問題？ A：VMem是牛津大學(xué)開發(fā)的AI視頻生成記憶系統(tǒng)，解決了AI生成長視頻時畫面不連貫的問題。就像給AI裝上了記憶，讓它能記住之前生成的畫面，確保從不同角度看同一個場景時保持一致，不會出現(xiàn)物體隨意變形或消失的情況。

Q2：這項技術(shù)會不會很快用到游戲和電影中？ A：技術(shù)前景很好，但目前還有限制。VMem主要在室內(nèi)場景表現(xiàn)優(yōu)秀，生成單幀需要4秒多時間，還達不到實時要求。不過隨著計算能力提升，預(yù)計幾年內(nèi)就能在游戲關(guān)卡設(shè)計、電影預(yù)覽等非實時場景中開始應(yīng)用。

Q3：普通人能用上這個技術(shù)嗎？需要什么條件？ A：目前還不能直接使用，但研究團隊已經(jīng)開源了相關(guān)代碼。普通用戶需要等待商業(yè)化產(chǎn)品，或者具備一定技術(shù)背景才能部署使用。隨著技術(shù)成熟，未來可能會出現(xiàn)基于VMem的消費級視頻創(chuàng)作工具。

人工智能視頻生成記憶機制

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準確

清華大學(xué)研究團隊提出SIRI方法，通過"壓縮-擴張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升，其中最佳模型達到49.6%準確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn