av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<kbd id="rlpg6"><rt id="rlpg6"></rt></kbd>

<sub id="rlpg6"><p id="rlpg6"></p></sub>

<optgroup id="rlpg6"></optgroup>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

物理感知視頻生成新突破：上海交大團隊開發(fā)VideoREPA，通過關(guān)系對齊賦予AI視頻物理常識

人工智能視頻生成物理模擬

物理感知視頻生成新突破：上海交大團隊開發(fā)VideoREPA，通過關(guān)系對齊賦予AI視頻物理常識

作者：科技行者

2025-06-09 15:32

分享至：

上海交大研究團隊開發(fā)的VideoREPA是一種突破性的視頻生成框架，通過令牌關(guān)系蒸餾技術(shù)將視頻理解模型中的物理知識轉(zhuǎn)移到文本到視頻（T2V）擴散模型中。與傳統(tǒng)方法不同，VideoREPA關(guān)注空間和時間關(guān)系的對齊，使生成的視頻更符合物理常識。實驗表明，這種方法在VideoPhy基準(zhǔn)測試中將物理常識分?jǐn)?shù)提高了24.1%，明顯優(yōu)于現(xiàn)有技術(shù)。該研究為創(chuàng)建更真實的AI生成視頻提供了新思路，展示了理解能力與生成質(zhì)量間的密切關(guān)聯(lián)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-09 15:32 ? 科技行者

這項引人注目的研究來自上海交通大學(xué)計算機科學(xué)與工程系、人工智能學(xué)院以及人工智能教育部重點實驗室的研究團隊，由張向東、廖佳琦、張少峰、孟繁青、萬向鵬、嚴(yán)駿馳和香港中文大學(xué)的程禹共同完成。這篇題為《VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models》（VideoREPA：通過與基礎(chǔ)模型的關(guān)系對齊學(xué)習(xí)視頻生成的物理知識）的論文于2025年5月29日發(fā)表在arXiv預(yù)印本平臺（arXiv:2505.23656v1），展示了一種提升AI生成視頻物理合理性的全新方法。

想象一下，你正在使用一個AI工具生成一段關(guān)于"棒球手套接住一個硬棒球"的視頻。在傳統(tǒng)的文本到視頻（T2V）模型中，你可能會得到一個看似真實但物理上不合理的結(jié)果——比如手套碰到棒球后，棒球卻詭異地穿過手套繼續(xù)飛行，或者棒球觸碰手套時沒有任何動量變化。這種不符合物理常識的現(xiàn)象在當(dāng)前最先進的文本到視頻生成模型中相當(dāng)普遍。

上海交大團隊的研究人員發(fā)現(xiàn)了一個有趣的現(xiàn)象：雖然視頻生成模型對物理規(guī)律的理解有限，但自監(jiān)督學(xué)習(xí)的視頻理解模型（如VideoMAEv2）卻對物理現(xiàn)象有著更深入的理解。這就像一個會講故事的人（生成模型）和一個觀察細(xì)致的人（理解模型）之間的差距——后者能更好地理解物體如何在現(xiàn)實世界中運動和交互。

基于這一發(fā)現(xiàn)，研究團隊提出了一個巧妙的想法：能否讓"會講故事"的模型向"觀察細(xì)致"的模型學(xué)習(xí)，從而生成更符合物理常識的視頻？這就是VideoREPA（Video Representation Alignment through Physics Awareness）的核心思想。

一、什么是VideoREPA？為何物理常識對視頻生成如此重要？

在我們的日常生活中，當(dāng)我們看到一個球從高處落下，我們自然而然地期待它會因重力而加速下落，而不是懸浮在空中或以勻速降落。我們對物理世界的這種直觀理解來自于長期的生活經(jīng)驗，這種理解讓我們能夠預(yù)測物體的運動和交互方式。然而，當(dāng)前的AI視頻生成模型并沒有這種與生俱來的物理常識。

上海交大團隊首先通過對比實驗證實了一個重要差距：盡管CogVideoX（一個擁有20億參數(shù)的視頻生成模型）能夠生成高質(zhì)量的視頻內(nèi)容，但它在物理理解方面遠遠落后于VideoMAEv2（一個僅有8600萬參數(shù)的自監(jiān)督視頻理解模型）。在Physion基準(zhǔn)測試中（這是一個專門用于評估物理理解能力的測試集），這種差距尤為明顯。

傳統(tǒng)上，提升視頻生成模型物理合理性的方法主要有兩類：基于模擬的方法和非模擬方法。基于模擬的方法通常需要引入外部物理模擬器來指導(dǎo)生成過程，但這些方法受限于模擬器的復(fù)雜性和難以模擬多樣化的開放域現(xiàn)象。非模擬方法則相對較少被探索，其中的WISA方法通過將文本描述分解為物理現(xiàn)象并使用"物理專家混合注意力"機制來提高生成質(zhì)量，但它在開放域數(shù)據(jù)上的泛化能力有限。

二、VideoREPA如何工作？從理解到生成的知識橋梁

想象一下，你正在教一個講故事的朋友如何更準(zhǔn)確地描述物理現(xiàn)象。你不會直接告訴他"重力加速度是9.8米每秒平方"這樣的專業(yè)知識，而是會指導(dǎo)他注意物體之間的關(guān)系和變化——"當(dāng)球落下時，它會越來越快"，"當(dāng)手接住球時，球會停止移動"等。這正是VideoREPA的工作方式。

VideoREPA的核心創(chuàng)新在于提出了一種稱為"令牌關(guān)系蒸餾"（Token Relation Distillation，TRD）的損失函數(shù)。這個特殊的損失函數(shù)不是簡單地讓視頻生成模型直接模仿視頻理解模型的特征表示（這樣做會破壞預(yù)訓(xùn)練模型已有的知識結(jié)構(gòu)），而是讓生成模型學(xué)習(xí)令牌之間的關(guān)系模式。

具體來說，TRD損失函數(shù)關(guān)注兩個層面的關(guān)系：

首先是空間關(guān)系，也就是同一幀內(nèi)不同位置的令牌之間的關(guān)系。這有助于模型理解物體的形狀、結(jié)構(gòu)和空間位置，確保生成的物體形狀合理而不會扭曲或變形。

其次是時間關(guān)系，即不同幀之間令牌的關(guān)系。這幫助模型理解物體如何隨時間變化，如何運動，以及如何與其他物體交互，確保生成的動作符合物理規(guī)律。

研究團隊將這種方法應(yīng)用于預(yù)訓(xùn)練的CogVideoX模型，創(chuàng)建了VideoREPA。與直接使用表示對齊（REPA）方法相比，VideoREPA解決了幾個關(guān)鍵挑戰(zhàn)：

第一，它不僅關(guān)注空間特征，還特別重視時間動態(tài)，這對于視頻中的物理合理性至關(guān)重要。

第二，它專為微調(diào)預(yù)訓(xùn)練模型設(shè)計，而不是像REPA那樣用于加速從頭訓(xùn)練。

第三，它采用了更為溫和的對齊機制，避免了硬對齊可能導(dǎo)致的預(yù)訓(xùn)練模型內(nèi)部表示破壞。

第四，它巧妙處理了視頻擴散模型中的時間壓縮問題，確保不同時間粒度的特征可以有效對齊。

三、實驗結(jié)果：VideoREPA如何改善視頻的物理合理性？

為了驗證VideoREPA的有效性，研究團隊在多個基準(zhǔn)測試上進行了全面的評估。他們主要使用了兩個專門用于評估視頻物理合理性的基準(zhǔn)：VideoPhy和VideoPhy2。

在VideoPhy基準(zhǔn)測試中，VideoREPA-5B（基于CogVideoX-5B的增強版本）在物理常識（PC）評分上取得了40.1分，相比基線CogVideoX-5B的32.3分提高了24.1%。更值得注意的是，在不同類型的物理交互中，VideoREPA均展現(xiàn)出顯著提升：固體-固體交互提升了42.9%，固體-流體交互提升了16.7%，流體-流體交互提升了20.6%。

與專門設(shè)計用于增強視頻生成物理常識的WISA方法相比，VideoREPA也展現(xiàn)出明顯優(yōu)勢。特別是，雖然WISA在專門的物理數(shù)據(jù)集（WISA-32K）上訓(xùn)練時表現(xiàn)良好，但它在開放域數(shù)據(jù)集（如Koala-36M）上的泛化能力有限。相比之下，VideoREPA在開放域數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于WISA（PC評分40.1 vs. WISA的33）。

在更具挑戰(zhàn)性的VideoPhy2基準(zhǔn)測試中，VideoREPA同樣展現(xiàn)出強大性能，PC評分達到72.54，相比基線CogVideoX的67.97提高了4.57分。

視覺對比結(jié)果更加直觀地展示了VideoREPA的優(yōu)勢。例如，在"鉛筆在桌面上滾動"的場景中，HunyuanVideo和CogVideoX生成的視頻中鉛筆的運動往往不符合剛體運動規(guī)律，而VideoREPA生成的視頻則展示了物理上一致且穩(wěn)定的運動。同樣，在"起重機吊起磚塊"的例子中，VideoREPA準(zhǔn)確表現(xiàn)了起重機在吊起托盤時保持物理連接的過程，而其他方法往往生成磚塊不符合物理規(guī)律地懸浮在空中而沒有任何可見的支撐。

四、技術(shù)細(xì)節(jié)與實現(xiàn)挑戰(zhàn)

VideoREPA的實現(xiàn)面臨著幾個技術(shù)挑戰(zhàn)，研究團隊通過一系列巧妙的設(shè)計解決了這些問題。

首先是特征維度不匹配問題。視頻生成模型和視頻理解模型在編碼過程后的時間和空間維度往往不同。高級視頻生成模型（如CogVideoX）通常使用具有高時間壓縮率的3D VAE（例如4倍或8倍壓縮），而視頻理解模型（如VideoMAEv2）則使用較低的壓縮率（例如2倍）。這導(dǎo)致視頻理解模型的特征圖在時間上有更大的尺寸，空間尺寸也可能不同。

為了解決這個問題，研究團隊采用了將視頻生成模型的潛在維度插值到匹配視頻理解模型特征的策略。通過實驗，他們發(fā)現(xiàn)這種方法比其他策略更為有效。

另一個挑戰(zhàn)來自計算資源限制，特別是當(dāng)處理視頻理解模型的輸入時。視頻理解模型通常使用3D全注意力機制，直接輸入高分辨率視頻（如480x720）或大量幀（如49幀）會消耗巨大的內(nèi)存資源。為了平衡質(zhì)量和計算效率，團隊探索了三種策略：以統(tǒng)一降低的分辨率處理所有視頻幀，以高分辨率處理時間分組的幀子集，以及以高分辨率處理帶有空間裁剪的所有幀。經(jīng)過評估，他們選擇了第一種策略，因為它能夠以最低的計算資源需求最好地保持視頻理解模型預(yù)訓(xùn)練表示的整體性質(zhì)。

五、VideoREPA的意義與未來展望

VideoREPA的成功不僅僅是在技術(shù)層面的突破，它代表了一種新的思維方式：通過將理解能力注入生成模型，我們可以顯著提高生成內(nèi)容的質(zhì)量和真實性。這種方法可能在更廣泛的領(lǐng)域產(chǎn)生影響，從視頻生成擴展到其他需要特定領(lǐng)域知識的生成任務(wù)。

對于普通用戶來說，這意味著未來的AI視頻生成工具將能夠創(chuàng)建更加逼真、符合物理常識的視頻內(nèi)容。例如，當(dāng)你要求AI生成一個"倒水入杯"的視頻時，水流會正確地從高處流向低處，形成符合流體力學(xué)的水花和漣漪，而不是像現(xiàn)在一些模型那樣生成違反物理規(guī)律的奇怪行為。

然而，VideoREPA也有其局限性。盡管它通過微調(diào)視頻生成模型取得了顯著改進，但研究團隊尚未驗證其在視頻生成模型預(yù)訓(xùn)練階段的潛力，主要是由于計算資源限制。未來的研究方向可能包括將VideoREPA納入視頻生成模型的預(yù)訓(xùn)練過程，以及開發(fā)針對性創(chuàng)新，在這一階段更有效地注入物理知識。

總的來說，VideoREPA代表了一種有前途的方向，通過橋接視頻理解和生成之間的鴻溝，為創(chuàng)建更加真實、符合物理常識的AI生成視頻鋪平了道路。隨著這類研究的深入，我們可以期待未來的AI生成內(nèi)容將越來越難以與真實世界區(qū)分，為創(chuàng)作者和內(nèi)容消費者帶來全新的可能性。

人工智能視頻生成物理模擬

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團隊提出SIRI方法，通過"壓縮-擴張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

^{<sub id="p4psy"></sub>}

<sub id="p4psy"></sub>