這項(xiàng)引人注目的研究來自上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系、人工智能學(xué)院以及人工智能教育部重點(diǎn)實(shí)驗(yàn)室的研究團(tuán)隊(duì),由張向東、廖佳琦、張少峰、孟繁青、萬(wàn)向鵬、嚴(yán)駿馳和香港中文大學(xué)的程禹共同完成。這篇題為《VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models》(VideoREPA:通過與基礎(chǔ)模型的關(guān)系對(duì)齊學(xué)習(xí)視頻生成的物理知識(shí))的論文于2025年5月29日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.23656v1),展示了一種提升AI生成視頻物理合理性的全新方法。
想象一下,你正在使用一個(gè)AI工具生成一段關(guān)于"棒球手套接住一個(gè)硬棒球"的視頻。在傳統(tǒng)的文本到視頻(T2V)模型中,你可能會(huì)得到一個(gè)看似真實(shí)但物理上不合理的結(jié)果——比如手套碰到棒球后,棒球卻詭異地穿過手套繼續(xù)飛行,或者棒球觸碰手套時(shí)沒有任何動(dòng)量變化。這種不符合物理常識(shí)的現(xiàn)象在當(dāng)前最先進(jìn)的文本到視頻生成模型中相當(dāng)普遍。
上海交大團(tuán)隊(duì)的研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:雖然視頻生成模型對(duì)物理規(guī)律的理解有限,但自監(jiān)督學(xué)習(xí)的視頻理解模型(如VideoMAEv2)卻對(duì)物理現(xiàn)象有著更深入的理解。這就像一個(gè)會(huì)講故事的人(生成模型)和一個(gè)觀察細(xì)致的人(理解模型)之間的差距——后者能更好地理解物體如何在現(xiàn)實(shí)世界中運(yùn)動(dòng)和交互。
基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)巧妙的想法:能否讓"會(huì)講故事"的模型向"觀察細(xì)致"的模型學(xué)習(xí),從而生成更符合物理常識(shí)的視頻?這就是VideoREPA(Video Representation Alignment through Physics Awareness)的核心思想。
一、什么是VideoREPA?為何物理常識(shí)對(duì)視頻生成如此重要?
在我們的日常生活中,當(dāng)我們看到一個(gè)球從高處落下,我們自然而然地期待它會(huì)因重力而加速下落,而不是懸浮在空中或以勻速降落。我們對(duì)物理世界的這種直觀理解來自于長(zhǎng)期的生活經(jīng)驗(yàn),這種理解讓我們能夠預(yù)測(cè)物體的運(yùn)動(dòng)和交互方式。然而,當(dāng)前的AI視頻生成模型并沒有這種與生俱來的物理常識(shí)。
上海交大團(tuán)隊(duì)首先通過對(duì)比實(shí)驗(yàn)證實(shí)了一個(gè)重要差距:盡管CogVideoX(一個(gè)擁有20億參數(shù)的視頻生成模型)能夠生成高質(zhì)量的視頻內(nèi)容,但它在物理理解方面遠(yuǎn)遠(yuǎn)落后于VideoMAEv2(一個(gè)僅有8600萬(wàn)參數(shù)的自監(jiān)督視頻理解模型)。在Physion基準(zhǔn)測(cè)試中(這是一個(gè)專門用于評(píng)估物理理解能力的測(cè)試集),這種差距尤為明顯。
傳統(tǒng)上,提升視頻生成模型物理合理性的方法主要有兩類:基于模擬的方法和非模擬方法。基于模擬的方法通常需要引入外部物理模擬器來指導(dǎo)生成過程,但這些方法受限于模擬器的復(fù)雜性和難以模擬多樣化的開放域現(xiàn)象。非模擬方法則相對(duì)較少被探索,其中的WISA方法通過將文本描述分解為物理現(xiàn)象并使用"物理專家混合注意力"機(jī)制來提高生成質(zhì)量,但它在開放域數(shù)據(jù)上的泛化能力有限。
二、VideoREPA如何工作?從理解到生成的知識(shí)橋梁
想象一下,你正在教一個(gè)講故事的朋友如何更準(zhǔn)確地描述物理現(xiàn)象。你不會(huì)直接告訴他"重力加速度是9.8米每秒平方"這樣的專業(yè)知識(shí),而是會(huì)指導(dǎo)他注意物體之間的關(guān)系和變化——"當(dāng)球落下時(shí),它會(huì)越來越快","當(dāng)手接住球時(shí),球會(huì)停止移動(dòng)"等。這正是VideoREPA的工作方式。
VideoREPA的核心創(chuàng)新在于提出了一種稱為"令牌關(guān)系蒸餾"(Token Relation Distillation,TRD)的損失函數(shù)。這個(gè)特殊的損失函數(shù)不是簡(jiǎn)單地讓視頻生成模型直接模仿視頻理解模型的特征表示(這樣做會(huì)破壞預(yù)訓(xùn)練模型已有的知識(shí)結(jié)構(gòu)),而是讓生成模型學(xué)習(xí)令牌之間的關(guān)系模式。
具體來說,TRD損失函數(shù)關(guān)注兩個(gè)層面的關(guān)系:
首先是空間關(guān)系,也就是同一幀內(nèi)不同位置的令牌之間的關(guān)系。這有助于模型理解物體的形狀、結(jié)構(gòu)和空間位置,確保生成的物體形狀合理而不會(huì)扭曲或變形。
其次是時(shí)間關(guān)系,即不同幀之間令牌的關(guān)系。這幫助模型理解物體如何隨時(shí)間變化,如何運(yùn)動(dòng),以及如何與其他物體交互,確保生成的動(dòng)作符合物理規(guī)律。
研究團(tuán)隊(duì)將這種方法應(yīng)用于預(yù)訓(xùn)練的CogVideoX模型,創(chuàng)建了VideoREPA。與直接使用表示對(duì)齊(REPA)方法相比,VideoREPA解決了幾個(gè)關(guān)鍵挑戰(zhàn):
第一,它不僅關(guān)注空間特征,還特別重視時(shí)間動(dòng)態(tài),這對(duì)于視頻中的物理合理性至關(guān)重要。
第二,它專為微調(diào)預(yù)訓(xùn)練模型設(shè)計(jì),而不是像REPA那樣用于加速?gòu)念^訓(xùn)練。
第三,它采用了更為溫和的對(duì)齊機(jī)制,避免了硬對(duì)齊可能導(dǎo)致的預(yù)訓(xùn)練模型內(nèi)部表示破壞。
第四,它巧妙處理了視頻擴(kuò)散模型中的時(shí)間壓縮問題,確保不同時(shí)間粒度的特征可以有效對(duì)齊。
三、實(shí)驗(yàn)結(jié)果:VideoREPA如何改善視頻的物理合理性?
為了驗(yàn)證VideoREPA的有效性,研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試上進(jìn)行了全面的評(píng)估。他們主要使用了兩個(gè)專門用于評(píng)估視頻物理合理性的基準(zhǔn):VideoPhy和VideoPhy2。
在VideoPhy基準(zhǔn)測(cè)試中,VideoREPA-5B(基于CogVideoX-5B的增強(qiáng)版本)在物理常識(shí)(PC)評(píng)分上取得了40.1分,相比基線CogVideoX-5B的32.3分提高了24.1%。更值得注意的是,在不同類型的物理交互中,VideoREPA均展現(xiàn)出顯著提升:固體-固體交互提升了42.9%,固體-流體交互提升了16.7%,流體-流體交互提升了20.6%。
與專門設(shè)計(jì)用于增強(qiáng)視頻生成物理常識(shí)的WISA方法相比,VideoREPA也展現(xiàn)出明顯優(yōu)勢(shì)。特別是,雖然WISA在專門的物理數(shù)據(jù)集(WISA-32K)上訓(xùn)練時(shí)表現(xiàn)良好,但它在開放域數(shù)據(jù)集(如Koala-36M)上的泛化能力有限。相比之下,VideoREPA在開放域數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于WISA(PC評(píng)分40.1 vs. WISA的33)。
在更具挑戰(zhàn)性的VideoPhy2基準(zhǔn)測(cè)試中,VideoREPA同樣展現(xiàn)出強(qiáng)大性能,PC評(píng)分達(dá)到72.54,相比基線CogVideoX的67.97提高了4.57分。
視覺對(duì)比結(jié)果更加直觀地展示了VideoREPA的優(yōu)勢(shì)。例如,在"鉛筆在桌面上滾動(dòng)"的場(chǎng)景中,HunyuanVideo和CogVideoX生成的視頻中鉛筆的運(yùn)動(dòng)往往不符合剛體運(yùn)動(dòng)規(guī)律,而VideoREPA生成的視頻則展示了物理上一致且穩(wěn)定的運(yùn)動(dòng)。同樣,在"起重機(jī)吊起磚塊"的例子中,VideoREPA準(zhǔn)確表現(xiàn)了起重機(jī)在吊起托盤時(shí)保持物理連接的過程,而其他方法往往生成磚塊不符合物理規(guī)律地懸浮在空中而沒有任何可見的支撐。
四、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)挑戰(zhàn)
VideoREPA的實(shí)現(xiàn)面臨著幾個(gè)技術(shù)挑戰(zhàn),研究團(tuán)隊(duì)通過一系列巧妙的設(shè)計(jì)解決了這些問題。
首先是特征維度不匹配問題。視頻生成模型和視頻理解模型在編碼過程后的時(shí)間和空間維度往往不同。高級(jí)視頻生成模型(如CogVideoX)通常使用具有高時(shí)間壓縮率的3D VAE(例如4倍或8倍壓縮),而視頻理解模型(如VideoMAEv2)則使用較低的壓縮率(例如2倍)。這導(dǎo)致視頻理解模型的特征圖在時(shí)間上有更大的尺寸,空間尺寸也可能不同。
為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了將視頻生成模型的潛在維度插值到匹配視頻理解模型特征的策略。通過實(shí)驗(yàn),他們發(fā)現(xiàn)這種方法比其他策略更為有效。
另一個(gè)挑戰(zhàn)來自計(jì)算資源限制,特別是當(dāng)處理視頻理解模型的輸入時(shí)。視頻理解模型通常使用3D全注意力機(jī)制,直接輸入高分辨率視頻(如480x720)或大量幀(如49幀)會(huì)消耗巨大的內(nèi)存資源。為了平衡質(zhì)量和計(jì)算效率,團(tuán)隊(duì)探索了三種策略:以統(tǒng)一降低的分辨率處理所有視頻幀,以高分辨率處理時(shí)間分組的幀子集,以及以高分辨率處理帶有空間裁剪的所有幀。經(jīng)過評(píng)估,他們選擇了第一種策略,因?yàn)樗軌蛞宰畹偷挠?jì)算資源需求最好地保持視頻理解模型預(yù)訓(xùn)練表示的整體性質(zhì)。
五、VideoREPA的意義與未來展望
VideoREPA的成功不僅僅是在技術(shù)層面的突破,它代表了一種新的思維方式:通過將理解能力注入生成模型,我們可以顯著提高生成內(nèi)容的質(zhì)量和真實(shí)性。這種方法可能在更廣泛的領(lǐng)域產(chǎn)生影響,從視頻生成擴(kuò)展到其他需要特定領(lǐng)域知識(shí)的生成任務(wù)。
對(duì)于普通用戶來說,這意味著未來的AI視頻生成工具將能夠創(chuàng)建更加逼真、符合物理常識(shí)的視頻內(nèi)容。例如,當(dāng)你要求AI生成一個(gè)"倒水入杯"的視頻時(shí),水流會(huì)正確地從高處流向低處,形成符合流體力學(xué)的水花和漣漪,而不是像現(xiàn)在一些模型那樣生成違反物理規(guī)律的奇怪行為。
然而,VideoREPA也有其局限性。盡管它通過微調(diào)視頻生成模型取得了顯著改進(jìn),但研究團(tuán)隊(duì)尚未驗(yàn)證其在視頻生成模型預(yù)訓(xùn)練階段的潛力,主要是由于計(jì)算資源限制。未來的研究方向可能包括將VideoREPA納入視頻生成模型的預(yù)訓(xùn)練過程,以及開發(fā)針對(duì)性創(chuàng)新,在這一階段更有效地注入物理知識(shí)。
總的來說,VideoREPA代表了一種有前途的方向,通過橋接視頻理解和生成之間的鴻溝,為創(chuàng)建更加真實(shí)、符合物理常識(shí)的AI生成視頻鋪平了道路。隨著這類研究的深入,我們可以期待未來的AI生成內(nèi)容將越來越難以與真實(shí)世界區(qū)分,為創(chuàng)作者和內(nèi)容消費(fèi)者帶來全新的可能性。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。