近日,以色列特拉維夫大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)關(guān)于提升視頻生成質(zhì)量的創(chuàng)新研究。這篇名為《FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation》的論文由Ariel Shaulov、Itay Hazan(兩位為共同第一作者)、Lior Wolf和Hila Chefer共同完成,于2025年6月1日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2506.01144v1)。
解決AI視頻生成的"動(dòng)作不連貫"難題
想象一下,你用AI生成了一段海豚躍出海面的視頻,但仔細(xì)觀察后發(fā)現(xiàn),海豚的身體在不同幀之間突然變形、消失或出現(xiàn)額外的鰭。又或者你生成了一位跳舞的芭蕾舞演員,但她的手臂在視頻中突然多出了一條。這些問(wèn)題在當(dāng)前的文本到視頻(Text-to-Video,簡(jiǎn)稱T2V)生成模型中非常普遍,被稱為"時(shí)序不連貫性"問(wèn)題。
特拉維夫大學(xué)的研究團(tuán)隊(duì)將這種現(xiàn)象描述為:"目前的文本到視頻模型在捕捉現(xiàn)實(shí)世界的時(shí)序動(dòng)態(tài)方面仍然存在明顯局限,生成的視頻經(jīng)常出現(xiàn)物體突然出現(xiàn)或消失、肢體重復(fù)或缺失,以及運(yùn)動(dòng)不連續(xù)等時(shí)序問(wèn)題。"
現(xiàn)有解決這類問(wèn)題的方法通常需要重新訓(xùn)練模型、引入外部運(yùn)動(dòng)信號(hào)(如光流或像素軌跡)或設(shè)計(jì)復(fù)雜的專用架構(gòu)。這些方法要么需要大量計(jì)算資源和訓(xùn)練數(shù)據(jù),要么需要額外的輸入條件,限制了其靈活性和普適性。
FlowMo:讓AI視頻"動(dòng)"得更自然
研究團(tuán)隊(duì)提出了一種全新的方法——FlowMo,它無(wú)需重新訓(xùn)練模型或引入外部信號(hào),僅通過(guò)模型在生成過(guò)程中的內(nèi)部表示就能顯著改善視頻的運(yùn)動(dòng)連貫性。這就像是一位經(jīng)驗(yàn)豐富的電影導(dǎo)演,不需要重新拍攝整部電影或使用額外的特效設(shè)備,僅通過(guò)對(duì)現(xiàn)有素材的巧妙剪輯就能讓動(dòng)作場(chǎng)景更加流暢自然。
FlowMo的核心理念基于一個(gè)簡(jiǎn)單而深刻的觀察:當(dāng)物體運(yùn)動(dòng)連貫時(shí),其空間位置的變化應(yīng)該是平滑漸進(jìn)的,而非突兀的。用日常生活打個(gè)比方,如果你觀察一個(gè)人走路,他的每一步都是前一步的自然延續(xù),不會(huì)突然從地面跳到半空中。
具體來(lái)說(shuō),研究團(tuán)隊(duì)發(fā)現(xiàn),在視頻的每個(gè)空間位置(稱為"塊"或"patch")上,如果測(cè)量其隨時(shí)間變化的方差,那么運(yùn)動(dòng)連貫的視頻會(huì)顯示較低的方差,而不連貫的視頻則顯示較高的方差。這就像是測(cè)量心率的波動(dòng)——平穩(wěn)的心率意味著身體狀態(tài)穩(wěn)定,而劇烈波動(dòng)則可能表示存在問(wèn)題。
技術(shù)創(chuàng)新:從模型內(nèi)部提取時(shí)序信號(hào)
FlowMo的核心技術(shù)創(chuàng)新在于,它能夠從預(yù)訓(xùn)練模型的內(nèi)部表示中提取有意義的時(shí)序信號(hào),無(wú)需任何外部輸入或額外訓(xùn)練。
研究團(tuán)隊(duì)首先需要解決的一個(gè)關(guān)鍵挑戰(zhàn)是,如何從模型的潛在表示中分離出與運(yùn)動(dòng)相關(guān)的信息,而不受外觀信息的干擾。就像從一段包含人物對(duì)話的視頻中分離出人物的動(dòng)作信息,而不受人物外表、服裝或背景場(chǎng)景的影響一樣。
為此,研究者設(shè)計(jì)了一個(gè)"去偏置"操作,通過(guò)計(jì)算連續(xù)幀之間潛在表示的差異來(lái)突出時(shí)序結(jié)構(gòu)。這種方法類似于計(jì)算兩張照片之間的差異,以突顯物體的移動(dòng)軌跡,而忽略靜態(tài)的背景信息。
研究團(tuán)隊(duì)通過(guò)一系列定性和定量實(shí)驗(yàn)驗(yàn)證了這一方法的有效性。他們收集了一組具有明顯運(yùn)動(dòng)的生成視頻,將它們分為連貫和不連貫兩類,然后計(jì)算基于時(shí)序方差的指標(biāo)。結(jié)果顯示,高時(shí)序方差與運(yùn)動(dòng)不連貫之間存在明顯相關(guān)性,證實(shí)了這一指標(biāo)可以可靠地估計(jì)視頻的連貫性。
更有趣的是,研究者還發(fā)現(xiàn),在視頻生成過(guò)程中,粗略的外觀特征(如場(chǎng)景布局和空間結(jié)構(gòu))在非常早期的去噪步驟中就已確定,而時(shí)序信息則主要在中期去噪步驟中形成。這就像建造一座房子,首先確定地基和整體框架,然后才添加門窗和內(nèi)部結(jié)構(gòu)。
FlowMo算法:引導(dǎo)AI創(chuàng)造更連貫的運(yùn)動(dòng)
基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了FlowMo算法,它在視頻生成過(guò)程中的特定時(shí)間點(diǎn)動(dòng)態(tài)地引導(dǎo)模型生成更連貫的運(yùn)動(dòng)。
算法工作原理可以簡(jiǎn)單理解為三個(gè)步驟:
首先,在選定的生成時(shí)間步驟中,計(jì)算每個(gè)空間塊在時(shí)間維度上的最大方差。這就像找出視頻中最"不穩(wěn)定"的區(qū)域,例如一個(gè)角色的手臂突然消失又出現(xiàn)的位置。
然后,優(yōu)化模型的預(yù)測(cè),減少這些高方差區(qū)域,鼓勵(lì)更平滑、更連貫的運(yùn)動(dòng)。這相當(dāng)于讓模型重新考慮如何讓這些不穩(wěn)定區(qū)域的變化更加自然。
最后,這種優(yōu)化在整個(gè)生成過(guò)程中迭代應(yīng)用,影響視頻的粗略和精細(xì)動(dòng)態(tài)特征。就像一位畫家,先勾勒出大致輪廓,然后逐步完善細(xì)節(jié)。
重要的是,F(xiàn)lowMo只在視頻生成的前12個(gè)時(shí)間步驟中應(yīng)用,因?yàn)檠芯勘砻鬟@些步驟負(fù)責(zé)確定粗略的運(yùn)動(dòng)和結(jié)構(gòu)。這種有針對(duì)性的干預(yù)使FlowMo能夠高效地改善視頻質(zhì)量,而不會(huì)過(guò)度干擾生成過(guò)程。
實(shí)驗(yàn)結(jié)果:顯著提升的視頻質(zhì)量
研究團(tuán)隊(duì)在兩個(gè)最流行的開(kāi)源模型上測(cè)試了FlowMo:Wan2.1-1.3B和CogVideoX-5B。通過(guò)一系列評(píng)估指標(biāo),包括VBench基準(zhǔn)測(cè)試和人工評(píng)估,研究者評(píng)估了FlowMo對(duì)運(yùn)動(dòng)質(zhì)量、整體視頻質(zhì)量和文本對(duì)齊的影響。
結(jié)果令人印象深刻。在人類評(píng)估中,F(xiàn)lowMo生成的視頻在所有評(píng)估標(biāo)準(zhǔn)上都獲得了顯著的偏好提升。具體來(lái)說(shuō),對(duì)于運(yùn)動(dòng)連貫性,F(xiàn)lowMo在Wan2.1上獲得了44.3%的勝率(相比基線的16.2%),在CogVideoX上獲得了43.0%的勝率(相比基線的17.6%)。
在美學(xué)質(zhì)量方面,F(xiàn)lowMo也顯示出明顯優(yōu)勢(shì),在Wan2.1上獲得31.1%的偏好率(基線為14.0%),在CogVideoX上獲得31.7%的偏好率(基線為17.1%)。
自動(dòng)評(píng)估指標(biāo)也證實(shí)了這些發(fā)現(xiàn)。FlowMo顯著提高了綜合得分(Final Score),Wan2.1提高了6.2%,CogVideoX提高了5.26%。特別是,F(xiàn)lowMo在運(yùn)動(dòng)平滑度(Motion Smoothness)上取得了明顯改善,Wan2.1提高了2.13%,CogVideoX提高了2.28%。
視覺(jué)上,F(xiàn)lowMo修復(fù)了嚴(yán)重的時(shí)序問(wèn)題,如額外肢體的出現(xiàn)(如圖中的女性示例)、物體的消失和出現(xiàn)(如火烈鳥示例),以及物體變形(如海豚和鹿的示例)。
技術(shù)解析:FlowMo的工作原理
從技術(shù)角度詳細(xì)解析,F(xiàn)lowMo是如何在流匹配(Flow Matching)框架下工作的。流匹配是一種用于生成模型的目標(biāo)函數(shù),在變分自編碼器(VAE)潛在空間中操作以提高效率。
在每個(gè)生成步驟中,F(xiàn)lowMo首先獲取模型預(yù)測(cè)uθ,t,這是速度vt的估計(jì)。然后,它使用去偏置操作Δ計(jì)算連續(xù)幀之間的l1距離,消除共同的外觀信息。接下來(lái),它計(jì)算每個(gè)空間塊在時(shí)間維度上的方差σ?,并使用最大方差作為優(yōu)化目標(biāo)。
關(guān)鍵的技術(shù)創(chuàng)新在于,F(xiàn)lowMo通過(guò)優(yōu)化輸入潛在變量zti來(lái)影響生成的視頻,而不是直接修改模型權(quán)重。這允許優(yōu)化修改生成視頻中的低級(jí)特征,包括粗略運(yùn)動(dòng),同時(shí)保持模型的整體能力。
研究團(tuán)隊(duì)還進(jìn)行了消融研究,驗(yàn)證了FlowMo的各個(gè)設(shè)計(jì)選擇的有效性。例如,用平均值替代最大值會(huì)顯著減弱優(yōu)化效果,移除去偏置操作也會(huì)產(chǎn)生類似效果。此外,在所有擴(kuò)散步驟中應(yīng)用FlowMo會(huì)引入偽影,表明有針對(duì)性地在特定步驟應(yīng)用FlowMo是必要的。
局限性與未來(lái)方向
盡管FlowMo顯著改善了生成視頻的質(zhì)量,但它仍有一些局限性。首先,由于計(jì)算和傳播梯度的需要,F(xiàn)lowMo會(huì)增加推理時(shí)間。平均而言,使用FlowMo生成視頻需要234.30秒,而不使用它則需要99.27秒,相當(dāng)于2.39倍的增加。研究團(tuán)隊(duì)指出,這種開(kāi)銷可以通過(guò)將FlowMo整合到訓(xùn)練階段來(lái)減輕,從而消除在推理時(shí)進(jìn)行基于梯度的優(yōu)化的需要。
其次,由于FlowMo不修改模型權(quán)重,它受到預(yù)訓(xùn)練模型學(xué)習(xí)能力的限制。雖然它可以改善模型預(yù)測(cè)的運(yùn)動(dòng)連貫性,但它無(wú)法合成模型尚未學(xué)會(huì)表示的運(yùn)動(dòng)類型。研究團(tuán)隊(duì)認(rèn)為,這一限制可以通過(guò)在訓(xùn)練過(guò)程中加入基于模型內(nèi)部表示的運(yùn)動(dòng)目標(biāo)來(lái)解決,從而鼓勵(lì)生成模型中更豐富的時(shí)序理解。
結(jié)論:從內(nèi)部尋找時(shí)序連貫性的解決方案
這項(xiàng)研究的核心貢獻(xiàn)在于,它證明了我們可以從預(yù)訓(xùn)練模型自身學(xué)到的表示中提取有意義的時(shí)序信息,而不需要依賴外部信號(hào)、額外數(shù)據(jù)或?qū)iT的架構(gòu)。通過(guò)仔細(xì)分析文本到視頻擴(kuò)散模型學(xué)習(xí)的語(yǔ)義潛在空間,研究者發(fā)現(xiàn)它隱含地編碼了有價(jià)值的時(shí)序信息。
具體來(lái)說(shuō),幀對(duì)之間在這個(gè)潛在空間中的距離與直觀的時(shí)序偽影度量(如塊間時(shí)序方差)相關(guān)?;谶@些見(jiàn)解,F(xiàn)lowMo實(shí)現(xiàn)了一種推理時(shí)引導(dǎo)方法,鼓勵(lì)潛在空間中更平滑的過(guò)渡,這映射到像素空間中更平滑的行為,顯著提升了運(yùn)動(dòng)連貫性,同時(shí)保留甚至改善了生成的其他方面。
研究團(tuán)隊(duì)希望這項(xiàng)工作能激發(fā)更多探索語(yǔ)義潛在空間的時(shí)序特性的興趣,并鼓勵(lì)開(kāi)發(fā)通過(guò)內(nèi)部而非外部尋找解決方案的方法,從而提高時(shí)序連貫性。
對(duì)于對(duì)該研究感興趣的讀者,完整論文可在arXiv上獲?。╝rXiv:2506.01144v1),項(xiàng)目頁(yè)面為https://arielshaulov.github.io/FlowMo/。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。