視頻生成技術(shù)近年來(lái)取得了令人矚目的進(jìn)步,但在現(xiàn)實(shí)應(yīng)用中仍面臨三大挑戰(zhàn):時(shí)間連貫性不足、視覺(jué)質(zhì)量不佳和與文本提示的匹配度不高。為了解決這些問(wèn)題,Snap Research、多倫多大學(xué)和Vector研究所的研究團(tuán)隊(duì)共同開發(fā)了DenseDPO(密集直接偏好優(yōu)化)方法,這項(xiàng)研究于2024年6月發(fā)表在arXiv預(yù)印本平臺(tái)上(arXiv:2506.03517v1)。
現(xiàn)有視頻生成技術(shù)的問(wèn)題:靜態(tài)偏好現(xiàn)象
想象一下,你正在使用AI生成一段"人在沙灘上做倒立"的視頻。結(jié)果你得到了兩個(gè)選擇:一個(gè)視頻畫面清晰但幾乎沒(méi)有動(dòng)作,另一個(gè)視頻動(dòng)作流暢但人物手指變形嚴(yán)重。你會(huì)選擇哪一個(gè)?
大多數(shù)人會(huì)選擇第一個(gè)——這就是研究團(tuán)隊(duì)發(fā)現(xiàn)的"靜態(tài)偏好"現(xiàn)象。當(dāng)人們被要求在兩個(gè)視頻之間選擇時(shí),往往偏愛那些畫面清晰但動(dòng)作較少的視頻,而不是動(dòng)作豐富但有細(xì)節(jié)缺陷的視頻。這導(dǎo)致了一個(gè)惡性循環(huán):
1. 視頻生成模型在生成靜態(tài)內(nèi)容時(shí)表現(xiàn)更好 2. 人類標(biāo)注者偏好選擇這些視覺(jué)上更清晰的靜態(tài)視頻 3. 使用這些標(biāo)注數(shù)據(jù)訓(xùn)練的模型進(jìn)一步強(qiáng)化了生成靜態(tài)視頻的傾向
傳統(tǒng)的直接偏好優(yōu)化(DPO)方法無(wú)法解決這個(gè)問(wèn)題,因?yàn)樗鼈兺ǔJ菑膱D像生成領(lǐng)域直接借鑒過(guò)來(lái)的,沒(méi)有考慮視頻特有的時(shí)間維度。
DenseDPO:三大創(chuàng)新解決靜態(tài)偏好問(wèn)題
研究團(tuán)隊(duì)提出了三個(gè)關(guān)鍵創(chuàng)新來(lái)解決這一問(wèn)題:
### 結(jié)構(gòu)相似的視頻對(duì)比
傳統(tǒng)DPO方法是從兩個(gè)不同的隨機(jī)噪聲開始生成兩個(gè)完全不同的視頻。這會(huì)導(dǎo)致視頻在運(yùn)動(dòng)模式、整體布局等方面有很大差異,使比較變得困難且?guī)в衅姟?/p>
研究團(tuán)隊(duì)借鑒了一種叫做SDEdit的技術(shù),他們的方法是:
1. 首先獲取一個(gè)真實(shí)的參考視頻 2. 給這個(gè)視頻添加不同程度的噪聲,制造兩個(gè)"部分損壞"的版本 3. 讓AI模型"修復(fù)"這兩個(gè)損壞的視頻版本
這樣產(chǎn)生的兩個(gè)視頻在整體運(yùn)動(dòng)軌跡和高級(jí)語(yǔ)義上非常相似,但在局部視覺(jué)細(xì)節(jié)上有所不同。這就像讓兩位藝術(shù)家臨摹同一幅畫作,大體構(gòu)圖相同但細(xì)節(jié)處理各有特色。
這種方法巧妙地中和了靜態(tài)偏好,因?yàn)閮蓚€(gè)視頻有著相似的動(dòng)作幅度,人類標(biāo)注者只能基于視覺(jué)質(zhì)量而非動(dòng)作幅度來(lái)判斷優(yōu)劣。
### 精細(xì)的時(shí)序偏好標(biāo)注
傳統(tǒng)方法是對(duì)整個(gè)視頻(通常長(zhǎng)達(dá)5秒)給出一個(gè)單一的偏好判斷。但研究團(tuán)隊(duì)發(fā)現(xiàn),人類對(duì)視頻的偏好往往在時(shí)間上變化很大——一個(gè)視頻的前半部分可能比另一個(gè)好,但后半部分可能更差。
因此,他們將視頻切分成短段(例如1秒),并收集每個(gè)短段的偏好標(biāo)注。這帶來(lái)了幾個(gè)好處:
1. 提供了更密集、更準(zhǔn)確的學(xué)習(xí)信號(hào) 2. 減少了兩個(gè)視頻都有缺陷時(shí)的"平局"情況 3. 讓模型能夠?qū)W習(xí)到更精細(xì)的時(shí)間偏好
想象一下,這就像教導(dǎo)廚師烹飪一道復(fù)雜菜肴時(shí),不只告訴他最終成品是否好吃,而是詳細(xì)評(píng)價(jià)每一個(gè)烹飪步驟的執(zhí)行情況。
### 利用現(xiàn)有視覺(jué)語(yǔ)言模型自動(dòng)標(biāo)注
標(biāo)注視頻偏好是耗時(shí)且昂貴的。研究團(tuán)隊(duì)發(fā)現(xiàn),雖然現(xiàn)有的視覺(jué)語(yǔ)言模型(如GPT-o3)無(wú)法準(zhǔn)確評(píng)估整個(gè)長(zhǎng)視頻,但它們?cè)谠u(píng)估短視頻片段時(shí)表現(xiàn)出色。
利用第一個(gè)創(chuàng)新產(chǎn)生的結(jié)構(gòu)相似視頻,和第二個(gè)創(chuàng)新提出的短片段評(píng)估方法,研究團(tuán)隊(duì)成功地使用GPT-o3模型進(jìn)行自動(dòng)偏好標(biāo)注:
1. 將視頻分割成1秒片段 2. 讓GPT-o3比較每對(duì)相應(yīng)片段的質(zhì)量 3. 通過(guò)多數(shù)投票法匯總成整個(gè)視頻的評(píng)價(jià)(如需要)
這種方法的準(zhǔn)確率與人類標(biāo)注相當(dāng),極大地提高了數(shù)據(jù)收集效率。
實(shí)驗(yàn)驗(yàn)證:DenseDPO的優(yōu)勢(shì)
研究團(tuán)隊(duì)使用多個(gè)基準(zhǔn)測(cè)試集評(píng)估了DenseDPO的性能。實(shí)驗(yàn)結(jié)果顯示:
1. **保留動(dòng)態(tài)程度**:與傳統(tǒng)VanillaDPO相比,DenseDPO在保持視頻動(dòng)態(tài)性方面有顯著提升。在VideoJAM-bench測(cè)試集上,VanillaDPO的動(dòng)態(tài)程度得分為80.25,而DenseDPO達(dá)到了85.38;在MotionBench測(cè)試集上,差距更明顯,VanillaDPO為72.55,DenseDPO達(dá)到了84.73。
2. **視覺(jué)質(zhì)量相當(dāng)**:DenseDPO在視覺(jué)質(zhì)量方面與VanillaDPO不相上下,甚至略有提升。例如,在MotionBench上,DenseDPO的美學(xué)質(zhì)量為57.54,而VanillaDPO為57.51。
3. **數(shù)據(jù)效率高**:盡管只使用了三分之一的標(biāo)注數(shù)據(jù)(10k對(duì)比30k視頻對(duì)),DenseDPO仍然取得了優(yōu)于或相當(dāng)于VanillaDPO的性能。
4. **自動(dòng)標(biāo)注可行**:使用GPT-o3進(jìn)行片段級(jí)別的偏好預(yù)測(cè),準(zhǔn)確率達(dá)到70.03%,與專門為視頻質(zhì)量評(píng)估而微調(diào)的模型相近。更重要的是,當(dāng)用這些自動(dòng)標(biāo)注訓(xùn)練DenseDPO時(shí),其性能接近使用人類標(biāo)注的版本。
人類評(píng)估也證實(shí)了這些結(jié)果。在一項(xiàng)用戶研究中,參與者被要求比較不同方法生成的視頻。與VanillaDPO相比,DenseDPO在動(dòng)態(tài)程度方面獲得了63.9%的勝率,同時(shí)在其他方面保持相當(dāng)水平。
DenseDPO如何工作:技術(shù)原理解析
要理解DenseDPO的工作原理,我們可以將其與傳統(tǒng)直接偏好優(yōu)化(DPO)方法進(jìn)行對(duì)比。
傳統(tǒng)DPO的工作方式類似于這樣:給模型展示兩個(gè)視頻A和B,告訴它"A比B好",然后模型嘗試調(diào)整參數(shù),使得它預(yù)測(cè)A的得分高于B的得分。這就像教孩子識(shí)別好蘋果和壞蘋果,每次給他看兩個(gè)蘋果,告訴他哪個(gè)更好。
DenseDPO則做了幾個(gè)關(guān)鍵改進(jìn):
1. **結(jié)構(gòu)相似的視頻對(duì)**:不是隨機(jī)生成兩個(gè)完全不同的視頻,而是從同一個(gè)"種子"視頻出發(fā),添加不同程度的噪聲再生成。這確保兩個(gè)視頻的基本運(yùn)動(dòng)結(jié)構(gòu)相似,就像是同一個(gè)舞蹈動(dòng)作的兩種略微不同的表演。
2. **片段級(jí)別的偏好**:不是給整個(gè)視頻一個(gè)總體評(píng)分,而是對(duì)每個(gè)短時(shí)間片段(如1秒)進(jìn)行評(píng)分。這就像不僅評(píng)價(jià)整道菜的口感,還要分別評(píng)價(jià)每個(gè)成分的烹飪程度。
3. **密集的學(xué)習(xí)信號(hào)**:通過(guò)這種方式,模型可以學(xué)習(xí)到更細(xì)粒度的偏好信息,明確知道視頻中哪些部分好,哪些部分不好,而不僅僅是整體的好壞。
在技術(shù)實(shí)現(xiàn)上,DenseDPO擴(kuò)展了Flow-DPO的損失函數(shù),將其應(yīng)用到視頻的每個(gè)時(shí)間片段上,而不是整個(gè)視頻。這使得模型能夠更精確地學(xué)習(xí)到時(shí)間維度上的偏好變化。
研究意義與應(yīng)用前景
DenseDPO的研究意義遠(yuǎn)不止于提高視頻質(zhì)量。它揭示了一個(gè)更深層次的問(wèn)題:AI系統(tǒng)訓(xùn)練數(shù)據(jù)中存在的隱性偏見如何影響模型行為。就像語(yǔ)言模型中發(fā)現(xiàn)的"冗長(zhǎng)性偏好"(即人類評(píng)估者傾向于更長(zhǎng)的輸出)一樣,視頻生成中也存在"靜態(tài)偏好"現(xiàn)象。
這項(xiàng)研究的潛在應(yīng)用包括:
1. **更自然的AI視頻生成**:生成具有豐富、自然動(dòng)作的視頻,而不僅是"漂亮但靜止"的圖像序列。
2. **減少人工標(biāo)注成本**:通過(guò)利用現(xiàn)有視覺(jué)語(yǔ)言模型進(jìn)行自動(dòng)標(biāo)注,大大降低了數(shù)據(jù)收集成本。
3. **更精確的質(zhì)量評(píng)估**:分段評(píng)估方法可以應(yīng)用于視頻質(zhì)量控制,精確定位問(wèn)題區(qū)域。
4. **減少模型偏見**:這種方法可以擴(kuò)展到識(shí)別和糾正其他類型的隱性偏見。
未來(lái)研究方向
盡管DenseDPO取得了顯著進(jìn)展,研究團(tuán)隊(duì)也指出了一些局限性和未來(lái)研究方向:
1. 與語(yǔ)言模型的DPO相比,視頻生成模型的DPO訓(xùn)練仍然不夠穩(wěn)定,需要提前停止訓(xùn)練以避免過(guò)擬合。
2. 雖然引導(dǎo)式采樣能保持視頻的運(yùn)動(dòng)軌跡,但也減少了比較對(duì)之間的多樣性,未來(lái)可以探索其他方法來(lái)解決這一問(wèn)題。
3. 本研究專注于提高視覺(jué)質(zhì)量和一致性,同時(shí)保持動(dòng)態(tài)程度不變。未來(lái)可以將這種方法擴(kuò)展到其他維度,如通過(guò)擾動(dòng)文本提示來(lái)提高文本匹配度。
總之,DenseDPO代表了視頻生成技術(shù)的一個(gè)重要進(jìn)步,不僅解決了現(xiàn)有方法的關(guān)鍵局限性,還提供了一種更有效、更精確的偏好優(yōu)化方法。隨著這項(xiàng)技術(shù)的發(fā)展,我們可以期待未來(lái)AI生成的視頻將更加自然、動(dòng)態(tài)且符合人類期望。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。