av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

DenseDPO：解決視頻生成中的靜止偏好，用精細(xì)時(shí)序偏好優(yōu)化提升動(dòng)態(tài)表現(xiàn)

人工智能視頻生成偏好優(yōu)化

DenseDPO：解決視頻生成中的靜止偏好，用精細(xì)時(shí)序偏好優(yōu)化提升動(dòng)態(tài)表現(xiàn)

作者：科技行者

2025-06-07 17:01

分享至：

這篇研究提出了DenseDPO，一種改進(jìn)視頻生成模型的新方法，通過(guò)三大創(chuàng)新解決了傳統(tǒng)方法中的"靜態(tài)偏好"問(wèn)題：使用結(jié)構(gòu)相似的視頻對(duì)進(jìn)行比較，采集細(xì)粒度的時(shí)序偏好標(biāo)注，并利用現(xiàn)有視覺(jué)語(yǔ)言模型自動(dòng)標(biāo)注。實(shí)驗(yàn)表明，DenseDPO不僅保留了視頻的動(dòng)態(tài)性，還在視覺(jué)質(zhì)量方面與傳統(tǒng)方法相當(dāng)，同時(shí)大大提高了數(shù)據(jù)效率。這項(xiàng)技術(shù)有望推動(dòng)AI生成更加自然、動(dòng)態(tài)的視頻內(nèi)容。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-07 17:01 ? 科技行者

視頻生成技術(shù)近年來(lái)取得了令人矚目的進(jìn)步，但在現(xiàn)實(shí)應(yīng)用中仍面臨三大挑戰(zhàn)：時(shí)間連貫性不足、視覺(jué)質(zhì)量不佳和與文本提示的匹配度不高。為了解決這些問(wèn)題，Snap Research、多倫多大學(xué)和Vector研究所的研究團(tuán)隊(duì)共同開發(fā)了DenseDPO（密集直接偏好優(yōu)化）方法，這項(xiàng)研究于2024年6月發(fā)表在arXiv預(yù)印本平臺(tái)上（arXiv:2506.03517v1）。

現(xiàn)有視頻生成技術(shù)的問(wèn)題：靜態(tài)偏好現(xiàn)象

想象一下，你正在使用AI生成一段"人在沙灘上做倒立"的視頻。結(jié)果你得到了兩個(gè)選擇：一個(gè)視頻畫面清晰但幾乎沒(méi)有動(dòng)作，另一個(gè)視頻動(dòng)作流暢但人物手指變形嚴(yán)重。你會(huì)選擇哪一個(gè)？

大多數(shù)人會(huì)選擇第一個(gè)——這就是研究團(tuán)隊(duì)發(fā)現(xiàn)的"靜態(tài)偏好"現(xiàn)象。當(dāng)人們被要求在兩個(gè)視頻之間選擇時(shí)，往往偏愛那些畫面清晰但動(dòng)作較少的視頻，而不是動(dòng)作豐富但有細(xì)節(jié)缺陷的視頻。這導(dǎo)致了一個(gè)惡性循環(huán)：

1. 視頻生成模型在生成靜態(tài)內(nèi)容時(shí)表現(xiàn)更好 2. 人類標(biāo)注者偏好選擇這些視覺(jué)上更清晰的靜態(tài)視頻 3. 使用這些標(biāo)注數(shù)據(jù)訓(xùn)練的模型進(jìn)一步強(qiáng)化了生成靜態(tài)視頻的傾向

傳統(tǒng)的直接偏好優(yōu)化（DPO）方法無(wú)法解決這個(gè)問(wèn)題，因?yàn)樗鼈兺ǔＪ菑膱D像生成領(lǐng)域直接借鑒過(guò)來(lái)的，沒(méi)有考慮視頻特有的時(shí)間維度。

DenseDPO：三大創(chuàng)新解決靜態(tài)偏好問(wèn)題

研究團(tuán)隊(duì)提出了三個(gè)關(guān)鍵創(chuàng)新來(lái)解決這一問(wèn)題：

### 結(jié)構(gòu)相似的視頻對(duì)比

傳統(tǒng)DPO方法是從兩個(gè)不同的隨機(jī)噪聲開始生成兩個(gè)完全不同的視頻。這會(huì)導(dǎo)致視頻在運(yùn)動(dòng)模式、整體布局等方面有很大差異，使比較變得困難且?guī)в衅姟?/p>

研究團(tuán)隊(duì)借鑒了一種叫做SDEdit的技術(shù)，他們的方法是：

1. 首先獲取一個(gè)真實(shí)的參考視頻 2. 給這個(gè)視頻添加不同程度的噪聲，制造兩個(gè)"部分損壞"的版本 3. 讓AI模型"修復(fù)"這兩個(gè)損壞的視頻版本

這樣產(chǎn)生的兩個(gè)視頻在整體運(yùn)動(dòng)軌跡和高級(jí)語(yǔ)義上非常相似，但在局部視覺(jué)細(xì)節(jié)上有所不同。這就像讓兩位藝術(shù)家臨摹同一幅畫作，大體構(gòu)圖相同但細(xì)節(jié)處理各有特色。

這種方法巧妙地中和了靜態(tài)偏好，因?yàn)閮蓚€(gè)視頻有著相似的動(dòng)作幅度，人類標(biāo)注者只能基于視覺(jué)質(zhì)量而非動(dòng)作幅度來(lái)判斷優(yōu)劣。

### 精細(xì)的時(shí)序偏好標(biāo)注

傳統(tǒng)方法是對(duì)整個(gè)視頻（通常長(zhǎng)達(dá)5秒）給出一個(gè)單一的偏好判斷。但研究團(tuán)隊(duì)發(fā)現(xiàn)，人類對(duì)視頻的偏好往往在時(shí)間上變化很大——一個(gè)視頻的前半部分可能比另一個(gè)好，但后半部分可能更差。

因此，他們將視頻切分成短段（例如1秒），并收集每個(gè)短段的偏好標(biāo)注。這帶來(lái)了幾個(gè)好處：

1. 提供了更密集、更準(zhǔn)確的學(xué)習(xí)信號(hào) 2. 減少了兩個(gè)視頻都有缺陷時(shí)的"平局"情況 3. 讓模型能夠?qū)W習(xí)到更精細(xì)的時(shí)間偏好

想象一下，這就像教導(dǎo)廚師烹飪一道復(fù)雜菜肴時(shí)，不只告訴他最終成品是否好吃，而是詳細(xì)評(píng)價(jià)每一個(gè)烹飪步驟的執(zhí)行情況。

### 利用現(xiàn)有視覺(jué)語(yǔ)言模型自動(dòng)標(biāo)注

標(biāo)注視頻偏好是耗時(shí)且昂貴的。研究團(tuán)隊(duì)發(fā)現(xiàn)，雖然現(xiàn)有的視覺(jué)語(yǔ)言模型（如GPT-o3）無(wú)法準(zhǔn)確評(píng)估整個(gè)長(zhǎng)視頻，但它們?cè)谠u(píng)估短視頻片段時(shí)表現(xiàn)出色。

利用第一個(gè)創(chuàng)新產(chǎn)生的結(jié)構(gòu)相似視頻，和第二個(gè)創(chuàng)新提出的短片段評(píng)估方法，研究團(tuán)隊(duì)成功地使用GPT-o3模型進(jìn)行自動(dòng)偏好標(biāo)注：

1. 將視頻分割成1秒片段 2. 讓GPT-o3比較每對(duì)相應(yīng)片段的質(zhì)量 3. 通過(guò)多數(shù)投票法匯總成整個(gè)視頻的評(píng)價(jià)（如需要）

這種方法的準(zhǔn)確率與人類標(biāo)注相當(dāng)，極大地提高了數(shù)據(jù)收集效率。

實(shí)驗(yàn)驗(yàn)證：DenseDPO的優(yōu)勢(shì)

研究團(tuán)隊(duì)使用多個(gè)基準(zhǔn)測(cè)試集評(píng)估了DenseDPO的性能。實(shí)驗(yàn)結(jié)果顯示：

1. **保留動(dòng)態(tài)程度**：與傳統(tǒng)VanillaDPO相比，DenseDPO在保持視頻動(dòng)態(tài)性方面有顯著提升。在VideoJAM-bench測(cè)試集上，VanillaDPO的動(dòng)態(tài)程度得分為80.25，而DenseDPO達(dá)到了85.38；在MotionBench測(cè)試集上，差距更明顯，VanillaDPO為72.55，DenseDPO達(dá)到了84.73。

2. **視覺(jué)質(zhì)量相當(dāng)**：DenseDPO在視覺(jué)質(zhì)量方面與VanillaDPO不相上下，甚至略有提升。例如，在MotionBench上，DenseDPO的美學(xué)質(zhì)量為57.54，而VanillaDPO為57.51。

3. **數(shù)據(jù)效率高**：盡管只使用了三分之一的標(biāo)注數(shù)據(jù)（10k對(duì)比30k視頻對(duì)），DenseDPO仍然取得了優(yōu)于或相當(dāng)于VanillaDPO的性能。

4. **自動(dòng)標(biāo)注可行**：使用GPT-o3進(jìn)行片段級(jí)別的偏好預(yù)測(cè)，準(zhǔn)確率達(dá)到70.03%，與專門為視頻質(zhì)量評(píng)估而微調(diào)的模型相近。更重要的是，當(dāng)用這些自動(dòng)標(biāo)注訓(xùn)練DenseDPO時(shí)，其性能接近使用人類標(biāo)注的版本。

人類評(píng)估也證實(shí)了這些結(jié)果。在一項(xiàng)用戶研究中，參與者被要求比較不同方法生成的視頻。與VanillaDPO相比，DenseDPO在動(dòng)態(tài)程度方面獲得了63.9%的勝率，同時(shí)在其他方面保持相當(dāng)水平。

DenseDPO如何工作：技術(shù)原理解析

要理解DenseDPO的工作原理，我們可以將其與傳統(tǒng)直接偏好優(yōu)化（DPO）方法進(jìn)行對(duì)比。

傳統(tǒng)DPO的工作方式類似于這樣：給模型展示兩個(gè)視頻A和B，告訴它"A比B好"，然后模型嘗試調(diào)整參數(shù)，使得它預(yù)測(cè)A的得分高于B的得分。這就像教孩子識(shí)別好蘋果和壞蘋果，每次給他看兩個(gè)蘋果，告訴他哪個(gè)更好。

DenseDPO則做了幾個(gè)關(guān)鍵改進(jìn)：

1. **結(jié)構(gòu)相似的視頻對(duì)**：不是隨機(jī)生成兩個(gè)完全不同的視頻，而是從同一個(gè)"種子"視頻出發(fā)，添加不同程度的噪聲再生成。這確保兩個(gè)視頻的基本運(yùn)動(dòng)結(jié)構(gòu)相似，就像是同一個(gè)舞蹈動(dòng)作的兩種略微不同的表演。

2. **片段級(jí)別的偏好**：不是給整個(gè)視頻一個(gè)總體評(píng)分，而是對(duì)每個(gè)短時(shí)間片段（如1秒）進(jìn)行評(píng)分。這就像不僅評(píng)價(jià)整道菜的口感，還要分別評(píng)價(jià)每個(gè)成分的烹飪程度。

3. **密集的學(xué)習(xí)信號(hào)**：通過(guò)這種方式，模型可以學(xué)習(xí)到更細(xì)粒度的偏好信息，明確知道視頻中哪些部分好，哪些部分不好，而不僅僅是整體的好壞。

在技術(shù)實(shí)現(xiàn)上，DenseDPO擴(kuò)展了Flow-DPO的損失函數(shù)，將其應(yīng)用到視頻的每個(gè)時(shí)間片段上，而不是整個(gè)視頻。這使得模型能夠更精確地學(xué)習(xí)到時(shí)間維度上的偏好變化。

研究意義與應(yīng)用前景

DenseDPO的研究意義遠(yuǎn)不止于提高視頻質(zhì)量。它揭示了一個(gè)更深層次的問(wèn)題：AI系統(tǒng)訓(xùn)練數(shù)據(jù)中存在的隱性偏見如何影響模型行為。就像語(yǔ)言模型中發(fā)現(xiàn)的"冗長(zhǎng)性偏好"（即人類評(píng)估者傾向于更長(zhǎng)的輸出）一樣，視頻生成中也存在"靜態(tài)偏好"現(xiàn)象。

這項(xiàng)研究的潛在應(yīng)用包括：

1. **更自然的AI視頻生成**：生成具有豐富、自然動(dòng)作的視頻，而不僅是"漂亮但靜止"的圖像序列。

2. **減少人工標(biāo)注成本**：通過(guò)利用現(xiàn)有視覺(jué)語(yǔ)言模型進(jìn)行自動(dòng)標(biāo)注，大大降低了數(shù)據(jù)收集成本。

3. **更精確的質(zhì)量評(píng)估**：分段評(píng)估方法可以應(yīng)用于視頻質(zhì)量控制，精確定位問(wèn)題區(qū)域。

4. **減少模型偏見**：這種方法可以擴(kuò)展到識(shí)別和糾正其他類型的隱性偏見。

未來(lái)研究方向

盡管DenseDPO取得了顯著進(jìn)展，研究團(tuán)隊(duì)也指出了一些局限性和未來(lái)研究方向：

1. 與語(yǔ)言模型的DPO相比，視頻生成模型的DPO訓(xùn)練仍然不夠穩(wěn)定，需要提前停止訓(xùn)練以避免過(guò)擬合。

2. 雖然引導(dǎo)式采樣能保持視頻的運(yùn)動(dòng)軌跡，但也減少了比較對(duì)之間的多樣性，未來(lái)可以探索其他方法來(lái)解決這一問(wèn)題。

3. 本研究專注于提高視覺(jué)質(zhì)量和一致性，同時(shí)保持動(dòng)態(tài)程度不變。未來(lái)可以將這種方法擴(kuò)展到其他維度，如通過(guò)擾動(dòng)文本提示來(lái)提高文本匹配度。

總之，DenseDPO代表了視頻生成技術(shù)的一個(gè)重要進(jìn)步，不僅解決了現(xiàn)有方法的關(guān)鍵局限性，還提供了一種更有效、更精確的偏好優(yōu)化方法。隨著這項(xiàng)技術(shù)的發(fā)展，我們可以期待未來(lái)AI生成的視頻將更加自然、動(dòng)態(tài)且符合人類期望。

人工智能視頻生成偏好優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

^{<blockquote id="zinuj"></blockquote>}

<sup id="zinuj"></sup>

<cite id="zinuj"><track id="zinuj"></track></cite>

<sup id="zinuj"><rt id="zinuj"></rt></sup>

<u id="zinuj"></u>

<p id="zinuj"><li id="zinuj"></li></p>