
這項(xiàng)由清華大學(xué)劉宇杰教授領(lǐng)導(dǎo),聯(lián)合快手科技、香港中文大學(xué)等多個(gè)機(jī)構(gòu)完成的研究發(fā)表于2025年1月,研究論文題為《Improving Video Generation with Human Feedback》。有興趣深入了解的讀者可以訪問(wèn)完整論文(arXiv:2501.13918v1)。
視頻生成技術(shù)正在以驚人的速度發(fā)展,從最初的簡(jiǎn)單動(dòng)畫到如今能夠生成逼真的人物對(duì)話,這個(gè)領(lǐng)域的進(jìn)步讓人目不暇接。然而,就像一個(gè)剛學(xué)會(huì)說(shuō)話的孩子,現(xiàn)有的AI視頻生成系統(tǒng)雖然能夠產(chǎn)出內(nèi)容,但往往無(wú)法真正理解什么樣的視頻才是人們真正想要的。運(yùn)動(dòng)不夠流暢、畫面質(zhì)量不夠精細(xì)、生成的內(nèi)容與用戶描述存在偏差——這些問(wèn)題就像是AI在按照自己的理解創(chuàng)作,而不是按照人類的喜好創(chuàng)作。
研究團(tuán)隊(duì)意識(shí)到,要讓AI真正學(xué)會(huì)生成高質(zhì)量視頻,關(guān)鍵在于讓它能夠理解人類的反饋和偏好。就如同一個(gè)學(xué)習(xí)繪畫的學(xué)生需要老師的指導(dǎo)才能不斷進(jìn)步一樣,AI也需要人類的"教學(xué)"才能產(chǎn)出更符合期待的作品。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)龐大的人類偏好數(shù)據(jù)集,包含了18.2萬(wàn)個(gè)經(jīng)過(guò)人工標(biāo)注的視頻對(duì)比樣本。這些樣本就像是給AI準(zhǔn)備的"教科書(shū)",告訴它什么樣的視頻在視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量和文本對(duì)齊度方面更受人們喜愛(ài)。
在這個(gè)基礎(chǔ)上,研究團(tuán)隊(duì)開(kāi)發(fā)了VideoReward——一個(gè)多維度的視頻獎(jiǎng)勵(lì)模型,它就像是一位經(jīng)驗(yàn)豐富的評(píng)委,能夠從多個(gè)角度對(duì)視頻質(zhì)量進(jìn)行評(píng)判。更重要的是,他們還提出了三種針對(duì)基于流模型的視頻生成系統(tǒng)的對(duì)齊算法:Flow-DPO、Flow-RWR和Flow-NRG。這些算法就像是不同的訓(xùn)練方法,能夠讓AI在生成視頻時(shí)更好地遵循人類的偏好。
一、構(gòu)建AI的"品味教科書(shū)":大規(guī)模人類偏好數(shù)據(jù)集
要讓AI學(xué)會(huì)什么是好視頻,首先需要告訴它人類是如何判斷視頻質(zhì)量的。這就像培養(yǎng)一個(gè)藝術(shù)評(píng)論家,需要讓他看遍各種藝術(shù)作品,了解什么是美,什么是不足。研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就是現(xiàn)有的數(shù)據(jù)集大多基于較老的視頻生成模型,這些模型產(chǎn)出的視頻質(zhì)量相對(duì)較低,時(shí)長(zhǎng)也很短,無(wú)法反映現(xiàn)代視頻生成技術(shù)的真實(shí)水平。
研究團(tuán)隊(duì)決定從零開(kāi)始構(gòu)建一個(gè)全新的數(shù)據(jù)集。他們從互聯(lián)網(wǎng)上收集了各種類型的文本描述,包括動(dòng)物、建筑、食物、人物、植物、場(chǎng)景、車輛和物體等八個(gè)大類。這些描述經(jīng)過(guò)精心篩選和擴(kuò)展,最終形成了1.6萬(wàn)個(gè)詳細(xì)的文本提示。接著,他們使用12個(gè)不同的現(xiàn)代視頻生成模型來(lái)處理這些文本,產(chǎn)生了10.8萬(wàn)個(gè)視頻,進(jìn)而構(gòu)建了18.2萬(wàn)個(gè)三元組樣本,每個(gè)樣本包含一個(gè)文本提示和兩個(gè)相應(yīng)的生成視頻。
數(shù)據(jù)收集只是第一步,更關(guān)鍵的是如何進(jìn)行標(biāo)注。研究團(tuán)隊(duì)聘請(qǐng)了專業(yè)的標(biāo)注員,讓他們從三個(gè)關(guān)鍵維度對(duì)視頻進(jìn)行評(píng)價(jià):視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量和文本對(duì)齊度。視覺(jué)質(zhì)量主要關(guān)注畫面的清晰度、細(xì)節(jié)豐富度和美觀程度,就像評(píng)判一幅畫作的技法是否精湛。運(yùn)動(dòng)質(zhì)量則關(guān)注視頻中的動(dòng)作是否流暢自然,物體運(yùn)動(dòng)是否符合物理規(guī)律,就像評(píng)判一場(chǎng)舞蹈表演的協(xié)調(diào)性。文本對(duì)齊度評(píng)估的是生成的視頻內(nèi)容是否與原始文本描述相匹配,就像檢查翻譯是否準(zhǔn)確傳達(dá)原文意思。
為了確保標(biāo)注質(zhì)量,每個(gè)樣本都由三位獨(dú)立的標(biāo)注員進(jìn)行評(píng)價(jià)。當(dāng)出現(xiàn)意見(jiàn)分歧時(shí),會(huì)有額外的評(píng)審員介入解決爭(zhēng)議。這個(gè)過(guò)程就像法庭審理案件時(shí)需要多位陪審員達(dá)成一致意見(jiàn)一樣嚴(yán)謹(jǐn)。最終,這個(gè)數(shù)據(jù)集不僅包含了配對(duì)比較的標(biāo)注(哪個(gè)視頻更好),還包含了具體的評(píng)分(給每個(gè)視頻打分),為后續(xù)的模型訓(xùn)練提供了豐富的學(xué)習(xí)材料。
二、打造AI視頻評(píng)委:VideoReward多維度獎(jiǎng)勵(lì)模型
有了訓(xùn)練數(shù)據(jù),下一步就是構(gòu)建一個(gè)能夠模擬人類判斷的AI評(píng)委系統(tǒng)。這個(gè)系統(tǒng)需要像人類專家一樣,能夠從多個(gè)角度綜合評(píng)價(jià)視頻質(zhì)量。研究團(tuán)隊(duì)以Qwen2-VL-2B作為基礎(chǔ)模型,開(kāi)發(fā)了VideoReward系統(tǒng)。
在設(shè)計(jì)VideoReward時(shí),研究團(tuán)隊(duì)面臨一個(gè)重要的技術(shù)選擇:是使用點(diǎn)式評(píng)分(直接給視頻打分)還是使用配對(duì)比較(判斷哪個(gè)視頻更好)的訓(xùn)練方式。通過(guò)大量實(shí)驗(yàn),他們發(fā)現(xiàn)配對(duì)比較的方式更加有效。這是因?yàn)橄啾扔诮o視頻一個(gè)絕對(duì)的分?jǐn)?shù),人們更容易判斷兩個(gè)視頻中哪一個(gè)更好。就像在美食比賽中,評(píng)委可能難以給一道菜打出確切的分?jǐn)?shù),但很容易判斷兩道菜中哪一道更美味。
研究團(tuán)隊(duì)采用了Bradley-Terry模型的擴(kuò)展版本——Bradley-Terry-With-Ties模型來(lái)處理人類偏好數(shù)據(jù)。這個(gè)模型不僅能處理"A比B好"或"B比A好"的情況,還能處理"A和B差不多"的平手情況。在現(xiàn)實(shí)中,確實(shí)存在兩個(gè)視頻質(zhì)量相當(dāng)、難以區(qū)分優(yōu)劣的情況,忽略這種情況會(huì)讓模型的判斷能力變得不夠細(xì)致。
另一個(gè)重要的創(chuàng)新是分離式設(shè)計(jì)。傳統(tǒng)的多維度評(píng)價(jià)模型往往會(huì)讓不同維度的評(píng)價(jià)相互影響,就像一個(gè)偏心的老師可能因?yàn)閷W(xué)生字寫得好就給作文內(nèi)容也打高分。為了避免這種問(wèn)題,研究團(tuán)隊(duì)為每個(gè)評(píng)價(jià)維度設(shè)計(jì)了專門的查詢標(biāo)記。視覺(jué)質(zhì)量和運(yùn)動(dòng)質(zhì)量的評(píng)價(jià)標(biāo)記放在視頻內(nèi)容之后、文本提示之前,這樣它們只能"看到"視頻內(nèi)容;而文本對(duì)齊度的評(píng)價(jià)標(biāo)記放在文本提示之后,既能"看到"視頻內(nèi)容,也能"看到"文本描述。這種設(shè)計(jì)確保了每個(gè)維度的評(píng)價(jià)都更加獨(dú)立和準(zhǔn)確。
三、讓AI學(xué)會(huì)模仿人類偏好:三種對(duì)齊算法
有了能夠評(píng)價(jià)視頻質(zhì)量的VideoReward系統(tǒng),接下來(lái)的挑戰(zhàn)是如何讓視頻生成模型真正學(xué)會(huì)按照人類偏好來(lái)生成內(nèi)容。這就像是教授學(xué)生如何根據(jù)評(píng)委的喜好來(lái)創(chuàng)作作品。研究團(tuán)隊(duì)開(kāi)發(fā)了三種不同的算法來(lái)實(shí)現(xiàn)這個(gè)目標(biāo)。
Flow-DPO(直接偏好優(yōu)化)是第一種方法。這種方法的核心思想是讓模型通過(guò)比較學(xué)習(xí):當(dāng)面對(duì)兩個(gè)視頻樣本時(shí),模型學(xué)會(huì)提高生成更受歡迎視頻的概率,同時(shí)降低生成不受歡迎視頻的概率。這就像教練通過(guò)分析優(yōu)秀運(yùn)動(dòng)員和普通運(yùn)動(dòng)員的表現(xiàn)差異來(lái)指導(dǎo)訓(xùn)練一樣。
在將DPO算法適配到基于流模型的視頻生成系統(tǒng)時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要問(wèn)題。原本的算法設(shè)計(jì)會(huì)在不同時(shí)間步施加不同強(qiáng)度的約束,在早期時(shí)間步(噪聲較多時(shí))施加較弱約束,在后期時(shí)間步施加較強(qiáng)約束。然而實(shí)驗(yàn)結(jié)果表明,使用固定強(qiáng)度的約束效果更好。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用非常重要,因?yàn)樗馕吨P湍軌蛟谡麄€(gè)生成過(guò)程中保持一致的優(yōu)化方向。
Flow-RWR(獎(jiǎng)勵(lì)加權(quán)回歸)是第二種方法。這種方法根據(jù)視頻的質(zhì)量評(píng)分來(lái)調(diào)整訓(xùn)練樣本的權(quán)重,質(zhì)量高的視頻在訓(xùn)練中獲得更大的權(quán)重,質(zhì)量低的視頻權(quán)重較小。這就像在學(xué)習(xí)時(shí)更多地關(guān)注優(yōu)秀范例,而不是把時(shí)間平均分配給所有樣本。這種方法的優(yōu)勢(shì)在于直接利用了獎(jiǎng)勵(lì)信號(hào),但可能不如DPO那樣能夠精確地建模人類偏好的相對(duì)關(guān)系。
Flow-NRG(流式噪聲獎(jiǎng)勵(lì)引導(dǎo))是第三種方法,它的特殊之處在于可以在推理時(shí)直接應(yīng)用,無(wú)需重新訓(xùn)練模型。這種方法在生成過(guò)程的每一步都使用獎(jiǎng)勵(lì)模型提供的梯度信息來(lái)調(diào)整生成方向,就像GPS導(dǎo)航在行駛過(guò)程中不斷修正路線一樣。更有價(jià)值的是,F(xiàn)low-NRG允許用戶為不同的評(píng)價(jià)維度設(shè)置不同的權(quán)重,比如某個(gè)用戶更重視視覺(jué)質(zhì)量而不太在意運(yùn)動(dòng)流暢度,就可以相應(yīng)調(diào)整權(quán)重配置。
為了讓Flow-NRG能夠在含有噪聲的中間狀態(tài)下正常工作,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)專門的時(shí)間相關(guān)獎(jiǎng)勵(lì)模型。這個(gè)模型不僅能評(píng)價(jià)最終的完整視頻,還能評(píng)價(jià)生成過(guò)程中的中間狀態(tài)。這就像培養(yǎng)一個(gè)能在雕塑創(chuàng)作過(guò)程中就能看出最終效果的專家一樣。
四、實(shí)驗(yàn)驗(yàn)證:全面的性能評(píng)估
為了驗(yàn)證這些方法的有效性,研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)評(píng)估。他們不僅在自己構(gòu)建的數(shù)據(jù)集上測(cè)試,還在現(xiàn)有的基準(zhǔn)測(cè)試上驗(yàn)證模型的泛化能力。
在獎(jiǎng)勵(lì)模型的評(píng)估中,VideoReward在多個(gè)基準(zhǔn)測(cè)試中都表現(xiàn)出色。特別是在VideoGen-RewardBench這個(gè)專門針對(duì)現(xiàn)代視頻生成模型設(shè)計(jì)的基準(zhǔn)上,VideoReward的整體準(zhǔn)確率達(dá)到了73.59%,顯著超過(guò)了現(xiàn)有的其他方法。在各個(gè)維度上,視覺(jué)質(zhì)量評(píng)估準(zhǔn)確率為75.66%,運(yùn)動(dòng)質(zhì)量評(píng)估為74.70%,文本對(duì)齊度評(píng)估為72.20%。這些數(shù)字表明VideoReward確實(shí)能夠準(zhǔn)確捕捉人類對(duì)視頻質(zhì)量的判斷。
在對(duì)齊算法的評(píng)估中,F(xiàn)low-DPO(使用固定β參數(shù))表現(xiàn)最為優(yōu)異。在VBench基準(zhǔn)測(cè)試中,經(jīng)過(guò)Flow-DPO對(duì)齊的模型總分達(dá)到83.41,相比原始模型的83.19有所提升。更重要的是,在人類評(píng)估中,F(xiàn)low-DPO對(duì)齊的模型在各個(gè)維度上都獲得了顯著更高的勝率。在視覺(jué)質(zhì)量方面勝率達(dá)到93.42%,運(yùn)動(dòng)質(zhì)量勝率為69.08%,文本對(duì)齊度勝率為75.43%。
特別值得關(guān)注的是,研究團(tuán)隊(duì)還測(cè)試了Flow-NRG的靈活性。通過(guò)調(diào)整不同維度的權(quán)重,用戶可以根據(jù)自己的需求定制生成結(jié)果。例如,當(dāng)用戶更注重文本對(duì)齊度時(shí),可以增加相應(yīng)權(quán)重,模型就會(huì)生成更貼近文本描述的視頻,即使可能在視覺(jué)效果上有所妥協(xié)。
五、技術(shù)細(xì)節(jié)與創(chuàng)新點(diǎn)
這項(xiàng)研究的技術(shù)創(chuàng)新體現(xiàn)在多個(gè)方面。首先是數(shù)據(jù)集的構(gòu)建策略。與以往研究主要使用早期開(kāi)源模型生成的低質(zhì)量視頻不同,研究團(tuán)隊(duì)專門選擇了12個(gè)現(xiàn)代化的視頻生成模型,包括6個(gè)現(xiàn)代模型和6個(gè)傳統(tǒng)模型,確保數(shù)據(jù)集能夠反映當(dāng)前技術(shù)的真實(shí)水平。
在模型架構(gòu)設(shè)計(jì)上,分離式的查詢標(biāo)記設(shè)計(jì)是一個(gè)重要?jiǎng)?chuàng)新。這種設(shè)計(jì)不僅提高了評(píng)價(jià)的準(zhǔn)確性,還增強(qiáng)了模型的可解釋性。用戶可以清楚地了解模型在各個(gè)維度上的判斷,而不是得到一個(gè)黑箱式的總體評(píng)分。
在算法層面,將DPO算法從擴(kuò)散模型擴(kuò)展到流模型是一個(gè)技術(shù)挑戰(zhàn)。研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)推導(dǎo)發(fā)現(xiàn),在流模型中應(yīng)用DPO時(shí),約束強(qiáng)度與時(shí)間步的關(guān)系需要重新考慮。這個(gè)發(fā)現(xiàn)不僅對(duì)本研究有用,對(duì)整個(gè)領(lǐng)域的發(fā)展也具有指導(dǎo)意義。
Flow-NRG算法的另一個(gè)創(chuàng)新是直接在潛在空間中進(jìn)行獎(jiǎng)勵(lì)引導(dǎo)。由于現(xiàn)代視頻生成模型通常在壓縮的潛在空間中工作,直接在像素空間計(jì)算獎(jiǎng)勵(lì)梯度會(huì)帶來(lái)巨大的計(jì)算開(kāi)銷。研究團(tuán)隊(duì)通過(guò)使用預(yù)訓(xùn)練模型的前幾層來(lái)構(gòu)建輕量級(jí)的獎(jiǎng)勵(lì)模型,既保持了引導(dǎo)的有效性,又控制了計(jì)算成本。
六、實(shí)際應(yīng)用前景與意義
這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)價(jià)值,它為視頻生成技術(shù)的實(shí)際應(yīng)用開(kāi)辟了新的可能性。在內(nèi)容創(chuàng)作領(lǐng)域,創(chuàng)作者可以使用這些技術(shù)來(lái)生成更符合自己創(chuàng)意需求的視頻素材。比如一個(gè)廣告制作人可以快速生成多個(gè)版本的產(chǎn)品演示視頻,然后根據(jù)客戶偏好進(jìn)行微調(diào)。
在教育培訓(xùn)領(lǐng)域,這項(xiàng)技術(shù)可以用來(lái)生成個(gè)性化的教學(xué)視頻。不同學(xué)生可能對(duì)同樣的知識(shí)點(diǎn)有不同的理解方式,通過(guò)調(diào)整生成參數(shù),可以為每個(gè)學(xué)生生成最適合的講解視頻。比如有些學(xué)生更喜歡動(dòng)畫風(fēng)格的解釋,有些則偏好真實(shí)場(chǎng)景的演示。
對(duì)于社交媒體和娛樂(lè)平臺(tái),這項(xiàng)技術(shù)可以幫助用戶更輕松地創(chuàng)作高質(zhì)量的視頻內(nèi)容。用戶只需要提供文字描述,系統(tǒng)就能生成符合其風(fēng)格偏好的視頻。更重要的是,通過(guò)人類反饋的持續(xù)學(xué)習(xí),系統(tǒng)會(huì)越來(lái)越了解不同用戶群體的喜好。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究建立了一個(gè)重要的評(píng)估框架。VideoGen-RewardBench基準(zhǔn)測(cè)試填補(bǔ)了現(xiàn)代視頻生成模型評(píng)估的空白,為后續(xù)研究提供了標(biāo)準(zhǔn)化的比較工具。這就像為整個(gè)領(lǐng)域建立了一個(gè)統(tǒng)一的考試系統(tǒng),讓不同研究團(tuán)隊(duì)的成果能夠公平比較。
七、挑戰(zhàn)與改進(jìn)方向
盡管取得了顯著成果,研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的局限性。首先是獎(jiǎng)勵(lì)竊取問(wèn)題。由于獎(jiǎng)勵(lì)模型是可微分的,生成模型可能會(huì)學(xué)會(huì)專門針對(duì)獎(jiǎng)勵(lì)模型的弱點(diǎn)來(lái)優(yōu)化,而不是真正提升視頻質(zhì)量。這就像學(xué)生可能會(huì)針對(duì)特定老師的評(píng)分習(xí)慣來(lái)應(yīng)付考試,而不是真正掌握知識(shí)。
計(jì)算效率是另一個(gè)挑戰(zhàn)。雖然Flow-NRG提供了靈活的推理時(shí)對(duì)齊能力,但每次生成都需要額外的梯度計(jì)算,這會(huì)增加計(jì)算成本。對(duì)于需要大規(guī)模部署的應(yīng)用來(lái)說(shuō),這可能是一個(gè)需要權(quán)衡的問(wèn)題。
數(shù)據(jù)集的多樣性仍有提升空間。雖然當(dāng)前數(shù)據(jù)集已經(jīng)相當(dāng)龐大,但相對(duì)于人類視覺(jué)體驗(yàn)的復(fù)雜性來(lái)說(shuō)仍然有限。特別是對(duì)于一些特殊場(chǎng)景或藝術(shù)風(fēng)格,模型的判斷能力可能還不夠準(zhǔn)確。
研究團(tuán)隊(duì)也認(rèn)識(shí)到,人類偏好本身是動(dòng)態(tài)變化的。不同文化背景、年齡層次的人對(duì)視頻質(zhì)量的看法可能存在差異。如何構(gòu)建一個(gè)能夠適應(yīng)這種多樣性的系統(tǒng),仍然是未來(lái)需要解決的問(wèn)題。
八、與現(xiàn)有技術(shù)的比較優(yōu)勢(shì)
相比于現(xiàn)有的視頻生成評(píng)估方法,這項(xiàng)研究在多個(gè)方面展現(xiàn)了顯著優(yōu)勢(shì)。傳統(tǒng)的評(píng)估方法主要依賴于計(jì)算機(jī)視覺(jué)指標(biāo),比如FID分?jǐn)?shù)或CLIP相似度。這些指標(biāo)雖然客觀,但往往無(wú)法準(zhǔn)確反映人類的主觀感受。就像用化學(xué)分析來(lái)評(píng)判食物味道一樣,技術(shù)上精確但可能與實(shí)際體驗(yàn)相去甚遠(yuǎn)。
VideoReward的多維度評(píng)估框架更貼近人類的實(shí)際判斷過(guò)程。當(dāng)我們?cè)u(píng)價(jià)一個(gè)視頻時(shí),確實(shí)會(huì)從畫面質(zhì)量、動(dòng)作流暢度和內(nèi)容相關(guān)性等多個(gè)角度進(jìn)行考慮。這種設(shè)計(jì)讓AI的評(píng)判更接近人類專家的思維方式。
在算法層面,相比于傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法如PPO,DPO類方法避免了復(fù)雜的在線學(xué)習(xí)過(guò)程,訓(xùn)練更穩(wěn)定,實(shí)施更簡(jiǎn)單。這就像選擇了一條更直接的學(xué)習(xí)路徑,避免了許多可能的陷阱和不穩(wěn)定因素。
Flow-NRG的推理時(shí)對(duì)齊能力是這項(xiàng)研究的獨(dú)特優(yōu)勢(shì)。大多數(shù)現(xiàn)有方法都需要針對(duì)特定偏好重新訓(xùn)練模型,這不僅耗時(shí)耗力,還限制了應(yīng)用的靈活性。Flow-NRG讓用戶可以在使用時(shí)動(dòng)態(tài)調(diào)整偏好權(quán)重,大大提高了實(shí)用性。
九、對(duì)行業(yè)發(fā)展的啟示
這項(xiàng)研究對(duì)整個(gè)AI視頻生成行業(yè)具有重要啟示意義。首先,它驗(yàn)證了人類反饋在AI系統(tǒng)優(yōu)化中的關(guān)鍵作用。僅僅依靠技術(shù)指標(biāo)優(yōu)化是不夠的,必須將人類的主觀判斷納入訓(xùn)練過(guò)程。這個(gè)觀點(diǎn)在大語(yǔ)言模型領(lǐng)域已經(jīng)得到廣泛認(rèn)可,現(xiàn)在在視頻生成領(lǐng)域也得到了有力證實(shí)。
數(shù)據(jù)質(zhì)量比數(shù)量更重要的觀點(diǎn)在這項(xiàng)研究中也得到了體現(xiàn)。研究團(tuán)隊(duì)花費(fèi)大量精力構(gòu)建高質(zhì)量的偏好數(shù)據(jù)集,這種投入獲得了顯著的回報(bào)。對(duì)于產(chǎn)業(yè)界來(lái)說(shuō),這意味著在數(shù)據(jù)收集和標(biāo)注上的投資是值得的。
多維度評(píng)估的重要性是另一個(gè)關(guān)鍵啟示。視頻質(zhì)量不是一個(gè)單一概念,而是多個(gè)維度的綜合體現(xiàn)。忽視任何一個(gè)維度都可能導(dǎo)致用戶體驗(yàn)的下降。這要求開(kāi)發(fā)者在系統(tǒng)設(shè)計(jì)時(shí)必須考慮全面性。
技術(shù)的實(shí)用性和靈活性同樣重要。Flow-NRG的成功說(shuō)明,能夠讓用戶根據(jù)具體需求進(jìn)行定制的技術(shù)更有應(yīng)用價(jià)值。在實(shí)際部署中,一刀切的解決方案往往無(wú)法滿足多樣化的用戶需求。
說(shuō)到底,這項(xiàng)由清華大學(xué)、快手科技等機(jī)構(gòu)聯(lián)合完成的研究為AI視頻生成技術(shù)的發(fā)展提供了一個(gè)重要的里程碑。通過(guò)構(gòu)建大規(guī)模的人類偏好數(shù)據(jù)集和開(kāi)發(fā)相應(yīng)的對(duì)齊算法,研究團(tuán)隊(duì)成功地讓AI系統(tǒng)學(xué)會(huì)了更好地理解和滿足人類對(duì)視頻質(zhì)量的期望。這不僅是技術(shù)上的突破,更是人機(jī)協(xié)作理念在視頻生成領(lǐng)域的成功實(shí)踐。
隨著技術(shù)的不斷完善,我們有理由相信,未來(lái)的AI視頻生成系統(tǒng)將能夠創(chuàng)作出更加符合人類審美和實(shí)用需求的內(nèi)容。這項(xiàng)研究為這個(gè)美好愿景的實(shí)現(xiàn)奠定了堅(jiān)實(shí)的基礎(chǔ),也為后續(xù)研究指明了方向。對(duì)于普通用戶來(lái)說(shuō),這意味著他們很快就能享受到更智能、更貼心的AI視頻創(chuàng)作服務(wù)。對(duì)于整個(gè)行業(yè)來(lái)說(shuō),這標(biāo)志著視頻生成技術(shù)正在向著更加成熟和實(shí)用的方向發(fā)展。
Q&A
Q1:VideoReward是什么?它能做什么?
A:VideoReward是由清華大學(xué)和快手科技等機(jī)構(gòu)開(kāi)發(fā)的AI視頻評(píng)價(jià)系統(tǒng),它能像專業(yè)評(píng)委一樣從視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量和文本對(duì)齊度三個(gè)維度評(píng)價(jià)視頻好壞。這個(gè)系統(tǒng)基于18.2萬(wàn)個(gè)人工標(biāo)注的視頻對(duì)比樣本訓(xùn)練而成,能夠準(zhǔn)確判斷哪個(gè)視頻更符合人類偏好,為AI視頻生成模型的改進(jìn)提供指導(dǎo)。
Q2:Flow-DPO這些算法會(huì)讓視頻生成變得更好嗎?
A:是的,實(shí)驗(yàn)結(jié)果顯示Flow-DPO算法能顯著提升視頻生成質(zhì)量。經(jīng)過(guò)Flow-DPO訓(xùn)練的模型在人類評(píng)估中,視覺(jué)質(zhì)量勝率達(dá)到93.42%,運(yùn)動(dòng)質(zhì)量勝率為69.08%,文本對(duì)齊度勝率為75.43%。這意味著生成的視頻在畫面清晰度、動(dòng)作流暢性和內(nèi)容準(zhǔn)確性方面都有明顯改善,更符合用戶期望。
Q3:普通用戶什么時(shí)候能用上這項(xiàng)技術(shù)?
A:目前這項(xiàng)研究主要面向技術(shù)開(kāi)發(fā)者和研究機(jī)構(gòu),普通用戶還無(wú)法直接使用。不過(guò),這些技術(shù)有望集成到各大視頻生成平臺(tái)中,比如抖音、快手等短視頻應(yīng)用,以及專業(yè)的視頻制作工具。預(yù)計(jì)在未來(lái)1-2年內(nèi),用戶就能體驗(yàn)到基于這些技術(shù)改進(jìn)的視頻生成服務(wù),享受更智能、更符合個(gè)人喜好的視頻創(chuàng)作體驗(yàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。