
這項(xiàng)令人矚目的研究來(lái)自字節(jié)跳動(dòng)的Waver團(tuán)隊(duì),于2025年8月發(fā)表。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2508.15761v1訪問(wèn)完整論文。這個(gè)研究團(tuán)隊(duì)不僅在技術(shù)上實(shí)現(xiàn)了重大突破,更在實(shí)際應(yīng)用效果上達(dá)到了前所未有的高度。
當(dāng)你在抖音或其他視頻平臺(tái)上看到那些精美的短視頻時(shí),是否想過(guò)有一天只需要輸入幾個(gè)文字,AI就能為你生成同樣精彩的內(nèi)容?字節(jié)跳動(dòng)的研究團(tuán)隊(duì)剛剛讓這個(gè)夢(mèng)想變成了現(xiàn)實(shí)。他們開(kāi)發(fā)的Waver系統(tǒng)就像一個(gè)超級(jí)智能的電影制作助手,不僅能根據(jù)你的文字描述生成5到10秒的高清視頻,還能將分辨率從720p提升到1080p,畫質(zhì)堪比專業(yè)攝影作品。
更令人驚喜的是,Waver不僅能憑空創(chuàng)造視頻內(nèi)容,還能接受你提供的圖片,然后讓圖片中的場(chǎng)景"動(dòng)起來(lái)"。這就好比你有一張靜止的照片,Waver能夠理解照片中的內(nèi)容,然后為它續(xù)寫一個(gè)生動(dòng)的故事情節(jié)。而且,這個(gè)AI助手還特別擅長(zhǎng)處理復(fù)雜的運(yùn)動(dòng)場(chǎng)景,比如籃球比賽、體操表演或網(wǎng)球?qū)?zhàn)等,這些在以往的AI視頻生成中都是公認(rèn)的難題。
在全球權(quán)威的AI視頻生成排行榜Artificial Analysis上,Waver在文本生成視頻和圖片生成視頻兩個(gè)賽道中都躋身前三名,這意味著它已經(jīng)能夠與谷歌、快手等科技巨頭的頂級(jí)產(chǎn)品分庭抗禮。更重要的是,字節(jié)跳動(dòng)團(tuán)隊(duì)將他們的研究方法和訓(xùn)練秘訣全部公開(kāi)分享,這就像是把一本珍貴的"武功秘籍"免費(fèi)送給了整個(gè)科技界。
一、統(tǒng)一架構(gòu)設(shè)計(jì):一個(gè)模型搞定三種任務(wù)
在傳統(tǒng)的AI視頻生成領(lǐng)域,就像你需要三把不同的鑰匙來(lái)開(kāi)三扇不同的門一樣,研究人員通常需要分別訓(xùn)練三個(gè)獨(dú)立的模型來(lái)處理文本生成圖片、文本生成視頻和圖片生成視頻這三種不同任務(wù)。這不僅浪費(fèi)大量的計(jì)算資源和訓(xùn)練時(shí)間,而且三個(gè)模型之間無(wú)法相互學(xué)習(xí)和促進(jìn)。
Waver的創(chuàng)新之處在于設(shè)計(jì)了一種"萬(wàn)能鑰匙"式的統(tǒng)一架構(gòu)。研究團(tuán)隊(duì)巧妙地設(shè)計(jì)了一種三部分輸入機(jī)制,就像制作三明治一樣,將不同類型的信息分層處理。第一層是主要的"噪聲潛在表示"(可以理解為待生成內(nèi)容的原始材料),第二層是"條件幀張量"(包含任何已知的參考圖片信息),第三層是"二進(jìn)制條件掩碼"(用來(lái)標(biāo)記哪些是已知內(nèi)容,哪些需要生成)。
這種設(shè)計(jì)的巧妙之處在于其極強(qiáng)的靈活性。當(dāng)系統(tǒng)需要處理文本生成圖片任務(wù)時(shí),條件幀張量就填充黑色圖像,掩碼全部標(biāo)記為"需要生成";當(dāng)處理圖片生成視頻時(shí),條件幀張量包含用戶提供的參考圖片,掩碼標(biāo)記該幀為"已知",其他幀為"需要生成"。這就好比有一個(gè)智能廚師,無(wú)論你提供什么原料,都能靈活調(diào)整烹飪方法來(lái)制作出你想要的菜品。
在架構(gòu)設(shè)計(jì)上,Waver采用了創(chuàng)新的"混合流"設(shè)計(jì)理念。系統(tǒng)前面部分使用"雙流"設(shè)計(jì),就像雙車道高速公路一樣,視頻信息和文本信息各走各的專用通道,但在關(guān)鍵節(jié)點(diǎn)會(huì)進(jìn)行信息交匯,確保兩種信息能夠充分理解和配合。這種設(shè)計(jì)讓系統(tǒng)能夠更好地理解文本描述和視頻內(nèi)容之間的對(duì)應(yīng)關(guān)系。
系統(tǒng)后半部分則切換到"單流"設(shè)計(jì),就像雙車道匯合成單車道一樣,將已經(jīng)充分交流的信息合并處理,提高計(jì)算效率。這種混合設(shè)計(jì)既保證了不同模態(tài)信息的充分對(duì)齊,又兼顧了計(jì)算效率,是一個(gè)非常聰明的工程解決方案。
為了更好地處理時(shí)空信息,研究團(tuán)隊(duì)還設(shè)計(jì)了混合位置編碼機(jī)制。這就像給視頻中的每個(gè)像素點(diǎn)都標(biāo)上了精確的"時(shí)空坐標(biāo)",不僅記錄它在畫面中的位置(空間坐標(biāo)),還記錄它出現(xiàn)的時(shí)間點(diǎn)(時(shí)間坐標(biāo))。這種編碼方式讓系統(tǒng)能夠更好地理解和生成復(fù)雜的運(yùn)動(dòng)模式,特別是在處理長(zhǎng)時(shí)間視頻和高分辨率內(nèi)容時(shí)表現(xiàn)出色。
二、兩階段生成策略:先畫草圖再精修細(xì)節(jié)
直接生成1080p高分辨率視頻就像試圖一口氣登上珠穆朗瑪峰一樣,不僅極其耗費(fèi)計(jì)算資源,而且成功率很低。Waver采用了更加聰明的兩階段策略,就像專業(yè)畫家先畫素描草圖,然后再添加細(xì)節(jié)和色彩一樣。
第一階段使用任務(wù)統(tǒng)一DiT模型生成720p分辨率的視頻。這個(gè)階段就像是制作視頻的"毛坯房",確定基本的場(chǎng)景布局、人物動(dòng)作和故事情節(jié)。雖然分辨率不是最高的,但所有關(guān)鍵信息都已經(jīng)包含在內(nèi)了。這種方法讓系統(tǒng)能夠?qū)W⒂诶斫庥脩粜枨蠛蜕珊侠淼囊曨l內(nèi)容,而不被高分辨率的技術(shù)難題所困擾。
第二階段的級(jí)聯(lián)精煉器就像專業(yè)的裝修團(tuán)隊(duì),接手這個(gè)720p的"毛坯房",將其升級(jí)改造為1080p的"精裝房"。這個(gè)精煉器使用了窗口注意力機(jī)制來(lái)提高效率,就像裝修工人分區(qū)域作業(yè)一樣,將整個(gè)視頻畫面分割成小窗口,每次只處理局部區(qū)域,但通過(guò)巧妙的協(xié)調(diào)確保整體效果的連貫性。
更有趣的是,精煉器不僅僅是簡(jiǎn)單的分辨率提升,它還具備一定的"視頻編輯"能力。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)調(diào)整某些參數(shù)時(shí),精煉器甚至能夠修改視頻中的對(duì)象。比如,它能將視頻中的女性角色替換為男性角色,同時(shí)保持其他所有內(nèi)容不變。這種能力為未來(lái)的視頻編輯應(yīng)用開(kāi)啟了新的可能性。
為了訓(xùn)練這個(gè)精煉器,研究團(tuán)隊(duì)設(shè)計(jì)了巧妙的數(shù)據(jù)準(zhǔn)備方法。他們首先對(duì)高清視頻進(jìn)行降質(zhì)處理,制造出"有缺陷"的低分辨率版本,然后訓(xùn)練精煉器學(xué)會(huì)如何將這些"有缺陷"的視頻恢復(fù)到原始的高清質(zhì)量。這就像訓(xùn)練一個(gè)修復(fù)師,讓他學(xué)會(huì)如何將破損的古畫恢復(fù)到原本的精美狀態(tài)。
這種兩階段設(shè)計(jì)的另一個(gè)重要優(yōu)勢(shì)是計(jì)算效率的顯著提升。相比直接生成1080p視頻,這種方法能夠節(jié)省大約40%的計(jì)算時(shí)間,這對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)是一個(gè)巨大的優(yōu)勢(shì)。畢竟,用戶等待視頻生成的時(shí)間越短,使用體驗(yàn)就越好。
三、海量數(shù)據(jù)精細(xì)篩選:2億視頻片段的"優(yōu)勝劣汰"
任何優(yōu)秀的AI模型都離不開(kāi)高質(zhì)量的訓(xùn)練數(shù)據(jù),就像培養(yǎng)一個(gè)優(yōu)秀的廚師需要讓他品嘗各種頂級(jí)食材一樣。Waver團(tuán)隊(duì)建立了一個(gè)極其嚴(yán)格的數(shù)據(jù)篩選流程,從海量原始視頻中精心挑選出最適合訓(xùn)練的內(nèi)容。
整個(gè)數(shù)據(jù)處理流程就像一個(gè)層層遞進(jìn)的"選秀節(jié)目"。首先是海選階段,系統(tǒng)從多個(gè)來(lái)源收集原始視頻數(shù)據(jù),確保內(nèi)容的多樣性和豐富性。特別值得注意的是,對(duì)于那些特別有挑戰(zhàn)性的場(chǎng)景,比如復(fù)雜的球類運(yùn)動(dòng)或高難度體操動(dòng)作,團(tuán)隊(duì)還專門進(jìn)行了針對(duì)性的數(shù)據(jù)收集和補(bǔ)充。
接下來(lái)是分段處理階段,就像將長(zhǎng)篇小說(shuō)分解成若干個(gè)短篇故事一樣。系統(tǒng)使用智能場(chǎng)景檢測(cè)技術(shù),自動(dòng)識(shí)別視頻中的場(chǎng)景變換點(diǎn),然后將長(zhǎng)視頻切分成2到10秒的短片段。對(duì)于超過(guò)10秒的片段,系統(tǒng)還會(huì)進(jìn)一步分析其內(nèi)部的動(dòng)作變化,選擇那些動(dòng)作幅度最大、最具代表性的片段,確保訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。
數(shù)據(jù)質(zhì)量評(píng)估階段更像是嚴(yán)格的"體檢"過(guò)程。每個(gè)視頻片段都要接受多維度的質(zhì)量檢查,包括技術(shù)質(zhì)量評(píng)估(幀率、分辨率、碼率等),美學(xué)質(zhì)量評(píng)估(構(gòu)圖、光線、色彩等),以及動(dòng)態(tài)質(zhì)量評(píng)估(運(yùn)動(dòng)幅度、運(yùn)動(dòng)連貫性等)。系統(tǒng)還會(huì)使用光學(xué)流計(jì)算技術(shù)來(lái)分析視頻中的運(yùn)動(dòng)模式,確保篩選出的視頻具有豐富而自然的動(dòng)作內(nèi)容。
為了進(jìn)一步提升數(shù)據(jù)質(zhì)量,團(tuán)隊(duì)還訓(xùn)練了專門的視頻質(zhì)量評(píng)估模型。這個(gè)模型基于多模態(tài)大語(yǔ)言模型架構(gòu),能夠像人類專家一樣對(duì)視頻進(jìn)行綜合評(píng)判。它不僅能識(shí)別明顯的技術(shù)缺陷,比如模糊、閃爍或色彩失真,還能發(fā)現(xiàn)更加微妙的問(wèn)題,比如不自然的運(yùn)動(dòng)模式或不合理的物理現(xiàn)象。
最終,整個(gè)訓(xùn)練過(guò)程使用了超過(guò)2億個(gè)精心篩選的視頻片段。這些數(shù)據(jù)經(jīng)過(guò)了嚴(yán)格的分層過(guò)濾,在不同的訓(xùn)練階段使用不同質(zhì)量標(biāo)準(zhǔn)的數(shù)據(jù)。早期訓(xùn)練階段使用相對(duì)寬松的標(biāo)準(zhǔn),確保模型能夠?qū)W習(xí)到豐富多樣的內(nèi)容;后期精調(diào)階段則使用最嚴(yán)格的質(zhì)量標(biāo)準(zhǔn),只保留那些最優(yōu)質(zhì)的樣本,確保最終模型的生成質(zhì)量。
四、訓(xùn)練秘訣大公開(kāi):從粗糙到精美的進(jìn)化之路
Waver的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)從零開(kāi)始學(xué)畫畫的學(xué)生一樣,需要循序漸進(jìn),從簡(jiǎn)單到復(fù)雜,從粗糙到精細(xì)。整個(gè)訓(xùn)練過(guò)程被精心設(shè)計(jì)為多個(gè)階段,每個(gè)階段都有明確的目標(biāo)和特定的訓(xùn)練策略。
訓(xùn)練的第一步是讓模型學(xué)會(huì)理解文字和圖片的對(duì)應(yīng)關(guān)系。這就像教小朋友認(rèn)字一樣,先從最基礎(chǔ)的文本生成圖片任務(wù)開(kāi)始。系統(tǒng)從256像素的小圖片開(kāi)始學(xué)習(xí),逐步提升到512像素、1024像素,就像學(xué)畫畫先從簡(jiǎn)筆畫開(kāi)始,然后逐漸學(xué)會(huì)畫更復(fù)雜、更精細(xì)的作品。這個(gè)階段的重點(diǎn)是讓模型建立起文字描述和視覺(jué)內(nèi)容之間的基本對(duì)應(yīng)關(guān)系。
接下來(lái)是動(dòng)態(tài)內(nèi)容的學(xué)習(xí)階段。系統(tǒng)開(kāi)始處理視頻生成任務(wù),但同樣遵循從簡(jiǎn)單到復(fù)雜的原則。先從192像素、12幀每秒的低分辨率視頻開(kāi)始,然后提升到16幀每秒,最后到480像素、16幀每秒。這種漸進(jìn)式訓(xùn)練方法讓模型能夠先學(xué)會(huì)基本的運(yùn)動(dòng)規(guī)律,然后再學(xué)習(xí)更復(fù)雜的動(dòng)作細(xì)節(jié)。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)非常重要的訓(xùn)練技巧,就是低分辨率視頻訓(xùn)練對(duì)于運(yùn)動(dòng)學(xué)習(xí)的重要性。這就像學(xué)舞蹈時(shí)先學(xué)基本動(dòng)作,后學(xué)復(fù)雜編舞一樣。通過(guò)在低分辨率階段充分訓(xùn)練,模型能夠更好地理解運(yùn)動(dòng)的本質(zhì)規(guī)律,而不會(huì)被高分辨率的視覺(jué)細(xì)節(jié)所干擾。實(shí)驗(yàn)證明,跳過(guò)低分辨率訓(xùn)練而直接進(jìn)行高分辨率訓(xùn)練的模型,在運(yùn)動(dòng)生成方面明顯不如經(jīng)過(guò)完整漸進(jìn)訓(xùn)練的模型。
在訓(xùn)練過(guò)程中,團(tuán)隊(duì)還采用了多任務(wù)聯(lián)合訓(xùn)練策略。這就像讓學(xué)生同時(shí)學(xué)習(xí)多門相關(guān)課程一樣,文本生成圖片、文本生成視頻和圖片生成視頻三個(gè)任務(wù)被巧妙地結(jié)合在一起。這種方法不僅提高了訓(xùn)練效率,更重要的是讓不同任務(wù)之間能夠相互促進(jìn)和學(xué)習(xí)。
特別值得注意的是團(tuán)隊(duì)在運(yùn)動(dòng)優(yōu)化方面的創(chuàng)新。他們發(fā)現(xiàn)傳統(tǒng)的時(shí)間步采樣策略并不適合視頻生成任務(wù),于是設(shè)計(jì)了專門的"模式采樣"方法。這種方法就像調(diào)整相機(jī)的快門速度一樣,能夠更好地捕捉動(dòng)作的關(guān)鍵時(shí)刻,生成更大幅度、更自然的運(yùn)動(dòng)效果。
為了提升視覺(jué)質(zhì)量,團(tuán)隊(duì)還引入了合成數(shù)據(jù)增強(qiáng)策略。他們使用模型本身生成高質(zhì)量的合成視頻樣本,然后通過(guò)嚴(yán)格的人工篩選,只保留那些質(zhì)量最高的樣本用于進(jìn)一步訓(xùn)練。這就像讓學(xué)生不僅學(xué)習(xí)教科書,還要學(xué)習(xí)優(yōu)秀同學(xué)的作品一樣,能夠快速提升整體水平。
五、性能表現(xiàn):挑戰(zhàn)行業(yè)巨頭的實(shí)力證明
Waver的實(shí)際表現(xiàn)就像一匹突然殺出的黑馬,在各種評(píng)測(cè)中都展現(xiàn)出了令人驚艷的實(shí)力。在全球最權(quán)威的AI視頻生成排行榜Artificial Analysis上,Waver在文本生成視頻和圖片生成視頻兩個(gè)賽道都穩(wěn)居前三名,與谷歌Veo、快手Kling等行業(yè)頂級(jí)產(chǎn)品并駕齊驅(qū)。
更令人印象深刻的是Waver在復(fù)雜運(yùn)動(dòng)場(chǎng)景中的表現(xiàn)。研究團(tuán)隊(duì)專門設(shè)計(jì)了"赫爾墨斯運(yùn)動(dòng)測(cè)試集",專門收集了各種高難度的體育運(yùn)動(dòng)場(chǎng)景,比如網(wǎng)球?qū)?zhàn)、籃球比賽、體操表演等。這些場(chǎng)景對(duì)AI來(lái)說(shuō)就像是"地獄級(jí)難度"的挑戰(zhàn),因?yàn)樗鼈儾粌H包含快速?gòu)?fù)雜的動(dòng)作,還涉及多個(gè)對(duì)象之間的互動(dòng)和物理規(guī)律的準(zhǔn)確表現(xiàn)。
在這個(gè)嚴(yán)苛的測(cè)試中,Waver展現(xiàn)出了明顯的優(yōu)勢(shì)。在運(yùn)動(dòng)質(zhì)量方面,它比谷歌Veo3的勝率達(dá)到55%,比快手Kling2.0的勝率為45%,比開(kāi)源模型Wan2.1的勝率更是高達(dá)47%。這意味著在大部分情況下,專業(yè)評(píng)估人員都認(rèn)為Waver生成的運(yùn)動(dòng)效果更自然、更符合物理規(guī)律。
在通用場(chǎng)景的表現(xiàn)上,Waver同樣不俗。團(tuán)隊(duì)自建的Waver-bench 1.0基準(zhǔn)測(cè)試包含了304個(gè)覆蓋各種日常場(chǎng)景的測(cè)試樣本,從體育活動(dòng)到日常生活,從風(fēng)景展示到動(dòng)物行為,應(yīng)有盡有。在這個(gè)綜合性測(cè)試中,Waver在視覺(jué)質(zhì)量和運(yùn)動(dòng)質(zhì)量方面都表現(xiàn)出色,特別是在視覺(jué)質(zhì)量方面,相比其他模型有明顯優(yōu)勢(shì)。
值得特別提到的是Waver在提示詞跟隨方面的表現(xiàn)。這個(gè)能力就像理解能力測(cè)試一樣,檢驗(yàn)AI是否能準(zhǔn)確理解用戶的文字描述并生成相應(yīng)的視頻內(nèi)容。雖然在這個(gè)方面Waver相比谷歌Veo3還有一定差距,但相比其他競(jìng)品已經(jīng)有了明顯優(yōu)勢(shì),而且團(tuán)隊(duì)正在通過(guò)prompt重寫等技術(shù)不斷改進(jìn)這一能力。
更有意思的是,Waver還展現(xiàn)出了很強(qiáng)的風(fēng)格適應(yīng)能力。通過(guò)簡(jiǎn)單的提示詞標(biāo)簽,它能夠生成各種不同風(fēng)格的視頻內(nèi)容,比如3D動(dòng)畫風(fēng)格、吉卜力2D動(dòng)畫風(fēng)格、迪士尼動(dòng)畫風(fēng)格、體素風(fēng)格等。這種多樣性讓它在實(shí)際應(yīng)用中具有更大的靈活性和創(chuàng)造空間。
六、技術(shù)創(chuàng)新:解決行業(yè)難題的巧妙方案
Waver在技術(shù)實(shí)現(xiàn)上有許多值得稱道的創(chuàng)新點(diǎn),這些創(chuàng)新就像是解決拼圖游戲中最困難部分的巧妙方案。其中最重要的一個(gè)創(chuàng)新是表示對(duì)齊技術(shù),這個(gè)技術(shù)就像給AI配備了一個(gè)"語(yǔ)義理解助手"。
傳統(tǒng)的視頻生成模型往往在理解復(fù)雜語(yǔ)義方面存在困難,生成的視頻可能在技術(shù)上沒(méi)問(wèn)題,但在內(nèi)容理解上會(huì)出現(xiàn)偏差。Waver通過(guò)引入高級(jí)語(yǔ)義特征對(duì)齊機(jī)制,讓模型在訓(xùn)練過(guò)程中不僅要學(xué)會(huì)生成視頻,還要確保生成的內(nèi)容在語(yǔ)義層面與參考標(biāo)準(zhǔn)保持一致。這就像給學(xué)生配備了一個(gè)語(yǔ)文老師,不僅要求他們寫出文字,還要確保文字表達(dá)的意思準(zhǔn)確無(wú)誤。
在運(yùn)動(dòng)生成優(yōu)化方面,Waver采用了多重策略。首先是噪聲調(diào)度優(yōu)化,就像調(diào)整相機(jī)參數(shù)來(lái)拍攝運(yùn)動(dòng)場(chǎng)景一樣,團(tuán)隊(duì)發(fā)現(xiàn)不同的噪聲采樣策略對(duì)運(yùn)動(dòng)生成有顯著影響。傳統(tǒng)的對(duì)數(shù)正態(tài)分布適合靜態(tài)圖像生成,但對(duì)于視頻生成,模式分布能夠產(chǎn)生更大幅度、更自然的運(yùn)動(dòng)效果。
團(tuán)隊(duì)還發(fā)現(xiàn)了文本生成視頻和圖片生成視頻聯(lián)合訓(xùn)練的重要性。單獨(dú)訓(xùn)練圖片生成視頻任務(wù)往往會(huì)出現(xiàn)"運(yùn)動(dòng)幅度不足"的問(wèn)題,因?yàn)榻o定了初始幀后,模型傾向于生成變化較小的后續(xù)幀以確保連貫性。通過(guò)聯(lián)合訓(xùn)練,模型學(xué)會(huì)了在保持連貫性的同時(shí)生成更動(dòng)態(tài)的內(nèi)容。
在數(shù)據(jù)處理方面,Waver特別注重運(yùn)動(dòng)數(shù)據(jù)的篩選。團(tuán)隊(duì)開(kāi)發(fā)了前景運(yùn)動(dòng)評(píng)分系統(tǒng),能夠區(qū)分真正的主體運(yùn)動(dòng)和單純的相機(jī)移動(dòng)。這就像有一個(gè)智能的體育解說(shuō)員,能夠準(zhǔn)確識(shí)別運(yùn)動(dòng)員的技術(shù)動(dòng)作,而不會(huì)被相機(jī)的拍攝角度變化所迷惑。
視覺(jué)質(zhì)量提升方面,Waver采用了合成數(shù)據(jù)增強(qiáng)策略。這個(gè)策略就像是讓AI成為自己的老師,使用訓(xùn)練好的模型生成高質(zhì)量的合成樣本,然后通過(guò)嚴(yán)格的人工篩選,將最優(yōu)質(zhì)的樣本加入訓(xùn)練集。這種自我迭代的訓(xùn)練方式能夠不斷提升模型的上限。
七、基礎(chǔ)設(shè)施優(yōu)化:讓訓(xùn)練更高效的工程智慧
在技術(shù)實(shí)現(xiàn)的背后,Waver團(tuán)隊(duì)在基礎(chǔ)設(shè)施優(yōu)化方面也展現(xiàn)了深厚的工程功底。這些優(yōu)化就像為一輛高性能賽車配備了最先進(jìn)的引擎和底盤系統(tǒng),確保所有先進(jìn)技術(shù)都能發(fā)揮出最佳性能。
團(tuán)隊(duì)采用了混合分片模式的完全分片數(shù)據(jù)并行技術(shù),這就像組織一個(gè)大型管弦樂(lè)隊(duì)一樣,需要精確的協(xié)調(diào)才能讓所有樂(lè)器協(xié)同演奏。在大規(guī)模分布式訓(xùn)練中,通信帶寬往往成為瓶頸,團(tuán)隊(duì)通過(guò)采用64或128的內(nèi)部分片大小,巧妙地平衡了單GPU內(nèi)存消耗和通信開(kāi)銷。
為了最大化性能,團(tuán)隊(duì)還使用了PyTorch的動(dòng)態(tài)編譯功能。這就像給程序裝上了一個(gè)智能優(yōu)化器,能夠自動(dòng)分析代碼運(yùn)行模式,然后將相關(guān)的計(jì)算操作融合在一起,減少不必要的內(nèi)存讀寫操作。這種優(yōu)化雖然看起來(lái)技術(shù)性很強(qiáng),但實(shí)際效果非常顯著,能夠顯著提升訓(xùn)練速度。
在處理超長(zhǎng)序列時(shí),團(tuán)隊(duì)采用了尤利西斯序列并行技術(shù)。當(dāng)生成720p或1080p的長(zhǎng)視頻時(shí),輸入序列可能包含數(shù)十萬(wàn)個(gè)標(biāo)記,這對(duì)GPU內(nèi)存提出了極高要求。尤利西斯技術(shù)就像將一本厚書分給多個(gè)人同時(shí)閱讀一樣,將序列計(jì)算分布到多個(gè)處理單元上,既保持了計(jì)算的完整性,又解決了內(nèi)存壓力問(wèn)題。
為了支持不同長(zhǎng)度的視頻訓(xùn)練,團(tuán)隊(duì)設(shè)計(jì)了桶式數(shù)據(jù)加載器。這個(gè)系統(tǒng)就像圖書管理員整理書籍一樣,將相似長(zhǎng)度的視頻片段分組處理,確保每個(gè)批次中的數(shù)據(jù)都有相似的計(jì)算需求。這不僅提高了訓(xùn)練效率,還避免了因?yàn)閿?shù)據(jù)長(zhǎng)度差異過(guò)大而造成的計(jì)算資源浪費(fèi)。
團(tuán)隊(duì)還實(shí)現(xiàn)了選擇性激活檢查點(diǎn)技術(shù),這是一種精巧的內(nèi)存優(yōu)化策略。就像一個(gè)聰明的倉(cāng)庫(kù)管理員,這個(gè)技術(shù)能夠分析哪些中間計(jì)算結(jié)果重新計(jì)算的成本較低,哪些的成本較高,然后選擇性地保存那些重算成本高的結(jié)果,釋放那些重算成本低的結(jié)果所占用的內(nèi)存。
通過(guò)激活卸載技術(shù),團(tuán)隊(duì)進(jìn)一步擴(kuò)展了訓(xùn)練規(guī)模。這個(gè)技術(shù)就像在GPU和CPU之間建立了一個(gè)智能的"物流系統(tǒng)",在前向計(jì)算時(shí)將激活值從GPU轉(zhuǎn)移到CPU內(nèi)存,在反向計(jì)算需要時(shí)再預(yù)先取回。整個(gè)過(guò)程在專門的CUDA流中異步執(zhí)行,幾乎不影響主要計(jì)算流程。
八、開(kāi)源貢獻(xiàn):推動(dòng)整個(gè)行業(yè)發(fā)展的無(wú)私分享
Waver項(xiàng)目最令人敬佩的一點(diǎn)是研究團(tuán)隊(duì)的開(kāi)放態(tài)度。他們沒(méi)有將研究成果秘而不宣,而是選擇將幾乎所有的技術(shù)細(xì)節(jié)、訓(xùn)練方法和經(jīng)驗(yàn)總結(jié)都公開(kāi)分享給整個(gè)科技社區(qū)。這種做法就像是將一個(gè)珍貴的秘方免費(fèi)分享給所有同行,體現(xiàn)了真正的科學(xué)精神。
團(tuán)隊(duì)在論文中詳細(xì)披露了完整的訓(xùn)練配方,包括每個(gè)訓(xùn)練階段使用的數(shù)據(jù)量、學(xué)習(xí)率設(shè)置、批次大小等關(guān)鍵超參數(shù)。這些信息對(duì)于其他研究者來(lái)說(shuō)價(jià)值巨大,因?yàn)樵贏I訓(xùn)練中,這些看似簡(jiǎn)單的數(shù)字往往需要經(jīng)過(guò)大量實(shí)驗(yàn)和調(diào)優(yōu)才能確定,而錯(cuò)誤的參數(shù)設(shè)置可能導(dǎo)致訓(xùn)練完全失敗。
更有價(jià)值的是,團(tuán)隊(duì)還分享了大量的訓(xùn)練技巧和經(jīng)驗(yàn)總結(jié)。比如他們發(fā)現(xiàn)在不同訓(xùn)練階段應(yīng)該使用不同的噪聲采樣策略,在早期階段使用對(duì)數(shù)正態(tài)分布有利于模型收斂,而在后期階段切換到模式分布能夠提升運(yùn)動(dòng)生成質(zhì)量。這些經(jīng)驗(yàn)往往是通過(guò)大量試錯(cuò)得出的,對(duì)后續(xù)研究者來(lái)說(shuō)能夠節(jié)省巨大的時(shí)間和計(jì)算成本。
團(tuán)隊(duì)還公開(kāi)了詳細(xì)的數(shù)據(jù)處理流程,包括視頻分段策略、質(zhì)量評(píng)估方法、動(dòng)作評(píng)分算法等。這些技術(shù)細(xì)節(jié)通常是各個(gè)研究團(tuán)隊(duì)的核心競(jìng)爭(zhēng)力,很少會(huì)完全公開(kāi)。Waver團(tuán)隊(duì)的這種開(kāi)放態(tài)度為整個(gè)視頻生成領(lǐng)域的發(fā)展做出了重要貢獻(xiàn)。
在基礎(chǔ)設(shè)施優(yōu)化方面,團(tuán)隊(duì)也毫無(wú)保留地分享了各種工程優(yōu)化技巧。從分布式訓(xùn)練的配置方法,到內(nèi)存優(yōu)化的具體實(shí)現(xiàn),再到各種并行策略的使用經(jīng)驗(yàn),這些實(shí)用的工程知識(shí)對(duì)于想要復(fù)現(xiàn)或改進(jìn)相關(guān)技術(shù)的研究者來(lái)說(shuō)都是寶貴的資源。
特別值得一提的是,團(tuán)隊(duì)還分享了各種失敗案例和解決方案。他們?cè)敿?xì)討論了在訓(xùn)練過(guò)程中遇到的各種問(wèn)題,比如運(yùn)動(dòng)幅度不足、視覺(jué)質(zhì)量不佳、提示詞理解偏差等,以及相應(yīng)的解決策略。這種坦誠(chéng)的分享態(tài)度讓其他研究者能夠避免重復(fù)踩坑,加速整個(gè)領(lǐng)域的進(jìn)步。
說(shuō)到底,Waver不僅僅是一個(gè)技術(shù)產(chǎn)品,更是整個(gè)AI視頻生成領(lǐng)域的一個(gè)里程碑。它證明了通過(guò)巧妙的架構(gòu)設(shè)計(jì)、精心的數(shù)據(jù)處理和系統(tǒng)性的優(yōu)化策略,AI已經(jīng)能夠生成接近專業(yè)水準(zhǔn)的視頻內(nèi)容。更重要的是,字節(jié)跳動(dòng)團(tuán)隊(duì)通過(guò)開(kāi)源分享的方式,為整個(gè)行業(yè)的發(fā)展貢獻(xiàn)了寶貴的知識(shí)和經(jīng)驗(yàn)。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。它讓我們看到了AI視頻生成技術(shù)的巨大潛力,也為內(nèi)容創(chuàng)作者、教育工作者、營(yíng)銷人員等各行各業(yè)的專業(yè)人士提供了全新的工具和可能性。雖然目前的技術(shù)還存在一些局限性,比如在高速運(yùn)動(dòng)場(chǎng)景中人物細(xì)節(jié)的處理還不夠完美,但隨著技術(shù)的不斷進(jìn)步和優(yōu)化,我們有理由相信,AI視頻生成將會(huì)在不久的將來(lái)成為內(nèi)容創(chuàng)作的重要工具,甚至可能徹底改變我們制作和消費(fèi)視頻內(nèi)容的方式。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)技術(shù)的普及意味著視頻創(chuàng)作的門檻將大大降低。未來(lái),你可能只需要簡(jiǎn)單描述一下想法,就能獲得專業(yè)質(zhì)量的視頻內(nèi)容,這將為個(gè)人創(chuàng)作者、小企業(yè)和教育機(jī)構(gòu)帶來(lái)前所未有的機(jī)會(huì)。而對(duì)于整個(gè)科技行業(yè)來(lái)說(shuō),Waver所展示的開(kāi)放合作精神和技術(shù)創(chuàng)新能力,也為未來(lái)AI技術(shù)的發(fā)展指明了方向。
Q&A
Q1:Waver是什么?它能做什么?
A:Waver是字節(jié)跳動(dòng)開(kāi)發(fā)的AI視頻生成模型,能夠根據(jù)文字描述生成5-10秒的高清視頻,或者讓靜態(tài)圖片"動(dòng)起來(lái)"生成視頻。它特別擅長(zhǎng)處理復(fù)雜運(yùn)動(dòng)場(chǎng)景,比如體育比賽、舞蹈表演等,生成的視頻分辨率可達(dá)1080p,在全球權(quán)威排行榜上位列前三。
Q2:Waver的視頻生成質(zhì)量有多好?
A:Waver在多項(xiàng)測(cè)試中表現(xiàn)出色,在復(fù)雜運(yùn)動(dòng)場(chǎng)景測(cè)試中勝過(guò)谷歌Veo3、快手Kling2.0等頂級(jí)產(chǎn)品。特別是在籃球、網(wǎng)球、體操等高難度運(yùn)動(dòng)場(chǎng)景中,它能生成更自然、更符合物理規(guī)律的動(dòng)作效果,同時(shí)支持多種藝術(shù)風(fēng)格,從寫實(shí)到動(dòng)畫都能很好掌握。
Q3:普通人什么時(shí)候能用上Waver技術(shù)?
A:雖然字節(jié)跳動(dòng)已經(jīng)公開(kāi)了Waver的技術(shù)細(xì)節(jié)和訓(xùn)練方法,但目前還沒(méi)有面向普通用戶的產(chǎn)品化應(yīng)用。不過(guò)考慮到字節(jié)跳動(dòng)在抖音等平臺(tái)的應(yīng)用經(jīng)驗(yàn),相信不久的將來(lái)這項(xiàng)技術(shù)會(huì)以某種形式向公眾開(kāi)放,讓更多人能夠輕松創(chuàng)作高質(zhì)量視頻內(nèi)容。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。