如果告訴你,現(xiàn)在的AI不僅能生成精美的視頻,還能同時(shí)生成與畫面完美同步的聲音,你會(huì)不會(huì)覺得這聽起來像科幻電影?然而,這已經(jīng)成為現(xiàn)實(shí)。由StepFun公司聯(lián)合香港科技大學(xué)(廣州)、香港科技大學(xué)和清華大學(xué)的研究團(tuán)隊(duì),在2025年1月發(fā)表了一項(xiàng)突破性研究成果——UniVerse-1,這是全球首個(gè)能夠同時(shí)生成協(xié)調(diào)音頻和視頻的開源統(tǒng)一模型。這篇題為《UniVerse-1: Unified Audio-Video Generation via Stitching of Experts》的研究論文已在arXiv平臺(tái)發(fā)布(論文編號(hào):arXiv:2509.06155v1 [cs.CV]),感興趣的讀者可以通過https://dorniwang.github.io/UniVerse-1/獲取完整資料。
想象一下,如果你要拍攝一部電影,傳統(tǒng)方式需要先拍攝畫面,然后錄制聲音,最后在后期制作中讓兩者同步。而現(xiàn)在,UniVerse-1就像一位神奇的導(dǎo)演,能夠憑空創(chuàng)造出一段既有畫面又有聲音的完整視頻,而且聲音和畫面天然同步,就像真實(shí)世界中發(fā)生的事情一樣。這種技術(shù)的意義不僅僅是讓視頻制作變得更簡(jiǎn)單,它還為創(chuàng)意產(chǎn)業(yè)打開了全新的大門。
這項(xiàng)研究的核心創(chuàng)新在于解決了一個(gè)長期困擾AI研究領(lǐng)域的難題:如何讓機(jī)器同時(shí)理解和生成視覺與聽覺信息。過去,即使是最先進(jìn)的AI系統(tǒng)也只能先生成視頻,然后再根據(jù)視頻內(nèi)容添加聲音,這種方式就像先畫好一幅畫,再根據(jù)畫面內(nèi)容配上音樂一樣,往往無法做到真正的同步。而UniVerse-1采用了一種全新的"專家縫合"技術(shù),將已經(jīng)訓(xùn)練好的視頻生成專家和音頻生成專家巧妙地結(jié)合在一起,讓它們能夠相互配合,共同創(chuàng)造出協(xié)調(diào)一致的音視頻內(nèi)容。
一、破解音視頻同步的世紀(jì)難題
要理解UniVerse-1的重要性,我們需要先了解音視頻同步生成到底有多困難。設(shè)想你正在觀看一個(gè)人說話的視頻,當(dāng)這個(gè)人張嘴說"你好"時(shí),你的耳朵必須在同一時(shí)刻聽到"你好"這兩個(gè)字的聲音,任何微小的偏差都會(huì)讓人感覺不自然。對(duì)于人類來說,這種同步是自然而然的,但對(duì)于AI來說,這卻是一個(gè)極其復(fù)雜的挑戰(zhàn)。
傳統(tǒng)的AI視頻生成系統(tǒng),即使是像Sora這樣的頂級(jí)模型,本質(zhì)上都是在創(chuàng)造"無聲電影"。它們能夠生成令人驚嘆的視頻畫面,但這些畫面是沒有聲音的。當(dāng)需要聲音時(shí),研究人員通常會(huì)使用另一套獨(dú)立的系統(tǒng),根據(jù)視頻內(nèi)容后期添加音頻,這就像先拍完電影再配音一樣。這種后期添加的方式雖然能產(chǎn)生聽起來合理的聲音,但無法做到真正的時(shí)間同步。
更具體地說,假設(shè)視頻中有一個(gè)人在第3秒時(shí)開始說話,傳統(tǒng)的后期音頻生成系統(tǒng)可能會(huì)在第3.1秒或第2.9秒開始播放聲音,這0.1秒的差異人眼就能察覺到。而且,這種方式還有一個(gè)根本缺陷:聲音無法反過來影響畫面。在真實(shí)世界中,如果一個(gè)人要說一句很長的話,他可能會(huì)提前深吸一口氣,或者調(diào)整嘴部動(dòng)作,但傳統(tǒng)AI系統(tǒng)無法模擬這種雙向影響。
研究團(tuán)隊(duì)意識(shí)到,要真正解決這個(gè)問題,就必須讓AI同時(shí)考慮聲音和畫面,而不是分別處理它們。這就像教一個(gè)人同時(shí)用左手畫圓、右手畫方一樣困難,需要大腦的高度協(xié)調(diào)。UniVerse-1的突破就在于實(shí)現(xiàn)了這種"大腦協(xié)調(diào)",讓AI能夠同時(shí)思考畫面和聲音應(yīng)該如何配合。
二、專家縫合術(shù):讓兩個(gè)AI大師攜手合作
UniVerse-1最核心的創(chuàng)新是一種被稱為"專家縫合"(Stitching of Experts)的技術(shù)。要理解這個(gè)概念,我們可以把它想象成一場(chǎng)特殊的合作。
假設(shè)有兩位頂級(jí)藝術(shù)家:一位是視頻制作大師,另一位是音樂創(chuàng)作大師。視頻大師擅長創(chuàng)造精美的畫面,能夠準(zhǔn)確描繪人物表情、動(dòng)作和場(chǎng)景變化;音樂大師則精通聲音的藝術(shù),能夠創(chuàng)作出動(dòng)人的旋律和自然的環(huán)境音。如果讓他們各自獨(dú)立工作,然后簡(jiǎn)單地把作品拼接在一起,結(jié)果往往是不協(xié)調(diào)的——畫面中的人在第5秒開始跳舞,但音樂可能在第5.2秒才響起相應(yīng)的節(jié)拍。
傳統(tǒng)做法就像是讓這兩位大師在不同的房間里獨(dú)立工作,然后由第三個(gè)人負(fù)責(zé)把他們的作品組合起來。而UniVerse-1的"專家縫合術(shù)"則像是在兩個(gè)工作室之間開了一扇窗戶,讓兩位大師能夠?qū)崟r(shí)溝通和協(xié)調(diào)。
具體來說,研究團(tuán)隊(duì)選擇了兩個(gè)已經(jīng)非常成熟的AI模型:WAN2.1(一個(gè)擅長生成視頻的模型)和Ace-step(一個(gè)擅長生成音樂的模型)。這兩個(gè)模型就像是我們故事中的兩位大師,各自在自己的領(lǐng)域已經(jīng)達(dá)到了很高的水平。
關(guān)鍵的突破在于如何讓這兩個(gè)原本獨(dú)立的模型能夠相互交流。研究團(tuán)隊(duì)在兩個(gè)模型之間建立了一系列"通信通道",就像在兩個(gè)工作室之間安裝了對(duì)講機(jī)。通過這些通道,視頻模型可以告訴音頻模型:"我現(xiàn)在要畫一個(gè)人開口說話的畫面",音頻模型立即響應(yīng):"我馬上生成相應(yīng)的語音聲音"。同樣,音頻模型也可以向視頻模型傳達(dá):"接下來會(huì)有一個(gè)很響的雷聲",視頻模型就會(huì)相應(yīng)地準(zhǔn)備繪制閃電和烏云。
這種雙向交流的機(jī)制確保了生成的音視頻內(nèi)容不僅在時(shí)間上同步,在語義上也高度一致。如果畫面顯示的是海浪拍打海岸,那么聲音就會(huì)是真實(shí)的海浪聲;如果畫面中的人情緒激動(dòng),那么聲音也會(huì)相應(yīng)地帶有情感色彩。
三、在線標(biāo)注流水線:解決數(shù)據(jù)不匹配的老大難問題
在AI訓(xùn)練中,有一個(gè)經(jīng)常被忽視但極其重要的問題:數(shù)據(jù)標(biāo)注的準(zhǔn)確性。這個(gè)問題在音視頻同步生成中顯得尤為突出。
傳統(tǒng)的AI訓(xùn)練方式就像這樣:研究人員收集了大量視頻,然后雇傭工作人員為每個(gè)視頻寫下描述文字,比如"一個(gè)男人在海邊走路,背景有海浪聲"。這些描述文字就像是給AI看的"說明書",告訴它這個(gè)視頻里到底有什么內(nèi)容。
但是這種方式存在一個(gè)致命缺陷:時(shí)間不匹配。假設(shè)一個(gè)10分鐘的視頻被標(biāo)注為"鋼琴演奏",但實(shí)際上鋼琴聲音只在第3到第7分鐘出現(xiàn),前面3分鐘和后面3分鐘可能是演奏者在調(diào)試樂器或者觀眾鼓掌。當(dāng)AI訓(xùn)練時(shí)隨機(jī)選擇這個(gè)視頻中的5秒片段時(shí),它可能選中了第1分鐘的調(diào)試階段,但對(duì)應(yīng)的標(biāo)注卻是"鋼琴演奏",這就造成了嚴(yán)重的混亂。
這種不匹配就像是給一個(gè)學(xué)習(xí)做菜的學(xué)生一份錯(cuò)誤的食譜:食譜上寫著"加糖",但實(shí)際的烹飪視頻中這一步是在"加鹽"。學(xué)生按照這樣的"食譜"學(xué)習(xí),自然無法做出正確的菜品。
UniVerse-1的研究團(tuán)隊(duì)意識(shí)到這個(gè)問題的嚴(yán)重性,創(chuàng)新性地開發(fā)了一個(gè)"在線標(biāo)注流水線"系統(tǒng)。這個(gè)系統(tǒng)就像是一個(gè)實(shí)時(shí)的"視頻解說員",能夠一邊觀看視頻一邊準(zhǔn)確描述正在發(fā)生的事情。
這個(gè)在線系統(tǒng)的工作流程是這樣的:當(dāng)訓(xùn)練需要一個(gè)視頻片段時(shí),系統(tǒng)不會(huì)使用預(yù)先準(zhǔn)備好的通用標(biāo)注,而是實(shí)時(shí)分析這個(gè)具體的片段。它會(huì)仔細(xì)"觀察"這5秒鐘里到底發(fā)生了什么,然后準(zhǔn)確描述出來。如果這5秒鐘里真的有鋼琴聲,它就標(biāo)注為"鋼琴演奏";如果這5秒鐘里只有觀眾鼓掌,它就標(biāo)注為"觀眾鼓掌";如果既有鋼琴聲又有人在說話,它就標(biāo)注為"鋼琴演奏伴有人聲對(duì)話"。
這種精確標(biāo)注確保了AI學(xué)到的每一個(gè)樣本都是準(zhǔn)確的,就像給學(xué)生提供了完全正確的食譜一樣。通過這種方式訓(xùn)練出來的模型能夠更準(zhǔn)確地理解音視頻之間的對(duì)應(yīng)關(guān)系,生成的內(nèi)容自然也更加協(xié)調(diào)一致。
四、獨(dú)立噪聲采樣:解決隱藏的技術(shù)陷阱
在開發(fā)UniVerse-1的過程中,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)此前被嚴(yán)重忽視的技術(shù)問題:噪聲相關(guān)性問題。這個(gè)發(fā)現(xiàn)頗具偶然性,但解決它對(duì)模型性能的提升卻非常顯著。
要理解這個(gè)問題,我們需要先了解AI生成內(nèi)容的基本原理。現(xiàn)代AI生成模型的工作方式類似于雕刻:它們從一塊"噪聲石頭"開始,逐步雕刻出最終的內(nèi)容。這塊"噪聲石頭"就像是雕刻的原材料,通過算法的精心雕琢,最終變成精美的藝術(shù)品。
在傳統(tǒng)的單一內(nèi)容生成(比如只生成圖片或只生成聲音)中,每次都會(huì)隨機(jī)選擇一塊"噪聲石頭"作為起點(diǎn)。但在同時(shí)生成音頻和視頻時(shí),系統(tǒng)需要兩塊"噪聲石頭":一塊用于雕刻視頻,另一塊用于雕刻音頻。
問題出現(xiàn)在這里:大多數(shù)AI系統(tǒng)使用的隨機(jī)數(shù)生成器實(shí)際上并不是真正的隨機(jī),而是"偽隨機(jī)"的。這就像一臺(tái)特殊的抽簽機(jī),雖然看起來每次抽出的號(hào)碼都是隨機(jī)的,但實(shí)際上這些號(hào)碼之間存在隱藏的關(guān)聯(lián)。當(dāng)系統(tǒng)先為視頻抽取一個(gè)隨機(jī)數(shù),再為音頻抽取下一個(gè)隨機(jī)數(shù)時(shí),這兩個(gè)數(shù)字之間會(huì)存在微妙的相關(guān)性。
這種相關(guān)性在訓(xùn)練過程中會(huì)被AI錯(cuò)誤地學(xué)習(xí)為一種"規(guī)律"。AI會(huì)認(rèn)為"當(dāng)視頻的起始噪聲是某個(gè)特定模式時(shí),音頻的起始噪聲必須是另一個(gè)特定模式"。這就像一個(gè)學(xué)生錯(cuò)誤地認(rèn)為"每當(dāng)老師穿紅衣服時(shí),數(shù)學(xué)考試就會(huì)很難",雖然這兩件事本身毫無關(guān)系,但學(xué)生卻建立了錯(cuò)誤的聯(lián)想。
這種錯(cuò)誤學(xué)習(xí)的后果在實(shí)際應(yīng)用中會(huì)暴露無遺。當(dāng)用戶調(diào)整視頻的參數(shù)(比如改變視頻時(shí)長或分辨率)時(shí),系統(tǒng)生成視頻噪聲的方式會(huì)發(fā)生變化,這就改變了后續(xù)音頻噪聲的生成模式。由于AI錯(cuò)誤地學(xué)習(xí)了兩者之間的虛假關(guān)聯(lián),音頻質(zhì)量會(huì)顯著下降,就像學(xué)生看到老師今天穿了藍(lán)衣服,就以為數(shù)學(xué)考試會(huì)很簡(jiǎn)單,結(jié)果準(zhǔn)備不充分導(dǎo)致考試失利。
UniVerse-1的解決方案簡(jiǎn)單而有效:為音頻和視頻分別準(zhǔn)備獨(dú)立的隨機(jī)數(shù)生成器,確保兩者之間沒有任何虛假的數(shù)學(xué)關(guān)聯(lián)。這就像給音頻和視頻各自準(zhǔn)備一臺(tái)獨(dú)立的抽簽機(jī),兩臺(tái)機(jī)器完全獨(dú)立運(yùn)行,互不干擾。這樣,AI就只能學(xué)習(xí)到真正有意義的音視頻關(guān)系,而不會(huì)被虛假的數(shù)學(xué)相關(guān)性所誤導(dǎo)。
這個(gè)發(fā)現(xiàn)的重要性不僅在于改善了UniVerse-1的性能,更在于為整個(gè)AI生成領(lǐng)域提供了重要的技術(shù)洞察。許多其他的多模態(tài)生成系統(tǒng)可能都存在類似的隱患,而這個(gè)發(fā)現(xiàn)為后續(xù)研究指明了需要注意的方向。
五、數(shù)據(jù)收集與處理:構(gòu)建高質(zhì)量訓(xùn)練素材庫
任何AI模型的成功都離不開高質(zhì)量的訓(xùn)練數(shù)據(jù),UniVerse-1在這方面的工作同樣值得關(guān)注。研究團(tuán)隊(duì)并沒有簡(jiǎn)單地從互聯(lián)網(wǎng)上下載視頻,而是建立了一套嚴(yán)格的數(shù)據(jù)收集和處理體系,最終構(gòu)建了一個(gè)包含7600小時(shí)精心篩選內(nèi)容的訓(xùn)練數(shù)據(jù)庫。
這個(gè)數(shù)據(jù)收集過程就像是為一個(gè)超級(jí)圖書館采購圖書。圖書管理員不能隨便把任何書籍都放進(jìn)圖書館,而需要仔細(xì)評(píng)估每本書的質(zhì)量、內(nèi)容和價(jià)值。同樣,研究團(tuán)隊(duì)也制定了多層篩選標(biāo)準(zhǔn),確保進(jìn)入訓(xùn)練庫的每一個(gè)視頻片段都符合高質(zhì)量要求。
數(shù)據(jù)來源的多樣性是這個(gè)項(xiàng)目的一大特色。研究團(tuán)隊(duì)從YouTube收集了音樂綜藝節(jié)目、古典音樂表演、烹飪教程、公共演講、訪談節(jié)目、日常視頻日志和工具使用演示等豐富內(nèi)容。此外,他們還納入了電影片段和來自Pexels的高質(zhì)量素材庫內(nèi)容,并整合了廣泛使用的VGGSound和AudioSet數(shù)據(jù)集。
篩選過程采用了多重質(zhì)量控制標(biāo)準(zhǔn)。首先,任何沒有音軌的視頻都會(huì)被立即排除,這確保了所有數(shù)據(jù)都具備音視頻配對(duì)的基本條件。接下來是技術(shù)質(zhì)量評(píng)估,團(tuán)隊(duì)設(shè)定了嚴(yán)格的標(biāo)準(zhǔn):分辨率必須達(dá)到1080p以上,碼率與分辨率的比例不能低于600,美學(xué)質(zhì)量評(píng)分必須超過0.6分。這些技術(shù)指標(biāo)確保了視頻的清晰度和觀看體驗(yàn)。
時(shí)間連貫性也是重要的考量因素。研究團(tuán)隊(duì)使用PySceneDetect工具對(duì)視頻進(jìn)行場(chǎng)景分割,任何短于5秒的片段都會(huì)被刪除。這個(gè)標(biāo)準(zhǔn)確保了每個(gè)訓(xùn)練樣本都有足夠的時(shí)間長度來展示完整的音視頻交互關(guān)系。
音頻活動(dòng)檢測(cè)是另一個(gè)關(guān)鍵環(huán)節(jié)。系統(tǒng)會(huì)分析每個(gè)音軌的音量、能量和零交叉率等指標(biāo),識(shí)別并移除靜音片段。這個(gè)步驟確保AI學(xué)習(xí)的都是有意義的聲音內(nèi)容,而不是無聲的空白時(shí)段。
對(duì)于包含人類語音的內(nèi)容,處理流程更加精細(xì)。系統(tǒng)首先使用Whisper語音識(shí)別技術(shù)檢測(cè)語音的存在。如果檢測(cè)到語音內(nèi)容,會(huì)進(jìn)行第二步驗(yàn)證:人臉檢測(cè)。只有同時(shí)包含語音和人臉的片段才會(huì)被保留,然后使用SyncNet技術(shù)驗(yàn)證音頻與唇部動(dòng)作的同步程度。只有SyncNet置信度評(píng)分超過2.0的片段才會(huì)被標(biāo)記為包含語音內(nèi)容并納入訓(xùn)練集。
經(jīng)過這一系列嚴(yán)格篩選,最終的數(shù)據(jù)集包含三個(gè)不同類別:1187小時(shí)經(jīng)過驗(yàn)證的以語音為中心的內(nèi)容,3074小時(shí)通用音視頻數(shù)據(jù),以及3422小時(shí)來自VGGSound和AudioSet的專門用于增強(qiáng)音頻訓(xùn)練的內(nèi)容。這種分類確保了模型能夠?qū)W習(xí)到不同類型的音視頻關(guān)系,從人類對(duì)話到自然環(huán)境音,從音樂表演到機(jī)械聲響。
六、模型架構(gòu)創(chuàng)新:深度融合的雙流設(shè)計(jì)
UniVerse-1的模型架構(gòu)設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)對(duì)音視頻同步生成問題的深度思考。整個(gè)架構(gòu)可以比作一座特殊設(shè)計(jì)的雙子塔建筑,兩座塔分別處理視頻和音頻信息,但在每一層都有連接橋梁,確保信息能夠自由流通。
視頻處理的基礎(chǔ)是Wan2.1模型架構(gòu),這個(gè)模型就像一個(gè)專業(yè)的視頻導(dǎo)演,擅長理解和生成連貫的視覺內(nèi)容。它包含三個(gè)主要組件:3D變分自編碼器負(fù)責(zé)壓縮和解壓縮視頻數(shù)據(jù),umT5文本編碼器負(fù)責(zé)理解文本描述,擴(kuò)散變換器則是核心的生成引擎。視頻數(shù)據(jù)首先被壓縮到一個(gè)更小的表示空間中,這樣可以顯著提高處理效率。然后,這些壓縮后的數(shù)據(jù)被分割成小塊,就像把一幅大拼圖分解成許多小片一樣,每一片都包含特定的視覺信息。
音頻處理基于Ace-step模型架構(gòu),這個(gè)模型可以理解為一位專業(yè)的音響師,精通各種聲音的特征和生成規(guī)律。音頻數(shù)據(jù)首先被轉(zhuǎn)換成頻譜圖,這就像把聲音"畫"成一幅圖像,顯示不同頻率的聲音在不同時(shí)間的強(qiáng)度變化。Music-DCAE深度壓縮自編碼器負(fù)責(zé)處理這些頻譜數(shù)據(jù),將其壓縮到便于處理的形式。與視頻處理類似,音頻數(shù)據(jù)也會(huì)被分割成小塊進(jìn)行處理。
真正的創(chuàng)新在于兩個(gè)處理流之間的深度交互機(jī)制。傳統(tǒng)的多模態(tài)模型通常在最后階段才讓不同模態(tài)的信息進(jìn)行交互,就像兩個(gè)人各自完成工作后再交換意見。但UniVerse-1在處理的每個(gè)層級(jí)都建立了交互通道,就像兩個(gè)人在工作過程中不斷溝通協(xié)調(diào)一樣。
具體來說,在每個(gè)處理層,視頻流處理完自己的信息后,會(huì)將結(jié)果發(fā)送給音頻流;同樣,音頻流也會(huì)將自己的處理結(jié)果發(fā)送給視頻流。這種交互是雙向的,確保兩個(gè)模態(tài)能夠互相影響和調(diào)整。為了保證信息傳遞的質(zhì)量,系統(tǒng)還加入了特殊的歸一化和投影層,就像在兩個(gè)不同語言的人之間加入了翻譯員,確保信息能夠被準(zhǔn)確理解和使用。
模型還采用了創(chuàng)新的層插值技術(shù)來解決架構(gòu)匹配問題。由于基礎(chǔ)的Wan2.1和Ace-step模型具有不同數(shù)量的處理層,直接融合會(huì)導(dǎo)致結(jié)構(gòu)不匹配。研究團(tuán)隊(duì)通過在較淺的模型中策略性地插入新的層來解決這個(gè)問題,這些新層的參數(shù)通過線性插值現(xiàn)有層的權(quán)重來初始化。這個(gè)過程就像在兩座不同高度的建筑之間建造連接橋梁,需要精確計(jì)算每座橋梁的高度和位置。
七、訓(xùn)練策略優(yōu)化:多重?fù)p失函數(shù)的協(xié)同作用
UniVerse-1的訓(xùn)練過程采用了精心設(shè)計(jì)的多重?fù)p失函數(shù)策略,這些不同的損失函數(shù)就像一個(gè)管弦樂隊(duì)中的不同樂器,各自發(fā)揮作用但又和諧統(tǒng)一,共同指導(dǎo)模型學(xué)習(xí)正確的音視頻生成規(guī)律。
主要的訓(xùn)練目標(biāo)基于流匹配技術(shù),這是一種現(xiàn)代的生成模型訓(xùn)練方法??梢园堰@個(gè)過程想象成教授AI如何從隨機(jī)噪聲逐步"雕刻"出有意義的內(nèi)容。流匹配定義了從噪聲到真實(shí)數(shù)據(jù)的連續(xù)變換路徑,模型的任務(wù)就是學(xué)會(huì)沿著這條路徑精確導(dǎo)航。
對(duì)于音頻生成,研究團(tuán)隊(duì)還引入了語義對(duì)齊損失函數(shù),這個(gè)額外的指導(dǎo)信號(hào)確保生成的音頻不僅聽起來自然,還要在語義層面與輸入描述保持一致。這個(gè)損失函數(shù)通過比較模型內(nèi)部表示與兩個(gè)預(yù)訓(xùn)練專家模型的表示來計(jì)算:MERT模型提供通用音樂表示,mHuBERT模型提供語音中心表示。這就像給一個(gè)學(xué)習(xí)音樂的學(xué)生同時(shí)提供兩位不同專業(yè)背景的老師的指導(dǎo),確保學(xué)生能夠掌握更全面的技能。
為了處理訓(xùn)練數(shù)據(jù)中質(zhì)量差異的問題,研究團(tuán)隊(duì)實(shí)施了一種巧妙的低質(zhì)量數(shù)據(jù)損失策略。AudioSet和VGGSound數(shù)據(jù)集雖然提供了豐富的音頻多樣性,但視覺質(zhì)量相對(duì)較低。直接使用這些數(shù)據(jù)訓(xùn)練可能會(huì)損害視頻生成質(zhì)量。解決方案是在高噪聲水平時(shí)間步才計(jì)算這些數(shù)據(jù)的視頻損失,而在低噪聲水平時(shí)間步則跳過視頻損失計(jì)算。這種策略基于這樣的觀察:在高噪聲階段,模型主要學(xué)習(xí)粗粒度的結(jié)構(gòu)和運(yùn)動(dòng)模式,而在低噪聲階段,模型專注于精細(xì)的視覺細(xì)節(jié)。通過這種選擇性訓(xùn)練,模型能夠利用低質(zhì)量數(shù)據(jù)的音頻優(yōu)勢(shì),同時(shí)避免其視覺缺陷的負(fù)面影響。
訓(xùn)練過程使用AdamW優(yōu)化器,學(xué)習(xí)率設(shè)置為5e-6,有效批量大小為128。整個(gè)訓(xùn)練在7600小時(shí)的音視頻數(shù)據(jù)上進(jìn)行了50000步,使用完全分片數(shù)據(jù)并行技術(shù)在多個(gè)節(jié)點(diǎn)上分布式執(zhí)行。梯度累積步數(shù)設(shè)置為4,這有助于在有限的硬件資源下實(shí)現(xiàn)大批量訓(xùn)練的效果。
八、Verse-Bench評(píng)估基準(zhǔn):全面檢驗(yàn)?zāi)P湍芰?/p>
為了系統(tǒng)性地評(píng)估UniVerse-1的性能,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為Verse-Bench的綜合評(píng)估基準(zhǔn)。這個(gè)基準(zhǔn)就像是為音視頻生成模型設(shè)計(jì)的"高考",通過多個(gè)維度的測(cè)試全面檢驗(yàn)?zāi)P偷母黜?xiàng)能力。
Verse-Bench包含600個(gè)精心篩選的圖像-文本提示對(duì),這些數(shù)據(jù)來源廣泛,包括YouTube視頻幀、BiliBili視頻、TikTok片段、電影截圖、動(dòng)畫畫面、AI生成圖像以及各種公共網(wǎng)站圖像。整個(gè)數(shù)據(jù)集分為三個(gè)不同的子集,每個(gè)子集都有特定的測(cè)試目標(biāo)。
Set1-I包含205個(gè)樣本,主要包含各種圖像-文本配對(duì),其中包括AI生成圖像、網(wǎng)絡(luò)收集圖像和媒體截圖。這些樣本的視頻和音頻描述以及語音內(nèi)容都通過大語言模型生成,并經(jīng)過人工標(biāo)注驗(yàn)證。Set2-V包含295個(gè)來自YouTube和Bilibili的視頻片段樣本,使用大語言模型生成描述并通過Whisper進(jìn)行語音轉(zhuǎn)錄,最后經(jīng)過人工驗(yàn)證確保質(zhì)量。Set3-Ted是一個(gè)特殊的子集,包含100個(gè)來自2025年9月TED演講的樣本,使用與Set2相同的處理流程。
評(píng)估涵蓋了六個(gè)不同的生成任務(wù),每個(gè)任務(wù)都有專門的評(píng)價(jià)指標(biāo)。視頻生成質(zhì)量通過三個(gè)標(biāo)準(zhǔn)評(píng)估:運(yùn)動(dòng)評(píng)分量化視頻中的動(dòng)態(tài)變化,通過RAFT光流模型檢測(cè)的歸一化光流幅度計(jì)算;美學(xué)評(píng)分綜合考慮保真度和美學(xué)質(zhì)量,其中保真度通過MANIQA評(píng)估模糊和偽影問題,美學(xué)質(zhì)量通過aesthetic-predictor-v2-5和Musiq兩個(gè)模型評(píng)估;身份一致性通過計(jì)算參考圖像與生成視頻每一幀之間的DINOV3特征相似性來衡量。
音頻生成質(zhì)量從三個(gè)角度評(píng)估:分布相似性通過Fréchet距離和KL散度衡量生成數(shù)據(jù)與真實(shí)數(shù)據(jù)分布的差異,使用PANNs和PaSST模型提取特征;語義一致性通過LAION-CLAP評(píng)分衡量音頻與輸入文本的對(duì)齊程度;質(zhì)量和多樣性通過基于PANNs分類器的Inception評(píng)分評(píng)估,同時(shí)使用AudioBox-Aesthetics評(píng)估制作質(zhì)量、制作復(fù)雜性、內(nèi)容享受度和內(nèi)容有用性四個(gè)維度。
對(duì)于文本轉(zhuǎn)語音任務(wù),評(píng)估重點(diǎn)是合成準(zhǔn)確性,通過詞錯(cuò)誤率衡量,該指標(biāo)通過Whisper-large-v3模型轉(zhuǎn)錄生成音頻后計(jì)算得出。音頻轉(zhuǎn)視頻任務(wù)使用與視頻生成相同的評(píng)價(jià)標(biāo)準(zhǔn),并額外提供SyncNet置信度評(píng)分來評(píng)估唇同步準(zhǔn)確性。視頻轉(zhuǎn)音頻任務(wù)使用音頻生成的所有評(píng)價(jià)指標(biāo),同時(shí)引入音頻-視頻對(duì)齊指標(biāo),通過Synchformer模型量化生成音頻與視頻流之間的時(shí)間同步程度。
九、實(shí)驗(yàn)結(jié)果分析:突破性能表現(xiàn)與深度洞察
UniVerse-1在Verse-Bench基準(zhǔn)上的表現(xiàn)展現(xiàn)了其作為首個(gè)開源音視頻同步生成模型的突破性意義。雖然作為一個(gè)統(tǒng)一的生成模型,在與專門化的單模態(tài)專家模型直接比較時(shí)面臨一定挑戰(zhàn),但其在多個(gè)關(guān)鍵指標(biāo)上都展現(xiàn)了令人印象深刻的性能。
在視頻生成質(zhì)量方面,UniVerse-1在身份保持能力上表現(xiàn)出色,ID一致性得分達(dá)到0.89,這意味著生成的視頻能夠很好地保持參考圖像中人物或?qū)ο蟮奶卣饕恢滦?。這個(gè)結(jié)果甚至超過了一些專門的視頻生成模型,展現(xiàn)了模型在理解和保持視覺特征方面的強(qiáng)大能力。美學(xué)評(píng)分0.47雖然不是最高,但考慮到這是一個(gè)同時(shí)生成音頻和視頻的統(tǒng)一模型,這個(gè)結(jié)果相當(dāng)可觀。運(yùn)動(dòng)評(píng)分0.20表明模型生成的視頻具有自然的動(dòng)態(tài)特性,避免了靜態(tài)或僵硬的效果。
音頻生成方面的表現(xiàn)同樣值得關(guān)注。雖然與專業(yè)音頻生成模型相比存在一定差距,但UniVerse-1在多個(gè)指標(biāo)上都達(dá)到了實(shí)用水平。Fréchet距離1.25和KL散度2.70顯示生成的音頻分布與真實(shí)數(shù)據(jù)相當(dāng)接近,這表明模型學(xué)到了真實(shí)音頻的統(tǒng)計(jì)特性。CLAP評(píng)分0.16雖然不如專業(yè)模型的0.40,但考慮到音頻需要與視頻保持同步,這個(gè)結(jié)果是可以接受的。特別值得注意的是,在音調(diào)相關(guān)性方面,模型獲得了2.49的高分,顯示其在音樂內(nèi)容生成方面具有良好的表現(xiàn)。
最重要的是模型在同步生成方面的表現(xiàn)。音頻-視頻對(duì)齊指標(biāo)0.23相對(duì)于SVG模型的0.09有顯著提升,同時(shí)CLAP評(píng)分0.16也優(yōu)于SVG的0.08。這種綜合表現(xiàn)表明UniVerse-1在保持音視頻同步的同時(shí),還能確保內(nèi)容的語義一致性。這是一個(gè)重要的平衡,因?yàn)楹?jiǎn)單的時(shí)間同步并不足夠,音頻和視頻的內(nèi)容也必須在語義層面保持協(xié)調(diào)。
在語音生成任務(wù)中,模型的詞錯(cuò)誤率為0.18,這個(gè)結(jié)果雖然不如專業(yè)TTS模型的0.15-0.17,但考慮到音頻是與視頻同步生成的,這個(gè)精度已經(jīng)相當(dāng)不錯(cuò)。更重要的是,在音頻轉(zhuǎn)視頻的唇同步評(píng)估中,模型獲得了1.34的LSE-C評(píng)分。雖然這個(gè)分?jǐn)?shù)低于使用真實(shí)音頻的專門方法(如Wan-S2V的6.49),但需要注意的是,UniVerse-1是在完全生成的音頻和視頻上評(píng)估的,而對(duì)比方法使用的是真實(shí)音頻,這使得比較并不完全公平。
消融研究進(jìn)一步驗(yàn)證了關(guān)鍵技術(shù)組件的有效性。移除低質(zhì)量數(shù)據(jù)損失策略后,視頻質(zhì)量指標(biāo)出現(xiàn)明顯下降,ID一致性從0.89降至0.78,美學(xué)評(píng)分從0.47降至0.44,這證實(shí)了該策略在處理混合質(zhì)量數(shù)據(jù)時(shí)的重要性。更令人印象深刻的是獨(dú)立噪聲采樣策略的影響:移除該策略后,多個(gè)音頻質(zhì)量指標(biāo)顯著惡化,F(xiàn)réchet距離從1.25惡化至1.43,KL散度從2.70增加到3.51,詞錯(cuò)誤率從0.18大幅增加到0.38。這些結(jié)果強(qiáng)調(diào)了看似微小的技術(shù)細(xì)節(jié)對(duì)最終性能的重大影響。
十、技術(shù)影響與未來展望
UniVerse-1的發(fā)布對(duì)AI生成領(lǐng)域具有深遠(yuǎn)的影響意義。作為首個(gè)開源的音視頻同步生成模型,它不僅填補(bǔ)了學(xué)術(shù)研究與工業(yè)應(yīng)用之間的空白,更為整個(gè)社區(qū)提供了寶貴的技術(shù)參考和實(shí)踐經(jīng)驗(yàn)。
從技術(shù)角度來看,UniVerse-1證明了專家模型融合的可行性和有效性。這種"站在巨人肩膀上"的方法避免了從頭訓(xùn)練大型模型的巨大資源需求,為資源有限的研究團(tuán)隊(duì)和開發(fā)者提供了新的可能性。專家縫合技術(shù)的成功應(yīng)用表明,未來可能會(huì)有更多類似的模型融合嘗試,不僅限于音視頻領(lǐng)域,還可能擴(kuò)展到其他多模態(tài)任務(wù)中。
在線標(biāo)注技術(shù)的創(chuàng)新解決了多模態(tài)訓(xùn)練中長期存在的數(shù)據(jù)對(duì)齊問題。這種動(dòng)態(tài)標(biāo)注的思路為處理大規(guī)模、多樣化數(shù)據(jù)集提供了新的解決方案,特別是在需要精確時(shí)間對(duì)齊的任務(wù)中具有重要價(jià)值。這種技術(shù)可能會(huì)被其他需要處理時(shí)序數(shù)據(jù)的應(yīng)用所采用。
獨(dú)立噪聲采樣策略的發(fā)現(xiàn)具有重要的理論價(jià)值,它揭示了多模態(tài)生成中一個(gè)容易被忽視但影響重大的技術(shù)陷阱。這一發(fā)現(xiàn)提醒研究社區(qū)在設(shè)計(jì)多模態(tài)系統(tǒng)時(shí)需要更加仔細(xì)地考慮各個(gè)組件之間的潛在相互影響,即使這些影響在表面上看起來并不明顯。
從應(yīng)用角度來看,UniVerse-1為創(chuàng)意產(chǎn)業(yè)開辟了新的可能性。視頻制作人員可以更加高效地創(chuàng)建包含同步音效的內(nèi)容,教育工作者可以生成更加生動(dòng)的教學(xué)材料,內(nèi)容創(chuàng)作者可以探索全新的創(chuàng)意表達(dá)形式。特別是在需要快速原型制作或概念驗(yàn)證的場(chǎng)景中,這種技術(shù)可以顯著降低制作門檻和成本。
當(dāng)然,研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前版本的局限性。由于計(jì)算資源的限制,模型是基于相對(duì)較小的Wan2.1-1.3B構(gòu)建的,這在一定程度上限制了其性能上限。與Google的Veo3等大規(guī)模商業(yè)模型相比,在絕對(duì)性能上仍有差距。此外,訓(xùn)練數(shù)據(jù)的規(guī)模雖然達(dá)到了7600小時(shí),但相對(duì)于一些大型商業(yè)模型使用的數(shù)據(jù)量仍有不足。
未來的改進(jìn)方向包括擴(kuò)展到更大規(guī)模的基礎(chǔ)模型,增加訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性,以及進(jìn)一步優(yōu)化模型架構(gòu)。研究團(tuán)隊(duì)表示,他們的長期目標(biāo)是顯著提升開源音視頻合成模型的能力,縮小與最先進(jìn)商業(yè)模型的性能差距。
除了性能提升之外,模型的可控性和可解釋性也是未來研究的重要方向。用戶可能希望對(duì)生成的音視頻內(nèi)容進(jìn)行更精細(xì)的控制,比如調(diào)整音頻的情感色彩、修改視頻中特定對(duì)象的屬性等。這些需求將推動(dòng)更加靈活和用戶友好的生成技術(shù)的發(fā)展。
說到底,UniVerse-1的意義不僅在于其技術(shù)創(chuàng)新,更在于它為整個(gè)AI生成社區(qū)樹立了開放協(xié)作的典范。通過開源代碼和模型,研究團(tuán)隊(duì)不僅推動(dòng)了技術(shù)進(jìn)步,也促進(jìn)了知識(shí)共享和協(xié)作創(chuàng)新。這種開放的研究態(tài)度對(duì)于AI技術(shù)的健康發(fā)展具有重要意義,它確保了更多研究者和開發(fā)者能夠參與到前沿技術(shù)的探索中,共同推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。
隨著技術(shù)的不斷完善和應(yīng)用場(chǎng)景的擴(kuò)展,我們有理由相信,音視頻同步生成技術(shù)將在不久的將來成為數(shù)字內(nèi)容創(chuàng)作的重要工具,為人類的創(chuàng)意表達(dá)提供更加強(qiáng)大和便捷的技術(shù)支持。
Q&A
Q1:UniVerse-1和其他AI視頻生成工具有什么不同?
A:UniVerse-1最大的不同是能夠同時(shí)生成視頻和音頻,而且兩者完全同步。傳統(tǒng)AI視頻工具(如Sora)只能生成無聲視頻,需要后期添加音效,而UniVerse-1生成的音視頻天然匹配,就像真實(shí)世界發(fā)生的事件一樣。
Q2:普通用戶現(xiàn)在可以使用UniVerse-1嗎?
A:目前UniVerse-1主要面向研究人員和開發(fā)者開放,代碼和模型已在GitHub發(fā)布。普通用戶暫時(shí)還無法直接使用,但研究團(tuán)隊(duì)表示未來會(huì)考慮開發(fā)更易用的版本。感興趣的技術(shù)人員可以通過項(xiàng)目主頁https://dorniwang.github.io/UniVerse-1/獲取詳細(xì)信息。
Q3:UniVerse-1生成的視頻質(zhì)量如何?能達(dá)到商業(yè)使用標(biāo)準(zhǔn)嗎?
A:UniVerse-1作為首個(gè)開源音視頻同步生成模型,在視頻質(zhì)量和音頻質(zhì)量方面都達(dá)到了相當(dāng)不錯(cuò)的水平,特別是在身份保持和時(shí)間同步方面表現(xiàn)出色。不過由于計(jì)算資源限制,與Google Veo3等大型商業(yè)模型相比還有差距,更適合研究、原型制作和概念驗(yàn)證使用。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。