這項由香港科技大學和多模態(tài)藝術(shù)投影研究團隊(MAP)聯(lián)合開發(fā)的開源音樂生成模型YuE(樂)于2025年1月28日在arXiv平臺發(fā)表,論文標題為《YuE: Scaling Open Foundation Models for Long-Form Music Generation》。研究團隊的核心成員包括香港科技大學的袁瑞斌、林翰豐等研究者,以及來自Moonshot.ai、Queen Mary University of London等多個機構(gòu)的合作者。感興趣的讀者可以通過arXiv:2503.08638或項目主頁https://map-yue.github.io/獲取完整論文和演示內(nèi)容。
在音樂創(chuàng)作這個充滿藝術(shù)靈感的領域,人工智能正在掀起一場前所未有的革命。長期以來,雖然AI能夠生成短小的音樂片段,但要創(chuàng)作出一首完整的、有歌詞有旋律的流行歌曲,仍然是個看似不可能完成的任務?,F(xiàn)在,香港科技大學的研究團隊帶來了一個令人興奮的突破——他們開發(fā)出了名為YuE的AI音樂創(chuàng)作系統(tǒng),這個系統(tǒng)不僅能夠根據(jù)歌詞創(chuàng)作出長達五分鐘的完整歌曲,還能在保持歌詞準確性的同時,生成富有表現(xiàn)力的人聲和精美的伴奏。
YuE的出現(xiàn)意義重大,因為它是第一個真正意義上的開源長篇歌曲生成模型。此前,雖然像Suno、Udio這樣的商業(yè)系統(tǒng)已經(jīng)能夠生成相當不錯的歌曲,但它們的技術(shù)細節(jié)完全保密,研究人員和普通用戶都無法了解其工作原理,更無法在此基礎上進行改進和創(chuàng)新。YuE的開源特性意味著全世界的研究者都可以使用、研究和改進這項技術(shù),這將極大加速AI音樂生成技術(shù)的發(fā)展。
研究團隊基于大型語言模型LLaMA2架構(gòu),使用了數(shù)萬億個訓練數(shù)據(jù)來訓練YuE。這個模型的訓練數(shù)據(jù)包含了70,000小時的語音數(shù)據(jù)和650,000小時的音樂數(shù)據(jù),其中10%的音樂數(shù)據(jù)配有對應歌詞。如此龐大的數(shù)據(jù)量讓YuE學會了如何理解語言和音樂之間的復雜關系,就像一個音樂家經(jīng)過了數(shù)十年的學習和練習一樣。
更令人印象深刻的是,YuE在多項評測中的表現(xiàn)已經(jīng)能夠與商業(yè)系統(tǒng)相媲美,甚至在某些方面超越了它們。在人工評估中,YuE在音樂性、聲音靈活性和生成時長等方面都表現(xiàn)出色。特別值得一提的是,YuE生成的歌曲平均長度約為五分鐘,這在AI音樂生成領域是一個顯著的突破,因為大多數(shù)現(xiàn)有系統(tǒng)只能生成30秒左右的短片段。
**一、核心技術(shù)架構(gòu):兩階段生成的精妙設計**
要理解YuE如何工作,我們可以把它想象成一個兩階段的音樂制作工廠。就像真實的音樂制作過程一樣,YuE也分為兩個主要階段來完成從歌詞到完整歌曲的轉(zhuǎn)換。
第一階段被稱為"音樂語言建模"階段,這就像是音樂制作中的編曲和錄音階段。在這個階段,YuE接收歌詞和風格指示,然后生成歌曲的基本框架,包括人聲旋律和伴奏的基本結(jié)構(gòu)。這個階段使用的是一個5億到70億參數(shù)規(guī)模的語言模型,它已經(jīng)學習了大量的音樂知識,知道什么樣的歌詞應該配什么樣的旋律,什么樣的風格需要什么樣的伴奏。
第二階段被稱為"殘差建模"階段,這就像是音樂制作中的混音和母帶處理階段。在這個階段,一個10億參數(shù)的語言模型會接收第一階段的輸出,然后添加更多的音頻細節(jié),讓聲音變得更加豐富和真實。這包括增加更多的音頻頻率成分、改善音質(zhì)、讓人聲聽起來更自然等等。
這種兩階段的設計非常巧妙,因為它模仿了人類音樂制作的自然流程。第一階段專注于創(chuàng)意和結(jié)構(gòu),第二階段專注于技術(shù)和細節(jié)。這樣的分工不僅提高了生成質(zhì)量,還大大提升了計算效率。
整個系統(tǒng)的音頻處理基于一種稱為X-Codec的音頻編碼器。這個編碼器的作用就像是音樂和計算機之間的翻譯器,它能夠?qū)⒁纛l波形轉(zhuǎn)換成計算機可以理解的數(shù)字序列,同時保留音樂的語義信息。X-Codec特別之處在于它融合了語義信息和聲學信息,既能保持音樂的含義準確傳達,又能保證音質(zhì)的清晰度。
在文本處理方面,YuE使用LLaMA分詞器來處理歌詞、風格標簽和結(jié)構(gòu)信息。這個分詞器能夠理解不同語言的文本,支持多語言歌曲生成。系統(tǒng)還引入了多種特殊標記來標識不同的內(nèi)容類型,比如標識音頻開始的``標記和標識音頻結(jié)束的``標記等。
**二、軌道解耦:解決音樂生成的根本難題**
傳統(tǒng)的音樂生成面臨一個根本性挑戰(zhàn):音樂不像語音那樣單純,它包含了人聲和各種樂器的復雜混合。當AI試圖同時處理這些不同的音頻成分時,往往會出現(xiàn)"顧此失彼"的問題——要么人聲不清楚,要么伴奏太嘈雜,很難達到理想的平衡。
YuE的研究團隊通過深入分析發(fā)現(xiàn)了問題的根源。他們發(fā)現(xiàn),當音樂中伴奏過于強烈時,AI系統(tǒng)很容易"聽不清"歌詞,導致生成的歌曲與原本的歌詞內(nèi)容不符。這就像在嘈雜的酒吧里試圖聽清楚朋友說話一樣困難。研究團隊通過測量不同音樂風格中的"語言信息丟失率"發(fā)現(xiàn),在金屬音樂這樣伴奏較重的風格中,信息丟失率可以高達25%,而在說唱音樂這樣人聲突出的風格中,丟失率只有大約15%。
為了解決這個問題,研究團隊提出了"軌道解耦次詞預測"技術(shù)。這個技術(shù)的基本思路是將人聲和伴奏分開處理,就像錄音室里分軌錄音一樣。在每個時間點上,系統(tǒng)不是預測一個混合的音頻信號,而是同時預測兩個分離的信號:一個是人聲信號,一個是伴奏信號。
具體來說,傳統(tǒng)方法會預測一個序列:音頻1、音頻2、音頻3...每個音頻包含了所有的聲音成分。而YuE的方法預測的序列是:人聲1、伴奏1、人聲2、伴奏2、人聲3、伴奏3...這樣,系統(tǒng)可以獨立地關注人聲的清晰度和伴奏的豐富性,最后再將它們合成在一起。
這種方法帶來了多重好處。首先,它顯著提高了歌詞的準確性,因為系統(tǒng)可以專門關注人聲軌道,不會被伴奏干擾。其次,它使得生成的音樂具有更好的層次感,人聲和伴奏各自保持了應有的特色。第三,這種方法還為后續(xù)的音頻處理提供了便利,比如可以單獨調(diào)整人聲音量或者替換伴奏等。
實驗結(jié)果證明了這種方法的有效性。使用軌道解耦技術(shù)訓練的模型在訓練過程中達到了更低的損失值,這意味著模型學習得更好。同時,在各種音樂風格的測試中,新方法都表現(xiàn)出了更強的歌詞跟隨能力,即使在像金屬音樂這樣的挑戰(zhàn)性風格中也是如此。
**三、結(jié)構(gòu)化漸進條件生成:讓AI學會創(chuàng)作完整歌曲**
創(chuàng)作一首完整的歌曲不僅僅是簡單地將歌詞轉(zhuǎn)換成音頻,它需要理解歌曲的整體結(jié)構(gòu)。一首典型的流行歌曲通常包含前奏、主歌、副歌、橋段、尾奏等不同部分,每個部分都有其特定的功能和情感表達。對于AI來說,如何理解和生成這樣復雜的結(jié)構(gòu)化內(nèi)容是一個巨大的挑戰(zhàn)。
研究團隊發(fā)現(xiàn),簡單地將歌詞輸入給AI系統(tǒng)并不能得到理想的結(jié)果。當歌詞很長時,AI往往會在生成過程中"忘記"最初的指示,導致后面生成的內(nèi)容與前面不一致,或者完全偏離了原始歌詞的意圖。這個問題的根源在于現(xiàn)有語言模型中廣泛使用的旋轉(zhuǎn)位置編碼(RoPE)存在長期衰減特性。簡單來說,就是當文本很長時,模型對開頭內(nèi)容的"記憶"會逐漸減弱。
為了解決這個問題,研究團隊開發(fā)了"結(jié)構(gòu)化漸進條件生成"技術(shù),他們將其簡稱為CoT(Chain-of-Thought的縮寫)。這個技術(shù)的核心思想是利用音樂本身的結(jié)構(gòu)特性,將一首長歌曲分解成多個較短的段落,然后逐段生成。
具體的工作流程是這樣的:首先,系統(tǒng)會自動分析歌曲的結(jié)構(gòu),識別出不同的段落(如主歌1、副歌1、主歌2、副歌2等)。然后,系統(tǒng)會為每個段落生成一個包含段落標簽、對應歌詞和音頻的完整單元。在生成過程中,系統(tǒng)會在文本和音頻之間交替進行,始終保持對當前段落任務的清晰認識。
這種方法的優(yōu)勢是顯而易見的。通過將長任務分解成多個短任務,系統(tǒng)可以在每個段落中保持高度的專注力和準確性。同時,段落標簽的使用還幫助系統(tǒng)理解不同部分的功能,比如副歌應該更加朗朗上口,橋段應該提供情感轉(zhuǎn)折等。
研究團隊通過一個巧妙的實驗驗證了這種方法的有效性。他們比較了幾種不同的長文本處理方法:傳統(tǒng)的文本前置方法、課程學習方法、調(diào)整位置編碼基數(shù)的方法,以及他們提出的CoT方法。結(jié)果顯示,CoT方法在各個時間段都保持了最低的詞錯誤率,即使在150秒的長音頻中,錯誤率也控制在20%左右,而其他方法的錯誤率則高達60-80%。
這個技術(shù)不僅解決了長度問題,還為AI音樂生成引入了結(jié)構(gòu)意識。生成的歌曲不再是簡單的音頻流,而是具有明確結(jié)構(gòu)和層次的藝術(shù)作品。這讓YuE生成的音樂更接近人類作曲家的創(chuàng)作水平。
**四、音樂情境學習:讓AI具備風格轉(zhuǎn)換的神奇能力**
除了基本的歌詞轉(zhuǎn)音樂功能,YuE還具備一項令人驚嘆的能力:音樂情境學習。這個功能就像是給AI提供了一個音樂"樣本",讓它能夠?qū)W習和模仿特定的風格、音色或者演唱方式。
傳統(tǒng)的語音情境學習通常采用連續(xù)的方式:先播放參考文本,然后播放參考音頻,最后生成目標文本對應的音頻。但研究團隊發(fā)現(xiàn),這種方法在音樂領域存在三個主要問題。首先,它要求必須提供參考音頻對應的歌詞,但很多時候我們只有音樂沒有歌詞。其次,這種方法是單向的,只能從給定的參考繼續(xù)創(chuàng)作,缺乏靈活性。第三,這種強耦合的方式容易導致AI直接復制參考音頻,而不是學習其風格特征。
YuE的研究團隊重新設計了音樂情境學習的方式。他們的方法更加靈活,可以支持單軌模式(只提供伴奏或只提供人聲)和雙軌模式(同時提供人聲和伴奏)。更重要的是,他們引入了"延遲激活策略",確保AI學習的是音樂風格而不是直接復制。
延遲激活策略的工作原理很巧妙。在訓練的早期階段,系統(tǒng)完全不使用情境學習數(shù)據(jù),而是專注于學習基本的音樂生成能力。只有當模型已經(jīng)具備了一定的創(chuàng)作能力后,才在訓練的最后階段引入少量的情境學習數(shù)據(jù)。這樣做的好處是避免了"快捷學習"問題,即AI過度依賴參考音頻而失去創(chuàng)新能力。
通過這種方法訓練出來的YuE展現(xiàn)出了驚人的風格轉(zhuǎn)換能力。比如,你可以給它提供一首日本城市流行音樂的片段,然后讓它用英語說唱的風格重新演繹同樣的歌詞。AI會保留原曲的伴奏特色,但將人聲風格完全轉(zhuǎn)換成說唱,甚至可以改變歌手的性別。這種能力為音樂創(chuàng)作開辟了全新的可能性。
情境學習功能還支持雙向生成,意思是你可以從歌曲的任何一個片段開始,讓AI向前或向后擴展。比如,如果你有一段很棒的副歌,AI可以為它創(chuàng)作主歌和橋段;如果你有一個動人的開頭,AI可以發(fā)展出完整的歌曲結(jié)構(gòu)。
實驗結(jié)果顯示,使用情境學習生成的音樂在音樂性評分中獲得了79%的勝率,遠遠超過了不使用情境學習的37%勝率。這表明情境學習確實能夠顯著提升生成音樂的質(zhì)量和吸引力。
**五、多任務多階段訓練:讓AI成為全能音樂家**
訓練一個能夠生成高質(zhì)量音樂的AI系統(tǒng)絕非易事,它需要掌握多種不同但相關的技能。YuE的訓練過程就像培養(yǎng)一個全能音樂家一樣,需要讓它同時學會語言理解、音樂創(chuàng)作、聲音合成等多種技能。
研究團隊將訓練過程分為四個階段,每個階段都有其特定的目標和重點。這種漸進式的訓練方法確保了模型能夠穩(wěn)步提升,避免了"學了新的忘了舊的"問題。
第一階段是"熱身階段",在這個階段,YuE主要學習基礎的音樂生成能力。訓練數(shù)據(jù)主要包括英語和中文的高質(zhì)量音樂,總共使用了280億個訓練標記。在這個階段,系統(tǒng)學會了基本的音符生成、簡單的旋律創(chuàng)作等基礎技能。為了節(jié)省計算資源,這個階段使用較短的上下文長度(8192個標記,大約相當于163秒的音樂)。
第二階段是"穩(wěn)定學習階段",訓練數(shù)據(jù)擴展到1萬億個標記,并引入了更多語言的數(shù)據(jù)。在這個階段,YuE學會了處理不同語言的歌詞,理解不同文化背景的音樂風格。為了防止訓練過程中的分布偏移問題,研究團隊采用了2:1的新舊數(shù)據(jù)混合比例。
第三階段是"上下文擴展階段",將上下文長度擴展到16384個標記,讓YuE能夠處理更長的音樂片段。這個階段移除了單軌無條件數(shù)據(jù),專注于提升模型處理長序列的能力。額外訓練了750億個標記后,YuE獲得了處理長篇音樂的能力。
第四階段是"精調(diào)階段",這是整個訓練過程的關鍵階段。在這個階段,研究團隊引入了更嚴格的控制信號,包括參考音頻(情境學習)、性別標簽、音色標簽等。學習率采用余弦退火方式從原來的3×10^-4逐漸降低到3×10^-5。雖然這個階段只使用了400億個標記(約占總計算預算的2%),但卻成功激活了所有高級控制功能。
在多任務學習方面,YuE同時學習四種不同的任務。第一種是文本轉(zhuǎn)語音(TTS),這幫助模型理解語言和聲音之間的對應關系。雖然語音數(shù)據(jù)相對較短,但研究團隊通過序列連接的方式將多個短語音片段組合成長序列,確保與音樂數(shù)據(jù)的長度匹配。
第二種是音樂生成任務,這是訓練數(shù)據(jù)的主體部分。研究團隊使用Qwen2-Audio模型為所有音樂添加了開放詞匯的標簽,包括風格、樂器、情緒等信息。40%的音樂數(shù)據(jù)被分離成人聲和伴奏的雙軌格式,為軌道解耦訓練提供了數(shù)據(jù)基礎。
第三種是歌詞轉(zhuǎn)歌曲任務,這是YuE的核心功能。由于高質(zhì)量的歌詞-音頻配對數(shù)據(jù)相對稀缺,研究團隊實施了嚴格的過濾策略,最終只保留了約10%的匹配數(shù)據(jù)。盡管數(shù)據(jù)量有限,但通過CoT設計和TTS輔助任務的幫助,模型仍然獲得了良好的歌詞跟隨能力。
第四種是情境學習任務,在精調(diào)階段引入。研究團隊從高質(zhì)量數(shù)據(jù)中采樣了20-40秒的參考片段,并創(chuàng)建了包括人聲情境學習、伴奏情境學習、混合情境學習和雙軌情境學習在內(nèi)的多種變體。
整個訓練過程消耗了巨大的計算資源。Stage-1模型的訓練使用了16到512塊NVIDIA H800 GPU,根據(jù)模型規(guī)模的不同進行調(diào)整。訓練過程中保持了768的全局批次大小,使用Adam優(yōu)化器,梯度裁剪設置為1.0,權(quán)重衰減為0.1。這樣的規(guī)模和復雜度在當前的AI音樂生成領域是前所未有的。
**六、性能評估:與商業(yè)系統(tǒng)正面較量**
為了驗證YuE的實際性能,研究團隊進行了全面的評估,包括人工評估和自動評估兩個方面。評估的對象包括四個主要的商業(yè)音樂生成系統(tǒng):Suno V4、Udio、Hailuo和Tiangong。這些系統(tǒng)都是目前市場上表現(xiàn)最好的產(chǎn)品,因此與它們的比較具有很強的說服力。
人工評估邀請了40名研究人員參與,其中包括12名語音/音樂AI專家和7名受過訓練的音樂家。為了保證評估的客觀性,所有評估者都沒有參與YuE的開發(fā)工作。評估采用了A/B測試的形式,每個評估者需要在兩個系統(tǒng)生成的音樂之間做出選擇。
評估的維度非常全面,包括整體音樂性、人聲質(zhì)量、伴奏質(zhì)量、音樂編排、旋律吸引力、人聲伴奏匹配度、歌曲結(jié)構(gòu)清晰度、歌詞跟隨準確性、風格控制能力、樂器和人聲配置控制能力、情感表現(xiàn)力以及節(jié)拍和節(jié)奏控制等12個方面。
結(jié)果顯示,YuE在多個方面表現(xiàn)出色。在整體比較中,YuE與Tiangong和Udio達到了基本持平的水平,明顯超越了Hailuo,但仍然落后于目前表現(xiàn)最好的Suno V4。具體來說,YuE對Tiangong的勝率為41.9%,對Udio的勝率為46.5%,對Hailuo的勝率為71.4%,對Suno V4的勝率為16.3%。
在詳細的音樂性分析中,YuE展現(xiàn)出了獨特的優(yōu)勢。在音樂結(jié)構(gòu)和音樂編排方面,YuE表現(xiàn)尤為突出,這體現(xiàn)了CoT技術(shù)在處理長篇音樂結(jié)構(gòu)方面的優(yōu)勢。然而,在人聲和伴奏的聲音質(zhì)量方面,YuE還有改進空間,這主要是由于當前音頻編碼器的限制。
在可控性評估中,YuE在風格控制、樂器配置和情感表達方面表現(xiàn)優(yōu)秀,顯示出良好的指令跟隨能力。這得益于多任務訓練和情境學習技術(shù)的應用。
自動評估提供了更多量化的指標。在人聲靈活性方面,YuE生成的歌曲平均音域約為27個半音,與頂級商業(yè)系統(tǒng)Suno V4相當,遠超其他系統(tǒng)。在生成時長方面,YuE的表現(xiàn)最為突出,能夠生成長達5分鐘的完整歌曲,而大多數(shù)其他系統(tǒng)的生成時長都在2-3分鐘左右。
在分布匹配指標方面,YuE獲得了最低的KL散度(0.372),顯著優(yōu)于其他系統(tǒng),表明其生成的音樂更接近真實音樂的分布。在音頻質(zhì)量指標FAD方面,雖然Udio表現(xiàn)最好(1.222),但YuE的得分(1.624)也在可接受范圍內(nèi)。
特別值得注意的是音頻-文本對齊評估的結(jié)果。使用傳統(tǒng)的CLAP評分時,YuE的表現(xiàn)(0.118)似乎不佳,但使用更新的CLaMP 3評分時,YuE獲得了最高分(0.240)。這個差異很好地說明了評估指標的重要性,也表明傳統(tǒng)的評估方法可能不適合評估音樂生成任務。
研究團隊還進行了有趣的相關性分析,發(fā)現(xiàn)人聲音域與人工評估的音樂性和整體偏好有很強的相關性(相關系數(shù)超過0.85)。這表明人聲的表現(xiàn)力是影響音樂質(zhì)量感知的關鍵因素。
**七、多語言能力:跨越語言障礙的音樂創(chuàng)作**
音樂是一種世界性的語言,優(yōu)秀的AI音樂生成系統(tǒng)應該能夠處理不同語言的歌詞。YuE在這方面展現(xiàn)出了令人印象深刻的能力,不僅能夠生成中文、日語、韓語等多種語言的歌曲,還能在一首歌中自然地切換不同語言。
研究團隊對YuE的多語言能力進行了專門的評估。他們創(chuàng)建了10個中文測試樣本、10個日語/韓語混合測試樣本,邀請母語使用者或相關語言專業(yè)的學生進行評估。評估結(jié)果顯示,YuE在不同語言上的表現(xiàn)各有特色。
在日語歌詞跟隨方面,YuE表現(xiàn)最為出色,達到了70%的準確率,超過了所有其他系統(tǒng)。這可能是因為日語的音韻特征與音樂旋律有著天然的契合性。在中文歌詞跟隨方面,YuE獲得了60%的準確率,僅次于Suno V4的73%,但明顯好于其他系統(tǒng)。在韓語方面,YuE的表現(xiàn)為55%,排名第三。
在音樂性方面,YuE在中文和韓語歌曲中都獲得了第二名的成績(分別為62%和55%),顯示出良好的跨語言音樂創(chuàng)作能力。在日語音樂性方面,YuE的表現(xiàn)相對較弱(52%),但考慮到這是一個以英語和中文數(shù)據(jù)為主訓練的模型,這個結(jié)果仍然是可以接受的。
值得注意的是,YuE還支持代碼轉(zhuǎn)換(code-switching),即在同一首歌中自然地在多種語言之間切換。這種能力在現(xiàn)實的音樂創(chuàng)作中很有價值,特別是在全球化的今天,很多流行歌曲都會混合使用不同語言。
多語言能力的實現(xiàn)主要得益于YuE的訓練數(shù)據(jù)多樣性和架構(gòu)設計的通用性。通過在訓練過程中接觸不同語言的音樂數(shù)據(jù),YuE學會了各種語言的發(fā)音特點和韻律模式。同時,基于Transformer的架構(gòu)本身就具有良好的多語言處理能力。
研究團隊還通過微調(diào)進一步提升了YuE的多語言表現(xiàn)。通過在特定語言的高質(zhì)量數(shù)據(jù)上進行額外訓練,可以顯著提升該語言的生成質(zhì)量。這種方法只需要400億個訓練標記,相對于完整訓練過程來說成本很低,但效果顯著。
**八、技術(shù)創(chuàng)新與突破:開創(chuàng)AI音樂生成新紀元**
YuE的成功不僅僅體現(xiàn)在最終的性能表現(xiàn)上,更重要的是它在技術(shù)層面帶來的多項創(chuàng)新突破。這些創(chuàng)新為整個AI音樂生成領域指明了新的發(fā)展方向。
首先是音頻編碼器的選擇和優(yōu)化。研究團隊經(jīng)過大量實驗比較了多種音頻編碼器,包括純聲學編碼器(如Encodec32k、HiFiCodec)和語義-聲學融合編碼器(如Semanticodec、X-Codec)。結(jié)果發(fā)現(xiàn),純聲學編碼器雖然重建質(zhì)量較好,但在復雜的音樂數(shù)據(jù)上很難收斂,即使擴展到70億參數(shù)和1萬億訓練標記也無法取得滿意效果。
相比之下,融合了語義信息的編碼器表現(xiàn)更佳。X-Codec作為最終選擇,使用了基于HuBERT的語義表示,避免了Semanticodec中AudioMAE補丁機制導致的對齊問題。這種選擇的重要性在于,它讓AI能夠更好地理解音樂的語義含義,而不僅僅是聲音的表面特征。
其次是訓練策略的創(chuàng)新。研究團隊發(fā)現(xiàn),傳統(tǒng)的無條件預訓練對于歌詞轉(zhuǎn)歌曲任務是有害的。大規(guī)模模型往往會過擬合到主導性的學習信號上,使得后續(xù)的微調(diào)難以建立有效的跨模態(tài)對齊。這被研究團隊稱為"災難性慣性"問題。因此,YuE從一開始就采用多任務學習,確保模型始終保持對條件生成任務的敏感性。
第三是測試時技術(shù)的優(yōu)化。研究團隊發(fā)現(xiàn),使用歌曲的副歌部分作為情境學習的參考能夠顯著提升音樂性和穩(wěn)定性。同時,雙軌情境學習模式比單軌模式能夠產(chǎn)生更好的音頻質(zhì)量。分類器自由引導(CFG)技術(shù)的應用也很關鍵,第一段使用較高的引導尺度(1.5),后續(xù)段落使用較低的引導尺度(1.2),這樣既保證了開頭的質(zhì)量,又促進了后續(xù)內(nèi)容的多樣性。
第四是對現(xiàn)有評估方法的重新審視。研究發(fā)現(xiàn),傳統(tǒng)的CLAP評分與人工評估結(jié)果相關性很差,甚至呈現(xiàn)負相關。這可能是因為CLAP在訓練時接觸的音樂內(nèi)容有限,不適合評估包含歌唱的音樂生成任務。相比之下,更新的CLaMP 3評分顯示出了更好的相關性,人聲音域等簡單指標反而與人工評估的相關性最高。
第五是對內(nèi)存效應的深入研究。研究團隊使用ByteCover2模型分析了YuE是否會直接復制訓練數(shù)據(jù)。結(jié)果表明,即使在強情境學習模式下,YuE生成的音樂與訓練數(shù)據(jù)的相似度分布也遠低于已知的翻唱歌曲數(shù)據(jù)集Covers80,表明模型確實在進行創(chuàng)造性的重組而非簡單復制。
**九、應用前景與社會影響:音樂創(chuàng)作的民主化時代**
YuE的出現(xiàn)不僅僅是一個技術(shù)突破,它更預示著音樂創(chuàng)作即將進入一個全新的時代。作為第一個真正開源的長篇音樂生成模型,YuE為音樂創(chuàng)作的民主化奠定了技術(shù)基礎。
對于普通用戶來說,YuE意味著音樂創(chuàng)作不再是專業(yè)人士的專利。任何人只要有歌詞和創(chuàng)意,就可以創(chuàng)作出完整的歌曲。這對于那些有音樂夢想但缺乏專業(yè)技能或設備的人來說,無疑是一個巨大的福音。教育工作者可以用它來創(chuàng)作教學歌曲,內(nèi)容創(chuàng)作者可以為視頻制作定制化的背景音樂,甚至普通人也可以為特殊場合創(chuàng)作個性化的歌曲。
對于音樂行業(yè)專業(yè)人士來說,YuE提供了一個強大的創(chuàng)作輔助工具。作曲家可以用它來快速驗證旋律想法,歌詞作家可以聽到自己作品的音樂化效果,制作人可以用它來制作demo版本。更重要的是,YuE的開源特性意味著專業(yè)人士可以根據(jù)自己的需求對系統(tǒng)進行定制和改進。
在音樂教育領域,YuE的應用前景同樣廣闊。學生可以通過與AI的互動學習音樂創(chuàng)作的基本原理,教師可以用它來演示不同風格和結(jié)構(gòu)的音樂特點。特別是對于那些資源有限的地區(qū),YuE可以提供高質(zhì)量的音樂教育資源。
研究團隊還展示了YuE的一些令人驚嘆的創(chuàng)新能力。系統(tǒng)能夠自然地掌握多種高級演唱技巧,如顫音、滑音、美聲、死嗓、混聲、高音等,這些通常需要人類歌手經(jīng)過多年訓練才能掌握的技巧。在不同音樂風格的生成中,YuE還會自發(fā)地展現(xiàn)出風格特征,比如在爵士樂中加入即興哼唱,在民族音樂中插入合適的器樂獨奏等。
特別值得一提的是YuE的聲音克隆能力。通過情境學習,系統(tǒng)可以模仿特定歌手的音色特征,同時生成全新的歌詞和旋律。研究團隊成功復現(xiàn)了Billie Eilish和王菲等知名歌手的音色特點,生成的歌曲在保持原有音色魅力的同時,內(nèi)容完全是原創(chuàng)的。
當然,這樣強大的技術(shù)也帶來了倫理和社會責任的考量。研究團隊在論文中明確提出,AI生成的音樂內(nèi)容應該清楚標注,增加透明度。他們還通過記憶效應實驗證明了YuE能夠避免直接復制,即使在強條件約束下也能保持創(chuàng)造性。
YuE的開源特性還為音樂AI研究提供了寶貴的資源。全世界的研究者都可以基于YuE進行進一步的改進和創(chuàng)新,這將極大加速相關技術(shù)的發(fā)展。同時,開源也意味著更好的透明度和可審查性,有助于解決AI生成內(nèi)容的倫理問題。
**十、技術(shù)局限與未來發(fā)展:持續(xù)優(yōu)化的征程**
盡管YuE在多個方面取得了突破性進展,但研究團隊也誠實地承認了當前系統(tǒng)的一些局限性,并為未來的改進指明了方向。
首先是音頻質(zhì)量方面的限制。雖然YuE在音樂結(jié)構(gòu)和創(chuàng)意方面表現(xiàn)出色,但在聲音的細節(jié)質(zhì)量上仍有提升空間。這主要是由于當前使用的X-Codec編碼器在重建精度上的限制。雖然這個編碼器在語義保持方面表現(xiàn)很好,但在聲學細節(jié)的保真度上不如一些專門的聲學編碼器。未來的改進方向包括開發(fā)更好的編碼器,或者在現(xiàn)有編碼器基礎上增加超分辨率后處理模塊。
其次是訓練數(shù)據(jù)的質(zhì)量和多樣性問題。雖然YuE的訓練使用了海量數(shù)據(jù),但高質(zhì)量的歌詞-音頻配對數(shù)據(jù)仍然相對稀缺。研究團隊只能使用約10%的音樂數(shù)據(jù)進行歌詞跟隨訓練,這限制了模型在這方面的進一步提升。此外,訓練數(shù)據(jù)主要以英語和中文為主,其他語言的數(shù)據(jù)相對較少,這影響了多語言生成的質(zhì)量。
第三是計算資源的巨大需求。YuE的訓練需要數(shù)百塊高端GPU和數(shù)月的訓練時間,這樣的資源需求限制了技術(shù)的普及和進一步實驗。雖然推理過程相對高效,但仍然需要相當?shù)挠嬎隳芰Σ拍苌筛哔|(zhì)量的音樂。
第四是某些音樂風格的處理能力有限。雖然YuE在大多數(shù)流行音樂風格上表現(xiàn)良好,但對于一些特殊風格(如某些實驗性音樂、古典音樂等)的處理能力還有待提升。這部分是由于訓練數(shù)據(jù)的偏向性造成的。
研究團隊也坦誠地分享了一些嘗試失敗的方法。他們發(fā)現(xiàn),使用純聲學編碼器進行訓練極其困難,即使大幅增加模型規(guī)模和訓練數(shù)據(jù)也無法取得滿意效果。無條件預訓練對于條件生成任務是有害的,這與傳統(tǒng)的預訓練范式形成了鮮明對比。過早引入情境學習數(shù)據(jù)會導致模型過度依賴參考音頻,失去創(chuàng)造能力。
基于這些發(fā)現(xiàn)和限制,研究團隊為未來的發(fā)展規(guī)劃了幾個重要方向。首先是改進音頻編碼和重建技術(shù),提升生成音樂的音質(zhì)和細節(jié)豐富度。其次是擴展訓練數(shù)據(jù),特別是增加更多語言和音樂風格的高質(zhì)量配對數(shù)據(jù)。第三是探索更高效的訓練方法,降低計算資源需求。第四是深入研究音樂理論的整合,讓AI更好地理解和運用音樂理論知識。
此外,研究團隊還計劃探索更多的音樂應用場景,如音樂教育、治療音樂、無障礙音樂創(chuàng)作等。他們希望YuE不僅僅是一個技術(shù)演示,而是能夠真正服務于人類音樂創(chuàng)作和欣賞的實用工具。
**十一、研究意義與行業(yè)影響:開源精神推動技術(shù)進步**
YuE的發(fā)布在AI音樂生成領域具有里程碑式的意義,它不僅在技術(shù)上取得了突破,更重要的是帶來了開源精神在這個領域的回歸。
在商業(yè)化的浪潮中,大多數(shù)先進的AI音樂生成技術(shù)都被封裝在黑盒子里,只有少數(shù)大公司能夠掌握核心技術(shù)。這種情況雖然推動了產(chǎn)品的快速發(fā)展,但也阻礙了學術(shù)研究和技術(shù)創(chuàng)新的步伐。研究者無法了解這些系統(tǒng)的工作原理,無法在其基礎上進行改進,普通開發(fā)者更是無法接觸到這些先進技術(shù)。
YuE的開源發(fā)布打破了這種局面。它不僅公開了完整的技術(shù)方案,還提供了訓練代碼、模型權(quán)重和評估工具。這意味著全世界的研究者都可以復現(xiàn)、研究和改進這項技術(shù)。對于學術(shù)界來說,這提供了一個高質(zhì)量的基準和起點;對于產(chǎn)業(yè)界來說,這降低了技術(shù)門檻,讓更多的公司和開發(fā)者能夠參與到AI音樂生成的創(chuàng)新中來。
從技術(shù)角度來看,YuE的貢獻主要體現(xiàn)在幾個方面。軌道解耦技術(shù)解決了多聲部音樂生成中的關鍵問題,為其他研究者提供了新的思路。結(jié)構(gòu)化漸進條件生成技術(shù)為長序列生成提供了有效方案,這不僅適用于音樂,也可以推廣到其他需要長序列生成的任務中。音樂情境學習的重新設計為AI系統(tǒng)提供了更靈活的風格控制能力。
從評估角度來看,YuE的研究揭示了現(xiàn)有評估方法的局限性。傳統(tǒng)的音頻-文本對齊評估方法(如CLAP評分)在音樂生成任務上表現(xiàn)不佳,而一些簡單的指標(如人聲音域)反而與人工評估有很強的相關性。這些發(fā)現(xiàn)為建立更好的音樂生成評估標準提供了重要啟示。
YuE的成功也證明了大規(guī)模多任務訓練在專門領域的有效性。通過同時學習語音合成、音樂生成、歌詞跟隨等相關任務,模型獲得了更強的泛化能力和更好的性能。這種方法論對其他領域的AI系統(tǒng)開發(fā)同樣具有參考價值。
對于音樂產(chǎn)業(yè)來說,YuE的出現(xiàn)既是機遇也是挑戰(zhàn)。一方面,它為音樂創(chuàng)作提供了新的工具和可能性,可能催生出全新的音樂形式和商業(yè)模式;另一方面,它也對傳統(tǒng)的音樂創(chuàng)作流程提出了挑戰(zhàn),需要行業(yè)重新思考人工智能在音樂創(chuàng)作中的角色和定位。
更重要的是,YuE的開源特性為音樂創(chuàng)作的民主化奠定了基礎。它讓音樂創(chuàng)作不再局限于少數(shù)專業(yè)人士或擁有昂貴設備的人群,而是可以惠及更廣泛的創(chuàng)作者群體。這種技術(shù)的普及可能會帶來音樂文化的繁榮和多樣化。
展望未來,YuE很可能會成為AI音樂生成領域的一個重要基準和起點?;赮uE的改進版本和衍生技術(shù)將不斷涌現(xiàn),推動整個領域向前發(fā)展。同時,YuE的成功也為其他AI創(chuàng)作領域(如視頻生成、游戲設計等)提供了寶貴的經(jīng)驗和啟示。
說到底,YuE不僅僅是一個技術(shù)成果,更是開源精神在AI時代的體現(xiàn)。它告訴我們,真正的技術(shù)進步來自于開放、合作和共享,而不是封閉和壟斷。通過將先進技術(shù)開放給全世界,我們能夠激發(fā)更多的創(chuàng)新和創(chuàng)造,最終讓技術(shù)更好地服務于人類社會。這或許是YuE帶給我們的最重要啟示。
Q&A
Q1:YuE是什么?它能做什么? A:YuE是由香港科技大學開發(fā)的開源AI音樂生成模型,它能夠根據(jù)歌詞創(chuàng)作出長達5分鐘的完整歌曲,包括人聲演唱和樂器伴奏。與市面上的商業(yè)產(chǎn)品不同,YuE完全開源,任何人都可以使用、研究和改進這項技術(shù)。它還支持多語言歌曲創(chuàng)作和風格轉(zhuǎn)換等高級功能。
Q2:YuE會不會取代人類音樂家? A:目前不會完全取代,但會改變音樂創(chuàng)作方式。YuE更像是一個強大的創(chuàng)作工具,它可以幫助音樂家快速驗證想法、制作demo,或者讓沒有專業(yè)技能的人也能創(chuàng)作音樂。真正的音樂創(chuàng)作仍然需要人類的情感、創(chuàng)意和審美判斷,AI只是提供了技術(shù)支持。
Q3:普通人如何使用YuE?使用門檻高嗎? A:由于YuE是開源項目,技術(shù)人員可以通過GitHub獲取代碼和模型。不過對于普通用戶來說,直接使用YuE需要一定的技術(shù)背景和計算資源。預計未來會有基于YuE的用戶友好產(chǎn)品出現(xiàn),屆時普通人就能更容易地使用這項技術(shù)創(chuàng)作音樂了。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。