當(dāng)你和朋友聊天時(shí),你們能夠自然地聽完對(duì)方講述一個(gè)復(fù)雜的故事,然后用自己的聲音回應(yīng)。對(duì)于人工智能來說,這樣看似簡單的能力卻異常困難。不過,香港中文大學(xué)、香港科技大學(xué)和SmartMore公司的研究團(tuán)隊(duì)在2025年9月發(fā)表的一項(xiàng)研究中,成功開發(fā)出了一個(gè)名為MGM-Omni的AI系統(tǒng),它能夠理解超過60分鐘的語音內(nèi)容,并用個(gè)性化的聲音生成超過10分鐘的連貫回應(yīng)。這項(xiàng)研究發(fā)表在arXiv預(yù)印本服務(wù)器上,編號(hào)為arXiv:2509.25131v1,感興趣的讀者可以通過該編號(hào)查詢完整論文。
傳統(tǒng)的AI助手就像一個(gè)只會(huì)背誦標(biāo)準(zhǔn)答案的機(jī)器人,它們要么只能處理很短的語音輸入,要么生成的語音聽起來機(jī)械死板,毫無個(gè)性。更糟糕的是,當(dāng)需要處理長時(shí)間的對(duì)話或生成較長的回應(yīng)時(shí),這些系統(tǒng)往往會(huì)"掉鏈子"——要么理解錯(cuò)誤,要么說話變得斷斷續(xù)續(xù),就像一臺(tái)老舊的收音機(jī)信號(hào)不穩(wěn)定一樣。
MGM-Omni的出現(xiàn)徹底改變了這種局面。這個(gè)系統(tǒng)采用了一種全新的"大腦-嘴巴"雙軌設(shè)計(jì)理念,就像人類的思考和說話是兩個(gè)既獨(dú)立又協(xié)調(diào)的過程一樣。研究團(tuán)隊(duì)用大約40萬小時(shí)的音頻數(shù)據(jù)訓(xùn)練了這個(gè)系統(tǒng),相當(dāng)于讓它聽了45年的連續(xù)音頻內(nèi)容。更令人驚喜的是,它還具備零樣本語音克隆能力,只需要聽到某個(gè)人的語音樣本,就能學(xué)會(huì)用那個(gè)人的聲音特色說話。
這項(xiàng)研究的核心突破在于解決了音頻理解和生成中的三個(gè)關(guān)鍵難題。首先是長時(shí)間音頻理解的問題,傳統(tǒng)系統(tǒng)就像一個(gè)記性不好的人,聽了前面的內(nèi)容就忘了后面說什么,而MGM-Omni則能夠保持長時(shí)間的記憶連貫性。其次是文本和語音之間的對(duì)齊問題,這就好比一個(gè)人想說"你好"兩個(gè)字,但嘴巴卻需要發(fā)出很多個(gè)音素才能完整表達(dá),MGM-Omni通過創(chuàng)新的分塊并行解碼技術(shù)解決了這個(gè)時(shí)間不匹配的難題。最后是長時(shí)間生成中的音色一致性問題,確保AI在長時(shí)間說話過程中聲音特征不會(huì)發(fā)生漂移變化。
一、革命性的雙軌架構(gòu)設(shè)計(jì)
MGM-Omni最引人注目的創(chuàng)新之處在于其獨(dú)特的雙軌架構(gòu)設(shè)計(jì)。想象一下人類大腦的工作方式:當(dāng)你聽到朋友講述一個(gè)復(fù)雜故事時(shí),你的大腦負(fù)責(zé)理解和思考,而當(dāng)你需要回應(yīng)時(shí),你的發(fā)聲器官負(fù)責(zé)將思考結(jié)果轉(zhuǎn)化為語音。MGM-Omni正是模仿了這種自然分工。
系統(tǒng)的"大腦"部分是一個(gè)多模態(tài)大語言模型(MLLM),它基于當(dāng)前最先進(jìn)的Qwen2.5-VL模型構(gòu)建。這個(gè)"大腦"不僅能處理文字,還能理解圖片、視頻和音頻信息,就像一個(gè)博學(xué)的學(xué)者能夠同時(shí)閱讀文獻(xiàn)、觀看實(shí)驗(yàn)視頻、聆聽講座錄音一樣。當(dāng)面對(duì)復(fù)雜的多模態(tài)輸入時(shí),這個(gè)"大腦"能夠綜合分析所有信息,形成準(zhǔn)確的理解和判斷。
系統(tǒng)的"嘴巴"部分則是一個(gè)專門的語音生成模型(SpeechLM),它的職責(zé)就是將"大腦"產(chǎn)生的文字想法轉(zhuǎn)化為自然流暢的語音。這種分工帶來了巨大的優(yōu)勢(shì):理解和生成可以并行進(jìn)行,大大提高了響應(yīng)速度;同時(shí),專門的語音生成模塊能夠更好地控制音色、語調(diào)和情感表達(dá)。
這種雙軌設(shè)計(jì)的巧妙之處在于,它避免了傳統(tǒng)級(jí)聯(lián)系統(tǒng)的弊端。傳統(tǒng)系統(tǒng)就像一條流水線,前一個(gè)環(huán)節(jié)出錯(cuò)會(huì)影響后續(xù)所有步驟,而MGM-Omni的雙軌設(shè)計(jì)則像兩個(gè)專業(yè)團(tuán)隊(duì)的協(xié)作,各自專注于自己擅長的領(lǐng)域,然后通過精心設(shè)計(jì)的接口進(jìn)行高效溝通。
二、突破性的長音頻理解能力
在音頻理解方面,MGM-Omni采用了一種類似人類雙耳協(xié)作的雙重編碼器設(shè)計(jì)。研究團(tuán)隊(duì)發(fā)現(xiàn),單一的音頻編碼器就像只用一只耳朵聽音樂,雖然能夠捕捉基本信息,但會(huì)錯(cuò)失很多細(xì)節(jié)和層次。
第一個(gè)編碼器基于Qwen2-Audio模型,它擅長捕捉聲音的整體特征,就像一個(gè)有經(jīng)驗(yàn)的音樂制作人能夠敏銳地識(shí)別音樂中的各種樂器和旋律走向。第二個(gè)編碼器則是專門針對(duì)中文語音優(yōu)化的Belle-Whisper-large-v3,它就像一個(gè)精通漢語的語言學(xué)家,特別善于理解中文語音的細(xì)微差別和語言特色。
兩個(gè)編碼器的協(xié)作過程采用了信息挖掘技術(shù),這個(gè)過程就像兩個(gè)專家在交換意見。主編碼器提出問題(作為查詢),輔助編碼器提供相關(guān)線索(作為鍵值對(duì)),通過注意力機(jī)制將最重要的信息篩選出來。這種設(shè)計(jì)讓系統(tǒng)能夠同時(shí)獲得聲學(xué)特征和語義理解,形成更加全面和準(zhǔn)確的音頻表示。
為了處理不同長度的音頻輸入,研究團(tuán)隊(duì)還開發(fā)了一套巧妙的訓(xùn)練策略。傳統(tǒng)的訓(xùn)練方法就像用同一個(gè)教室教授小學(xué)生和大學(xué)生,效率很低。MGM-Omni的方法則像分層教學(xué):將相似長度的音頻分組處理,短音頻用大批次快速訓(xùn)練,長音頻用小批次精細(xì)訓(xùn)練。這種動(dòng)態(tài)調(diào)整策略不僅提高了訓(xùn)練效率,還確保了系統(tǒng)對(duì)各種長度音頻的適應(yīng)能力。
通過這種設(shè)計(jì),MGM-Omni能夠處理超過60分鐘的連續(xù)音頻輸入。在研究團(tuán)隊(duì)進(jìn)行的"大海撈針"測(cè)試中,系統(tǒng)面對(duì)長達(dá)75分鐘的音頻內(nèi)容,仍能準(zhǔn)確找到其中的關(guān)鍵信息,成功率達(dá)到94%,遠(yuǎn)超其他競(jìng)爭系統(tǒng)的58%成功率。
三、創(chuàng)新的分塊并行語音生成技術(shù)
語音生成是MGM-Omni的另一個(gè)技術(shù)突破點(diǎn)。傳統(tǒng)的語音合成系統(tǒng)面臨著一個(gè)根本性的挑戰(zhàn):文字和語音之間存在巨大的時(shí)間尺度差異。一個(gè)簡單的比喻是,如果把一個(gè)漢字比作一個(gè)大箱子,那么對(duì)應(yīng)的語音就像是箱子里的二十五個(gè)小球,系統(tǒng)需要精確地將每個(gè)小球按照正確的順序和時(shí)機(jī)投放出來。
MGM-Omni通過分塊并行解碼技術(shù)解決了這個(gè)難題。這個(gè)方法就像熟練的廚師同時(shí)處理多道菜一樣,將長文本分成若干個(gè)小段,每個(gè)小段獨(dú)立處理,但保持整體的協(xié)調(diào)性。在每個(gè)文本塊的處理過程中,系統(tǒng)采用延遲啟動(dòng)策略:先處理前四個(gè)文字標(biāo)記,然后才開始生成對(duì)應(yīng)的語音標(biāo)記,這樣確保了文字和語音之間的精確對(duì)齊。
并行解碼技術(shù)進(jìn)一步提升了生成效率。傳統(tǒng)系統(tǒng)就像一個(gè)只會(huì)逐字逐句說話的人,而MGM-Omni則像一個(gè)能夠同時(shí)組織多個(gè)層面表達(dá)的演說家。系統(tǒng)擴(kuò)展了詞匯表,使得每個(gè)解碼步驟能夠同時(shí)生成一個(gè)文字標(biāo)記和四個(gè)語音標(biāo)記。這種設(shè)計(jì)將推理速度提升了3倍,同時(shí)還改善了長序列生成中的音色一致性。
語音生成模塊基于Qwen3語言模型,配備了專門設(shè)計(jì)的TTS適配器。這個(gè)適配器就像一個(gè)專業(yè)的配音演員訓(xùn)練營,它學(xué)會(huì)了如何將文字意圖轉(zhuǎn)化為自然的語音表達(dá)。通過流匹配模型將語音標(biāo)記轉(zhuǎn)換為梅爾頻譜圖,最后通過HiFi-GAN聲碼器生成高質(zhì)量的音頻波形。
四、零樣本語音克隆的技術(shù)實(shí)現(xiàn)
MGM-Omni最令人印象深刻的功能之一是零樣本語音克隆能力。這意味著只需要提供一小段某個(gè)人的語音樣本,系統(tǒng)就能學(xué)會(huì)用那個(gè)人的聲音特色說話,就像一個(gè)天才的模仿者只需要聽幾句話就能完美復(fù)制別人的說話方式。
為了實(shí)現(xiàn)這個(gè)功能,研究團(tuán)隊(duì)構(gòu)建了一個(gè)龐大的訓(xùn)練數(shù)據(jù)集,包含約30萬小時(shí)的原始語音數(shù)據(jù)和10萬小時(shí)的合成語音數(shù)據(jù)。這些數(shù)據(jù)涵蓋了中英文的多種語音環(huán)境和說話風(fēng)格,確保系統(tǒng)能夠理解和復(fù)制各種不同的聲音特征。
訓(xùn)練過程分為兩個(gè)階段,就像培養(yǎng)一個(gè)配音演員的過程。預(yù)訓(xùn)練階段相當(dāng)于基礎(chǔ)發(fā)聲訓(xùn)練,系統(tǒng)學(xué)習(xí)如何將文字轉(zhuǎn)化為基本的語音結(jié)構(gòu),這個(gè)階段只更新TTS適配器的參數(shù),保持語言模型的穩(wěn)定性。后訓(xùn)練階段則像是表演技巧訓(xùn)練,系統(tǒng)學(xué)習(xí)如何模仿不同的聲音風(fēng)格和情感表達(dá),這個(gè)階段會(huì)同時(shí)微調(diào)語言模型和適配器。
語音標(biāo)記化采用了CosyVoice2的有限標(biāo)量量化(FSQ)技術(shù),這種方法能夠以25Hz的頻率對(duì)語音進(jìn)行編碼,相當(dāng)于每秒生成25個(gè)語音標(biāo)記。研究團(tuán)隊(duì)發(fā)現(xiàn),雖然并行解碼通常與殘差向量量化(RVQ)標(biāo)記器配合使用,但與FSQ標(biāo)記器結(jié)合同樣能夠取得優(yōu)秀的效果,而且還能進(jìn)一步縮短文字和語音標(biāo)記之間的距離。
五、全面的性能評(píng)估與對(duì)比分析
為了全面評(píng)估MGM-Omni的性能,研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。在音頻理解任務(wù)上,系統(tǒng)在LibriSpeech、CommonVoice和AISHELL等標(biāo)準(zhǔn)測(cè)試集上均取得了優(yōu)異成績。特別是在中文語音識(shí)別任務(wù)上,MGM-Omni在CommonVoice數(shù)據(jù)集上達(dá)到了4.0%的字錯(cuò)誤率,在AISHELL數(shù)據(jù)集上達(dá)到了1.8%的字錯(cuò)誤率,超越了多個(gè)領(lǐng)先的音頻和全模態(tài)模型。
在通用音頻理解評(píng)估中,系統(tǒng)在AIR-Bench基準(zhǔn)測(cè)試中表現(xiàn)突出,這個(gè)測(cè)試覆蓋了語音、聲音、音樂和混合音頻等多種類型。MGM-Omni在所有類別中都取得了6.5分的平均成績,超過了包括Qwen2.5-Omni在內(nèi)的多個(gè)競(jìng)爭系統(tǒng)。
長音頻理解能力的測(cè)試采用了"大海撈針"方法,這就像在一本厚厚的小說中尋找特定的句子。研究團(tuán)隊(duì)選擇了五種不同類型的長音頻材料:學(xué)術(shù)講座、日常訪談和新聞廣播,每個(gè)音頻長度都超過60分鐘。MGM-Omni在這項(xiàng)測(cè)試中展現(xiàn)出了卓越的表現(xiàn),即使面對(duì)長達(dá)4500秒(75分鐘)的音頻輸入,仍能保持94%的成功率。
在語音生成方面,研究團(tuán)隊(duì)構(gòu)建了專門的Long-TTS-Eval基準(zhǔn)測(cè)試,這是第一個(gè)專門評(píng)估長時(shí)間語音生成能力的測(cè)試集。該測(cè)試集包含中英文各類文本,涵蓋文學(xué)、新聞、知識(shí)、演講、評(píng)論和學(xué)術(shù)論文等六個(gè)類別,最長文本達(dá)到3277個(gè)英文標(biāo)記,相當(dāng)于約12分鐘的語音內(nèi)容。
測(cè)試結(jié)果顯示,MGM-Omni在長時(shí)間語音生成任務(wù)中明顯優(yōu)于其他開源系統(tǒng)。在實(shí)時(shí)因子(RTF)方面,MGM-Omni達(dá)到了0.19,意味著生成1秒的語音只需要0.19秒的計(jì)算時(shí)間,遠(yuǎn)快于其他競(jìng)爭系統(tǒng)。同時(shí),在語音質(zhì)量方面,系統(tǒng)在中英文長文本生成中的錯(cuò)誤率都顯著低于對(duì)比系統(tǒng)。
六、技術(shù)細(xì)節(jié)的深入剖析
MGM-Omni的成功離不開眾多技術(shù)細(xì)節(jié)的精心設(shè)計(jì)。在音頻編碼器的選擇上,研究團(tuán)隊(duì)通過消融實(shí)驗(yàn)發(fā)現(xiàn),雙編碼器設(shè)計(jì)比單編碼器提升了約40%的性能。信息挖掘技術(shù)的引入進(jìn)一步改善了音頻理解的準(zhǔn)確性,使得系統(tǒng)能夠從輔助編碼器中提取最相關(guān)的語義信息。
分塊解碼技術(shù)的效果同樣顯著。實(shí)驗(yàn)顯示,沒有分塊解碼的系統(tǒng)在長文本生成中錯(cuò)誤率會(huì)急劇上升,而采用分塊解碼后,錯(cuò)誤率大幅下降,證明了這種方法在保持長序列一致性方面的重要作用。
并行解碼的規(guī)模選擇也經(jīng)過了仔細(xì)調(diào)優(yōu)。研究團(tuán)隊(duì)測(cè)試了不同的并行大?。?、2、4),發(fā)現(xiàn)并行大小為4時(shí)能夠在質(zhì)量和速度之間取得最佳平衡。雖然更大的并行規(guī)模會(huì)略微降低音頻質(zhì)量,但速度提升效果顯著,將推理速度提升了約3倍。
訓(xùn)練數(shù)據(jù)的規(guī)模雖然相對(duì)較少(約40萬小時(shí)),但通過精心的數(shù)據(jù)處理和訓(xùn)練策略,MGM-Omni達(dá)到了與使用百萬甚至千萬小時(shí)數(shù)據(jù)的競(jìng)爭系統(tǒng)相當(dāng)或更好的性能。這證明了系統(tǒng)架構(gòu)設(shè)計(jì)的優(yōu)越性和訓(xùn)練方法的高效性。
七、實(shí)際應(yīng)用場(chǎng)景與未來展望
MGM-Omni的技術(shù)突破為多個(gè)實(shí)際應(yīng)用場(chǎng)景打開了新的可能性。在教育領(lǐng)域,系統(tǒng)能夠理解長時(shí)間的課程錄音,并用個(gè)性化的聲音生成詳細(xì)的總結(jié)和解答。在客服行業(yè),它可以處理復(fù)雜的客戶詢問,提供連貫且個(gè)性化的回應(yīng)。在內(nèi)容創(chuàng)作方面,系統(tǒng)能夠?qū)㈤L篇文章轉(zhuǎn)化為自然流暢的有聲內(nèi)容,而且可以模仿特定的播音員風(fēng)格。
醫(yī)療健康領(lǐng)域也能從這項(xiàng)技術(shù)中受益。系統(tǒng)可以理解醫(yī)生的長時(shí)間診斷錄音,生成詳細(xì)的病歷摘要,同時(shí)還能用患者熟悉的聲音播報(bào)健康建議,提高醫(yī)患溝通的效果。
研究團(tuán)隊(duì)還開發(fā)了在線演示系統(tǒng),普通用戶可以通過網(wǎng)頁界面體驗(yàn)MGM-Omni的能力。這個(gè)演示系統(tǒng)展示了模型在實(shí)時(shí)對(duì)話中的表現(xiàn),用戶可以上傳音頻文件或?qū)崟r(shí)對(duì)話,體驗(yàn)系統(tǒng)的多模態(tài)理解和語音生成能力。
當(dāng)然,這項(xiàng)技術(shù)也面臨著一些挑戰(zhàn)和限制。長時(shí)間音頻處理仍然需要大量的計(jì)算資源,實(shí)時(shí)部署在移動(dòng)設(shè)備上還有技術(shù)障礙。語音克隆技術(shù)雖然強(qiáng)大,但也需要考慮潛在的濫用風(fēng)險(xiǎn),需要建立相應(yīng)的檢測(cè)和防護(hù)機(jī)制。
未來的發(fā)展方向包括進(jìn)一步提高計(jì)算效率,使系統(tǒng)能夠在更廣泛的設(shè)備上部署;增強(qiáng)多語言支持能力,覆蓋更多語種;改進(jìn)情感表達(dá)和個(gè)性化定制功能,使生成的語音更加自然和貼近人類表達(dá)習(xí)慣。
研究團(tuán)隊(duì)已經(jīng)將模型代碼和演示系統(tǒng)開源,為學(xué)術(shù)界和產(chǎn)業(yè)界的進(jìn)一步研究和應(yīng)用奠定了基礎(chǔ)。這種開放的態(tài)度將有助于推動(dòng)整個(gè)語音AI領(lǐng)域的發(fā)展,讓更多的研究者和開發(fā)者能夠在此基礎(chǔ)上構(gòu)建更先進(jìn)的應(yīng)用。
總的來說,MGM-Omni代表了語音AI技術(shù)的一個(gè)重要里程碑。它不僅在技術(shù)指標(biāo)上取得了突破,更重要的是提供了一個(gè)全新的設(shè)計(jì)思路,將多模態(tài)理解和語音生成有機(jī)結(jié)合,為構(gòu)建更自然、更智能的人機(jī)交互系統(tǒng)指明了方向。隨著技術(shù)的不斷完善和應(yīng)用場(chǎng)景的拓展,我們有理由相信,這種能夠"聽"懂長篇大論并"說"出個(gè)性化回應(yīng)的AI系統(tǒng),將在不久的將來成為我們?nèi)粘I钪胁豢苫蛉钡闹悄苤帧?/p>
Q&A
Q1:MGM-Omni比其他語音AI系統(tǒng)強(qiáng)在哪里?
A:MGM-Omni最大的優(yōu)勢(shì)是能處理超過60分鐘的長音頻輸入,并生成超過10分鐘的連貫語音回應(yīng),還具備零樣本語音克隆能力。它采用獨(dú)特的"大腦-嘴巴"雙軌設(shè)計(jì),理解和生成可以并行進(jìn)行,大大提高了響應(yīng)速度和質(zhì)量。
Q2:MGM-Omni的語音克隆功能安全嗎?會(huì)不會(huì)被濫用?
A:研究團(tuán)隊(duì)開發(fā)了零樣本語音克隆技術(shù),只需要聽到某個(gè)人的語音樣本就能模仿其聲音特色。雖然這項(xiàng)技術(shù)很強(qiáng)大,但確實(shí)存在濫用風(fēng)險(xiǎn)。研究團(tuán)隊(duì)已經(jīng)意識(shí)到這個(gè)問題,未來需要建立相應(yīng)的檢測(cè)和防護(hù)機(jī)制來規(guī)范使用。
Q3:普通人現(xiàn)在能體驗(yàn)MGM-Omni嗎?在哪里可以試用?
A:研究團(tuán)隊(duì)已經(jīng)開發(fā)了在線演示系統(tǒng),普通用戶可以通過網(wǎng)頁界面體驗(yàn)MGM-Omni的能力。同時(shí),他們還將模型代碼開源了,技術(shù)開發(fā)者可以基于此構(gòu)建自己的應(yīng)用。不過目前還主要是研究展示階段,大規(guī)模商用還需要時(shí)間。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。