這項(xiàng)由阿里巴巴國(guó)際數(shù)字商務(wù)團(tuán)隊(duì)的田鳳平、呂晨陽等研究人員完成的突破性研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái)。研究團(tuán)隊(duì)開發(fā)出了名為Marco-Voice的多功能語音合成系統(tǒng),同時(shí)還構(gòu)建了包含10小時(shí)中文情感語音數(shù)據(jù)的CSEMOTIONS數(shù)據(jù)集。感興趣的讀者可以通過https://github.com/AIDC-AI/Marco-Voice獲取代碼,通過https://huggingface.co/datasets/AIDC-AI/CSEMOTIONS訪問數(shù)據(jù)集。
當(dāng)我們聽到某個(gè)熟悉的聲音時(shí),大腦會(huì)瞬間識(shí)別出這是誰在說話,同時(shí)還能感受到說話者的情緒狀態(tài)——是開心、憤怒還是悲傷。這種看似簡(jiǎn)單的能力,對(duì)計(jì)算機(jī)來說卻是一個(gè)巨大的挑戰(zhàn)。阿里巴巴的研究團(tuán)隊(duì)正是要讓機(jī)器掌握這種既能模仿不同人聲音特色,又能準(zhǔn)確表達(dá)各種情感的能力。
傳統(tǒng)的語音合成技術(shù)就像一個(gè)只會(huì)背書的學(xué)生,雖然能說出清晰的話語,但聲音聽起來機(jī)械呆板,更別說表達(dá)豐富的情感了。更糟糕的是,當(dāng)這些系統(tǒng)試圖模仿某個(gè)特定人的聲音時(shí),往往會(huì)把那個(gè)人的說話風(fēng)格和情感表達(dá)方式混在一起,無法單獨(dú)控制。這就好比一個(gè)演員只能完全模仿某個(gè)角色的一切,卻無法在保持角色聲音特色的同時(shí)表演不同的情緒。
Marco-Voice的革命性突破在于,它能夠像一個(gè)真正優(yōu)秀的配音演員一樣,既能完美模仿任何人的聲音特色,又能根據(jù)需要表達(dá)各種不同的情感。研究團(tuán)隊(duì)通過巧妙的技術(shù)設(shè)計(jì),讓系統(tǒng)學(xué)會(huì)了將"聲音身份"和"情感表達(dá)"分開處理,就像把一個(gè)人的外貌特征和性格特點(diǎn)分別記錄一樣。
一、機(jī)器學(xué)習(xí)人類聲音的藝術(shù):Marco-Voice的核心創(chuàng)新
Marco-Voice的工作原理可以比作一個(gè)精通多種技能的聲音魔法師。當(dāng)我們要讓它合成語音時(shí),整個(gè)過程分為幾個(gè)精密配合的步驟。
首先,系統(tǒng)需要理解輸入的文字內(nèi)容,這就像讀劇本的過程。文本編碼器會(huì)仔細(xì)分析每個(gè)詞語、句子的含義和語法結(jié)構(gòu),為后續(xù)的語音生成提供基礎(chǔ)信息。同時(shí),語音標(biāo)記器會(huì)將參考音頻轉(zhuǎn)換成機(jī)器能夠理解的"聲音密碼",這些密碼包含了音頻的各種特征信息。
接下來是Marco-Voice最精彩的部分——情感和聲音特征的分離處理。研究團(tuán)隊(duì)設(shè)計(jì)了一套"旋轉(zhuǎn)情感嵌入整合方法",聽起來很復(fù)雜,其實(shí)原理相當(dāng)巧妙。他們發(fā)現(xiàn),如果有同一個(gè)人說話時(shí)的兩段錄音——一段是中性平靜的,另一段是帶有某種情感的,那么這兩段錄音在機(jī)器的"理解空間"中的差異,就代表了純粹的情感信息,而剔除了個(gè)人聲音特色的干擾。
這種方法就像從兩張照片中提取表情變化一樣。假設(shè)你有一張某人面無表情的照片和一張他微笑的照片,通過比較這兩張照片的差異,你就能提取出"微笑"這個(gè)純粹的表情信息,而不會(huì)受到這個(gè)人具體長(zhǎng)相特征的影響。Marco-Voice正是用這種方式學(xué)會(huì)了從語音中提取純粹的情感信息。
為了確保聲音身份和情感表達(dá)真正做到相互獨(dú)立,研究團(tuán)隊(duì)還引入了"交叉正交約束"機(jī)制。這個(gè)機(jī)制的作用就像一個(gè)嚴(yán)格的教練,不斷監(jiān)督系統(tǒng)確保聲音特征和情感特征在學(xué)習(xí)過程中保持相互垂直的關(guān)系,就像數(shù)學(xué)中的坐標(biāo)軸一樣,互不干擾。
二、讓機(jī)器學(xué)會(huì)情感表達(dá)的秘密武器
Marco-Voice在處理情感方面的突破,離不開一個(gè)叫做"批次內(nèi)對(duì)比學(xué)習(xí)"的技術(shù)。這個(gè)技術(shù)的工作原理很像教小孩子區(qū)分不同顏色的過程。
當(dāng)我們教孩子認(rèn)識(shí)紅色時(shí),不僅會(huì)指著紅色的東西說"這是紅色",還會(huì)同時(shí)指著藍(lán)色、綠色的東西說"這些不是紅色"。批次內(nèi)對(duì)比學(xué)習(xí)就是這樣工作的:當(dāng)系統(tǒng)學(xué)習(xí)某種情感表達(dá)時(shí),它不僅要學(xué)會(huì)準(zhǔn)確識(shí)別這種情感,還要學(xué)會(huì)將其與其他情感區(qū)分開來。
在每次訓(xùn)練過程中,系統(tǒng)會(huì)同時(shí)處理多個(gè)不同情感的語音樣本。對(duì)于其中的每一個(gè)樣本,系統(tǒng)都會(huì)努力讓它與表達(dá)相同情感的樣本更相似,同時(shí)與表達(dá)不同情感的樣本更不相似。這種學(xué)習(xí)方式大大提高了系統(tǒng)對(duì)各種情感的識(shí)別和表達(dá)能力。
Marco-Voice還使用了一種叫做"條件流匹配"的生成技術(shù)。這項(xiàng)技術(shù)的工作過程就像一個(gè)經(jīng)驗(yàn)豐富的調(diào)音師,能夠根據(jù)給定的條件(文本內(nèi)容、聲音特征、情感要求)精確地調(diào)整每一個(gè)聲音參數(shù),最終生成自然流暢的語音。
整個(gè)生成過程中最關(guān)鍵的創(chuàng)新是引入了交叉注意力機(jī)制。這個(gè)機(jī)制讓情感信息能夠深度參與到語音生成的每個(gè)環(huán)節(jié)中,確保最終合成的語音不僅在技術(shù)上準(zhǔn)確,在情感表達(dá)上也自然貼切。可以把這個(gè)過程想象成一個(gè)指揮家同時(shí)協(xié)調(diào)樂隊(duì)的不同聲部,確保每個(gè)樂器既保持自己的特色,又完美融入整體的情感氛圍中。
三、CSEMOTIONS:為中文情感語音合成量身打造的數(shù)據(jù)寶庫
要訓(xùn)練出優(yōu)秀的情感語音合成系統(tǒng),高質(zhì)量的訓(xùn)練數(shù)據(jù)是必不可少的。然而,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的情感語音數(shù)據(jù)集存在諸多不足:要么是說話人數(shù)量有限,要么是錄音質(zhì)量參差不齊,要么是情感類別覆蓋不全。針對(duì)中文語音合成的需求,這個(gè)問題更加突出。
為了解決這個(gè)問題,研究團(tuán)隊(duì)構(gòu)建了CSEMOTIONS數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了約10小時(shí)的高質(zhì)量中文情感語音,由6位專業(yè)配音演員錄制,其中男女各占一半。這些配音演員都具有豐富的聲音表演經(jīng)驗(yàn),能夠準(zhǔn)確地表達(dá)各種細(xì)膩的情感狀態(tài)。
CSEMOTIONS涵蓋了七種不同的情感類別:中性、快樂、憤怒、悲傷、驚訝、恐懼和厭惡。每位配音演員都錄制了涵蓋所有情感類別的語音樣本,確保了數(shù)據(jù)集在說話人和情感覆蓋度方面的平衡性。
更重要的是,所有錄音都在專業(yè)錄音棚中完成,使用了高端的錄音設(shè)備,確保了音頻質(zhì)量的一致性和專業(yè)性。錄音環(huán)境的控制消除了背景噪音和混響的干擾,讓系統(tǒng)能夠?qū)W⒂趯W(xué)習(xí)純粹的語音特征和情感表達(dá)。
除了訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)還為每種情感類別精心設(shè)計(jì)了100個(gè)評(píng)估句子,這些句子既包含中文也包含英文內(nèi)容。這樣的設(shè)計(jì)使得系統(tǒng)的性能評(píng)估更加全面和客觀,也為跨語言的情感語音合成研究提供了寶貴的基準(zhǔn)測(cè)試資源。
四、實(shí)驗(yàn)驗(yàn)證:Marco-Voice的表現(xiàn)到底如何
為了全面評(píng)估Marco-Voice的性能,研究團(tuán)隊(duì)設(shè)計(jì)了一系列詳細(xì)的實(shí)驗(yàn)。這些實(shí)驗(yàn)就像給一個(gè)新生的配音演員安排試鏡一樣,從多個(gè)角度檢驗(yàn)系統(tǒng)的能力。
在聲音克隆能力的測(cè)試中,Marco-Voice的表現(xiàn)令人印象深刻。研究團(tuán)隊(duì)邀請(qǐng)了母語使用者對(duì)合成語音進(jìn)行評(píng)價(jià),評(píng)價(jià)維度包括語音清晰度、節(jié)奏和語速、自然度、整體滿意度以及說話人相似度。結(jié)果顯示,Marco-Voice在所有維度上都超越了現(xiàn)有的主流系統(tǒng)。
特別值得注意的是說話人相似度這一指標(biāo),Marco-Voice獲得了0.8275的高分,明顯超過了對(duì)比系統(tǒng)的0.605-0.700分。這意味著聽眾很容易就能識(shí)別出合成語音確實(shí)來自目標(biāo)說話人,聲音克隆的效果非常逼真。
在情感表達(dá)能力的測(cè)試中,Marco-Voice同樣展現(xiàn)出了顯著優(yōu)勢(shì)。系統(tǒng)在情感表達(dá)的準(zhǔn)確性和自然度方面都獲得了最高評(píng)分,達(dá)到了4.225分(滿分5分)。這個(gè)分?jǐn)?shù)表明,合成的情感語音不僅能準(zhǔn)確傳達(dá)指定的情感,而且聽起來非常自然,不會(huì)讓人感覺機(jī)械或夸張。
研究團(tuán)隊(duì)還進(jìn)行了直接對(duì)比測(cè)試,讓聽眾在不知道哪個(gè)是Marco-Voice合成的情況下,從成對(duì)的語音樣本中選擇更好的那一個(gè)。結(jié)果顯示,Marco-Voice在60%-65%的對(duì)比中勝出,這在語音合成領(lǐng)域是一個(gè)相當(dāng)不錯(cuò)的成績(jī)。
更詳細(xì)的客觀指標(biāo)分析顯示,Marco-Voice在保持較低詞錯(cuò)率的同時(shí),在說話人相似度和感知質(zhì)量方面都表現(xiàn)出色。研究團(tuán)隊(duì)測(cè)試了系統(tǒng)的多個(gè)版本,發(fā)現(xiàn)隨著技術(shù)改進(jìn)的逐步加入,系統(tǒng)性能呈現(xiàn)出穩(wěn)步提升的趨勢(shì),最終的v4版本在大多數(shù)指標(biāo)上都達(dá)到了最優(yōu)水平。
五、跨語言表現(xiàn):Marco-Voice的語言適應(yīng)能力
Marco-Voice的另一個(gè)引人注目的特點(diǎn)是其出色的跨語言適應(yīng)能力。研究團(tuán)隊(duì)在英文和中文數(shù)據(jù)集上都進(jìn)行了詳細(xì)測(cè)試,結(jié)果顯示系統(tǒng)在兩種語言上都能保持穩(wěn)定的高質(zhì)量輸出。
在情感識(shí)別準(zhǔn)確率方面,Marco-Voice的最新版本在中文數(shù)據(jù)上達(dá)到了0.78的準(zhǔn)確率,在英文數(shù)據(jù)上達(dá)到了0.77的準(zhǔn)確率。這種跨語言的一致性表明,系統(tǒng)學(xué)到的不僅僅是特定語言的聲學(xué)特征,而是更深層次的情感表達(dá)規(guī)律。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同情感在兩種語言中的表現(xiàn)模式存在一些差異。中性和憤怒情感在兩種語言中都能達(dá)到85%以上的識(shí)別準(zhǔn)確率,表現(xiàn)最為穩(wěn)定。而驚訝和悲傷情感的識(shí)別相對(duì)困難一些,但Marco-Voice的高級(jí)版本仍然能夠在這些具有挑戰(zhàn)性的情感類別上達(dá)到73%以上的準(zhǔn)確率。
語言特定的表現(xiàn)模式也很有啟發(fā)性。在中文數(shù)據(jù)上,快樂和憤怒情感的識(shí)別效果更好,而在英文數(shù)據(jù)上,中性和悲傷情感的表現(xiàn)更出色。這種差異可能反映了不同文化背景下情感表達(dá)方式的微妙區(qū)別,Marco-Voice能夠捕捉并適應(yīng)這些差異,展現(xiàn)了其跨文化的適應(yīng)能力。
六、技術(shù)細(xì)節(jié)探秘:Marco-Voice是如何訓(xùn)練出來的
Marco-Voice的訓(xùn)練過程就像培養(yǎng)一個(gè)全能的語言表演藝術(shù)家,需要在多個(gè)方面同時(shí)提升能力。整個(gè)訓(xùn)練過程基于CosyVoice框架進(jìn)行改進(jìn),使用了8塊NVIDIA A100 GPU,訓(xùn)練時(shí)間約為數(shù)小時(shí)。
訓(xùn)練的核心挑戰(zhàn)在于如何平衡多個(gè)學(xué)習(xí)目標(biāo)。系統(tǒng)不僅要學(xué)會(huì)準(zhǔn)確的語音合成,還要掌握聲音克隆和情感表達(dá)兩項(xiàng)專門技能。研究團(tuán)隊(duì)設(shè)計(jì)的綜合損失函數(shù)就像一個(gè)經(jīng)驗(yàn)豐富的老師,同時(shí)關(guān)注學(xué)生在多個(gè)科目上的表現(xiàn)。
主要的文本到語音合成損失確保系統(tǒng)能夠生成清晰、自然的語音。正交性損失則專門負(fù)責(zé)維持聲音特征和情感特征之間的獨(dú)立性,防止兩者相互干擾。對(duì)比學(xué)習(xí)損失幫助系統(tǒng)更好地區(qū)分不同的情感表達(dá)。這三個(gè)損失函數(shù)的權(quán)重經(jīng)過精心調(diào)整,分別設(shè)置為主損失的0.1倍和0.5倍。
訓(xùn)練使用了Adam優(yōu)化器,對(duì)語言模型部分使用了1×10^-5的學(xué)習(xí)率,對(duì)流匹配部分使用了1×10^-4的學(xué)習(xí)率,并采用余弦衰減調(diào)度策略。批量大小設(shè)置為每個(gè)GPU處理32個(gè)樣本,確保了訓(xùn)練的穩(wěn)定性和效率。
研究團(tuán)隊(duì)還發(fā)現(xiàn),僅使用10個(gè)樣本進(jìn)行單次情感嵌入計(jì)算就足以產(chǎn)生高質(zhì)量的情感控制效果。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用非常重要,意味著用戶不需要提供大量的情感語音樣本就能獲得滿意的合成效果。
七、深入分析:影響Marco-Voice表現(xiàn)的關(guān)鍵因素
研究團(tuán)隊(duì)對(duì)影響Marco-Voice性能的各種因素進(jìn)行了深入分析,這些發(fā)現(xiàn)為未來的改進(jìn)提供了重要指導(dǎo)。
音頻長(zhǎng)度對(duì)情感識(shí)別效果的影響呈現(xiàn)出明顯的規(guī)律。短于1秒的語音片段識(shí)別準(zhǔn)確率普遍較低,通常不到60%。這很容易理解,因?yàn)樘痰恼Z音片段包含的情感信息有限。1到3秒的語音片段表現(xiàn)最為理想,準(zhǔn)確率通常在60%-80%之間,這個(gè)長(zhǎng)度既包含了足夠的情感信息,又不會(huì)引入過多的干擾因素。超過3秒的長(zhǎng)語音片段雖然準(zhǔn)確率最高,但提升幅度有限,這表明1-3秒是實(shí)際應(yīng)用中的最佳選擇。
性別差異的分析揭示了一個(gè)令人關(guān)注的現(xiàn)象:系統(tǒng)在女性說話人上的表現(xiàn)明顯優(yōu)于男性說話人。女性說話人的大多數(shù)情感類別都能達(dá)到40%以上的準(zhǔn)確率,而男性說話人往往低于20%,特別是在驚訝和悲傷情感上表現(xiàn)更差。這種性別偏差可能源于訓(xùn)練數(shù)據(jù)的不平衡或者男女情感表達(dá)方式的差異,提醒研究者在未來工作中需要更加注重性別平衡的數(shù)據(jù)收集和模型優(yōu)化。
跨語言性能對(duì)比顯示,雖然Marco-Voice在中英文兩種語言上都表現(xiàn)良好,但仍存在一些語言特定的模式。這種差異不僅體現(xiàn)在整體準(zhǔn)確率上,也體現(xiàn)在特定情感類別的表現(xiàn)差異上。這些發(fā)現(xiàn)為開發(fā)更加通用的多語言情感語音合成系統(tǒng)提供了寶貴的經(jīng)驗(yàn)。
八、Marco-Voice的實(shí)際應(yīng)用前景
Marco-Voice的技術(shù)突破為語音合成領(lǐng)域開辟了廣闊的應(yīng)用前景。在虛擬助手領(lǐng)域,這項(xiàng)技術(shù)能夠讓AI助手不僅擁有個(gè)性化的聲音,還能根據(jù)對(duì)話內(nèi)容和用戶情緒調(diào)整自己的情感表達(dá),提供更加自然和人性化的交互體驗(yàn)。
在內(nèi)容創(chuàng)作方面,Marco-Voice為有聲讀物、播客制作和視頻配音提供了革命性的工具。創(chuàng)作者可以使用特定聲優(yōu)的聲音特色,同時(shí)根據(jù)內(nèi)容需要調(diào)整情感表達(dá),大大降低了專業(yè)配音的成本和制作周期。這對(duì)于獨(dú)立創(chuàng)作者和小型制作團(tuán)隊(duì)來說特別有價(jià)值。
教育技術(shù)也是Marco-Voice的重要應(yīng)用領(lǐng)域。個(gè)性化的語音教學(xué)系統(tǒng)可以使用學(xué)生熟悉的聲音進(jìn)行教學(xué),同時(shí)根據(jù)教學(xué)內(nèi)容調(diào)整語調(diào)和情感,讓學(xué)習(xí)過程更加生動(dòng)有趣。特別是在語言學(xué)習(xí)中,學(xué)生可以聽到標(biāo)準(zhǔn)發(fā)音的同時(shí),感受到豐富的情感表達(dá),提高學(xué)習(xí)效果。
對(duì)于有語言障礙或失去聲音能力的人群,Marco-Voice技術(shù)可能提供個(gè)性化的語音重建服務(wù)。通過分析用戶的歷史錄音或家人的聲音特征,系統(tǒng)可以幫助他們重新獲得個(gè)性化的語音表達(dá)能力。
九、當(dāng)前限制與未來改進(jìn)方向
盡管Marco-Voice展現(xiàn)出了令人印象深刻的性能,但研究團(tuán)隊(duì)也坦率地指出了系統(tǒng)目前存在的一些限制。
首先是對(duì)配對(duì)情感語音數(shù)據(jù)的依賴。系統(tǒng)需要同一說話人的中性語音和情感語音樣本才能有效工作,這在實(shí)際應(yīng)用中可能限制了系統(tǒng)的使用范圍。許多潛在用戶可能無法提供完整的配對(duì)數(shù)據(jù),特別是對(duì)于歷史錄音或已故說話人的聲音重建需求。
計(jì)算效率是另一個(gè)需要關(guān)注的問題。雖然系統(tǒng)在質(zhì)量上表現(xiàn)出色,但在實(shí)時(shí)應(yīng)用場(chǎng)景中,特別是在資源受限的設(shè)備上,當(dāng)前的計(jì)算需求可能還是過高。這限制了技術(shù)在移動(dòng)設(shè)備和邊緣計(jì)算場(chǎng)景中的部署。
研究團(tuán)隊(duì)已經(jīng)為未來的改進(jìn)工作制定了明確的方向。他們正在探索半監(jiān)督和自監(jiān)督學(xué)習(xí)方法,以減少對(duì)配對(duì)數(shù)據(jù)的依賴。通過這些方法,系統(tǒng)有望僅使用少量標(biāo)注數(shù)據(jù)甚至無標(biāo)注數(shù)據(jù)就能實(shí)現(xiàn)高質(zhì)量的聲音克隆和情感合成。
在效率優(yōu)化方面,研究團(tuán)隊(duì)計(jì)劃采用模型壓縮技術(shù)和優(yōu)化的推理策略,使系統(tǒng)能夠在保持質(zhì)量的同時(shí)顯著降低計(jì)算需求。這將為Marco-Voice在更廣泛場(chǎng)景中的實(shí)際部署鋪平道路。
擴(kuò)大語言支持范圍也是重要的發(fā)展方向。研究團(tuán)隊(duì)希望將Marco-Voice的能力擴(kuò)展到更多語言,特別是資源較少的語言,為全球用戶提供更加包容的語音合成服務(wù)。
Marco-Voice代表了語音合成技術(shù)向更加自然、可控和個(gè)性化方向發(fā)展的重要里程碑。通過巧妙地解決聲音身份和情感表達(dá)的分離問題,這項(xiàng)技術(shù)不僅在技術(shù)上實(shí)現(xiàn)了突破,也為人機(jī)交互開啟了更加豐富和自然的可能性。隨著技術(shù)的不斷完善和優(yōu)化,我們有理由期待Marco-Voice在未來能夠?yàn)楦嘤脩魩砀映錾恼Z音體驗(yàn),讓機(jī)器的聲音變得更加人性化和富有表現(xiàn)力。
Q&A
Q1:Marco-Voice與傳統(tǒng)語音合成技術(shù)相比有什么突破性改進(jìn)?
A:Marco-Voice的核心突破在于能夠獨(dú)立控制聲音身份和情感表達(dá)。傳統(tǒng)語音合成系統(tǒng)往往將說話人的聲音特色和情感表達(dá)混在一起,無法單獨(dú)調(diào)節(jié)。Marco-Voice通過創(chuàng)新的"旋轉(zhuǎn)情感嵌入整合方法"和"交叉正交約束"機(jī)制,實(shí)現(xiàn)了聲音克隆和情感控制的完全分離,讓系統(tǒng)能夠像優(yōu)秀配音演員一樣,既保持特定人物的聲音特色,又能根據(jù)需要表達(dá)不同情感。
Q2:CSEMOTIONS數(shù)據(jù)集有什么特殊價(jià)值?
A:CSEMOTIONS是專門為中文情感語音合成構(gòu)建的高質(zhì)量數(shù)據(jù)集,包含10小時(shí)專業(yè)配音員錄制的七種情感類別語音。它解決了現(xiàn)有中文情感語音數(shù)據(jù)稀缺、質(zhì)量參差不齊的問題。數(shù)據(jù)集采用專業(yè)錄音棚錄制,確保音質(zhì)一致性,并且男女配音員數(shù)量平衡,為中文語音合成研究提供了寶貴的標(biāo)準(zhǔn)化訓(xùn)練和評(píng)估資源。
Q3:Marco-Voice在實(shí)際應(yīng)用中有什么限制?
A:目前Marco-Voice主要有兩個(gè)限制:一是需要同一說話人的中性和情感語音配對(duì)數(shù)據(jù)才能有效工作,這在實(shí)際應(yīng)用中可能難以獲取;二是計(jì)算資源需求較高,在移動(dòng)設(shè)備等資源受限環(huán)境中的實(shí)時(shí)應(yīng)用還面臨挑戰(zhàn)。不過研究團(tuán)隊(duì)正在開發(fā)半監(jiān)督學(xué)習(xí)方法和模型壓縮技術(shù)來解決這些問題。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。