想要讓AI在和你說話時聽起來更像人類嗎?復旦大學的研究團隊和阿里巴巴集團在2025年9月聯(lián)手發(fā)布了一項令人矚目的研究成果——VStyle語音風格適應評測基準。這項研究由復旦大學的詹俊、謝宇軒、張冬、黃可心等研究者與阿里巴巴的韓明陽、王晨、石浩翔等工程師共同完成,發(fā)表在arXiv預印本平臺,論文編號為arXiv:2509.09716v1。有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上訪問完整論文。
近年來,語音AI技術(shù)發(fā)展迅猛,從Siri到ChatGPT的語音版本,這些系統(tǒng)已經(jīng)能夠準確理解和回應我們的問題。但是,你有沒有發(fā)現(xiàn)一個問題:這些AI說話時總是用同一種語調(diào),缺乏人類說話時那種豐富的情感表達和風格變化?當你心情低落時希望AI溫柔地安慰你,當你需要激勵時希望AI說話更有力量,但現(xiàn)在的AI往往做不到這一點。
這就是研究團隊要解決的核心問題。他們發(fā)現(xiàn),目前的語音AI研究主要專注于"說什么"(內(nèi)容準確性),而很少關(guān)注"怎么說"(表達風格)。就好比一個演員雖然能記住臺詞,但無法根據(jù)不同角色和情境調(diào)整自己的說話方式。研究團隊認為,真正自然的人機對話不僅需要準確的內(nèi)容,更需要恰當?shù)谋磉_風格。
為了填補這個空白,研究團隊創(chuàng)造性地提出了"語音風格適應"(Voice Style Adaptation,簡稱VSA)這一全新任務。這個任務要求AI不僅要理解用戶說的內(nèi)容,還要根據(jù)用戶的口頭指令調(diào)整自己的說話風格,比如音色、語調(diào)、情感或說話者身份。這就像要求一個演員不僅要演好劇本,還要能夠根據(jù)導演的即時指導隨時調(diào)整表演風格。
一、四大類型的語音風格控制,涵蓋現(xiàn)實交互的方方面面
研究團隊構(gòu)建的VStyle評測基準就像一個綜合性的"語音表演考試",包含了四個不同難度和類型的測試類別,每個類別都模擬了現(xiàn)實生活中可能遇到的語音交互場景。
第一類是聲學屬性控制,這是最基礎(chǔ)也是最直接的測試。就像調(diào)節(jié)收音機的各種旋鈕一樣,用戶可以明確指定AI說話時的各種聲音特征。比如,用戶可以說"請用一個年輕女性的聲音說這句話"或"請說得更快一些,聲音更響亮"。這類測試包括了年齡、性別、語速、音調(diào)、音量和情感等六個基本聲學維度。每個維度都有明確的標準,就像烹飪食譜中精確的調(diào)料分量一樣,能夠直接評估AI對聲音細節(jié)的控制能力。
第二類是自然語言指令控制,這就像給AI一個更加靈活和開放的表演指導。用戶不再需要使用技術(shù)術(shù)語,而是可以用日常語言描述想要的說話風格。比如,用戶可以說"請用溫柔關(guān)懷的語氣說話"或"請模仿播音員的專業(yè)風格"。這類測試又分為三個子類型:情感表達,允許用戶用任何詞語描述想要的情感狀態(tài);風格指定,讓用戶能夠自由描述全局的說話風格;以及最有挑戰(zhàn)性的變化控制,要求AI在同一句話中實現(xiàn)情感或風格的動態(tài)變化,就像音樂中的強弱變化一樣。
第三類是角色扮演控制,這可以說是對AI"演技"的終極考驗。就像要求演員快速進入角色一樣,AI需要根據(jù)特定的場景或角色描述來調(diào)整自己的說話方式。這類測試包括兩種情況:場景角色扮演,比如"請以客服代表的身份回答這個問題";以及人物角色扮演,比如"請模仿一位慈祥老人的說話方式"。成功完成這類任務需要AI不僅理解角色特征,還要能夠在語音中準確表現(xiàn)出相應的音色、情感和說話風格。
第四類是隱性共情控制,這是最接近真實人際交往的測試類型。在這類測試中,用戶不會明確告訴AI要用什么風格說話,而是表達自己的情緒狀態(tài),期望AI能夠像朋友一樣察言觀色,給出恰當?shù)那楦谢貞?。比如,當用戶說"我今天特別沮喪,工作出了大問題"時,AI需要自動識別用戶的情緒狀態(tài),并用溫暖、理解和鼓勵的語調(diào)回應。研究團隊選擇了四種典型的情感場景:憤怒、焦慮恐懼、悲傷失望,以及喜悅興奮,每種情感都需要AI給出不同的共情回應。
整個VStyle評測基準包含了1523個精心設(shè)計的雙語(中文和英文)語音指令,涵蓋了從簡單的聲音調(diào)節(jié)到復雜的情感交互的各種現(xiàn)實場景。這就像為AI準備了一套完整的"語音表演教程",從基礎(chǔ)練習到高難度表演應有盡有。
二、革命性的AI評判系統(tǒng),讓語音質(zhì)量評估更加客觀
評估語音質(zhì)量一直是一個棘手的問題,就像評價一幅畫的美丑一樣主觀。傳統(tǒng)的評估方法要么過于機械(只看發(fā)音準確性),要么成本高昂(需要大量人工評估)。研究團隊創(chuàng)造性地提出了"大型音頻語言模型作為評判者"(LALM-as-a-Judge)的評估框架,這就像雇傭了一個既專業(yè)又客觀的"AI評委"來判斷語音表現(xiàn)。
這套評估系統(tǒng)的工作原理就像一個經(jīng)驗豐富的語音教師的評分過程。當收到一個AI生成的語音回應時,評估系統(tǒng)會按照三個層次進行逐步評判,每個層次都有明確的標準和要求。
第一層是內(nèi)容準確性檢查,這就像檢查學生是否回答了正確的問題。如果AI生成的語音內(nèi)容完全偏離了用戶的指令要求,那么無論聲音多么動聽,都會被直接打1分(最低分)。這確保了AI首先要理解并正確執(zhí)行基本的內(nèi)容要求。
第二層是風格契合度評估,這是整個評估的核心環(huán)節(jié)。如果內(nèi)容通過了第一層檢查,評估系統(tǒng)就會仔細分析AI的說話風格是否符合用戶的要求。如果完全不符合風格要求,比如用戶要求溫柔說話但AI用了嚴厲的語調(diào),那么會被評為2分。如果部分符合但還不夠完美,比如情感表達有些到位但還不夠自然,則會得到3分。只有當風格要求得到很好滿足時,才能進入下一層評估。
第三層是自然度評價,這是對AI語音表現(xiàn)的最高要求。即使內(nèi)容正確、風格適當,如果說話聽起來僵硬、不自然,像機器人一樣,那么會得到4分。只有當語音聽起來既符合要求又自然流暢,像真人說話一樣,才能獲得5分的最高評價。
這種分層評估方法的優(yōu)勢在于它反映了人類對語音交互的真實期待:首先要說對內(nèi)容,然后要用對風格,最后還要聽起來自然。就像評價一個演員的表演一樣,臺詞、情感表達和自然度缺一不可。
研究團隊選擇了當前最強大的音頻理解模型Gemini-2.5-pro作為評估工具,就像選擇了最有經(jīng)驗的評委來打分。這個系統(tǒng)能夠同時理解語音的內(nèi)容和風格特征,并給出相對客觀和一致的評分。
三、商業(yè)巨頭與開源系統(tǒng)的較量,揭示技術(shù)發(fā)展現(xiàn)狀
為了全面了解當前語音AI技術(shù)的真實水平,研究團隊選擇了市面上最具代表性的七款系統(tǒng)進行測試,就像組織了一場語音AI的"奧運會"。參賽選手包括三款商業(yè)系統(tǒng):OpenAI的GPT-4o Audio、GPT-4o-Mini Audio和字節(jié)跳動的豆包,以及四款開源系統(tǒng):Step-Audio、Kimi-Audio、百川-Audio和Qwen-2.5 Omni。
測試結(jié)果讓人既有些意外,又在情理之中。商業(yè)系統(tǒng)確實展現(xiàn)出了明顯的技術(shù)優(yōu)勢,就像專業(yè)運動員和業(yè)余選手的差距一樣顯著。在英文任務中,GPT-4o取得了4.05分的最佳成績,而在中文任務中,豆包以4.10分領(lǐng)跑。相比之下,開源系統(tǒng)的表現(xiàn)普遍在2到3分之間徘徊,其中Kimi-Audio在中文任務中表現(xiàn)最好(3.11分),Step-Audio在英文任務中相對領(lǐng)先(2.77分)。
這種差距背后有著深層的技術(shù)和資源原因。從技術(shù)角度看,商業(yè)系統(tǒng)在語音生成的穩(wěn)定性和表現(xiàn)力方面明顯更勝一籌。大多數(shù)開源系統(tǒng)更關(guān)注"說對話"而不是"說好話",它們主要依賴語義層面的表示,對聲音的細節(jié)特征建模不夠充分。這就像很多人能夠背誦詩詞,但無法用富有感情的語調(diào)朗誦一樣。
不過,也有例外情況值得注意。百川-Audio采用了統(tǒng)一編碼的技術(shù)路線,能夠更好地捕捉聲音特征,在年齡控制任務中表現(xiàn)出色,并且具備了一定的音色控制能力。這說明技術(shù)路徑的選擇對最終效果有著重要影響。
從資源角度看,商業(yè)公司擁有更大規(guī)模的訓練數(shù)據(jù)和更強的計算資源,這讓它們能夠訓練出更穩(wěn)定、更全面的模型。開源系統(tǒng)往往在指令跟隨能力上存在不足,經(jīng)常出現(xiàn)理解偏差導致的低分,從而拉低了整體表現(xiàn)。
不同任務類型的表現(xiàn)差異也很有啟發(fā)性。在聲學屬性控制方面,需要同時控制多個聲音特征的復合任務明顯比單一特征控制更困難。在自然語言指令控制方面,GPT-4o在各種子任務中都表現(xiàn)出色,特別是在最困難的風格變化任務上仍能保持高水準。其他模型在風格變化方面的表現(xiàn)明顯遜色,說明這確實是一個技術(shù)難點。
在角色扮演任務中,GPT-4o在場景和人物角色方面都很出色,而豆包在中文場景任務中表現(xiàn)突出,體現(xiàn)了本土化優(yōu)勢。在隱性共情任務中,多個模型都能較好地處理情感交互,無論是積極還是消極情緒都能給出恰當回應,這說明情感理解和表達已經(jīng)達到了一定的成熟度。
語言偏好也是一個有趣的發(fā)現(xiàn)。豆包、Kimi-Audio和Qwen-2.5 Omni在中文任務中的表現(xiàn)明顯好于英文,而GPT-4o系列則相反。這可能反映了訓練數(shù)據(jù)的語言分布差異,也可能說明語音生成中的跨語言遷移比文本生成更加困難,畢竟不同語言的發(fā)音規(guī)律和表達習慣存在顯著差異。
四、AI評判與人類評估的一致性驗證
為了驗證AI評判系統(tǒng)的可靠性,研究團隊進行了一次嚴格的"人機對比實驗"。他們隨機選擇了約一半的測試樣本進行人工評估,就像對AI評委的判斷進行"人工復核"一樣。
這次人工評估的設(shè)計非常嚴謹。所有參與評估的專家都需要先完成試驗任務并通過資格測試,確保他們理解評估標準和流程。每個音頻樣本都由五位專家獨立評分,就像奧運會比賽中的多位裁判打分一樣,以確保結(jié)果的公正性和準確性。更重要的是,人工評估采用了與AI評判完全相同的評估標準和指導原則,確保比較的公平性。
實驗結(jié)果令人振奮。通過斯皮爾曼等級相關(guān)系數(shù)的計算,研究團隊發(fā)現(xiàn)AI評判系統(tǒng)與人類專家的一致性相當高。在英文任務中,AI評分與人類共識評分的相關(guān)性達到了77.01%,而在中文任務中也達到了73.03%。作為對比,人類專家之間的一致性在英文中為78.58%,中文中為70.54%。
這些數(shù)據(jù)說明了什么?AI評判系統(tǒng)的表現(xiàn)已經(jīng)接近了人類專家之間的一致性水平。換句話說,AI評委和人類評委的判斷標準已經(jīng)高度吻合,AI評判系統(tǒng)可以作為人工評估的可靠替代方案。這就像發(fā)現(xiàn)了一個既不會疲勞、也不會帶有個人偏見的專業(yè)評委,能夠提供一致、客觀的評分。
這種一致性的實現(xiàn)對整個研究領(lǐng)域具有重要意義。傳統(tǒng)的人工評估不僅成本高昂、耗時長久,而且容易受到評估者個人喜好和狀態(tài)的影響?,F(xiàn)在有了可靠的自動評估系統(tǒng),研究人員可以更高效地測試和改進語音AI系統(tǒng),加速技術(shù)發(fā)展的步伐。
五、技術(shù)局限與未來展望
當然,這項開創(chuàng)性研究也并非完美無缺。研究團隊坦誠地指出了當前工作的幾個局限性。
首先是數(shù)據(jù)構(gòu)建方面的局限。VStyle數(shù)據(jù)集雖然涵蓋面廣,但它的構(gòu)建過程依賴于人工設(shè)計和大語言模型擴展,這意味著數(shù)據(jù)分布可能反映了研究者的偏好和模型的生成模式,而不一定完全代表真實用戶的需求和使用習慣。就像根據(jù)廚師的經(jīng)驗設(shè)計菜譜,可能無法涵蓋所有食客的口味偏好一樣。
其次是評估方法的局限。盡管大型音頻語言模型在評估中表現(xiàn)出色,但它們?nèi)匀豢赡艹霈F(xiàn)"幻覺"現(xiàn)象,也就是給出看似合理但實際錯誤的判斷。為了應對這個問題,研究團隊采用了分步提示和明確指導原則的方法來提高評估的一致性和可靠性,但這個問題并未完全解決。
不過,研究團隊對技術(shù)發(fā)展保持樂觀態(tài)度。隨著AI推理能力和聽覺感知能力的不斷提升,評估系統(tǒng)的準確性和可靠性必將進一步改善。未來的評估系統(tǒng)可能會更加智能,能夠理解更加復雜和微妙的語音表達差異。
展望未來,這項研究為語音AI技術(shù)的發(fā)展指明了新的方向。VStyle不僅僅是一個評測基準,更是一個技術(shù)發(fā)展的催化劑。它的雙語設(shè)計和多類別覆蓋反映了現(xiàn)實交互需求的復雜性,從基礎(chǔ)的聲學控制到高級的情感共情,形成了一個完整的技術(shù)發(fā)展路徑圖。
研究團隊希望VStyle能夠發(fā)揮雙重作用:既作為診斷工具幫助發(fā)現(xiàn)現(xiàn)有模型的不足,又作為推動力促進更自然、更可控、更人性化的語音生成系統(tǒng)的發(fā)展。隨著越來越多的研究者使用這個基準來測試和改進他們的系統(tǒng),語音AI技術(shù)有望在表達能力方面實現(xiàn)質(zhì)的飛躍。
說到底,這項研究解決的是一個根本性問題:如何讓AI不僅能夠正確地與人類對話,還能夠以恰當和自然的方式進行表達。這對于構(gòu)建真正智能的語音助手、情感陪伴機器人,以及各種需要語音交互的AI應用都具有重要意義。當AI能夠根據(jù)不同的情境和用戶需求調(diào)整自己的說話風格時,人機交互將變得更加自然和富有人情味。
歸根結(jié)底,VStyle代表了語音AI技術(shù)發(fā)展的一個重要里程碑。它不僅揭示了當前技術(shù)的真實水平和存在差距,更為未來的研究方向提供了清晰的指引。隨著技術(shù)的不斷進步,我們有理由期待在不久的將來,AI將能夠像人類一樣靈活自如地運用各種說話風格,真正實現(xiàn)富有表現(xiàn)力的語音交互。對于想要深入了解這項研究細節(jié)的讀者,可以通過arXiv:2509.09716v1在相關(guān)學術(shù)平臺查閱完整的研究論文。
Q&A
Q1:VStyle語音風格適應評測基準包含哪些測試類型?
A:VStyle包含四大類測試:聲學屬性控制(如調(diào)節(jié)年齡、性別、語速等),自然語言指令控制(用日常語言描述想要的說話風格),角色扮演控制(模仿特定場景或人物說話),以及隱性共情控制(AI需要自動識別用戶情緒并給出恰當回應)。整個基準包含1523個中英文雙語指令。
Q2:目前商業(yè)語音AI和開源系統(tǒng)在風格控制方面差距有多大?
A:差距相當顯著。商業(yè)系統(tǒng)如GPT-4o和豆包的評分在4分左右(滿分5分),而開源系統(tǒng)普遍在2-3分之間。商業(yè)系統(tǒng)在語音表達的穩(wěn)定性和風格控制能力方面明顯更強,這主要源于它們擁有更大規(guī)模的訓練數(shù)據(jù)和更強的計算資源。
Q3:LALM-as-a-Judge評估系統(tǒng)是如何工作的?
A:這套AI評判系統(tǒng)像經(jīng)驗豐富的語音教師一樣,分三層評估:首先檢查內(nèi)容準確性,如果不符合就打1分;然后評估風格契合度,完全不符合打2分,部分符合打3分;最后評價自然度,不自然打4分,自然流暢打5分。這個系統(tǒng)與人類專家評估的一致性達到73-77%,接近人類專家之間的一致性水平。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。