在2025年6月發(fā)布于arXiv的一項(xiàng)最新研究《音頻感知大型語(yǔ)言模型作為說(shuō)話風(fēng)格的評(píng)判者》(Audio-Aware Large Language Models as Judges for Speaking Styles)中,來(lái)自臺(tái)灣大學(xué)的鐘成漢(Cheng-Han Chiang)和李鴻毅(Hung-yi Lee)與微軟的王曉飛(Xiaofei Wang)、林忠慶(Chung-Ching Lin)、林凱文(Kevin Lin)、李林杰(Linjie Li)、拉杜·科佩茨(Radu Kopetz)、錢(qián)姚(Yao Qian)、王振東(Zhendong Wang)、楊正元(Zhengyuan Yang)和王麗娟(Lijuan Wang)共同探索了一個(gè)引人注目的問(wèn)題:能否讓具有音頻理解能力的大語(yǔ)言模型(ALLMs)來(lái)評(píng)估語(yǔ)音的說(shuō)話風(fēng)格?
想象一下,你正在使用一個(gè)語(yǔ)音助手,比如蘋(píng)果的Siri或者亞馬遜的Alexa。你可能希望它不僅能理解你說(shuō)的內(nèi)容,還能以適當(dāng)?shù)那楦泻驼Z(yǔ)調(diào)回應(yīng)你。例如,當(dāng)你興奮地分享好消息時(shí),你希望它也能用歡快的語(yǔ)調(diào)回應(yīng),而不是像朗讀天氣預(yù)報(bào)一樣平淡無(wú)奇。但如何評(píng)判這些語(yǔ)音助手的說(shuō)話風(fēng)格是否自然、是否符合情境呢?這正是這項(xiàng)研究要解決的問(wèn)題。
研究團(tuán)隊(duì)使用了兩種具有音頻感知能力的大語(yǔ)言模型——GPT-4o-audio和Gemini-2.5-pro——來(lái)評(píng)估語(yǔ)音生成模型(SLMs)的說(shuō)話風(fēng)格。就像美食評(píng)論家會(huì)品評(píng)一道菜肴的口感、香氣和擺盤(pán)一樣,這些"音頻評(píng)判員"會(huì)評(píng)估語(yǔ)音中的情感、音量、語(yǔ)速、重音、音調(diào)和非語(yǔ)言元素(如笑聲、停頓)是否恰當(dāng)。
這項(xiàng)研究構(gòu)建了兩個(gè)任務(wù)來(lái)測(cè)試:一是"語(yǔ)音風(fēng)格指令跟隨"(voice style instruction following),二是"角色扮演"(role-playing)。在第一個(gè)任務(wù)中,研究人員要求語(yǔ)音模型按照特定的說(shuō)話風(fēng)格指令來(lái)朗讀一句話,比如"用顫抖的聲音說(shuō)這句話"或"在說(shuō)到某個(gè)詞時(shí)加重語(yǔ)氣"。在第二個(gè)任務(wù)中,則要求語(yǔ)音模型扮演特定角色進(jìn)行對(duì)話,例如扮演一位剛剛訂婚的人和她的朋友之間的對(duì)話。
研究團(tuán)隊(duì)評(píng)估了四個(gè)語(yǔ)音生成模型的表現(xiàn):GPT-4o-audio、GPT-4o-mini-audio、Step-Audio和Qwen-2.5-Omni。他們發(fā)現(xiàn),Gemini-2.5-pro作為評(píng)判員時(shí),其評(píng)分與人類(lèi)評(píng)判者的一致性甚至高于人類(lèi)評(píng)判者之間的一致性。這就像兩位專(zhuān)業(yè)音樂(lè)評(píng)論家對(duì)一首歌的評(píng)價(jià)比兩位普通聽(tīng)眾之間的評(píng)價(jià)更加一致。
這項(xiàng)研究的結(jié)果令人振奮,它表明音頻感知大語(yǔ)言模型可以作為自動(dòng)評(píng)判員來(lái)評(píng)估語(yǔ)音生成模型的說(shuō)話風(fēng)格,這可能會(huì)大大加速語(yǔ)音技術(shù)的發(fā)展。同時(shí),研究也發(fā)現(xiàn),即使是像GPT-4o-audio這樣先進(jìn)的語(yǔ)音模型,在控制說(shuō)話風(fēng)格和生成自然對(duì)話方面仍有很大的改進(jìn)空間。
一、研究背景與動(dòng)機(jī):為何我們需要語(yǔ)音風(fēng)格的自動(dòng)評(píng)判員?
語(yǔ)音交互技術(shù)正在迅速發(fā)展。自從OpenAI在2024年推出GPT-4o語(yǔ)音模式以來(lái),許多研究團(tuán)隊(duì)都在努力開(kāi)發(fā)能夠理解語(yǔ)音輸入并生成流暢語(yǔ)音輸出的系統(tǒng)。這類(lèi)研究主要分為兩種:一種是音頻感知大語(yǔ)言模型(ALLMs),它們能夠接收文本和音頻作為輸入,然后生成文本;另一種是口語(yǔ)語(yǔ)言模型(SLMs),它們能接收音頻和文本作為輸入,然后生成語(yǔ)音輸出。
當(dāng)我們?cè)u(píng)估這些語(yǔ)音生成模型時(shí),評(píng)價(jià)文本內(nèi)容相對(duì)簡(jiǎn)單——我們可以先將語(yǔ)音轉(zhuǎn)錄為文本,然后使用各種文本評(píng)估指標(biāo)來(lái)評(píng)價(jià)。例如,對(duì)于問(wèn)答任務(wù),我們可以檢查答案的準(zhǔn)確性;或者使用"大語(yǔ)言模型作為評(píng)判員"(LLM-as-a-judge)的方法進(jìn)行無(wú)參考評(píng)估。
但評(píng)估語(yǔ)音的非語(yǔ)言方面,比如情感、韻律和重音,就困難得多。傳統(tǒng)上,這通常需要人工評(píng)估,如同品酒師需要親自品嘗葡萄酒一樣。人工評(píng)估不僅成本高,還往往存在較大的評(píng)分差異,就像不同人對(duì)同一部電影的評(píng)價(jià)可能大相徑庭。
這項(xiàng)研究的核心問(wèn)題是:能否讓那些已經(jīng)具備音頻理解能力的大語(yǔ)言模型來(lái)?yè)?dān)任這個(gè)"語(yǔ)音風(fēng)格評(píng)判員"的角色?如果可行,這將極大地簡(jiǎn)化評(píng)估過(guò)程,就像有了一個(gè)永不疲倦、標(biāo)準(zhǔn)一致的專(zhuān)業(yè)評(píng)委一樣。
二、研究方法:如何設(shè)計(jì)語(yǔ)音風(fēng)格評(píng)估任務(wù)?
為了探究音頻感知大語(yǔ)言模型是否能勝任說(shuō)話風(fēng)格的評(píng)判工作,研究團(tuán)隊(duì)精心設(shè)計(jì)了兩個(gè)任務(wù),這兩個(gè)任務(wù)都要求語(yǔ)音模型生成具有適當(dāng)說(shuō)話風(fēng)格的語(yǔ)音,然后用人類(lèi)和音頻感知大語(yǔ)言模型來(lái)評(píng)估這些語(yǔ)音。
第一個(gè)任務(wù)是"語(yǔ)音風(fēng)格指令跟隨"。想象一下,你在指導(dǎo)一位演員如何朗讀一段臺(tái)詞:"請(qǐng)用顫抖的聲音,表達(dá)出害怕的情緒來(lái)說(shuō)這句話。"在這個(gè)任務(wù)中,研究者給語(yǔ)音模型一個(gè)句子和詳細(xì)的說(shuō)話風(fēng)格指令,然后評(píng)估模型是否能準(zhǔn)確按照指令生成語(yǔ)音。
研究團(tuán)隊(duì)構(gòu)建了20個(gè)多樣化的案例,每個(gè)案例都包含一個(gè)需要說(shuō)出的句子和特定的說(shuō)話風(fēng)格。與以往的語(yǔ)音風(fēng)格轉(zhuǎn)換或指令跟隨文本轉(zhuǎn)語(yǔ)音研究不同,這項(xiàng)研究的風(fēng)格指令涵蓋了不同的粒度和說(shuō)話風(fēng)格的廣泛方面。有些指令要求在一個(gè)句子內(nèi)改變音量、語(yǔ)速或音調(diào);有些要求強(qiáng)調(diào)特定的詞;有些要求以特定的情緒說(shuō)話;有些甚至要求在說(shuō)話時(shí)加入啜泣、結(jié)巴或非語(yǔ)言元素(如笑聲、嘆息或停頓)。
評(píng)估采用5分李克特量表。1分表示語(yǔ)音沒(méi)有按照給定的文本生成;2到5分表示語(yǔ)音遵循了文本,但在風(fēng)格方面的表現(xiàn)從"完全不符合要求"到"完全符合要求"不等。評(píng)估者(無(wú)論是人類(lèi)還是AI)會(huì)收到應(yīng)該說(shuō)的文本、期望的說(shuō)話風(fēng)格和生成的語(yǔ)音,然后根據(jù)評(píng)分標(biāo)準(zhǔn)給出評(píng)分。
第二個(gè)任務(wù)是"角色扮演"。這個(gè)任務(wù)同樣旨在評(píng)估語(yǔ)音模型是否能生成具有適當(dāng)說(shuō)話風(fēng)格的語(yǔ)音,但方式更加自然和開(kāi)放。在這個(gè)任務(wù)中,研究者只給語(yǔ)音模型一個(gè)角色扮演的背景和對(duì)話的第一句話,然后期望模型生成符合角色的對(duì)話,并使用適當(dāng)?shù)恼f(shuō)話風(fēng)格。
研究團(tuán)隊(duì)從IEMOCAP數(shù)據(jù)集創(chuàng)建了20個(gè)對(duì)話情境。有趣的是,他們讓同一個(gè)語(yǔ)音模型扮演對(duì)話中的兩個(gè)角色,就像一個(gè)演員在一人獨(dú)角戲中扮演多個(gè)角色一樣。模型需要在兩個(gè)角色之間切換說(shuō)話,形成一個(gè)多回合的對(duì)話。然后,研究者將兩個(gè)角色生成的語(yǔ)音連接起來(lái),形成一個(gè)對(duì)話,并截取一分鐘的音頻進(jìn)行評(píng)估。
對(duì)角色扮演任務(wù)的評(píng)估基于兩個(gè)方面:風(fēng)格和真實(shí)感。風(fēng)格評(píng)估使用5分量表,1分表示模型未能完成角色扮演任務(wù),2到5分表示模型能夠保持角色一致性且內(nèi)容適當(dāng),但說(shuō)話風(fēng)格從"差"到"非常自然"不等。真實(shí)感評(píng)估則使用二元判斷,0表示對(duì)話不太可能是人類(lèi)生成的,1表示對(duì)話可能是人類(lèi)生成的。
三、研究設(shè)置:誰(shuí)是參賽選手,誰(shuí)是評(píng)判員?
在這場(chǎng)語(yǔ)音風(fēng)格的"選秀比賽"中,四位"選手"(語(yǔ)音生成模型)需要完成上述兩個(gè)任務(wù),而評(píng)判則由兩位AI評(píng)委和人類(lèi)評(píng)委組成。
四位參賽的語(yǔ)音生成模型包括: - GPT-4o-audio(簡(jiǎn)稱(chēng)4o-audio):OpenAI開(kāi)發(fā)的先進(jìn)語(yǔ)音模型 - GPT-4o-mini-audio(簡(jiǎn)稱(chēng)4o-mini-audio):OpenAI開(kāi)發(fā)的較小版本語(yǔ)音模型 - Step-Audio:一個(gè)開(kāi)源語(yǔ)音模型 - Qwen-2.5-Omni:另一個(gè)開(kāi)源語(yǔ)音模型
研究者選擇這些模型的原因是它們都是公開(kāi)可用的,且支持多回合對(duì)話。這就像選擇市面上常見(jiàn)的、消費(fèi)者可以使用的產(chǎn)品進(jìn)行測(cè)試一樣。
擔(dān)任評(píng)判的兩個(gè)音頻感知大語(yǔ)言模型是: - GPT-4o-audio(是的,它既是參賽者也是評(píng)判員,這有點(diǎn)像運(yùn)動(dòng)員兼任裁判) - Gemini-2.5-pro:谷歌開(kāi)發(fā)的先進(jìn)AI模型
為了驗(yàn)證這些AI評(píng)判員的可靠性,研究團(tuán)隊(duì)還招募了人類(lèi)評(píng)估者進(jìn)行同樣的評(píng)估任務(wù)。他們盡可能保持給人類(lèi)評(píng)估者和AI評(píng)判員的指令相似,就像在一場(chǎng)比賽中確保所有裁判使用相同的評(píng)分標(biāo)準(zhǔn)一樣。
在模型生成評(píng)估結(jié)果時(shí),研究者允許AI評(píng)判員使用"思維鏈"(chain-of-thought)推理,這就像讓評(píng)委在給出最終分?jǐn)?shù)前先寫(xiě)下自己的思考過(guò)程。對(duì)于每個(gè)評(píng)估實(shí)例,研究者會(huì)采樣五個(gè)評(píng)判結(jié)果并合并判斷,這就像在體操比賽中去掉最高分和最低分,取平均值一樣,可以減少偶然因素的影響。
四、研究發(fā)現(xiàn):AI評(píng)判員與人類(lèi)評(píng)判有多一致?
在語(yǔ)音風(fēng)格指令跟隨任務(wù)中,人類(lèi)評(píng)判者給予GPT-4o-audio最高評(píng)分(平均3.65分),而其他三個(gè)模型得分相對(duì)較低且彼此接近。這表明GPT-4o-audio能夠跟隨一些或大部分風(fēng)格指令,但仍然遠(yuǎn)非完美。通過(guò)分析模型表現(xiàn)不佳的例子,研究者發(fā)現(xiàn)所有模型都無(wú)法在一個(gè)句子內(nèi)改變說(shuō)話速度。他們還發(fā)現(xiàn)Qwen-2.5-Omni和Step-Audio有時(shí)無(wú)法插入非語(yǔ)言元素,如笑聲或嘆息,而是直接讀出"嘆息"這個(gè)詞。
有趣的是,AI評(píng)判員也給GPT-4o-audio打出了最高分。雖然使用GPT-4o-audio評(píng)判自己可能存在自我提升偏差,但人類(lèi)評(píng)估和Gemini-2.5-pro的結(jié)果都支持這一判斷。對(duì)于剩下三個(gè)模型的排名,AI評(píng)判員和人類(lèi)評(píng)判員之間存在一些不一致,但這并不奇怪,因?yàn)檫@三個(gè)模型在人類(lèi)評(píng)估中的平均分非常接近。這表明雖然AI評(píng)判員能夠區(qū)分好的語(yǔ)音模型和不好的語(yǔ)音模型,但可能難以比較幾個(gè)同樣表現(xiàn)不佳的模型。
研究者還計(jì)算了不同評(píng)判者之間評(píng)分的皮爾遜相關(guān)系數(shù)。人類(lèi)評(píng)判者之間的平均相關(guān)系數(shù)為0.596,這相當(dāng)高,證明了人類(lèi)評(píng)估的質(zhì)量。Gemini與人類(lèi)評(píng)判者的平均相關(guān)系數(shù)達(dá)到0.640,甚至高于人類(lèi)評(píng)判者之間的相關(guān)性。而GPT-4o評(píng)判員與人類(lèi)評(píng)判者的相關(guān)性則明顯較低,僅為0.355。這驗(yàn)證了在這個(gè)任務(wù)上使用Gemini作為評(píng)判員可以獲得接近人類(lèi)評(píng)估的結(jié)果。
在角色扮演任務(wù)中,人類(lèi)評(píng)判者給予IEMOCAP中人類(lèi)錄制的對(duì)話平均4.03分,明顯高于所有語(yǔ)音模型。人類(lèi)錄制的對(duì)話和GPT-4o生成的角色扮演在5分制的風(fēng)格方面只相差0.64分,這看起來(lái)差距不大。但在真實(shí)感評(píng)分上,人類(lèi)錄制的對(duì)話得分幾乎是GPT-4o的兩倍。這表明當(dāng)前的語(yǔ)音模型仍然不足以生成真實(shí)的對(duì)話。
Gemini評(píng)判員在很大程度上與人類(lèi)評(píng)判者一致。它也將人類(lèi)錄制的對(duì)話評(píng)為風(fēng)格最佳且最真實(shí),而GPT-4o-audio是表現(xiàn)最好的語(yǔ)音模型但仍落后于人類(lèi)。GPT-4o和GPT-4o-mini之間的差距不是很明顯,這與人類(lèi)評(píng)估結(jié)果一致。Qwen-2.5-Omni和Step-Audio的表現(xiàn)不如兩個(gè)GPT-4o系列模型;它們的表現(xiàn)相似,難以確定哪一個(gè)更好,這也與人類(lèi)評(píng)估結(jié)果一致。
在角色扮演任務(wù)中,人類(lèi)評(píng)判者之間的平均皮爾遜相關(guān)系數(shù)只有0.253,這表明評(píng)估對(duì)話的風(fēng)格可能有些主觀,但人類(lèi)評(píng)估者之間仍存在一定的弱一致性。人類(lèi)-GPT-4o相關(guān)性和人類(lèi)-Gemini相關(guān)性都高于0.30,超過(guò)了人類(lèi)-人類(lèi)相關(guān)性。這表明使用AI評(píng)判員評(píng)估角色扮演至少與使用人類(lèi)評(píng)估者一樣好。
五、研究意義與啟示:我們能從中學(xué)到什么?
這項(xiàng)研究首次嘗試使用音頻感知大語(yǔ)言模型來(lái)評(píng)判語(yǔ)音生成模型的說(shuō)話風(fēng)格,就像邀請(qǐng)一個(gè)精通音樂(lè)的AI來(lái)評(píng)判歌唱比賽一樣。研究結(jié)果表明,特別是Gemini-2.5-pro,確實(shí)可以作為自動(dòng)評(píng)判員來(lái)評(píng)估語(yǔ)音風(fēng)格,其與人類(lèi)評(píng)判者的一致性甚至超過(guò)了人類(lèi)評(píng)判者之間的一致性。
這一發(fā)現(xiàn)具有深遠(yuǎn)的意義。傳統(tǒng)上,評(píng)估語(yǔ)音的非語(yǔ)言方面需要耗時(shí)且昂貴的人工評(píng)估。現(xiàn)在,我們可以使用AI評(píng)判員來(lái)自動(dòng)化這一過(guò)程,這不僅可以節(jié)省時(shí)間和成本,還可以提供更一致的評(píng)估結(jié)果。這就像有了一個(gè)永不疲倦、標(biāo)準(zhǔn)始終如一的專(zhuān)業(yè)評(píng)委,可以大大加速語(yǔ)音技術(shù)的發(fā)展和評(píng)估過(guò)程。
研究也揭示了當(dāng)前語(yǔ)音生成模型的局限性。即使是像GPT-4o-audio這樣先進(jìn)的模型,在控制說(shuō)話風(fēng)格和生成自然對(duì)話方面仍有很大的改進(jìn)空間。例如,所有測(cè)試的模型都無(wú)法在一個(gè)句子內(nèi)改變說(shuō)話速度,有些模型甚至無(wú)法正確插入非語(yǔ)言元素。這些發(fā)現(xiàn)為未來(lái)語(yǔ)音模型的開(kāi)發(fā)提供了明確的改進(jìn)方向。
此外,研究中使用的兩個(gè)任務(wù)——語(yǔ)音風(fēng)格指令跟隨和角色扮演——為評(píng)估語(yǔ)音模型的說(shuō)話風(fēng)格控制能力提供了有用的框架。這些任務(wù)可以被自動(dòng)評(píng)估,這使得開(kāi)發(fā)和測(cè)試語(yǔ)音模型變得更加高效。
總的來(lái)說(shuō),這項(xiàng)研究不僅展示了音頻感知大語(yǔ)言模型作為語(yǔ)音風(fēng)格評(píng)判員的潛力,還為語(yǔ)音技術(shù)的評(píng)估和發(fā)展提供了新的思路和工具。隨著語(yǔ)音交互技術(shù)繼續(xù)發(fā)展,這類(lèi)自動(dòng)評(píng)估方法將變得越來(lái)越重要,幫助我們創(chuàng)造出能夠以更自然、更富有表現(xiàn)力的方式與人交流的AI系統(tǒng)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。