當(dāng)你對(duì)著手機(jī)說(shuō)"小愛(ài)同學(xué),今天天氣怎么樣"時(shí),你有沒(méi)有想過(guò)這個(gè)看似簡(jiǎn)單的互動(dòng)其實(shí)包含了多么復(fù)雜的技術(shù)能力?你的手機(jī)需要聽(tīng)懂你的話,理解你的意思,然后用自然的聲音回答你。而如果你同時(shí)給它看一張圖片,它還需要把聽(tīng)到的和看到的結(jié)合起來(lái)理解。這就像一個(gè)人需要同時(shí)具備聽(tīng)力、理解力、表達(dá)力和觀察力一樣。
香港中文大學(xué)多媒體實(shí)驗(yàn)室的王柯、任厚興、路子木等研究人員,聯(lián)合商湯科技的占明杰,在2025年9月發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究。這項(xiàng)發(fā)表于《神經(jīng)信息處理系統(tǒng)進(jìn)展》(Advances in Neural Information Processing Systems)的研究首次建立了一套全面評(píng)估AI語(yǔ)音助手的標(biāo)準(zhǔn)體系,就像給這些智能助手做了一次全面的"體檢"。
目前市面上有很多AI語(yǔ)音助手,從蘋(píng)果的Siri到各種開(kāi)源模型,但我們?nèi)狈σ粋€(gè)統(tǒng)一的標(biāo)準(zhǔn)來(lái)評(píng)判它們到底有多"聰明"。現(xiàn)有的評(píng)測(cè)就像只檢查了人的某一個(gè)器官,比如有些只測(cè)試聽(tīng)力,有些只測(cè)試說(shuō)話能力,卻沒(méi)有一個(gè)全面的健康檢查。研究團(tuán)隊(duì)意識(shí)到這個(gè)問(wèn)題后,決定創(chuàng)建一個(gè)名為VoiceAssistant-Eval的全新評(píng)測(cè)體系。
這個(gè)評(píng)測(cè)體系包含了10,497個(gè)精心挑選的測(cè)試案例,涵蓋13個(gè)不同的任務(wù)類別。就像一套全面的考試題庫(kù),從最基礎(chǔ)的"聽(tīng)音識(shí)字"到復(fù)雜的"看圖說(shuō)話",再到高難度的"角色扮演",應(yīng)有盡有。研究團(tuán)隊(duì)不僅測(cè)試了21個(gè)開(kāi)源模型,還包括了GPT-4o-Audio這樣的頂級(jí)商業(yè)模型。
一、為什么需要給AI助手做"全面體檢"
在日常生活中,當(dāng)我們與AI助手互動(dòng)時(shí),實(shí)際上是在考驗(yàn)它們?nèi)齻€(gè)核心能力:能否準(zhǔn)確聽(tīng)懂我們說(shuō)的話(聽(tīng)覺(jué)能力),能否用自然流暢的語(yǔ)音回應(yīng)(表達(dá)能力),以及能否理解我們展示的圖片或視頻內(nèi)容(視覺(jué)能力)。但是,現(xiàn)有的評(píng)測(cè)方法就像盲人摸象,每個(gè)評(píng)測(cè)只關(guān)注其中一個(gè)方面。
傳統(tǒng)的評(píng)測(cè)方法存在四個(gè)明顯的短板。第一個(gè)短板是缺乏個(gè)性化聲音模仿的評(píng)估。就比如你希望AI助手用某個(gè)特定人的聲音說(shuō)話,比如你最喜歡的播音員或者已故親人的聲音,現(xiàn)有評(píng)測(cè)很少檢查這種能力。但在實(shí)際應(yīng)用中,特別是在醫(yī)療護(hù)理或老年陪伴場(chǎng)景下,熟悉的聲音能帶來(lái)巨大的心理慰藉。
第二個(gè)短板是對(duì)免提交互關(guān)注不夠。許多現(xiàn)有測(cè)試仍然依賴文本指令,這就像用寫(xiě)字的方式來(lái)測(cè)試一個(gè)人的口語(yǔ)表達(dá)能力一樣不合理。在開(kāi)車、做手術(shù)或者幫助視障人士的場(chǎng)景中,純語(yǔ)音交互不是錦上添花,而是基本需求。如果評(píng)測(cè)不能反映這種真實(shí)使用場(chǎng)景,那測(cè)試結(jié)果的可靠性就要打問(wèn)號(hào)。
第三個(gè)短板是忽略了日常生活中豐富的音頻環(huán)境?,F(xiàn)實(shí)中的對(duì)話往往伴隨著各種背景聲音,比如汽車引擎聲、音樂(lè)聲、自然環(huán)境音等。一個(gè)真正實(shí)用的AI助手應(yīng)該能在這些復(fù)雜環(huán)境下正常工作,而不是只能在安靜的實(shí)驗(yàn)室里表現(xiàn)良好。
第四個(gè)短板是多模態(tài)整合評(píng)估不足。當(dāng)你指著一幅畫(huà)問(wèn)"這幅畫(huà)表達(dá)了什么情感"時(shí),AI需要同時(shí)處理你的語(yǔ)音和圖像信息。但現(xiàn)有評(píng)測(cè)很少涉及這種視聽(tīng)結(jié)合的復(fù)雜場(chǎng)景,這就無(wú)法反映AI助手在真實(shí)智能教學(xué)或智能客服場(chǎng)景中的表現(xiàn)。
二、創(chuàng)新的三維評(píng)測(cè)體系:聽(tīng)說(shuō)看一個(gè)都不能少
面對(duì)現(xiàn)有評(píng)測(cè)方法的不足,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全新的三維評(píng)測(cè)框架,就像給AI助手設(shè)計(jì)了一套包含聽(tīng)力測(cè)試、口語(yǔ)測(cè)試和視力測(cè)試的綜合考試。
聽(tīng)力測(cè)試部分包含2,692個(gè)問(wèn)題,占總體的25.6%。這不是簡(jiǎn)單的"復(fù)述我說(shuō)的話",而是涵蓋了四個(gè)不同的聽(tīng)力場(chǎng)景。一般聽(tīng)力測(cè)試檢查AI能否理解日常對(duì)話和復(fù)雜指令,就像測(cè)試一個(gè)人能否在嘈雜環(huán)境中準(zhǔn)確聽(tīng)懂別人說(shuō)話。音樂(lè)聽(tīng)力測(cè)試則考驗(yàn)AI對(duì)音樂(lè)類型、情感表達(dá)的理解,比如能否識(shí)別這是一首快樂(lè)的流行歌曲還是憂傷的古典樂(lè)。聲音聽(tīng)力測(cè)試關(guān)注對(duì)環(huán)境音的識(shí)別,像是咳嗽聲、敲門聲、汽車啟動(dòng)聲等日常聲音。語(yǔ)音聽(tīng)力測(cè)試則專門評(píng)估對(duì)人聲特征的理解,包括說(shuō)話人的性別、年齡、情緒狀態(tài)等。
表達(dá)測(cè)試部分是重頭戲,包含6,905個(gè)問(wèn)題,占總體的65.8%。這個(gè)比例反映了語(yǔ)音助手最主要的價(jià)值就在于能夠流暢自然地與人對(duì)話。表達(dá)測(cè)試分為八個(gè)細(xì)分領(lǐng)域,每個(gè)都有特定的評(píng)估重點(diǎn)。助手能力測(cè)試檢驗(yàn)AI能否像一個(gè)稱職的助理那樣提供有用建議,比如被問(wèn)及旅行規(guī)劃時(shí)能否給出合理的行程安排。情感理解測(cè)試則考驗(yàn)AI能否識(shí)別用戶的情緒并給出恰當(dāng)回應(yīng),就像一個(gè)善解人意的朋友。
指令遵循測(cè)試檢查AI是否能嚴(yán)格按照用戶要求執(zhí)行任務(wù),比如"用50字以內(nèi)總結(jié)這段內(nèi)容",AI能否真的控制在50字以內(nèi)。多輪對(duì)話測(cè)試模擬真實(shí)對(duì)話場(chǎng)景,看AI能否在長(zhǎng)對(duì)話中保持邏輯一致性,記住前面討論的內(nèi)容。推理測(cè)試評(píng)估AI的邏輯思維能力,比如給出幾個(gè)條件后能否得出正確結(jié)論。魯棒性測(cè)試則在各種干擾條件下檢驗(yàn)AI的穩(wěn)定性。
最有趣的是角色扮演測(cè)試,這要求AI不僅要在內(nèi)容上符合特定角色,還要在聲音特征上進(jìn)行模仿。研究團(tuán)隊(duì)選擇了100個(gè)不同的角色,為每個(gè)角色收集了三段代表性音頻。這就像讓演員不僅要演得像,還要聲音也像。最后還有安全性測(cè)試,確保AI不會(huì)回應(yīng)有害請(qǐng)求或產(chǎn)生不當(dāng)內(nèi)容。
視覺(jué)測(cè)試部分雖然只占8.6%,但涉及的圖像類型極其豐富。研究團(tuán)隊(duì)從MMMU數(shù)據(jù)集中選擇了各種圖像,包括圖表、表格、化學(xué)結(jié)構(gòu)式、照片、繪畫(huà)、幾何圖形、樂(lè)譜、醫(yī)學(xué)圖像等30多種格式。這相當(dāng)于給AI助手準(zhǔn)備了一套涵蓋從小學(xué)數(shù)學(xué)到大學(xué)專業(yè)課程的視覺(jué)理解測(cè)試。
為了確保測(cè)試的真實(shí)性,研究團(tuán)隊(duì)還開(kāi)發(fā)了專門的語(yǔ)音合成流程。他們使用三種先進(jìn)的文本轉(zhuǎn)語(yǔ)音模型來(lái)生成問(wèn)題音頻,并且設(shè)定了嚴(yán)格的質(zhì)量標(biāo)準(zhǔn)。每個(gè)合成的音頻都要達(dá)到3.8分以上的質(zhì)量評(píng)分,否則就重新生成。這確保了測(cè)試環(huán)境與真實(shí)使用場(chǎng)景的一致性。
三、令人意外的測(cè)試結(jié)果:小模型也能有大作為
當(dāng)研究團(tuán)隊(duì)用這套全面的評(píng)測(cè)體系對(duì)22個(gè)模型進(jìn)行測(cè)試后,結(jié)果頗為出人意料,打破了很多人關(guān)于AI能力的固有認(rèn)知。
最讓人驚訝的發(fā)現(xiàn)是,商業(yè)模型并非在所有方面都領(lǐng)先開(kāi)源模型。GPT-4o-Audio作為頂級(jí)商業(yè)模型,竟然在13個(gè)任務(wù)中的4個(gè)表現(xiàn)不如最好的開(kāi)源模型。在聲音理解和語(yǔ)音理解任務(wù)中,GPT-4o-Audio分別比表現(xiàn)最好的開(kāi)源模型低了4.3分和9.1分。這就像一個(gè)考試成績(jī)很好的學(xué)生,在某些具體科目上反而不如專門訓(xùn)練過(guò)這些科目的同學(xué)。
更有趣的是,GPT-4o-Audio在安全對(duì)話任務(wù)上的得分是74.5分,居然比一些開(kāi)源模型還低5.3分。這說(shuō)明即使是最先進(jìn)的商業(yè)模型,在某些特定任務(wù)上也有改進(jìn)空間。不過(guò),GPT-4o-Audio在需要強(qiáng)大語(yǔ)言理解能力的任務(wù)上確實(shí)表現(xiàn)出色,比如多輪對(duì)話、指令遵循、推理等,這體現(xiàn)了其深厚的語(yǔ)言模型基礎(chǔ)。
第二個(gè)重要發(fā)現(xiàn)是,當(dāng)前模型普遍在說(shuō)話任務(wù)上比聽(tīng)力任務(wù)表現(xiàn)更好。在22個(gè)測(cè)試模型中,有20個(gè)在表達(dá)能力上的得分高于聽(tīng)力理解。這種現(xiàn)象就像一個(gè)人能說(shuō)會(huì)道,但聽(tīng)力理解能力相對(duì)較弱。這個(gè)發(fā)現(xiàn)提醒研究者需要在聽(tīng)力理解方面投入更多精力,實(shí)現(xiàn)更平衡的發(fā)展。
第三個(gè)出人意料的發(fā)現(xiàn)是,精心設(shè)計(jì)的小模型能夠與大模型一爭(zhēng)高下,甚至在某些方面超越后者。Step-Audio-2-mini模型只有7B參數(shù),但在聽(tīng)力理解上的準(zhǔn)確率達(dá)到40.06%,是32B參數(shù)的LLaMA-Omni2模型的兩倍多(16.00%)。這就像一個(gè)訓(xùn)練有素的專業(yè)運(yùn)動(dòng)員能夠擊敗體型更大但訓(xùn)練不當(dāng)?shù)膶?duì)手。這個(gè)發(fā)現(xiàn)對(duì)于資源有限的研發(fā)團(tuán)隊(duì)來(lái)說(shuō)是個(gè)好消息,說(shuō)明通過(guò)巧妙的設(shè)計(jì)和訓(xùn)練,小模型也能取得優(yōu)異表現(xiàn)。
測(cè)試還揭示了一些模型的具體優(yōu)缺點(diǎn)。在角色扮演任務(wù)中,Step-Audio在內(nèi)容準(zhǔn)確性上得分最高(33.2分),聲音相似度也達(dá)到75.1%,但在語(yǔ)音自然度上卻排名倒數(shù)第二(56.0分)。這就像一個(gè)演員能夠完美理解角色并模仿聲音特征,但表演時(shí)顯得不夠自然。相反,一些模型雖然說(shuō)話很流利自然,但在內(nèi)容準(zhǔn)確性上存在不足。
在多模態(tài)任務(wù)中,所有模型都面臨挑戰(zhàn)。Qwen2.5-Omni-7B在處理圖像加文字的問(wèn)題時(shí)能達(dá)到59.2%的準(zhǔn)確率,但當(dāng)問(wèn)題改為語(yǔ)音形式時(shí),準(zhǔn)確率下降到42.9%,降幅達(dá)16.3個(gè)百分點(diǎn)。這說(shuō)明目前的AI模型在整合視覺(jué)和聽(tīng)覺(jué)信息方面還有很大改進(jìn)空間。
安全性和魯棒性測(cè)試也暴露了一些模型的不足。Moshika系列模型在魯棒性測(cè)試中得分低于1分,在安全測(cè)試中得分低于28分,表現(xiàn)極其糟糕。這提醒我們,在追求功能先進(jìn)性的同時(shí),不能忽視基本的安全性和穩(wěn)定性要求。
四、深入分析:AI助手的"通病"在哪里
為了更深入理解AI助手的表現(xiàn),研究團(tuán)隊(duì)還對(duì)Qwen2.5-Omni-7B模型進(jìn)行了詳細(xì)的錯(cuò)誤分析,就像醫(yī)生仔細(xì)分析病人的癥狀一樣。他們隨機(jī)抽取了593個(gè)錯(cuò)誤案例,仔細(xì)分析每個(gè)錯(cuò)誤的原因類型。
在聽(tīng)力理解方面,最嚴(yán)重的問(wèn)題是"上下文丟失錯(cuò)誤",占到了所有聽(tīng)力錯(cuò)誤的46%。這就像一個(gè)人聽(tīng)著聽(tīng)著就忘記了前面說(shuō)過(guò)什么,導(dǎo)致答非所問(wèn)。比如,當(dāng)被問(wèn)及"這段音頻中的說(shuō)話人是男性還是女性"時(shí),模型回答說(shuō)"我無(wú)法聽(tīng)取音頻文件,你能告訴我一些關(guān)鍵信息嗎",完全忽略了已經(jīng)提供的音頻輸入。
其次是語(yǔ)音感知錯(cuò)誤(16%)和聲音感知錯(cuò)誤(15%),加起來(lái)占了將近三分之一。這類錯(cuò)誤表現(xiàn)為模型無(wú)法準(zhǔn)確識(shí)別說(shuō)話內(nèi)容或區(qū)分不同聲音。例如,當(dāng)音頻中說(shuō)的是"嘆氣"時(shí),模型卻識(shí)別成了"咳嗽",這種基礎(chǔ)感知錯(cuò)誤直接影響了后續(xù)的理解和回應(yīng)。
在表達(dá)任務(wù)方面,錯(cuò)誤模式有所不同,主要集中在內(nèi)容質(zhì)量而非基礎(chǔ)感知上。最常見(jiàn)的是"回答不充分錯(cuò)誤"(25%)和"需求偏離錯(cuò)誤"(23%)。前者表現(xiàn)為回答過(guò)于簡(jiǎn)略或遺漏關(guān)鍵信息,后者則是理解了問(wèn)題但回答跑題了。
特別值得注意的是"角色扮演風(fēng)格錯(cuò)誤",占13%。這類錯(cuò)誤顯示模型在保持特定角色語(yǔ)氣和風(fēng)格方面存在困難。比如,當(dāng)要求模仿一個(gè)熱情活潑的主持人時(shí),模型的回答可能內(nèi)容正確但語(yǔ)氣平淡,缺乏角色特色。
在視覺(jué)理解任務(wù)中,"視覺(jué)感知錯(cuò)誤"占了整整50%,成為最大的障礙。模型經(jīng)常誤識(shí)別或忽略圖像中的關(guān)鍵元素。例如,面對(duì)一個(gè)幾何圖形,模型可能把三角形說(shuō)成是四邊形,或者完全看不到圖中的某些線條。其次是"知識(shí)錯(cuò)誤"(19%)和"推理錯(cuò)誤"(15%),說(shuō)明即使模型正確看到了圖像內(nèi)容,也可能因?yàn)橹R(shí)不足或邏輯推理能力不夠而給出錯(cuò)誤答案。
這些錯(cuò)誤分析揭示了一個(gè)重要模式:不同類型的任務(wù)對(duì)模型提出了不同的挑戰(zhàn)。聽(tīng)力任務(wù)主要考驗(yàn)?zāi)P偷挠洃浤芰突A(chǔ)感知,表達(dá)任務(wù)更多考驗(yàn)內(nèi)容生成和風(fēng)格控制,而視覺(jué)任務(wù)則主要挑戰(zhàn)基礎(chǔ)的圖像理解能力。
五、技術(shù)突破與創(chuàng)新:評(píng)測(cè)方法的四大亮點(diǎn)
VoiceAssistant-Eval在評(píng)測(cè)方法上實(shí)現(xiàn)了多個(gè)技術(shù)突破,這些創(chuàng)新使得評(píng)測(cè)結(jié)果更加可靠和全面。
第一個(gè)創(chuàng)新是三維評(píng)分體系。與傳統(tǒng)評(píng)測(cè)只關(guān)注內(nèi)容正確性不同,這套體系同時(shí)評(píng)估內(nèi)容質(zhì)量、語(yǔ)音質(zhì)量和一致性。內(nèi)容質(zhì)量通過(guò)GPT-4模型打分,語(yǔ)音質(zhì)量使用UTMOS系統(tǒng)評(píng)估,一致性則通過(guò)比較文本輸出和語(yǔ)音轉(zhuǎn)錄的差異來(lái)衡量。最終分?jǐn)?shù)是三者的乘積,確保模型必須在所有維度都表現(xiàn)良好才能獲得高分。
這種設(shè)計(jì)就像評(píng)價(jià)一個(gè)演講者不僅要看內(nèi)容是否準(zhǔn)確,還要看聲音是否清晰動(dòng)聽(tīng),以及說(shuō)出的話與準(zhǔn)備的稿子是否一致。只有三個(gè)方面都優(yōu)秀,才能算是一次成功的演講。
第二個(gè)創(chuàng)新是針對(duì)角色扮演任務(wù)的專門評(píng)估。研究團(tuán)隊(duì)使用WeSpeaker系統(tǒng)來(lái)計(jì)算模型生成語(yǔ)音與參考角色音頻之間的相似度。這項(xiàng)技術(shù)能夠量化聲音特征的匹配程度,為個(gè)性化語(yǔ)音生成提供了客觀的評(píng)估標(biāo)準(zhǔn)。
第三個(gè)創(chuàng)新是修正的詞錯(cuò)誤率(WER)計(jì)算方法。傳統(tǒng)的WER計(jì)算在處理選擇題等簡(jiǎn)短回答時(shí)可能產(chǎn)生誤導(dǎo)性結(jié)果。研究團(tuán)隊(duì)引入了長(zhǎng)度閾值,當(dāng)文本長(zhǎng)度差異過(guò)大時(shí)采用特殊處理方式,確保評(píng)估的準(zhǔn)確性。
第四個(gè)創(chuàng)新是高質(zhì)量的音頻合成流程。研究團(tuán)隊(duì)使用三種先進(jìn)的TTS模型,并設(shè)定嚴(yán)格的質(zhì)量控制標(biāo)準(zhǔn),確保合成音頻的質(zhì)量足夠高。同時(shí),他們重用了角色扮演任務(wù)中的300個(gè)角色音頻作為提示音頻,增加了說(shuō)話人的多樣性。
六、實(shí)際應(yīng)用價(jià)值:為AI助手發(fā)展指明方向
VoiceAssistant-Eval的價(jià)值不僅在于評(píng)測(cè)現(xiàn)有模型,更在于為未來(lái)的AI助手發(fā)展指明了方向。
評(píng)測(cè)結(jié)果顯示,當(dāng)前AI助手發(fā)展存在明顯的不平衡問(wèn)題。大多數(shù)模型在表達(dá)能力上表現(xiàn)不錯(cuò),但在聽(tīng)力理解方面相對(duì)薄弱。這種不平衡就像一個(gè)人說(shuō)話很流利,但聽(tīng)力有問(wèn)題,無(wú)法進(jìn)行有效的雙向交流。這提示研發(fā)團(tuán)隊(duì)需要在音頻理解技術(shù)上投入更多資源。
評(píng)測(cè)還揭示了模型規(guī)模與性能之間的復(fù)雜關(guān)系。Step-Audio-2-mini只有7B參數(shù),但在聽(tīng)力任務(wù)上的表現(xiàn)遠(yuǎn)超32B的LLaMA-Omni2,說(shuō)明精心的架構(gòu)設(shè)計(jì)和訓(xùn)練策略比簡(jiǎn)單增加參數(shù)更重要。這為資源有限的研發(fā)團(tuán)隊(duì)提供了希望,也為模型優(yōu)化指明了方向。
在多模態(tài)整合方面,評(píng)測(cè)結(jié)果表明這仍是一個(gè)巨大挑戰(zhàn)。當(dāng)前模型在處理視覺(jué)加文本的任務(wù)時(shí)表現(xiàn)尚可,但加入語(yǔ)音后性能明顯下降。這說(shuō)明真正的多模態(tài)理解還需要更多技術(shù)突破,不能簡(jiǎn)單地將不同模態(tài)的處理能力拼接在一起。
安全性和魯棒性的評(píng)測(cè)結(jié)果也給業(yè)界敲響了警鐘。一些模型雖然在功能性任務(wù)上表現(xiàn)不錯(cuò),但在面對(duì)有害請(qǐng)求或干擾條件時(shí)表現(xiàn)糟糕。這提醒我們,AI助手的實(shí)用化不僅需要功能強(qiáng)大,更需要安全可靠。
七、未來(lái)展望:從實(shí)驗(yàn)室走向千家萬(wàn)戶的路還有多遠(yuǎn)
雖然VoiceAssistant-Eval為AI助手評(píng)測(cè)建立了新標(biāo)準(zhǔn),但研究團(tuán)隊(duì)也誠(chéng)實(shí)地承認(rèn)了當(dāng)前評(píng)測(cè)體系的一些局限性。
首先是語(yǔ)言多樣性不足。雖然角色扮演任務(wù)中包含了5個(gè)中文角色,但其他所有提示和評(píng)估都是英文的。這種單語(yǔ)言焦點(diǎn)可能無(wú)法充分反映全球用戶的多樣化需求。在實(shí)際應(yīng)用中,AI助手需要服務(wù)不同語(yǔ)言背景的用戶,多語(yǔ)言能力的評(píng)估將是未來(lái)的重要發(fā)展方向。
其次是評(píng)估方法的局限性。目前的評(píng)估主要依賴自動(dòng)化指標(biāo)和GPT模型打分,雖然效率很高,但可能無(wú)法捕捉人類偏好的所有細(xì)節(jié)。研究團(tuán)隊(duì)通過(guò)人工驗(yàn)證證明了自動(dòng)評(píng)估的可靠性,但仍然存在改進(jìn)空間。
第三是任務(wù)覆蓋的不完整性。雖然涵蓋了13個(gè)任務(wù)類別,但仍有一些重要的應(yīng)用場(chǎng)景沒(méi)有包括在內(nèi)。比如,連續(xù)音視頻流處理、實(shí)時(shí)語(yǔ)音中斷處理、多人對(duì)話場(chǎng)景等,這些都是實(shí)際應(yīng)用中的重要需求。
第四是靜態(tài)評(píng)估的限制。當(dāng)前評(píng)估是離線的、靜態(tài)的,無(wú)法反映實(shí)時(shí)交互中的一些關(guān)鍵因素,如反應(yīng)延遲、中斷處理能力、錯(cuò)誤恢復(fù)機(jī)制等。真實(shí)的語(yǔ)音助手需要在實(shí)時(shí)對(duì)話中保持流暢,這方面的評(píng)估還需要進(jìn)一步發(fā)展。
盡管存在這些局限性,VoiceAssistant-Eval已經(jīng)為AI助手的發(fā)展提供了重要的評(píng)測(cè)基礎(chǔ)。研究團(tuán)隊(duì)建議未來(lái)的發(fā)展可以從幾個(gè)方向入手:擴(kuò)展數(shù)據(jù)集的多樣性,包括更多語(yǔ)言和文化背景;完善評(píng)估方法,結(jié)合更多的人工評(píng)估和用戶研究;增加新的任務(wù)類別,特別是動(dòng)態(tài)和實(shí)時(shí)交互任務(wù);開(kāi)發(fā)交互式評(píng)估框架,模擬真實(shí)的對(duì)話環(huán)境。
這項(xiàng)研究不僅為當(dāng)前的AI助手提供了全面的"體檢報(bào)告",更為未來(lái)更智能、更自然的人機(jī)交互鋪平了道路。隨著技術(shù)的不斷進(jìn)步和評(píng)測(cè)標(biāo)準(zhǔn)的持續(xù)完善,我們有理由期待AI助手能夠真正成為我們生活中不可或缺的智能伙伴。
Q&A
Q1:VoiceAssistant-Eval評(píng)測(cè)體系包含哪些測(cè)試內(nèi)容?
A:VoiceAssistant-Eval包含10,497個(gè)測(cè)試案例,分為三大類:聽(tīng)力測(cè)試(占25.6%,包括一般聽(tīng)力、音樂(lè)、聲音和語(yǔ)音四個(gè)方面)、表達(dá)測(cè)試(占65.8%,包括助手能力、情感理解、指令遵循等八個(gè)方面)、視覺(jué)測(cè)試(占8.6%,涵蓋圖表、照片、幾何圖形等30多種圖像格式)。
Q2:測(cè)試結(jié)果顯示AI語(yǔ)音助手有哪些主要問(wèn)題?
A:測(cè)試發(fā)現(xiàn)四個(gè)主要問(wèn)題:一是商業(yè)模型并非在所有方面都優(yōu)于開(kāi)源模型,GPT-4o-Audio在13個(gè)任務(wù)中有4個(gè)不如最好的開(kāi)源模型;二是大多數(shù)模型說(shuō)話能力強(qiáng)于聽(tīng)力理解;三是多模態(tài)整合困難,處理圖像加語(yǔ)音的任務(wù)時(shí)性能明顯下降;四是一些模型在安全性和穩(wěn)定性方面表現(xiàn)糟糕。
Q3:這個(gè)評(píng)測(cè)體系對(duì)AI助手發(fā)展有什么指導(dǎo)意義?
A:評(píng)測(cè)結(jié)果為AI助手發(fā)展指明了四個(gè)方向:需要加強(qiáng)音頻理解技術(shù)投入,因?yàn)楫?dāng)前聽(tīng)力能力普遍落后于表達(dá)能力;精心的架構(gòu)設(shè)計(jì)比簡(jiǎn)單增加參數(shù)更重要,小模型也能有優(yōu)異表現(xiàn);多模態(tài)真正融合仍需技術(shù)突破,不能簡(jiǎn)單拼接;安全性和魯棒性需要與功能性同等重視,確保AI助手既強(qiáng)大又可靠。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。