這項(xiàng)由香港中文大學(xué)(深圳)的廖歡、倪欽科等研究人員與廣州趣玩網(wǎng)絡(luò)科技公司合作完成的研究發(fā)表于2025年8月,論文題為《NVSpeech:一個(gè)集成且可擴(kuò)展的人類化語音建模管道,包含副語言發(fā)聲》。有興趣深入了解的讀者可以通過 https://nvspeech170k.github.io/ 訪問完整的數(shù)據(jù)集和音頻演示。
在我們?nèi)粘υ捴校苏f出的文字內(nèi)容,還有大量的"非文字聲音"在傳遞信息——比如緊張時(shí)的"嗯嗯啊啊",開心時(shí)的笑聲,疑惑時(shí)的"哦?",以及思考時(shí)的呼吸聲。這些看似微不足道的聲音,實(shí)際上承載著豐富的情感和意圖信息,讓人與人之間的交流顯得生動(dòng)自然。然而,當(dāng)前的語音識(shí)別系統(tǒng)就像一個(gè)只關(guān)注"正經(jīng)話"的嚴(yán)肅學(xué)者,完全忽略了這些生動(dòng)的表達(dá),而語音合成系統(tǒng)則像一個(gè)只會(huì)念稿子的機(jī)器人,說出的話雖然準(zhǔn)確但毫無人情味。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在中文這樣的聲調(diào)語言中,這些副語言聲音與語調(diào)和韻律的關(guān)系更為密切,它們在表達(dá)情感、調(diào)節(jié)對話節(jié)奏、標(biāo)示不確定性等方面發(fā)揮著關(guān)鍵作用。沒有這些細(xì)微聲音的支撐,AI系統(tǒng)很難真正理解人類的交流意圖,更無法產(chǎn)生自然流暢的語音。
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了NVSpeech系統(tǒng)——一個(gè)能夠理解和生成各種副語言聲音的完整解決方案。這個(gè)系統(tǒng)的核心創(chuàng)新在于將語音識(shí)別、數(shù)據(jù)標(biāo)注和語音合成整合為一個(gè)統(tǒng)一的流程,讓AI不僅能聽懂"正經(jīng)話",還能理解笑聲、嘆息、咳嗽等各種人類表達(dá),并且在說話時(shí)也能自然地加入這些生動(dòng)元素。
整個(gè)項(xiàng)目的規(guī)??胺Q龐大:研究團(tuán)隊(duì)手工標(biāo)注了48,430句人類語音,涵蓋18種不同類型的副語言聲音,然后利用這些數(shù)據(jù)訓(xùn)練出一個(gè)"懂得弦外之音"的語音識(shí)別模型。該模型隨后被用于自動(dòng)標(biāo)注更大規(guī)模的語音數(shù)據(jù),最終構(gòu)建了包含174,179句話、總時(shí)長573.4小時(shí)的大型中文副語言語音數(shù)據(jù)集——這是目前世界上第一個(gè)詞級(jí)別對齊的大規(guī)模中文副語言語音數(shù)據(jù)庫。
一、副語言聲音的奧秘:不只是"嗯嗯啊啊"那么簡單
當(dāng)我們仔細(xì)觀察人類的日常對話時(shí),會(huì)發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:真正的交流遠(yuǎn)不止是文字的傳遞。考慮這樣一個(gè)對話場景:朋友告訴你一個(gè)令人震驚的消息,你的第一反應(yīng)可能是"哦?!"然后深深吸一口氣,接著可能會(huì)笑出聲來說"不會(huì)吧!"整個(gè)回應(yīng)過程中,文字內(nèi)容只是冰山一角,那些"哦"聲的語調(diào)、吸氣聲、笑聲才真正傳達(dá)了你的情感狀態(tài)和態(tài)度。
研究團(tuán)隊(duì)將這些人類交流中的非文字聲音稱為"副語言發(fā)聲",就像音樂中的和弦一樣,雖然不是主旋律,卻為整體表達(dá)增添了豐富的情感色彩。這些聲音大致可以分為三大類型:生理性的非語言發(fā)聲,比如笑聲、咳嗽聲、嘆息聲,這些通常表達(dá)身體狀態(tài)或情緒反應(yīng);韻律性和態(tài)度性的語氣詞,比如表示確認(rèn)的"嗯"、表示疑問的"啊"、表示驚訝的"哦",這些往往與特定的情感態(tài)度相關(guān);以及話語標(biāo)記,比如思考時(shí)的"嗯嗯"聲,這些主要用于調(diào)節(jié)對話節(jié)奏和標(biāo)示說話者的認(rèn)知狀態(tài)。
在中文這樣的聲調(diào)語言中,這些副語言聲音的作用更加微妙復(fù)雜。由于中文本身依賴聲調(diào)來區(qū)分詞匯含義,副語言聲音與語調(diào)、韻律之間形成了密切的互動(dòng)關(guān)系。一個(gè)簡單的"哦"聲,根據(jù)聲調(diào)的不同,可以表達(dá)完全不同的含義:上升調(diào)的"哦?"表示疑問,下降調(diào)的"哦"表示恍然大悟,平調(diào)的"哦"可能表示敷衍應(yīng)付。這種復(fù)雜的表達(dá)系統(tǒng)讓中文的副語言聲音比其他語言更加豐富多樣。
研究團(tuán)隊(duì)經(jīng)過大量的語音分析和統(tǒng)計(jì),最終確定了18種最常見且最具功能性的副語言聲音類型。這個(gè)分類體系的建立過程就像是在為人類表達(dá)的"調(diào)色板"命名一樣,每一種聲音都有其獨(dú)特的表達(dá)功能和使用場景。比如"呼吸聲"不僅表示生理需要,在對話中往往標(biāo)示著思考停頓或情緒變化;"確認(rèn)-嗯"聲則是中文對話中重要的反饋信號(hào),表示理解和接受;而"疑問-啊"聲則能在不改變句子結(jié)構(gòu)的情況下將陳述句轉(zhuǎn)化為疑問句。
傳統(tǒng)的語音處理系統(tǒng)對待這些豐富的表達(dá)就像一個(gè)"潔癖患者",將它們統(tǒng)統(tǒng)視為需要清理的"噪音"。當(dāng)我們對著語音助手說"嗯,今天天氣[嘆息]真是不太好啊"時(shí),系統(tǒng)只會(huì)識(shí)別出"今天天氣真是不太好啊",完全忽略了那個(gè)表達(dá)無奈情緒的嘆息聲。這種"去人性化"的處理方式導(dǎo)致AI系統(tǒng)雖然能夠理解文字內(nèi)容,卻無法感知說話者的真實(shí)情感狀態(tài)和交流意圖。
更關(guān)鍵的問題在于數(shù)據(jù)的匱乏。由于這些副語言聲音在傳統(tǒng)語音處理中被視為干擾因素,現(xiàn)有的語音數(shù)據(jù)庫大多沒有對它們進(jìn)行標(biāo)注,這就形成了一個(gè)惡性循環(huán):沒有數(shù)據(jù)就無法訓(xùn)練模型,沒有模型就無法處理這些聲音,沒有處理能力就繼續(xù)將它們視為噪音。研究團(tuán)隊(duì)意識(shí)到,要打破這個(gè)循環(huán),必須從構(gòu)建高質(zhì)量的標(biāo)注數(shù)據(jù)開始。
二、手工雕琢的藝術(shù):48,430句話的精細(xì)標(biāo)注之旅
構(gòu)建一個(gè)包含副語言聲音的語音數(shù)據(jù)庫,就像是為一部無聲電影重新配上音效一樣,需要對每一個(gè)細(xì)微的聲音進(jìn)行精準(zhǔn)識(shí)別和分類。研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就是如何獲得足夠豐富且具有代表性的原始語音材料。
他們選擇了一個(gè)聰明的策略:從游戲角色配音中尋找寶藏。游戲《原神》和《星穹鐵道》的中文配音包含了大量生動(dòng)自然的表達(dá),涵蓋了從日常閑聊到激烈戰(zhàn)斗的各種情境。這些配音的特點(diǎn)是表達(dá)豐富、情感飽滿,副語言聲音自然融入其中,為研究提供了理想的原始材料。這就像是在錄音棚里找到了一群最擅長表達(dá)情感的演員,他們的每一次笑聲、每一聲嘆息都經(jīng)過精心設(shè)計(jì),既符合角色設(shè)定又貼近真實(shí)人類表達(dá)。
為了進(jìn)一步增加數(shù)據(jù)的多樣性,研究團(tuán)隊(duì)還加入了從Nonspeech7k數(shù)據(jù)集中精選的咳嗽和哭泣片段。這些片段雖然簡單,卻為模型提供了更純粹的生理性副語言聲音樣本。同時(shí),他們還使用先進(jìn)的語音合成技術(shù)生成了一些稀有類型的副語言聲音樣本,比如"驚訝-呦"或"疑問-嗯"等在自然語音中出現(xiàn)頻率較低的表達(dá)。這種做法就像是在調(diào)色板上補(bǔ)充一些特殊色彩,確保最終的作品能夠表達(dá)出完整的情感光譜。
真正的挑戰(zhàn)在于標(biāo)注過程。研究團(tuán)隊(duì)招募了十名經(jīng)過專業(yè)培訓(xùn)的標(biāo)注員,每個(gè)人都需要像音樂指揮一樣,對語音中的每一個(gè)細(xì)微變化保持敏銳的感知。他們的工作就是在聽到一段語音后,準(zhǔn)確識(shí)別出其中包含的副語言聲音類型,并將其以特殊標(biāo)記的形式插入到相應(yīng)的文字位置。
標(biāo)注過程的精細(xì)程度令人驚嘆。標(biāo)注員需要戴著高質(zhì)量耳機(jī),反復(fù)播放每一段語音,仔細(xì)辨別其中的每一個(gè)非文字聲音。當(dāng)他們聽到一段"我覺得這個(gè)想法不錯(cuò)[呼吸],但是[嗯]可能需要再考慮一下"這樣的表達(dá)時(shí),需要準(zhǔn)確識(shí)別出其中的呼吸聲和思考性的"嗯"聲,并在轉(zhuǎn)錄文本中的相應(yīng)位置插入[Breathing]和[Uhm]標(biāo)記。
為了確保標(biāo)注質(zhì)量,研究團(tuán)隊(duì)建立了嚴(yán)格的質(zhì)量控制體系。首先,所有標(biāo)注員都接受了統(tǒng)一的培訓(xùn),學(xué)習(xí)如何識(shí)別18種不同類型的副語言聲音,并通過正面和負(fù)面示例掌握準(zhǔn)確的標(biāo)注標(biāo)準(zhǔn)。然后,5%的數(shù)據(jù)會(huì)被分配給多個(gè)標(biāo)注員進(jìn)行交叉驗(yàn)證,通過計(jì)算Cohen's kappa系數(shù)來衡量標(biāo)注的一致性。令人欣慰的是,在主要副語言類別上,標(biāo)注員之間的一致性達(dá)到了0.85以上,這表明他們對這些聲音的理解和識(shí)別具有很高的共識(shí)。
最終,經(jīng)過數(shù)月的精心工作,研究團(tuán)隊(duì)完成了48,430句人類語音的副語言標(biāo)注,總時(shí)長達(dá)到76小時(shí)。這個(gè)手工標(biāo)注的數(shù)據(jù)集就像一個(gè)精美的種子庫,為后續(xù)的大規(guī)模自動(dòng)標(biāo)注奠定了堅(jiān)實(shí)基礎(chǔ)。更重要的是,這個(gè)過程讓研究團(tuán)隊(duì)深入理解了中文副語言聲音的分布特征和使用規(guī)律,為設(shè)計(jì)更好的自動(dòng)識(shí)別模型積累了寶貴經(jīng)驗(yàn)。
從統(tǒng)計(jì)數(shù)據(jù)來看,這個(gè)手工標(biāo)注數(shù)據(jù)集呈現(xiàn)出有趣的分布特征。"呼吸"聲是最常見的副語言聲音,出現(xiàn)頻率高達(dá)27,425次,這反映了呼吸在人類語音中的重要作用——它不僅是生理需要,更是話語節(jié)奏的自然調(diào)節(jié)器。"笑聲"緊隨其后,有2,132次出現(xiàn),顯示了積極情感在游戲配音中的重要地位。相對較少的是一些特定情境下的表達(dá),比如"驚訝-呦"只出現(xiàn)了94次,"疑問-嗯"出現(xiàn)了133次,這些稀有表達(dá)雖然使用頻率不高,但在特定情境下卻具有不可替代的表達(dá)功能。
三、智能識(shí)別的突破:讓機(jī)器聽懂人類的弦外之音
有了精心標(biāo)注的訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)面臨的下一個(gè)挑戰(zhàn)是如何訓(xùn)練一個(gè)既能準(zhǔn)確識(shí)別文字內(nèi)容,又能同時(shí)捕捉副語言聲音的智能識(shí)別系統(tǒng)。這就像是要培養(yǎng)一個(gè)既能理解話語內(nèi)容,又能察言觀色的聰明助手。
傳統(tǒng)的語音識(shí)別系統(tǒng)設(shè)計(jì)思路相對簡單:將語音信號(hào)轉(zhuǎn)換為文字序列。但要同時(shí)識(shí)別副語言聲音,就需要一個(gè)全新的框架。研究團(tuán)隊(duì)的巧妙之處在于將副語言聲音視為特殊的"詞匯",與普通文字享有同等地位。這樣,當(dāng)系統(tǒng)處理一段語音時(shí),輸出的不再是單純的文字序列"你確定嗎",而是包含完整表達(dá)信息的混合序列"[Question-oh]你確定嗎?"
為了驗(yàn)證這種設(shè)計(jì)思路的有效性,研究團(tuán)隊(duì)選擇了四種不同架構(gòu)的基礎(chǔ)模型進(jìn)行實(shí)驗(yàn)。首先是Paraformer,這是一種非自回歸的語音識(shí)別模型,采用了連續(xù)積分發(fā)放(CIF)機(jī)制來處理音頻的時(shí)序信息。這種模型的優(yōu)勢在于能夠并行處理語音段落,提高識(shí)別效率。第二種是SenseVoice-Small,這是一個(gè)專門針對多任務(wù)語音理解設(shè)計(jì)的編碼器模型,已經(jīng)在大規(guī)模偽標(biāo)注數(shù)據(jù)上進(jìn)行過預(yù)訓(xùn)練,對語音中的各種事件有一定的敏感性。第三種是Qwen-Audio,它結(jié)合了Whisper風(fēng)格的音頻編碼器和大型語言模型,試圖利用語言模型的強(qiáng)大理解能力來處理復(fù)雜的音頻-文本對應(yīng)關(guān)系。最后是經(jīng)典的Whisper模型,這個(gè)在大規(guī)模弱監(jiān)督數(shù)據(jù)上訓(xùn)練的模型以其強(qiáng)大的魯棒性而聞名。
訓(xùn)練過程就像是教導(dǎo)一個(gè)學(xué)生同時(shí)掌握兩種技能。研究團(tuán)隊(duì)采用了聯(lián)合訓(xùn)練的策略,讓模型在學(xué)習(xí)識(shí)別文字的同時(shí),也學(xué)習(xí)識(shí)別和定位副語言聲音。訓(xùn)練目標(biāo)函數(shù)使用了CTC(連接時(shí)序分類)損失,這種方法特別適合處理輸入序列和輸出序列長度不匹配的情況——音頻信號(hào)是連續(xù)的,而輸出的文字加標(biāo)記序列是離散的。
實(shí)驗(yàn)結(jié)果令人鼓舞。在包含多種游戲場景的域內(nèi)測試集上,SenseVoice表現(xiàn)最為出色,字符錯(cuò)誤率僅為4.61%,副語言聲音檢測的F1分?jǐn)?shù)達(dá)到0.83。這意味著系統(tǒng)不僅能準(zhǔn)確識(shí)別文字內(nèi)容,還能精確捕捉到83%的副語言聲音。Paraformer在副語言聲音檢測率方面表現(xiàn)突出,達(dá)到了96.1%,顯示出其對細(xì)微音頻事件的高敏感性。
更重要的測試來自開放域數(shù)據(jù)集。為了全面評(píng)估模型的泛化能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含各種挑戰(zhàn)性場景的測試集:自發(fā)性重復(fù)和自我修正(比如"不是我我我,就是我沒法管"),專有名詞(如"秦始皇"),人名(如"喬伊"),成語表達(dá)(如"敬酒不吃吃罰酒"),以及來自不同領(lǐng)域的語音材料——脫口秀、訪談、體育解說、有聲讀物等。這個(gè)測試集就像一個(gè)多面的魔方,從各個(gè)角度檢驗(yàn)?zāi)P偷哪芰Α?/p>
在這個(gè)更加困難的測試集上,SenseVoice依然保持了領(lǐng)先地位,字符錯(cuò)誤率為3.79%,副語言聲音檢測F1分?jǐn)?shù)達(dá)到0.85,甚至比域內(nèi)測試的表現(xiàn)更好。這個(gè)看似矛盾的結(jié)果實(shí)際上反映了一個(gè)重要現(xiàn)象:真實(shí)世界的語音雖然更加多樣化,但副語言聲音的使用往往更加自然豐富,為模型提供了更多的識(shí)別線索。
通過對模型預(yù)測結(jié)果的詳細(xì)分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的模式。在高頻類別如"呼吸"和"笑聲"上,所有模型都表現(xiàn)出很高的準(zhǔn)確率,這些聲音的聲學(xué)特征相對明顯,容易被機(jī)器學(xué)習(xí)算法捕捉。中頻類別如"咳嗽"和"疑問-啊"的識(shí)別準(zhǔn)確率適中,主要的混淆來自于聲學(xué)相似的類別——比如"確認(rèn)-嗯"有時(shí)會(huì)被誤識(shí)別為"嗯嗯"(Uhm)。最具挑戰(zhàn)性的是低頻類別,特別是四種不同的"驚訝"類別("驚訝-啊"、"驚訝-哦"、"驚訝-呦"、"驚訝-哇"),它們之間的聲學(xué)差異細(xì)微,需要模型具備更強(qiáng)的細(xì)粒度辨別能力。
四、規(guī)?;镊攘Γ簭?8,430到174,179的數(shù)據(jù)擴(kuò)展
手工標(biāo)注的48,430句語音雖然質(zhì)量上乘,但對于訓(xùn)練一個(gè)真正實(shí)用的系統(tǒng)來說,數(shù)據(jù)規(guī)模仍然有限。研究團(tuán)隊(duì)面臨的問題就像是擁有了一個(gè)優(yōu)秀的種子,現(xiàn)在需要將其培育成一片茂密的森林。他們采用的策略是"以點(diǎn)帶面":使用高質(zhì)量的手工標(biāo)注數(shù)據(jù)訓(xùn)練出一個(gè)可靠的自動(dòng)標(biāo)注模型,然后用這個(gè)模型去處理更大規(guī)模的未標(biāo)注語音數(shù)據(jù)。
數(shù)據(jù)來源的選擇體現(xiàn)了研究團(tuán)隊(duì)的戰(zhàn)略眼光。除了擴(kuò)大游戲配音數(shù)據(jù)的覆蓋范圍,他們還引入了Emilia數(shù)據(jù)集的一個(gè)子集。Emilia是一個(gè)大規(guī)模多語言語音數(shù)據(jù)集,包含了從真實(shí)世界收集的各種語音材料:脫口秀、訪談、辯論、有聲讀物等。這些材料的特點(diǎn)是語音風(fēng)格多樣、表達(dá)自然,包含了豐富的副語言聲音。通過整合這些不同來源的數(shù)據(jù),最終的數(shù)據(jù)集不僅在規(guī)模上實(shí)現(xiàn)了突破,在多樣性上也達(dá)到了新的高度。
自動(dòng)標(biāo)注過程就像是一個(gè)經(jīng)驗(yàn)豐富的語音專家在批量處理錄音材料。研究團(tuán)隊(duì)選擇了表現(xiàn)最佳的SenseVoice模型作為自動(dòng)標(biāo)注的主力工具。這個(gè)模型經(jīng)過精心訓(xùn)練,已經(jīng)具備了同時(shí)識(shí)別文字內(nèi)容和副語言聲音的能力。當(dāng)它處理一段新的語音時(shí),能夠輸出類似"贏得非常漂亮[Laughter]"這樣包含完整表達(dá)信息的轉(zhuǎn)錄結(jié)果。
自動(dòng)標(biāo)注的質(zhì)量控制是整個(gè)過程的關(guān)鍵環(huán)節(jié)。研究團(tuán)隊(duì)設(shè)計(jì)了多層過濾機(jī)制來確保數(shù)據(jù)質(zhì)量。首先是置信度過濾:模型在做出預(yù)測時(shí)會(huì)同時(shí)輸出置信度分?jǐn)?shù),只有那些高置信度的預(yù)測才會(huì)被保留。其次是一致性檢查:對于同一段語音的多次處理結(jié)果,只有那些結(jié)果一致的樣本才會(huì)進(jìn)入最終數(shù)據(jù)集。此外,研究團(tuán)隊(duì)還進(jìn)行了人工抽檢,隨機(jī)選擇一定比例的自動(dòng)標(biāo)注結(jié)果進(jìn)行人工驗(yàn)證,確保自動(dòng)標(biāo)注的質(zhì)量達(dá)到可接受的標(biāo)準(zhǔn)。
最終構(gòu)建的大規(guī)模數(shù)據(jù)集規(guī)模令人印象深刻:174,179條語音記錄,總時(shí)長573.4小時(shí)。這個(gè)數(shù)據(jù)集的分布特征呈現(xiàn)出與手工標(biāo)注數(shù)據(jù)相似但更加豐富的模式。"呼吸"聲依然是最常見的副語言聲音,但其出現(xiàn)頻率(69,875次)相對于數(shù)據(jù)集總規(guī)模的比例更加合理。"笑聲"(19,860次)、"疑問-哦"(20,994次)、"不滿-哼"(14,683次)等表達(dá)的豐富程度也大大提升,為模型訓(xùn)練提供了更加均衡的樣本分布。
這個(gè)大規(guī)模數(shù)據(jù)集的價(jià)值不僅在于數(shù)量的提升,更在于質(zhì)量的保證。通過"優(yōu)秀學(xué)生教導(dǎo)新學(xué)生"的方式,自動(dòng)標(biāo)注過程繼承了手工標(biāo)注的高標(biāo)準(zhǔn),同時(shí)避免了人工標(biāo)注在大規(guī)模應(yīng)用中的成本和時(shí)間限制。研究團(tuán)隊(duì)對比了使用不同規(guī)模數(shù)據(jù)訓(xùn)練的模型效果,發(fā)現(xiàn)隨著數(shù)據(jù)規(guī)模的增加,模型在各項(xiàng)指標(biāo)上都有顯著提升,特別是在低頻副語言類別的識(shí)別上表現(xiàn)出明顯改善。
五、語音合成的革新:讓AI也能"有聲有色"地表達(dá)
擁有了豐富的副語言標(biāo)注數(shù)據(jù),研究團(tuán)隊(duì)開始著手解決語音合成中的表達(dá)力問題。傳統(tǒng)的文本到語音合成系統(tǒng)就像是一個(gè)只會(huì)朗讀稿件的播音員,雖然發(fā)音清晰,但缺乏真實(shí)人類交流中的生動(dòng)性。要讓AI的語音合成具備人類般的表達(dá)力,關(guān)鍵在于能夠自然地融入各種副語言聲音。
研究團(tuán)隊(duì)選擇了兩個(gè)先進(jìn)的零樣本語音合成模型作為基礎(chǔ):CosyVoice和CosyVoice2。這些模型的特點(diǎn)是能夠僅通過參考音頻就模仿出目標(biāo)說話者的音色和語調(diào)特征,無需針對特定說話者進(jìn)行大量訓(xùn)練。就像是一個(gè)天賦異稟的模仿者,聽幾句話就能學(xué)會(huì)某人的說話方式。
融入副語言聲音的關(guān)鍵技術(shù)突破在于詞匯表擴(kuò)展。研究團(tuán)隊(duì)將18種副語言聲音標(biāo)記添加到模型的詞匯表中,使其與普通文字享有同等地位。這樣,當(dāng)輸入文本為"你們回來了[Laughter],[Breathing]辛苦了!"時(shí),模型會(huì)將"Laughter"和"Breathing"視為需要合成的特殊"詞匯",在相應(yīng)位置生成笑聲和呼吸聲。
訓(xùn)練策略的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的實(shí)用主義思路。他們采用了不平衡的數(shù)據(jù)配比:35%的常規(guī)語音和65%的富含副語言聲音的語音。這種配比確保模型既不會(huì)失去基本的語音合成能力,又能充分學(xué)習(xí)如何自然地表達(dá)各種副語言聲音。訓(xùn)練過程就像是在教導(dǎo)一個(gè)演員,既要掌握基本的臺(tái)詞功底,更要學(xué)會(huì)在恰當(dāng)?shù)臅r(shí)候加入笑聲、嘆息等表達(dá)技巧。
為了全面評(píng)估合成效果,研究團(tuán)隊(duì)設(shè)計(jì)了多維度的評(píng)估體系??陀^指標(biāo)包括字符錯(cuò)誤率(衡量合成語音的清晰度)、說話人相似度(衡量音色模仿的準(zhǔn)確性)以及UTMOS分?jǐn)?shù)(衡量整體音質(zhì))。主觀評(píng)估則通過人工聽測來判斷副語言聲音的自然度和表達(dá)效果。
實(shí)驗(yàn)結(jié)果證明了這種方法的有效性。在域內(nèi)測試集上,使用大規(guī)模自動(dòng)標(biāo)注數(shù)據(jù)訓(xùn)練的CosyVoice模型取得了最佳性能:字符錯(cuò)誤率7.96%,說話人相似度0.733,UTMOS分?jǐn)?shù)2.57。更重要的是,模型成功地在合成語音中加入了各種副語言聲音,而且這些聲音聽起來自然流暢,與主要語音內(nèi)容融為一體。
人工評(píng)估的結(jié)果更加令人鼓舞。研究團(tuán)隊(duì)邀請了60名參與者對比聽取改進(jìn)前后的語音合成效果。結(jié)果顯示,78.7%的聽眾更喜歡加入了副語言聲音的合成語音,認(rèn)為它們聽起來更自然、更有表現(xiàn)力。在自然度評(píng)分(滿分5分)上,改進(jìn)后的模型獲得了3.9-4.0的高分,在音質(zhì)評(píng)分上也達(dá)到了4.04-3.96的優(yōu)秀水平。副語言聲音的召回率達(dá)到了61.9%,意味著模型能夠準(zhǔn)確合成出大部分要求的副語言表達(dá)。
通過仔細(xì)分析合成效果,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的規(guī)律。生理性副語言聲音如笑聲、咳嗽聲的合成效果最好,因?yàn)樗鼈冇邢鄬潭ǖ穆晫W(xué)特征。韻律性語氣詞的合成稍有挑戰(zhàn),需要模型準(zhǔn)確把握語調(diào)變化。最具挑戰(zhàn)性的是那些與情境高度相關(guān)的表達(dá),比如"不滿-哼"聲,需要模型不僅能產(chǎn)生正確的聲音,還要讓這個(gè)聲音在語境中顯得合理自然。
六、創(chuàng)新突破:首創(chuàng)的端到端副語言處理流程
NVSpeech系統(tǒng)的最大創(chuàng)新在于構(gòu)建了一個(gè)完整的端到端流程,將副語言聲音的識(shí)別和合成整合為一個(gè)統(tǒng)一的解決方案。這就像是建造了一座橋梁,連接了語音理解和語音生成兩個(gè)原本獨(dú)立的領(lǐng)域。
傳統(tǒng)的語音處理系統(tǒng)往往各自為政:語音識(shí)別系統(tǒng)專注于將語音轉(zhuǎn)換為文字,語音合成系統(tǒng)專注于將文字轉(zhuǎn)換為語音,兩者之間缺乏統(tǒng)一的副語言處理標(biāo)準(zhǔn)。這種割裂導(dǎo)致了信息的丟失——即使識(shí)別系統(tǒng)能夠捕捉到副語言信息,合成系統(tǒng)也無法有效利用這些信息來生成更自然的語音。
NVSpeech系統(tǒng)通過統(tǒng)一的標(biāo)記體系解決了這個(gè)問題。無論是語音識(shí)別、數(shù)據(jù)標(biāo)注還是語音合成,都使用相同的18種副語言標(biāo)記。這種一致性確保了信息的無縫傳遞:識(shí)別系統(tǒng)輸出的帶有副語言標(biāo)記的文本可以直接作為合成系統(tǒng)的輸入,實(shí)現(xiàn)端到端的處理。
這種統(tǒng)一框架的優(yōu)勢在實(shí)際應(yīng)用中得到了充分體現(xiàn)。當(dāng)用戶對著支持NVSpeech的系統(tǒng)說"今天天氣[嘆息]真是不太好啊"時(shí),系統(tǒng)不僅能夠準(zhǔn)確識(shí)別出用戶的無奈情緒,還能在回應(yīng)時(shí)恰當(dāng)?shù)丶尤胂鄳?yīng)的情感表達(dá),比如"是啊[同情的嘆息],希望明天會(huì)好一些"。整個(gè)交互過程變得更加自然流暢,就像是在與一個(gè)真正理解你情感的朋友對話。
從技術(shù)架構(gòu)角度來看,NVSpeech系統(tǒng)的設(shè)計(jì)體現(xiàn)了深刻的工程智慧。數(shù)據(jù)層面,通過"高質(zhì)量種子+大規(guī)模擴(kuò)展"的策略解決了副語言數(shù)據(jù)稀缺的問題;模型層面,通過"聯(lián)合訓(xùn)練+統(tǒng)一標(biāo)記"的方法實(shí)現(xiàn)了多模態(tài)信息的有效整合;應(yīng)用層面,通過"端到端+可控生成"的框架提供了靈活的部署選項(xiàng)。
系統(tǒng)的可擴(kuò)展性也是其重要特色。當(dāng)需要支持新的副語言類型時(shí),只需要在標(biāo)記體系中添加相應(yīng)標(biāo)簽,然后收集少量標(biāo)注數(shù)據(jù)進(jìn)行增量訓(xùn)練即可。這種模塊化設(shè)計(jì)確保了系統(tǒng)能夠隨著應(yīng)用需求的變化而持續(xù)演進(jìn)。
七、實(shí)驗(yàn)驗(yàn)證:數(shù)據(jù)說話的科學(xué)證明
任何技術(shù)創(chuàng)新都需要經(jīng)過嚴(yán)格的實(shí)驗(yàn)驗(yàn)證,NVSpeech系統(tǒng)也不例外。研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面而嚴(yán)格的實(shí)驗(yàn)來證明其有效性。
在副語言聲音識(shí)別任務(wù)上,研究團(tuán)隊(duì)比較了三種不同的基礎(chǔ)模型。PANNs作為傳統(tǒng)的音頻事件檢測模型,在精確度方面表現(xiàn)出色(0.84),但召回率相對較低(0.65),總體F1分?jǐn)?shù)為0.72。SenseVoice憑借其對語音事件的預(yù)訓(xùn)練優(yōu)勢,取得了最佳的綜合表現(xiàn):精確度0.84,召回率0.67,F(xiàn)1分?jǐn)?shù)0.73。而基于大語言模型的Qwen-Audio雖然在語義理解方面有優(yōu)勢,但在細(xì)粒度音頻事件檢測上表現(xiàn)稍遜,F(xiàn)1分?jǐn)?shù)為0.61。
副語言感知語音識(shí)別的實(shí)驗(yàn)結(jié)果更加令人興奮。在域內(nèi)測試集上,SenseVoice模型實(shí)現(xiàn)了4.61%的字符錯(cuò)誤率和93.4%的副語言聲音檢測率,F(xiàn)1分?jǐn)?shù)達(dá)到0.83。這意味著模型不僅能夠準(zhǔn)確轉(zhuǎn)錄語音內(nèi)容,還能捕捉到絕大部分的副語言表達(dá)。Paraformer在副語言檢測率方面表現(xiàn)突出,達(dá)到96.1%,顯示出其對音頻細(xì)節(jié)的敏感性。
開放域測試的結(jié)果更加驗(yàn)證了系統(tǒng)的泛化能力。面對包含各種口音、語速、噪音的真實(shí)世界語音,SenseVoice依然保持了3.79%的低錯(cuò)誤率和85%的高F1分?jǐn)?shù)。這個(gè)結(jié)果甚至超過了域內(nèi)測試的表現(xiàn),表明模型在處理多樣化語音時(shí)的強(qiáng)大適應(yīng)能力。
語音合成實(shí)驗(yàn)的結(jié)果同樣令人滿意??陀^指標(biāo)顯示,使用大規(guī)模自動(dòng)標(biāo)注數(shù)據(jù)訓(xùn)練的模型在各項(xiàng)指標(biāo)上都有顯著提升。相比僅使用人工標(biāo)注數(shù)據(jù)的模型,字符錯(cuò)誤率降低了12.8%,音質(zhì)評(píng)分也有明顯改善。
主觀評(píng)估的結(jié)果更加直觀地證明了系統(tǒng)的價(jià)值。在人工偏好測試中,78.7%的聽眾更喜歡包含副語言聲音的合成語音,認(rèn)為它們更加生動(dòng)自然。自然度評(píng)分達(dá)到3.9-4.0(滿分5分),音質(zhì)評(píng)分為4.04-3.96,這些分?jǐn)?shù)已經(jīng)接近人類語音的水平。
特別值得關(guān)注的是系統(tǒng)對不同類型副語言聲音的處理能力。實(shí)驗(yàn)結(jié)果顯示,生理性聲音如笑聲、咳嗽的識(shí)別和合成效果最佳,準(zhǔn)確率超過90%。韻律性語氣詞的處理稍有挑戰(zhàn),但仍然達(dá)到了80%以上的準(zhǔn)確率。最具挑戰(zhàn)性的是情境相關(guān)的表達(dá),但即使在這些困難情況下,系統(tǒng)的表現(xiàn)也達(dá)到了70%以上的準(zhǔn)確率。
八、技術(shù)挑戰(zhàn)與解決方案:攻堅(jiān)克難的工程智慧
在NVSpeech系統(tǒng)的開發(fā)過程中,研究團(tuán)隊(duì)遇到了一系列技術(shù)挑戰(zhàn),他們的解決方案展現(xiàn)了深刻的工程智慧。
第一個(gè)挑戰(zhàn)是數(shù)據(jù)不平衡問題。在真實(shí)語音中,不同類型副語言聲音的出現(xiàn)頻率差異巨大。"呼吸"聲可能每分鐘出現(xiàn)十幾次,而"驚訝-呦"聲可能幾小時(shí)才出現(xiàn)一次。這種極端不平衡會(huì)導(dǎo)致模型過分關(guān)注高頻類別,而忽略低頻但同樣重要的表達(dá)。
研究團(tuán)隊(duì)采用了多種策略來解決這個(gè)問題。在訓(xùn)練數(shù)據(jù)準(zhǔn)備階段,他們使用了數(shù)據(jù)增強(qiáng)技術(shù),通過輕微改變語音的語速、音調(diào)等參數(shù)來增加稀有類別的樣本數(shù)量。在模型訓(xùn)練階段,他們引入了類別權(quán)重平衡機(jī)制,讓模型對稀有類別給予更多關(guān)注。此外,他們還使用了少樣本學(xué)習(xí)技術(shù),讓模型能夠從有限的樣本中學(xué)習(xí)新的副語言模式。
第二個(gè)挑戰(zhàn)是跨域泛化問題。游戲配音雖然表達(dá)豐富,但其語音風(fēng)格相對規(guī)范化,與真實(shí)世界的隨意對話存在差異。如何讓模型既能在游戲配音上表現(xiàn)優(yōu)秀,又能處理各種真實(shí)場景的語音,是一個(gè)重要挑戰(zhàn)。
解決方案是精心設(shè)計(jì)的多域訓(xùn)練策略。研究團(tuán)隊(duì)不僅使用了游戲配音數(shù)據(jù),還加入了來自不同來源的真實(shí)語音:脫口秀(表達(dá)夸張、情感強(qiáng)烈)、新聞訪談(語調(diào)平穩(wěn)、邏輯清晰)、體育解說(語速快、激情澎湃)、有聲讀物(語調(diào)優(yōu)美、表達(dá)標(biāo)準(zhǔn))。這種多樣化的訓(xùn)練讓模型學(xué)會(huì)了適應(yīng)不同語音風(fēng)格中副語言聲音的表達(dá)方式。
第三個(gè)挑戰(zhàn)是實(shí)時(shí)性要求。在實(shí)際應(yīng)用中,用戶希望語音識(shí)別和合成都能達(dá)到實(shí)時(shí)或近實(shí)時(shí)的效果。副語言處理的加入會(huì)增加計(jì)算復(fù)雜度,如何在保證準(zhǔn)確性的同時(shí)滿足實(shí)時(shí)性要求,是一個(gè)需要精心平衡的問題。
研究團(tuán)隊(duì)通過模型優(yōu)化和工程優(yōu)化兩個(gè)層面來解決這個(gè)問題。在模型層面,他們采用了知識(shí)蒸餾技術(shù),將大型模型的知識(shí)轉(zhuǎn)移到更小、更快的模型中。在工程層面,他們使用了模型量化、并行計(jì)算、緩存優(yōu)化等技術(shù)來提升運(yùn)行效率。最終實(shí)現(xiàn)的系統(tǒng)能夠在普通GPU上達(dá)到實(shí)時(shí)處理的性能要求。
第四個(gè)挑戰(zhàn)是評(píng)估標(biāo)準(zhǔn)的建立。副語言聲音的主觀性很強(qiáng),如何建立客觀、可重復(fù)的評(píng)估標(biāo)準(zhǔn)是一個(gè)難題。傳統(tǒng)的語音識(shí)別評(píng)估指標(biāo)(如詞錯(cuò)誤率)不能直接應(yīng)用于副語言處理,需要設(shè)計(jì)新的評(píng)估框架。
研究團(tuán)隊(duì)開發(fā)了多維度評(píng)估體系,結(jié)合客觀指標(biāo)和主觀評(píng)估??陀^指標(biāo)包括副語言聲音的檢測率、分類準(zhǔn)確率、時(shí)序?qū)R精度等。主觀評(píng)估則通過大規(guī)模人工聽測來評(píng)判自然度、表達(dá)力、情感準(zhǔn)確性等難以量化的指標(biāo)。這種綜合評(píng)估框架為副語言處理技術(shù)的發(fā)展提供了重要的標(biāo)準(zhǔn)化參考。
九、應(yīng)用前景:開啟人機(jī)交互新篇章
NVSpeech系統(tǒng)的成功開發(fā)為人機(jī)交互領(lǐng)域打開了新的可能性。當(dāng)AI助手能夠理解和表達(dá)副語言聲音時(shí),整個(gè)交互體驗(yàn)將發(fā)生質(zhì)的飛躍。
在智能客服領(lǐng)域,支持副語言處理的AI客服能夠更好地理解客戶的情緒狀態(tài)。當(dāng)客戶說"我的訂單[嘆息]到現(xiàn)在還沒有發(fā)貨"時(shí),系統(tǒng)不僅能理解投訴內(nèi)容,還能感知到客戶的失望情緒,從而給出更加貼心的回應(yīng):"我理解您的擔(dān)心[同情語調(diào)],讓我立即為您查詢訂單狀態(tài)。"
在教育科技領(lǐng)域,具備副語言理解能力的AI教師能夠更準(zhǔn)確地判斷學(xué)生的學(xué)習(xí)狀態(tài)。當(dāng)學(xué)生回答問題時(shí)的猶豫、困惑、興奮等情緒都能被系統(tǒng)捕捉,從而調(diào)整教學(xué)策略和節(jié)奏。這種情感感知能力讓在線教育變得更加人性化和個(gè)性化。
在娛樂產(chǎn)業(yè)中,游戲角色、虛擬主播、AI伴侶等應(yīng)用將獲得更強(qiáng)的表現(xiàn)力。玩家與游戲角色的對話不再是生硬的文字交換,而是充滿情感色彩的真實(shí)交流。虛擬主播能夠根據(jù)直播內(nèi)容和觀眾反應(yīng),恰當(dāng)?shù)丶尤胄β?、驚訝聲等表達(dá),讓直播更加生動(dòng)有趣。
在輔助技術(shù)領(lǐng)域,NVSpeech系統(tǒng)為視障人士提供了更豐富的信息獲取方式。傳統(tǒng)的屏幕閱讀器只能傳達(dá)文字內(nèi)容,而支持副語言處理的系統(tǒng)能夠傳達(dá)更多的情感和語境信息,幫助視障用戶更好地理解交流內(nèi)容。
在心理健康領(lǐng)域,能夠識(shí)別副語言信號(hào)的AI系統(tǒng)可以作為心理狀態(tài)監(jiān)測的輔助工具。通過分析用戶語音中的嘆息、停頓、語調(diào)變化等信號(hào),系統(tǒng)可以初步判斷用戶的情緒狀態(tài),為專業(yè)心理健康服務(wù)提供參考。
然而,這些應(yīng)用也帶來了新的挑戰(zhàn)和責(zé)任。更加逼真的語音合成技術(shù)可能被濫用于制作虛假信息或進(jìn)行語音欺詐。研究團(tuán)隊(duì)也意識(shí)到了這些潛在風(fēng)險(xiǎn),呼吁在推廣技術(shù)應(yīng)用的同時(shí),建立相應(yīng)的倫理規(guī)范和技術(shù)防護(hù)措施。
十、技術(shù)局限與未來方向:持續(xù)演進(jìn)的探索之路
盡管NVSpeech系統(tǒng)取得了顯著成果,但研究團(tuán)隊(duì)也清醒地認(rèn)識(shí)到當(dāng)前技術(shù)的局限性。
首先是語言覆蓋的局限性。當(dāng)前系統(tǒng)主要針對中文進(jìn)行了深度優(yōu)化,雖然研究團(tuán)隊(duì)也在英文數(shù)據(jù)上進(jìn)行了初步驗(yàn)證,但要真正實(shí)現(xiàn)多語言支持,還需要針對不同語言的副語言特征進(jìn)行專門研究。每種語言的副語言表達(dá)都有其獨(dú)特的文化和語言特色,簡單的跨語言遷移可能無法達(dá)到理想效果。
其次是情境理解的挑戰(zhàn)。當(dāng)前系統(tǒng)主要基于聲學(xué)特征來識(shí)別副語言聲音,但在實(shí)際交流中,同一個(gè)聲音在不同情境下可能有完全不同的含義。一聲"哦"可能表示恍然大悟,也可能表示敷衍應(yīng)付,區(qū)分這些細(xì)微差別需要更深層的語義理解能力。
第三是個(gè)性化適應(yīng)的問題。不同的人有不同的表達(dá)習(xí)慣,有些人習(xí)慣用笑聲來掩飾尷尬,有些人則用嘆息來表達(dá)思考。當(dāng)前的通用模型可能無法很好地適應(yīng)個(gè)體差異,未來需要發(fā)展更加個(gè)性化的副語言處理技術(shù)。
針對這些局限性,研究團(tuán)隊(duì)也提出了未來的發(fā)展方向。在技術(shù)層面,他們計(jì)劃引入更強(qiáng)的上下文建模能力,讓系統(tǒng)能夠結(jié)合對話歷史、場景信息等多種線索來理解副語言聲音的真實(shí)含義。在數(shù)據(jù)層面,他們計(jì)劃擴(kuò)大數(shù)據(jù)收集的范圍,涵蓋更多語言、更多場景、更多說話者類型。在應(yīng)用層面,他們計(jì)劃開發(fā)更加智能的個(gè)性化適應(yīng)機(jī)制,讓系統(tǒng)能夠?qū)W習(xí)和適應(yīng)不同用戶的表達(dá)特點(diǎn)。
研究團(tuán)隊(duì)還計(jì)劃探索副語言處理與其他AI技術(shù)的結(jié)合。例如,結(jié)合計(jì)算機(jī)視覺技術(shù)來分析面部表情和肢體語言,形成更全面的情感理解系統(tǒng);結(jié)合自然語言處理技術(shù)來更好地理解語言內(nèi)容與副語言信號(hào)之間的關(guān)系;結(jié)合強(qiáng)化學(xué)習(xí)技術(shù)來優(yōu)化人機(jī)交互中副語言表達(dá)的時(shí)機(jī)和方式。
從更長遠(yuǎn)的角度來看,副語言處理技術(shù)的發(fā)展可能會(huì)推動(dòng)整個(gè)人工智能領(lǐng)域向更加人性化的方向演進(jìn)。當(dāng)AI系統(tǒng)能夠理解和表達(dá)人類交流中的細(xì)微情感時(shí),人機(jī)之間的邊界將變得更加模糊,這既是技術(shù)發(fā)展的巨大機(jī)遇,也是需要謹(jǐn)慎應(yīng)對的挑戰(zhàn)。
說到底,NVSpeech系統(tǒng)的意義不僅在于技術(shù)本身的創(chuàng)新,更在于它為構(gòu)建更加自然、更加人性化的人機(jī)交互體驗(yàn)提供了重要基礎(chǔ)。正如研究團(tuán)隊(duì)在論文中所說,真正的人機(jī)交流不應(yīng)該僅僅停留在信息傳遞的層面,而應(yīng)該包含情感、態(tài)度、意圖等豐富的表達(dá)維度。當(dāng)機(jī)器能夠像人類一樣"有聲有色"地表達(dá)時(shí),我們與AI之間的關(guān)系也將發(fā)生根本性的改變。
這項(xiàng)研究為我們展現(xiàn)了一個(gè)充滿可能性的未來:在那里,與AI對話就像與朋友聊天一樣自然舒適,機(jī)器不再是冰冷的工具,而是能夠理解我們情感、回應(yīng)我們需求的智能伙伴。雖然這個(gè)未來還需要更多的技術(shù)突破和時(shí)間積累,但NVSpeech系統(tǒng)已經(jīng)為我們點(diǎn)亮了前進(jìn)路上的一盞明燈。對于有興趣深入了解這項(xiàng)技術(shù)的讀者,完整的研究論文和數(shù)據(jù)集都可以通過 https://nvspeech170k.github.io/ 獲取,相信這項(xiàng)研究將為更多的技術(shù)創(chuàng)新提供寶貴的參考和靈感。
Q&A
Q1:NVSpeech系統(tǒng)能識(shí)別和生成哪些類型的副語言聲音?
A:NVSpeech系統(tǒng)能夠處理18種不同類型的副語言聲音,包括生理性的非語言發(fā)聲(如笑聲、咳嗽聲、嘆息聲、呼吸聲),韻律性和態(tài)度性的語氣詞(如表示確認(rèn)的"嗯"、表示疑問的"啊"、表示驚訝的"哦"),以及話語標(biāo)記(如思考時(shí)的"嗯嗯"聲)。這些聲音涵蓋了中文日常交流中最常見和最具功能性的副語言表達(dá)。
Q2:NVSpeech系統(tǒng)的數(shù)據(jù)集規(guī)模有多大,是如何構(gòu)建的?
A:NVSpeech數(shù)據(jù)集包含174,179條語音記錄,總時(shí)長573.4小時(shí),是目前世界上最大的詞級(jí)別標(biāo)注中文副語言語音數(shù)據(jù)庫。構(gòu)建過程分為兩個(gè)階段:首先研究團(tuán)隊(duì)手工標(biāo)注了48,430句高質(zhì)量語音數(shù)據(jù),然后使用訓(xùn)練好的AI模型自動(dòng)標(biāo)注了大規(guī)模語音數(shù)據(jù)。數(shù)據(jù)來源包括游戲配音、脫口秀、訪談等多種場景,確保了表達(dá)的豐富性和自然性。
Q3:使用NVSpeech技術(shù)的語音助手與傳統(tǒng)語音助手有什么不同?
A:最大的不同在于表達(dá)的自然度和情感理解能力。傳統(tǒng)語音助手只能處理文字內(nèi)容,說話像機(jī)器人一樣刻板。而支持NVSpeech技術(shù)的助手能夠理解用戶語音中的嘆息、猶豫、笑聲等情感信號(hào),并在回應(yīng)時(shí)也加入相應(yīng)的情感表達(dá),使整個(gè)對話過程更像是與真人朋友聊天一樣自然流暢。這種技術(shù)讓人機(jī)交互變得更加人性化和富有感情色彩。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對培養(yǎng)AI空間智能的重要價(jià)值。