這項(xiàng)由南加州大學(xué)的馮恬恬等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年8月,題為《Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe》。有興趣深入了解的讀者可以通過https://github.com/tiantiaf0627/voxlect訪問完整研究成果和代碼。這項(xiàng)研究就像是為AI打造了一副"語言學(xué)家的耳朵",能夠準(zhǔn)確分辨出同一種語言在不同地區(qū)的細(xì)微差別。
當(dāng)你聽到一個(gè)美國人說英語和一個(gè)印度人說英語時(shí),雖然都是同一種語言,但你能立刻察覺到明顯的差異。這種差異就是我們常說的方言或口音。然而,對(duì)于計(jì)算機(jī)來說,識(shí)別這些細(xì)微的語言變化卻是一項(xiàng)極其復(fù)雜的挑戰(zhàn)。南加州大學(xué)的研究團(tuán)隊(duì)就像是在訓(xùn)練一位"數(shù)字語言學(xué)家",讓AI能夠像人類語言專家一樣,準(zhǔn)確識(shí)別出不同地區(qū)、不同文化背景下同一種語言的變體。
這項(xiàng)研究的重要性就好比為全球語言多樣性繪制了一張?jiān)敿?xì)的聲音地圖。在現(xiàn)實(shí)生活中,當(dāng)你使用語音助手或語音識(shí)別軟件時(shí),是否曾經(jīng)遇到過系統(tǒng)無法準(zhǔn)確理解你說話的情況?這往往是因?yàn)檫@些系統(tǒng)主要基于標(biāo)準(zhǔn)語音進(jìn)行訓(xùn)練,對(duì)方言和地方口音的識(shí)別能力有限。研究團(tuán)隊(duì)正是要解決這個(gè)普遍存在的問題,讓AI技術(shù)能夠更好地服務(wù)于全球不同語言背景的用戶。
研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為Voxlect的綜合評(píng)測(cè)平臺(tái),這個(gè)平臺(tái)就像是一個(gè)龐大的語言博物館,收集了超過200萬條來自30個(gè)公開數(shù)據(jù)集的語音樣本。這些樣本涵蓋了11種主要語言系統(tǒng),包括英語、阿拉伯語、中文(普通話和粵語)、藏語、印度語系、泰語、西班牙語、法語、德語、巴西葡萄牙語和意大利語。每種語言都包含了多個(gè)地區(qū)變體,形成了一個(gè)前所未有的多語言方言識(shí)別數(shù)據(jù)庫。
一、破解語言密碼:AI如何學(xué)會(huì)分辨世界各地的方言
要讓AI學(xué)會(huì)識(shí)別方言,就好比教一個(gè)從未離開過家鄉(xiāng)的人學(xué)會(huì)分辨世界各地的不同口音。研究團(tuán)隊(duì)首先面臨的挑戰(zhàn)是如何標(biāo)準(zhǔn)化不同數(shù)據(jù)集中的方言標(biāo)簽。這個(gè)過程就像是為一個(gè)巨大的圖書館重新整理分類系統(tǒng),確保相同性質(zhì)的語言變體被歸入同一類別。
以英語為例,研究團(tuán)隊(duì)將英語方言分為多個(gè)主要類別。北美地區(qū)和英倫三島構(gòu)成了兩個(gè)基礎(chǔ)分類,在英倫三島內(nèi)部,他們進(jìn)一步區(qū)分了英格蘭英語、蘇格蘭英語、北愛爾蘭英語、威爾士英語和愛爾蘭英語。對(duì)于其他地區(qū),他們按照地理和語言學(xué)特征進(jìn)行分組,比如將亞洲地區(qū)的英語分為東亞、南亞和東南亞三大類,這樣就能涵蓋印度英語、新加坡英語等重要變體。同時(shí),他們還考慮了說話者的母語背景影響,將方言按照語言家族進(jìn)行分類,如日耳曼語族背景(德國人說英語)、斯拉夫語族背景(俄國人說英語)等。
對(duì)于中文方言的處理更加精細(xì)化。研究團(tuán)隊(duì)遵循了中國語言學(xué)界的傳統(tǒng)分類方法,將普通話分為七個(gè)主要方言區(qū):官話(包括北京話、東北話)、晉魯官話、西南官話、江淮官話、蘭銀官話、中原官話和膠遼官話。考慮到北京話、東北話與標(biāo)準(zhǔn)普通話在語言學(xué)上的相似性,他們將這三者合并為一個(gè)類別。此外,他們還加入了粵語作為獨(dú)立的中文方言類別,這樣就形成了一個(gè)涵蓋中國主要語言變體的完整系統(tǒng)。
阿拉伯語的分類則遵循了該領(lǐng)域的既有研究傳統(tǒng),將其分為五個(gè)主要方言群:埃及方言、黎凡特方言(如黎巴嫩)、半島方言(如沙特阿拉伯)、馬格里布方言(如摩洛哥)以及現(xiàn)代標(biāo)準(zhǔn)阿拉伯語。這種分類方式反映了阿拉伯世界的地理分布和歷史文化差異。
二、構(gòu)建智能語言分析師:三大AI模型的方言識(shí)別能力
研究團(tuán)隊(duì)選擇了三類代表性的語音基礎(chǔ)模型來構(gòu)建他們的"數(shù)字語言學(xué)家"。這個(gè)過程就像是訓(xùn)練三種不同類型的專業(yè)翻譯,每種都有其獨(dú)特的優(yōu)勢(shì)和特長。
第一類是Whisper系列模型,這是由OpenAI開發(fā)的多語言語音識(shí)別模型。Whisper就像是一位博學(xué)的國際翻譯,它在大量多語言數(shù)據(jù)上進(jìn)行訓(xùn)練,具備了強(qiáng)大的跨語言理解能力。研究團(tuán)隊(duì)測(cè)試了Whisper的三個(gè)版本:Tiny、Small和Large,規(guī)模從小到大,性能也逐步提升。Whisper-Large在大多數(shù)方言識(shí)別任務(wù)中表現(xiàn)最佳,特別是在阿拉伯語方言識(shí)別上取得了94.2%的準(zhǔn)確率,在泰語方言識(shí)別上達(dá)到了96.3%的準(zhǔn)確率。
第二類是MMS(Massively Multilingual Speech)模型,這是Meta公司開發(fā)的大規(guī)模多語言語音模型。MMS就像是一位專門研究世界語言多樣性的學(xué)者,它在超過1000種語言上進(jìn)行訓(xùn)練,對(duì)語言的多樣性有著深刻的理解。研究中使用的MMS-LID-256模型在語言識(shí)別任務(wù)上經(jīng)過專門優(yōu)化,在德語方言識(shí)別上取得了96.8%的準(zhǔn)確率,在巴西葡萄牙語方言識(shí)別上更是達(dá)到了99.1%的驚人準(zhǔn)確率。
第三類是WavLM模型,這是微軟開發(fā)的自監(jiān)督語音表示學(xué)習(xí)模型。與前兩者不同,WavLM主要在英語數(shù)據(jù)上訓(xùn)練,就像是一位英語語言專家。雖然在多語言環(huán)境下的表現(xiàn)不如前兩者,但在英語相關(guān)任務(wù)上仍有一定的競(jìng)爭(zhēng)力。研究結(jié)果顯示,多語言模型在方言識(shí)別任務(wù)上明顯優(yōu)于單語言模型,這個(gè)發(fā)現(xiàn)對(duì)于未來的語音技術(shù)發(fā)展具有重要指導(dǎo)意義。
研究團(tuán)隊(duì)還設(shè)計(jì)了一套巧妙的模型架構(gòu)來提升方言識(shí)別性能。這個(gè)架構(gòu)就像是為AI配備了一套精密的"聽力分析設(shè)備"。首先,系統(tǒng)會(huì)對(duì)所有編碼器層的隱藏狀態(tài)進(jìn)行加權(quán)平均,這相當(dāng)于讓AI從多個(gè)角度同時(shí)分析語音特征。然后,通過一維卷積層進(jìn)行特征提取和處理,最后通過平均池化和全連接層得到最終的分類結(jié)果。為了進(jìn)一步提升性能,他們還引入了LoRA(Low-Rank Adaptation)技術(shù),這種技術(shù)能夠在保持模型核心能力的同時(shí),高效地適應(yīng)特定的方言識(shí)別任務(wù)。
三、揭秘地理與語言的神秘聯(lián)系:相鄰地區(qū)方言更容易混淆
研究團(tuán)隊(duì)的一個(gè)重要發(fā)現(xiàn)就像是為語言地理學(xué)提供了數(shù)據(jù)支撐:地理位置越近的方言,AI越容易將它們混淆。這個(gè)現(xiàn)象反映了語言演化的基本規(guī)律——相鄰地區(qū)的人們由于頻繁的交流和接觸,他們的語言變體往往具有更多的相似性。
以西班牙語為例,研究團(tuán)隊(duì)發(fā)現(xiàn)加勒比海地區(qū)的西班牙語和中美洲的西班牙語經(jīng)常被系統(tǒng)誤判為安第斯-太平洋地區(qū)的西班牙語,這種混淆率達(dá)到了16.2%。這種現(xiàn)象并非偶然,因?yàn)檫@些地區(qū)在歷史上都屬于西班牙殖民體系,有著相似的語言發(fā)展軌跡和文化背景。相比之下,歐洲的半島西班牙語與拉丁美洲各地區(qū)的西班牙語變體之間的混淆率要低得多,這反映了地理距離和歷史分離對(duì)語言分化的影響。
在中文方言的分析中,這種地理鄰近效應(yīng)更加明顯。中原官話和晉魯官話之間的混淆率高達(dá)21.3%,這兩個(gè)方言區(qū)在地理上相鄰,歷史上也有著密切的文化交流。相比之下,粵語與各種官話之間的混淆率就低得多,這反映了粵語作為一個(gè)相對(duì)獨(dú)立的語言系的特殊地位。
這種地理鄰近效應(yīng)的發(fā)現(xiàn)具有重要的實(shí)用價(jià)值。對(duì)于語音識(shí)別系統(tǒng)的開發(fā)者來說,這意味著在設(shè)計(jì)方言識(shí)別算法時(shí)需要特別關(guān)注地理相鄰地區(qū)的語言差異,可能需要收集更多的訓(xùn)練數(shù)據(jù)或采用更精細(xì)的特征提取方法來區(qū)分這些相似的方言變體。同時(shí),這個(gè)發(fā)現(xiàn)也為語言學(xué)研究提供了新的數(shù)據(jù)支持,證明了語言接觸理論在現(xiàn)代語音技術(shù)中的應(yīng)用價(jià)值。
四、檢驗(yàn)AI的抗干擾能力:噪音環(huán)境下的方言識(shí)別挑戰(zhàn)
現(xiàn)實(shí)世界中的語音識(shí)別往往面臨各種干擾因素,就像在嘈雜的咖啡廳里試圖聽清朋友的話一樣困難。研究團(tuán)隊(duì)專門測(cè)試了不同AI模型在噪音環(huán)境下的方言識(shí)別能力,這項(xiàng)測(cè)試就像是讓AI在各種"惡劣天氣"下工作。
他們?cè)O(shè)計(jì)了三種不同強(qiáng)度的噪音干擾場(chǎng)景,用信噪比來衡量:25分貝(相當(dāng)于安靜的圖書館環(huán)境)、15分貝(相當(dāng)于普通辦公室環(huán)境)和5分貝(相當(dāng)于嘈雜的餐廳環(huán)境)。測(cè)試結(jié)果顯示,在輕度和中度噪音環(huán)境下,Whisper-Large和MMS-LID-256兩個(gè)模型都表現(xiàn)出了相當(dāng)?shù)姆€(wěn)定性,性能下降幅度較小。然而,當(dāng)噪音強(qiáng)度達(dá)到5分貝的高干擾水平時(shí),兩個(gè)模型的表現(xiàn)出現(xiàn)了分化。
Whisper-Large模型展現(xiàn)出了更強(qiáng)的噪音抵抗能力,這可能得益于其在大規(guī)模多樣化數(shù)據(jù)上的訓(xùn)練經(jīng)歷。相比之下,MMS-LID-256在高噪音環(huán)境下的性能下降更為明顯。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用具有重要意義,比如在車載語音系統(tǒng)或戶外語音助手的開發(fā)中,選擇抗噪能力更強(qiáng)的模型顯然更為合適。
除了噪音干擾測(cè)試,研究團(tuán)隊(duì)還探討了語音長度對(duì)識(shí)別準(zhǔn)確性的影響。他們以6秒為分界點(diǎn),比較了短語音和長語音的識(shí)別效果。結(jié)果發(fā)現(xiàn),在大多數(shù)情況下,較長的語音樣本能夠提供更多的語言特征信息,從而獲得更好的識(shí)別結(jié)果。特別是在印度語系的方言識(shí)別中,長語音樣本的識(shí)別準(zhǔn)確率比短語音樣本高出約0.3個(gè)F1分?jǐn)?shù),這個(gè)提升雖然看似微小,但在實(shí)際應(yīng)用中可能意味著顯著的用戶體驗(yàn)改善。
五、實(shí)戰(zhàn)應(yīng)用展示:讓語音技術(shù)更公平更智能
研究團(tuán)隊(duì)不滿足于僅僅證明AI能夠識(shí)別方言,他們進(jìn)一步展示了這項(xiàng)技術(shù)在實(shí)際應(yīng)用中的價(jià)值。這就像是將實(shí)驗(yàn)室里的研究成果轉(zhuǎn)化為能夠改善人們?nèi)粘I畹膶?shí)用工具。
第一個(gè)應(yīng)用場(chǎng)景是語音識(shí)別系統(tǒng)的性能分析。當(dāng)前許多語音識(shí)別系統(tǒng)在處理不同方言時(shí)存在明顯的偏差,就像一個(gè)只在標(biāo)準(zhǔn)普通話環(huán)境中長大的人,在面對(duì)方言時(shí)可能會(huì)出現(xiàn)理解困難。研究團(tuán)隊(duì)使用他們訓(xùn)練好的方言識(shí)別模型來分析現(xiàn)有語音識(shí)別系統(tǒng)的表現(xiàn)差異。
在德語的測(cè)試中,他們發(fā)現(xiàn)標(biāo)記為"德語(非北威州地區(qū))"的語音樣本在自動(dòng)語音識(shí)別中的錯(cuò)誤率明顯低于標(biāo)記為"奧地利德語"、"瑞士德語"或"其他德語變體"的樣本。這個(gè)發(fā)現(xiàn)揭示了當(dāng)前語音識(shí)別技術(shù)存在的地域偏差問題。類似地,在中文普通話的測(cè)試中,標(biāo)準(zhǔn)普通話的識(shí)別準(zhǔn)確率始終高于各種地方方言,其中西南官話的錯(cuò)誤率最高。
更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn)使用他們的方言識(shí)別模型預(yù)測(cè)出的方言標(biāo)簽與真實(shí)標(biāo)簽在分析語音識(shí)別性能趨勢(shì)時(shí)產(chǎn)生了幾乎一致的結(jié)果。這意味著即使在沒有準(zhǔn)確方言標(biāo)注的數(shù)據(jù)集上,也可以使用Voxlect系統(tǒng)來自動(dòng)識(shí)別方言類型,進(jìn)而分析語音識(shí)別系統(tǒng)的公平性問題。
第二個(gè)應(yīng)用場(chǎng)景是語音合成系統(tǒng)的質(zhì)量評(píng)估。隨著AI語音合成技術(shù)的發(fā)展,能夠生成不同方言語音的系統(tǒng)越來越多,但如何客觀評(píng)估合成語音的方言特征準(zhǔn)確性一直是個(gè)難題。研究團(tuán)隊(duì)將Voxlect應(yīng)用于中文方言語音合成系統(tǒng)的評(píng)估中。
他們使用了一個(gè)名為CosyVoice-2的語音合成系統(tǒng),要求它生成五種不同中文方言的語音:粵語、四川話(西南官話)、天津話(晉魯官話)、鄭州話(中原官話)和上海話(江淮官話)。然后,他們邀請(qǐng)了具有相應(yīng)方言背景的母語者對(duì)合成語音的方言特征進(jìn)行人工評(píng)分,同時(shí)使用Voxlect系統(tǒng)進(jìn)行自動(dòng)評(píng)分。
結(jié)果顯示,人工評(píng)分和自動(dòng)評(píng)分之間存在高度的一致性。天津話的合成效果最差,無論是人工評(píng)分(1.90分,滿分5分)還是自動(dòng)評(píng)分(20.5%的方言準(zhǔn)確率)都是最低的。相比之下,粵語的合成效果最好,人工評(píng)分達(dá)到3.50分,自動(dòng)評(píng)分也有53.4%的準(zhǔn)確率。這種一致性證明了Voxlect系統(tǒng)可以作為語音合成質(zhì)量評(píng)估的可靠工具,為開發(fā)更好的多方言語音合成系統(tǒng)提供客觀的評(píng)估標(biāo)準(zhǔn)。
六、技術(shù)突破的深遠(yuǎn)意義與未來展望
這項(xiàng)研究的價(jià)值遠(yuǎn)超技術(shù)層面的突破,它為構(gòu)建更加包容和公平的AI語音技術(shù)奠定了基礎(chǔ)。在全球化的今天,語言的多樣性不僅是文化財(cái)富,也是技術(shù)公平性的重要考量因素。
從技術(shù)公平性角度來看,當(dāng)前的語音技術(shù)往往偏向于標(biāo)準(zhǔn)語言變體,這就像是為右撇子設(shè)計(jì)的工具對(duì)左撇子來說使用起來并不方便。Voxlect的出現(xiàn)為解決這種技術(shù)偏見提供了可能。通過準(zhǔn)確識(shí)別和處理不同方言,未來的語音助手、自動(dòng)翻譯系統(tǒng)和語音識(shí)別軟件都可以為更廣泛的用戶群體提供更好的服務(wù)體驗(yàn)。
在教育領(lǐng)域,這項(xiàng)技術(shù)可能會(huì)帶來革命性的變化。對(duì)于那些母語不是標(biāo)準(zhǔn)語言變體的學(xué)生來說,傳統(tǒng)的語音學(xué)習(xí)軟件往往無法準(zhǔn)確識(shí)別他們的發(fā)音特點(diǎn),這可能會(huì)影響學(xué)習(xí)效果。而基于方言識(shí)別技術(shù)的教育軟件可以根據(jù)學(xué)生的語言背景提供個(gè)性化的學(xué)習(xí)方案,就像為每個(gè)學(xué)生配備了專門的語言教師。
在醫(yī)療健康領(lǐng)域,方言識(shí)別技術(shù)也具有重要的應(yīng)用潛力。語音分析在疾病診斷中越來越重要,特別是在神經(jīng)系統(tǒng)疾病和語言障礙的診斷中。然而,如果系統(tǒng)無法準(zhǔn)確區(qū)分正常的方言特征和病理性的語音變化,就可能導(dǎo)致誤診。Voxlect技術(shù)為開發(fā)更準(zhǔn)確的醫(yī)療語音分析系統(tǒng)提供了基礎(chǔ)。
研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前技術(shù)的局限性。首先,方言標(biāo)簽主要依賴于用戶自我報(bào)告,這可能存在標(biāo)注噪音。其次,研究受到了公開數(shù)據(jù)集可用性的限制,一些重要的方言變體仍然沒有被涵蓋,比如海南話等中國南方方言,以及許多非洲、東歐語言的地方變體。此外,系統(tǒng)的跨領(lǐng)域泛化能力還有待進(jìn)一步驗(yàn)證,比如在朗讀語音上訓(xùn)練的模型在自然對(duì)話語音上的表現(xiàn)如何。
未來的發(fā)展方向包括擴(kuò)大語言覆蓋范圍,特別是加入韓語、日語等亞洲語言的方言變體。研究團(tuán)隊(duì)還計(jì)劃將方言識(shí)別技術(shù)應(yīng)用于語音數(shù)據(jù)的自動(dòng)標(biāo)注,這將大大降低構(gòu)建多方言語音數(shù)據(jù)集的成本。同時(shí),他們也在探索如何將方言信息融入到語音合成和語音識(shí)別系統(tǒng)中,從而開發(fā)出更加智能和個(gè)性化的語音交互系統(tǒng)。
從更廣泛的社會(huì)影響來看,這項(xiàng)研究體現(xiàn)了技術(shù)發(fā)展中的人文關(guān)懷。在AI技術(shù)快速發(fā)展的今天,如何確保技術(shù)進(jìn)步能夠惠及所有人群,而不是加劇已有的數(shù)字鴻溝,是一個(gè)重要的議題。Voxlect的研究方向正是在這種思考下產(chǎn)生的,它提醒我們技術(shù)的進(jìn)步不應(yīng)該以犧牲語言多樣性為代價(jià),而應(yīng)該成為保護(hù)和傳承語言文化的工具。
研究團(tuán)隊(duì)將所有的代碼和模型在負(fù)責(zé)任AI許可證(RAIL)下開源,這種做法體現(xiàn)了學(xué)術(shù)界對(duì)技術(shù)倫理的重視。他們要求使用者必須尊重?cái)?shù)據(jù)主體的隱私和同意權(quán),并遵守相關(guān)的法律法規(guī)。這種負(fù)責(zé)任的開源策略為AI技術(shù)的健康發(fā)展樹立了良好的榜樣。
說到底,Voxlect不僅僅是一個(gè)技術(shù)工具,更是連接不同語言文化的橋梁。在這個(gè)日益全球化的世界里,保持語言多樣性和促進(jìn)技術(shù)包容性同樣重要。這項(xiàng)研究告訴我們,先進(jìn)的AI技術(shù)完全可以成為文化多樣性的守護(hù)者,而不是威脅者。當(dāng)我們的語音助手能夠理解世界各地的方言,當(dāng)我們的翻譯軟件能夠準(zhǔn)確處理地方語言變體,當(dāng)我們的教育技術(shù)能夠適應(yīng)每個(gè)學(xué)習(xí)者的語言背景時(shí),技術(shù)就真正實(shí)現(xiàn)了為人類服務(wù)的初衷。
對(duì)于普通用戶來說,這項(xiàng)研究的成果將在不久的將來體現(xiàn)在各種語音產(chǎn)品的改進(jìn)中。也許幾年后,當(dāng)你用帶有家鄉(xiāng)口音的普通話與手機(jī)對(duì)話時(shí),它不再會(huì)頻繁地說"對(duì)不起,我沒聽清",而是能夠準(zhǔn)確理解你的每一句話。這種改變看似微小,但對(duì)于數(shù)億使用方言的用戶來說,卻意味著技術(shù)真正走進(jìn)了他們的生活。
Q&A
Q1:Voxlect是什么?它能識(shí)別哪些語言的方言?
A:Voxlect是南加州大學(xué)開發(fā)的AI方言識(shí)別系統(tǒng),就像給AI裝上了"語言學(xué)家的耳朵"。它能準(zhǔn)確識(shí)別11種主要語言的方言差異,包括英語、阿拉伯語、中文(普通話和粵語)、藏語、印度語系、泰語、西班牙語、法語、德語、巴西葡萄牙語和意大利語。比如它能分辨出美式英語和印度英語的區(qū)別,或者識(shí)別出四川話和北京話的差異。
Q2:為什么相鄰地區(qū)的方言更容易被AI搞混?
A:這反映了語言演化的自然規(guī)律。地理位置相近的地區(qū)由于歷史上頻繁的人員往來和文化交流,他們的語言變體往往具有更多相似性。研究發(fā)現(xiàn),比如中原官話和晉魯官話的混淆率高達(dá)21.3%,而距離較遠(yuǎn)的粵語與普通話之間就很少被混淆。這就像鄰居之間的說話習(xí)慣會(huì)相互影響一樣。
Q3:普通人什么時(shí)候能用上這種方言識(shí)別技術(shù)?
A:這項(xiàng)技術(shù)的成果很快就會(huì)融入到各種語音產(chǎn)品中。未來幾年內(nèi),語音助手、翻譯軟件、語音輸入法等都將變得更加智能,能夠準(zhǔn)確理解帶有地方口音的語音。研究團(tuán)隊(duì)已經(jīng)將代碼開源,這意味著科技公司可以基于這項(xiàng)研究改進(jìn)他們的產(chǎn)品,讓技術(shù)真正服務(wù)于全球不同語言背景的用戶。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。