科技行者 7月10日 北京消息:近日,阿里發(fā)布新一代語音合成技術(shù)KAN-TTS,大幅提高合成語音與真人發(fā)聲的相似度,并將語音合成定制成本降低10倍以上。
阿里AI的這項(xiàng)突破,將問世80年的語音合成(TTS)技術(shù)推向幾可亂真的水平,有望通過圖靈測(cè)試。
當(dāng)前業(yè)界商用系統(tǒng)的合成語音與原始音頻錄音的接近程度通常在85%到90%之間,而基于KAN-TTS技術(shù)的合成語音可將該數(shù)據(jù)提高到97%以上。
KAN-TTS由達(dá)摩院機(jī)器智能實(shí)驗(yàn)室自主研發(fā),深度融合了目前主流的端到端TTS技術(shù)和傳統(tǒng)TTS技術(shù),從多個(gè)方面改進(jìn)了語音合成。
傳統(tǒng)語音合成定制需要10小時(shí)以上的數(shù)據(jù)錄制和標(biāo)注,對(duì)錄音人和錄音環(huán)境要求很高。從啟動(dòng)定制到最終交付,項(xiàng)目周期長(zhǎng)成本高。
阿里利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結(jié)合的方法,將語音合成定制成本降低10倍以上,周期壓縮3倍以上。也就是說,用1小時(shí)有效錄音數(shù)據(jù)和不到兩個(gè)月制作周期,就能完成一次標(biāo)準(zhǔn)TTS定制。
普通用戶定制“AI聲音”的門檻更低。只需手機(jī)錄音十分鐘,就能獲得與錄制聲音高度相似的合成語音。阿里AI做到這一點(diǎn),主要基于自動(dòng)數(shù)據(jù)檢查、自動(dòng)標(biāo)注方法和對(duì)海量用戶場(chǎng)景的利用。
阿里已經(jīng)對(duì)外提供開箱即用的TTS解決方案,共有通用、客服、童聲、英文和方言5個(gè)場(chǎng)景的34種高品質(zhì)聲音供選擇。
基于新一代技術(shù),阿里還顯著提高了設(shè)備端離線TTS的效果。這在超低資源設(shè)備端的TTS服務(wù)中非常有用,比如當(dāng)人們駕車行駛于信號(hào)微弱區(qū)域,阿里技術(shù)能避免語音導(dǎo)航“掉線”。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。