蘋果Siri在語音識別技術(shù)領(lǐng)域引領(lǐng)了一次革命,但遠(yuǎn)遠(yuǎn)不夠。語音識別技術(shù)要全面影響人機(jī)交互,必須要讓語音識別技術(shù)普及到每一個國家、每一個地區(qū)、每一個人。特別是當(dāng)前智能終端的高速發(fā)展,可穿戴設(shè)備、無人駕駛汽車、智能電視、智能家居……更需要懂得不同地域自然人的語言。
德國知名學(xué)者威廉·馮·洪堡曾說過:“每種語言都反映了一個民族的精神和智慧。”盡管文字、圖片、動作、表情等能傳遞人們的思想,但語言是其中最重要的媒介,是人類文明多樣化成果的載體。保護(hù)民族語言和搶救瀕危語言就是保護(hù)多樣性的民族文化,同時也是保障各民族成員的平等權(quán)利。
我國56個民族有多達(dá)129種獨立語言,特定使用區(qū)域和人群具有不同發(fā)音、詞匯和語法體系,除了統(tǒng)一標(biāo)準(zhǔn)的普通話,諸多地方方言素有“十里不同音”之說。針對這一現(xiàn)象科大訊飛最新研發(fā)了前沿的方言語音識別技術(shù),讓機(jī)器能夠聽懂粵語、四川話、東北話、上海話、閩南話、湖南話、河南話等各地方言,極大滿足了各行業(yè)需求。
那么,科大訊飛此項技術(shù)是如何突破方言識別難題的?從基本層面來看,普通話有400個單音節(jié)聲音,根據(jù)聲調(diào)予以區(qū)別;而方言發(fā)音則相對復(fù)雜,需要根據(jù)不同發(fā)音特性采用不同的特征識別方法,大致為:聲類特征識別、韻類特征識別、調(diào)類特征識別和方言詞匯識別。科大訊飛針對方言定制出專有語音識別引擎,使用純正的方言語料庫進(jìn)行訓(xùn)練,確保能夠用于口音較重的方言用戶使用。
從2012年起,訊飛語音云在聲學(xué)和語言建模中取得很多成果,同時在噪音和口音等方面都突破了技術(shù)難題,在全行業(yè)遙遙領(lǐng)先。“方言語音識別”是公司在云計算語音聽寫技術(shù)基礎(chǔ)上,為擴(kuò)大語音使用群體,滿足不同地域用戶自然便捷的語音使用需求而進(jìn)行的技術(shù)創(chuàng)新,具有自適應(yīng)性和穩(wěn)定性。該技術(shù)成果將形成明顯的差異化競爭優(yōu)勢,為公司主營業(yè)務(wù)帶來積極影響,還能提高相關(guān)應(yīng)用的用戶黏性。
一般而言語音識別技術(shù)最先應(yīng)用于語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、簡單的聽寫數(shù)據(jù)錄入等,但此次方言語音識別技術(shù)將率先應(yīng)用于手機(jī)輸入法,并逐步推廣到其他應(yīng)用中。目前,智能手機(jī)和平板電腦都已拋棄鼠標(biāo)鍵盤,語音輸入正成為日常習(xí)慣,對老人和小孩都很適用;同時,手機(jī)輸入法作為移動互聯(lián)網(wǎng)新型入口,面向休閑娛樂、商務(wù)辦公、人際交流、教育教學(xué)等生活中的方方面面,具有海量的使用人群,能夠更快的提升應(yīng)用能力。因此,手機(jī)輸入法是語音應(yīng)用的最好形態(tài)。
方言語音識別技術(shù)是繼離線語音之后科大訊飛又一次率先推出的革命性技術(shù),除了支持中文普通話、英文,方言語音識別能夠讓更多用戶擁有近乎完美、沒有錯誤的語音輸入體驗。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。