蘋果Siri在語(yǔ)音識(shí)別技術(shù)領(lǐng)域引領(lǐng)了一次革命,但遠(yuǎn)遠(yuǎn)不夠。語(yǔ)音識(shí)別技術(shù)要全面影響人機(jī)交互,必須要讓語(yǔ)音識(shí)別技術(shù)普及到每一個(gè)國(guó)家、每一個(gè)地區(qū)、每一個(gè)人。特別是當(dāng)前智能終端的高速發(fā)展,可穿戴設(shè)備、無(wú)人駕駛汽車、智能電視、智能家居……更需要懂得不同地域自然人的語(yǔ)言。
德國(guó)知名學(xué)者威廉·馮·洪堡曾說(shuō)過(guò):“每種語(yǔ)言都反映了一個(gè)民族的精神和智慧。”盡管文字、圖片、動(dòng)作、表情等能傳遞人們的思想,但語(yǔ)言是其中最重要的媒介,是人類文明多樣化成果的載體。保護(hù)民族語(yǔ)言和搶救瀕危語(yǔ)言就是保護(hù)多樣性的民族文化,同時(shí)也是保障各民族成員的平等權(quán)利。
我國(guó)56個(gè)民族有多達(dá)129種獨(dú)立語(yǔ)言,特定使用區(qū)域和人群具有不同發(fā)音、詞匯和語(yǔ)法體系,除了統(tǒng)一標(biāo)準(zhǔn)的普通話,諸多地方方言素有“十里不同音”之說(shuō)。針對(duì)這一現(xiàn)象科大訊飛最新研發(fā)了前沿的方言語(yǔ)音識(shí)別技術(shù),讓機(jī)器能夠聽(tīng)懂粵語(yǔ)、四川話、東北話、上海話、閩南話、湖南話、河南話等各地方言,極大滿足了各行業(yè)需求。
那么,科大訊飛此項(xiàng)技術(shù)是如何突破方言識(shí)別難題的?從基本層面來(lái)看,普通話有400個(gè)單音節(jié)聲音,根據(jù)聲調(diào)予以區(qū)別;而方言發(fā)音則相對(duì)復(fù)雜,需要根據(jù)不同發(fā)音特性采用不同的特征識(shí)別方法,大致為:聲類特征識(shí)別、韻類特征識(shí)別、調(diào)類特征識(shí)別和方言詞匯識(shí)別??拼笥嶏w針對(duì)方言定制出專有語(yǔ)音識(shí)別引擎,使用純正的方言語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,確保能夠用于口音較重的方言用戶使用。
從2012年起,訊飛語(yǔ)音云在聲學(xué)和語(yǔ)言建模中取得很多成果,同時(shí)在噪音和口音等方面都突破了技術(shù)難題,在全行業(yè)遙遙領(lǐng)先。“方言語(yǔ)音識(shí)別”是公司在云計(jì)算語(yǔ)音聽(tīng)寫技術(shù)基礎(chǔ)上,為擴(kuò)大語(yǔ)音使用群體,滿足不同地域用戶自然便捷的語(yǔ)音使用需求而進(jìn)行的技術(shù)創(chuàng)新,具有自適應(yīng)性和穩(wěn)定性。該技術(shù)成果將形成明顯的差異化競(jìng)爭(zhēng)優(yōu)勢(shì),為公司主營(yíng)業(yè)務(wù)帶來(lái)積極影響,還能提高相關(guān)應(yīng)用的用戶黏性。
一般而言語(yǔ)音識(shí)別技術(shù)最先應(yīng)用于語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、簡(jiǎn)單的聽(tīng)寫數(shù)據(jù)錄入等,但此次方言語(yǔ)音識(shí)別技術(shù)將率先應(yīng)用于手機(jī)輸入法,并逐步推廣到其他應(yīng)用中。目前,智能手機(jī)和平板電腦都已拋棄鼠標(biāo)鍵盤,語(yǔ)音輸入正成為日常習(xí)慣,對(duì)老人和小孩都很適用;同時(shí),手機(jī)輸入法作為移動(dòng)互聯(lián)網(wǎng)新型入口,面向休閑娛樂(lè)、商務(wù)辦公、人際交流、教育教學(xué)等生活中的方方面面,具有海量的使用人群,能夠更快的提升應(yīng)用能力。因此,手機(jī)輸入法是語(yǔ)音應(yīng)用的最好形態(tài)。
方言語(yǔ)音識(shí)別技術(shù)是繼離線語(yǔ)音之后科大訊飛又一次率先推出的革命性技術(shù),除了支持中文普通話、英文,方言語(yǔ)音識(shí)別能夠讓更多用戶擁有近乎完美、沒(méi)有錯(cuò)誤的語(yǔ)音輸入體驗(yàn)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。