CNET科技資訊網(wǎng) 11月23日 北京消息(文/周雅):在今年早些時候,百度曾經(jīng)利用情感語音合成技術(shù)還原了張國榮聲音,完成了一場“張國榮”與粉絲的“隔空對話”,從粉絲們的普遍反應來看,效果是可以的。而這只是百度語音的技術(shù)之一。
昨天,百度語音開放平臺上線三周年,百度公司首席科學家吳恩達對外介紹了百度四項最新語音技術(shù)——情感合成、遠場方案、喚醒二期技術(shù)和長語音方案,這些技術(shù)將免費開放給用戶和開發(fā)者。
“這些技術(shù)有很大的潛力,去徹底改變?nèi)藱C交互的效率和辦法。未來語音技術(shù)在很多應用場景有很好的機會,將為人機交互帶來巨大的改變。”吳恩達表示。
因為語音技術(shù)的加強,吳恩達對人工智能的未來很有信心,陪伴機器人、個性化私教、音樂作曲、機器人醫(yī)生都不是說說而已,人工智能的技術(shù)創(chuàng)造了很多可能,百度沒有辦法探索這些可能,所以就做一個背后的技術(shù)推手:“希望可以支持你們在非常有潛力的項目上探索,有非常好的結(jié)果。”
比如,開發(fā)者可以利用新的接口,使語音識別距離增加到3-5米,將設備的語音喚醒率提升到95%以上同時更省電誤報更少,或提升長時間語音識別的準確率問題。這將為語音技術(shù)帶來遠比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機。
百度希望這些技術(shù)能解決用戶在語音交互場合中普遍困擾的一些關(guān)鍵問題,腦洞開一開,才有各種新體驗。比如,百度把語音輸入放進自家產(chǎn)品中,包括手機百度、百度地圖、百度輸入法。
再比如,百度最近還把度秘放進各類硬件,變成“小度機器人人機語音交互點餐”,已在上海肯德基旗艦店工作,可遠距離隨時應答點餐。后者則已經(jīng)在諸多內(nèi)容記錄、智能客服、視頻轉(zhuǎn)寫等應用場景表現(xiàn)出巨大的想象空間。
來自斯坦福大學的人工智能專家James Landay也分享了一項與百度合作的最新研究成果,該研究發(fā)現(xiàn),智能手機在語音輸入時,速度比鍵盤輸入快3倍。他表示,“近兩年,受益于大數(shù)據(jù)和深度學習技術(shù)的不斷發(fā)展,語音識別技術(shù)突飛猛進,速度和準確性都有了進步。”
百度語音開放平臺目前的合作伙伴已涵蓋多個領(lǐng)域和場景,包括智能手機領(lǐng)域的聯(lián)想、中興;智能家居領(lǐng)域的長虹智能電視、康佳智能電視、SONY智能電視;汽車行業(yè)的特斯拉、途勝;智能設備領(lǐng)域的惠普、艾米通訊;智能服務領(lǐng)域的攜程、手機QQ閱讀等。
在“愛奇藝”手機客戶端,借助百度語音開放平臺,每天有百萬以上的愛奇藝用戶使用語音搜索,其中80%以上轉(zhuǎn)化為有效點擊。
《讀者》雜志也已經(jīng)使用百度情感語音為旗下雜志制作語音版。讀者甘肅數(shù)碼科技有限公司總經(jīng)理金大時說,讀者“數(shù)字農(nóng)家書屋”已在甘肅慶陽市試點成功,覆蓋65個新農(nóng)村,“很多不識字的老年人和留守兒童,語音合成讓他們也享受到了閱讀的樂趣。”
百度語音開放平臺自2013年10月上線以來,每日在線語音識別要求從2013年的500萬上升到今天的1億4千萬,在線語音合成每日請求達2億,開發(fā)者數(shù)量超過14萬。
百度方面表示,百度語音識別準確率目前達97%,今年2月,百度深度語音識別系統(tǒng)Deep Speech 2入選MIT 2016十大突破技術(shù)。包括語音技術(shù)在內(nèi)的百度大腦,入選2016第三屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會15大領(lǐng)先科技成果。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術(shù)普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關(guān)系領(lǐng)域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。