科技行者 8月30日 北京消息:28日,搜狗在京舉辦了開放聽寫服務(wù)暨AI創(chuàng)新聯(lián)盟發(fā)布會。發(fā)布會現(xiàn)場,搜狗官宣開放“搜狗聽寫”服務(wù),讓更多的錄音筆廠商享受AI紅利,并與愛國者,索尼,紐曼,萬城集團(tuán)四大頭部錄音筆廠商成立AI創(chuàng)新聯(lián)盟。
搜狗介紹,目前搜狗輸入法語音請求峰值已超7億次,穩(wěn)居全球最大的中文語音應(yīng)用,依托于此,搜狗聽寫服務(wù)背后的轉(zhuǎn)寫技術(shù)已處于行業(yè)領(lǐng)先地位。其中,實(shí)時(shí)語音轉(zhuǎn)寫運(yùn)用了搜狗自研的延遲可控的Adaptive Attention-based端到端建模技術(shù),非實(shí)時(shí)語音轉(zhuǎn)寫功能使用業(yè)界領(lǐng)先的深層Transformer-based端到端語音識別技術(shù),語音轉(zhuǎn)寫準(zhǔn)確率可達(dá)95%以上;在語音增強(qiáng)方面,搜狗自研的Smart Voice麥克風(fēng)陣列算法能夠?qū)υ肼暫突祉戇M(jìn)行多重深度優(yōu)化,確保人聲的高保真還原;在智能輔助編輯方面,搜狗語音轉(zhuǎn)寫可以通過云端智能糾錯編輯技術(shù),基于詞圖搜索和輸入糾錯模型,針對置信度低的轉(zhuǎn)寫結(jié)果提供多個(gè)候選詞,幫助用戶對轉(zhuǎn)寫結(jié)果進(jìn)行糾正,同時(shí)還具備了良好的自動區(qū)分說話人、智能文本順滑和標(biāo)點(diǎn)預(yù)測等能力,可以為用戶提供更多便捷功能。
搜狗表示,自今年3月份發(fā)布一代搜狗智能錄音筆C1后,Q2時(shí)間里C1多次榮獲各大主流電商平臺銷冠,并宣布上周又發(fā)布了黃、紅、白等時(shí)尚炫彩版智能錄音筆,以滿足用戶多元化的需求。據(jù)悉,錄音筆C1擁有實(shí)時(shí)互譯、云端分享、中英同傳等多種AI功能。
值得一提的是,本次搜狗聽寫服務(wù)實(shí)現(xiàn)了與搜狗輸入法的打通,這不僅為聽寫服務(wù)帶來了流量和數(shù)據(jù)上的巨大優(yōu)勢,同時(shí)更是搜狗輸入法“表達(dá)信息更簡單”使命的延伸,也是搜狗聽寫服務(wù)相比其他語音轉(zhuǎn)寫平臺的優(yōu)勢所在。目前搜狗輸入法在PC端占有99%的市場份額,在手機(jī)端用戶日活超4.5億,搜狗聽寫服務(wù)基于搜狗輸入法的用戶使用習(xí)慣,能夠自動構(gòu)建個(gè)性化識別網(wǎng)絡(luò),使用戶常用語錯誤率下降40%。搜狗開放聽寫服務(wù)后,可以為市場上90%以上的錄音筆產(chǎn)品提供接入服務(wù),讓所有有需求的用戶享受“錄音1小時(shí),出稿5分鐘”的極致體驗(yàn)。
會上,搜狗與錄音筆行業(yè)的幾家頭部企業(yè)達(dá)成AI創(chuàng)新聯(lián)盟。聯(lián)盟達(dá)成將使錄音筆行業(yè)從以硬件為主的單一收益模式向硬件+服務(wù)的多種收益模式轉(zhuǎn)變,促進(jìn)錄音筆行業(yè)實(shí)現(xiàn)全面智能升級,與AI創(chuàng)新深度融合。通過AI錄音筆創(chuàng)新、開放搜狗語音轉(zhuǎn)寫服務(wù)、建立AI創(chuàng)新聯(lián)盟,搜狗正從產(chǎn)品、技術(shù)與產(chǎn)業(yè)鏈三個(gè)方向,引領(lǐng)著錄音筆行業(yè)進(jìn)入AI時(shí)代。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。