自2014年12月Skype Translator 推出英文和西班牙文之間的實時語音翻譯之后,此次在中國市場的發(fā)布是Skype Translator旅程中又一迭新,Skype Translator預覽版適用于Windows 8.1或Windows 10技術預覽版的客戶端或平板電腦客戶端。除了英文和中文普通話的語音翻譯之外,還支持四十多種語言的即時文本翻譯。
Skype Translator構建于機器學習平臺之上。通過在預覽版階段獲取的訓練數(shù)據(jù),加之其中的細微差別,軟件就能夠針對真實使用者的不同話題、口音與語言轉(zhuǎn)換進行學習,實現(xiàn)更好的識別和翻譯。
Skype Translator的機器學習協(xié)議訓練并優(yōu)化語音識別和機器翻譯任務,該協(xié)議促進對被識別的文本進行更好的翻譯。這個過程包括去除造成不流利的字詞(例如“啊”“嗯”以及重復措辭)、將文本分解成句子、添加標點符號和大小寫識別。
語音識別和機器翻譯的訓練數(shù)據(jù)來源多種多樣,包括翻譯的網(wǎng)頁、配有字幕的視頻,以及預先翻譯且轉(zhuǎn)錄成文字的一對一談話。Skype Translator通過記錄這些對話,來分析對話文本并訓練系統(tǒng)更好地“學習”各種語言。微軟官方稱,已經(jīng)有很多人與分享了他們過去的對話記錄,微軟對其進行了分析并為統(tǒng)計模型創(chuàng)造訓練數(shù)據(jù),該統(tǒng)計模型教會語音識別和機器翻譯引擎如何將收集到的語音轉(zhuǎn)換為文本信息,然后將文本信息轉(zhuǎn)換為另一種語言。使用Skype Translator的用戶都會在對話開始前得到清晰的系統(tǒng)提示,即對話將被錄制并用于提高微軟翻譯和語音識別服務的質(zhì)量。
在準備好的數(shù)據(jù)被錄入機器學習系統(tǒng)后,機器學習軟件會在這些對話和環(huán)境涉及到的單詞中搭建一個統(tǒng)計模型。當用戶說話時,軟件會在該統(tǒng)計模型中尋找相似的內(nèi)容,之后應用到預先“學到”的轉(zhuǎn)化程序中,使得音頻轉(zhuǎn)換為文本再從文本轉(zhuǎn)換成另一種語言。
雖然語音識別一直是近幾十年來的重要研究課題,但是該技術的發(fā)展普遍被錯誤率高、麥克風敏感度差異、噪音環(huán)境等因素阻礙。微軟研究院率先將深層神經(jīng)網(wǎng)絡(DNNs)技術引入語音識別,極大程度地降低了錯誤率,提高了可靠性,最終使這項語音翻譯技術得以更廣泛地應用,包括Skype Translator。
Skype Translator的機器翻譯部分負責將文本從一種語言翻譯成另一種語言。它采用了和必應在線翻譯同樣的技術:開創(chuàng)性地結合了句法和統(tǒng)計模型,此外更加有針對性地訓練對話性語言。這點非常有挑戰(zhàn)性,因為現(xiàn)在用來搭建文本翻譯系統(tǒng)的典型訓練數(shù)據(jù)都是優(yōu)化過的清晰、結構嚴謹?shù)臅嬲Z言。我們的系統(tǒng)在包含必應翻譯的豐富語言知識的同時,還額外加入了口語對話中出現(xiàn)的單詞及短語。
另外,我們創(chuàng)造了一個定制化的機器人程式來協(xié)調(diào)整個產(chǎn)品體驗。如電話中的第三方一樣,它負責建立電話連接、發(fā)送音頻流至語音引擎獲取翻譯文本,并分別在雙方結束說話時翻譯其所說的內(nèi)容。
要創(chuàng)造這樣的程式,需要微軟研究院和Skype團隊集合雙方共同的專業(yè)知識和工程能力,形成一個復雜的架構,但希望對用戶來說獲取的則是簡單而直接的體驗。
另外,在語言翻譯的用戶體驗中也存在一些固有的挑戰(zhàn)。比如,Skype Translator的自動翻譯器會以類似于第三方通話者的角色出現(xiàn)。Skype發(fā)現(xiàn),過去使用過現(xiàn)場翻譯服務的用戶能很快適應這種溝通方式,而其他用戶則需要更多的時間來適應。
相較于2014年12 月推出的英文和西班牙文之間的實時語音對話,本次推出中文預覽版的功能更新如下:
用戶可以通過語音收聽到對話方發(fā)送給自己的即時消息,語音的語言可以自選。
在對方發(fā)送語音信息期間可持續(xù)性的進行文字翻譯。
用戶對話方可以在實時語音翻譯期間不間斷地說話。同時,用戶可收聽到較高音量的語音翻譯,對話方本身的語音信息呈現(xiàn)出較低音量,所以只要將注意力集中在語音翻譯上即可,這可以保證翻譯信息的收聽流暢。
可以任意開啟或關閉語音翻譯的聲音,并直接讀取文字翻譯。
除了語音翻譯現(xiàn)有的四種語言(英語,西班牙語,中文普通話,意大利語), Skype Translator 的即時通訊文本翻譯更是在原有40多種語言的基礎上加入了塞爾維亞語,波斯尼亞語,克羅地亞語,瑪雅語和奧托米語。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。