CNET科技資訊網(wǎng) 7月6日 北京報道(文/周雅):上周,關(guān)于阿里巴巴旗下人工智能實驗室(A.I. Labs)誕生的消息不脛而走,殊不知該實驗室早在2016年低調(diào)成立。昨天下午,這個專門研發(fā)消費級AI產(chǎn)品的實驗室高調(diào)推出研發(fā)的第一款智能語音終端設(shè)備——天貓精靈X1,內(nèi)置阿里第一代人機交流系統(tǒng)——AliGenie。
現(xiàn)場,阿里人工智能實驗室負(fù)責(zé)人淺雪兩句開場白,道出阿里入局智能語音助手市場的初衷:
“語言是人與人之間最主要的溝通方式,也應(yīng)該是人與另外一種智能進(jìn)行交流的主要方式。”“云端一體化帶來的趨勢是高度智能化,智能終端需要一個比手機觸屏更強大的人機交互方式。”
智能語音群龍紛爭
自從亞馬遜Echo、谷歌Home、微軟Invoke、蘋果HomePod、京東和科大訊飛的“叮咚”系列、百度的“小魚在家”相繼問世,加上項目代號為Vega的三星智能音箱也在緊鑼密鼓的研發(fā)中。語音交互市場為人工智能時代添了一把火。
我們不禁要問,玩家之多,投入之大,當(dāng)中原因是什么?
如淺雪所言,上個世紀(jì)90年代dos系統(tǒng),是一個黑底白字字符界面,敲著鍵盤打著代碼是常態(tài);隨后比爾蓋茨的Windows震驚世界,一個操作系統(tǒng)加上多任務(wù)的可視化窗口,可以讓溝通更簡單;十年前,喬布斯告訴大家,人類其實有一個天然的操作工具就是雙手,于是觸屏的iPhone一代誕生;十年之后,人工智能告訴我們,人和物的交互其實可以解放雙手。
究其原因是因為,人工智能時代,機器和人類都在加深了解,對于機器來說,通過不同方式理解人,難度不同。例如,智能手機可以視為人工智能1.0時代的產(chǎn)物,它和人類的交流方式就是把所有的選項都呈現(xiàn)在屏幕上讓人類指導(dǎo)。但顯然,無論是遙控控制還是APP化的觸摸點按的操作,都不是最理想的交互方式,并不適用于所有人群,比如,中老年群體使用手機更多的用作交流。
阿里巴巴深諳其道,認(rèn)為語音是最早最原始的信息交流渠道,與圖像、動作并為公認(rèn)的三大交互方式。
而家居環(huán)境的屬性使得語音成為最合適的交互方式,智能語音應(yīng)用主要圍繞智能電視、冰箱、音箱、家用機器人展開,解決的需求包括搜片、搜歌、提醒、簡單交互、應(yīng)用調(diào)取等等。
細(xì)觀全球市場,亞馬遜并不是最早推出語音助手的,或者也不是在人工智能領(lǐng)域的技術(shù)實力最強的,甚至在硬件產(chǎn)品的研發(fā)上并非第一,開發(fā)者生態(tài)建設(shè)更不是佼佼者,但echo的成功至少說明了兩點:
1、這是一個全新的市場;
2、除了技術(shù)實力和硬件研發(fā)制造能力之外,在語音助手領(lǐng)域,對后段商業(yè)和服務(wù)生態(tài)的整合能力決定了競爭的寬度,實則更高門檻。
從這個角度反觀中國市場,如果以“智能音箱”這個品類看,毫無疑問音樂內(nèi)容的豐富是最重要的,但如果是“智能語音助手”這個品類,對后端商業(yè)和服務(wù)的整合能力是關(guān)鍵。
阿里的入局
這正是阿里巴巴的思路。天貓精靈X1除了具備語音控制音樂和音頻內(nèi)容播放等功能外,還通過AliGenie接入了眾多生活服務(wù)。目前已經(jīng)達(dá)成的合作伙伴包括美泰、KEEP、西溪天堂綜合體、優(yōu)酷、高德地圖、淘票票、支付寶、蝦米音樂、天貓超市、菜鳥裹裹、喜馬拉雅FM、淘寶網(wǎng)、阿里智能聯(lián)盟、阿里數(shù)娛、天貓魔盒、繪兒樂、吳曉波頻道、飛豬、盒馬鮮生等。
說一聲“天貓精靈”,就可以召喚云端的AliGenie提供服務(wù),播音樂、聽故事、講笑話、查運勢、玩游戲、查天氣、找手機、問百科、設(shè)鬧鐘/定時器、充話費、查快遞、查價格、天貓魔盒控制、智能家電操控,樣樣拿手,功能還將隨著開發(fā)者的入駐而增加。依靠阿里云機器學(xué)習(xí)技術(shù)和計算能力,AliGenie能不斷進(jìn)化成長,越用越聰明。
“天貓精靈,蘋果的熱量是多少?”——“每一百克可食部分為54卡。”
“天貓精靈,我的手機在哪里?”——“正在搜尋你的手機。”
“天貓精靈,給我手機充值100元。”
“天貓精靈,買一箱可樂。”
……
這一幕同樣發(fā)生在當(dāng)天,天貓精靈X1首席產(chǎn)品體驗官、zealer中國創(chuàng)始人王自如和天貓精靈X1的互動場景,知無不言言無不盡的天貓精靈十分討喜。
天貓精靈X1和AliGenie背后,由阿里巴巴人工智能實驗室坐鎮(zhèn),基于阿里語音識別、自然語言處理、人機交互等技術(shù)。其中,阿里人工智能實驗室正在對聲紋識別、聲紋購、NLP中文對話引擎等核心技術(shù)申請專利。
天貓精靈X1外觀圓柱形,有黑白兩種配色,直徑83毫米,頂部中央配有一枚靜音鍵,一觸發(fā)此鍵,X1立刻暫停,以保證用戶隱私。X1底部設(shè)計一圈隱藏指示燈,會通過聲音判斷用戶方位,亮起燈光以示提醒,燈光還會根據(jù)不同使用功能和場景配合進(jìn)行提示。
配置方面,X1采用SmartAudio專業(yè)處理芯片,相比此前市面上的主流芯片,處理效率提升25%,功耗降低32%;搭載了6麥克風(fēng)環(huán)形陣列,在家庭環(huán)境下支持5米范圍語音識別。
X1還具備一定的自我學(xué)習(xí)功能,可以根據(jù)環(huán)境噪音進(jìn)行優(yōu)化,適應(yīng)不同家庭環(huán)境噪音。
考慮到中文語義環(huán)境的復(fù)雜性,阿里人工智能實驗室通過眾包平臺等方式,征集生活中的各種生活場景所需要用到的語義問法,僅天氣預(yù)報就能夠理解786種中文問法,通過深度學(xué)習(xí), X1已覆蓋20個領(lǐng)域的中文自然語義理解,能夠理解人類80%的意圖。
這套語義理解系統(tǒng)還帶有記憶功能和總結(jié)歸納能力,加上模擬的“長期記憶”和“短期記憶”功能,更容易理解用戶。除此之外,阿里人工智能實驗室還已經(jīng)著手其他多個語種的研究。
這背后是大量的數(shù)據(jù)積累,以及遠(yuǎn)程計算能力的提升。
X1可以通過聲紋識別技術(shù)分辨家里的每一個人。淺雪介紹,聲紋識別技術(shù)是生物識別的重要識別手段之一,結(jié)合服務(wù)鏈多重安全機制,已達(dá)到商用的級別。這也是阿里在語音深度學(xué)習(xí)領(lǐng)域的核心技術(shù)之一。
天貓精靈目前最多可以識別6個人的身份。通過個性化推薦,聲紋識別在辨別出使用者的身份后還能夠?qū)崿F(xiàn)“千人千面”,根據(jù)每個人的喜好設(shè)定和推送不同的內(nèi)容。
比如,聲紋識別技術(shù)可以應(yīng)用到一些購物場景中。用戶先將自己的聲音注冊后生成聲音密碼,與機器綁定后,確認(rèn)開啟聲紋購功能。隨后,當(dāng)說出 “幫我買一箱牛奶”這樣的需求時,天貓精靈會要求用戶跟著念一串隨機數(shù)字進(jìn)行聲紋校驗,如果確認(rèn)為用戶本人,天貓精靈會從用戶綁定的支付寶中進(jìn)行扣款完成交易。
AliGenie開發(fā)者平臺主要面向四種類型的開發(fā)者,包括內(nèi)容開發(fā)者、應(yīng)用開發(fā)者、智能家居開發(fā)商和硬件生產(chǎn)商。
(1)向應(yīng)用開發(fā)者免費開放NLP語義理解、TTS語音合成等多項自然語言處理技術(shù)。開發(fā)者既可以創(chuàng)建技能,為更多的語音用戶提供服務(wù),也可以將自己的設(shè)備接入云端服務(wù),獲取語音交互能力。
(2)針對內(nèi)容創(chuàng)作者,AliGenie還提供了語音公眾號功能,開發(fā)者只需將語音或文字上傳至后臺就可以完成應(yīng)用的創(chuàng)建和發(fā)布,文字將通過語音合成引擎轉(zhuǎn)換為語音,用戶可以通過訂閱實現(xiàn)定時播放、點播,開發(fā)者也可以進(jìn)行主動推送,或聯(lián)合其他應(yīng)用進(jìn)行深入集成,組合播放。
(3)為硬件制造企業(yè)準(zhǔn)備了單麥克風(fēng)到多麥克風(fēng)陣列的參考設(shè)計方案,并提供包括喚醒詞定制,聲學(xué)結(jié)構(gòu),核心電路設(shè)計和芯片方案在內(nèi)的相關(guān)套件的參考設(shè)計,以及云端服務(wù)和應(yīng)用管理所必要的全套工具和用戶APP SDK組件。接入的硬件設(shè)備能夠快速具備人機語音交互能力,并共享應(yīng)用商店的所有應(yīng)用技能。
按照阿里的邏輯,除了技術(shù)的開放外,生態(tài)的開放合作也重要。目前,天貓超市、菜鳥、KEEP等已推出基于天貓精靈X1的語音應(yīng)用,用戶只需動動口就可以完成話費充值、購買商品、健身語音提示等服務(wù),很快還將上線打車、叫外賣、叫保潔等服務(wù)。開發(fā)者可以自由發(fā)揮。
現(xiàn)場,阿里人工智能實驗室也公布了首個硬件開放合作伙伴:將與國際玩具巨頭美泰合作探索其旗下主要核心IP的合作開發(fā)機會,如費雪、芭比、托馬斯和朋友等智能玩具。
除了生態(tài)的開放合作,后續(xù)的場景植入也關(guān)鍵。阿里目前已經(jīng)或正在拓展的行業(yè)解決方案涉及六個方面,包括兒童領(lǐng)域、酒店領(lǐng)域、家庭場景、TO B其他商業(yè)場景、線下零售場景以及與其他顯示設(shè)備結(jié)合的場景。
天貓精靈X1于7月5日開始進(jìn)行限量公測,8月8日將進(jìn)行首批正式發(fā)售,定價人民幣499元。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。