科技行者 7月11日 北京消息(文/周雅):馬克思曾經(jīng)一句名言“科技是第一生產(chǎn)力”,放到互聯(lián)網(wǎng)時(shí)代依然顛撲不破,很多互聯(lián)網(wǎng)公司也深諳這一點(diǎn),對(duì)于“科技創(chuàng)新”的追求從未停止過。
以阿里巴巴舉例??紤]到阿里的未來科技力量?jī)?chǔ)備,馬云在2017年建成「達(dá)摩院」,成立之初,他對(duì)達(dá)摩院提出三個(gè)要求,“活得要比阿里巴巴長(zhǎng)”、“服務(wù)至少20億人”、“必須用科技解決未來的問題”,官方聲稱這是“一家致力于探索科技未知,以人類愿景為驅(qū)動(dòng)力的研究院”。
然而兩年過去了,達(dá)摩院究竟在做什么?7月10日下午,阿里巴巴在北京舉辦了一場(chǎng)媒體溝通會(huì),這場(chǎng)會(huì)的主角,是阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室,幾位阿里發(fā)言人講了講達(dá)摩院目前在AI領(lǐng)域的業(yè)務(wù)布局、人才儲(chǔ)備、以及技術(shù)演進(jìn)結(jié)果。
成立達(dá)摩院時(shí),馬云表示三年內(nèi)將投入逾1000億元,并將在初期招攬100名頂級(jí)科學(xué)家和研究人員。但他同時(shí)也提出要求,即達(dá)摩院要學(xué)會(huì)自營(yíng)自利,未來要自己掙錢。
這也使得達(dá)摩院一開始就與其他的研究院有了很大不同。
達(dá)摩院機(jī)器智能技術(shù)事業(yè)部首席架構(gòu)師王駿以達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室為例介紹道,整個(gè)部門的運(yùn)作方式,是“研”“發(fā)”并重,既有research(研究),也有develop(開發(fā)),任務(wù)是希望開發(fā)出先進(jìn)的AI技術(shù)和產(chǎn)品,達(dá)到理想中的物理實(shí)驗(yàn)真正有價(jià)值的地方,不僅是商業(yè)價(jià)值,還有社會(huì)價(jià)值。
正因?yàn)閷W(xué)術(shù)思維和商業(yè)思維并重,該部門自然而然形成了一種自上而下的中心化研究管理體系,既確定了大的研究方向,同時(shí)保持研究自由度,任何研究小組都可以去做他感興趣的方向,并兼顧短期、中期、長(zhǎng)期的規(guī)劃,最終的價(jià)值也都體現(xiàn)在創(chuàng)新技術(shù)產(chǎn)品上。
因此,回顧這兩年,達(dá)摩院既有一些理論性的研究,也有一些實(shí)踐性的應(yīng)用。比如,僅阿里AI團(tuán)隊(duì),便在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議上共發(fā)表了近400篇頂級(jí)論文,同時(shí)也在國(guó)際頂級(jí)技術(shù)賽事上斬獲40余項(xiàng)世界第一,有20多個(gè)行業(yè)應(yīng)用落地,涉及交通、醫(yī)療、零售等等領(lǐng)域。
再比如,剛剛過去的6月份,在被譽(yù)為人工智能世界杯的WebVision競(jìng)賽中,阿里AI擊敗了全世界150多支參賽隊(duì)伍,獲得冠軍。這是一個(gè)超大規(guī)模圖像識(shí)別的比賽,它要實(shí)現(xiàn)的是給機(jī)器一張圖,讓它去搜索其他關(guān)聯(lián)圖,這與眾所周知的“谷歌花大量時(shí)間讓機(jī)器識(shí)別一只貓”是一樣的道理,只不過這個(gè)比賽難度更大,它不允許人工標(biāo)注,這就意味著要讓機(jī)器自己具備歸納海量圖片的能力。據(jù)王駿介紹,其實(shí)阿里很早就開始研究這一技術(shù),拍立淘便是該技術(shù)的前身,目前阿里AI可以識(shí)別超過100萬種物理實(shí)體,“我們希望有一天,計(jì)算機(jī)可以自動(dòng)識(shí)別每一個(gè)物體。”王駿說。
還有,2018年1月,在斯坦福大學(xué)發(fā)起的機(jī)器閱讀理解領(lǐng)域頂級(jí)賽事SQuAD上,阿里AI在開放域問答任務(wù)上達(dá)到人類水平。這是一個(gè)什么概念?我們所理解的AI問答,是基于數(shù)據(jù)庫進(jìn)行回答,但實(shí)際上很多問題涉及兩點(diǎn):有沒有問答數(shù)據(jù),以及有沒有知識(shí)統(tǒng)計(jì)。比方一個(gè)簡(jiǎn)單問題“中國(guó)首都有多少人?”就隱含兩個(gè)問題:“中國(guó)首都是哪?”以及“這個(gè)城市有多少人口?”因此,AI在這個(gè)回答過程里,先要在數(shù)據(jù)庫里找到一個(gè)多文檔排序,匹配出與問題相關(guān)的文檔,再在文檔里定位問題,并作出回答。
取得這些成績(jī),與達(dá)摩院雄厚的人才儲(chǔ)備不無關(guān)系。目前,達(dá)摩院旗下的科學(xué)家團(tuán)隊(duì)包括:美國(guó)密歇根州立大學(xué)終身教授金榕、密西根大學(xué)終身教授施堯耘、新加坡南洋理工大學(xué)終身教授王剛等20多位世界級(jí)科學(xué)家,以及10多名IEEE Fellow。
王駿表示,達(dá)摩院是一個(gè)全球化的機(jī)構(gòu),半數(shù)以上成員擁有博士以上學(xué)位,辦公室分布在4個(gè)國(guó)家的8個(gè)主要城市。其打趣說道,“正因?yàn)槿蚧?,達(dá)摩院要想所有員工一起開個(gè)會(huì),時(shí)間很難湊,因?yàn)楦鞯囟加袝r(shí)差。”
據(jù)王駿介紹,達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室本質(zhì)以人工智能技術(shù)為核心,這就好比人類接收外界信號(hào)主要來自于三個(gè)感官通道,即視覺、語音、語言,與之相對(duì)應(yīng)的,阿里AI的研究領(lǐng)域則是視覺智能、語音智能、語言和知識(shí),以及決策智能。“阿里希望機(jī)器未來具有一定的人類思維數(shù)據(jù)處理能力。”
當(dāng)天,達(dá)摩院首次對(duì)外展示了新一代語音合成技術(shù)——KAN-TTS(TTS,Text To Speech,即“從文本到語音”)。官方稱,KAN-TTS由達(dá)摩院機(jī)器智能實(shí)驗(yàn)室自主研發(fā),融合了目前主流的端到端TTS技術(shù)和傳統(tǒng)TTS技術(shù),從多個(gè)方面改進(jìn)了語音合成。
達(dá)摩院語音實(shí)驗(yàn)室高級(jí)算法專家雷鳴介紹了語言合成技術(shù)的歷史演變。1939年,人類第一次可以由鍵盤控制產(chǎn)生聲音,經(jīng)歷過多個(gè)發(fā)展階段,直到2017年,TTS技術(shù)已經(jīng)可以提供接近真人表現(xiàn)力的合成語音,但依然有缺陷。
據(jù)雷鳴說,當(dāng)前,業(yè)界商用系統(tǒng)的合成語音與原始音頻錄音的接近程度通常在85%-90%之間,這其實(shí)已經(jīng)是一個(gè)很高水平,而基于KAN-TTS技術(shù)的合成語音,則可將該數(shù)據(jù)進(jìn)一步提高到97%以上。
此外,傳統(tǒng)語音合成定制需要10小時(shí)以上的數(shù)據(jù)錄制和標(biāo)注,對(duì)錄音人和錄音環(huán)境要求很高。從啟動(dòng)定制到最終交付,項(xiàng)目周期長(zhǎng)成本高。
阿里利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結(jié)合的方法,將語音合成定制成本降低10倍以上,周期壓縮3倍以上。也就是說,用1小時(shí)有效錄音數(shù)據(jù)和不到兩個(gè)月制作周期,就能完成一次標(biāo)準(zhǔn)TTS定制。
普通用戶定制“AI聲音”的門檻更低。只需手機(jī)錄音十分鐘,就能獲得與錄制聲音高度相似的合成語音。阿里AI做到這一點(diǎn),主要基于自動(dòng)數(shù)據(jù)檢查、自動(dòng)標(biāo)注方法和對(duì)海量用戶場(chǎng)景的利用。
達(dá)摩院語音實(shí)驗(yàn)室對(duì)外提供了開箱即用的TTS解決方案,這主要是針對(duì)一些產(chǎn)品具有特定場(chǎng)景的需求。比如有些產(chǎn)品就要講一些兒童教育的故事,有些則是講富有情感的故事,針對(duì)這些,阿里TTS解決方案共有通用、客服、童聲、英文和方言5個(gè)場(chǎng)景的34種高品質(zhì)聲音供選擇。
達(dá)摩院語音實(shí)驗(yàn)室負(fù)責(zé)人鄢志杰說,達(dá)摩院是一個(gè)技術(shù)密集型團(tuán)隊(duì),但它并不是只專注于技術(shù)的研究,同時(shí)也要把這些技術(shù)產(chǎn)品化。比如語音技術(shù),阿里有各種各樣語音的源頭算法,這些不僅僅應(yīng)用在阿里自己的業(yè)務(wù)上,同時(shí)也能夠把這些技術(shù)放到云上,分享給合作伙伴。“可以說,阿里有什么,阿里云的客戶就能拿到什么。”
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。