科技行者 7月4日 北京消息: 7月4日召開(kāi)的百度AI開(kāi)發(fā)者大會(huì)(Baidu Create 2018)上,百度高級(jí)副總裁、AI技術(shù)平臺(tái)體系(AIG)總負(fù)責(zé)人王海峰發(fā)布百度大腦3.0,并指出,百度大腦3.0的核心是“多模態(tài)深度語(yǔ)義理解”,包括數(shù)據(jù)的語(yǔ)義,知識(shí)的語(yǔ)義,以及圖像、視頻、聲音、語(yǔ)音等各方面的理解。
多模態(tài)深度語(yǔ)義理解如何在技術(shù)上實(shí)現(xiàn)?擁有多大的能量?它將如何被應(yīng)用來(lái)改變我們的生活?當(dāng)天下午的百度大腦論壇中,百度大腦3.0的核心技術(shù)一一“亮相”,為開(kāi)發(fā)者們帶來(lái)一場(chǎng)技術(shù)盛宴。
可容納1000人的會(huì)場(chǎng)座無(wú)虛席,開(kāi)發(fā)者們甚至席地而坐,或者站在會(huì)場(chǎng)最后聽(tīng)完整場(chǎng)分享。一位開(kāi)發(fā)者表示,“干貨太多、時(shí)間太少,回去要找回放視頻好好消化一下。”
從“看清聽(tīng)清”到“看懂聽(tīng)懂”
“多模態(tài)深度語(yǔ)義理解能讓機(jī)器聽(tīng)清、看清,更能深入理解它背后的含義,深度地理解真實(shí)世界,進(jìn)而更好地支撐各種應(yīng)用。”王海峰表示。
視覺(jué)語(yǔ)義化可以讓機(jī)器從看清到看懂視頻,并提煉出結(jié)構(gòu)化語(yǔ)義知識(shí)。百度視覺(jué)技術(shù)部、人臉技術(shù)部、增強(qiáng)現(xiàn)實(shí)技術(shù)部總監(jiān)吳中勤介紹,視覺(jué)語(yǔ)義化技術(shù)首先識(shí)別人、物體和場(chǎng)景,同時(shí)捕捉它們之間的行為和關(guān)系,通過(guò)時(shí)序化、數(shù)字化、結(jié)構(gòu)化的方式形成語(yǔ)義知識(shí),最終結(jié)合領(lǐng)域和場(chǎng)景進(jìn)行智慧推理,落地行業(yè)應(yīng)用。比如在零售領(lǐng)域,它可以準(zhǔn)確判斷每個(gè)人的動(dòng)作、行為,真正實(shí)現(xiàn)顧客拿起商品就走。未來(lái),視覺(jué)語(yǔ)義化技術(shù)還可進(jìn)一步延展,它結(jié)合新型的傳感器和AI芯片,可以在感知層面和計(jì)算層面得到大幅提升;結(jié)合手機(jī)可以帶給用戶更佳地使用體驗(yàn)。未來(lái),百度視覺(jué)語(yǔ)義化技術(shù)將在百度AI開(kāi)放平臺(tái)中開(kāi)放給開(kāi)發(fā)者使用。
語(yǔ)音技術(shù)的升級(jí)則讓機(jī)器更好地聽(tīng)懂世界。百度語(yǔ)音技術(shù)部總監(jiān)高亮表示,百度基于遠(yuǎn)場(chǎng)的語(yǔ)音語(yǔ)義一體化技術(shù)取得重大突破,為業(yè)界提供更頂尖的遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)。語(yǔ)音語(yǔ)義一體化將遠(yuǎn)場(chǎng)交互中高頻Query識(shí)別準(zhǔn)確率提升10個(gè)點(diǎn),并保持普通Query識(shí)別率不降;多語(yǔ)種混合聲學(xué)建?;贒eep Peak2大幅提升中英文混合Query識(shí)別準(zhǔn)確率,相對(duì)錯(cuò)誤率比業(yè)界最好競(jìng)品降低20%;新升級(jí)的TTS技術(shù)業(yè)界首創(chuàng)傳統(tǒng)拼接技術(shù)與Wavenet技術(shù)融合方案,保證合成質(zhì)量的同時(shí)大大降低成本,讓大規(guī)模應(yīng)用落地成為現(xiàn)實(shí)。此外,百度重磅發(fā)布遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)低成本解決方案“度小云”,它基于Deep Peak V2語(yǔ)音識(shí)別技術(shù)、語(yǔ)音語(yǔ)義一體化技術(shù)及LSTM-VAD深度學(xué)習(xí)語(yǔ)音切分技術(shù),實(shí)現(xiàn)業(yè)界領(lǐng)先的五級(jí)喚醒技術(shù),并擁有基于Wavenet的精致音庫(kù),支持遠(yuǎn)場(chǎng)優(yōu)化的音頻通信技術(shù)。未來(lái)開(kāi)發(fā)者可以平等便捷地一站式獲取百度遠(yuǎn)場(chǎng)語(yǔ)音能力。
想要讓機(jī)器像人一樣擁有智能,將語(yǔ)言變成知識(shí)必不可缺。百度AI技術(shù)平臺(tái)體系執(zhí)行總監(jiān)吳甜表示,百度自然語(yǔ)言處理技術(shù)經(jīng)過(guò)多年的發(fā)展,已形成全面、前沿的格局。百度知識(shí)圖譜已發(fā)展為復(fù)雜、多元、全面的多元語(yǔ)義知識(shí)圖譜,包含實(shí)體圖譜、行業(yè)圖譜、事件圖譜、關(guān)注點(diǎn)圖譜、多媒體圖譜,其中實(shí)體圖譜已經(jīng)能夠覆蓋通用需求中90%的實(shí)體及其屬性。在閱讀理解技術(shù)上,百度大腦已經(jīng)閱讀了千億量級(jí)的文章,相當(dāng)于6萬(wàn)個(gè)中國(guó)國(guó)家圖書(shū)館的藏書(shū),并由此積累了億級(jí)實(shí)體、千億事實(shí)的知識(shí),并通過(guò)“學(xué)習(xí)”真實(shí)應(yīng)用每天產(chǎn)生的知識(shí)不斷優(yōu)化。在對(duì)話理解方面,百度理解與交互技術(shù)平臺(tái)UNIT升級(jí)至2.0,進(jìn)一步增強(qiáng)冷啟動(dòng)能力,支持像人類一樣在對(duì)話當(dāng)中學(xué)習(xí),同時(shí)開(kāi)放了第一個(gè)工業(yè)級(jí)對(duì)話系統(tǒng)開(kāi)源框架,降低搭建門(mén)檻,讓開(kāi)發(fā)者無(wú)縫對(duì)接云端。百度將持續(xù)開(kāi)源新的技術(shù),提供更靈活便捷的方案,推動(dòng)自然語(yǔ)言理解技術(shù)的創(chuàng)新與發(fā)展。
夯實(shí)基礎(chǔ):數(shù)據(jù)、算法、算力并駕齊驅(qū)
數(shù)據(jù)、算法、算力是影響人工智能技術(shù)發(fā)展的重要因素。主論壇中,王海峰表示百度大腦3.0首次將芯片納入技術(shù)體系,帶動(dòng)百度大腦算力爆發(fā)式增長(zhǎng)。百度自主研發(fā)的中國(guó)第一款云端全功能AI芯片“昆侖”也在會(huì)上首次亮相。未來(lái),AI芯片將與百度自主研發(fā)的PaddlePaddle深度學(xué)習(xí)框架相結(jié)合,推動(dòng)AI行業(yè)生態(tài)快速發(fā)展。
百度在2016年正式開(kāi)源的PaddlePaddle,是最適合中國(guó)開(kāi)發(fā)者的深度學(xué)習(xí)框架。主論壇中,王海峰發(fā)布PaddlePaddle3.0,下午,百度AI技術(shù)生態(tài)部總經(jīng)理喻友平對(duì)此進(jìn)行了詳細(xì)解讀。PaddlePaddle3.0包括完整的核心框架,以及AI Studio、AutoDL、EasyDL等可以讓開(kāi)發(fā)者平等便捷獲取頂尖AI能力的平臺(tái)。PaddlePaddle3.0核心框架對(duì)服務(wù)器版本以及移動(dòng)端版本進(jìn)行了全面優(yōu)化,PaddlePaddle Fluid提供豐富的滿足常見(jiàn)主流模型搭建需求的API,支持廣泛的模型搭建,訓(xùn)練Runtime可以滿足各類型的模型訓(xùn)練需求;PaddlePaddle Serving可靈活適配多種預(yù)測(cè)引擎;PaddlePaddle Mobile集成百度移動(dòng)端預(yù)測(cè)的實(shí)踐經(jīng)驗(yàn),提供多平臺(tái)支持。
PaddlePaddle3.0中,AutoDL備受關(guān)注。百度大數(shù)據(jù)(北京)實(shí)驗(yàn)室主任浣軍介紹,AutoDL能更高效自動(dòng)搜索神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),開(kāi)發(fā)者無(wú)需特殊硬件設(shè)備可以快速得到高質(zhì)量模型。AutoDL提供多種能力,支持設(shè)計(jì)全新深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),以及優(yōu)化現(xiàn)有深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù),同時(shí)能夠適配特定任務(wù)場(chǎng)景。
海量數(shù)據(jù)爆發(fā)式增長(zhǎng),發(fā)掘數(shù)據(jù)價(jià)值成為眾多行業(yè)的普遍需求。百度大數(shù)據(jù)部總監(jiān)郭謝表示,百度已形成從數(shù)據(jù)到數(shù)據(jù)工程、數(shù)據(jù)科學(xué)、數(shù)據(jù)產(chǎn)品再到行業(yè)方案的大數(shù)據(jù)產(chǎn)品技術(shù)棧,基于大數(shù)據(jù)特性,從生產(chǎn)資料和生產(chǎn)工具兩方面促進(jìn)產(chǎn)業(yè)發(fā)展。為了最大程度保證數(shù)據(jù)安全,百度正式發(fā)布大數(shù)據(jù)眾智開(kāi)放平臺(tái)“點(diǎn)石”,基于全球領(lǐng)先的百度AI技術(shù),全方位保障數(shù)據(jù)安全,并逐步開(kāi)放工具能力,為行業(yè)數(shù)據(jù)安全賦能。
現(xiàn)場(chǎng),百度啟動(dòng)了多項(xiàng)大賽。百度之星開(kāi)發(fā)者大賽將如期回歸,此外還有基于PaddlePaddle的中國(guó)高校計(jì)算機(jī)大賽人工智能創(chuàng)意賽、KG-知識(shí)抽取賽、交通預(yù)測(cè)賽、無(wú)人車系列大賽,以及商家招牌的分類與檢測(cè)、人工智能加速器應(yīng)用與設(shè)計(jì)等大數(shù)據(jù)比賽。百度方面表示,歡迎各路高手挑戰(zhàn),通過(guò)大賽攜手推動(dòng)整個(gè)AI產(chǎn)業(yè)的發(fā)展。
業(yè)內(nèi)人士評(píng)價(jià),百度在推動(dòng)技術(shù)落地的同時(shí)不斷反哺技術(shù)升級(jí),如今已成為國(guó)內(nèi)人工智能領(lǐng)域的領(lǐng)航者。百度大腦升級(jí)至3.0,也標(biāo)志著百度AI技術(shù)的一次跨越式升級(jí),正如王海峰在開(kāi)場(chǎng)中所強(qiáng)調(diào),“百度AI能力的核心是百度大腦,百度大腦3.0是百度AI能力的集大成者。”?;诎俣却竽X持續(xù)突破的技術(shù)實(shí)力,百度有能力把頂尖的AI技術(shù)提供給中國(guó)開(kāi)發(fā)者、企業(yè),更讓每個(gè)開(kāi)發(fā)者和企業(yè)都能平等獲取頂尖AI能力,繼而讓AI在中國(guó)遍地開(kāi)花。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。