科技行者 10月20日 蘇州消息: 10月17日-19日,2019年中國計算機大會(CNCC2019)在蘇州舉辦,本屆大會以“智能+引領(lǐng)社會發(fā)展”為主題,1000家機構(gòu)的代表、8000余人參展參會。百度首席技術(shù)官王海峰在會上發(fā)表題為《深度學(xué)習(xí)平臺支撐產(chǎn)業(yè)智能化》的演講,分享了百度關(guān)于深度學(xué)習(xí)技術(shù)推動人工智能發(fā)展及產(chǎn)業(yè)化應(yīng)用的思考,并深度解讀百度飛槳深度學(xué)習(xí)平臺的優(yōu)勢,以及與百度智能云結(jié)合助力產(chǎn)業(yè)智能化的成果。
以下為演講實錄:
各位專家,各位來賓大家上午好!非常榮幸有機會參加世界計算機大會,非常感謝中國計算機學(xué)會及大會的邀請。今天我跟大家分享的題目是《深度學(xué)習(xí)平臺支撐產(chǎn)業(yè)智能化》。
我們都知道,從18世紀(jì)60年代開始,人類已經(jīng)經(jīng)歷了三次工業(yè)革命。第一次工業(yè)革命為我們帶來了機械技術(shù),第二次帶來了電氣技術(shù),第三次帶來了信息技術(shù)。我們回顧這三次工業(yè)革命的歷史會發(fā)現(xiàn),驅(qū)動每一次工業(yè)革命的核心技術(shù)都有非常強的通用性。雖然它可能是從某一個行業(yè)開始,比如機械技術(shù)最開始從紡織等行業(yè)開始,但最后都會應(yīng)用于生產(chǎn)生活的方方面面,有非常強的通用性。除了通用性以外,這些技術(shù)都會推動人類進入一個新的工業(yè)大生產(chǎn)階段,而支撐這個工業(yè)大生產(chǎn)的技術(shù)有幾個特點:標(biāo)準(zhǔn)化、自動化、模塊化。而我們現(xiàn)在正處于第四次工業(yè)革命的開端,人工智能則是新一輪科技革命和產(chǎn)業(yè)變革的一個核心驅(qū)動力量。人工智能會推動我們?nèi)祟惿鐣饾u進入智能時代。
回顧人工智能技術(shù)的發(fā)展,人工智能技術(shù)的發(fā)展階段有很多分類維度,我理解大概可以歸結(jié)為:最早期更多都是在用人工的規(guī)則,我26年前進入這一行的時候,其實也是在用人工規(guī)則來開發(fā)機器翻譯系統(tǒng);后來逐漸開始機器學(xué)習(xí),尤其是統(tǒng)計機器學(xué)習(xí),在很長的一段時間里占主流地位,也產(chǎn)生了很大的影響,帶來了很多應(yīng)用產(chǎn)業(yè)的價值;深度學(xué)習(xí)是機器學(xué)習(xí)的一個子方向,現(xiàn)在,深度學(xué)習(xí)逐漸成為新一代人工智能最核心的技術(shù)。
舉幾個例子,文字識別OCR技術(shù)早期是用規(guī)則+機器學(xué)習(xí)的方法來做,那時候,一個OCR技術(shù)系統(tǒng)可能會分為幾部分,從區(qū)域檢測、行分割、字分割、單字識別、語言模型解碼、后處理等一步步做下來。加入深度學(xué)習(xí)技術(shù)后,我們開始使用大數(shù)據(jù)進行訓(xùn)練,而且階段目標(biāo)也很明確,我們找到一些深度學(xué)習(xí)的特征,這個時候一個OCR系統(tǒng)就簡化到只需要檢測、識別兩個過程,典型的基于深度學(xué)習(xí)的OCR系統(tǒng)大概是這樣。隨著深度學(xué)習(xí)技術(shù)進一步發(fā)展,我們開始在OCR里面進行多任務(wù)的聯(lián)合訓(xùn)練、端到端學(xué)習(xí)、特征復(fù)用/互補,這個時候,甚至這兩個階段也不用區(qū)分了,而是一體化地就把一個文字識別的任務(wù)給做了。
我們再看機器翻譯。26年以前我進入人工智能領(lǐng)域就是在做機器翻譯,當(dāng)時我們用數(shù)以萬計的規(guī)則寫出一個翻譯系統(tǒng),其中包括很多語言專家的工作。20多年以前,我們做的這個系統(tǒng)曾得到全國比賽的第一,但是這個系統(tǒng)想繼續(xù)發(fā)展,進入一個大規(guī)模產(chǎn)業(yè)化的階段,仍然面臨著很多問題。比如說人工規(guī)則費時費力,而且隨著規(guī)則的增加,沖突也越來越嚴(yán)重,掛一漏萬,總是很難把所有的語言現(xiàn)象都覆蓋到。后來,統(tǒng)計機器翻譯在機器翻譯領(lǐng)域占據(jù)最主流技術(shù)的地位,像百度翻譯八年以前上線的第一個版本的系統(tǒng),其實就是統(tǒng)計機器翻譯。統(tǒng)計機器翻譯的過程當(dāng)中,仍然要一步一步來做,比如說先做統(tǒng)計的詞對齊,然后做短語的提取,再做結(jié)構(gòu)的對齊等等,其中也涉及到人工特征的提取、定向的優(yōu)化,仍然很復(fù)雜。大概四年多以前,百度上線了世界上第一個大規(guī)模的、基于神經(jīng)網(wǎng)絡(luò)的翻譯產(chǎn)品,這時候我們可以進行端到端的學(xué)習(xí)了。當(dāng)然了,這樣一個神經(jīng)網(wǎng)絡(luò),或者說是深度學(xué)習(xí)的系統(tǒng),也有它的不足之處,現(xiàn)在真正在線上跑的、每天服務(wù)數(shù)以億計人的翻譯系統(tǒng),其實是以神經(jīng)網(wǎng)絡(luò)的機器翻譯方法為主體,同時融合了一些規(guī)則、統(tǒng)計的技術(shù)。
剛才說起,隨著深度學(xué)習(xí)的發(fā)展,這些技術(shù)越來越標(biāo)準(zhǔn)化、自動化。大家可以看到深度學(xué)習(xí)有一個很重要的特點,就是通用性。我們之前做機器學(xué)習(xí)的時候,有非常多的模型大家都耳熟能詳,比如說SVM、CRF等等。深度學(xué)習(xí)出現(xiàn)以后,人們發(fā)現(xiàn),幾乎我們看到的各種問題它都能很不錯的解決,甚至能得到目前最佳的解決效果,這和以前的模型各有擅長不一樣,它具有很強的通用性。
深度學(xué)習(xí)所處的位置,一方面它會向下對接芯片,像我們開發(fā)的深度學(xué)習(xí)框架,也會跟各個芯片廠商聯(lián)合進行優(yōu)化,前天我們還跟華為芯片一起做了一個聯(lián)合優(yōu)化的發(fā)布;向上它會承接各種應(yīng)用,不管是各種模型,還是真正的產(chǎn)品。所以我們認(rèn)為深度學(xué)習(xí)框架會是智能時代的一個操作系統(tǒng)。
我們真正把深度學(xué)習(xí)大規(guī)模產(chǎn)業(yè)化的時候,也會面臨一些要解決的問題,比如說,開發(fā)這樣一個深度學(xué)習(xí)的模型或者是系統(tǒng),實現(xiàn)起來很復(fù)雜,開發(fā)效率很低,也很不容易;而在訓(xùn)練的時候,我們在真正工業(yè)大生產(chǎn)中用的這些模型,比如說百度的產(chǎn)品,都是非常龐大的模型,進行超大的模型訓(xùn)練很困難;到了部署階段,還要考慮推理速度是不是夠快,以及部署成本是不是可控合理。
針對這幾個方面,我們開發(fā)了百度的深度學(xué)習(xí)平臺“飛槳”,英文我們叫PaddlePaddle。我們認(rèn)為它已經(jīng)符合標(biāo)準(zhǔn)化、自動化、模塊化的工業(yè)大生產(chǎn)特征。
飛槳底層的核心框架包括開發(fā)、訓(xùn)練、預(yù)測。開發(fā)既可以支持動態(tài)圖,也可以支持靜態(tài)圖;訓(xùn)練可以支持大規(guī)模的分布式訓(xùn)練,也可以支持這種工業(yè)級的數(shù)據(jù)處理;同時可以有不同版本部署在服務(wù)器上、在端上,以及做非常高效的壓縮、安全加密等等。核心框架之上有很多基礎(chǔ)模型庫,比如說自然語言處理的基礎(chǔ)模型庫、計算機視覺的基礎(chǔ)模型庫等等。同時也會提供一些開發(fā)的套件,再往上會有各種工具組件,比如說網(wǎng)絡(luò)的自動訓(xùn)練、遷移學(xué)習(xí)、強化學(xué)習(xí)、多任務(wù)學(xué)習(xí)等等。此外,為了真正支撐各行各業(yè)的應(yīng)用,我們提供很多使用者不需要理解底層這些技術(shù)、可以直接調(diào)用的服務(wù)平臺。比如EasyDL,就是可以定制化訓(xùn)練和服務(wù)的,基本上可以不用了解深度學(xué)習(xí)背后的原理,零門檻就可以用它來開發(fā)自己的應(yīng)用;AI Studio則是一個實訓(xùn)平臺,很多大學(xué)也在用這樣的平臺上課、學(xué)習(xí);當(dāng)然,還包括端計算模型生成平臺。
飛槳是一個非常龐大的平臺,我們著重在四方面發(fā)力、且具有領(lǐng)先性的技術(shù)。
首先從開發(fā)的角度,我們提供一個開發(fā)便捷的深度學(xué)習(xí)框架;而從訓(xùn)練的角度,可以支持超大規(guī)模的訓(xùn)練;從部署的角度,可以進行多端、多平臺的高性能推理引擎的部署;同時提供很多產(chǎn)業(yè)級的模型庫。
從開發(fā)的角度,飛槳提供一個開發(fā)便捷的深度學(xué)習(xí)框架。一方面,大家知道這些軟件系統(tǒng)都是很多程序員在寫,程序員有自己寫程序的習(xí)慣,我們這種組網(wǎng)式的編程范式與程序員的開發(fā)習(xí)慣非常一致,程序員開發(fā)起來會很有效率,而且也很容易上手;另外一個方面是設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),深度學(xué)習(xí)發(fā)展很多年,多數(shù)深度學(xué)習(xí)的系統(tǒng)網(wǎng)絡(luò)都是人類專家來設(shè)計的,但是,設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)是很專、很不容易的一件事情。所以,我們開發(fā)網(wǎng)絡(luò)結(jié)構(gòu)的自動設(shè)計?,F(xiàn)在機器自動設(shè)計的網(wǎng)絡(luò),在很多情況下已經(jīng)比人類專家設(shè)計的網(wǎng)絡(luò)得到的效果還好。
另一個方面,大規(guī)模訓(xùn)練面臨的挑戰(zhàn)。飛槳支持超大規(guī)模的特征、訓(xùn)練數(shù)據(jù)、模型參數(shù)、流式學(xué)習(xí)等等。我們開發(fā)的這套系統(tǒng)現(xiàn)在已經(jīng)可以支持萬億級參數(shù)模型,不止是能支持這樣的訓(xùn)練,同時可以支持實時的更新。
說到多端多平臺,飛槳能很好的支撐從服務(wù)器到端、不同的操作系統(tǒng)之間,甚至不同框架之間的無縫銜接。這里是一些具體的數(shù)據(jù),大家可以看到,我們通用架構(gòu)的推理,它的速度是非??斓?。同時,剛才我提到的跟華為的合作,我們針對華為的NPU做了定向的優(yōu)化,使它的推理速度得到進一步的提升。
另外一方面,所有這些基礎(chǔ)框架,與真正的開發(fā)應(yīng)用之間還有一步,我們定向地為不同的典型應(yīng)用提供很多官方的模型庫,比如說語言理解的、增強學(xué)習(xí)的、視覺的等等。飛槳的這些模型都在大規(guī)模的應(yīng)用中得到過驗證,同時我們也在一些國際的比賽中測試了這些模型,奪得了很多個第一。
剛才講的是基本的框架模型等等,另一方面,我們還有完備的工具組件,以及面向任務(wù)的開發(fā)套件,以及產(chǎn)業(yè)級的服務(wù)平臺。
舉幾個例子,比如說語言理解,大家知道現(xiàn)在語言理解,我們也都基于深度學(xué)習(xí)框架來做,像百度的ERNIE。一方面,我們現(xiàn)在用的深度學(xué)習(xí)技術(shù)是從海量的數(shù)據(jù)里進行學(xué)習(xí),但是它沒有知識作為前提。百度開發(fā)了一個非常龐大的,有3000多億個事實的知識圖譜,我們用知識來增強基于深度學(xué)習(xí)的語言理解框架,就產(chǎn)生了ERNIE。另一方面,我們又加入了持續(xù)學(xué)習(xí)的技術(shù),從而讓ERNIE有一個非常好的表現(xiàn)。下面淺藍(lán)色的線是現(xiàn)在SOTA最好的結(jié)果,我們用ERNIE+百科知識——我們知識圖譜也有很多來源——加進去以后,大家可以看到有很明顯的提升。我們更高興地看到,持續(xù)加入不同的知識,比如加入對話知識、篇章結(jié)構(gòu)知識等等,這個系統(tǒng)還可以進一步提升它的性能。
這是前面講的一系列套件之一,可以零門檻進入的定制化訓(xùn)練和服務(wù)平臺。我們這些平臺,希望能降低門檻,幫助各行各業(yè)來加速整個技術(shù)創(chuàng)新。現(xiàn)在大概是什么狀態(tài)呢?現(xiàn)在我們已經(jīng)服務(wù)了150多萬的開發(fā)者,其中包括超過6.5萬個企業(yè)。在這個平臺上,他們自己訓(xùn)練了已經(jīng)有16.9萬個模型。
飛槳深度學(xué)習(xí)開源開放平臺跟百度的智能云也有很好的結(jié)合,依托云服務(wù)更多的客戶,讓AI可以賦能各行各業(yè)。這里有一些例子,比如說在農(nóng)業(yè),我們幫助水培蔬菜的智能種植;在林業(yè),幫助病蟲害的監(jiān)測識別;以及公共場所的控?zé)?、商品銷售的預(yù)測、人力資源系統(tǒng)的自動匹配、制造業(yè)零件的分揀,以及地震波、藏油預(yù)測,以及更廣泛地覆蓋通訊行業(yè)、地產(chǎn)、汽車等等領(lǐng)域,各行各業(yè)都基于這個平臺都得到了智能化的升級。
比如水培蔬菜智能種植,我們通過深度學(xué)習(xí)平臺支持它進行長勢分析、水培方案的精調(diào)、環(huán)境的控制,使產(chǎn)量得以提高,同時成本得以降低。智能蟲情監(jiān)測也是一樣,系統(tǒng)的識別準(zhǔn)確率已經(jīng)相當(dāng)于人類專家的水平,而且監(jiān)控的周期也從一周縮短到一小時。
精密零件智能分揀的案例中,我們真正用這個深度學(xué)習(xí)系統(tǒng)的時候,還是有不少事情要做,比如說如何選擇分揀的模型,中間也會涉及一些數(shù)據(jù)的標(biāo)注,尤其是一些錯誤case的積累等等,然后在飛槳平臺上進行訓(xùn)練升級。
這是一個工業(yè)安全生產(chǎn)監(jiān)控的例子,昨天在另一個會上,有一個來賓問我,他們特別想在一些場景下,監(jiān)控一些不當(dāng)?shù)沫h(huán)節(jié),比如說生產(chǎn)環(huán)境里打手機、抽煙、躍過護欄等等。這些都可以通過飛槳的平臺自動實現(xiàn)。
在其他的行業(yè)中,比如國家重大工程用地的檢測,智慧司法,以及AI眼底篩查都在應(yīng)用飛槳,還有很多有溫度的案例,比如AI尋人,一個孩子4歲的時候離家走失,27年以后,通過人臉比對技術(shù),又幫助這個家庭把孩子找回來了,實現(xiàn)了家庭的團聚。截止到今年6月,百度AI尋人已經(jīng)幫助6700個家庭團圓。除此之外,還有AI助盲行動、AI助老兵圓夢等等這些案例。
回到深度學(xué)習(xí),剛才我說,各行各業(yè)都會從其中受益,實現(xiàn)自己的智能化升級。這是一個第三方的報告,我們可以看到,深度學(xué)習(xí)給不同的行業(yè)都會帶來提升,平均大概是62%的水平。
這就是我今天要分享的。百度的飛槳深度學(xué)習(xí)平臺非常愿意跟大家一起,幫助大家實現(xiàn)自己行業(yè)的智能化升級,推動人工智能的發(fā)展,謝謝大家!
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。