CNET科技資訊網(wǎng) 9月2日 北京消息(文/齊豐潤): 百度世界作為每年一屆百度展示自己實力與成績的大會,一直對于整個科技行業(yè)的熱點都有著引導的作用,在此次百度世界2016上自然也不例外。
2016年,人工智能成為了科技圈最大的焦點之一,在走過了大半年的時間之后,越來越多的行業(yè)應用也讓我們看到了人工智能所蘊含的潛力,而此次百度世界的主題也定位AI,圍繞著行業(yè)、應用、發(fā)展、前景等多個方面進行了全方位的闡述。
會議開始,李彥宏一身正裝登上舞臺顯得氣場十足,在今年6月份的百度聯(lián)盟峰會上,李彥宏曾提出了“互聯(lián)網(wǎng)的下一幕”的概念,剛登上舞臺,李彥宏就對這個概念做出了定義:“互聯(lián)網(wǎng)的下一幕就是人工智能”。
對于這樣的結(jié)論,李彥宏給出了解釋:“互聯(lián)網(wǎng)的發(fā)展在此之前已經(jīng)經(jīng)過了兩個非常重要的階段,第一個階段大概持續(xù)了十幾年的時間,就是我們講的PC互聯(lián)網(wǎng)階段。第二個階段是在最近四五年,我們把它叫做移動互聯(lián)網(wǎng)的階段。對于中國市場來說,隨著上網(wǎng)人數(shù)越來越多,上網(wǎng)人口的滲透率越來越高,這意味著,未來互聯(lián)網(wǎng)的增長不能再靠人口紅利來驅(qū)動了,移動互聯(lián)網(wǎng)的時代其實正在離開我們,而能夠接替移動互聯(lián)網(wǎng)的下一幕,自然是人工智能。”
人工智能對于百度意味著什么呢?李彥宏覺得是百度核心中的核心,就是百度大腦。百度大腦由人工智能算法、百度的計算能力以及數(shù)據(jù)三個部分組成,正是有了這三個部分,百度大腦才得以運作起來。
在說完了百度大腦的組成部分后,李彥宏又給出了在這些組成部分之下,百度大腦能夠?qū)崿F(xiàn)的四大功能:語音能力、圖像能力、自然語言理解能力、用戶畫像能力。
根據(jù)介紹,這幾個能力都是屬于人工智能中比較典型的應用,但是它們的發(fā)展階段卻很不一樣。
語音技術(shù)現(xiàn)在已經(jīng)進入了相對比較成熟的階段,在很多領域中都開始進入實用階段,識別的準確率也已經(jīng)很高了,同時圖像技術(shù)最近幾年也有了長足的進展。這兩者都屬于人工智能當中認知的部分,所以深度學習的算法非常適合處理這些形式。
相對,自然語言的理解或處理能力就更加難一些,還處在一個更加早期的階段。用戶畫像能力,其實從傳統(tǒng)意義上來講并不是人工智能的領域,但是由于近年來大數(shù)據(jù)的發(fā)展,再加上用人工智能和機器學習的方法,就可以把一個人的特征描繪得非常非常清楚。
作為目前人工智能最成熟的一部分功能,語音技術(shù)還可以被分為兩個方向,語音合成和語音識別。語音識別的應用非常常見,而且隨著技術(shù)的發(fā)展,準確率也越來越高。
語音合成則與語音識別功能相反,機器可以把文字轉(zhuǎn)換成語音,并念讀出來。而且,今天的語音合成也可以用比較自然的人的聲音讀出來,而不是像過去的機器一樣。據(jù)悉,目前百度每天要響應2.5億次的語音合成請求,而這一功能也被應用到了百度導航之中。
李彥宏表示:“百度大腦的語音合成能力可以讓每個人都有自己的聲音模型,只要按照要求說50句話,百度大腦就學會了你說話的方式,這些語音的能力會帶來各種各樣新的可能性。”
圖像技術(shù)在專業(yè)術(shù)語中又被稱為計算機視覺,也是現(xiàn)在廣義的人工智能中非常重要的領域。除了應用在準確率高達99.7%的人臉識別中,計算機視覺也成為了百度無人車的重要組成部分。無人車的視野要比人類駕駛員好得多,這是站在車的角度所看到的世界。
除此之外,AR也是圖像識別的一個重要應用,做到場景識別后,才能更好的跟用戶進行交互和體驗。
雖然成熟的不高,但也能夠為大家?guī)聿灰粯拥捏w驗,度秘就是李彥宏拿出來的最好的例子。李彥宏讓度秘在現(xiàn)場實時解說了一段籃球視頻,語言比較豐富,而且將球員的名字也都準確地叫了出來。李彥宏說:“當人工智能對于自然語言的理解一旦能夠達到一定程度,它又會打開很多新的可能性。”
“用戶畫像是基于百度的大數(shù)據(jù)以及機器學習的方式所獲得的一個能力,現(xiàn)在我們已經(jīng)有接近10億的用戶畫像,其中已經(jīng)用到了千萬級的細分標簽。這些標簽主要在兩個維度上體現(xiàn),一個是通用的維度,人口學特征、短期的意圖、位置屬性;另一個是垂直行業(yè)的特征,他在金融領域是什么樣的情況,他在保險、醫(yī)療、旅游、健康等領域都有什么樣的愛好、習慣,這些東西都共同構(gòu)成了我們的用戶畫像。”
用戶畫像在應用中可以將用戶打上標簽,并將這些標簽組合后描畫出來,針對每一個不同的個體,做到億人億面,更準確地找到受眾群體,創(chuàng)造出真正的效益。
演講最后,李彥宏還表示,“百度大腦擁有各種各樣的能力,如果這些能力賦予到全社會的每個人,它能夠變換出來無窮無盡的可能性。有了這樣的能力,將給各行各業(yè)的人群帶來過去大家做不到的、不敢想的能力。”
同時李彥宏還表示,百度大腦會把語音、圖像、自然語言理解和用戶畫像等能力完全開放出來,在大多數(shù)情況下免費提供這些能力。
在李彥宏的演講結(jié)束后,百度首席科學家吳恩達也上臺進行了演說,不過相比于李彥宏的應用流派,吳恩達所帶來的則是對未來的分享。
演講開始,吳恩達就表示,百度是一家人工智能公司,其旗下的眾多重要產(chǎn)品都依賴于人工智能技術(shù)。“人工智能能做什么?第一,假如有一件事是一個正常人可以一秒以下做到的,也可以使用人工智能來自動做。第二,假如在一個具體重復發(fā)生的事情中,你可以拿到海量數(shù)據(jù),并可以用這些數(shù)據(jù)來預測下一次的結(jié)果,那么人工智能也能做到。”
吳恩達的演講從始至終都圍繞著他帶來的“三件禮物”展開,第一件是百度語音技術(shù)的應用,一款叫做百度語音輸入法的APP,這款輸入法兩個月后會上線,從現(xiàn)場演示視頻來看,它表現(xiàn)更像是一款智能語音助手,但功能顯然要更豐富得多。
第二和第三件禮物分別是開放百度深度學習平臺以及開放百度大腦平臺,從這兩點中我們可以看出,未來在人工智能方面,百度希望作為一個技術(shù)輸出的角色,為更多的企業(yè)和開發(fā)者提供技術(shù)支持。
吳恩達在演講的最后表示:“今年百度世界大會的主題是AI is the new electricity,一百年前電力為人類帶來很大改變,今天人工智能也會對行業(yè)帶來一樣大的改變,我希望百度的人工智能技術(shù)可以幫助大家改變行業(yè)、改變社會,也希望我們可以協(xié)助你走進人工智能時代。”
以下是李彥宏、吳恩達的演講內(nèi)容全文:
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。