繼今年 DeepMind AlphaGo 戰(zhàn)勝頂級圍棋選手李世石之后,百度 AI 百度大腦也要挑戰(zhàn)人類,這次的比拼則通過一場科技類的電視節(jié)目——《最強大腦》。
12 月 16 日在《最強大腦》第四季新聞發(fā)布后還沒結(jié)束的時候,百度大腦微信公眾號已經(jīng)率先推送了關(guān)于百度大腦將要參與到《最強大腦》欄目組比拼的消息內(nèi)容,百度董事長兼 CEO 李彥宏表示——這次參與到《最強大腦》比拼的“小度機器人”將代表“百度大腦”和當今中國人工智能的最高水平,與《最強大腦》名人堂的選手們約戰(zhàn)三場,爭奪進入最終世界腦王爭霸賽的資格。
根據(jù) PingWest 品玩在現(xiàn)場了解到的信息,這次錄制將通過三場比賽三局兩勝制的方式比拼,約戰(zhàn)領(lǐng)域?qū)⑹菆D像、語音識別以及綜合識別三方面。在會后的溝通環(huán)節(jié),百度深度學習實驗室主任林元慶提到了其中一期比賽可能是“看大人的面孔找到童年的照片,或是從童年的照片找到大人之類的比拼。”
李彥宏也提到——“百度大腦”擁有萬億級的參數(shù)、千億級別的樣本以及上億級別的特征訓練,它的工作機制和人腦有類似之處。不過人腦和機器的智能適用于不同領(lǐng)域,北京大學心理學系教授、博士生導師,也是這次活動的嘉賓魏坤琳提到,“人腦所擅長的,都是后天學的,但是人腦不擅長搞記憶。其實像圍棋那樣非常復雜的任務(wù),不是我們?nèi)祟惙浅I瞄L的,將來機器可能更容易超越,我們恰恰擅長的是感知和運動, 這一次挑戰(zhàn)是拿了人類比較擅長的東西和機器打。”
復旦大學國際關(guān)系與公共事務(wù)學院博士、副教授,同為這次活動的主持人蔣昌建則認為——每個項目當中,其實不單單是一個比如說人臉的辨識,也涉及到數(shù)據(jù)儲存的問題,比如對初步的數(shù)據(jù)進行辨識以后儲存,也是一個記憶的問題,機器明顯的要在這個方面強過人類。
人類在調(diào)動這些短期內(nèi)記憶的這些東西的時候,可能就比機器弱,但是人類在最后挑戰(zhàn)的時候最后所做的判斷是建立在儲存的信息的基礎(chǔ)上進行人類比較擅長的分析,因此它的優(yōu)勢和它的弱勢之間形成一個平衡,也不是說人類完全占優(yōu)。
要參與到這么一場營銷和炫技兼得的大型電視真人秀節(jié)目中來也不是件容易的事情。百度和《最強大腦》節(jié)目組兩方表示——這次節(jié)目組也找到了國內(nèi)幾家頂級的技術(shù)互聯(lián)網(wǎng)公司進行 PK 篩選,最后的結(jié)果是節(jié)目組更看中百度在方面的技術(shù)實力,所以才找到百度大腦作為這次人機大戰(zhàn)的 PK 對象。
下面是會后林元慶、魏坤琳在采訪環(huán)節(jié)的內(nèi)容精選。
林元慶在 IROS 2016,圖片來自 leiphone
記者:我對百度無人駕駛、深度學習都有一些了解。我想問一下小度機器人加入最強大腦戰(zhàn)隊的出發(fā)點是什么?是做深度學習測試,還是真正為了奪得某個獎項?因為有一個背景是三月份 AlphaGo 和李世石那個對弈非常精彩,是不是會跟 AlphaGo 做一個對標呢?
林元慶:百度在人工智能這個領(lǐng)域確實投入非常大,特別是在公司內(nèi)部。非常棒的是最強大腦節(jié)目找到我們,看看我們能不能做這么一檔節(jié)目,我們覺得是非常好的機會,來看一看百度過去幾年研發(fā)的一些人工智能技術(shù)已經(jīng)到什么樣的水平上。其實我們的目的不是說來打敗人類的,更重要的還是檢驗我們自己——我們?nèi)绻A了,我們還是得繼續(xù)再研發(fā),把技術(shù)運用到實際產(chǎn)品上。輸了的話,還是回去做研發(fā),希望研發(fā)出更好的技術(shù)。
記者:主要是從哪些方面跟人類去做一些對戰(zhàn)?
林元慶:比拼的方向主要是圖像識別和聲音識別。這兩個方向是人類比較擅長的,因為人類是與生俱有的能力,圖像識別就是看的能力,聲音識別就是聽的能力,聽和看是人類非常擅長的。整個人類的視聽系統(tǒng)應(yīng)該說是非常好的。
魏坤琳:不過人腦所擅長的,也都是后天學的,但是人腦不擅長搞記憶。其實像圍棋那樣非常復雜的任務(wù),不是我們?nèi)祟惙浅I瞄L的,將來機器可能更容易超越。我們恰恰擅長的是感知和運動,很多老百姓不知道這一點:人類文明社會是一萬年前,一萬年前農(nóng)耕社會才發(fā)明了文字,后面才有人引以為傲的(各種發(fā)明的)東西,前面幾百萬年我們干的事情就是在狩獵和采集,如果(真的一直)在東非草原邊緣上干了幾百萬年的話,唯一最擅長做的事情,就是運動和感知覺。這一次挑戰(zhàn)是拿了人類比較擅長的東西和機器打。
蔣昌建:這里面還有幾層意思。每個項目當中,其實不單單是一個比如說人臉的辨識,也涉及到數(shù)據(jù)儲存的問題,比如對初步的數(shù)據(jù)進行辨識以后儲存,也是一個記憶的問題。機器明顯的要在這個方面強過人類,人類在調(diào)動這些短期內(nèi)記憶的這些東西的時候,可能就比機器弱,但是人類在最后挑戰(zhàn)的時候,特別是我們的項目當中,最后所做的判斷是建立在儲存的信息的基礎(chǔ)上(進行人類比較擅長的分析),因此它的優(yōu)勢和它的弱勢之間形成一個平衡,也不是說人類完全占優(yōu)。
記者:問蔣老師一個問題,剛才您說這檔節(jié)目的初衷并不是想要著重在于人腦和跟電腦的對抗,人機大戰(zhàn)并不在于兩者之間的對抗…(那是在于什么?)
蔣昌建:不關(guān)注誰輸誰贏,對節(jié)目組來講這不是我們最大的壓力,我們最大的壓力像剛才魏坤琳講的,一個是怎么建立一個公平的規(guī)則,能夠把人工智能的機器人,它研究到目前最好的潛力給表現(xiàn)出來。比如說機器人明明計算強過人類,比如說人在某些領(lǐng)域當中的挑戰(zhàn)遠遠超過人工智能現(xiàn)在的水平,基于一種目的的比拼都是不公平的。在項目的規(guī)則的設(shè)計當中就要考慮這種平衡,把雙方的潛力都能夠發(fā)揮出來,這是我們最關(guān)心的第一個問題。
第二個問題,在 PK 的過程當中,當然一定會有輸贏,因為要完成一個任務(wù),但是輸贏的背后看兩件事情。第一個有沒有給人工智能提出新課題,還有是有沒有給像王昱珩、王峰這樣頂尖的(最強大腦)選手提出新的挑戰(zhàn)。
第三個問題,我是一個有感情的人,你肯定問我作為主持人來講,跟節(jié)目有沒有關(guān)系,如果人勝的話你的感情是什么?如果機器勝的話呢?我非常矛盾,說老實話我是希望人能夠勝利,但是當看到機器人在有一些局面是勝的時候,我的感情非常糾結(jié)。
我給你一個場面好了:當機器人在某些局勝的時候,機器人是不懂得高興的——他在場上,但場下整個的研發(fā)機器人的團隊抱頭痛哭;當我看到人戰(zhàn)勝機器人的時候——我哭了是人在哭。當我看到機器人戰(zhàn)勝人的時候,工程師團隊抱頭痛哭的時候也是人在哭,所以你問我的心情,我可以這樣回答你,我在意什么?其實我在意這些東西,我不是特別在意輸贏。
記者:之前最強大腦節(jié)目組找過國內(nèi)很多頂尖的互聯(lián)網(wǎng)公司和最強大腦進行一些合作,今年 3 月份的時候搜狗這些王小川也參加過類似的節(jié)目,各個不同的互聯(lián)網(wǎng)公司對人工智能方面的研究有什么樣的區(qū)別,百度的話可能就是說已經(jīng)有一個小度(百度大腦)出來了,比如阿里或者搜狗這種,可能更多人工智能還沒有一個形象化的東西出現(xiàn),實際上他們開發(fā)的方向可能有一些區(qū)別,在你看來的話國內(nèi)現(xiàn)在的互聯(lián)網(wǎng)公司間,他們的區(qū)別在哪里,排名一二三的。
魏坤琳:首先大的互聯(lián)網(wǎng)公司布局都特別大,過去一年之內(nèi)發(fā)表的有關(guān)人工智能的研究中國人占了 1/4,其他的主要都是美國人,美國人中間有 80% 的研究是跟中國的合作。你看知識的遷移,的確各大 IT 公司在后面的投入是非常大的,百度更加是恨不得把自己的身家全都壓上去。其他公司可能還有很多重頭,而對于百度來說這個投入是非常大的。
像搜狗、阿里都有類似,但是他們做的可能比較有一些特定的領(lǐng)域,百度可能比較廣一些。另一個百度的優(yōu)勢——我不知道欄目組為什么最終跟他們合作——我覺得有一個優(yōu)勢是在這幾個領(lǐng)域上面,語音識別、聲音識別和圖像識別上,(百度)的確是目前國內(nèi)做的最好。別的公司可以噴我,但我看到了數(shù)據(jù)——百度參加其他的大賽,參加國際上的大賽從來都是拿第一的,國內(nèi)公司就是第一。去年 MIT 有個權(quán)威的十大科技突破,我看那個新聞稍微驚訝一點,因為是整個科技領(lǐng)域在全球范圍內(nèi)的突破其中有一項是百度的語音識別。
人工智能到底離我們生活有多遠,比如自動駕駛離的比較遠。但是自動駕駛到現(xiàn)實生活中可能它不是一個線性的發(fā)展,不是大概看的趨勢十年以后再看。科學發(fā)展不是這樣,可能就是突然一個技術(shù)突然出現(xiàn),突然一下有一個非線性的發(fā)展,第二天自動駕駛車就出來了。所以不要用線性的思維預(yù)測離我們很遠。
我特別感到高興的一點,就是這次最強大腦能夠和他們強強聯(lián)手以后,過去我們老百姓不明白科技界發(fā)展什么事情,普羅大眾不太明白,我們做研究也不太明白人工智能發(fā)展是一個什么趨勢,但是我們是不是通過這個形式在思想上早早給老百姓做一些鋪墊、準備——這個東西到底強到什么程度了。所以我們把人擅長的和機器做對比,我們看一看這個東西的結(jié)果是怎樣,也是對老百姓非常好的科普。
第二點,剛才蔣老師講個人情感問題,這個問題提前給大家看更好,我們會跟人工智能之間產(chǎn)生情感的糾葛,這是遲早的事情,提前拿出來討論也很好。
記者:今天拿出來兩個人們比較喜聞樂見的項目語音識別和圖像識別。百度在這兩個項目,技術(shù)上面有沒有推出來的應(yīng)用,就是已經(jīng)有一個產(chǎn)品。
林元慶:人臉識別的話,剛才提到 2016 年之前做了互聯(lián)網(wǎng)圖片人臉的索引和搜索,你搜魏坤琳會出來一串的魏坤琳的照片,那是因為我們對整個互聯(lián)網(wǎng)上面的照片都做了人臉識別。大家可能平常會覺得——我搜魏坤琳應(yīng)該就出魏坤琳,是因為很多的話全網(wǎng)的照片都做了人臉識別。
記者:什么時候開始的?
林元慶:過去這幾年一直都在做,開始的話應(yīng)該在 2013 年左右。人臉識別在百度內(nèi)部已經(jīng)用到百度的一個部門,互聯(lián)網(wǎng)金融很重要的就要能夠識別電腦前面或者手機前面這個人是誰,就是身份認證?,F(xiàn)在百度人臉識別已經(jīng)用到了。
剛才我也提到下一步包括在外部的落地,就是 11 月初在烏鎮(zhèn)進駐景區(qū)刷臉就行了。我們那個技術(shù)和大家市面上看到的人臉識別技術(shù)還不太一樣,人臉識別技術(shù)有兩種:一種是一比一的比對,像銀行身份認證一般提交一個身份證,然后提交一張照片,系統(tǒng)會拿身份證去公安的系統(tǒng)里面取一張你的身份證的照片回來,現(xiàn)在的照片和身份證的照片進行比對,看這是不是同一個人,這是一比一的比對。
我們?yōu)蹑?zhèn)景區(qū)其實是更難的系統(tǒng),是一比 N 的比對,只要你登記完之后,你的照片已經(jīng)在數(shù)據(jù)庫里了,過這個閘機的時候不要再拿身份證,過的時候就得到你的人臉照片,跟數(shù)據(jù)庫幾千人或者幾萬人去比較,甚至幾十萬人。原來是一張比一張,這個的話是一張比幾千張或者幾萬張,我們叫一比 N 的比對,這個要做到非常高的精度還是非常難的。
記者:除了行業(yè)內(nèi)的工作人員,其他的朋友會問這個真的能識別嗎?節(jié)目是不是也是提前錄制好的?
林元慶:我們跟這個節(jié)目合作之后,就像今天做的這個比賽項目(識別童年照),我們會把這項技術(shù)開放出來,這個會讓大家體驗。
這個節(jié)目從頭到尾都是一遍錄完,我們來之前只知道要挑戰(zhàn)什么樣的內(nèi)容(方向)——有的是拿小孩的照片去找大人,還是拿大人的照片找小孩,我們只知道這些。所有其他具體比賽項目都非常保密,我們其實事先根本不知道。
記者:現(xiàn)在 AI 概念非?;稹N液芎闷娴氖乔皫啄?O2O 的概念也非?;穑衲?AR、VR 也非?;?,現(xiàn)在已經(jīng)證實了當年 O2O 有很多泡沫,很多公司已經(jīng)死掉了。我想問的就是,我之前去參加了很多 AI 和某些項目應(yīng)用結(jié)合的發(fā)布會,因為現(xiàn)在 AI 時代剛剛起步,像百度這種頂級的技術(shù)互聯(lián)網(wǎng)公司也算是剛剛開始,如果說 AI 未來可能也是泡沫的話,能不能說一下什么樣的公司才是真正的 AI 公司,什么公司實際就是假的,是泡沫?
林元慶:這個行業(yè)里面,有一些泡沫,但 AI 確實是一下子能解決很多人解決不了的問題。很多初創(chuàng)公司成立,同時有很多 Google、Facebook 這種重量級的公司也投入非常大的力量做 AI,Google 也說他們是人工智能公司了,不是搜索的公司,像百度也會覺得人工智能是我們的下一步。這里面都有非常大的投入,但是非常重要的在于,是不是扎實做事,這個是最重要的。比如技術(shù)方面,是不是研發(fā)了非常強的技術(shù),技術(shù)是不是落地了,你剛才說怎么看哪一個公司不是真正的 AI 的公司,就要看這兩個方面,不要看融了多少錢,現(xiàn)在融錢是容易的,更重要的是什么場景,這個 AI 對它的推進到底有多大的幫助。
記者:我聽到的是這個行業(yè)有做算法的、做模型的,這種可能是真正在做技術(shù)提升自己的實力,應(yīng)用這方面更像是在套用一個成熟的模型,然后做 app 落地這種事情?,F(xiàn)在在做 AI 的初創(chuàng)公司,您能不能給我們做一個分類?
林元慶:還是不要給別人貼標簽,不太好。
記者:也不是具體提哪些公司,是不是有這種現(xiàn)象?
林元慶:是有的,有的公司做應(yīng)用,有的公司做技術(shù),可能把很多時間花在算法上,但是其實像人工智能如果只做其中的一塊問題不大。人工智能整個的研發(fā)體系,我說做人工智能很重要的一點是要有大應(yīng)用,經(jīng)??吹揭恍┌l(fā)布會 PPT 上說人工智能最近這幾年比較這么快,是因為深度學習、大數(shù)據(jù)、大計算,這三個肯定是很重要的——這三個能夠搭建,能夠研發(fā)一些技術(shù),直接用到某些產(chǎn)品。但是要把這些技術(shù)做到極致,接近百分之百解決實際問題,一定要有技術(shù)研發(fā)出來,一定需要在市場迭代。為什么迭代很重要,不單單在于算法的迭代,而在于數(shù)據(jù)。
有算法有數(shù)據(jù)就會研發(fā)技術(shù),技術(shù)變成產(chǎn)品,產(chǎn)品走到市場,用戶再用你的產(chǎn)品提供無限數(shù)據(jù),有更多的數(shù)據(jù)就能夠研發(fā)出越好的技術(shù),就有越好的產(chǎn)品,就有越多的人來用,這才是一個正循環(huán),這個也非常重要。比如我只做算法,前面后面不用,整個這個技術(shù)就很難有非常大的發(fā)展。但是只做應(yīng)用,沒有很好的技術(shù)驅(qū)動的話,手里拿個數(shù)據(jù),可能數(shù)據(jù)也會比較慢,最重要的是把這個閉環(huán)用起來,這是我們在百度非常追求的事。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。