幾十年以來(lái),我們一直在努力按自己的形象開(kāi)發(fā)出人工智能。在此期間,我們也始終致力于創(chuàng)造一種既像人類(lèi)一樣睿智、又像人類(lèi)一樣愚蠢的機(jī)器。
但經(jīng)過(guò)六十年的研發(fā),讓AI系統(tǒng)在目標(biāo)、意圖與價(jià)值觀層面與人類(lèi)保持統(tǒng)一,仍是個(gè)遙不可及的目標(biāo)。AI幾乎已經(jīng)在各個(gè)主要領(lǐng)域達(dá)到與人類(lèi)智能相近、甚至更高的水平,但又總是在最核心的范疇內(nèi)有所欠缺。正是這種欠缺,導(dǎo)致AI技術(shù)無(wú)法成為我們所期望的、真正擁有更改及行事邏輯的智能主體。
程序員兼研究員Brian Christian在最新著作《機(jī)器學(xué)習(xí)與人類(lèi)價(jià)值觀之間的一致性問(wèn)題》(The Alignment Problem: Machine Learning and Human Value)當(dāng)中,討論了我們?cè)撛鯓哟_保AI模型能夠捕捉到“我們的規(guī)范與價(jià)值觀,理解我們的意思或意圖,并據(jù)此做出優(yōu)先級(jí)判斷”這一現(xiàn)實(shí)挑戰(zhàn)。近年來(lái),隨著機(jī)器學(xué)習(xí)應(yīng)用范圍的逐步推廣,在實(shí)際領(lǐng)域中做出錯(cuò)誤決策很可能帶來(lái)災(zāi)難性的后果。正是這樣的背景,讓Christian提出的問(wèn)題變得愈發(fā)緊迫。
根據(jù)Christian所述,“隨著機(jī)器學(xué)習(xí)系統(tǒng)的日益普及與功能的逐步增強(qiáng),我們開(kāi)始變得像「新手巫師」——我們掌握著一種具有自主性的力量,我們似乎可以用指令引導(dǎo)這種力量,但如果指示不夠準(zhǔn)確或不夠完整,就有可能引發(fā)某些可怕且超出意料的后果。”
在書(shū)中,Christian全面描述了人工智能的現(xiàn)狀以及整個(gè)發(fā)展歷程,同時(shí)探討了現(xiàn)有AI創(chuàng)建方法的種種缺陷。
下面來(lái)看書(shū)中的幾大要點(diǎn)。
機(jī)器學(xué)習(xí):將輸入映射至輸出
在AI研究的前幾十年中,符號(hào)系統(tǒng)在解決以往涉及邏輯推理的復(fù)雜問(wèn)題時(shí),取得了舉世矚目的成就。然而,這類(lèi)系統(tǒng)反而很難解決人類(lèi)兒童就能處理的小問(wèn)題——例如檢測(cè)物體、識(shí)別人臉、理解聲音與語(yǔ)音。此外,這類(lèi)系統(tǒng)的可擴(kuò)展性也比較差,往往需要大量人工介入以建立明確的規(guī)則與知識(shí)定義。
最近,全世界對(duì)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的關(guān)注開(kāi)始快速增長(zhǎng),同時(shí)也推動(dòng)著計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別與自然語(yǔ)言處理等領(lǐng)域(傳統(tǒng)符號(hào)AI無(wú)法處理的領(lǐng)域)的迅猛發(fā)展。機(jī)器學(xué)習(xí)算法可以跟隨數(shù)據(jù)量與計(jì)算資源同步擴(kuò)展,借此帶來(lái)了人工智能的黃金十年。
但問(wèn)題在于,機(jī)器學(xué)習(xí)算法的效果雖然相當(dāng)突出,但本質(zhì)卻仍然簡(jiǎn)陋——將觀察結(jié)果通過(guò)復(fù)雜的數(shù)學(xué)函數(shù)與結(jié)果映射起來(lái)。因此,機(jī)器學(xué)習(xí)的質(zhì)量將直接由數(shù)據(jù)質(zhì)量決定,而且會(huì)在實(shí)際應(yīng)用并接觸到與訓(xùn)練數(shù)據(jù)不符的真實(shí)素材時(shí),產(chǎn)生嚴(yán)重的性能下降。
在書(shū)中,Christian列舉了一系列實(shí)例,闡述機(jī)器學(xué)習(xí)算法遭遇的各種尷尬、甚至具有危害性的破壞。以Google Photos分類(lèi)算法為例,該算法會(huì)將皮膚黝黑的人標(biāo)記為大猩猩。問(wèn)題不在算法本身,而在于所使用的訓(xùn)練數(shù)據(jù)。如果谷歌能夠在數(shù)據(jù)集中納入更多皮膚黝黑的素材,完全可以避免這個(gè)問(wèn)題。
Christian寫(xiě)道,“當(dāng)然,從理論上講,這類(lèi)系統(tǒng)可以從一組示例中學(xué)到任何知識(shí)。但這也意味著AI系統(tǒng)的理解方式完全受示例左右。”
更糟糕的是,機(jī)器學(xué)習(xí)模型無(wú)法分辨對(duì)錯(cuò),也無(wú)法做出道德決策。機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)中存在的任何問(wèn)題,通常都會(huì)以極細(xì)微、甚至根本無(wú)法察覺(jué)的方式反映在模型行為當(dāng)中。例如,Amazon于2018年關(guān)閉了用于做出雇用決策的機(jī)器學(xué)習(xí)工具,因?yàn)槠錄Q策結(jié)果明顯歧視女性。很明顯,AI的創(chuàng)造者并不希望根據(jù)性別來(lái)選擇候選人,但由于模型訓(xùn)練使用的數(shù)據(jù)來(lái)自Amazon公司的過(guò)往記錄,因此反映出了其用人方面的某些傾向。
這還只是機(jī)器學(xué)習(xí)模型偏見(jiàn)問(wèn)題中的冰山一角。正是由于存在這些問(wèn)題,由于機(jī)器學(xué)習(xí)模型會(huì)盲目根據(jù)我們以往的行為總結(jié)經(jīng)驗(yàn),才讓我們無(wú)法充分信任這類(lèi)工具。
Christian寫(xiě)道,“對(duì)真實(shí)世界建模相對(duì)簡(jiǎn)單,但模型在付諸使用后總會(huì)出現(xiàn)種種變化,甚至反過(guò)來(lái)改變這個(gè)世界。目前大部分機(jī)器學(xué)習(xí)模型在設(shè)計(jì)當(dāng)中存在一種廣泛假設(shè),即模型本身不會(huì)改變其建模所依據(jù)的現(xiàn)實(shí)。但這種假設(shè)幾乎完全站不住腳。實(shí)際上,草率部署這類(lèi)模型很可能會(huì)產(chǎn)生反饋循環(huán),導(dǎo)致我們?cè)絹?lái)越難以將其扳回正軌。”
對(duì)于數(shù)據(jù)收集、模式查找以及將模式轉(zhuǎn)化為行動(dòng)等層面,人類(lèi)智能應(yīng)該發(fā)揮更大的作用。機(jī)器學(xué)習(xí)的現(xiàn)實(shí)挑戰(zhàn)已經(jīng)證明,我們對(duì)于數(shù)據(jù)乃至機(jī)器學(xué)習(xí)的很多假設(shè)性認(rèn)識(shí)完全是錯(cuò)的。
Christian警告稱(chēng),“我們需要作出批判性思考……除了重視訓(xùn)練數(shù)據(jù)的來(lái)源,還應(yīng)重視系統(tǒng)中作為基本事實(shí)的標(biāo)簽來(lái)源。人們認(rèn)為的基本事實(shí),往往并不是基本事實(shí)。”
強(qiáng)化學(xué)習(xí):獎(jiǎng)勵(lì)最大化
強(qiáng)化學(xué)習(xí)同樣幫助研究人員實(shí)現(xiàn)了非凡的成就,使得AI能夠在復(fù)雜的電子游戲中擊敗人類(lèi)冠軍。
過(guò)去十年以來(lái),作為AI技術(shù)的另一大分支,強(qiáng)化學(xué)習(xí)同樣獲得了廣泛關(guān)注。強(qiáng)化學(xué)習(xí)要求為模型提供問(wèn)題空間加獎(jiǎng)勵(lì)函數(shù)規(guī)則,之后就由模型自主探索整個(gè)空間,找出能夠?qū)崿F(xiàn)獎(jiǎng)勵(lì)最大化的方法。
Christian寫(xiě)道,“強(qiáng)化學(xué)習(xí)……幫助我們一步步探索著智能的普遍、甚至是最本質(zhì)的定義。如果說(shuō)John McCarthy提出的「智能是實(shí)現(xiàn)真實(shí)目標(biāo)的能力中的計(jì)算部分」的說(shuō)法真實(shí)可靠,那么強(qiáng)化學(xué)習(xí)相當(dāng)于提供了一套驚人的通用型工具箱。它的核心機(jī)理就是在一次又一次試錯(cuò)當(dāng)中,摸索出新時(shí)代下一切人工智能方案的共通基礎(chǔ)。”
強(qiáng)化學(xué)習(xí)確實(shí)在雅達(dá)利游戲、圍棋、《星際爭(zhēng)霸2》以及DOTA 2等游戲中表現(xiàn)出色,并在機(jī)器人技術(shù)領(lǐng)域得到廣泛應(yīng)用。但成功的背后人們也開(kāi)始意識(shí)到,單純追求外部獎(jiǎng)勵(lì)并不能完全體現(xiàn)智能的運(yùn)作方式。
一方面,強(qiáng)化學(xué)習(xí)模型需要漫長(zhǎng)的訓(xùn)練周期才能得出簡(jiǎn)單的判斷能力。因此,這方面研究成為極少數(shù)掌握無(wú)窮資源的科技巨頭的專(zhuān)利。另外,強(qiáng)化學(xué)習(xí)系統(tǒng)的適用性也非常有限——能夠在《星際爭(zhēng)霸2》中擊敗人類(lèi)世界冠軍的系統(tǒng),卻無(wú)法在其他類(lèi)似的游戲中觸類(lèi)旁通。強(qiáng)化學(xué)習(xí)代理也更傾向于通過(guò)無(wú)止境的循環(huán),以犧牲長(zhǎng)期目標(biāo)的方式追求最簡(jiǎn)單的獎(jiǎng)勵(lì)最大化路徑。以賽車(chē)游戲AI為例,它經(jīng)常會(huì)陷入不斷收集獎(jiǎng)勵(lì)物品的死循環(huán),卻總是贏不下整場(chǎng)比賽。
Christian認(rèn)為,“消除這種與外部獎(jiǎng)勵(lì)的硬性聯(lián)系,可能才是構(gòu)建通用型AI的訣竅所在。因?yàn)榕c雅達(dá)利游戲不同,真實(shí)生活并不會(huì)為我們的每種行為預(yù)先設(shè)定明確的實(shí)時(shí)反饋。當(dāng)然,我們有父母、有老師,他們可以及時(shí)糾正我們的拼寫(xiě)、發(fā)音和行為模式。但是,這些并不是人生的全部,我們的生活不可能由權(quán)威所全面掌控。我們需要根據(jù)自己的觀點(diǎn)與立場(chǎng)做出判斷,這也正是人類(lèi)族群得以存續(xù)發(fā)展的根本前提。”
Christian還建議,不妨根據(jù)強(qiáng)化學(xué)習(xí)的原理反其道而行之,“結(jié)合預(yù)期行為考慮如何構(gòu)建環(huán)境獎(jiǎng)勵(lì),引導(dǎo)模型一步步掌握行為模式。這就像是面對(duì)美食評(píng)論家做出一份份食物,思考如何才能獲得對(duì)方的肯定。”
AI有必要模仿人類(lèi)嗎?
在書(shū)中,Christian還討論了開(kāi)發(fā)AI代理的意義——讓這些代理模仿人類(lèi)行為,真的有意義嗎?自動(dòng)駕駛汽車(chē)就是典型實(shí)例,代理會(huì)通過(guò)觀察人類(lèi)司機(jī)學(xué)習(xí)如何駕駛車(chē)輛。
模仿確實(shí)可以創(chuàng)造奇跡,特別善于處理規(guī)則及標(biāo)簽不夠明確的問(wèn)題。但是,模仿也會(huì)繼承人類(lèi)智能中的欠缺。人類(lèi)在年輕時(shí)往往通過(guò)模仿與死記硬背學(xué)習(xí)大量知識(shí),但模仿只是我們發(fā)展出智能行為的多種機(jī)制之一。在觀察他人的行為時(shí),我們會(huì)根據(jù)自己的限制、意圖、目標(biāo)、需求以及價(jià)值觀調(diào)整出適合自己的處理方式。
Christian寫(xiě)道,“如果模仿對(duì)象比我們更快、更強(qiáng)壯、身材更高大,那我們就沒(méi)辦法完美模仿他們。這時(shí)候一味堅(jiān)持模仿,只會(huì)影響我們解決問(wèn)題的能力。”
誠(chéng)然,AI系統(tǒng)確實(shí)通過(guò)觀察并預(yù)測(cè)我們的行為,嘗試以模仿的方式提供幫助。但很明顯,AI系統(tǒng)并不像人類(lèi)這樣受到種種約束與限制,因此會(huì)導(dǎo)致其誤解我們的意圖,甚至放大我們的某些不良習(xí)慣,最終將負(fù)面影響擴(kuò)散到我們生活中的方方面面。
Christian寫(xiě)道,“我們的數(shù)字管家正密切關(guān)注我們的私人生活與公共生活,審視著我們好的一面與壞的一面,但卻并不清楚這些因素到底有何區(qū)別、有何聯(lián)系。AI系統(tǒng)好似生活在一處詭異而復(fù)雜的山谷:能夠從我們的行為中推理出復(fù)雜的人類(lèi)欲望模型,但卻無(wú)法理解這些欲望從何而來(lái)。它們努力思考接下來(lái)該做什么,但不了解我們想要什么、又是怎樣成長(zhǎng)為我們自己。”
未來(lái)在哪里?
機(jī)器學(xué)習(xí)的進(jìn)步表明,我們?cè)趧?chuàng)造思想機(jī)器方面已經(jīng)取得了一定成就。但是,機(jī)器學(xué)習(xí)帶來(lái)的挑戰(zhàn)與影響,也再次提醒我們應(yīng)該正視理解人類(lèi)智能這一前提性難題。
AI科學(xué)家與研究人員正探索多種不同方法,希望克服這些障礙,打造出讓人類(lèi)只受益、不受害的AI系統(tǒng)。而在達(dá)成這項(xiàng)目標(biāo)之前,我們需要謹(jǐn)慎行事,不可貿(mào)然為這類(lèi)系統(tǒng)賦予過(guò)多權(quán)限。
Christian最后警告稱(chēng),“著眼于當(dāng)下,最危險(xiǎn)的行為就是在機(jī)器學(xué)習(xí)領(lǐng)域找到一種看似合理的模型、急于宣告研究成功——這可能會(huì)給整個(gè)社會(huì)帶來(lái)災(zāi)難性的后果。”
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。