強(qiáng)化學(xué)習(xí)(RL)是一種強(qiáng)大的人工智能技術(shù),能夠掌握復(fù)雜的策略以控制各類大規(guī)模復(fù)雜系統(tǒng),包括制造流水線、交通控制系統(tǒng)(道路/火車/飛機(jī))、金融資產(chǎn)以及機(jī)器人等等。如今,強(qiáng)化學(xué)習(xí)正由實(shí)驗(yàn)室環(huán)境一步步走向真正具備現(xiàn)實(shí)影響力的應(yīng)用場(chǎng)景。例如,Wayve與Waymo等自動(dòng)駕駛汽車廠商正在使用強(qiáng)化學(xué)習(xí)技術(shù)開(kāi)發(fā)汽車控制系統(tǒng)。
目前,工業(yè)中通常使用AI系統(tǒng)執(zhí)行各類模式識(shí)別與預(yù)測(cè)分析任務(wù)。例如,AI系統(tǒng)可以識(shí)別圖像中的模式以檢測(cè)人臉(人臉識(shí)別),或者發(fā)現(xiàn)銷售數(shù)據(jù)中的模式以預(yù)測(cè)需求變化等等。而在另一方面,強(qiáng)化學(xué)習(xí)方法能夠在具備反饋循環(huán)的應(yīng)用中做出最佳決策或采取最佳行動(dòng)。通過(guò)兩個(gè)直觀用例,相信大家已經(jīng)對(duì)AI與強(qiáng)化學(xué)習(xí)之間的區(qū)別與聯(lián)系建立起初步了解。
假定我們使用AI技術(shù)運(yùn)營(yíng)一家制造工廠。AI提供的模式識(shí)別功能可用于質(zhì)量保證,包括通過(guò)掃描圖像及最終產(chǎn)品以檢測(cè)設(shè)計(jì)乃至制造層面的缺陷。另一方面,強(qiáng)化學(xué)習(xí)系統(tǒng)則可以對(duì)制造流程所遵循的策略(例如確定需要運(yùn)行的生產(chǎn)線、控制機(jī)器/機(jī)器人、確定要制造的產(chǎn)品類型等)進(jìn)行計(jì)算與執(zhí)行,不斷結(jié)合反饋信息發(fā)現(xiàn)現(xiàn)有策略中的改進(jìn)空間,在保證一定產(chǎn)品質(zhì)量水平的同時(shí)最大程度提升特定指標(biāo)(例如產(chǎn)量)。以往,這類問(wèn)題由于涉及大量影響因素而難以被常規(guī)AI系統(tǒng)所解決,但強(qiáng)化學(xué)習(xí)的出現(xiàn)無(wú)疑帶來(lái)了希望的曙光。
在使用強(qiáng)化學(xué)習(xí)計(jì)算最佳策略或政策時(shí),相關(guān)算法面臨的主要挑戰(zhàn)在于“時(shí)間信用分配”問(wèn)題。具體來(lái)講,在特定系統(tǒng)狀態(tài)之下(例如「機(jī)器的當(dāng)前輸出水平,每條流水線的繁忙程度」等),行為(例如「星期三運(yùn)行1號(hào)生產(chǎn)線」)對(duì)整體效能(例如「總產(chǎn)量」)產(chǎn)生的影響往往需要一段時(shí)間后才能確定。更讓人頭痛的是,總體效能還會(huì)受到具體操作方式的左右??偠灾?,我們?cè)陬A(yù)先制定策略與評(píng)估效果時(shí),往往很難判斷哪些是好選擇、哪些是壞想法。在這類復(fù)雜問(wèn)題中,大量潛在的系統(tǒng)狀態(tài)還會(huì)引發(fā)恐怖的“維度詛咒”,進(jìn)一步加劇結(jié)果的不確定性。但好消息是,強(qiáng)化學(xué)習(xí)近年來(lái)在實(shí)驗(yàn)室中的出色表現(xiàn)為解決這類難題帶來(lái)了值得期待的希望。
之前,強(qiáng)化學(xué)習(xí)的卓越性能主要表現(xiàn)在棋類游戲與電子游戲領(lǐng)域。單憑對(duì)屏幕上圖像及游戲得分這兩項(xiàng)輸入信息,強(qiáng)化學(xué)習(xí)系統(tǒng)就很快在各類雅達(dá)利游戲中橫掃人類玩家,給整個(gè)AI社區(qū)留下了深刻印象。而這套出色的系統(tǒng),是由倫敦AI研究實(shí)驗(yàn)室DeepMind于2013年所一手創(chuàng)造。后來(lái),DeepMind又從AlphaGo代理起步構(gòu)建起一系列強(qiáng)化學(xué)習(xí)系統(tǒng)(也稱代理),能夠在圍棋對(duì)抗中輕松擊敗世界頂尖玩家。憑借著2015年至2017年之間的這一系列壯舉,強(qiáng)化學(xué)習(xí)之名席卷全球。而在圍棋這一擁有無(wú)數(shù)擁躉、且向來(lái)以高復(fù)雜度與中遠(yuǎn)期戰(zhàn)略思考著稱的腦力運(yùn)動(dòng)中拔得頭籌,也讓人們對(duì)于強(qiáng)化學(xué)習(xí)的未來(lái)應(yīng)用充滿好奇。
在此之后,DeepMind以與AI研究實(shí)驗(yàn)室OpenAI發(fā)布了面向《星際爭(zhēng)霸》與《DOTA 2》游戲的系統(tǒng),其同樣與全球頂尖人類玩家打得有來(lái)有往。看起來(lái),強(qiáng)化學(xué)習(xí)在這類要求嚴(yán)謹(jǐn)戰(zhàn)略思考、資源管理與游戲內(nèi)多單位操控/協(xié)調(diào)的場(chǎng)景下仍然擁有不俗的表現(xiàn)。
通過(guò)讓強(qiáng)化學(xué)習(xí)算法完成數(shù)百萬(wàn)盤(pán)游戲,系統(tǒng)一步步摸索出哪些策略真實(shí)有效,而哪些策略更適用于針對(duì)不同類型的對(duì)手及玩家。以強(qiáng)大的算力為基礎(chǔ),強(qiáng)化學(xué)習(xí)算法往往會(huì)采用多種思路,并一一嘗試不同策略的具體效果。該系統(tǒng)會(huì)嘗試策略空間窮舉、自我對(duì)抗、多策略聯(lián)動(dòng)以及學(xué)習(xí)人類玩家策略等多種方式,快速在策略空間探索與沿用現(xiàn)有良好策略之間取得平衡點(diǎn)。簡(jiǎn)單來(lái)講,大量的試驗(yàn)使得系統(tǒng)得以探索出多種不同游戲狀態(tài),而復(fù)雜的評(píng)估方法則讓AI系統(tǒng)摸索出在合理的游戲形勢(shì)下、哪些策略或操作能夠?qū)崿F(xiàn)良好的中長(zhǎng)期收益。
但在現(xiàn)實(shí)世界中使用這些算法的主要障礙,在于我們不太可能逐一完成這數(shù)百萬(wàn)次試驗(yàn)。好消息是,有新的解決方案能夠解決這個(gè)難題:首先為應(yīng)用場(chǎng)景創(chuàng)建起計(jì)算機(jī)模擬環(huán)境(制造工廠或市場(chǎng)模擬環(huán)境等),而后使用強(qiáng)化學(xué)習(xí)算法從中整理出最佳策略,最后再將總結(jié)出的最佳策略納入實(shí)際場(chǎng)景、通過(guò)進(jìn)一步調(diào)參反映現(xiàn)實(shí)世界。OpenAI就曾在2019年進(jìn)行過(guò)一輪引人注目的演示,通過(guò)訓(xùn)練機(jī)器人手臂單手解開(kāi)魔方來(lái)證明這種模擬訓(xùn)練方法的有效性。
但要讓這種方法切實(shí)起效,模擬環(huán)境必須能夠準(zhǔn)確表達(dá)潛在問(wèn)題。從某種意義上說(shuō),待解決的問(wèn)題在模擬環(huán)境中就已經(jīng)得到某種形式的“解決”,不可有任何影響系統(tǒng)性能的外部因素。例如,如果模擬的機(jī)器人手臂與真實(shí)機(jī)器人手臂相差太大,那么實(shí)際操作時(shí)手臂就沒(méi)辦法拿穩(wěn)小小的魔方。在這種情況下,就算模型本身得到了正確訓(xùn)練、也擁有了良好的抗干擾能力,仍然不可能達(dá)到預(yù)期目標(biāo)。
這種種限制給強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用帶來(lái)了巨大的挑戰(zhàn),甚至有可能帶來(lái)令人不快的意外。在早期制造工廠示例中,如果將其中某臺(tái)設(shè)備替換為速度更快或更慢的機(jī)器,則可能改變廠內(nèi)的整體生產(chǎn)動(dòng)態(tài),導(dǎo)致我們不得不重新訓(xùn)練強(qiáng)化學(xué)習(xí)模型。雖然同樣的情況也會(huì)影響到一切強(qiáng)化控制系統(tǒng),但人們對(duì)于強(qiáng)化學(xué)習(xí)方案的期望明顯更高,所以必須想辦法消除這些不符合預(yù)期的問(wèn)題。
無(wú)論如何,強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用確實(shí)展現(xiàn)了光明的未來(lái),也已經(jīng)有眾多初創(chuàng)企業(yè)在嘗試使用強(qiáng)化學(xué)習(xí)技術(shù)控制制造機(jī)器人(Covariant、Osaro、Luffy)、管理生產(chǎn)規(guī)劃(Instadeep)、企業(yè)決策(Secondmind)、物流(Dorabot)、電路設(shè)計(jì)(Instadeep)、控制自動(dòng)駕駛汽車(Wayve、Waymo、Five AI)、控制無(wú)人機(jī)(Amazon)、運(yùn)營(yíng)對(duì)沖基金(Piit.ai)乃至更多模式識(shí)別型AI系統(tǒng)無(wú)法輕松應(yīng)對(duì)的現(xiàn)實(shí)場(chǎng)景。
另外,各大高科技企業(yè)也已經(jīng)在強(qiáng)化學(xué)習(xí)研究方面投入大量資金。谷歌就在2015年以4億英鎊(約合5.25億美元)收購(gòu)了DeepMind。但為了保持競(jìng)爭(zhēng)優(yōu)勢(shì),雙方均未公布更多交易細(xì)節(jié)。
也許當(dāng)前的強(qiáng)化學(xué)習(xí)應(yīng)用還顯得有些笨拙且步履蹣跚,但在強(qiáng)大算力與雄厚財(cái)力的雙重加持之下,其很可能在不久的將來(lái)成為市場(chǎng)上不容忽視的核心技術(shù)成果。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。