就當(dāng)下來(lái)看,AI領(lǐng)域?qū)崿F(xiàn)突破性進(jìn)展的深度學(xué)習(xí)模型,其規(guī)模越大,能耗和成本也隨之增加。自然語(yǔ)言處理模型GPT-3就是個(gè)典型的例子,為了能夠在準(zhǔn)確性與速度方面與人類(lèi)相匹敵,該模型包含1750億個(gè)參數(shù)、占用350 GB內(nèi)存并產(chǎn)生高達(dá)1200萬(wàn)美元的模型訓(xùn)練成本。而且單從成本來(lái)看,大家應(yīng)該就能體會(huì)到它所消耗的海量能源。
UMass Amherst的研究人員們發(fā)現(xiàn),訓(xùn)練大型AI模型所需要的算力往往對(duì)應(yīng)超過(guò)60萬(wàn)英磅二氧化碳排放量,相當(dāng)于五臺(tái)家用汽車(chē)在整個(gè)使用周期內(nèi)的全部排放!
更要命的是,這些模型在實(shí)際生產(chǎn)環(huán)境中(即推理階段)還需要耗費(fèi)更多能源以不斷產(chǎn)出分析結(jié)論。根據(jù)英偉達(dá)的估算,神經(jīng)網(wǎng)絡(luò)模型運(yùn)行所產(chǎn)生的成本有80%至90%來(lái)自推理階段、而非訓(xùn)練階段。
因此有觀點(diǎn)認(rèn)為,要保持AI技術(shù)的快速進(jìn)步,我們必須想辦法找到一條具備環(huán)境可持續(xù)性的道路。但事實(shí)證明,我們完全可以將大規(guī)模模型縮減為能夠運(yùn)行在日常工作站或服務(wù)器上的大小,且?guī)缀醪挥绊憸?zhǔn)確性與速度。
下面,我們先來(lái)聊聊為什么機(jī)器學(xué)習(xí)模型總是這么龐大臃腫。
當(dāng)前,計(jì)算能力每3到4個(gè)月即翻一番
十多年前,斯坦福大學(xué)的研究人員發(fā)現(xiàn),用于為視頻游戲中的復(fù)雜圖形提供處理支持的處理器(GPU)能夠在深度學(xué)習(xí)模型中提供極高的計(jì)算效率。這一發(fā)現(xiàn)掀起一輪“軍備競(jìng)賽”,各廠商爭(zhēng)相為深度學(xué)習(xí)應(yīng)用程序開(kāi)發(fā)出越來(lái)越強(qiáng)大的專(zhuān)用硬件。與之對(duì)應(yīng),數(shù)據(jù)科學(xué)家們創(chuàng)建的模型也越來(lái)越龐大,希望借此帶來(lái)更準(zhǔn)確的處理結(jié)果。兩股力量相互纏繞,也就形成了如今的態(tài)勢(shì)。
來(lái)自O(shè)penAI的研究證明,目前整體行業(yè)都處于這樣的升級(jí)循環(huán)當(dāng)中。2012年至2018年期間,深度學(xué)習(xí)模型的計(jì)算能力每3到4個(gè)月就翻一番。這意味著六年時(shí)間內(nèi),AI計(jì)算能力增長(zhǎng)達(dá)驚人的30萬(wàn)倍。如前所述,這些算力不僅可用于訓(xùn)練算法,同時(shí)也能在生產(chǎn)環(huán)境中更快帶來(lái)分析結(jié)果。但MIT的最終研究則表明,我們達(dá)到計(jì)算能力極限的時(shí)間可能遠(yuǎn)遠(yuǎn)早于大家的想象。
更重要的是,資源層面的限制導(dǎo)致深度學(xué)習(xí)算法開(kāi)始成為極少數(shù)組織的專(zhuān)屬。我們當(dāng)然希望使用深度學(xué)習(xí)從醫(yī)學(xué)影像中檢測(cè)癌細(xì)胞變化、或者在社交媒體上自動(dòng)清除仇恨言論,但我們也確實(shí)無(wú)法承受體量更大、耗電量更高的深度學(xué)習(xí)模型。
未來(lái):少即是多
幸運(yùn)的是,研究人員們發(fā)現(xiàn)了多種新方法,能夠使用更智能的算法縮小深度學(xué)習(xí)模型,并重新調(diào)整訓(xùn)練數(shù)據(jù)集的使用方式。如此一來(lái),大型模型也能夠在配置較低的小規(guī)模生產(chǎn)環(huán)境內(nèi)運(yùn)行,并繼續(xù)根據(jù)用例提供必要的結(jié)果。
這些技術(shù)有望推動(dòng)機(jī)器學(xué)習(xí)大眾化,幫助那些沒(méi)有充足金錢(qián)或資源的組織也能訓(xùn)練算法并將成果投入生產(chǎn)。這一點(diǎn)對(duì)于無(wú)法容納專(zhuān)用AI硬件的“邊緣”用例顯得尤其重要,包括攝像機(jī)、汽車(chē)儀表板以及智能手機(jī)等小型設(shè)備。
研究人員們一直嘗試刪除神經(jīng)網(wǎng)絡(luò)內(nèi)的某些非必要連接,或降低某些數(shù)學(xué)運(yùn)算的復(fù)雜性等方式縮小模型體積。這些更小、更快的模型能夠在任意位置以類(lèi)似于大型模型的準(zhǔn)確度與性能保持運(yùn)行。如此一來(lái),我們不再需要瘋狂追求極致算力,也就有望緩解對(duì)環(huán)境的重大破壞。事實(shí)上,縮小模型體量、提升模型效率已經(jīng)成為深度學(xué)習(xí)的未來(lái)發(fā)展方向。
另一個(gè)重要問(wèn)題,則體現(xiàn)在針對(duì)不同用例在新數(shù)據(jù)集上反復(fù)訓(xùn)練大型模型方面。遷移學(xué)習(xí)技術(shù)有望消除此類(lèi)問(wèn)題——這項(xiàng)技術(shù)以預(yù)訓(xùn)練完成的模型作為起點(diǎn),能夠使用有限的數(shù)據(jù)集將模型知識(shí)“遷移”至新任務(wù)當(dāng)中,因此我們不必從零開(kāi)始重新訓(xùn)練初始模型。這既是降低模型訓(xùn)練所需算力的重要手段,也將極大緩解AI發(fā)展給自然環(huán)境帶來(lái)的能源壓力。
底線在哪?
只要有可能,模型應(yīng)當(dāng)、也必須尋求“瘦身”以降低算力需求。
另外,模型得到的知識(shí)應(yīng)該可以回收并再次利用,而不必每次都從零開(kāi)始執(zhí)行深度學(xué)習(xí)訓(xùn)練過(guò)程。最終,一切有望降低模型規(guī)模、削減算力消耗(而不會(huì)影響性能或準(zhǔn)確性)的方法都將成為解放深度學(xué)習(xí)能量的重要新機(jī)遇。
如此一來(lái),任何人都能夠以較低的成本在生產(chǎn)環(huán)境中運(yùn)行這些應(yīng)用程序,同時(shí)極大減輕對(duì)自然環(huán)境造成的壓力。當(dāng)“大AI”開(kāi)始變小時(shí),其中必將蘊(yùn)藏?zé)o數(shù)新的可能。對(duì)于這樣的前景,我們充滿期待。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。