在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,一項(xiàng)重要的新突破近期引起了廣泛關(guān)注。這項(xiàng)由四川大學(xué)的陸奧軍、四川大學(xué)的丁春暉、四川大學(xué)的孫亞男(通訊作者)、清華大學(xué)的馮濤以及浙江大學(xué)的袁杭杰共同完成的研究,于2025年6月4日發(fā)布在arXiv上(arXiv:2506.03956v1),標(biāo)題為"Adapt before Continual Learning"(適應(yīng)再連續(xù)學(xué)習(xí))。這項(xiàng)研究提出了一種全新的連續(xù)學(xué)習(xí)方法,旨在解決當(dāng)今機(jī)器學(xué)習(xí)系統(tǒng)面臨的一個(gè)關(guān)鍵挑戰(zhàn):如何在學(xué)習(xí)新知識(shí)的同時(shí)保留已有知識(shí)。
想象一下,如果我們的大腦每學(xué)習(xí)一項(xiàng)新技能就會(huì)忘記之前掌握的技能,那將是多么令人沮喪。例如,當(dāng)你學(xué)習(xí)彈鋼琴時(shí),突然發(fā)現(xiàn)自己忘記了如何騎自行車。這就是人工智能系統(tǒng)經(jīng)常面臨的"災(zāi)難性遺忘"問題。連續(xù)學(xué)習(xí)(Continual Learning,簡(jiǎn)稱CL)正是為解決這一問題而生,它致力于使神經(jīng)網(wǎng)絡(luò)能夠增量獲取新知識(shí)(可塑性),同時(shí)保留現(xiàn)有知識(shí)(穩(wěn)定性)。
在近年來,預(yù)訓(xùn)練模型(Pre-trained Models,簡(jiǎn)稱PTMs)在連續(xù)學(xué)習(xí)中變得越來越重要。這些模型就像是已經(jīng)接受過廣泛教育的"大腦",擁有豐富的通用知識(shí)。目前主流的方法通常會(huì)凍結(jié)這些預(yù)訓(xùn)練模型的"骨干"部分,以保持其穩(wěn)定性,同時(shí)只訓(xùn)練一些輕量級(jí)的、特定任務(wù)的模塊(例如提示詞或適配器)來學(xué)習(xí)新知識(shí)。這就像保留一個(gè)知識(shí)豐富的顧問(預(yù)訓(xùn)練模型),只在需要解決特定問題時(shí)向他詢問建議(通過輕量級(jí)模塊)。
然而,這些方法存在一個(gè)關(guān)鍵問題:當(dāng)預(yù)訓(xùn)練模型的知識(shí)領(lǐng)域與新任務(wù)之間存在較大差距時(shí),凍結(jié)的預(yù)訓(xùn)練模型往往難以為新任務(wù)提取有用的特征,導(dǎo)致學(xué)習(xí)新知識(shí)的能力(可塑性)受限。另一方面,如果完全重新訓(xùn)練整個(gè)預(yù)訓(xùn)練模型來適應(yīng)每個(gè)新任務(wù),又容易導(dǎo)致災(zāi)難性遺忘,丟失之前獲得的通用知識(shí)。
這就像是一個(gè)資深物理學(xué)家(預(yù)訓(xùn)練模型)被要求解決一個(gè)復(fù)雜的生物學(xué)問題。如果他只能用物理學(xué)知識(shí)(凍結(jié)的模型)來思考,可能難以找到最佳解決方案;但如果他完全轉(zhuǎn)行學(xué)習(xí)生物學(xué)(完全重新訓(xùn)練),又可能會(huì)逐漸忘記物理學(xué)知識(shí)。
針對(duì)這一挑戰(zhàn),四川大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新性的解決方案:在連續(xù)學(xué)習(xí)的核心過程之前,先對(duì)預(yù)訓(xùn)練模型進(jìn)行適應(yīng)性調(diào)整(Adapting PTMs before the core CL process,簡(jiǎn)稱ACL)。這種方法像是讓那位物理學(xué)家在保持物理知識(shí)的基礎(chǔ)上,通過短期強(qiáng)化學(xué)習(xí)來獲取足夠的生物學(xué)知識(shí),使他能夠更好地解決生物學(xué)問題,同時(shí)不忘記物理學(xué)知識(shí)。
一、ACL框架的工作原理
ACL框架的核心理念非常直觀:在學(xué)習(xí)每個(gè)新任務(wù)之前,先對(duì)預(yù)訓(xùn)練模型進(jìn)行短暫的適應(yīng)調(diào)整,使其更好地適應(yīng)當(dāng)前任務(wù)的數(shù)據(jù)分布,然后再使用現(xiàn)有的連續(xù)學(xué)習(xí)方法(如提示詞調(diào)整)進(jìn)行學(xué)習(xí)。這個(gè)過程分為兩個(gè)階段:
首先是"適應(yīng)階段"(Adaptation Phase)。在這個(gè)階段,研究團(tuán)隊(duì)對(duì)預(yù)訓(xùn)練模型的權(quán)重進(jìn)行調(diào)整,使其能夠?yàn)楫?dāng)前任務(wù)生成更具辨別力的特征。想象成一位教師在講授新課程前,先花一些時(shí)間熟悉課程內(nèi)容和學(xué)生背景,以便更有效地教學(xué)。
接下來是"核心學(xué)習(xí)階段"(Core Learning Phase)。在這個(gè)階段,適應(yīng)后的預(yù)訓(xùn)練模型被凍結(jié),而分類頭部和輕量級(jí)模塊繼續(xù)進(jìn)行微調(diào),以學(xué)習(xí)特征的分類。這就像教師已經(jīng)掌握了教學(xué)內(nèi)容,現(xiàn)在專注于幫助學(xué)生理解和應(yīng)用這些內(nèi)容。
研究團(tuán)隊(duì)在理論上證明,通過鼓勵(lì)模型的輸出嵌入向其原始類原型靠近,同時(shí)遠(yuǎn)離其他類原型,可以有效地增強(qiáng)可塑性,同時(shí)保持穩(wěn)定性。這種方法就像教導(dǎo)學(xué)生在學(xué)習(xí)新概念時(shí),既要理解其獨(dú)特性(與原型靠近),又要明確其與其他概念的區(qū)別(與其他原型遠(yuǎn)離)。
二、適應(yīng)性調(diào)整算法的詳細(xì)設(shè)計(jì)
那么,ACL框架是如何實(shí)現(xiàn)這種平衡可塑性和穩(wěn)定性的適應(yīng)性調(diào)整的呢?這里涉及到一些有趣的理論基礎(chǔ)和算法設(shè)計(jì)。
研究團(tuán)隊(duì)首先分析了增強(qiáng)可塑性的目標(biāo)。他們發(fā)現(xiàn),對(duì)于同一類的樣本,如果能夠減小其嵌入表示之間的距離,使它們更加集中或緊密聚集,就能增強(qiáng)模型的辨別能力。這就像在一個(gè)派對(duì)上,讓來自同一個(gè)家庭的成員站得更近,這樣就能輕松識(shí)別出誰和誰是親戚關(guān)系。
但是,僅僅關(guān)注可塑性是不夠的,還需要考慮如何保持穩(wěn)定性。研究團(tuán)隊(duì)采用了特征蒸餾的方法,通過最小化原始嵌入和適應(yīng)后嵌入之間的均方誤差來促進(jìn)穩(wěn)定性。這就像讓學(xué)生在學(xué)習(xí)新知識(shí)的同時(shí),不時(shí)回顧和復(fù)習(xí)之前學(xué)過的內(nèi)容,以防遺忘。
通過數(shù)學(xué)推導(dǎo),研究團(tuán)隊(duì)證明,對(duì)于最佳穩(wěn)定性,適應(yīng)后的嵌入應(yīng)該向其原始類原型(即該類樣本的平均嵌入)靠近。更有趣的是,這種向類原型靠近的方法不僅有利于穩(wěn)定性,還有助于增強(qiáng)可塑性,因?yàn)樗鼫p小了同類樣本嵌入之間的距離。
然而,僅僅讓嵌入向其原始類原型靠近可能還不足以在多類場(chǎng)景中獲得最佳特征辨別能力。為解決這個(gè)問題,研究團(tuán)隊(duì)引入了對(duì)比學(xué)習(xí)的原理,不僅鼓勵(lì)嵌入向其真實(shí)類別的原型靠近,還同時(shí)推動(dòng)它們遠(yuǎn)離其他、不正確類別的原型。這就像教導(dǎo)學(xué)生不僅要理解一個(gè)概念是什么,還要明白它不是什么,從而形成更清晰的認(rèn)知邊界。
具體來說,對(duì)于每個(gè)適應(yīng)后的嵌入和每個(gè)類原型,算法計(jì)算一個(gè)相似度分?jǐn)?shù)。然后,使用SoftMax函數(shù)將這些分?jǐn)?shù)轉(zhuǎn)換為概率分布,訓(xùn)練目標(biāo)是最大化嵌入與其真實(shí)類別原型之間的概率。這種對(duì)比訓(xùn)練目標(biāo)通過最小化交叉熵?fù)p失來實(shí)現(xiàn):L = - log o_{i,yi},其中o_{i,yi}是樣本i屬于其真實(shí)類別yi的概率。
這種方法的美妙之處在于,它既增強(qiáng)了模型的可塑性(通過使同類樣本的嵌入更加集中),又保持了穩(wěn)定性(通過向原始類原型靠近),從而在兩者之間取得了良好的平衡。
三、實(shí)驗(yàn)設(shè)置與結(jié)果分析
為了驗(yàn)證ACL框架的有效性,研究團(tuán)隊(duì)在兩個(gè)具有顯著領(lǐng)域差異的數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn):ImageNet-R和ImageNet-A。這兩個(gè)數(shù)據(jù)集與預(yù)訓(xùn)練模型通常使用的ImageNet系列數(shù)據(jù)集有很大不同,因此代表了現(xiàn)實(shí)世界中常見的領(lǐng)域差異挑戰(zhàn)。
研究團(tuán)隊(duì)將每個(gè)數(shù)據(jù)集平均劃分為多個(gè)任務(wù),形成兩種任務(wù)配置:(1) 20個(gè)任務(wù),每個(gè)任務(wù)10個(gè)類別(Inc-10);(2) 10個(gè)任務(wù),每個(gè)任務(wù)20個(gè)類別(Inc-20)。這樣的設(shè)置模擬了連續(xù)學(xué)習(xí)中數(shù)據(jù)以流式方式到達(dá)的現(xiàn)實(shí)場(chǎng)景。
實(shí)驗(yàn)中,研究團(tuán)隊(duì)將ACL框架與六種最先進(jìn)的基于預(yù)訓(xùn)練模型的連續(xù)學(xué)習(xí)方法進(jìn)行了比較:L2P、DualPrompt、RanPAC、FeCAM、SSIAT和MOS。由于ACL被設(shè)計(jì)為即插即用的組件,他們將其整合到這些基線方法中,以系統(tǒng)地評(píng)估其有效性。
實(shí)驗(yàn)結(jié)果令人印象深刻。在ImageNet-A-Inc20數(shù)據(jù)集上,集成ACL后,所有基線方法的性能都有顯著提升。以平均最優(yōu)準(zhǔn)確率(AOA)衡量的可塑性提高了高達(dá)10.41%,以最終準(zhǔn)確率(LA)衡量的整體連續(xù)學(xué)習(xí)性能提高了高達(dá)7.85%。
更令人驚訝的是,ACL不僅提高了可塑性,還保持了穩(wěn)定性。研究結(jié)果顯示,適應(yīng)過的PTM不僅能更好地學(xué)習(xí)新任務(wù),還能更好地保留之前學(xué)到的知識(shí),這在t-SNE可視化結(jié)果中得到了明顯體現(xiàn)。
研究團(tuán)隊(duì)還進(jìn)行了消融研究,以深入了解ACL框架中各個(gè)組件的重要性。結(jié)果表明,對(duì)整個(gè)預(yù)訓(xùn)練模型骨干使用提出的對(duì)比損失進(jìn)行連續(xù)適應(yīng)對(duì)于實(shí)現(xiàn)最佳性能至關(guān)重要。此外,增加適應(yīng)階段的訓(xùn)練輪數(shù)超過兩輪后,性能提升變得微不足道,這表明ACL框架在計(jì)算效率方面也有優(yōu)勢(shì)。
四、ACL框架的廣泛適用性
ACL框架的一個(gè)顯著優(yōu)勢(shì)是其廣泛的適用性。實(shí)驗(yàn)表明,它不僅能與各種連續(xù)學(xué)習(xí)方法無縫集成,還可以應(yīng)用于不同類型的預(yù)訓(xùn)練模型。
研究團(tuán)隊(duì)在ViT-B/16-IN21K(僅在ImageNet21K上預(yù)訓(xùn)練的模型)上進(jìn)行了額外實(shí)驗(yàn),結(jié)果顯示ACL持續(xù)提升了各種連續(xù)學(xué)習(xí)方法的性能,證明了其在不同預(yù)訓(xùn)練模型上的通用性。
更值得注意的是,盡管該研究主要關(guān)注視覺模型,但其中提出的見解也可能適用于視覺-語言模型,如CLIP。實(shí)驗(yàn)結(jié)果表明,ACL顯著提升了Continual CLIP的連續(xù)學(xué)習(xí)性能,展示了該框架在視覺-語言模型領(lǐng)域的應(yīng)用潛力。
這種廣泛的適用性使ACL成為一個(gè)非常實(shí)用的解決方案,可以幫助研究人員和實(shí)踐者在各種連續(xù)學(xué)習(xí)場(chǎng)景中提高模型性能。
五、研究意義與未來展望
這項(xiàng)研究的意義不僅限于提出一個(gè)新的連續(xù)學(xué)習(xí)框架,更在于它重新審視了基于預(yù)訓(xùn)練模型的連續(xù)學(xué)習(xí)中的穩(wěn)定性-可塑性平衡問題。傳統(tǒng)觀點(diǎn)認(rèn)為,保持穩(wěn)定性需要犧牲可塑性,反之亦然。然而,ACL框架證明,通過精心設(shè)計(jì)的適應(yīng)機(jī)制,可以同時(shí)增強(qiáng)可塑性和保持穩(wěn)定性,從而取得更好的整體性能。
從更廣泛的角度來看,這項(xiàng)研究為如何更有效地利用預(yù)訓(xùn)練模型應(yīng)對(duì)變化環(huán)境的挑戰(zhàn)提供了新的思路。在當(dāng)今數(shù)據(jù)不斷演化的世界中,模型需要不斷適應(yīng)新的數(shù)據(jù)分布,同時(shí)保持對(duì)先前數(shù)據(jù)的良好表現(xiàn)。ACL框架為解決這一挑戰(zhàn)提供了一種簡(jiǎn)單而有效的方法。
未來的研究方向可能包括探索更有效或高效的適應(yīng)算法,以進(jìn)一步提高ACL框架的性能和適用性。此外,將ACL框架擴(kuò)展到更多類型的模型和任務(wù),如自然語言處理或多模態(tài)學(xué)習(xí),也是一個(gè)有前景的方向。
總的來說,這項(xiàng)研究為連續(xù)學(xué)習(xí)領(lǐng)域注入了新的活力,為解決人工智能系統(tǒng)中的災(zāi)難性遺忘問題提供了一條有前途的路徑。隨著人工智能技術(shù)的不斷發(fā)展,像ACL這樣的創(chuàng)新方法將有助于構(gòu)建更加智能、靈活和可持續(xù)的學(xué)習(xí)系統(tǒng),使它們能夠像人類一樣,在保留已有知識(shí)的同時(shí),不斷學(xué)習(xí)和適應(yīng)新知識(shí)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。