av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 雙架構(gòu)設(shè)計(jì):破解持續(xù)學(xué)習(xí)中穩(wěn)定性與可塑性的兩難困境

雙架構(gòu)設(shè)計(jì):破解持續(xù)學(xué)習(xí)中穩(wěn)定性與可塑性的兩難困境

2025-06-08 16:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-08 16:43 ? 科技行者

這項(xiàng)由四川大學(xué)、浙江大學(xué)和清華大學(xué)研究團(tuán)隊(duì)共同完成的研究,發(fā)表于2025年6月的第42屆國際機(jī)器學(xué)習(xí)會(huì)議(ICML 2025)。論文由來自四川大學(xué)的陸奧軍和孫亞男、浙江大學(xué)的袁杭杰以及清華大學(xué)的馮濤共同撰寫,標(biāo)題為《從架構(gòu)角度重新思考持續(xù)學(xué)習(xí)中的穩(wěn)定性-可塑性權(quán)衡》(arXiv:2506.03951v1)。有興趣深入了解的讀者可以通過arXiv預(yù)印本平臺(tái)查閱完整論文。

持續(xù)學(xué)習(xí)的平衡難題

想象一下,你在嘗試學(xué)習(xí)各種新技能。一方面,你希望快速掌握新知識(shí);另一方面,你不想忘記已經(jīng)學(xué)會(huì)的內(nèi)容。這正是人工智能研究中"持續(xù)學(xué)習(xí)"(Continual Learning, CL)面臨的核心挑戰(zhàn)。

神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新任務(wù)時(shí),往往會(huì)出現(xiàn)"災(zāi)難性遺忘"(catastrophic forgetting)現(xiàn)象,也就是說,當(dāng)學(xué)習(xí)新數(shù)據(jù)時(shí),網(wǎng)絡(luò)會(huì)迅速忘記之前學(xué)過的知識(shí)。要解決這個(gè)問題,神經(jīng)網(wǎng)絡(luò)必須在兩個(gè)相互沖突的目標(biāo)之間找到平衡:穩(wěn)定性(stability)——保持已獲取的知識(shí),和可塑性(plasticity)——學(xué)習(xí)新概念的能力。這種兩難局面被稱為"穩(wěn)定性-可塑性困境"。

研究團(tuán)隊(duì)指出,現(xiàn)有的大多數(shù)持續(xù)學(xué)習(xí)方法都專注于開發(fā)新的學(xué)習(xí)算法來優(yōu)化參數(shù)層面的權(quán)衡,卻忽視了網(wǎng)絡(luò)架構(gòu)本身對(duì)穩(wěn)定性和可塑性的影響。本研究正是針對(duì)這一研究空白,探索了架構(gòu)層面的穩(wěn)定性-可塑性困境,并提出了一種創(chuàng)新解決方案。

架構(gòu)層面的穩(wěn)定性與可塑性

研究團(tuán)隊(duì)首先進(jìn)行了一項(xiàng)實(shí)驗(yàn),比較了原始ResNet-18網(wǎng)絡(luò)與其更寬但更淺的變體在持續(xù)學(xué)習(xí)中的表現(xiàn)。實(shí)驗(yàn)結(jié)果非常有趣:ResNet-18在新任務(wù)上達(dá)到了更高的準(zhǔn)確率,表明它具有更好的可塑性;而更寬更淺的變體則展現(xiàn)出更低的平均遺忘,說明它具有更強(qiáng)的穩(wěn)定性。

這就像兩個(gè)不同類型的學(xué)生:一個(gè)學(xué)生(深度網(wǎng)絡(luò))善于快速學(xué)習(xí)新知識(shí),但容易忘記舊知識(shí);另一個(gè)學(xué)生(寬度網(wǎng)絡(luò))記憶力很好,能保持已學(xué)內(nèi)容,但學(xué)習(xí)新事物較慢。研究者由此推斷,在架構(gòu)層面也存在穩(wěn)定性-可塑性的權(quán)衡問題。

想象一下,如果能將這兩種學(xué)生的優(yōu)勢結(jié)合起來會(huì)怎樣?這正是研究團(tuán)隊(duì)提出的創(chuàng)新思路。他們開發(fā)了一個(gè)名為"雙架構(gòu)"(Dual-Architecture, 簡稱Dual-Arch)的框架,利用兩個(gè)獨(dú)立網(wǎng)絡(luò)的互補(bǔ)優(yōu)勢:一個(gè)專注于可塑性,另一個(gè)專注于穩(wěn)定性。

雙架構(gòu)框架的工作原理

傳統(tǒng)的持續(xù)學(xué)習(xí)方法通常使用單一學(xué)習(xí)器,通過優(yōu)化損失函數(shù)來平衡穩(wěn)定性和可塑性。相比之下,Dual-Arch框架采用了兩個(gè)具有不同架構(gòu)的獨(dú)立網(wǎng)絡(luò):可塑性學(xué)習(xí)器(Plastic Learner)和穩(wěn)定性學(xué)習(xí)器(Stable Learner)。

可以把這個(gè)過程想象成兩個(gè)專家的合作:一個(gè)是創(chuàng)新專家,擅長快速掌握新知識(shí);另一個(gè)是記憶專家,善于保存和整合知識(shí)。當(dāng)新任務(wù)出現(xiàn)時(shí),創(chuàng)新專家(可塑性學(xué)習(xí)器)首先學(xué)習(xí)新知識(shí),然后通過"知識(shí)蒸餾"(knowledge distillation)技術(shù)將這些新知識(shí)傳授給記憶專家(穩(wěn)定性學(xué)習(xí)器)。記憶專家在接收新知識(shí)的同時(shí),也保留了之前積累的經(jīng)驗(yàn)。

具體來說,研究團(tuán)隊(duì)為兩個(gè)學(xué)習(xí)器設(shè)計(jì)了專門的輕量級(jí)架構(gòu)??伤苄詫W(xué)習(xí)器采用深而窄的架構(gòu),類似于ResNet-18但通道數(shù)減少;穩(wěn)定性學(xué)習(xí)器則采用寬而淺的架構(gòu),保持與ResNet-18相同的寬度但減少了殘差塊的數(shù)量,并修改了全局平均池化層以增加分類器的寬度。這樣的設(shè)計(jì)使得兩個(gè)網(wǎng)絡(luò)都比原始ResNet-18小得多,但組合起來能發(fā)揮更好的性能。

學(xué)習(xí)算法的工作流程

Dual-Arch的學(xué)習(xí)過程可以分為兩個(gè)連續(xù)的階段。當(dāng)新任務(wù)出現(xiàn)時(shí):

首先,可塑性學(xué)習(xí)器會(huì)專注于學(xué)習(xí)當(dāng)前任務(wù)數(shù)據(jù),不考慮保留之前學(xué)到的知識(shí)。這就像讓創(chuàng)新專家自由發(fā)揮,專心吸收新知識(shí)。

然后,可塑性學(xué)習(xí)器的參數(shù)被凍結(jié),作為"教師模型"保存下來。穩(wěn)定性學(xué)習(xí)器(作為"學(xué)生模型")通過一個(gè)復(fù)合損失函數(shù)進(jìn)行訓(xùn)練,這個(gè)損失函數(shù)包含三部分:一個(gè)硬標(biāo)簽損失(交叉熵?fù)p失)確保預(yù)測與實(shí)際標(biāo)簽一致;一個(gè)蒸餾損失使穩(wěn)定性學(xué)習(xí)器能從可塑性學(xué)習(xí)器中學(xué)習(xí);以及一個(gè)由特定持續(xù)學(xué)習(xí)方法定義的損失項(xiàng),用于保留之前的知識(shí)。

通過這種方式,穩(wěn)定性學(xué)習(xí)器能夠同時(shí)保持之前學(xué)到的知識(shí),并有效整合新知識(shí)。在評(píng)估階段,只使用穩(wěn)定性學(xué)習(xí)器進(jìn)行推理,確保計(jì)算效率。

實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

研究團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),包括CIFAR100和ImageNet100,并與五種最先進(jìn)的持續(xù)學(xué)習(xí)方法(iCaRL、WA、DER、Foster和MEMO)結(jié)合測試。

實(shí)驗(yàn)結(jié)果令人印象深刻:Dual-Arch框架在各種方法、數(shù)據(jù)集和增量步驟中始終優(yōu)于使用單一架構(gòu)的基線。最大提升達(dá)到了10.29%的最終準(zhǔn)確率(LA)和7.62%的平均增量準(zhǔn)確率(AIA),同時(shí)參數(shù)數(shù)量減少了至少33%。

這就像用更少的資源獲得了更好的學(xué)習(xí)效果。想象一下,如果兩個(gè)專業(yè)人士共同工作,每人專注于自己的專長領(lǐng)域,他們的總體表現(xiàn)通常會(huì)優(yōu)于一個(gè)人試圖同時(shí)處理所有任務(wù)。

研究者還進(jìn)行了消融研究,證明了雙網(wǎng)絡(luò)框架和專門設(shè)計(jì)的架構(gòu)的重要性。結(jié)果顯示,去除可塑性學(xué)習(xí)器會(huì)導(dǎo)致AIA平均下降2.63%,而使用非專門化架構(gòu)也會(huì)降低性能。

在參數(shù)效率方面,Dual-Arch表現(xiàn)尤為突出。研究顯示,與基線相比,Dual-Arch可以在減少高達(dá)87%參數(shù)的同時(shí)仍然提高性能。這對(duì)于內(nèi)存受限的環(huán)境特別有益。

為什么Dual-Arch有效?

為了深入了解Dual-Arch的工作原理,研究者分析了穩(wěn)定性-可塑性權(quán)衡和偏差校正兩個(gè)方面。

在穩(wěn)定性-可塑性權(quán)衡方面,研究顯示Dual-Arch確實(shí)結(jié)合了兩種架構(gòu)的優(yōu)勢。單獨(dú)使用可塑性網(wǎng)絡(luò)會(huì)在先前任務(wù)上出現(xiàn)嚴(yán)重遺忘,而單獨(dú)使用穩(wěn)定性網(wǎng)絡(luò)則在新任務(wù)上表現(xiàn)不佳。Dual-Arch在兩個(gè)方面都表現(xiàn)出色,實(shí)現(xiàn)了架構(gòu)層面的穩(wěn)定性-可塑性平衡。

在偏差校正方面,研究者分析了任務(wù)混淆矩陣,發(fā)現(xiàn)Dual-Arch能夠更準(zhǔn)確地確定正確的任務(wù)ID,減少任務(wù)間的分類錯(cuò)誤。特別是,它顯著減少了將早期任務(wù)數(shù)據(jù)錯(cuò)分為最近學(xué)習(xí)任務(wù)的情況,這被稱為"任務(wù)新近性偏差"(task-recency bias),是災(zāi)難性遺忘的主要原因之一。

研究的意義與啟示

這項(xiàng)研究提供了一個(gè)全新的視角來思考持續(xù)學(xué)習(xí)中的穩(wěn)定性-可塑性困境。與傳統(tǒng)方法不同,Dual-Arch將這種權(quán)衡從參數(shù)層面擴(kuò)展到架構(gòu)層面,并通過利用兩種互補(bǔ)架構(gòu)的優(yōu)勢來解決這一挑戰(zhàn)。

這項(xiàng)工作的核心啟示在于,為了實(shí)現(xiàn)有效的持續(xù)學(xué)習(xí),不僅需要優(yōu)化學(xué)習(xí)算法,還需要仔細(xì)考慮網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)。通過為不同目標(biāo)(穩(wěn)定性和可塑性)定制不同的架構(gòu),可以實(shí)現(xiàn)更好的整體性能。

對(duì)于實(shí)際應(yīng)用,Dual-Arch提供了一種參數(shù)高效的解決方案,特別適合資源受限的環(huán)境。它可以作為即插即用的組件,輕松與各種現(xiàn)有持續(xù)學(xué)習(xí)方法結(jié)合,顯著提高它們的性能。

研究團(tuán)隊(duì)還驗(yàn)證了該方法在Vision Transformers等其他架構(gòu)上的有效性,說明這一框架具有廣泛的適用性。此外,在具有模糊任務(wù)邊界的更具挑戰(zhàn)性場景中,Dual-Arch也表現(xiàn)出色,進(jìn)一步證明了其實(shí)用價(jià)值。

總結(jié)與展望

歸根結(jié)底,這項(xiàng)研究向我們展示了一個(gè)簡單而強(qiáng)大的見解:在持續(xù)學(xué)習(xí)中,網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)與學(xué)習(xí)算法同樣重要。通過將穩(wěn)定性和可塑性分配給兩個(gè)專門設(shè)計(jì)的網(wǎng)絡(luò),Dual-Arch框架實(shí)現(xiàn)了兩全其美——更好的性能和更少的參數(shù)。

這就像是在學(xué)習(xí)過程中擁有兩位專家教練,一位幫助你快速掌握新知識(shí),另一位幫助你牢固記住已學(xué)內(nèi)容。這種方法不僅在理論上具有吸引力,在實(shí)踐中也證明了其有效性。

雖然Dual-Arch在訓(xùn)練時(shí)間方面有所增加(約1.39倍至1.77倍),但在推理時(shí)卻實(shí)現(xiàn)了更高的計(jì)算效率。對(duì)于許多實(shí)際應(yīng)用來說,這是一個(gè)值得接受的權(quán)衡。

這項(xiàng)研究為持續(xù)學(xué)習(xí)領(lǐng)域開辟了新的研究方向,鼓勵(lì)研究者探索架構(gòu)設(shè)計(jì)在解決學(xué)習(xí)困境中的潛力。未來的工作可能會(huì)進(jìn)一步優(yōu)化專用架構(gòu)的設(shè)計(jì),或探索更多可能的架構(gòu)組合,以進(jìn)一步提高持續(xù)學(xué)習(xí)的性能。

對(duì)普通讀者來說,這項(xiàng)研究啟示我們,在面對(duì)需要同時(shí)保持舊知識(shí)和學(xué)習(xí)新內(nèi)容的任務(wù)時(shí),可以考慮采用"分工合作"的策略,讓不同的系統(tǒng)各司其職,從而達(dá)到整體最優(yōu)的效果。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-