近日,來(lái)自博世人工智能中心和蒂賓根大學(xué)的研究團(tuán)隊(duì),包括Niclas Popp、Kevin Alexander Laube、Matthias Hein和Lukas Schott,在arXiv平臺(tái)發(fā)表了一篇題為《通過(guò)置信引導(dǎo)型數(shù)據(jù)增強(qiáng)改善未知協(xié)變量偏移下的知識(shí)蒸餾》(Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation)的研究論文。這項(xiàng)研究針對(duì)知識(shí)蒸餾過(guò)程中面臨的一個(gè)常見(jiàn)卻棘手的問(wèn)題——協(xié)變量偏移——提出了創(chuàng)新性的解決方案。
為什么我們需要關(guān)注這個(gè)研究?
想象你有一位經(jīng)驗(yàn)豐富的烹飪大師(我們稱之為"教師模型"),他掌握了無(wú)數(shù)烹飪秘訣,能夠在各種條件下烹制出美味佳肴。現(xiàn)在,你希望將這些技巧傳授給一位初學(xué)者(我們稱之為"學(xué)生模型")。正常情況下,初學(xué)者通過(guò)觀察大師的烹飪過(guò)程并模仿,逐漸掌握這些技巧。這個(gè)過(guò)程在人工智能領(lǐng)域被稱為"知識(shí)蒸餾"。
然而,現(xiàn)實(shí)中常常會(huì)遇到這樣的問(wèn)題:初學(xué)者只能在有限的環(huán)境中觀察大師(比如只看到大師在高檔廚房使用優(yōu)質(zhì)食材的烹飪過(guò)程),但最終需要在各種不同的環(huán)境中施展技藝(如在普通家庭廚房使用普通食材)。當(dāng)環(huán)境發(fā)生變化時(shí),初學(xué)者往往會(huì)因?yàn)檫^(guò)度依賴某些特定條件(如高檔廚具或特定食材)而無(wú)法適應(yīng)新環(huán)境,這就是所謂的"協(xié)變量偏移"問(wèn)題。
在機(jī)器學(xué)習(xí)領(lǐng)域,基礎(chǔ)模型(如CLIP)經(jīng)過(guò)大量數(shù)據(jù)訓(xùn)練后,展現(xiàn)出強(qiáng)大的零樣本能力和分布魯棒性。但這些大模型通常需要海量計(jì)算資源,難以在資源受限的環(huán)境中部署。知識(shí)蒸餾提供了一種將大模型知識(shí)轉(zhuǎn)移到小模型的方法,但訓(xùn)練數(shù)據(jù)的局限性常常限制了蒸餾的效果,特別是當(dāng)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)存在協(xié)變量偏移時(shí)。
什么是協(xié)變量偏移?
協(xié)變量偏移是指訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的輸入特征分布發(fā)生變化,而輸出與輸入之間的條件分布保持不變。在實(shí)際應(yīng)用中,這常常表現(xiàn)為訓(xùn)練數(shù)據(jù)中存在"欺騙性特征"(spurious features)——這些特征在訓(xùn)練數(shù)據(jù)中與目標(biāo)類別高度相關(guān),但在測(cè)試數(shù)據(jù)中這種相關(guān)性不再存在。
舉個(gè)例子,假設(shè)我們?cè)谟?xùn)練一個(gè)性別分類模型,訓(xùn)練數(shù)據(jù)中的女性都是金發(fā)、年輕且不戴眼鏡的,而男性都是非金發(fā)、年長(zhǎng)且戴眼鏡的。模型很可能會(huì)學(xué)習(xí)到這些表面特征(發(fā)色、年齡、是否戴眼鏡)與性別的關(guān)聯(lián),而不是真正學(xué)習(xí)到性別的本質(zhì)特征。當(dāng)測(cè)試數(shù)據(jù)中出現(xiàn)非金發(fā)女性或金發(fā)男性時(shí),模型就會(huì)表現(xiàn)不佳。
研究團(tuán)隊(duì)的創(chuàng)新解決方案
研究團(tuán)隊(duì)提出了一種名為ConfiG(Confidence-Guided Data Augmentation,置信引導(dǎo)型數(shù)據(jù)增強(qiáng))的方法,通過(guò)擴(kuò)充訓(xùn)練數(shù)據(jù)來(lái)解決協(xié)變量偏移問(wèn)題。這種方法的關(guān)鍵在于:利用教師模型和學(xué)生模型之間的預(yù)測(cè)差異,生成針對(duì)性的增強(qiáng)樣本。
具體來(lái)說(shuō),ConfiG尋找那些教師模型預(yù)測(cè)正確但學(xué)生模型預(yù)測(cè)錯(cuò)誤的區(qū)域,然后生成這些區(qū)域的新樣本。這些樣本保留了類別的本質(zhì)特征(因?yàn)榻處熌P湍苷_識(shí)別),但改變了欺騙性特征(這些特征導(dǎo)致學(xué)生模型做出錯(cuò)誤預(yù)測(cè))。
這就像教師帶著學(xué)生特意去練習(xí)那些學(xué)生容易出錯(cuò)的烹飪技巧一樣,有針對(duì)性地彌補(bǔ)學(xué)生的不足。通過(guò)這種方式,即使不知道欺騙性特征具體是什么,也能有效地減少學(xué)生對(duì)這些特征的依賴。
方法實(shí)現(xiàn)細(xì)節(jié)
ConfiG方法基于擴(kuò)散模型(Stable Diffusion)實(shí)現(xiàn)。首先,研究者使用一個(gè)預(yù)訓(xùn)練的教師模型和僅在真實(shí)訓(xùn)練數(shù)據(jù)上訓(xùn)練的輔助學(xué)生模型。輔助學(xué)生模型由于只見(jiàn)過(guò)有偏差的訓(xùn)練數(shù)據(jù),會(huì)過(guò)度依賴欺騙性特征。
然后,對(duì)于每個(gè)訓(xùn)練樣本,ConfiG執(zhí)行以下步驟: 1. 將原始圖像編碼到擴(kuò)散模型的潛空間 2. 通過(guò)最大化一個(gè)特殊的目標(biāo)函數(shù)來(lái)優(yōu)化潛空間表示: * 最大化教師模型對(duì)正確類別的置信度 * 最小化學(xué)生模型對(duì)正確類別的置信度 3. 解碼優(yōu)化后的潛空間表示,得到新的增強(qiáng)圖像
這個(gè)過(guò)程可以理解為在保持圖像本質(zhì)內(nèi)容(如性別特征)的同時(shí),修改那些導(dǎo)致學(xué)生模型出錯(cuò)的特征(如發(fā)色或眼鏡)。最終,研究者使用原始訓(xùn)練圖像和生成的增強(qiáng)圖像一起訓(xùn)練最終的學(xué)生模型。
實(shí)驗(yàn)驗(yàn)證
研究團(tuán)隊(duì)在三個(gè)數(shù)據(jù)集上驗(yàn)證了ConfiG方法的有效性:CelebA(名人臉部照片)、SpuCo Birds(鳥(niǎo)類圖像)和Spurious ImageNet(帶有欺騙性特征的ImageNet子集)。
在CelebA數(shù)據(jù)集上,訓(xùn)練數(shù)據(jù)只包含年輕、金發(fā)、不戴眼鏡的女性和年長(zhǎng)、非金發(fā)、戴眼鏡的男性。測(cè)試數(shù)據(jù)則包含各種組合。實(shí)驗(yàn)結(jié)果顯示,使用ConfiG方法與CutMix和EDRM(經(jīng)驗(yàn)蒸餾風(fēng)險(xiǎn)最小化)相結(jié)合,將最差組性能從原始的7.3%提升到66.1%,組平均準(zhǔn)確率從68.0%提升到89.3%。
在SpuCo Birds數(shù)據(jù)集上,訓(xùn)練數(shù)據(jù)只包含水鳥(niǎo)在水背景上和陸鳥(niǎo)在陸地背景上的圖像,測(cè)試數(shù)據(jù)則包含交叉組合。ConfiG方法將最差組性能從5.6%提升到62.7%,組平均準(zhǔn)確率從53.9%提升到83.5%。
在Spurious ImageNet上,ConfiG也實(shí)現(xiàn)了最佳的spurious mAUC表現(xiàn),證明其能有效減輕類別特定的欺騙性特征影響。
研究團(tuán)隊(duì)還進(jìn)行了多項(xiàng)消融研究,包括不同數(shù)量的合成增強(qiáng)樣本、不同學(xué)生模型架構(gòu)等。結(jié)果表明,每個(gè)真實(shí)圖像添加兩個(gè)合成樣本效果最佳,增加更多反而會(huì)降低性能,這與理論分析一致。
研究的理論支持
研究團(tuán)隊(duì)還提供了嚴(yán)格的理論分析,證明在合理假設(shè)下,ConfiG方法能夠降低學(xué)生模型在測(cè)試數(shù)據(jù)上的泛化誤差。這一理論分析直觀地解釋了為什么找到教師模型和學(xué)生模型之間的不一致區(qū)域,并在這些區(qū)域生成增強(qiáng)樣本,能有效改善知識(shí)蒸餾過(guò)程。
這項(xiàng)研究的意義
歸根結(jié)底,這項(xiàng)研究提供了一種實(shí)用的方法,使小型模型能夠從大型基礎(chǔ)模型中獲取魯棒性知識(shí),即使訓(xùn)練數(shù)據(jù)存在明顯的偏差。這對(duì)于資源受限環(huán)境下的AI應(yīng)用具有重要意義,如移動(dòng)設(shè)備或邊緣計(jì)算設(shè)備上的AI系統(tǒng)。
ConfiG方法的一個(gè)重要優(yōu)勢(shì)是它不需要預(yù)先知道欺騙性特征是什么,也不需要任何組別標(biāo)注。只要有一個(gè)魯棒的教師模型,就能指導(dǎo)學(xué)生模型學(xué)習(xí)真正有效的特征,而不是依賴數(shù)據(jù)集中的偶然相關(guān)性。
這項(xiàng)研究為解決機(jī)器學(xué)習(xí)中的分布偏移問(wèn)題提供了新思路,特別是在知識(shí)蒸餾這一重要技術(shù)中的應(yīng)用。隨著AI系統(tǒng)越來(lái)越廣泛地部署在各種現(xiàn)實(shí)環(huán)境中,處理分布偏移的能力將變得至關(guān)重要,而ConfiG方法提供了一種有效的解決方案。
有興趣深入了解這項(xiàng)研究的讀者可以在arXiv平臺(tái)上查閱原論文(arXiv:2506.02294v2)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。