這項(xiàng)由法國Valeo公司人工智能部門聯(lián)合巴黎索邦大學(xué)CNRS實(shí)驗(yàn)室以及布拉格捷克理工大學(xué)共同完成的研究,于2025年6月23日發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):arXiv:2506.18463v1)。有興趣深入了解的讀者可以通過該論文編號(hào)在arXiv官網(wǎng)搜索訪問完整論文。
當(dāng)你第一次看到斑馬時(shí),哪怕只見過幾張照片,下次遇到時(shí)依然能輕松認(rèn)出它來。這種"舉一反三"的能力對(duì)人類來說再自然不過,但對(duì)AI模型而言卻是個(gè)巨大挑戰(zhàn)?,F(xiàn)在,一個(gè)名為DIP的新技術(shù)正在改變這種狀況,讓AI也能像人類一樣快速學(xué)習(xí)和理解新場景。
傳統(tǒng)的AI圖像識(shí)別模型就像一個(gè)只會(huì)死記硬背的學(xué)生,需要看成千上萬張標(biāo)注好的圖片才能學(xué)會(huì)識(shí)別某個(gè)物體。而且一旦遇到訓(xùn)練時(shí)沒見過的新場景,就會(huì)表現(xiàn)得手足無措。這不僅需要海量的人工標(biāo)注數(shù)據(jù),成本高昂,而且在實(shí)際應(yīng)用中靈活性很差。
研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)是:如何讓AI模型在只看到少量未標(biāo)注樣本的情況下,就能準(zhǔn)確理解和分割圖像中的不同物體?這就像要求一個(gè)從未接受過正式美術(shù)訓(xùn)練的人,僅憑觀察幾幅畫作就掌握繪畫技巧一樣困難。
為了解決這個(gè)問題,研究人員從大語言模型的成功經(jīng)驗(yàn)中汲取靈感。大語言模型之所以能在各種任務(wù)中表現(xiàn)出色,關(guān)鍵在于它們具備"上下文學(xué)習(xí)"能力——能夠根據(jù)提示中的少量示例快速適應(yīng)新任務(wù),而無需重新訓(xùn)練。研究團(tuán)隊(duì)希望將這種能力移植到視覺模型上。
DIP技術(shù)的核心創(chuàng)新在于采用了一種全新的"元學(xué)習(xí)"訓(xùn)練方式。與傳統(tǒng)方法需要復(fù)雜的自我蒸餾架構(gòu)不同,DIP直接模擬真實(shí)應(yīng)用場景來訓(xùn)練模型。這就好比培訓(xùn)一名醫(yī)生,與其讓他反復(fù)背誦教科書,不如直接讓他接觸各種病例,在實(shí)踐中積累經(jīng)驗(yàn)。
具體來說,研究團(tuán)隊(duì)設(shè)計(jì)了一套自動(dòng)化的"偽任務(wù)"生成系統(tǒng)。這個(gè)系統(tǒng)會(huì)自動(dòng)從未標(biāo)注的圖片中創(chuàng)建學(xué)習(xí)任務(wù),每個(gè)任務(wù)都包含一個(gè)待分割的"查詢圖像"和幾個(gè)"支持樣本"。支持樣本中既有與查詢圖像相似的"正例",也有完全不相關(guān)的"干擾項(xiàng)"。通過在這些精心設(shè)計(jì)的偽任務(wù)上訓(xùn)練,模型逐漸學(xué)會(huì)如何在復(fù)雜環(huán)境中找到正確的視覺對(duì)應(yīng)關(guān)系。
這種訓(xùn)練方式的巧妙之處在于完全無需人工標(biāo)注。研究團(tuán)隊(duì)利用預(yù)訓(xùn)練的Stable Diffusion擴(kuò)散模型來自動(dòng)生成高質(zhì)量的圖像分割掩碼,然后用DINOv2R視覺編碼器來識(shí)別和標(biāo)記這些分割區(qū)域。整個(gè)過程就像讓兩個(gè)AI助手協(xié)作完成一項(xiàng)復(fù)雜任務(wù):一個(gè)負(fù)責(zé)"圈出"圖像中的不同區(qū)域,另一個(gè)負(fù)責(zé)"貼標(biāo)簽"說明這些區(qū)域?qū)儆谑裁搭悇e。
在訓(xùn)練過程中,模型需要學(xué)會(huì)一項(xiàng)關(guān)鍵技能:給定一個(gè)查詢圖像的某個(gè)部分,在支持樣本中找到最相似的對(duì)應(yīng)區(qū)域,并據(jù)此預(yù)測(cè)該部分應(yīng)該屬于什么類別。這個(gè)過程采用了注意力機(jī)制,讓模型能夠自動(dòng)計(jì)算查詢區(qū)域與所有支持區(qū)域之間的相似度,然后根據(jù)相似度加權(quán)平均來產(chǎn)生最終預(yù)測(cè)。
研究團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了全面測(cè)試,結(jié)果令人印象深刻。在Pascal VOC和ADE20K等標(biāo)準(zhǔn)數(shù)據(jù)集上,DIP在少樣本場景下的表現(xiàn)顯著優(yōu)于現(xiàn)有最佳方法。特別是在極端的少樣本情況下(只使用1/128的訓(xùn)練數(shù)據(jù)),DIP在Pascal VOC上達(dá)到了70.1%的mIoU分?jǐn)?shù),相比基礎(chǔ)模型DINOv2R的60.3%提升了近10個(gè)百分點(diǎn)。
更令人振奮的是,DIP的訓(xùn)練效率極高。在單個(gè)A100 GPU上,整個(gè)后訓(xùn)練過程僅需不到9小時(shí)即可完成,這相比傳統(tǒng)從零開始訓(xùn)練的方法節(jié)省了大量計(jì)算資源。而且DIP不僅限于語義分割任務(wù),在單目深度估計(jì)等其他密集預(yù)測(cè)任務(wù)上也表現(xiàn)出良好的泛化能力。
為了驗(yàn)證方法的通用性,研究團(tuán)隊(duì)還將DIP應(yīng)用于其他預(yù)訓(xùn)練模型,包括CLIP和MAE。結(jié)果顯示,DIP能夠顯著提升這些模型的密集表示能力。特別值得一提的是,對(duì)于原本不適合上下文分割任務(wù)的MAE模型,DIP將其在Pascal VOC上的表現(xiàn)從13.9%提升到了47.3%,實(shí)現(xiàn)了翻天覆地的改變。
從技術(shù)實(shí)現(xiàn)角度來看,DIP相比現(xiàn)有方法具有顯著優(yōu)勢(shì)。傳統(tǒng)的自監(jiān)督方法往往需要復(fù)雜的架構(gòu)設(shè)計(jì),包括可微分排序、RoI對(duì)齊單元、Sinkhorn-Knopp優(yōu)化等組件,不僅實(shí)現(xiàn)復(fù)雜,而且超參數(shù)敏感。而DIP采用的方法相對(duì)簡潔,主要由一個(gè)預(yù)訓(xùn)練的視覺編碼器和一個(gè)簡單的多層感知機(jī)組成,大大降低了實(shí)現(xiàn)難度和調(diào)優(yōu)成本。
在跨域泛化能力測(cè)試中,DIP也表現(xiàn)出色。研究人員使用Cityscapes數(shù)據(jù)集作為支持集,在具有挑戰(zhàn)性天氣條件的ACDC數(shù)據(jù)集上進(jìn)行測(cè)試。盡管ACDC包含雪天、夜晚、霧天等復(fù)雜場景,DIP依然能夠保持良好的分割性能,證明了其在面對(duì)域偏移時(shí)的魯棒性。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來驗(yàn)證各個(gè)組件的重要性。實(shí)驗(yàn)發(fā)現(xiàn),使用最近鄰策略構(gòu)建正例樣本比簡單的隨機(jī)裁剪效果更好,這說明DIP能夠有效利用圖像間的語義相似性。同時(shí),包含干擾樣本對(duì)于模型學(xué)習(xí)判別性特征至關(guān)重要,移除干擾樣本會(huì)導(dǎo)致性能顯著下降。
定性分析結(jié)果更加直觀地展示了DIP的優(yōu)勢(shì)。通過可視化查詢圖像片段與參考圖像之間的相關(guān)性圖,可以清楚看到DIP產(chǎn)生的相關(guān)性更加連貫,能夠準(zhǔn)確捕捉整個(gè)物體級(jí)別的對(duì)應(yīng)關(guān)系,而傳統(tǒng)方法往往只能建立局部的、片段化的對(duì)應(yīng)關(guān)系。這種改進(jìn)直接轉(zhuǎn)化為更準(zhǔn)確的鄰域檢索和更好的分割結(jié)果。
從應(yīng)用前景來看,DIP技術(shù)具有廣泛的潛在用途。在自動(dòng)駕駛領(lǐng)域,它可以幫助車輛更好地理解復(fù)雜的道路場景,即使遇到訓(xùn)練時(shí)未見過的新環(huán)境也能準(zhǔn)確識(shí)別。在醫(yī)療影像分析中,DIP可以協(xié)助醫(yī)生快速準(zhǔn)確地分割病灶區(qū)域,提高診斷效率。在機(jī)器人視覺領(lǐng)域,這項(xiàng)技術(shù)能讓機(jī)器人更好地理解和操作周圍環(huán)境中的物體。
當(dāng)然,DIP技術(shù)也存在一些局限性。首先,它仍然依賴于預(yù)訓(xùn)練的基礎(chǔ)模型質(zhì)量,如果基礎(chǔ)模型本身存在偏見或局限,可能會(huì)傳遞到最終結(jié)果中。其次,雖然訓(xùn)練過程被標(biāo)稱為無監(jiān)督,但實(shí)際上仍然間接利用了預(yù)訓(xùn)練模型中包含的監(jiān)督信息。此外,在處理極其復(fù)雜或模糊的場景時(shí),自動(dòng)生成的偽標(biāo)簽質(zhì)量可能會(huì)影響最終性能。
盡管如此,DIP代表了視覺AI領(lǐng)域的一個(gè)重要進(jìn)步方向。它證明了通過巧妙的訓(xùn)練策略設(shè)計(jì),可以在不增加數(shù)據(jù)標(biāo)注成本的情況下顯著提升模型的少樣本學(xué)習(xí)能力。這種思路為未來開發(fā)更加智能、靈活的視覺系統(tǒng)提供了新的可能性。
研究團(tuán)隊(duì)表示,他們計(jì)劃繼續(xù)優(yōu)化DIP技術(shù),探索將其應(yīng)用于更多視覺任務(wù)的可能性。同時(shí),他們也在研究如何進(jìn)一步減少對(duì)預(yù)訓(xùn)練模型的依賴,朝著真正的無監(jiān)督學(xué)習(xí)目標(biāo)邁進(jìn)。隨著這項(xiàng)技術(shù)的不斷完善和普及,我們有理由期待AI視覺系統(tǒng)在理解和適應(yīng)真實(shí)世界方面取得更大突破。
說到底,DIP技術(shù)讓我們看到了AI向人類學(xué)習(xí)方式靠攏的可能性。就像人類能夠通過觀察少量樣本快速掌握新概念一樣,配備了DIP技術(shù)的AI模型也開始具備這種"舉一反三"的能力。這不僅僅是技術(shù)上的進(jìn)步,更代表著我們對(duì)智能本質(zhì)理解的深化。當(dāng)AI能夠像人類一樣靈活學(xué)習(xí)和適應(yīng)時(shí),它們就能更好地融入我們的日常生活,成為真正智能的助手和伙伴。
Q&A
Q1:DIP技術(shù)是什么?它的核心創(chuàng)新在哪里? A:DIP是一種新的AI視覺模型訓(xùn)練技術(shù),核心創(chuàng)新在于采用"元學(xué)習(xí)"方式,讓AI通過模擬真實(shí)應(yīng)用場景來學(xué)習(xí),而不是傳統(tǒng)的死記硬背方式。就像培訓(xùn)醫(yī)生時(shí)讓他直接接觸病例而非背教科書,這樣訓(xùn)練出的模型能夠在只看到少量樣本時(shí)就快速理解新場景。
Q2:DIP會(huì)不會(huì)取代現(xiàn)有的圖像識(shí)別技術(shù)? A:DIP更像是對(duì)現(xiàn)有技術(shù)的重要升級(jí)而非完全替代。它主要解決現(xiàn)有技術(shù)在少樣本學(xué)習(xí)方面的不足,讓AI模型變得更加靈活和高效。目前它仍需要基于預(yù)訓(xùn)練模型工作,但顯著降低了對(duì)大量標(biāo)注數(shù)據(jù)的依賴,這對(duì)實(shí)際應(yīng)用很有價(jià)值。
Q3:普通人什么時(shí)候能用上DIP技術(shù)?有什么實(shí)際用途? A:雖然DIP目前還處于研究階段,但其背后的技術(shù)很快會(huì)集成到各種應(yīng)用中。未來可能出現(xiàn)在手機(jī)相機(jī)的智能分割功能、自動(dòng)駕駛汽車的環(huán)境理解系統(tǒng),以及醫(yī)療影像輔助診斷工具中。對(duì)普通人來說,最直接的體驗(yàn)可能是更智能的照片編輯和更準(zhǔn)確的圖像搜索功能。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。