在數(shù)字化視覺(jué)創(chuàng)作的前沿,浙江大學(xué)和新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)帶來(lái)了一項(xiàng)令人矚目的創(chuàng)新。由浙江大學(xué)的龔妍、李一程、李成林、張寅以及新加坡國(guó)立大學(xué)的宋怡仁共同完成的研究《RelationAdapter: 用擴(kuò)散變換器學(xué)習(xí)和傳遞視覺(jué)關(guān)系》于2025年6月3日在arXiv預(yù)印本平臺(tái)發(fā)布(arXiv:2506.02528v1),為視覺(jué)提示驅(qū)動(dòng)的圖像編輯開(kāi)辟了新天地。這項(xiàng)研究的項(xiàng)目頁(yè)面可通過(guò)https://github.com/gy8888/RelationAdapter訪問(wèn)。
一、為什么我們需要視覺(jué)關(guān)系學(xué)習(xí)?
想象一下,你看到一對(duì)"前后"照片:一張普通的肖像照和一張應(yīng)用了卡通風(fēng)格的同一人物照片。即使沒(méi)有任何文字說(shuō)明,你也能立刻理解這種轉(zhuǎn)換,并在腦海中想象如何將這種卡通效果應(yīng)用到其他照片上。這種通過(guò)觀察示例來(lái)理解視覺(jué)變換的能力,正是人類智能的一個(gè)迷人特征。
而在人工智能領(lǐng)域,這種能力被稱為"編輯轉(zhuǎn)移"或"視覺(jué)語(yǔ)境學(xué)習(xí)"。與需要精確文字提示的傳統(tǒng)圖像編輯方法不同,基于圖像對(duì)的編輯方式更加直觀、高效。通過(guò)直接觀察視覺(jué)變化,AI模型可以捕捉復(fù)雜的編輯效果,如風(fēng)格轉(zhuǎn)換、對(duì)象修改或光照調(diào)整,而無(wú)需繁瑣的語(yǔ)言描述。
然而,目前的圖像對(duì)編輯方法面臨幾個(gè)關(guān)鍵挑戰(zhàn):首先,如何從單一圖像對(duì)中準(zhǔn)確提取視覺(jué)變換信號(hào),包括語(yǔ)義修改(如對(duì)象外觀、風(fēng)格)和結(jié)構(gòu)變化(如空間布局、幾何形狀);其次,如何有效地將這些變換應(yīng)用到新圖像上,同時(shí)保持布局一致性和高視覺(jué)保真度;最后,如何在不需要重新訓(xùn)練的情況下實(shí)現(xiàn)對(duì)未見(jiàn)過(guò)的編輯任務(wù)的強(qiáng)泛化能力。
浙江大學(xué)和新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)名為RelationAdapter的創(chuàng)新框架,旨在解決這些挑戰(zhàn)。這個(gè)框架巧妙地將編輯意圖的提取與圖像生成過(guò)程解耦,實(shí)現(xiàn)更可解釋、可控的視覺(jué)編輯。
二、RelationAdapter:視覺(jué)關(guān)系的橋梁
想象RelationAdapter就像一位精通"視覺(jué)翻譯"的專家,它能從一對(duì)"前后"圖像中理解變化的精髓,然后將這種變化應(yīng)用到全新的圖像上。這個(gè)模塊的核心設(shè)計(jì)理念是什么呢?
RelationAdapter是一個(gè)輕量級(jí)模塊,構(gòu)建在擴(kuò)散變換器(DiT)架構(gòu)上。它通過(guò)在每個(gè)DiT區(qū)塊中嵌入一個(gè)新穎的注意力處理器,捕獲視覺(jué)變換并將其注入隱藏狀態(tài)。這大大增強(qiáng)了模型對(duì)圖像對(duì)之間關(guān)系的推理能力,而無(wú)需修改DiT的核心結(jié)構(gòu)。
傳統(tǒng)的視覺(jué)提示集成方法(如FLUX.1 Redux)通常是直接將視覺(jué)特征附加到T5編碼器的輸出上,這會(huì)導(dǎo)致視覺(jué)特征嵌入通常比文本提示長(zhǎng)得多,可能會(huì)削弱甚至抵消文本引導(dǎo)的效果。為解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一種解耦的注意力注入機(jī)制。
具體來(lái)說(shuō),RelationAdapter為視覺(jué)提示特征設(shè)計(jì)了一個(gè)單獨(dú)的鍵-值(KV)注意力投影機(jī)制,關(guān)鍵的是,視覺(jué)提示的交叉注意力層與骨干DiT分支共享相同的查詢Q:
``` ZV = Attention(Q, K′, V′) = Softmax(Q(K′)?/√d)V′ Q = cBWq, K′ = cVW′k, V′ = cVW′v ```
然后,將視覺(jué)注意力輸出ZV(來(lái)自RelationAdapter)與原始DiT注意力輸出ZB融合,再傳遞給輸出投影模塊:
``` Znew = ZB + α · ZV ```
其中α是一個(gè)可調(diào)節(jié)的標(biāo)量系數(shù),用于控制視覺(jué)提示注意力的影響。
這種設(shè)計(jì)就像給AI安裝了一副特殊眼鏡,一邊鏡片專注于理解原始圖像內(nèi)容,另一邊鏡片專注于捕捉變換關(guān)系,最后大腦將兩種視覺(jué)信息融合,產(chǎn)生既保留原始結(jié)構(gòu)又應(yīng)用了目標(biāo)變換的完美結(jié)果。
三、語(yǔ)境編輯器:空間一致性的保證者
RelationAdapter解決了"理解變換"的問(wèn)題,而語(yǔ)境編輯器(In-Context Editor)則解決了"應(yīng)用變換"的挑戰(zhàn)。它將圖像編輯框架為條件生成任務(wù),同時(shí)編碼圖像和文本描述,實(shí)現(xiàn)精確的、指令驅(qū)動(dòng)的編輯。
傳統(tǒng)的條件圖像編輯模型往往在源圖像和目標(biāo)圖像之間的像素級(jí)對(duì)齊方面存在困難,導(dǎo)致結(jié)構(gòu)扭曲。為解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了位置編碼克隆(Position Encoding Cloning)策略,它顯式地將潛在空間對(duì)應(yīng)關(guān)系嵌入到生成過(guò)程中。
具體來(lái)說(shuō),團(tuán)隊(duì)強(qiáng)制源條件表示cS和噪聲變量z之間的位置編碼對(duì)齊,建立一致的像素級(jí)坐標(biāo)映射。通過(guò)在關(guān)鍵組件之間共享位置編碼,這種方法提供了強(qiáng)大的空間引導(dǎo),減輕了鬼影和錯(cuò)位等偽影。這使DiT能夠更有效地學(xué)習(xí)精細(xì)的對(duì)應(yīng)關(guān)系,提高編輯保真度和理論一致性。
為了增強(qiáng)編輯能力和對(duì)多樣化數(shù)據(jù)的適應(yīng)性,團(tuán)隊(duì)構(gòu)建了一個(gè)包含2,515,800個(gè)樣本的上下文學(xué)習(xí)格式編輯數(shù)據(jù)集,并應(yīng)用了LoRA(低秩適應(yīng))微調(diào)技術(shù)對(duì)DiT模塊進(jìn)行高效參數(shù)適應(yīng)。具體而言,他們使用了高秩LoRA,凍結(jié)預(yù)訓(xùn)練權(quán)重W0,并在每個(gè)模型層中注入可訓(xùn)練的低秩矩陣A和B。
另一個(gè)關(guān)鍵創(chuàng)新是無(wú)噪聲范式。現(xiàn)有的語(yǔ)境編輯器框架將源圖像和目標(biāo)圖像的潛在表示連接作為逐步去噪過(guò)程的輸入,但這往往會(huì)破壞源特征,導(dǎo)致細(xì)節(jié)丟失和像素保真度降低。為解決這個(gè)問(wèn)題,團(tuán)隊(duì)提出了一個(gè)無(wú)噪聲范式,在所有去噪階段保留源圖像Isrc的特征cS的干凈狀態(tài)。通過(guò)維持這些特征的干凈狀態(tài),為生成目標(biāo)圖像Itar提供了穩(wěn)定和準(zhǔn)確的參考。
四、Relation252K數(shù)據(jù)集:多樣化編輯任務(wù)的沙盒
為了評(píng)估模型在視覺(jué)提示驅(qū)動(dòng)場(chǎng)景中的泛化能力和適應(yīng)性,研究團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集,涵蓋218種多樣化的編輯任務(wù)。這個(gè)名為Relation252K的數(shù)據(jù)集包含33,274張圖像和251,580個(gè)通過(guò)圖像對(duì)排列生成的編輯樣本。
這些任務(wù)根據(jù)功能特性分為四個(gè)主要組:低層次圖像處理(如深度估計(jì)、表面法線生成、云彩移除)、圖像風(fēng)格遷移(如折紙效果、梵高風(fēng)格、木刻效果)、圖像編輯(如閉眼、添加物體、抬手)和定制生成(如樂(lè)高形式、氣球變形、3D相框)。
為了構(gòu)建高質(zhì)量數(shù)據(jù)集,團(tuán)隊(duì)引入了一個(gè)半自動(dòng)化管道。定制腳本與Discord機(jī)器人接口,向MidJourney發(fā)送/imagine命令生成高保真圖像。團(tuán)隊(duì)還利用GPT-4o多模態(tài)API從原始輸入和編輯生成上下文感知圖像。對(duì)于低層次任務(wù),他們額外策劃了一個(gè)知名基準(zhǔn)數(shù)據(jù)集的子集,通過(guò)手動(dòng)收集確保經(jīng)典圖像處理場(chǎng)景的覆蓋。
為了提高注釋效率和可擴(kuò)展性,團(tuán)隊(duì)利用GPT-4o的多模態(tài)能力自動(dòng)生成圖像說(shuō)明和編輯指令。具體而言,他們將源圖像和對(duì)應(yīng)的編輯圖像作為聯(lián)合輸入提供給GPT-4o API,結(jié)構(gòu)化提示引導(dǎo)模型生成三個(gè)輸出:源圖像的簡(jiǎn)明描述、目標(biāo)圖像的簡(jiǎn)明描述、以及描述從源到目標(biāo)轉(zhuǎn)換的人類可讀編輯指令。
為符合模型的輸入規(guī)范,圖像對(duì)通過(guò)旋轉(zhuǎn)排列進(jìn)行采樣和排列,每個(gè)任務(wù)最多選擇2,000個(gè)實(shí)例以確保分布平衡。在每個(gè)樣本中,上半部分用作RelationAdapter的視覺(jué)上下文,下半部分輸入到語(yǔ)境編輯器模塊。定向編輯指令(源→目標(biāo))僅作為文本提示提供,沒(méi)有詳細(xì)的內(nèi)容描述。
五、實(shí)驗(yàn)設(shè)置與評(píng)估方法
研究團(tuán)隊(duì)在訓(xùn)練中使用DiT架構(gòu)內(nèi)的FLUX.1-dev初始化模型。為減少計(jì)算開(kāi)銷同時(shí)保留預(yù)訓(xùn)練模型的泛化能力,他們使用秩為128的LoRA微調(diào)語(yǔ)境編輯器。訓(xùn)練跨越100,000次迭代,在4臺(tái)H20 GPU上進(jìn)行,累積批量大小為4。他們使用AdamW優(yōu)化器和bfloat16混合精度訓(xùn)練,初始學(xué)習(xí)率為1×10-4??捎?xùn)練參數(shù)總數(shù)為15.6976億。訓(xùn)練耗時(shí)48小時(shí),消耗約74GB的GPU內(nèi)存。在推理時(shí),模型在單個(gè)H20 GPU上需要約40GB的GPU內(nèi)存。
RelationAdapter采用雙分支SigLIP視覺(jué)編碼器,每個(gè)分支獨(dú)立處理輸入對(duì)中的一張圖像,并通過(guò)兩層線性投影網(wǎng)絡(luò)輸出128維特征標(biāo)記。注意力融合系數(shù)α固定為1。為平衡計(jì)算效率,輸入圖像在編碼前調(diào)整大小,使其面積對(duì)應(yīng)最大長(zhǎng)邊512像素。
在基準(zhǔn)測(cè)試方面,團(tuán)隊(duì)選擇了數(shù)據(jù)集的2.6%(6,540個(gè)樣本)作為基準(zhǔn)子集,涵蓋218種多樣化任務(wù)。其中,6,240個(gè)樣本對(duì)應(yīng)訓(xùn)練期間見(jiàn)過(guò)的任務(wù),而300個(gè)代表未見(jiàn)過(guò)的任務(wù),用于評(píng)估模型的泛化能力。
為評(píng)估方法性能,團(tuán)隊(duì)將其與兩個(gè)基準(zhǔn)進(jìn)行比較:Edit Transfer和VisualCloze。這兩個(gè)基準(zhǔn)都遵循上下文學(xué)習(xí)設(shè)置,并在共享訓(xùn)練任務(wù)空間中評(píng)估,使用官方實(shí)現(xiàn)和推薦超參數(shù)確保可重現(xiàn)性。
評(píng)估使用四個(gè)關(guān)鍵指標(biāo):均方誤差(MSE)、基于CLIP的圖像到圖像相似度(CLIP-I)、編輯一致性(GPT-C)和編輯準(zhǔn)確性(GPT-A)。MSE量化生成圖像與真實(shí)圖像之間的像素級(jí)差異,而CLIP-I捕獲通過(guò)測(cè)量生成圖像與真實(shí)圖像之間的CLIP距離的高級(jí)語(yǔ)義相似度。為從人類中心角度進(jìn)一步評(píng)估編輯質(zhì)量,團(tuán)隊(duì)利用GPT-4o解釋從提示圖像到參考圖像的預(yù)期轉(zhuǎn)換,并基于兩個(gè)維度評(píng)估預(yù)測(cè):編輯一致性(GPT-C),衡量與源圖像的一致性,以及編輯準(zhǔn)確性(GPT-A),評(píng)估生成圖像如何忠實(shí)反映預(yù)期編輯。
六、實(shí)驗(yàn)結(jié)果與分析
定量評(píng)估結(jié)果顯示,RelationAdapter在MSE和CLIP-I指標(biāo)上始終優(yōu)于基準(zhǔn)方法。與Edit Transfer相比,該模型實(shí)現(xiàn)了顯著較低的MSE(0.020對(duì)0.043)和更高的CLIP-I得分(0.905對(duì)0.827),表明與真實(shí)情況相比具有更好的像素級(jí)準(zhǔn)確性和語(yǔ)義一致性。同樣,與VisualCloze相比,該方法取得了顯著改進(jìn),將MSE從0.049降低到0.025,CLIP-I從0.802提高到0.894。這些結(jié)果表明RelationAdapter在產(chǎn)生視覺(jué)準(zhǔn)確和語(yǔ)義上有意義的圖像編輯方面的有效性。此外,該方法在GPT-C和GPT-A指標(biāo)上也始終優(yōu)于兩個(gè)最先進(jìn)的基準(zhǔn)。
在定性評(píng)估中,RelationAdapter在已見(jiàn)和未見(jiàn)任務(wù)上都展示了強(qiáng)大的編輯一致性和準(zhǔn)確性。值得注意的是,在添加眼鏡給人物的未見(jiàn)任務(wù)中,該方法甚至優(yōu)于專門針對(duì)此任務(wù)訓(xùn)練的Edit Transfer。相比之下,Edit Transfer在低層次顏色控制方面表現(xiàn)出不穩(wěn)定性(例如,服裝顏色降級(jí))。與VisualCloze相比,RelationAdapter受參考圖像Iref的影響較小,特別是在深度預(yù)測(cè)和服裝試穿等任務(wù)中。VisualCloze往往過(guò)度依賴Iref,降低了遷移準(zhǔn)確性,而RelationAdapter更可靠地提取關(guān)鍵編輯特征,實(shí)現(xiàn)穩(wěn)定遷移。在未見(jiàn)任務(wù)上,VisualCloze通常顯示不一致的編輯,如前景或背景變化,而RelationAdapter更好地保留了結(jié)構(gòu)一致性。這可能是由于VisualCloze的雙向注意力導(dǎo)致特征溢出。雖然RelationAdapter在風(fēng)格遷移中保留了一些原始顏色,但總體上產(chǎn)生了更連貫的編輯,表明有空間進(jìn)一步提高泛化能力。
為評(píng)估RelationAdapter模塊的有效性,研究團(tuán)隊(duì)進(jìn)行了消融研究,將視覺(jué)提示特征直接與條件標(biāo)記cS連接。為公平比較,這個(gè)基線訓(xùn)練了10萬(wàn)步,與RelationAdapter相同。結(jié)果表明,RelationAdapter在已見(jiàn)和未見(jiàn)任務(wù)的所有四個(gè)評(píng)估指標(biāo)上始終優(yōu)于上下文學(xué)習(xí)基線。這種改進(jìn)歸功于RelationAdapter,它通過(guò)解耦視覺(jué)特征和減少冗余來(lái)增強(qiáng)性能。
雖然潛在空間連接(即在VAE編碼前直接合并四個(gè)輸入圖像)是有效的,但它會(huì)導(dǎo)致高GPU內(nèi)存使用。這一限制限制了生成圖像的分辨率,在推理過(guò)程中損害了精細(xì)細(xì)節(jié)。相比之下,輕量級(jí)的RelationAdapter提供了更高效的替代方案,使模型能夠以最小的計(jì)算成本捕獲和應(yīng)用編輯指令的語(yǔ)義意圖。
團(tuán)隊(duì)還對(duì)RelationAdapter在四個(gè)分類任務(wù)上的表現(xiàn)進(jìn)行了評(píng)估,這些任務(wù)復(fù)雜性各異。結(jié)果表明,它在風(fēng)格遷移和定制生成等復(fù)雜任務(wù)中表現(xiàn)出色,顯示出強(qiáng)大的語(yǔ)義對(duì)齊和文本-圖像一致性。在編輯任務(wù)中,它很好地平衡了重建和語(yǔ)義。雖然GPT分?jǐn)?shù)在低層次任務(wù)中略有下降,但進(jìn)一步的低層次評(píng)估和用戶研究提供了更全面的評(píng)估。
七、局限性與未來(lái)展望
盡管RelationAdapter在各種編輯任務(wù)上表現(xiàn)出色,但它有時(shí)無(wú)法準(zhǔn)確渲染生成圖像中的文本細(xì)節(jié)。這是當(dāng)前擴(kuò)散模型的常見(jiàn)問(wèn)題。此外,模型在罕見(jiàn)或之前未見(jiàn)過(guò)的任務(wù)上可能表現(xiàn)略有不同,表明它對(duì)任務(wù)特定細(xì)微差別敏感。
總的來(lái)說(shuō),這項(xiàng)研究提出了RelationAdapter,一個(gè)基于DiT的新型視覺(jué)提示編輯框架,在效率和精度之間取得了前所未有的平衡。團(tuán)隊(duì)通過(guò)重新審視現(xiàn)有上下文學(xué)習(xí)方法的局限性,引入了用于重新注入視覺(jué)提示特征的解耦策略。利用DiT固有的編輯能力,該方法增強(qiáng)了模型在轉(zhuǎn)換學(xué)習(xí)場(chǎng)景中的穩(wěn)定性和生成質(zhì)量。為支持這種方法,團(tuán)隊(duì)構(gòu)建了一個(gè)包含218個(gè)視覺(jué)提示編輯任務(wù)的大規(guī)模數(shù)據(jù)集。他們進(jìn)一步引入了兩種訓(xùn)練范式——位置編碼克隆和無(wú)噪聲條件方案,顯著提高了模型的編輯能力。廣泛的實(shí)驗(yàn)驗(yàn)證了該方法的有效性,并展示了其在多樣化編輯場(chǎng)景中的卓越性能。
這個(gè)高效且準(zhǔn)確的框架為視覺(jué)提示圖像編輯提供了新的見(jiàn)解,為未來(lái)研究奠定了基礎(chǔ)。隨著技術(shù)的進(jìn)一步發(fā)展,我們可以期待更強(qiáng)大、更通用的視覺(jué)編輯模型,能夠處理更復(fù)雜的編輯任務(wù),并在更廣泛的應(yīng)用場(chǎng)景中提供更高質(zhì)量的結(jié)果。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。