av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 RelationAdapter:用擴散變換器學習和傳遞視覺關系

RelationAdapter:用擴散變換器學習和傳遞視覺關系

2025-06-06 17:27
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 17:27 ? 科技行者

在數(shù)字化視覺創(chuàng)作的前沿,浙江大學和新加坡國立大學的研究團隊帶來了一項令人矚目的創(chuàng)新。由浙江大學的龔妍、李一程、李成林、張寅以及新加坡國立大學的宋怡仁共同完成的研究《RelationAdapter: 用擴散變換器學習和傳遞視覺關系》于2025年6月3日在arXiv預印本平臺發(fā)布(arXiv:2506.02528v1),為視覺提示驅動的圖像編輯開辟了新天地。這項研究的項目頁面可通過https://github.com/gy8888/RelationAdapter訪問。

一、為什么我們需要視覺關系學習?

想象一下,你看到一對"前后"照片:一張普通的肖像照和一張應用了卡通風格的同一人物照片。即使沒有任何文字說明,你也能立刻理解這種轉換,并在腦海中想象如何將這種卡通效果應用到其他照片上。這種通過觀察示例來理解視覺變換的能力,正是人類智能的一個迷人特征。

而在人工智能領域,這種能力被稱為"編輯轉移"或"視覺語境學習"。與需要精確文字提示的傳統(tǒng)圖像編輯方法不同,基于圖像對的編輯方式更加直觀、高效。通過直接觀察視覺變化,AI模型可以捕捉復雜的編輯效果,如風格轉換、對象修改或光照調整,而無需繁瑣的語言描述。

然而,目前的圖像對編輯方法面臨幾個關鍵挑戰(zhàn):首先,如何從單一圖像對中準確提取視覺變換信號,包括語義修改(如對象外觀、風格)和結構變化(如空間布局、幾何形狀);其次,如何有效地將這些變換應用到新圖像上,同時保持布局一致性和高視覺保真度;最后,如何在不需要重新訓練的情況下實現(xiàn)對未見過的編輯任務的強泛化能力。

浙江大學和新加坡國立大學的研究團隊提出了一個名為RelationAdapter的創(chuàng)新框架,旨在解決這些挑戰(zhàn)。這個框架巧妙地將編輯意圖的提取與圖像生成過程解耦,實現(xiàn)更可解釋、可控的視覺編輯。

二、RelationAdapter:視覺關系的橋梁

想象RelationAdapter就像一位精通"視覺翻譯"的專家,它能從一對"前后"圖像中理解變化的精髓,然后將這種變化應用到全新的圖像上。這個模塊的核心設計理念是什么呢?

RelationAdapter是一個輕量級模塊,構建在擴散變換器(DiT)架構上。它通過在每個DiT區(qū)塊中嵌入一個新穎的注意力處理器,捕獲視覺變換并將其注入隱藏狀態(tài)。這大大增強了模型對圖像對之間關系的推理能力,而無需修改DiT的核心結構。

傳統(tǒng)的視覺提示集成方法(如FLUX.1 Redux)通常是直接將視覺特征附加到T5編碼器的輸出上,這會導致視覺特征嵌入通常比文本提示長得多,可能會削弱甚至抵消文本引導的效果。為解決這個問題,研究團隊設計了一種解耦的注意力注入機制。

具體來說,RelationAdapter為視覺提示特征設計了一個單獨的鍵-值(KV)注意力投影機制,關鍵的是,視覺提示的交叉注意力層與骨干DiT分支共享相同的查詢Q:

``` ZV = Attention(Q, K′, V′) = Softmax(Q(K′)?/√d)V′ Q = cBWq, K′ = cVW′k, V′ = cVW′v ```

然后,將視覺注意力輸出ZV(來自RelationAdapter)與原始DiT注意力輸出ZB融合,再傳遞給輸出投影模塊:

``` Znew = ZB + α · ZV ```

其中α是一個可調節(jié)的標量系數(shù),用于控制視覺提示注意力的影響。

這種設計就像給AI安裝了一副特殊眼鏡,一邊鏡片專注于理解原始圖像內容,另一邊鏡片專注于捕捉變換關系,最后大腦將兩種視覺信息融合,產(chǎn)生既保留原始結構又應用了目標變換的完美結果。

三、語境編輯器:空間一致性的保證者

RelationAdapter解決了"理解變換"的問題,而語境編輯器(In-Context Editor)則解決了"應用變換"的挑戰(zhàn)。它將圖像編輯框架為條件生成任務,同時編碼圖像和文本描述,實現(xiàn)精確的、指令驅動的編輯。

傳統(tǒng)的條件圖像編輯模型往往在源圖像和目標圖像之間的像素級對齊方面存在困難,導致結構扭曲。為解決這個問題,研究團隊提出了位置編碼克隆(Position Encoding Cloning)策略,它顯式地將潛在空間對應關系嵌入到生成過程中。

具體來說,團隊強制源條件表示cS和噪聲變量z之間的位置編碼對齊,建立一致的像素級坐標映射。通過在關鍵組件之間共享位置編碼,這種方法提供了強大的空間引導,減輕了鬼影和錯位等偽影。這使DiT能夠更有效地學習精細的對應關系,提高編輯保真度和理論一致性。

為了增強編輯能力和對多樣化數(shù)據(jù)的適應性,團隊構建了一個包含2,515,800個樣本的上下文學習格式編輯數(shù)據(jù)集,并應用了LoRA(低秩適應)微調技術對DiT模塊進行高效參數(shù)適應。具體而言,他們使用了高秩LoRA,凍結預訓練權重W0,并在每個模型層中注入可訓練的低秩矩陣A和B。

另一個關鍵創(chuàng)新是無噪聲范式?,F(xiàn)有的語境編輯器框架將源圖像和目標圖像的潛在表示連接作為逐步去噪過程的輸入,但這往往會破壞源特征,導致細節(jié)丟失和像素保真度降低。為解決這個問題,團隊提出了一個無噪聲范式,在所有去噪階段保留源圖像Isrc的特征cS的干凈狀態(tài)。通過維持這些特征的干凈狀態(tài),為生成目標圖像Itar提供了穩(wěn)定和準確的參考。

四、Relation252K數(shù)據(jù)集:多樣化編輯任務的沙盒

為了評估模型在視覺提示驅動場景中的泛化能力和適應性,研究團隊構建了一個大規(guī)模數(shù)據(jù)集,涵蓋218種多樣化的編輯任務。這個名為Relation252K的數(shù)據(jù)集包含33,274張圖像和251,580個通過圖像對排列生成的編輯樣本。

這些任務根據(jù)功能特性分為四個主要組:低層次圖像處理(如深度估計、表面法線生成、云彩移除)、圖像風格遷移(如折紙效果、梵高風格、木刻效果)、圖像編輯(如閉眼、添加物體、抬手)和定制生成(如樂高形式、氣球變形、3D相框)。

為了構建高質量數(shù)據(jù)集,團隊引入了一個半自動化管道。定制腳本與Discord機器人接口,向MidJourney發(fā)送/imagine命令生成高保真圖像。團隊還利用GPT-4o多模態(tài)API從原始輸入和編輯生成上下文感知圖像。對于低層次任務,他們額外策劃了一個知名基準數(shù)據(jù)集的子集,通過手動收集確保經(jīng)典圖像處理場景的覆蓋。

為了提高注釋效率和可擴展性,團隊利用GPT-4o的多模態(tài)能力自動生成圖像說明和編輯指令。具體而言,他們將源圖像和對應的編輯圖像作為聯(lián)合輸入提供給GPT-4o API,結構化提示引導模型生成三個輸出:源圖像的簡明描述、目標圖像的簡明描述、以及描述從源到目標轉換的人類可讀編輯指令。

為符合模型的輸入規(guī)范,圖像對通過旋轉排列進行采樣和排列,每個任務最多選擇2,000個實例以確保分布平衡。在每個樣本中,上半部分用作RelationAdapter的視覺上下文,下半部分輸入到語境編輯器模塊。定向編輯指令(源→目標)僅作為文本提示提供,沒有詳細的內容描述。

五、實驗設置與評估方法

研究團隊在訓練中使用DiT架構內的FLUX.1-dev初始化模型。為減少計算開銷同時保留預訓練模型的泛化能力,他們使用秩為128的LoRA微調語境編輯器。訓練跨越100,000次迭代,在4臺H20 GPU上進行,累積批量大小為4。他們使用AdamW優(yōu)化器和bfloat16混合精度訓練,初始學習率為1×10-4。可訓練參數(shù)總數(shù)為15.6976億。訓練耗時48小時,消耗約74GB的GPU內存。在推理時,模型在單個H20 GPU上需要約40GB的GPU內存。

RelationAdapter采用雙分支SigLIP視覺編碼器,每個分支獨立處理輸入對中的一張圖像,并通過兩層線性投影網(wǎng)絡輸出128維特征標記。注意力融合系數(shù)α固定為1。為平衡計算效率,輸入圖像在編碼前調整大小,使其面積對應最大長邊512像素。

在基準測試方面,團隊選擇了數(shù)據(jù)集的2.6%(6,540個樣本)作為基準子集,涵蓋218種多樣化任務。其中,6,240個樣本對應訓練期間見過的任務,而300個代表未見過的任務,用于評估模型的泛化能力。

為評估方法性能,團隊將其與兩個基準進行比較:Edit Transfer和VisualCloze。這兩個基準都遵循上下文學習設置,并在共享訓練任務空間中評估,使用官方實現(xiàn)和推薦超參數(shù)確??芍噩F(xiàn)性。

評估使用四個關鍵指標:均方誤差(MSE)、基于CLIP的圖像到圖像相似度(CLIP-I)、編輯一致性(GPT-C)和編輯準確性(GPT-A)。MSE量化生成圖像與真實圖像之間的像素級差異,而CLIP-I捕獲通過測量生成圖像與真實圖像之間的CLIP距離的高級語義相似度。為從人類中心角度進一步評估編輯質量,團隊利用GPT-4o解釋從提示圖像到參考圖像的預期轉換,并基于兩個維度評估預測:編輯一致性(GPT-C),衡量與源圖像的一致性,以及編輯準確性(GPT-A),評估生成圖像如何忠實反映預期編輯。

六、實驗結果與分析

定量評估結果顯示,RelationAdapter在MSE和CLIP-I指標上始終優(yōu)于基準方法。與Edit Transfer相比,該模型實現(xiàn)了顯著較低的MSE(0.020對0.043)和更高的CLIP-I得分(0.905對0.827),表明與真實情況相比具有更好的像素級準確性和語義一致性。同樣,與VisualCloze相比,該方法取得了顯著改進,將MSE從0.049降低到0.025,CLIP-I從0.802提高到0.894。這些結果表明RelationAdapter在產(chǎn)生視覺準確和語義上有意義的圖像編輯方面的有效性。此外,該方法在GPT-C和GPT-A指標上也始終優(yōu)于兩個最先進的基準。

在定性評估中,RelationAdapter在已見和未見任務上都展示了強大的編輯一致性和準確性。值得注意的是,在添加眼鏡給人物的未見任務中,該方法甚至優(yōu)于專門針對此任務訓練的Edit Transfer。相比之下,Edit Transfer在低層次顏色控制方面表現(xiàn)出不穩(wěn)定性(例如,服裝顏色降級)。與VisualCloze相比,RelationAdapter受參考圖像Iref的影響較小,特別是在深度預測和服裝試穿等任務中。VisualCloze往往過度依賴Iref,降低了遷移準確性,而RelationAdapter更可靠地提取關鍵編輯特征,實現(xiàn)穩(wěn)定遷移。在未見任務上,VisualCloze通常顯示不一致的編輯,如前景或背景變化,而RelationAdapter更好地保留了結構一致性。這可能是由于VisualCloze的雙向注意力導致特征溢出。雖然RelationAdapter在風格遷移中保留了一些原始顏色,但總體上產(chǎn)生了更連貫的編輯,表明有空間進一步提高泛化能力。

為評估RelationAdapter模塊的有效性,研究團隊進行了消融研究,將視覺提示特征直接與條件標記cS連接。為公平比較,這個基線訓練了10萬步,與RelationAdapter相同。結果表明,RelationAdapter在已見和未見任務的所有四個評估指標上始終優(yōu)于上下文學習基線。這種改進歸功于RelationAdapter,它通過解耦視覺特征和減少冗余來增強性能。

雖然潛在空間連接(即在VAE編碼前直接合并四個輸入圖像)是有效的,但它會導致高GPU內存使用。這一限制限制了生成圖像的分辨率,在推理過程中損害了精細細節(jié)。相比之下,輕量級的RelationAdapter提供了更高效的替代方案,使模型能夠以最小的計算成本捕獲和應用編輯指令的語義意圖。

團隊還對RelationAdapter在四個分類任務上的表現(xiàn)進行了評估,這些任務復雜性各異。結果表明,它在風格遷移和定制生成等復雜任務中表現(xiàn)出色,顯示出強大的語義對齊和文本-圖像一致性。在編輯任務中,它很好地平衡了重建和語義。雖然GPT分數(shù)在低層次任務中略有下降,但進一步的低層次評估和用戶研究提供了更全面的評估。

七、局限性與未來展望

盡管RelationAdapter在各種編輯任務上表現(xiàn)出色,但它有時無法準確渲染生成圖像中的文本細節(jié)。這是當前擴散模型的常見問題。此外,模型在罕見或之前未見過的任務上可能表現(xiàn)略有不同,表明它對任務特定細微差別敏感。

總的來說,這項研究提出了RelationAdapter,一個基于DiT的新型視覺提示編輯框架,在效率和精度之間取得了前所未有的平衡。團隊通過重新審視現(xiàn)有上下文學習方法的局限性,引入了用于重新注入視覺提示特征的解耦策略。利用DiT固有的編輯能力,該方法增強了模型在轉換學習場景中的穩(wěn)定性和生成質量。為支持這種方法,團隊構建了一個包含218個視覺提示編輯任務的大規(guī)模數(shù)據(jù)集。他們進一步引入了兩種訓練范式——位置編碼克隆和無噪聲條件方案,顯著提高了模型的編輯能力。廣泛的實驗驗證了該方法的有效性,并展示了其在多樣化編輯場景中的卓越性能。

這個高效且準確的框架為視覺提示圖像編輯提供了新的見解,為未來研究奠定了基礎。隨著技術的進一步發(fā)展,我們可以期待更強大、更通用的視覺編輯模型,能夠處理更復雜的編輯任務,并在更廣泛的應用場景中提供更高質量的結果。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-