av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 Cora:使用少量步驟的擴(kuò)散模型實(shí)現(xiàn)對(duì)應(yīng)感知圖像編輯,來自西蒙弗雷澤大學(xué)的創(chuàng)新

Cora:使用少量步驟的擴(kuò)散模型實(shí)現(xiàn)對(duì)應(yīng)感知圖像編輯,來自西蒙弗雷澤大學(xué)的創(chuàng)新

2025-06-05 12:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 12:03 ? 科技行者

在圖像編輯世界中,一項(xiàng)令人矚目的突破悄然到來。來自加拿大西蒙弗雷澤大學(xué)的研究團(tuán)隊(duì),由Amirhossein Alimohammadi和Aryan Mikaeili共同帶領(lǐng),聯(lián)合Sauradip Nag、華為的Negar Hassanpour、西蒙弗雷澤大學(xué)及多倫多大學(xué)的Andrea Tagliasacchi以及西蒙弗雷澤大學(xué)的Ali Mahdavi-Amiri,于2025年5月29日在arXiv平臺(tái)發(fā)布了一篇題為"Cora: Correspondence-aware image editing using few step diffusion"的論文(arXiv:2505.23907v1)。這項(xiàng)研究為使用擴(kuò)散模型進(jìn)行圖像編輯提供了全新的解決方案,特別是在處理非剛性變形、物體修改和內(nèi)容生成等復(fù)雜編輯任務(wù)時(shí),表現(xiàn)出色超群。對(duì)于想要深入了解的讀者,可以通過項(xiàng)目網(wǎng)站cora-edit.github.io獲取更多信息。

一、圖像編輯的新挑戰(zhàn):為何我們需要更智能的編輯工具?

想象一下,你有一張可愛的小狗照片,但突然希望它戴上耳機(jī),或者將灰貓變成浣熊,甚至讓靜止的狗狗看起來像在跳躍。這些看似簡單的愿望,在傳統(tǒng)圖像編輯中卻是極具挑戰(zhàn)性的任務(wù)。這正是計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺和視覺特效(VFX)領(lǐng)域中的研究人員們一直在努力解決的問題。

近年來,基于擴(kuò)散模型的少步驟圖像編輯技術(shù)取得了長足進(jìn)步,讓我們能夠快速有效地完成各種編輯,成果令人印象深刻。然而,當(dāng)我們需要進(jìn)行結(jié)構(gòu)性變化,超越簡單的像素顏色修改時(shí)(比如非剛性編輯、物體改變),現(xiàn)有的擴(kuò)散模型仍面臨巨大挑戰(zhàn)。

以TurboEdit為例,這種基于噪聲校正的編輯方法常常會(huì)產(chǎn)生不必要的紋理偽影,難以保留源圖像的身份特征或重要屬性(比如姿勢(shì))。這是因?yàn)檫@類校正沒有考慮到編輯后的生成圖像與源圖像可能不再在像素級(jí)別對(duì)齊。就像你試圖給拼圖添加新的圖案,卻發(fā)現(xiàn)新舊拼圖的形狀不匹配一樣。

對(duì)于涉及主體顯著變形的編輯(比如讓狗狗從站立變?yōu)樽拢?,通常需要生成全新的部分,或者顯示源圖像中不存在的區(qū)域。一些方法嘗試通過主要依賴源圖像的紋理信息來維持主體的身份。雖然這種策略在某種程度上有效,但由于它們將擴(kuò)散模型的中間特征從源圖像注入到自注意力模塊中,它們的編輯往往會(huì)將源圖像中的不需要紋理復(fù)制到目標(biāo)圖像中沒有明確對(duì)應(yīng)關(guān)系的區(qū)域,就像是把狗狗毛發(fā)的紋理錯(cuò)誤地貼到了它周圍的背景上。

二、Cora:對(duì)應(yīng)感知編輯的創(chuàng)新方法

西蒙弗雷澤大學(xué)的研究團(tuán)隊(duì)提出了一種全新的解決方案,將這個(gè)方法命名為"Cora"(對(duì)應(yīng)感知的縮寫)。Cora的核心技術(shù)貢獻(xiàn)之一是結(jié)合了攜帶紋理信息的鍵(keys)和值(values),同時(shí)來自源圖像和目標(biāo)圖像。這使網(wǎng)絡(luò)能夠在需要時(shí)生成全新內(nèi)容,同時(shí)在源圖像中有相關(guān)信息可用時(shí)準(zhǔn)確復(fù)制紋理。

想象一下拼圖游戲:傳統(tǒng)方法只能使用原有拼圖塊(源圖像),而Cora既可以使用原有拼圖塊,也可以創(chuàng)造新的拼圖塊(目標(biāo)圖像生成的內(nèi)容),并且知道在什么情況下該用哪一種。

然而,簡單地結(jié)合源圖像和目標(biāo)圖像的方法(如簡單連接)無法達(dá)到理想效果。研究團(tuán)隊(duì)發(fā)現(xiàn),插值注意力圖可以增強(qiáng)性能,同時(shí)在生成新內(nèi)容和保留現(xiàn)有內(nèi)容之間提供靈活性和控制力。

為了在保持源圖像結(jié)構(gòu)的同時(shí)獲得合適的紋理,還需要通過建立語義對(duì)應(yīng)關(guān)系來對(duì)齊注意力。因此,研究團(tuán)隊(duì)將一種名為DIFT的對(duì)應(yīng)技術(shù)融入到他們的方法中。這種技術(shù)可以在源圖像和目標(biāo)圖像之間對(duì)齊注意力圖(鍵和值),實(shí)現(xiàn)更準(zhǔn)確、更有效的相關(guān)紋理傳輸。

在生成的早期階段,模型的輸出主要是噪聲,這使得建立對(duì)應(yīng)關(guān)系變得不可行。因此,在四步擴(kuò)散過程中,團(tuán)隊(duì)在最后兩步啟動(dòng)對(duì)應(yīng)過程,此時(shí)圖像結(jié)構(gòu)已經(jīng)建立,但紋理仍在完善中。為了對(duì)齊源圖像和目標(biāo)圖像的結(jié)構(gòu),研究團(tuán)隊(duì)使用匹配算法對(duì)查詢(queries)進(jìn)行排列。這種對(duì)齊在生成的第一步執(zhí)行,因?yàn)閳D像結(jié)構(gòu)正是在這個(gè)階段形成的。

三、Cora的技術(shù)內(nèi)幕:如何實(shí)現(xiàn)對(duì)應(yīng)感知的圖像編輯

要理解Cora的工作原理,我們需要先了解擴(kuò)散模型的基礎(chǔ)知識(shí)。擴(kuò)散模型的工作方式類似于慢慢擦去一幅畫,然后再一點(diǎn)點(diǎn)重新畫出來。在編輯過程中,我們希望在重畫的過程中引入一些變化,同時(shí)保留原畫的某些特性。

### 對(duì)應(yīng)感知的潛在校正

傳統(tǒng)的噪聲反演方法將輸入圖像映射到一系列潛在校正項(xiàng),確保在使用相同文本提示的情況下能完美重建源圖像。然而,當(dāng)編輯需要對(duì)源圖像進(jìn)行大幅變形時(shí),這些校正項(xiàng)與生成的圖像在空間上不再對(duì)齊,導(dǎo)致嚴(yán)重的偽影。

Cora通過建立源圖像和目標(biāo)圖像之間的對(duì)應(yīng)圖來解決這個(gè)問題。研究團(tuán)隊(duì)使用DIFT特征在兩張圖像之間創(chuàng)建語義匹配,然后根據(jù)這種對(duì)應(yīng)關(guān)系對(duì)校正項(xiàng)進(jìn)行重新對(duì)齊。

想象你在做拼貼畫:傳統(tǒng)方法會(huì)強(qiáng)行將原始圖案拼到新位置,而Cora則會(huì)先找出原始圖案和新位置之間的對(duì)應(yīng)關(guān)系,然后根據(jù)這種對(duì)應(yīng)關(guān)系進(jìn)行調(diào)整,使拼貼更加自然。

由于DIFT特征可能存在噪聲和不準(zhǔn)確性,研究團(tuán)隊(duì)采用了基于補(bǔ)丁的對(duì)應(yīng)方法。他們將DIFT特征分成小的、重疊的補(bǔ)丁,并為每個(gè)補(bǔ)丁而非單個(gè)像素計(jì)算對(duì)應(yīng)關(guān)系。由于補(bǔ)丁重疊,多個(gè)補(bǔ)丁可能對(duì)單個(gè)像素的對(duì)齊有貢獻(xiàn),最終的對(duì)齊校正項(xiàng)通過平均所有重疊補(bǔ)丁的貢獻(xiàn)獲得。

隨著去噪過程的進(jìn)行和特征變得更加精確,補(bǔ)丁的大小會(huì)逐漸減小,確保對(duì)應(yīng)關(guān)系更加精確,動(dòng)態(tài)適應(yīng)特征的可靠性變化。

### 對(duì)應(yīng)感知的注意力插值

高質(zhì)量的圖像編輯需要在保留源圖像關(guān)鍵方面(如外觀或身份)和引入新元素或修改之間取得平衡。最近的方法通常通過將源圖像的注意力特征注入到目標(biāo)圖像的去噪過程中來實(shí)現(xiàn)這一點(diǎn)。

Cora提出了幾種結(jié)合源圖像和目標(biāo)圖像注意力的策略:

首先是互相自注意力(Mutual Self-Attention),使用源圖像的鍵和值在擴(kuò)散模型的自注意力模塊中。這確保了源圖像的上下文(如外觀和身份)得到保留,但限制了模型生成新內(nèi)容的能力。

第二種策略是連接(Concatenation),將源圖像和目標(biāo)圖像的鍵和值連接起來。雖然這使得外觀變化成為可能,但常常無法實(shí)現(xiàn)兩種外觀之間的平滑插值,導(dǎo)致不自然的"外觀泄漏"。

第三種方法是線性插值(Linear Interpolation),在源圖像和目標(biāo)圖像的鍵和值之間進(jìn)行線性插值。這種方法在某種程度上有效,但在插值顯著不同的特征時(shí)可能會(huì)導(dǎo)致不需要的偽影。

為了解決這個(gè)限制,研究團(tuán)隊(duì)探索了使用球面線性插值(SLERP)來插值鍵和值,考慮到向量方向以實(shí)現(xiàn)更平滑的混合。SLERP確保了源圖像和目標(biāo)圖像向量之間的過渡尊重它們的角度關(guān)系,提供更平滑、更可靠的外觀混合。

### 內(nèi)容自適應(yīng)插值

當(dāng)提示需要大幅變形或引入新物體時(shí),不應(yīng)該強(qiáng)制目標(biāo)圖像中的每個(gè)像素都與源圖像中的像素匹配。過度強(qiáng)制對(duì)齊常常會(huì)創(chuàng)建視覺偽影或不正確的紋理傳輸。

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種兩步策略,在混合之前檢查每個(gè)目標(biāo)補(bǔ)丁是否在源圖像中有可靠的對(duì)應(yīng)物。

首先是雙向匹配:對(duì)于每個(gè)源補(bǔ)丁和目標(biāo)補(bǔ)丁,找出它們最相似的補(bǔ)丁。如果源補(bǔ)丁和目標(biāo)補(bǔ)丁互相是對(duì)方的最相似補(bǔ)丁,那么它們被認(rèn)為是雙向匹配的,是強(qiáng)對(duì)應(yīng)關(guān)系,可以使用用戶定義的權(quán)重進(jìn)行混合。

其次是弱匹配處理:對(duì)于未匹配的目標(biāo)補(bǔ)丁,計(jì)算其與源中最佳匹配的相似度。如果這個(gè)相似度低于某個(gè)閾值,那么該補(bǔ)丁被分類為"新",完全由提示引導(dǎo)而非源圖像影響。

### 結(jié)構(gòu)對(duì)齊

保留圖像的整體布局(即保留結(jié)構(gòu))在編輯圖像時(shí)非常重要。近期的研究表明,擴(kuò)散模型中自注意力模塊的查詢(queries)指定了生成圖像的結(jié)構(gòu)。

Cora的關(guān)鍵思想是,要復(fù)制原始圖像的結(jié)構(gòu)(可能帶有非剛性變形),需要在生成的目標(biāo)中找到源圖像的所有局部結(jié)構(gòu)。研究團(tuán)隊(duì)通過源查詢和目標(biāo)查詢之間的匈牙利匹配來實(shí)現(xiàn)這一點(diǎn),這提供了一對(duì)一的匹配(即每個(gè)目標(biāo)查詢應(yīng)該匹配一個(gè)源查詢)。

匈牙利匹配計(jì)算最優(yōu)排列,給定一個(gè)權(quán)重矩陣,然后對(duì)生成查詢進(jìn)行重排序。這個(gè)權(quán)重矩陣定義為兩個(gè)矩陣的線性插值:一個(gè)鼓勵(lì)目標(biāo)查詢與源查詢保持相似(源對(duì)齊),另一個(gè)嘗試懲罰目標(biāo)查詢之間的索引差異(目標(biāo)一致性)。

通過調(diào)整混合權(quán)重,可以控制目標(biāo)圖像的結(jié)構(gòu),在保留源結(jié)構(gòu)和更多地遵循文本提示之間進(jìn)行過渡。這個(gè)過程僅限于去噪的第一步,因?yàn)檫@是生成圖像的粗略結(jié)構(gòu)形成的階段。

四、實(shí)驗(yàn)結(jié)果:Cora的編輯能力展示

Cora在各種編輯任務(wù)中展現(xiàn)了其強(qiáng)大的能力。研究團(tuán)隊(duì)通過廣泛的實(shí)驗(yàn)證明,在定量和定性評(píng)估中,Cora在各種編輯中都能出色地保持結(jié)構(gòu)、紋理和身份,包括姿勢(shì)變化、物體添加和紋理精細(xì)化等。

### 質(zhì)量評(píng)估結(jié)果

研究團(tuán)隊(duì)展示了多種編輯類型的成果,包括非剛性變形(例如讓動(dòng)物做不同的動(dòng)作)、插入新物體(例如給貓?zhí)砑佣鷻C(jī))、替換現(xiàn)有物體(例如將貓變成鷹)等。Cora在保持輸入圖像的整體結(jié)構(gòu)的同時(shí),準(zhǔn)確反映了請(qǐng)求的編輯。

與現(xiàn)有方法相比,Cora在保持主體身份和減少偽影方面更加成功。研究團(tuán)隊(duì)專注于與TurboEdit和InfEdit等少步驟基線以及MasaCtrl和編輯友好的DDPM反演等多步驟框架進(jìn)行比較。Cora的結(jié)果展現(xiàn)出更少的扭曲和更好的保真度,特別是在仔細(xì)觀察時(shí)。

研究團(tuán)隊(duì)還將Cora與更多多步驟方法進(jìn)行了比較,包括Prompt-to-Prompt(P2P)、plug-and-play(PnP)、instructpix2pix和StyleDiffusion。盡管Cora使用的步驟顯著減少(只有4步),但其在保留細(xì)節(jié)和遵循編輯方面達(dá)到了可比甚至更優(yōu)的結(jié)果。

### 用戶研究

研究團(tuán)隊(duì)進(jìn)行了用戶研究,以更好地評(píng)估Cora的性能。參與者被展示原始圖像、編輯提示和來自Cora以及各種基線的輸出。他們根據(jù)與提示的一致性和對(duì)源圖像中主體的保留程度對(duì)圖像進(jìn)行排名,使用1(最差)到4(最好)的等級(jí)。

來自51名參與者的反饋強(qiáng)烈傾向于Cora方法,發(fā)現(xiàn)它優(yōu)于其他少步驟方法,并且可與計(jì)算密集型的多步驟技術(shù)相媲美。另外,關(guān)于注意力混合策略的單獨(dú)用戶研究表明,對(duì)應(yīng)對(duì)齊的SLERP插值產(chǎn)生了最佳結(jié)果。

### 消融研究

研究團(tuán)隊(duì)還進(jìn)行了消融研究,檢驗(yàn)Cora框架中各個(gè)組件的貢獻(xiàn):

結(jié)構(gòu)對(duì)齊:禁用結(jié)構(gòu)對(duì)齊會(huì)降低背景保真度,雖然編輯的對(duì)象仍然與文本提示良好對(duì)齊。這證明了結(jié)構(gòu)對(duì)齊對(duì)于保留場(chǎng)景細(xì)節(jié)至關(guān)重要。

對(duì)應(yīng)感知的潛在校正:移除這個(gè)模塊會(huì)導(dǎo)致編輯區(qū)域出現(xiàn)顯著的扭曲。因此,潛在校正對(duì)于產(chǎn)生連貫的編輯至關(guān)重要。

SLERP與LERP比較:雖然從SLERP切換到LERP通常會(huì)產(chǎn)生類似的結(jié)果,但在某些具有挑戰(zhàn)性的案例中,SLERP可以產(chǎn)生更一致的過渡。

移除注意力中的對(duì)應(yīng)對(duì)齊:如研究中所示,這會(huì)導(dǎo)致更多偽影,因?yàn)閷?duì)齊有助于強(qiáng)制修改后的內(nèi)容與背景之間的一致性。

五、Cora的未來與局限性

盡管Cora在圖像編輯方面取得了顯著進(jìn)步,但研究團(tuán)隊(duì)也坦承其存在一些局限性。例如,文本提示可能會(huì)改變圖像的非預(yù)期部分(比如改變汽車顏色可能也會(huì)影響背景)。這個(gè)問題可以通過使用自動(dòng)獲取的掩碼(通過交叉注意力和自注意力)來解決。雖然這是一個(gè)有前途的方向,但在只有四步去噪的情況下具有挑戰(zhàn)性,可作為未來的研究方向。

另一個(gè)潛在的未來方向是將Cora擴(kuò)展到視頻編輯,或評(píng)估用于注意力的替代非線性插值技術(shù)。

總體而言,Cora代表了圖像編輯領(lǐng)域的重要進(jìn)步,特別是在處理結(jié)構(gòu)性編輯方面。通過創(chuàng)新的注意力混合和對(duì)應(yīng)感知技術(shù),Cora能夠在保持源圖像保真度的同時(shí)實(shí)現(xiàn)各種編輯,從簡單的外觀變化到復(fù)雜的非剛性變形。這項(xiàng)技術(shù)有望為計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺和視覺特效領(lǐng)域帶來新的可能性,使創(chuàng)作者能夠更輕松、更直觀地實(shí)現(xiàn)他們的創(chuàng)意愿景。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-