av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) RefEdit:一項(xiàng)突破性研究,讓AI編輯圖像時(shí)能準(zhǔn)確理解「這個(gè)人」「那只貓」到底是指誰(shuí)

RefEdit:一項(xiàng)突破性研究,讓AI編輯圖像時(shí)能準(zhǔn)確理解「這個(gè)人」「那只貓」到底是指誰(shuí)

2025-06-07 17:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 17:00 ? 科技行者

亞利桑那州立大學(xué)的研究團(tuán)隊(duì)帶來(lái)了一項(xiàng)令人矚目的突破。這項(xiàng)由Bimsara Pathiraja、Maitreya Patel(這兩位作者貢獻(xiàn)相同)、Shivam Singh、Yezhou Yang和Chitta Baral共同完成的研究于2025年6月3日發(fā)表在arXiv(arXiv:2506.03448v1)上,并建立了專門的項(xiàng)目網(wǎng)站http://refedit.vercel.app。有興趣深入了解的讀者可以通過(guò)這個(gè)網(wǎng)站獲取更多信息和模型資源。

一、研究背景:當(dāng)AI不明白你說(shuō)的"那個(gè)人"是誰(shuí)

想象一下這個(gè)場(chǎng)景:你有一張合家歡照片,里面有爸爸、媽媽和兩個(gè)穿著相似衣服的孩子。你想用AI工具只給"左邊那個(gè)孩子"的衣服變個(gè)顏色,結(jié)果AI卻把所有人的衣服都改了。令人沮喪,對(duì)吧?

這正是目前AI圖像編輯技術(shù)面臨的核心問(wèn)題。雖然像InstructPix2Pix、MagicBrush這樣的工具在編輯單個(gè)主體物體時(shí)表現(xiàn)不錯(cuò),但一旦圖像中出現(xiàn)多個(gè)相似物體(比如兩個(gè)人、三只貓或者幾把椅子),AI就會(huì)"迷惑",不知道你指的是哪一個(gè)。

亞利桑那州立大學(xué)的研究團(tuán)隊(duì)將這個(gè)問(wèn)題定義為"指代表達(dá)挑戰(zhàn)"(referring expression challenge)。簡(jiǎn)單來(lái)說(shuō),就是AI需要理解人類自然語(yǔ)言中的指代詞和描述性語(yǔ)言,比如"左邊那個(gè)戴眼鏡的人"、"中間穿深色牛仔褲的那位"等。

研究團(tuán)隊(duì)發(fā)現(xiàn),即使是那些訓(xùn)練了數(shù)百萬(wàn)樣本的最先進(jìn)模型,面對(duì)這種場(chǎng)景時(shí)的表現(xiàn)也非常糟糕。為了量化這一問(wèn)題,他們首先建立了一個(gè)名為RefEdit-Bench的基準(zhǔn)測(cè)試,專門用來(lái)評(píng)估AI在處理指代表達(dá)時(shí)的表現(xiàn)。然后,他們提出了一種解決方案——RefEdit模型,這是一個(gè)經(jīng)過(guò)特殊訓(xùn)練的圖像編輯模型,能夠準(zhǔn)確理解指代表達(dá)并執(zhí)行精確的編輯。

二、為什么現(xiàn)有的AI圖像編輯技術(shù)會(huì)"迷糊"?

要理解這個(gè)問(wèn)題,我們需要先了解當(dāng)前AI圖像編輯技術(shù)的工作方式。目前主流的方法主要分為兩大類:基于反轉(zhuǎn)(inversion-based)的技術(shù)和基于指令(instruction-based)的技術(shù)。

想象一下基于反轉(zhuǎn)的技術(shù)就像是一位畫家需要先把一幅畫拆解成素描草圖(這就是"反轉(zhuǎn)"過(guò)程),然后在草圖上修改,最后重新上色完成編輯。這類方法包括Prompt-to-Prompt、Null-Text Inversion和DDPM-inversion等。雖然創(chuàng)新,但這些方法計(jì)算量大、處理時(shí)間長(zhǎng),而且需要大量的參數(shù)調(diào)整。最關(guān)鍵的是,它們?cè)诙ㄎ痪唧w區(qū)域時(shí)表現(xiàn)不佳,容易"漏改"或"多改"。

基于指令的方法則像是給畫家一本使用說(shuō)明書,直接告訴他如何修改畫作。這類方法包括InstructPix2Pix、UltraEdit和OmniEdit等,它們通常通過(guò)在數(shù)百萬(wàn)圖像編輯樣本上微調(diào)擴(kuò)散模型來(lái)實(shí)現(xiàn)。這些模型雖然更高效,但因?yàn)樗鼈兺ǔJ褂没诜崔D(zhuǎn)技術(shù)生成的訓(xùn)練數(shù)據(jù),所以也繼承了基礎(chǔ)方法的局限性。

這兩類方法都面臨一個(gè)共同的問(wèn)題:當(dāng)圖像中有多個(gè)相似物體時(shí),它們難以精確定位用戶想要編輯的特定對(duì)象。就像你告訴一個(gè)近視的畫家"把那個(gè)人的帽子改成紅色",但他看不清哪個(gè)是你指的"那個(gè)人"。

三、RefEdit-Bench:一個(gè)測(cè)試AI"理解力"的新基準(zhǔn)

為了系統(tǒng)評(píng)估這個(gè)問(wèn)題,研究團(tuán)隊(duì)創(chuàng)建了RefEdit-Bench,這是一個(gè)專門用于測(cè)試AI在處理指代表達(dá)時(shí)的圖像編輯能力的基準(zhǔn)測(cè)試。

這個(gè)基準(zhǔn)測(cè)試的獨(dú)特之處在于它重新利用了RefCOCO數(shù)據(jù)集,這是一個(gè)包含大量帶有指代表達(dá)注釋的真實(shí)世界圖像的數(shù)據(jù)集。每張圖像都經(jīng)過(guò)精心挑選,確保場(chǎng)景、物體和上下文的多樣性。研究團(tuán)隊(duì)還為每張圖像手工制作了詳細(xì)多樣的編輯指令,包括改變顏色、更換物體、添加物體、移除物體和改變紋理等任務(wù)。

基準(zhǔn)測(cè)試分為"簡(jiǎn)單"和"困難"兩個(gè)類別,每個(gè)類別包含100張圖像: - 簡(jiǎn)單類別:圖像中主要有一個(gè)物體,或者即使有多個(gè)相同類型的物體,目標(biāo)物體也占據(jù)圖像的顯著部分或容易識(shí)別。 - 困難類別:圖像中有多個(gè)相同類型的物體,而且這些物體占據(jù)圖像的相似區(qū)域,使得正確識(shí)別特定實(shí)例變得困難。

研究結(jié)果令人吃驚:即使是那些在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上表現(xiàn)出色的頂級(jí)模型,在RefEdit-Bench上的表現(xiàn)也非常糟糕。這清晰地表明了當(dāng)前AI圖像編輯技術(shù)在處理指代表達(dá)方面存在嚴(yán)重不足。

四、RefEdit:讓AI真正理解你指的是"哪一個(gè)"

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了RefEdit,這是一個(gè)專門針對(duì)指代表達(dá)挑戰(zhàn)進(jìn)行訓(xùn)練的模型。這個(gè)模型的獨(dú)特之處在于它的訓(xùn)練數(shù)據(jù)生成方式和訓(xùn)練策略。

### 訓(xùn)練數(shù)據(jù)生成:巧妙的四步曲

研究團(tuán)隊(duì)開發(fā)了一個(gè)可擴(kuò)展的合成數(shù)據(jù)生成流程,這個(gè)流程主要包括四個(gè)關(guān)鍵步驟:

首先,使用GPT-4o生成所有文本數(shù)據(jù),包括圖像提示、編輯后的提示、編輯指令、被編輯的物體、指代表達(dá)以及更詳細(xì)的指代表達(dá)版本。研究團(tuán)隊(duì)將圖像編輯任務(wù)分為五個(gè)不同類別:改變顏色、更換物體、添加物體、移除物體和改變紋理。每個(gè)類別都專注于指代表達(dá)。

其次,使用FLUX生成1024×1024的圖像。研究團(tuán)隊(duì)在模板中指定如何生成圖像提示,例如如果圖像中有兩個(gè)或更多相同物體但有一些差異。這些差異可能是由于顏色("白襯衫"或"黑襯衫")、單獨(dú)的物品("拿刀的人"或"拿包的人")或活動(dòng)(比如"切菜的廚師"或"攪拌鍋的廚師")造成的。

第三,使用Grounded SAM生成精確的物體掩碼。Grounded SAM結(jié)合了Segment Anything和Grounding DINO,能夠根據(jù)指代表達(dá)準(zhǔn)確地生成物體掩碼。

最后,使用初始圖像、編輯指令和掩碼生成編輯后的圖像。研究團(tuán)隊(duì)使用Inpaint Anything進(jìn)行物體移除,使用FlowChef進(jìn)行其他編輯任務(wù)。添加物體的數(shù)據(jù)是通過(guò)交換初始圖像和編輯后的圖像創(chuàng)建的。

通過(guò)這個(gè)流程,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)包含超過(guò)20,000對(duì)訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集。每張圖像都包含多個(gè)相似實(shí)體,需要某種形式的指代表達(dá)來(lái)精確定位。

### 模型訓(xùn)練:少而精的策略

RefEdit的訓(xùn)練策略也非常獨(dú)特。為了避免過(guò)度擬合并確保模型能夠泛化到其他任務(wù),研究團(tuán)隊(duì)將自己生成的RefEdit數(shù)據(jù)與MagicBrush數(shù)據(jù)結(jié)合起來(lái)進(jìn)行訓(xùn)練。這樣,最終的訓(xùn)練數(shù)據(jù)量為30,000,遠(yuǎn)少于其他方法使用的數(shù)百萬(wàn)樣本。

具體來(lái)說(shuō),研究團(tuán)隊(duì)訓(xùn)練了兩個(gè)變體: - RefEdit(基于Stable Diffusion v1.5):在2個(gè)80GB NVIDIA A100 GPU上訓(xùn)練了24個(gè)epoch。 - RefEdit-SD3(基于UltraEdit):在8個(gè)80GB NVIDIA A100 GPU上訓(xùn)練了6000次迭代。

這種"少而精"的訓(xùn)練策略證明非常有效,在各種基準(zhǔn)測(cè)試上的表現(xiàn)都優(yōu)于那些使用數(shù)百萬(wàn)樣本訓(xùn)練的模型。

五、研究結(jié)果:小數(shù)據(jù)集也能超越大模型

研究團(tuán)隊(duì)進(jìn)行了廣泛的評(píng)估,包括在RefEdit-Bench和PIE-Bench上的定量評(píng)估,以及人類評(píng)估。

在RefEdit-Bench上,RefEdit(SDv1.5變體)在簡(jiǎn)單和困難兩個(gè)類別上都顯著優(yōu)于基線模型。有趣的是,使用少量人工注釋數(shù)據(jù)訓(xùn)練的MagicBrush的表現(xiàn)與使用120萬(wàn)合成數(shù)據(jù)的OmniEdit相似。而RefEdit則始終在基準(zhǔn)測(cè)試中名列前茅,這表明高質(zhì)量但規(guī)模較小的數(shù)據(jù)集的重要性。

更令人驚訝的是,那些基于更大、更先進(jìn)架構(gòu)(如SDXL、SD3)的模型表現(xiàn)反而不如基于SDv1.5的方法,甚至出現(xiàn)了嚴(yán)重的性能下降。研究團(tuán)隊(duì)將這種現(xiàn)象歸因于可能的過(guò)度擬合。由于現(xiàn)有的訓(xùn)練數(shù)據(jù)集不包含需要指代表達(dá)的復(fù)雜圖像編輯,較大的模型可能會(huì)過(guò)度擬合。重要的是,僅添加20,000個(gè)合成數(shù)據(jù)就顯著提高了UltraEdit在兩個(gè)類別上的性能。

在標(biāo)準(zhǔn)圖像編輯任務(wù)的PIE-Bench上,RefEdit也表現(xiàn)出色。OmniEdit使用120萬(wàn)數(shù)據(jù)集獲得了5.12的分?jǐn)?shù),而RefEdit僅使用20,000個(gè)額外訓(xùn)練數(shù)據(jù)就獲得了5.21的分?jǐn)?shù)。RefEdit-SD3變體實(shí)現(xiàn)了最先進(jìn)的性能。

人類評(píng)估結(jié)果更加顯著。研究團(tuán)隊(duì)從RefEdit-Bench中隨機(jī)選擇了400對(duì)樣本,讓人類評(píng)估者進(jìn)行A/B測(cè)試。結(jié)果顯示,RefEdit-SD3模型顯著優(yōu)于所有基線模型,并且始終受到青睞。

六、這項(xiàng)研究意味著什么?

對(duì)于普通用戶來(lái)說(shuō),RefEdit代表了AI圖像編輯工具的一個(gè)重要進(jìn)步。它解決了一個(gè)長(zhǎng)期困擾用戶的問(wèn)題:當(dāng)你說(shuō)"把左邊那個(gè)人的帽子變成紅色"時(shí),AI現(xiàn)在能更準(zhǔn)確地理解你指的是哪個(gè)人。

對(duì)于研究界來(lái)說(shuō),這項(xiàng)工作有幾個(gè)重要啟示: 1. 指代表達(dá)在生成式AI領(lǐng)域與在判別式任務(wù)(如分割)中同樣重要,但長(zhǎng)期以來(lái)被忽視。 2. 高質(zhì)量的合成數(shù)據(jù)生成策略可以顯著提高模型性能,即使數(shù)據(jù)量相對(duì)較小。 3. 簡(jiǎn)單但針對(duì)性強(qiáng)的方法有時(shí)可以超越更復(fù)雜、規(guī)模更大的模型。

更廣泛地說(shuō),這項(xiàng)研究表明,為了使AI工具在現(xiàn)實(shí)世界中更有用,它們需要更好地理解人類的語(yǔ)言和意圖,特別是在涉及多個(gè)相似實(shí)體的復(fù)雜場(chǎng)景中。

RefEdit不僅在技術(shù)上代表了一個(gè)突破,它還朝著使AI工具更符合人類直覺(jué)和期望的方向邁出了重要一步。隨著這類技術(shù)的發(fā)展,我們可以期待未來(lái)的AI圖像編輯工具將變得更加精確、直觀和易于使用。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-