av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 ImgEdit:北京大學(xué)與兔小貝AI聯(lián)合推出的統(tǒng)一圖像編輯數(shù)據(jù)集與基準(zhǔn)測試

ImgEdit:北京大學(xué)與兔小貝AI聯(lián)合推出的統(tǒng)一圖像編輯數(shù)據(jù)集與基準(zhǔn)測試

2025-05-31 10:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 10:05 ? 科技行者

這項由北京大學(xué)深圳研究生院和兔小貝AI聯(lián)合完成的研究,由楊葉、賀賢毅、李宗劍、林斌、袁盛海、嚴(yán)志遠(yuǎn)、侯博瀚和袁勵等人共同發(fā)表于2025年5月26日的arXiv預(yù)印本(arXiv:2505.20275v1)。該研究的源代碼和數(shù)據(jù)集已在GitHub上公開:https://github.com/PKU-YuanGroup/ImgEdit。

為什么我們需要更好的圖像編輯技術(shù)?

想象一下,你拍了一張完美的家庭照片,但背景中出現(xiàn)了一位陌生人;或者你想把照片中穿著藍(lán)色襯衫的自己"換裝"成紅色;又或者你想把照片中的雪山背景換成海灘。這些都是我們?nèi)粘I钪锌赡苊媾R的圖像編輯需求。

近年來,人工智能在文本生成圖像方面取得了驚人的進(jìn)步,各種AI模型可以根據(jù)文字描述創(chuàng)建令人驚嘆的圖像。但是,當(dāng)談到編輯現(xiàn)有圖像時,情況就不那么樂觀了。特別是開源的圖像編輯模型,它們的表現(xiàn)遠(yuǎn)遠(yuǎn)落后于那些閉源的商業(yè)產(chǎn)品,如OpenAI的GPT-4o和Google的Gemini-2.0。這種差距主要源于兩個問題:缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)和缺乏全面的評估基準(zhǔn)。

就像一位廚師需要優(yōu)質(zhì)的食材和精準(zhǔn)的食譜才能烹飪出美味佳肴,AI模型也需要高質(zhì)量的數(shù)據(jù)和科學(xué)的評估方法才能表現(xiàn)出色。北京大學(xué)和兔小貝AI的研究團(tuán)隊正是針對這一問題,提出了ImgEdit——一個統(tǒng)一的圖像編輯框架,包含高質(zhì)量數(shù)據(jù)集、先進(jìn)編輯模型和全面評估基準(zhǔn)。

現(xiàn)有圖像編輯數(shù)據(jù)集存在哪些問題?

在深入了解ImgEdit之前,我們先來看看現(xiàn)有圖像編輯數(shù)據(jù)集面臨的三大主要挑戰(zhàn):

首先是數(shù)據(jù)質(zhì)量和提示設(shè)計不佳。想象你在學(xué)習(xí)一門新語言,但教材充滿錯誤且解釋混亂,這會極大影響你的學(xué)習(xí)效果?,F(xiàn)有的數(shù)據(jù)集收集流程通常從低分辨率圖像開始,使用開源大語言模型生成可能包含知識偏見的提示,并使用低保真算法合成編輯后的圖像對。這就像用劣質(zhì)食材和不精確的食譜嘗試做一道復(fù)雜的菜肴,結(jié)果可想而知。

其次是對復(fù)雜編輯任務(wù)的支持不足?,F(xiàn)有數(shù)據(jù)集很少包含需要保持身份一致性的編輯類型(例如虛擬試穿),或者同時操作多個對象,或者跨多輪交互的編輯任務(wù)。這就像一本烹飪書只教你做簡單的炒雞蛋,卻不告訴你如何準(zhǔn)備一頓多道菜的正式晚餐。

第三是評估方法的局限性?,F(xiàn)有的評估框架缺乏多樣化或合理的評估維度,沒有根據(jù)任務(wù)難度進(jìn)行分層,過于強(qiáng)調(diào)編輯類別的數(shù)量,而對評估維度或測量準(zhǔn)確性的關(guān)注不足。這就像評價一道菜僅僅看它的外觀,而忽略了味道、香氣和營養(yǎng)價值。

ImgEdit如何解決這些問題?

ImgEdit框架包含四個核心組件:自動化數(shù)據(jù)構(gòu)建流程、大規(guī)模編輯數(shù)據(jù)集、先進(jìn)的編輯模型以及全面的評估基準(zhǔn)。讓我們一一了解這些組件如何協(xié)同工作,就像一個精心設(shè)計的廚房系統(tǒng),從食材采購到烹飪技巧再到品鑒標(biāo)準(zhǔn),形成一個完整的美食創(chuàng)作流程。

### 高質(zhì)量數(shù)據(jù)集的自動化構(gòu)建流程

首先,研究團(tuán)隊開發(fā)了一個自動化流程來保證數(shù)據(jù)質(zhì)量。這個流程就像一條精心設(shè)計的生產(chǎn)線,每一步都確保最終產(chǎn)品的質(zhì)量。

第一步是數(shù)據(jù)準(zhǔn)備。團(tuán)隊選擇了LAION-Aesthetics作為主要數(shù)據(jù)源,因為與其他數(shù)據(jù)集相比,它提供了更多樣化的場景、更高的分辨率和更全面的對象類別。他們只保留了短邊超過1280像素且美學(xué)評分高于4.75的圖像,篩選出約60萬張高質(zhì)量圖像。這就像挑選最新鮮的食材,確保烹飪的基礎(chǔ)是優(yōu)質(zhì)的。

接下來,他們使用GPT-4o生成簡潔的圖像描述,并提取可編輯的對象和背景名詞。然后,每個候選實體被一個開放詞匯檢測器定位,并使用SAM2將邊界框細(xì)化為分割掩碼。這就像廚師精確標(biāo)記每種食材的位置和用量,為后續(xù)處理做好準(zhǔn)備。

由于檢測和分割并不完美,團(tuán)隊對每個對象的掩碼進(jìn)行裁剪,計算與對象名稱的相似度和面積比例。相似度低或面積可忽略的區(qū)域被丟棄,確保剩余目標(biāo)被準(zhǔn)確識別并在視覺上足夠顯著。這就像在烹飪前去除食材中的雜質(zhì)和不新鮮的部分。

指令生成階段,團(tuán)隊為GPT-4o提供原始圖像標(biāo)題、編輯類型、邊界框和目標(biāo)對象作為條件信息。由于精確定位目標(biāo)對象對成功編輯至關(guān)重要,他們指示語言模型在編輯指令中嵌入對象的位置和大小。這就像給廚師提供詳細(xì)的烹飪步驟,包括每種調(diào)料應(yīng)該在什么時候加入,以及如何掌握火候。

在圖像處理工作流程中,團(tuán)隊選擇了最先進(jìn)的生成模型,如FLUX和SDXL作為基礎(chǔ)模型。為實現(xiàn)精確和可控的編輯,他們使用了插件如IP-Adapters、ControlNet和Canny/Depth LoRA。根據(jù)這些模型和組件,他們構(gòu)建了針對每個編輯場景的數(shù)據(jù)制作流程。這就像根據(jù)不同菜肴選擇合適的烹飪工具和方法。

在后處理階段,團(tuán)隊使用GPT-4o對每對編輯進(jìn)行精確篩選,基于特定于相應(yīng)編輯類型的提示引導(dǎo)評分標(biāo)準(zhǔn),為每對提供詳細(xì)分?jǐn)?shù)和簡短理由,使用戶能夠根據(jù)需求選擇子集。這就像專業(yè)美食評論家對成品進(jìn)行評價,提供客觀的反饋。

### ImgEdit數(shù)據(jù)集的特點(diǎn)與創(chuàng)新

通過這一精心設(shè)計的流程,ImgEdit數(shù)據(jù)集包含120萬對高質(zhì)量的圖像編輯對,覆蓋13種編輯類別,其中包括11萬個多輪示例。與現(xiàn)有數(shù)據(jù)集相比,ImgEdit提供了更豐富的語義、更詳細(xì)的提示、更高的分辨率、更準(zhǔn)確的編輯效果和整體更優(yōu)的視覺保真度。

ImgEdit數(shù)據(jù)集的單輪任務(wù)分為四類:局部編輯、全局編輯、視覺編輯和混合編輯。

局部編輯包括添加、移除、替換、改變屬性、改變動作和對象提取等操作。特別是對象提取任務(wù)(例如"將貓?zhí)崛〉桨咨尘吧?)能夠在保持身份一致性的同時將特定主體從復(fù)雜場景中分離出來,這在許多設(shè)計流程中非常有價值,目前僅在GPT-4o-image中可用。

全局編輯包括背景替換和風(fēng)格或色調(diào)轉(zhuǎn)換。視覺編輯涉及使用參考圖像編輯圖像?;旌暇庉嫲趩蝹€指令中應(yīng)用于多個對象的兩個局部編輯操作,例如"添加圍巾并將貓的毛色改為白色"。

多輪編輯任務(wù)設(shè)計為包括內(nèi)容理解、內(nèi)容記憶和版本回溯等編輯任務(wù)。內(nèi)容記憶涉及對話早期引入的全局約束,如果初始指令規(guī)定"所有生成必須具有木質(zhì)紋理",后續(xù)輪次不需要重述此要求,但仍必須遵守。內(nèi)容理解是指解釋依賴代詞或省略主語的后續(xù)指令的能力。版本回溯表示基于編輯結(jié)果的早期版本進(jìn)行編輯的能力,例如"撤消上一次更改..."。

ImgEdit數(shù)據(jù)集的平均短邊分辨率為1280像素,遠(yuǎn)高于大多數(shù)競爭數(shù)據(jù)集。在提示多樣性方面,ImgEdit包含8.7k個獨(dú)特詞匯。為評估編輯準(zhǔn)確性,研究團(tuán)隊從每個數(shù)據(jù)集隨機(jī)抽樣1000個實例,并用GPT-4o進(jìn)行評估,ImgEdit獲得了最高分?jǐn)?shù)。

### ImgEdit-E1:基于數(shù)據(jù)集訓(xùn)練的先進(jìn)編輯模型

為驗證數(shù)據(jù)集的有效性,研究團(tuán)隊在ImgEdit上訓(xùn)練了ImgEdit-E1模型。該模型集成了視覺語言模型、視覺編碼器和Diffusion-in-Transformer骨干網(wǎng)絡(luò)。編輯指令和原始圖像被共同輸入到視覺語言模型中,同時圖像還被視覺編碼器處理。視覺語言模型的隱藏狀態(tài)和視覺編碼器的視覺特征被分別投影并連接,形成DiT的文本分支輸入。

訓(xùn)練分兩個階段進(jìn)行,首先優(yōu)化MLP,然后聯(lián)合微調(diào)FLUX和MLP。這種方法使ImgEdit-E1在多個圖像編輯任務(wù)上的表現(xiàn)超過了現(xiàn)有開源模型,突顯了ImgEdit數(shù)據(jù)集和模型設(shè)計的價值。

### ImgEdit-Bench:全面的評估基準(zhǔn)

最后,研究團(tuán)隊提出了ImgEdit-Bench,一個設(shè)計用于評估圖像編輯性能的基準(zhǔn),從指令遵循、編輯質(zhì)量和細(xì)節(jié)保留三個維度進(jìn)行評估。它包括三個關(guān)鍵組件:

基本編輯套件測試在多種任務(wù)上的指令遵循、編輯質(zhì)量和細(xì)節(jié)保留能力;理解-定位-編輯(UGE)套件通過具有挑戰(zhàn)性的指令(如空間推理和多對象目標(biāo))和復(fù)雜場景(如多實例布局或偽裝對象)增加任務(wù)復(fù)雜性;多輪編輯套件設(shè)計用于評估內(nèi)容理解、內(nèi)容記憶和版本回溯能力。

為促進(jìn)大規(guī)模評估,研究團(tuán)隊訓(xùn)練了ImgEdit-Judge,一個評估模型,其偏好與人類判斷密切一致,達(dá)到近70%的一致率,大幅超過原始Qwen2.5-VL。

ImgEdit的評估結(jié)果告訴我們什么?

研究團(tuán)隊對一系列圖像編輯模型進(jìn)行了全面評估,包括閉源模型GPT-4o-Image和開源模型Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix以及ImgEdit-E1。評估結(jié)果揭示了三個關(guān)鍵因素影響編輯模型性能:

指令理解能力是指模型理解編輯指令的能力,這在很大程度上取決于文本編碼器,并強(qiáng)烈影響編輯性能。使用T5或CLIP等編碼器的傳統(tǒng)模型可以處理簡單任務(wù)(如風(fēng)格轉(zhuǎn)換),但在復(fù)雜的區(qū)域特定任務(wù)上表現(xiàn)不佳。ImgEdit-E1和Step1X-Edit大幅優(yōu)于其他開源模型,強(qiáng)調(diào)了更強(qiáng)大的文本編碼器和更豐富的文本特征的重要性。

定位能力是指準(zhǔn)確識別和定位需要編輯的特定區(qū)域的能力,這取決于理解指令的能力和視覺感知能力。ImgEdit-E1在需要精確定位的任務(wù)(如屬性改變和對象提?。┥媳憩F(xiàn)優(yōu)于現(xiàn)有開源編輯模型,突顯了提示中空間信息的重要性。

編輯能力是指跨編輯操作進(jìn)行泛化的能力,主要取決于訓(xùn)練數(shù)據(jù)集的質(zhì)量、大小和多樣性。其他模型在對象提取任務(wù)上表現(xiàn)不佳,包括GPT-4o,再次確認(rèn)了全面、高質(zhì)量編輯數(shù)據(jù)集的必要性。

對于多輪任務(wù),GPT-4o-Image和Gemini-2.0-flash展示了兩輪內(nèi)的版本回溯能力。這兩個模型都具有最小的內(nèi)容記憶和內(nèi)容理解能力,可能偶爾對某些引用產(chǎn)生誤解或難以在某些情況下保留前提??傮w而言,這些模型對多輪編輯的支持不足。

ImgEdit如何改變圖像編輯的未來?

ImgEdit通過提供高質(zhì)量數(shù)據(jù)集、強(qiáng)大編輯方法和全面評估基準(zhǔn),推動了圖像編輯領(lǐng)域的進(jìn)步。這項工作幫助縮小了開源方法和最先進(jìn)閉源模型之間的差距,推動了整個圖像編輯領(lǐng)域的發(fā)展。

對普通用戶而言,這意味著在不久的將來,我們可能會看到更多功能強(qiáng)大且可自由訪問的圖像編輯工具,使圖像編輯變得更加直觀、精確和高效。無論是專業(yè)設(shè)計師還是普通用戶,都能夠通過簡單的文本指令對圖像進(jìn)行精確控制,從簡單的顏色調(diào)整到復(fù)雜的多對象編輯,再到多輪交互式編輯過程。

ImgEdit的另一個重要貢獻(xiàn)是建立了評估圖像編輯模型的新標(biāo)準(zhǔn)。通過考慮指令遵循、編輯質(zhì)量和細(xì)節(jié)保留等多個維度,ImgEdit-Bench提供了一個更全面、更公平的評估框架,這對于推動技術(shù)進(jìn)步和指導(dǎo)未來研究方向至關(guān)重要。

當(dāng)然,這項研究也有其局限性。盡管ImgEdit-E1在許多任務(wù)上表現(xiàn)優(yōu)于現(xiàn)有開源模型,但與閉源模型如GPT-4o-Image相比仍有差距。這表明在數(shù)據(jù)質(zhì)量、模型架構(gòu)和訓(xùn)練方法等方面還有改進(jìn)空間。未來的研究可能會探索更先進(jìn)的模型架構(gòu)、更多樣化的數(shù)據(jù)集和更有效的訓(xùn)練策略,進(jìn)一步縮小這一差距。

總的來說,ImgEdit代表了圖像編輯領(lǐng)域的一個重要里程碑,為建立更強(qiáng)大、更易用的圖像編輯系統(tǒng)奠定了基礎(chǔ)。隨著技術(shù)的不斷發(fā)展,我們可以期待在不久的將來看到更加智能、直觀和強(qiáng)大的圖像編輯工具出現(xiàn),使創(chuàng)意表達(dá)變得更加容易和有趣。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-