av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<button id="4idec"><mark id="4idec"></mark></button>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

ImgEdit：北京大學(xué)與兔小貝AI聯(lián)合推出的統(tǒng)一圖像編輯數(shù)據(jù)集與基準(zhǔn)測試

圖像編輯人工智能視覺多輪交互式編輯

ImgEdit：北京大學(xué)與兔小貝AI聯(lián)合推出的統(tǒng)一圖像編輯數(shù)據(jù)集與基準(zhǔn)測試

作者：科技行者

2025-05-31 10:05

分享至：

ImgEdit是北京大學(xué)與兔小貝AI聯(lián)合推出的圖像編輯框架，解決了開源編輯模型落后于商業(yè)產(chǎn)品的問題。該框架包含120萬對高質(zhì)量編輯圖像對，涵蓋13種編輯類型和11萬個多輪交互樣本。通過融合視覺語言模型、檢測模型和分割模型的多階段流程，ImgEdit確保了數(shù)據(jù)的高質(zhì)量性。研究團(tuán)隊基于此數(shù)據(jù)集訓(xùn)練了ImgEdit-E1模型，并提出ImgEdit-Bench評估基準(zhǔn)，從指令遵循、編輯質(zhì)量和細(xì)節(jié)保留三個維度全面評估模型性能。實驗結(jié)果顯示，ImgEdit-E1在多個任務(wù)上超越現(xiàn)有開源模型，推動了圖像編輯技術(shù)的進(jìn)步。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-31 10:05 ? 科技行者

這項由北京大學(xué)深圳研究生院和兔小貝AI聯(lián)合完成的研究，由楊葉、賀賢毅、李宗劍、林斌、袁盛海、嚴(yán)志遠(yuǎn)、侯博瀚和袁勵等人共同發(fā)表于2025年5月26日的arXiv預(yù)印本（arXiv:2505.20275v1）。該研究的源代碼和數(shù)據(jù)集已在GitHub上公開：https://github.com/PKU-YuanGroup/ImgEdit。

為什么我們需要更好的圖像編輯技術(shù)？

想象一下，你拍了一張完美的家庭照片，但背景中出現(xiàn)了一位陌生人；或者你想把照片中穿著藍(lán)色襯衫的自己"換裝"成紅色；又或者你想把照片中的雪山背景換成海灘。這些都是我們?nèi)粘Ｉ钪锌赡苊媾R的圖像編輯需求。

近年來，人工智能在文本生成圖像方面取得了驚人的進(jìn)步，各種AI模型可以根據(jù)文字描述創(chuàng)建令人驚嘆的圖像。但是，當(dāng)談到編輯現(xiàn)有圖像時，情況就不那么樂觀了。特別是開源的圖像編輯模型，它們的表現(xiàn)遠(yuǎn)遠(yuǎn)落后于那些閉源的商業(yè)產(chǎn)品，如OpenAI的GPT-4o和Google的Gemini-2.0。這種差距主要源于兩個問題：缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)和缺乏全面的評估基準(zhǔn)。

就像一位廚師需要優(yōu)質(zhì)的食材和精準(zhǔn)的食譜才能烹飪出美味佳肴，AI模型也需要高質(zhì)量的數(shù)據(jù)和科學(xué)的評估方法才能表現(xiàn)出色。北京大學(xué)和兔小貝AI的研究團(tuán)隊正是針對這一問題，提出了ImgEdit——一個統(tǒng)一的圖像編輯框架，包含高質(zhì)量數(shù)據(jù)集、先進(jìn)編輯模型和全面評估基準(zhǔn)。

現(xiàn)有圖像編輯數(shù)據(jù)集存在哪些問題？

在深入了解ImgEdit之前，我們先來看看現(xiàn)有圖像編輯數(shù)據(jù)集面臨的三大主要挑戰(zhàn)：

首先是數(shù)據(jù)質(zhì)量和提示設(shè)計不佳。想象你在學(xué)習(xí)一門新語言，但教材充滿錯誤且解釋混亂，這會極大影響你的學(xué)習(xí)效果?，F(xiàn)有的數(shù)據(jù)集收集流程通常從低分辨率圖像開始，使用開源大語言模型生成可能包含知識偏見的提示，并使用低保真算法合成編輯后的圖像對。這就像用劣質(zhì)食材和不精確的食譜嘗試做一道復(fù)雜的菜肴，結(jié)果可想而知。

其次是對復(fù)雜編輯任務(wù)的支持不足?，F(xiàn)有數(shù)據(jù)集很少包含需要保持身份一致性的編輯類型（例如虛擬試穿），或者同時操作多個對象，或者跨多輪交互的編輯任務(wù)。這就像一本烹飪書只教你做簡單的炒雞蛋，卻不告訴你如何準(zhǔn)備一頓多道菜的正式晚餐。

第三是評估方法的局限性?，F(xiàn)有的評估框架缺乏多樣化或合理的評估維度，沒有根據(jù)任務(wù)難度進(jìn)行分層，過于強(qiáng)調(diào)編輯類別的數(shù)量，而對評估維度或測量準(zhǔn)確性的關(guān)注不足。這就像評價一道菜僅僅看它的外觀，而忽略了味道、香氣和營養(yǎng)價值。

ImgEdit如何解決這些問題？

ImgEdit框架包含四個核心組件：自動化數(shù)據(jù)構(gòu)建流程、大規(guī)模編輯數(shù)據(jù)集、先進(jìn)的編輯模型以及全面的評估基準(zhǔn)。讓我們一一了解這些組件如何協(xié)同工作，就像一個精心設(shè)計的廚房系統(tǒng)，從食材采購到烹飪技巧再到品鑒標(biāo)準(zhǔn)，形成一個完整的美食創(chuàng)作流程。

### 高質(zhì)量數(shù)據(jù)集的自動化構(gòu)建流程

首先，研究團(tuán)隊開發(fā)了一個自動化流程來保證數(shù)據(jù)質(zhì)量。這個流程就像一條精心設(shè)計的生產(chǎn)線，每一步都確保最終產(chǎn)品的質(zhì)量。

第一步是數(shù)據(jù)準(zhǔn)備。團(tuán)隊選擇了LAION-Aesthetics作為主要數(shù)據(jù)源，因為與其他數(shù)據(jù)集相比，它提供了更多樣化的場景、更高的分辨率和更全面的對象類別。他們只保留了短邊超過1280像素且美學(xué)評分高于4.75的圖像，篩選出約60萬張高質(zhì)量圖像。這就像挑選最新鮮的食材，確保烹飪的基礎(chǔ)是優(yōu)質(zhì)的。

接下來，他們使用GPT-4o生成簡潔的圖像描述，并提取可編輯的對象和背景名詞。然后，每個候選實體被一個開放詞匯檢測器定位，并使用SAM2將邊界框細(xì)化為分割掩碼。這就像廚師精確標(biāo)記每種食材的位置和用量，為后續(xù)處理做好準(zhǔn)備。

由于檢測和分割并不完美，團(tuán)隊對每個對象的掩碼進(jìn)行裁剪，計算與對象名稱的相似度和面積比例。相似度低或面積可忽略的區(qū)域被丟棄，確保剩余目標(biāo)被準(zhǔn)確識別并在視覺上足夠顯著。這就像在烹飪前去除食材中的雜質(zhì)和不新鮮的部分。

指令生成階段，團(tuán)隊為GPT-4o提供原始圖像標(biāo)題、編輯類型、邊界框和目標(biāo)對象作為條件信息。由于精確定位目標(biāo)對象對成功編輯至關(guān)重要，他們指示語言模型在編輯指令中嵌入對象的位置和大小。這就像給廚師提供詳細(xì)的烹飪步驟，包括每種調(diào)料應(yīng)該在什么時候加入，以及如何掌握火候。

在圖像處理工作流程中，團(tuán)隊選擇了最先進(jìn)的生成模型，如FLUX和SDXL作為基礎(chǔ)模型。為實現(xiàn)精確和可控的編輯，他們使用了插件如IP-Adapters、ControlNet和Canny/Depth LoRA。根據(jù)這些模型和組件，他們構(gòu)建了針對每個編輯場景的數(shù)據(jù)制作流程。這就像根據(jù)不同菜肴選擇合適的烹飪工具和方法。

在后處理階段，團(tuán)隊使用GPT-4o對每對編輯進(jìn)行精確篩選，基于特定于相應(yīng)編輯類型的提示引導(dǎo)評分標(biāo)準(zhǔn)，為每對提供詳細(xì)分?jǐn)?shù)和簡短理由，使用戶能夠根據(jù)需求選擇子集。這就像專業(yè)美食評論家對成品進(jìn)行評價，提供客觀的反饋。

### ImgEdit數(shù)據(jù)集的特點(diǎn)與創(chuàng)新

通過這一精心設(shè)計的流程，ImgEdit數(shù)據(jù)集包含120萬對高質(zhì)量的圖像編輯對，覆蓋13種編輯類別，其中包括11萬個多輪示例。與現(xiàn)有數(shù)據(jù)集相比，ImgEdit提供了更豐富的語義、更詳細(xì)的提示、更高的分辨率、更準(zhǔn)確的編輯效果和整體更優(yōu)的視覺保真度。

ImgEdit數(shù)據(jù)集的單輪任務(wù)分為四類：局部編輯、全局編輯、視覺編輯和混合編輯。

局部編輯包括添加、移除、替換、改變屬性、改變動作和對象提取等操作。特別是對象提取任務(wù)（例如"將貓?zhí)崛〉桨咨尘吧?）能夠在保持身份一致性的同時將特定主體從復(fù)雜場景中分離出來，這在許多設(shè)計流程中非常有價值，目前僅在GPT-4o-image中可用。

全局編輯包括背景替換和風(fēng)格或色調(diào)轉(zhuǎn)換。視覺編輯涉及使用參考圖像編輯圖像?；旌暇庉嫲趩蝹€指令中應(yīng)用于多個對象的兩個局部編輯操作，例如"添加圍巾并將貓的毛色改為白色"。

多輪編輯任務(wù)設(shè)計為包括內(nèi)容理解、內(nèi)容記憶和版本回溯等編輯任務(wù)。內(nèi)容記憶涉及對話早期引入的全局約束，如果初始指令規(guī)定"所有生成必須具有木質(zhì)紋理"，后續(xù)輪次不需要重述此要求，但仍必須遵守。內(nèi)容理解是指解釋依賴代詞或省略主語的后續(xù)指令的能力。版本回溯表示基于編輯結(jié)果的早期版本進(jìn)行編輯的能力，例如"撤消上一次更改..."。

ImgEdit數(shù)據(jù)集的平均短邊分辨率為1280像素，遠(yuǎn)高于大多數(shù)競爭數(shù)據(jù)集。在提示多樣性方面，ImgEdit包含8.7k個獨(dú)特詞匯。為評估編輯準(zhǔn)確性，研究團(tuán)隊從每個數(shù)據(jù)集隨機(jī)抽樣1000個實例，并用GPT-4o進(jìn)行評估，ImgEdit獲得了最高分?jǐn)?shù)。

### ImgEdit-E1：基于數(shù)據(jù)集訓(xùn)練的先進(jìn)編輯模型

為驗證數(shù)據(jù)集的有效性，研究團(tuán)隊在ImgEdit上訓(xùn)練了ImgEdit-E1模型。該模型集成了視覺語言模型、視覺編碼器和Diffusion-in-Transformer骨干網(wǎng)絡(luò)。編輯指令和原始圖像被共同輸入到視覺語言模型中，同時圖像還被視覺編碼器處理。視覺語言模型的隱藏狀態(tài)和視覺編碼器的視覺特征被分別投影并連接，形成DiT的文本分支輸入。

訓(xùn)練分兩個階段進(jìn)行，首先優(yōu)化MLP，然后聯(lián)合微調(diào)FLUX和MLP。這種方法使ImgEdit-E1在多個圖像編輯任務(wù)上的表現(xiàn)超過了現(xiàn)有開源模型，突顯了ImgEdit數(shù)據(jù)集和模型設(shè)計的價值。

### ImgEdit-Bench：全面的評估基準(zhǔn)

最后，研究團(tuán)隊提出了ImgEdit-Bench，一個設(shè)計用于評估圖像編輯性能的基準(zhǔn)，從指令遵循、編輯質(zhì)量和細(xì)節(jié)保留三個維度進(jìn)行評估。它包括三個關(guān)鍵組件：

基本編輯套件測試在多種任務(wù)上的指令遵循、編輯質(zhì)量和細(xì)節(jié)保留能力；理解-定位-編輯（UGE）套件通過具有挑戰(zhàn)性的指令（如空間推理和多對象目標(biāo)）和復(fù)雜場景（如多實例布局或偽裝對象）增加任務(wù)復(fù)雜性；多輪編輯套件設(shè)計用于評估內(nèi)容理解、內(nèi)容記憶和版本回溯能力。

為促進(jìn)大規(guī)模評估，研究團(tuán)隊訓(xùn)練了ImgEdit-Judge，一個評估模型，其偏好與人類判斷密切一致，達(dá)到近70%的一致率，大幅超過原始Qwen2.5-VL。

ImgEdit的評估結(jié)果告訴我們什么？

研究團(tuán)隊對一系列圖像編輯模型進(jìn)行了全面評估，包括閉源模型GPT-4o-Image和開源模型Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix以及ImgEdit-E1。評估結(jié)果揭示了三個關(guān)鍵因素影響編輯模型性能：

指令理解能力是指模型理解編輯指令的能力，這在很大程度上取決于文本編碼器，并強(qiáng)烈影響編輯性能。使用T5或CLIP等編碼器的傳統(tǒng)模型可以處理簡單任務(wù)（如風(fēng)格轉(zhuǎn)換），但在復(fù)雜的區(qū)域特定任務(wù)上表現(xiàn)不佳。ImgEdit-E1和Step1X-Edit大幅優(yōu)于其他開源模型，強(qiáng)調(diào)了更強(qiáng)大的文本編碼器和更豐富的文本特征的重要性。

定位能力是指準(zhǔn)確識別和定位需要編輯的特定區(qū)域的能力，這取決于理解指令的能力和視覺感知能力。ImgEdit-E1在需要精確定位的任務(wù)（如屬性改變和對象提?。┥媳憩F(xiàn)優(yōu)于現(xiàn)有開源編輯模型，突顯了提示中空間信息的重要性。

編輯能力是指跨編輯操作進(jìn)行泛化的能力，主要取決于訓(xùn)練數(shù)據(jù)集的質(zhì)量、大小和多樣性。其他模型在對象提取任務(wù)上表現(xiàn)不佳，包括GPT-4o，再次確認(rèn)了全面、高質(zhì)量編輯數(shù)據(jù)集的必要性。

對于多輪任務(wù)，GPT-4o-Image和Gemini-2.0-flash展示了兩輪內(nèi)的版本回溯能力。這兩個模型都具有最小的內(nèi)容記憶和內(nèi)容理解能力，可能偶爾對某些引用產(chǎn)生誤解或難以在某些情況下保留前提?？傮w而言，這些模型對多輪編輯的支持不足。

ImgEdit如何改變圖像編輯的未來？

ImgEdit通過提供高質(zhì)量數(shù)據(jù)集、強(qiáng)大編輯方法和全面評估基準(zhǔn)，推動了圖像編輯領(lǐng)域的進(jìn)步。這項工作幫助縮小了開源方法和最先進(jìn)閉源模型之間的差距，推動了整個圖像編輯領(lǐng)域的發(fā)展。

對普通用戶而言，這意味著在不久的將來，我們可能會看到更多功能強(qiáng)大且可自由訪問的圖像編輯工具，使圖像編輯變得更加直觀、精確和高效。無論是專業(yè)設(shè)計師還是普通用戶，都能夠通過簡單的文本指令對圖像進(jìn)行精確控制，從簡單的顏色調(diào)整到復(fù)雜的多對象編輯，再到多輪交互式編輯過程。

ImgEdit的另一個重要貢獻(xiàn)是建立了評估圖像編輯模型的新標(biāo)準(zhǔn)。通過考慮指令遵循、編輯質(zhì)量和細(xì)節(jié)保留等多個維度，ImgEdit-Bench提供了一個更全面、更公平的評估框架，這對于推動技術(shù)進(jìn)步和指導(dǎo)未來研究方向至關(guān)重要。

當(dāng)然，這項研究也有其局限性。盡管ImgEdit-E1在許多任務(wù)上表現(xiàn)優(yōu)于現(xiàn)有開源模型，但與閉源模型如GPT-4o-Image相比仍有差距。這表明在數(shù)據(jù)質(zhì)量、模型架構(gòu)和訓(xùn)練方法等方面還有改進(jìn)空間。未來的研究可能會探索更先進(jìn)的模型架構(gòu)、更多樣化的數(shù)據(jù)集和更有效的訓(xùn)練策略，進(jìn)一步縮小這一差距。

總的來說，ImgEdit代表了圖像編輯領(lǐng)域的一個重要里程碑，為建立更強(qiáng)大、更易用的圖像編輯系統(tǒng)奠定了基礎(chǔ)。隨著技術(shù)的不斷發(fā)展，我們可以期待在不久的將來看到更加智能、直觀和強(qiáng)大的圖像編輯工具出現(xiàn)，使創(chuàng)意表達(dá)變得更加容易和有趣。

圖像編輯人工智能視覺多輪交互式編輯

分享至

0贊

好文章，需要你的鼓勵

推薦文章

計算機(jī)視覺
注意力機(jī)制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

這項研究提出了"高效探測"方法，解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制，該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升，在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼，推動技術(shù)普及應(yīng)用。
檢索增強(qiáng)生成
層次化分析
爭議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng)，通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架，識別不同觀點(diǎn)及其支撐證據(jù)，為科學(xué)和政治爭議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
人工智能
情感認(rèn)知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu)，在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
人工智能
多智能體強(qiáng)化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力，在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<blockquote id="ucynr"><strike id="ucynr"></strike></blockquote>

<wbr id="ucynr"></wbr>

<p id="ucynr"><mark id="ucynr"><dfn id="ucynr"></dfn></mark></p>