在數(shù)字圖像處理領(lǐng)域,一項(xiàng)重大突破正在改變我們修改圖像的方式。新加坡國(guó)立大學(xué)的Yujia Hu、Songhua Liu、Zhenxiong Tan、Xingyi Yang和Xinchao Wang教授團(tuán)隊(duì)于2025年6月發(fā)表了一篇題為《Image Editing As Programs with Diffusion Models》(圖像編輯即程序與擴(kuò)散模型)的研究論文,該論文已提交至arXiv預(yù)印本平臺(tái)(arXiv:2506.04158v1)。這項(xiàng)研究提出了一種創(chuàng)新的圖像編輯框架,通過(guò)將復(fù)雜的編輯指令分解為簡(jiǎn)單的原子操作序列,實(shí)現(xiàn)了更精確、更靈活的圖像編輯效果。
想象一下,你是否曾經(jīng)嘗試過(guò)用AI工具編輯圖片,卻發(fā)現(xiàn)它在處理簡(jiǎn)單修改(如改變顏色)時(shí)表現(xiàn)出色,但在涉及添加物體、移動(dòng)元素位置等復(fù)雜編輯時(shí)卻常常失?。窟@正是當(dāng)前圖像編輯技術(shù)面臨的核心挑戰(zhàn),而新加坡研究團(tuán)隊(duì)提出的IEAP(Image Editing As Programs,圖像編輯即程序)框架旨在解決這一問(wèn)題。
研究團(tuán)隊(duì)首先發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)前基于擴(kuò)散變換器(Diffusion Transformer,簡(jiǎn)稱DiT)的圖像編輯模型在處理不改變圖像布局的簡(jiǎn)單編輯任務(wù)(如改變顏色、風(fēng)格)時(shí)表現(xiàn)出色,但在需要改變圖像結(jié)構(gòu)的任務(wù)(如添加、刪除或移動(dòng)物體)時(shí)效果卻大打折扣。這就像是一位廚師擅長(zhǎng)調(diào)整菜肴的調(diào)味和裝飾,卻不善于改變菜品的主要成分或結(jié)構(gòu)。
基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案:將復(fù)雜的編輯指令分解為一系列基礎(chǔ)操作(稱為"原子操作"),然后按順序執(zhí)行這些操作。這有點(diǎn)像把一個(gè)復(fù)雜的烹飪食譜分解為一系列簡(jiǎn)單的步驟:先準(zhǔn)備材料,再切菜,然后炒制,最后調(diào)味。在IEAP框架中,研究者定義了五種基本的原子操作:
首先是"感興趣區(qū)域定位",這相當(dāng)于確定你要在圖像的哪個(gè)部分進(jìn)行修改,就像廚師決定要修改菜品中的哪一部分。其次是"感興趣區(qū)域修補(bǔ)",用于在選定區(qū)域添加新內(nèi)容或移除現(xiàn)有內(nèi)容,相當(dāng)于在菜品中添加或移除某種食材。第三步是"感興趣區(qū)域編輯",用于修改區(qū)域內(nèi)的視覺(jué)屬性(如顏色、紋理等),就像調(diào)整食材的烹飪方式或調(diào)味。第四步是"感興趣區(qū)域合成",將編輯后的區(qū)域與原圖融合,確保過(guò)渡自然,就像確保新添加的食材與整道菜的風(fēng)味協(xié)調(diào)一致。最后是"全局轉(zhuǎn)換",用于調(diào)整整個(gè)圖像的內(nèi)容,如改變照明、天氣或風(fēng)格,相當(dāng)于調(diào)整整個(gè)菜品的最終呈現(xiàn)效果。
這種方法的巧妙之處在于,它利用了"思維鏈"(Chain-of-Thought,簡(jiǎn)稱CoT)推理技術(shù),通過(guò)一個(gè)視覺(jué)-語(yǔ)言模型(VLM)智能代理來(lái)分析用戶的指令,并將其轉(zhuǎn)化為一系列原子操作的執(zhí)行計(jì)劃。就像一位經(jīng)驗(yàn)豐富的廚師主管,能夠?qū)㈩櫩偷膹?fù)雜要求("我想要一道帶有輕微煙熏味、口感鮮嫩多汁的牛排")轉(zhuǎn)化為廚房團(tuán)隊(duì)可以執(zhí)行的具體步驟。
舉個(gè)例子,當(dāng)用戶提出"把這位女士放在秋天的森林里,她穿著白色連衣裙,旁邊有一只狐貍"這樣的復(fù)雜要求時(shí),IEAP系統(tǒng)會(huì)自動(dòng)將其分解為:1)將背景更改為森林;2)讓女士穿上白色連衣裙;3)在女士旁邊添加一只狐貍;4)將時(shí)間改為秋天。然后,系統(tǒng)會(huì)按順序執(zhí)行這些操作,每一步都由專門(mén)的模型負(fù)責(zé)處理。
研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試中評(píng)估了IEAP框架的性能,包括MagicBrush測(cè)試集和AnyEdit測(cè)試集。結(jié)果顯示,IEAP在各種編輯場(chǎng)景中都大幅超越了現(xiàn)有的最先進(jìn)方法,特別是在處理復(fù)雜的多步驟指令時(shí)。例如,在AnyEdit測(cè)試集上,IEAP的GPT-4o評(píng)分達(dá)到4.41分(滿分5分),而現(xiàn)有最佳方法ICEdit僅獲得4.13分。
更重要的是,IEAP在處理結(jié)構(gòu)性不一致的編輯任務(wù)(如添加、移除、替換物體等)時(shí)表現(xiàn)尤為出色。在"本地語(yǔ)義編輯"測(cè)試中,IEAP的CLIPimg得分達(dá)到0.907,而ICEdit僅為0.881。這說(shuō)明IEAP生成的圖像不僅更符合用戶指令,還保持了更高的語(yǔ)義一致性和視覺(jué)質(zhì)量。
研究團(tuán)隊(duì)還將IEAP與一些頂級(jí)的多模態(tài)模型進(jìn)行了比較,包括SeedEdit(Doubao)、Gemini 2.0 Flash和GPT-4o。結(jié)果表明,IEAP在處理復(fù)雜指令方面的表現(xiàn)可以媲美甚至超越這些閉源的商業(yè)模型。與競(jìng)爭(zhēng)對(duì)手相比,IEAP能夠更忠實(shí)地執(zhí)行每一條指令,同時(shí)保持更好的圖像一致性和實(shí)例保留。
當(dāng)然,IEAP也存在一些局限性。例如,在處理復(fù)雜陰影變化時(shí),它有時(shí)會(huì)在合成操作后留下不一致的陰影。此外,多次編輯迭代可能會(huì)導(dǎo)致圖像質(zhì)量逐漸下降。研究團(tuán)隊(duì)計(jì)劃在未來(lái)的工作中通過(guò)物理感知陰影建模和基于擴(kuò)散的質(zhì)量恢復(fù)技術(shù)來(lái)解決這些問(wèn)題。
模塊化的方法不僅提高了編輯效果,還增強(qiáng)了整個(gè)過(guò)程的可解釋性和可控性。就像一位透明工作的廚師,不僅告訴你最終的菜品是什么,還讓你了解每一步的烹飪過(guò)程和添加的食材。這使得用戶可以更好地理解和控制編輯過(guò)程,也為未來(lái)的研究和應(yīng)用提供了更多可能性。
總的來(lái)說(shuō),IEAP框架代表了圖像編輯領(lǐng)域的一個(gè)重要進(jìn)步,它通過(guò)將復(fù)雜問(wèn)題分解為簡(jiǎn)單步驟,解決了當(dāng)前技術(shù)在處理結(jié)構(gòu)性編輯時(shí)的局限。這種"編輯即程序"的思路不僅適用于圖像編輯,也可能為其他領(lǐng)域的復(fù)雜任務(wù)分解提供啟發(fā)。無(wú)論是專業(yè)設(shè)計(jì)師還是普通用戶,都可以從這種更精確、更靈活的圖像編輯方式中受益。
如果你對(duì)這項(xiàng)研究感興趣,可以通過(guò)arXiv:2506.04158v1查看完整論文,研究團(tuán)隊(duì)也表示將在GitHub上開(kāi)源相關(guān)代碼,讓更多人能夠體驗(yàn)和應(yīng)用這一創(chuàng)新技術(shù)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。