在我們?nèi)粘g覽的圖片中,物體表面的材質(zhì)往往決定了整個(gè)畫面的視覺效果和氛圍。想象一下,如果能隨心所欲地將一張照片中的青銅雕像變成木質(zhì)、金屬甚至透明玻璃,或者精確控制物體的粗糙度、金屬感和透明度,會(huì)為創(chuàng)意表達(dá)帶來多大的可能性!這正是來自牛津大學(xué)、麻省理工學(xué)院和Stability AI的研究團(tuán)隊(duì)最新成果《MARBLE: Material Recomposition and Blending in CLIP-Space》(材質(zhì)重組與CLIP空間混合)所實(shí)現(xiàn)的突破。該研究于2025年6月發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2506.05313v1),由牛津大學(xué)的Ta Ying Cheng、MIT CSAIL的Prafull Sharma以及Stability AI的Mark Boss和Varun Jampani共同完成。
在計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域,根據(jù)示例圖像編輯物體材質(zhì)一直是一個(gè)活躍的研究方向。然而,傳統(tǒng)的圖形學(xué)方法需要理解物體幾何形狀、材質(zhì)屬性和環(huán)境光照等復(fù)雜信息,這在僅有單張圖像的情況下極具挑戰(zhàn)性。以往的材質(zhì)編輯方法往往使用物體幾何和環(huán)境光照的粗略近似,導(dǎo)致非真實(shí)的編輯效果,且材質(zhì)編輯選項(xiàng)有限。
MARBLE團(tuán)隊(duì)提出了一種全新的思路:他們發(fā)現(xiàn),通過操控CLIP空間(一種由OpenAI開發(fā)的用于連接圖像和文本的特征空間)中的材質(zhì)表征,并將其注入到預(yù)訓(xùn)練的文生圖模型中,可以實(shí)現(xiàn)令人驚嘆的材質(zhì)編輯效果。這種方法無需顯式估計(jì)物體和環(huán)境屬性,而是直接利用預(yù)訓(xùn)練擴(kuò)散模型中隱含的這些知識(shí),繞過了傳統(tǒng)方法中最困難的環(huán)節(jié)。
一、MARBLE的關(guān)鍵創(chuàng)新:精準(zhǔn)材質(zhì)控制與混合
在過去的研究中,已經(jīng)有作品如Alchemist和ZeST展示了使用擴(kuò)散模型進(jìn)行圖像材質(zhì)編輯的可能性。ZeST提出了一種零樣本技術(shù),可以將示例圖像中的物體材質(zhì)轉(zhuǎn)移到目標(biāo)圖像中的物體上,但它僅限于高級(jí)材質(zhì)變化,無法精細(xì)控制材質(zhì)屬性。另一方面,Alchemist提出了對(duì)Stable Diffusion進(jìn)行監(jiān)督微調(diào),以實(shí)現(xiàn)對(duì)粗糙度、透明度等材質(zhì)屬性的精細(xì)控制,但這種微調(diào)可能導(dǎo)致模型過擬合于訓(xùn)練數(shù)據(jù),從而破壞這些模型中寶貴的物體先驗(yàn)知識(shí)。
MARBLE的關(guān)鍵創(chuàng)新在于,它能夠執(zhí)行多樣化的材質(zhì)編輯任務(wù)——從使用示例圖像進(jìn)行粗粒度材質(zhì)轉(zhuǎn)移,到精確控制材質(zhì)的細(xì)微屬性,同時(shí)保留基礎(chǔ)擴(kuò)散模型的先驗(yàn)知識(shí)。研究團(tuán)隊(duì)保持圖像擴(kuò)散模型不變,而是通過操控注入擴(kuò)散模型的CLIP圖像特征來實(shí)現(xiàn)材質(zhì)編輯。
想象CLIP特征空間就像一個(gè)包含各種物體屬性(如語(yǔ)義、幾何形狀和材質(zhì))的多維畫布。研究人員驚訝地發(fā)現(xiàn),僅通過在這個(gè)特征空間中的巧妙移動(dòng),就能實(shí)現(xiàn)驚人的材質(zhì)編輯效果。他們的方法MARBLE(材質(zhì)重組與CLIP空間混合)能夠完成從使用示例圖像進(jìn)行材質(zhì)轉(zhuǎn)移或混合多個(gè)物體材質(zhì)(如將青銅和木材特性融合),到精細(xì)控制金屬感、透明度等屬性的各種編輯任務(wù)。
二、技術(shù)原理:目標(biāo)材質(zhì)區(qū)塊注入與特征空間導(dǎo)航
實(shí)現(xiàn)這種多樣化的材質(zhì)編輯并非易事,因?yàn)镃LIP特征捕獲了物體的所有屬性,不僅僅是材質(zhì)。研究團(tuán)隊(duì)以ZeST架構(gòu)為基礎(chǔ),并進(jìn)行了重要的改進(jìn)。ZeST使用IP-Adapter將CLIP特征注入擴(kuò)散模型,同時(shí)采用色彩無關(guān)的修復(fù)技術(shù),將示例圖像中的材質(zhì)轉(zhuǎn)移到目標(biāo)物體圖像上。
通過系統(tǒng)的實(shí)驗(yàn),研究人員在Stable Diffusion中發(fā)現(xiàn)了一個(gè)對(duì)物體材質(zhì)特別敏感的U-Net區(qū)塊。與其將材質(zhì)嵌入注入擴(kuò)散模型的所有注意力層,他們選擇只向這個(gè)特定區(qū)塊注入信息,大大改善了材質(zhì)轉(zhuǎn)移效果,同時(shí)更好地保留了物體的幾何形狀和光照特性。這一修改架構(gòu)成為了兩種材質(zhì)編輯變體的基礎(chǔ)。
第一種變體是材質(zhì)混合。研究團(tuán)隊(duì)發(fā)現(xiàn),在CLIP空間中插值兩個(gè)材質(zhì)示例的特征,可以創(chuàng)建介于兩者之間的混合材質(zhì)。這就像在調(diào)色板上混合顏色,但操作的是材質(zhì)的數(shù)字表示。令人驚訝的是,這種混合可以在三種不同的配置下工作:完全不同的物體和材質(zhì)之間、相同基礎(chǔ)材質(zhì)但單一屬性變化的不同物體之間,甚至是同一物體同一材質(zhì)但單一屬性變化的情況下。
第三種變體是精細(xì)材質(zhì)屬性的參數(shù)控制。研究團(tuán)隊(duì)使用合成數(shù)據(jù)訓(xùn)練了輕量級(jí)的多層感知機(jī)(MLP)網(wǎng)絡(luò),這些網(wǎng)絡(luò)能夠預(yù)測(cè)CLIP空間中用于改變特定材質(zhì)屬性的方向。想象這些網(wǎng)絡(luò)就像在CLIP空間的多維地圖上繪制了指向"更多金屬感"、"更加透明"等方向的箭頭。通過沿著這些方向移動(dòng)CLIP特征,可以實(shí)現(xiàn)對(duì)材質(zhì)屬性的精細(xì)控制。
三、實(shí)驗(yàn)結(jié)果與應(yīng)用案例展示
研究團(tuán)隊(duì)提供了廣泛的實(shí)驗(yàn)分析和結(jié)果,展示了MARBLE在各種應(yīng)用上的表現(xiàn)。在材質(zhì)混合方面,他們展示了將雕像從青銅逐漸過渡到木材的連續(xù)變化效果。在參數(shù)控制方面,他們展示了對(duì)粗糙度、金屬感、透明度和發(fā)光度的精確調(diào)整。
與其他圖像/材質(zhì)編輯方法相比,MARBLE在定性和定量分析中都表現(xiàn)出明顯的優(yōu)勢(shì)。由于保持基礎(chǔ)擴(kuò)散模型不變,使用基于著色器的合成數(shù)據(jù)集學(xué)習(xí)的編輯方向可以泛化到各種圖像風(fēng)格,包括動(dòng)漫和繪畫。
研究團(tuán)隊(duì)還展示了在一次前向傳遞中執(zhí)行多項(xiàng)編輯的能力。例如,他們展示了如何同時(shí)控制一輛玩具車材質(zhì)的金屬感和粗糙度,每個(gè)屬性都能獨(dú)立調(diào)整,且不會(huì)相互干擾。此外,通過利用CLIP的泛化能力,MARBLE也能在各種風(fēng)格的圖像上實(shí)現(xiàn)參數(shù)控制,如在保持梵高風(fēng)格或霓虹賽博朋克風(fēng)格的同時(shí)調(diào)整茶壺的透明度或粗糙度。
研究人員還進(jìn)行了一項(xiàng)有趣的探索:訓(xùn)練數(shù)據(jù)集可以有多?。苛钊梭@訝的是,他們發(fā)現(xiàn),使用僅僅16個(gè)物體的數(shù)據(jù)集訓(xùn)練就能達(dá)到與使用完整數(shù)據(jù)集相近的效果,這表明該方法在數(shù)據(jù)效率上表現(xiàn)優(yōu)異。
在用戶研究中,87.5%的參與者選擇了MARBLE生成的圖像,這進(jìn)一步證明了該方法在真實(shí)世界圖像上的有效性。與基于圖像的概念滑塊相比,MARBLE在所有指標(biāo)和所有屬性上都表現(xiàn)更好,包括PSNR(峰值信噪比)、LPIPS(感知圖像相似度)、CLIP分?jǐn)?shù)和DreamSim。
四、局限性與未來方向
盡管MARBLE取得了令人印象深刻的成果,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了兩個(gè)主要局限性。首先,參數(shù)控制有時(shí)會(huì)改變物體的紋理圖案,例如增加粗糙度時(shí)皮革背包側(cè)面的圖案會(huì)發(fā)生變化。其次,當(dāng)模型預(yù)期不會(huì)產(chǎn)生變化時(shí)(如增加已經(jīng)是玻璃的物體的透明度),控制效果可能會(huì)導(dǎo)致不必要的偽影。這些偽影和高頻細(xì)節(jié)的丟失可能是由多種原因造成的,如上下文圖像潛在空間中添加的噪聲模式、在嘈雜的CLIP空間中的操作,或SDXL編碼-解碼過程中的信息損失。
總的來說,MARBLE代表了使用CLIP空間進(jìn)行圖像材質(zhì)編輯的一個(gè)令人興奮的方向,揭示了CLIP空間表示用于低級(jí)受控編輯的優(yōu)勢(shì)。它不僅提供了一種在不改變預(yù)訓(xùn)練模型的情況下實(shí)現(xiàn)多樣化材質(zhì)編輯的方法,還為未來探索基于CLIP的材質(zhì)和風(fēng)格控制開辟了新的道路。
對(duì)于設(shè)計(jì)師、內(nèi)容創(chuàng)作者和普通用戶來說,MARBLE提供了前所未有的材質(zhì)編輯靈活性,從粗粒度的材質(zhì)變換到精細(xì)的屬性調(diào)整,一切都可以在一個(gè)統(tǒng)一的框架中實(shí)現(xiàn)。無論是想要為產(chǎn)品創(chuàng)建不同材質(zhì)的變體,還是為藝術(shù)作品添加特定的視覺效果,MARBLE都提供了一種直觀而強(qiáng)大的工具,讓材質(zhì)編輯變得更加直觀和可控。
對(duì)于有興趣深入了解這項(xiàng)研究的讀者,可以通過項(xiàng)目網(wǎng)頁(yè)https://marblecontrol.github.io/訪問更多信息和演示視頻。這項(xiàng)研究不僅推動(dòng)了計(jì)算機(jī)圖形學(xué)和視覺的邊界,也為創(chuàng)意產(chǎn)業(yè)提供了強(qiáng)大的新工具,讓材質(zhì)編輯的魔力觸手可及。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。