av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) MARBLE:CLIP空間中的材質(zhì)重組與混合——牛津大學(xué)、MIT和Stability AI聯(lián)合打造的智能圖像材質(zhì)編輯技術(shù)

MARBLE:CLIP空間中的材質(zhì)重組與混合——牛津大學(xué)、MIT和Stability AI聯(lián)合打造的智能圖像材質(zhì)編輯技術(shù)

2025-06-10 09:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 09:24 ? 科技行者

在我們?nèi)粘g覽的圖片中,物體表面的材質(zhì)往往決定了整個(gè)畫面的視覺效果和氛圍。想象一下,如果能隨心所欲地將一張照片中的青銅雕像變成木質(zhì)、金屬甚至透明玻璃,或者精確控制物體的粗糙度、金屬感和透明度,會(huì)為創(chuàng)意表達(dá)帶來多大的可能性!這正是來自牛津大學(xué)、麻省理工學(xué)院和Stability AI的研究團(tuán)隊(duì)最新成果《MARBLE: Material Recomposition and Blending in CLIP-Space》(材質(zhì)重組與CLIP空間混合)所實(shí)現(xiàn)的突破。該研究于2025年6月發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2506.05313v1),由牛津大學(xué)的Ta Ying Cheng、MIT CSAIL的Prafull Sharma以及Stability AI的Mark Boss和Varun Jampani共同完成。

在計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域,根據(jù)示例圖像編輯物體材質(zhì)一直是一個(gè)活躍的研究方向。然而,傳統(tǒng)的圖形學(xué)方法需要理解物體幾何形狀、材質(zhì)屬性和環(huán)境光照等復(fù)雜信息,這在僅有單張圖像的情況下極具挑戰(zhàn)性。以往的材質(zhì)編輯方法往往使用物體幾何和環(huán)境光照的粗略近似,導(dǎo)致非真實(shí)的編輯效果,且材質(zhì)編輯選項(xiàng)有限。

MARBLE團(tuán)隊(duì)提出了一種全新的思路:他們發(fā)現(xiàn),通過操控CLIP空間(一種由OpenAI開發(fā)的用于連接圖像和文本的特征空間)中的材質(zhì)表征,并將其注入到預(yù)訓(xùn)練的文生圖模型中,可以實(shí)現(xiàn)令人驚嘆的材質(zhì)編輯效果。這種方法無需顯式估計(jì)物體和環(huán)境屬性,而是直接利用預(yù)訓(xùn)練擴(kuò)散模型中隱含的這些知識(shí),繞過了傳統(tǒng)方法中最困難的環(huán)節(jié)。

一、MARBLE的關(guān)鍵創(chuàng)新:精準(zhǔn)材質(zhì)控制與混合

在過去的研究中,已經(jīng)有作品如Alchemist和ZeST展示了使用擴(kuò)散模型進(jìn)行圖像材質(zhì)編輯的可能性。ZeST提出了一種零樣本技術(shù),可以將示例圖像中的物體材質(zhì)轉(zhuǎn)移到目標(biāo)圖像中的物體上,但它僅限于高級(jí)材質(zhì)變化,無法精細(xì)控制材質(zhì)屬性。另一方面,Alchemist提出了對(duì)Stable Diffusion進(jìn)行監(jiān)督微調(diào),以實(shí)現(xiàn)對(duì)粗糙度、透明度等材質(zhì)屬性的精細(xì)控制,但這種微調(diào)可能導(dǎo)致模型過擬合于訓(xùn)練數(shù)據(jù),從而破壞這些模型中寶貴的物體先驗(yàn)知識(shí)。

MARBLE的關(guān)鍵創(chuàng)新在于,它能夠執(zhí)行多樣化的材質(zhì)編輯任務(wù)——從使用示例圖像進(jìn)行粗粒度材質(zhì)轉(zhuǎn)移,到精確控制材質(zhì)的細(xì)微屬性,同時(shí)保留基礎(chǔ)擴(kuò)散模型的先驗(yàn)知識(shí)。研究團(tuán)隊(duì)保持圖像擴(kuò)散模型不變,而是通過操控注入擴(kuò)散模型的CLIP圖像特征來實(shí)現(xiàn)材質(zhì)編輯。

想象CLIP特征空間就像一個(gè)包含各種物體屬性(如語(yǔ)義、幾何形狀和材質(zhì))的多維畫布。研究人員驚訝地發(fā)現(xiàn),僅通過在這個(gè)特征空間中的巧妙移動(dòng),就能實(shí)現(xiàn)驚人的材質(zhì)編輯效果。他們的方法MARBLE(材質(zhì)重組與CLIP空間混合)能夠完成從使用示例圖像進(jìn)行材質(zhì)轉(zhuǎn)移或混合多個(gè)物體材質(zhì)(如將青銅和木材特性融合),到精細(xì)控制金屬感、透明度等屬性的各種編輯任務(wù)。

二、技術(shù)原理:目標(biāo)材質(zhì)區(qū)塊注入與特征空間導(dǎo)航

實(shí)現(xiàn)這種多樣化的材質(zhì)編輯并非易事,因?yàn)镃LIP特征捕獲了物體的所有屬性,不僅僅是材質(zhì)。研究團(tuán)隊(duì)以ZeST架構(gòu)為基礎(chǔ),并進(jìn)行了重要的改進(jìn)。ZeST使用IP-Adapter將CLIP特征注入擴(kuò)散模型,同時(shí)采用色彩無關(guān)的修復(fù)技術(shù),將示例圖像中的材質(zhì)轉(zhuǎn)移到目標(biāo)物體圖像上。

通過系統(tǒng)的實(shí)驗(yàn),研究人員在Stable Diffusion中發(fā)現(xiàn)了一個(gè)對(duì)物體材質(zhì)特別敏感的U-Net區(qū)塊。與其將材質(zhì)嵌入注入擴(kuò)散模型的所有注意力層,他們選擇只向這個(gè)特定區(qū)塊注入信息,大大改善了材質(zhì)轉(zhuǎn)移效果,同時(shí)更好地保留了物體的幾何形狀和光照特性。這一修改架構(gòu)成為了兩種材質(zhì)編輯變體的基礎(chǔ)。

第一種變體是材質(zhì)混合。研究團(tuán)隊(duì)發(fā)現(xiàn),在CLIP空間中插值兩個(gè)材質(zhì)示例的特征,可以創(chuàng)建介于兩者之間的混合材質(zhì)。這就像在調(diào)色板上混合顏色,但操作的是材質(zhì)的數(shù)字表示。令人驚訝的是,這種混合可以在三種不同的配置下工作:完全不同的物體和材質(zhì)之間、相同基礎(chǔ)材質(zhì)但單一屬性變化的不同物體之間,甚至是同一物體同一材質(zhì)但單一屬性變化的情況下。

第三種變體是精細(xì)材質(zhì)屬性的參數(shù)控制。研究團(tuán)隊(duì)使用合成數(shù)據(jù)訓(xùn)練了輕量級(jí)的多層感知機(jī)(MLP)網(wǎng)絡(luò),這些網(wǎng)絡(luò)能夠預(yù)測(cè)CLIP空間中用于改變特定材質(zhì)屬性的方向。想象這些網(wǎng)絡(luò)就像在CLIP空間的多維地圖上繪制了指向"更多金屬感"、"更加透明"等方向的箭頭。通過沿著這些方向移動(dòng)CLIP特征,可以實(shí)現(xiàn)對(duì)材質(zhì)屬性的精細(xì)控制。

三、實(shí)驗(yàn)結(jié)果與應(yīng)用案例展示

研究團(tuán)隊(duì)提供了廣泛的實(shí)驗(yàn)分析和結(jié)果,展示了MARBLE在各種應(yīng)用上的表現(xiàn)。在材質(zhì)混合方面,他們展示了將雕像從青銅逐漸過渡到木材的連續(xù)變化效果。在參數(shù)控制方面,他們展示了對(duì)粗糙度、金屬感、透明度和發(fā)光度的精確調(diào)整。

與其他圖像/材質(zhì)編輯方法相比,MARBLE在定性和定量分析中都表現(xiàn)出明顯的優(yōu)勢(shì)。由于保持基礎(chǔ)擴(kuò)散模型不變,使用基于著色器的合成數(shù)據(jù)集學(xué)習(xí)的編輯方向可以泛化到各種圖像風(fēng)格,包括動(dòng)漫和繪畫。

研究團(tuán)隊(duì)還展示了在一次前向傳遞中執(zhí)行多項(xiàng)編輯的能力。例如,他們展示了如何同時(shí)控制一輛玩具車材質(zhì)的金屬感和粗糙度,每個(gè)屬性都能獨(dú)立調(diào)整,且不會(huì)相互干擾。此外,通過利用CLIP的泛化能力,MARBLE也能在各種風(fēng)格的圖像上實(shí)現(xiàn)參數(shù)控制,如在保持梵高風(fēng)格或霓虹賽博朋克風(fēng)格的同時(shí)調(diào)整茶壺的透明度或粗糙度。

研究人員還進(jìn)行了一項(xiàng)有趣的探索:訓(xùn)練數(shù)據(jù)集可以有多?。苛钊梭@訝的是,他們發(fā)現(xiàn),使用僅僅16個(gè)物體的數(shù)據(jù)集訓(xùn)練就能達(dá)到與使用完整數(shù)據(jù)集相近的效果,這表明該方法在數(shù)據(jù)效率上表現(xiàn)優(yōu)異。

在用戶研究中,87.5%的參與者選擇了MARBLE生成的圖像,這進(jìn)一步證明了該方法在真實(shí)世界圖像上的有效性。與基于圖像的概念滑塊相比,MARBLE在所有指標(biāo)和所有屬性上都表現(xiàn)更好,包括PSNR(峰值信噪比)、LPIPS(感知圖像相似度)、CLIP分?jǐn)?shù)和DreamSim。

四、局限性與未來方向

盡管MARBLE取得了令人印象深刻的成果,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了兩個(gè)主要局限性。首先,參數(shù)控制有時(shí)會(huì)改變物體的紋理圖案,例如增加粗糙度時(shí)皮革背包側(cè)面的圖案會(huì)發(fā)生變化。其次,當(dāng)模型預(yù)期不會(huì)產(chǎn)生變化時(shí)(如增加已經(jīng)是玻璃的物體的透明度),控制效果可能會(huì)導(dǎo)致不必要的偽影。這些偽影和高頻細(xì)節(jié)的丟失可能是由多種原因造成的,如上下文圖像潛在空間中添加的噪聲模式、在嘈雜的CLIP空間中的操作,或SDXL編碼-解碼過程中的信息損失。

總的來說,MARBLE代表了使用CLIP空間進(jìn)行圖像材質(zhì)編輯的一個(gè)令人興奮的方向,揭示了CLIP空間表示用于低級(jí)受控編輯的優(yōu)勢(shì)。它不僅提供了一種在不改變預(yù)訓(xùn)練模型的情況下實(shí)現(xiàn)多樣化材質(zhì)編輯的方法,還為未來探索基于CLIP的材質(zhì)和風(fēng)格控制開辟了新的道路。

對(duì)于設(shè)計(jì)師、內(nèi)容創(chuàng)作者和普通用戶來說,MARBLE提供了前所未有的材質(zhì)編輯靈活性,從粗粒度的材質(zhì)變換到精細(xì)的屬性調(diào)整,一切都可以在一個(gè)統(tǒng)一的框架中實(shí)現(xiàn)。無論是想要為產(chǎn)品創(chuàng)建不同材質(zhì)的變體,還是為藝術(shù)作品添加特定的視覺效果,MARBLE都提供了一種直觀而強(qiáng)大的工具,讓材質(zhì)編輯變得更加直觀和可控。

對(duì)于有興趣深入了解這項(xiàng)研究的讀者,可以通過項(xiàng)目網(wǎng)頁(yè)https://marblecontrol.github.io/訪問更多信息和演示視頻。這項(xiàng)研究不僅推動(dòng)了計(jì)算機(jī)圖形學(xué)和視覺的邊界,也為創(chuàng)意產(chǎn)業(yè)提供了強(qiáng)大的新工具,讓材質(zhì)編輯的魔力觸手可及。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-