av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="i9oee"></blockquote>

<cite id="i9oee"><track id="i9oee"></track></cite>

^{<blockquote id="i9oee"></blockquote>}

首頁(yè)
對(duì)話(huà)創(chuàng)新
對(duì)話(huà)科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

解鎖物體組合的新時(shí)代：南方科技大學(xué)團(tuán)隊(duì)開(kāi)創(chuàng)幾何可編輯與外觀保持雙重平衡的對(duì)象組合技術(shù)

計(jì)算機(jī)視覺(jué)擴(kuò)散模型圖像合成

解鎖物體組合的新時(shí)代：南方科技大學(xué)團(tuán)隊(duì)開(kāi)創(chuàng)幾何可編輯與外觀保持雙重平衡的對(duì)象組合技術(shù)

作者：科技行者

2025-06-09 11:17

分享至：

南方科技大學(xué)林劍滿(mǎn)團(tuán)隊(duì)開(kāi)創(chuàng)性提出DGAD模型，解決通用物體組合中幾何編輯與外觀保持的雙重挑戰(zhàn)。該方法首先利用語(yǔ)義嵌入隱式捕捉物體幾何特性，再通過(guò)密集交叉注意力機(jī)制精確對(duì)齊外觀特征，成功實(shí)現(xiàn)物體在任意場(chǎng)景中的靈活編輯同時(shí)保持細(xì)節(jié)不變。實(shí)驗(yàn)表明，DGAD在編輯靈活性和外觀保真度上均優(yōu)于現(xiàn)有技術(shù)，為AR/VR內(nèi)容創(chuàng)建等應(yīng)用提供了強(qiáng)大工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-09 11:17 ? 科技行者

對(duì)于那些喜歡編輯圖像的人來(lái)說(shuō)，將一個(gè)物體自然地放入背景場(chǎng)景中一直是個(gè)難題。想象一下，你手中有一張可愛(ài)柯基犬的照片，希望將它放在客廳沙發(fā)上，但總是效果不佳：要么柯基看起來(lái)像"貼"上去的貼紙，要么角度不對(duì)，要么狗狗的毛色和特征都變了。這正是南方科技大學(xué)林劍滿(mǎn)、李昊杰、青春梅，廣東工業(yè)大學(xué)楊志景，以及中山大學(xué)林亮和陳天水等研究者在2025年5月發(fā)表的研究"Geometry-Editable and Appearance-Preserving Object Composition"（幾何可編輯和外觀保持的對(duì)象組合）所要解決的問(wèn)題。

這項(xiàng)發(fā)表于arXiv（arXiv:2505.20914v1）的研究，為通用物體組合（General Object Composition，簡(jiǎn)稱(chēng)GOC）任務(wù)提出了全新解決方案。什么是通用物體組合？簡(jiǎn)單來(lái)說(shuō)，就是將一個(gè)目標(biāo)物體（比如那只柯基）無(wú)縫地融入背景場(chǎng)景（比如你的客廳），同時(shí)確保這個(gè)物體可以按照你想要的角度和位置進(jìn)行調(diào)整，而且保持它原本的細(xì)節(jié)外觀不變。想象成是給照片中的物體一個(gè)"新家"，但不改變它的"長(zhǎng)相"。

目前的人工智能技術(shù)在物體組合方面面臨一個(gè)兩難選擇：要么能靈活編輯物體的位置和角度（稱(chēng)為"幾何可編輯性"），但物體的細(xì)節(jié)會(huì)丟失；要么能很好地保留物體的細(xì)節(jié)外觀（稱(chēng)為"外觀保持"），但位置和角度就難以靈活調(diào)整。就像你要么能隨意擺放一個(gè)積木，但它可能變成了另一種顏色；要么能保持它漂亮的原色，但只能放在固定位置。

南方科技大學(xué)的研究團(tuán)隊(duì)開(kāi)創(chuàng)性地提出了一種名為"DGAD"（Disentangled Geometry-editable and Appearance-preserving Diffusion，解耦的幾何可編輯與外觀保持?jǐn)U散模型）的方法。這個(gè)方法的獨(dú)特之處在于它將"幾何編輯"和"外觀保持"這兩個(gè)任務(wù)巧妙地分開(kāi)處理，又在正確的時(shí)機(jī)將它們結(jié)合起來(lái)。

想象DGAD就像一個(gè)專(zhuān)業(yè)的電影制作團(tuán)隊(duì)：首先有一位"場(chǎng)景設(shè)計(jì)師"（幾何編輯部分）確定物體應(yīng)該放在哪里，以什么角度出現(xiàn)；然后有一位"化妝師"（外觀保持部分）確保物體的每一個(gè)細(xì)節(jié)都保持原樣。這兩位專(zhuān)家并不是各自為政，而是緊密合作：場(chǎng)景設(shè)計(jì)師先規(guī)劃好物體的位置和姿態(tài)，然后化妝師根據(jù)這個(gè)規(guī)劃精確地在每個(gè)位置添加正確的外觀細(xì)節(jié)。

那么，DGAD是如何實(shí)現(xiàn)這一過(guò)程的呢？研究團(tuán)隊(duì)的方法包含兩個(gè)關(guān)鍵步驟：

第一步，他們利用語(yǔ)義嵌入（可以理解為物體的"概念理解"）和預(yù)訓(xùn)練擴(kuò)散模型的強(qiáng)大空間推理能力，隱式地捕捉物體的幾何特性。這就像先理解"一只狗應(yīng)該怎樣坐在沙發(fā)上"這樣的空間關(guān)系，而不是直接處理狗的外觀。這個(gè)階段使用了CLIP或DINO這樣的視覺(jué)模型提取的語(yǔ)義特征，讓系統(tǒng)能夠理解物體應(yīng)該如何自然地放置在場(chǎng)景中。

第二步，他們?cè)O(shè)計(jì)了一種密集交叉注意力機(jī)制，利用第一步學(xué)到的幾何信息，準(zhǔn)確地將物體的外觀特征與其對(duì)應(yīng)的幾何區(qū)域?qū)R。想象這個(gè)過(guò)程就像拿著一個(gè)透明的狗狗輪廓，然后精確地往這個(gè)輪廓的每個(gè)部分填充正確的顏色和紋理，確保狗的毛發(fā)、眼睛、鼻子等每個(gè)細(xì)節(jié)都保持原樣，同時(shí)適應(yīng)新的角度和位置。

值得注意的是，DGAD不只是簡(jiǎn)單地把物體"貼"到背景上，而是真正理解了物體應(yīng)該如何自然地存在于背景場(chǎng)景中。它不需要用戶(hù)提供精確的物體蒙版或復(fù)雜的幾何信息，只需要指定大致的區(qū)域，系統(tǒng)就能自動(dòng)處理物體的空間放置和外觀保持。

通過(guò)在公開(kāi)基準(zhǔn)測(cè)試中的實(shí)驗(yàn)，研究團(tuán)隊(duì)證明了DGAD方法在物體編輯性和外觀保持方面都優(yōu)于現(xiàn)有技術(shù)。在用戶(hù)研究中，37.5%的參與者認(rèn)為DGAD在組合質(zhì)量方面表現(xiàn)最佳，41.5%的參與者認(rèn)為它在視覺(jué)一致性方面最出色，遠(yuǎn)超其他對(duì)比方法。

這項(xiàng)技術(shù)的潛在應(yīng)用十分廣泛：從交互式圖像編輯、虛擬環(huán)境創(chuàng)建，到增強(qiáng)和虛擬現(xiàn)實(shí)（AR/VR）應(yīng)用的內(nèi)容生成。想象一下，你可以輕松地將任何物體放入任何背景，創(chuàng)建完全真實(shí)的合成場(chǎng)景，無(wú)論是為電子商務(wù)網(wǎng)站創(chuàng)建產(chǎn)品展示，還是為游戲和虛擬世界構(gòu)建沉浸式環(huán)境。

讓我們來(lái)看看DGAD與現(xiàn)有方法相比有何不同?，F(xiàn)有的方法主要分為兩類(lèi)：一類(lèi)是依賴(lài)語(yǔ)義嵌入（如CLIP/DINO特征）的方法，它們能實(shí)現(xiàn)物體的靈活編輯，但會(huì)丟失細(xì)節(jié)；另一類(lèi)是使用參考網(wǎng)絡(luò)提取像素級(jí)特征的方法，它們能很好地保留外觀細(xì)節(jié)，但編輯靈活性受限。

DGAD的創(chuàng)新之處在于它不是簡(jiǎn)單地選擇這兩種方法之一，而是巧妙地結(jié)合了兩者的優(yōu)勢(shì)。它首先使用語(yǔ)義嵌入隱式地學(xué)習(xí)物體的幾何特性，然后使用這些學(xué)到的特性作為"指導(dǎo)"，準(zhǔn)確地從參考網(wǎng)絡(luò)中檢索和對(duì)齊外觀特征。這種解耦然后重組的策略，就像是先畫(huà)出一個(gè)精確的輪廓，然后再一筆一筆地填充顏色，確保每一筆都落在正確的位置。

研究團(tuán)隊(duì)還進(jìn)行了廣泛的消融研究，驗(yàn)證了DGAD中每個(gè)組件的必要性和有效性。例如，他們發(fā)現(xiàn)移除幾何布局表示會(huì)導(dǎo)致編輯能力顯著下降，而使用標(biāo)準(zhǔn)交叉注意力替代密集交叉注意力機(jī)制則會(huì)損害外觀保持能力。

總而言之，南方科技大學(xué)團(tuán)隊(duì)的DGAD方法為通用物體組合任務(wù)提供了一個(gè)全新的視角和解決方案，成功地實(shí)現(xiàn)了幾何可編輯性和外觀保持的平衡，這在以往的技術(shù)中是難以同時(shí)實(shí)現(xiàn)的。這一突破性進(jìn)展不僅推動(dòng)了計(jì)算機(jī)視覺(jué)和圖像編輯技術(shù)的發(fā)展，也為創(chuàng)建更加真實(shí)、自然的合成圖像鋪平了道路，未來(lái)有望在多媒體內(nèi)容創(chuàng)作、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域發(fā)揮重要作用。

如果你對(duì)這項(xiàng)研究感興趣，可以訪問(wèn)研究團(tuán)隊(duì)的GitHub頁(yè)面：https://github.com/jianmanlincjx/DGAD，查看代碼和預(yù)訓(xùn)練模型。

計(jì)算機(jī)視覺(jué)擴(kuò)散模型圖像合成

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

計(jì)算機(jī)視覺(jué)
注意力機(jī)制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺(jué)AI如何學(xué)會(huì)聰明地觀察世界

這項(xiàng)研究提出了"高效探測(cè)"方法，解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制，該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升，在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼，推動(dòng)技術(shù)普及應(yīng)用。
檢索增強(qiáng)生成
層次化分析
爭(zhēng)議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭(zhēng)議，不再簡(jiǎn)單判"真假"

伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng)，通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話(huà)題的分析框架，識(shí)別不同觀點(diǎn)及其支撐證據(jù)，為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
人工智能
情感認(rèn)知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類(lèi)一樣理解和表達(dá)情感的新方法

清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu)，在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
人工智能
多智能體強(qiáng)化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類(lèi)一樣通過(guò)"玩游戲"學(xué)會(huì)復(fù)雜推理

哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力，在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺(jué)AI如何學(xué)會(huì)聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺(jué)AI如何學(xué)會(huì)聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭(zhēng)議，不再簡(jiǎn)單判"真假"

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭(zhēng)議，不再簡(jiǎn)單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類(lèi)一樣理解和表達(dá)情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類(lèi)一樣理解和表達(dá)情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類(lèi)一樣通過(guò)"玩游戲"學(xué)會(huì)復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類(lèi)一樣通過(guò)"玩游戲"學(xué)會(huì)復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話(huà)：010-62641205　涉未成年人舉報(bào)專(zhuān)線(xiàn)：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn