這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)陳宇卓、馬澤華、張為明教授團(tuán)隊(duì)聯(lián)合onestory團(tuán)隊(duì)和華東師范大學(xué)共同完成的研究發(fā)表于2025年8月,論文標(biāo)題為"LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer"。感興趣的讀者可以通過(guò)論文的GitHub開(kāi)源地址 http://github.com/Suchenl/LAMIC 獲取完整的技術(shù)實(shí)現(xiàn)代碼。
當(dāng)你在制作電影海報(bào)或者設(shè)計(jì)一張包含多個(gè)人物的宣傳圖時(shí),是否遇到過(guò)這樣的困擾:想要把不同照片中的人物組合到同一場(chǎng)景中,還要控制他們?cè)诋?huà)面中的精確位置,但現(xiàn)有的AI工具要么只能處理單張參考圖片,要么無(wú)法精確控制每個(gè)元素的位置?中科大的研究團(tuán)隊(duì)針對(duì)這個(gè)實(shí)際需求,開(kāi)發(fā)了一個(gè)名為L(zhǎng)AMIC的全新框架,首次實(shí)現(xiàn)了既能同時(shí)使用多張參考圖片,又能精確控制每個(gè)元素在最終畫(huà)面中位置的AI圖像生成技術(shù)。
過(guò)去的AI圖像生成技術(shù)就像一個(gè)只能看一張樣本的畫(huà)師,你給它一張參考照片,它能畫(huà)出類似的內(nèi)容,但如果你想要它同時(shí)參考多張不同的圖片來(lái)創(chuàng)作,就會(huì)出現(xiàn)各種問(wèn)題。更重要的是,這些傳統(tǒng)方法無(wú)法讓你指定"把這個(gè)人放在畫(huà)面左邊,那個(gè)物體放在右上角"這樣的精確布局要求。而LAMIC框架的出現(xiàn),就像是給這位畫(huà)師配備了一副能同時(shí)觀察多個(gè)樣本的特殊眼鏡,還教會(huì)了他按照你的布局圖紙精確安排每個(gè)元素的位置。
研究團(tuán)隊(duì)在現(xiàn)有的多模態(tài)擴(kuò)散變換器模型基礎(chǔ)上,設(shè)計(jì)了兩個(gè)巧妙的注意力機(jī)制來(lái)解決多圖像組合中的核心難題。第一個(gè)機(jī)制叫做"群組隔離注意力",就像給每張參考圖片安排了獨(dú)立的工作空間,防止不同圖片中的信息混淆。第二個(gè)機(jī)制稱為"區(qū)域調(diào)制注意力",它能夠根據(jù)你指定的布局要求,精確控制每個(gè)元素應(yīng)該出現(xiàn)的位置。
**一、突破傳統(tǒng)限制的創(chuàng)新思路**
傳統(tǒng)的圖像生成方法面臨著一個(gè)根本性的矛盾:要么專注于單張圖片的高質(zhì)量處理,要么嘗試處理多張圖片但效果不佳。這就像一個(gè)廚師,要么專精做一道菜做得很好,要么試圖同時(shí)做多道菜但每道都不夠味?,F(xiàn)有的多圖像生成方法通常需要重新訓(xùn)練整個(gè)模型,這不僅需要大量的數(shù)據(jù)和計(jì)算資源,而且很難收集到高質(zhì)量的多圖像訓(xùn)練數(shù)據(jù)集。
LAMIC采用了一種完全不同的思路:不重新訓(xùn)練模型,而是在現(xiàn)有的高性能單圖像生成模型基礎(chǔ)上,通過(guò)巧妙的注意力控制機(jī)制來(lái)實(shí)現(xiàn)多圖像處理能力。這種方法的妙處在于,它能夠繼承已經(jīng)訓(xùn)練好的單圖像模型的所有優(yōu)勢(shì),同時(shí)擴(kuò)展出多圖像處理的新能力。就像給一位經(jīng)驗(yàn)豐富的單人表演藝術(shù)家提供了一套協(xié)調(diào)多人演出的指揮技巧,既保留了原有的表演水準(zhǔn),又獲得了處理復(fù)雜場(chǎng)面的新能力。
研究團(tuán)隊(duì)發(fā)現(xiàn),多模態(tài)擴(kuò)散變換器的架構(gòu)天然具有擴(kuò)展性。這些模型通過(guò)將文本和圖像信息編碼成統(tǒng)一的表示形式,為引入多個(gè)參考圖像提供了可能。關(guān)鍵的洞察是:既然單個(gè)參考圖像可以通過(guò)令牌拼接的方式引入模型,那么多個(gè)參考圖像理論上也可以用同樣的方式處理,問(wèn)題的核心在于如何防止這些不同來(lái)源的信息相互干擾。
**二、精密的注意力控制機(jī)制**
LAMIC框架的核心創(chuàng)新在于兩個(gè)相互配合的注意力機(jī)制。群組隔離注意力機(jī)制的工作原理類似于一個(gè)圖書(shū)館的分區(qū)管理系統(tǒng)。每張參考圖片、對(duì)應(yīng)的文本描述和空間布局信息被組織成一個(gè)"視覺(jué)-文本-空間"三元組,就像圖書(shū)館中的一個(gè)專門區(qū)域。群組隔離注意力確保每個(gè)三元組內(nèi)部的信息可以充分交互,但不同三元組之間不會(huì)產(chǎn)生混淆。
這種設(shè)計(jì)解決了多圖像生成中的一個(gè)關(guān)鍵問(wèn)題:語(yǔ)義泄漏。當(dāng)你想要生成包含"一個(gè)穿紅衣服的女孩"和"一只白色的貓"的圖片時(shí),沒(méi)有適當(dāng)控制的系統(tǒng)可能會(huì)產(chǎn)生"一只穿紅衣服的白貓"或者"一個(gè)白衣服的女孩"這樣的錯(cuò)誤結(jié)果。群組隔離注意力通過(guò)限制跨組信息流動(dòng),有效防止了這種屬性混淆現(xiàn)象。
區(qū)域調(diào)制注意力機(jī)制則進(jìn)一步細(xì)化了空間控制能力。它采用了一種分階段的處理策略:在生成過(guò)程的早期階段,嚴(yán)格限制不同空間區(qū)域之間的信息交換,確保每個(gè)元素在指定區(qū)域內(nèi)獨(dú)立發(fā)展;在后期階段,逐步放開(kāi)限制,允許不同區(qū)域之間進(jìn)行必要的協(xié)調(diào),實(shí)現(xiàn)整體畫(huà)面的和諧統(tǒng)一。這種策略類似于建造房屋時(shí)先打好各個(gè)房間的地基和框架,最后再進(jìn)行統(tǒng)一的裝修和協(xié)調(diào)。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),這種分階段策略中早期階段的時(shí)長(zhǎng)對(duì)最終效果有顯著影響。如果早期限制時(shí)間太短,元素可能偏離指定位置;如果時(shí)間太長(zhǎng),畫(huà)面整體協(xié)調(diào)性可能受損。通過(guò)系統(tǒng)性的測(cè)試,他們確定了最優(yōu)的分階段比例,通常將總生成步驟的5%用于嚴(yán)格的區(qū)域隔離階段。
**三、全面的性能評(píng)估體系**
為了科學(xué)評(píng)估LAMIC的性能,研究團(tuán)隊(duì)不僅使用了現(xiàn)有的評(píng)價(jià)指標(biāo),還專門設(shè)計(jì)了三個(gè)新的評(píng)估標(biāo)準(zhǔn)。這些新指標(biāo)就像為一場(chǎng)綜合性的藝術(shù)比賽制定了更加全面和精確的評(píng)分標(biāo)準(zhǔn)。
背景相似性指標(biāo)衡量生成圖像的背景與預(yù)期背景的一致程度。這個(gè)指標(biāo)結(jié)合了多個(gè)維度的信息:深度學(xué)習(xí)特征的相似性、顏色分布的匹配度、結(jié)構(gòu)相似性以及顏色直方圖的對(duì)比。就像評(píng)判一幅畫(huà)作時(shí)不僅要看主體人物是否準(zhǔn)確,還要看背景環(huán)境是否營(yíng)造得當(dāng)。
包含比例和填充比例這兩個(gè)指標(biāo)專門評(píng)估布局控制的精確程度。包含比例衡量生成的目標(biāo)對(duì)象有多少比例位于指定區(qū)域內(nèi),而填充比例則評(píng)估指定區(qū)域被目標(biāo)對(duì)象覆蓋的程度。這兩個(gè)指標(biāo)的結(jié)合使用,能夠全面反映系統(tǒng)的空間控制能力。比如,如果你要求把一個(gè)人物放在畫(huà)面左半邊,包含比例高說(shuō)明人物確實(shí)主要在左邊,填充比例高說(shuō)明左邊區(qū)域被人物很好地填充了。
在與現(xiàn)有方法的對(duì)比測(cè)試中,LAMIC在絕大多數(shù)指標(biāo)上都取得了最佳表現(xiàn)。特別是在身份保持、背景一致性和布局控制方面,LAMIC相比第二名的方法有顯著優(yōu)勢(shì)。在雙參考圖像的測(cè)試中,LAMIC的身份相似性得分達(dá)到78.04,比第二名高出近9個(gè)百分點(diǎn);背景相似性得分為83.14,比第二名高出2.55個(gè)百分點(diǎn)。隨著參考圖像數(shù)量增加到三張和四張,LAMIC的優(yōu)勢(shì)變得更加明顯,證明了其處理復(fù)雜多圖像場(chǎng)景的強(qiáng)大能力。
**四、實(shí)際應(yīng)用效果展示**
研究團(tuán)隊(duì)展示了大量生成效果的對(duì)比案例,這些案例直觀地體現(xiàn)了LAMIC的實(shí)際應(yīng)用價(jià)值。在一個(gè)包含老人和像素風(fēng)戰(zhàn)士的組合案例中,LAMIC成功保持了老人的面部特征和戰(zhàn)士的風(fēng)格化結(jié)構(gòu),同時(shí)實(shí)現(xiàn)了自然的融合效果,而其他方法要么出現(xiàn)過(guò)度平滑,要么產(chǎn)生形變失真。
在更復(fù)雜的海龜、水母、人物和森林的四元素組合場(chǎng)景中,LAMIC準(zhǔn)確地按照空間布局要求放置了每個(gè)元素,并保持了各自的視覺(jué)特征。相比之下,大多數(shù)baseline方法都出現(xiàn)了對(duì)象錯(cuò)配或語(yǔ)義偏移的問(wèn)題。這些實(shí)際效果充分證明了LAMIC在復(fù)雜多元素場(chǎng)景中的處理能力。
特別值得注意的是,LAMIC的布局控制能力在定量測(cè)試中表現(xiàn)突出。在所有測(cè)試配置下,LAMIC的包含比例都達(dá)到了90左右的高分,顯著超過(guò)其他方法。這意味著生成的對(duì)象基本都能精確定位在指定區(qū)域內(nèi)。雖然在填充比例方面LAMIC相比其他方法的優(yōu)勢(shì)不如包含比例那么明顯,但這反映了一個(gè)實(shí)際應(yīng)用中的平衡:過(guò)度強(qiáng)調(diào)填充可能導(dǎo)致對(duì)象變形或比例失調(diào)。
**五、技術(shù)實(shí)現(xiàn)的巧思**
LAMIC的技術(shù)實(shí)現(xiàn)展現(xiàn)了研究團(tuán)隊(duì)的巧妙構(gòu)思。整個(gè)框架采用了模塊化設(shè)計(jì),可以無(wú)縫集成到現(xiàn)有的多模態(tài)擴(kuò)散變換器中。系統(tǒng)將每個(gè)參考輸入組織為結(jié)構(gòu)化的三元組:視覺(jué)參考圖像提供外觀信息,自屬性描述文本指定保持或修改的特征,空間布局信息確定目標(biāo)位置。
除了這些基本三元組,系統(tǒng)還引入了跨實(shí)體交互指令,用于描述不同對(duì)象之間的關(guān)系,比如"A騎著B(niǎo)"或"A站在B旁邊"。這種設(shè)計(jì)使得系統(tǒng)不僅能處理獨(dú)立的多對(duì)象場(chǎng)景,還能生成具有復(fù)雜交互關(guān)系的圖像。
在編碼階段,系統(tǒng)使用預(yù)訓(xùn)練的視覺(jué)編碼器將參考圖像轉(zhuǎn)換為潛在表示,使用T5或CLIP等文本編碼器處理文本信息,并將空間布局信息下采樣到合適的分辨率。所有這些不同模態(tài)的信息最終被統(tǒng)一編碼到同一個(gè)表示空間中,為后續(xù)的注意力控制奠定基礎(chǔ)。
研究團(tuán)隊(duì)在消融實(shí)驗(yàn)中驗(yàn)證了每個(gè)組件的重要性。去除區(qū)域調(diào)制注意力會(huì)導(dǎo)致布局控制能力的顯著下降,雖然可能保持較好的美學(xué)質(zhì)量。而去除群組隔離注意力則會(huì)造成更嚴(yán)重的問(wèn)題,不僅布局控制能力幾乎完全喪失,多個(gè)參考實(shí)體還經(jīng)常會(huì)融合成單一的混合形式。這些實(shí)驗(yàn)結(jié)果清楚地展示了兩個(gè)注意力機(jī)制的協(xié)同重要性。
**六、對(duì)未來(lái)發(fā)展的啟示**
LAMIC框架的成功不僅在于其具體的技術(shù)實(shí)現(xiàn),更重要的是它展示了一種新的研究范式:無(wú)需重新訓(xùn)練的能力擴(kuò)展。這種方法避免了大規(guī)模數(shù)據(jù)收集和模型重訓(xùn)練的成本,同時(shí)能夠充分利用現(xiàn)有模型的已學(xué)習(xí)知識(shí)。隨著基礎(chǔ)模型能力的不斷提升,基于這種范式的方法也會(huì)自然地獲得性能改進(jìn)。
當(dāng)前的實(shí)現(xiàn)還有進(jìn)一步優(yōu)化的空間。研究團(tuán)隊(duì)指出,在處理緊密相鄰的相似對(duì)象時(shí),系統(tǒng)偶爾還會(huì)出現(xiàn)屬性混淆。他們計(jì)劃通過(guò)更精細(xì)的注意力設(shè)計(jì)來(lái)解決這個(gè)問(wèn)題,同時(shí)保持區(qū)域邊界的自然平滑性。另外,他們還考慮探索更早期的跨實(shí)體交互注入機(jī)制,以增強(qiáng)實(shí)體間的互動(dòng)效果和語(yǔ)言控制能力。
從更廣闊的視角來(lái)看,LAMIC的成功為可控圖像生成領(lǐng)域指出了一個(gè)有前景的方向:通過(guò)巧妙的機(jī)制設(shè)計(jì)來(lái)擴(kuò)展現(xiàn)有模型的能力,而不是每次都從零開(kāi)始。這種思路對(duì)于快速發(fā)展的AI領(lǐng)域具有重要的實(shí)用價(jià)值,特別是在計(jì)算資源有限但應(yīng)用需求不斷增長(zhǎng)的背景下。
研究團(tuán)隊(duì)已經(jīng)將LAMIC的實(shí)現(xiàn)代碼開(kāi)源,這為相關(guān)研究和實(shí)際應(yīng)用提供了便利。隨著數(shù)字內(nèi)容創(chuàng)作需求的增長(zhǎng),特別是在影視制作、廣告設(shè)計(jì)、游戲開(kāi)發(fā)等領(lǐng)域,LAMIC這樣的工具有望成為創(chuàng)作者們的得力助手,讓復(fù)雜的多元素圖像合成變得簡(jiǎn)單而可控。
Q&A
Q1:LAMIC是什么?它能解決什么問(wèn)題?
A:LAMIC是中科大團(tuán)隊(duì)開(kāi)發(fā)的一個(gè)AI圖像生成框架,專門解決多張參考圖片組合和精確位置控制的問(wèn)題。它能讓你同時(shí)使用多張不同的參考圖片來(lái)生成新圖像,還能精確指定每個(gè)元素在最終畫(huà)面中的位置,就像一個(gè)能同時(shí)參考多個(gè)樣本的智能畫(huà)師。
Q2:LAMIC和現(xiàn)有的AI繪畫(huà)工具有什么區(qū)別?
A:現(xiàn)有的AI繪畫(huà)工具大多只能處理單張參考圖片,或者無(wú)法精確控制元素位置。LAMIC的突破在于它既能同時(shí)處理多張參考圖片,又能精確控制布局,而且不需要重新訓(xùn)練模型,直接在現(xiàn)有模型基礎(chǔ)上就能實(shí)現(xiàn)這些功能。
Q3:LAMIC的布局控制到底有多精確?
A:根據(jù)測(cè)試結(jié)果,LAMIC的包含比例(目標(biāo)對(duì)象位于指定區(qū)域的準(zhǔn)確度)達(dá)到了90左右的高分,遠(yuǎn)超其他方法。這意味著如果你指定某個(gè)人物放在畫(huà)面左邊,生成結(jié)果中這個(gè)人物基本都會(huì)準(zhǔn)確出現(xiàn)在左邊區(qū)域,精確度非常高。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。