av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<output id="6014w"><big id="6014w"></big></output>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

浙江大學(xué)研究團(tuán)隊(duì)：讓AI同時(shí)畫出多個(gè)人不再"串臉"，這項(xiàng)技術(shù)或?qū)氐赘淖償?shù)字創(chuàng)意產(chǎn)業(yè)

人工智能圖像生成深度學(xué)習(xí)

浙江大學(xué)研究團(tuán)隊(duì)：讓AI同時(shí)畫出多個(gè)人不再"串臉"，這項(xiàng)技術(shù)或?qū)氐赘淖償?shù)字創(chuàng)意產(chǎn)業(yè)

作者：科技行者

2025-10-21 13:01

分享至：

浙江大學(xué)和華為聯(lián)合研究團(tuán)隊(duì)開發(fā)了MultiCrafter框架，解決AI同時(shí)繪制多個(gè)人物時(shí)的"串臉"問題。該技術(shù)通過身份解耦注意力正則化、混合專家架構(gòu)和人性化偏好優(yōu)化三大創(chuàng)新，讓AI能夠準(zhǔn)確保持每個(gè)人物的獨(dú)特特征，人臉相似度提升28.3%。這項(xiàng)突破性技術(shù)將為電影制作、社交媒體創(chuàng)作和數(shù)字營銷帶來全新可能，讓多人場(chǎng)景的AI繪畫從技術(shù)難題變?yōu)閯?chuàng)意工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-21 13:01 ? 科技行者

這項(xiàng)由浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院吳濤、江逸博等研究人員領(lǐng)導(dǎo)的團(tuán)隊(duì)，聯(lián)合浙江大學(xué)軟件技術(shù)學(xué)院和華為技術(shù)有限公司，于2025年9月發(fā)表的研究成果，解決了AI繪畫領(lǐng)域一個(gè)令人頭疼的技術(shù)難題。該研究成果以論文形式發(fā)表，論文編號(hào)為arXiv:2509.21953v1，為多主體圖像生成技術(shù)帶來了突破性進(jìn)展。

當(dāng)前的AI繪畫技術(shù)已經(jīng)能夠根據(jù)用戶提供的照片，生成單個(gè)人物的精美圖像。但是，當(dāng)我們要求AI在同一張圖片中繪制多個(gè)不同的人物時(shí)，問題就出現(xiàn)了。就像一個(gè)初學(xué)畫畫的孩子，AI經(jīng)常會(huì)把不同人的特征混在一起，比如把張三的眼睛畫到了李四臉上，或者讓王五戴上了趙六的帽子。這種現(xiàn)象被研究人員稱為"屬性泄漏"，就好比調(diào)色板上的顏料不小心混合了，原本清晰分明的色彩變得模糊不清。

更令人困擾的是，即使AI勉強(qiáng)畫出了多個(gè)人物，生成的圖像往往無法滿足人們的審美期待，缺乏真實(shí)感和藝術(shù)美感。這就像一位廚師雖然知道所有的食材，但卻不知道如何搭配才能做出令人滿意的佳肴。

面對(duì)這些挑戰(zhàn)，浙江大學(xué)的研究團(tuán)隊(duì)開發(fā)了一套名為"MultiCrafter"的全新框架。這個(gè)框架就像一位經(jīng)驗(yàn)豐富的導(dǎo)演，能夠精確指揮每個(gè)"演員"在畫面中的位置和表現(xiàn)，確保他們各自保持獨(dú)特的特征，同時(shí)又能和諧地共存于同一個(gè)場(chǎng)景中。

研究團(tuán)隊(duì)首先發(fā)現(xiàn)了問題的根源。他們通過深入分析發(fā)現(xiàn)，當(dāng)AI試圖同時(shí)處理多個(gè)人物時(shí)，其內(nèi)部的"注意力機(jī)制"會(huì)發(fā)生混亂。可以把這種注意力機(jī)制想象成攝影師的取景器，本來應(yīng)該分別對(duì)焦不同的人物，但卻出現(xiàn)了焦點(diǎn)模糊，導(dǎo)致不同人物的特征相互干擾。

為了解決這個(gè)問題，研究團(tuán)隊(duì)提出了三個(gè)創(chuàng)新性的解決方案。

一、精確分離技術(shù)：讓AI學(xué)會(huì)"各司其職"

研究團(tuán)隊(duì)開發(fā)的第一個(gè)核心技術(shù)叫做"身份解耦注意力正則化"。聽起來很復(fù)雜，但原理其實(shí)很簡單。就像在一個(gè)嘈雜的聚會(huì)上，我們需要專注聽某個(gè)特定朋友說話時(shí)，會(huì)自動(dòng)過濾掉其他人的聲音。研究團(tuán)隊(duì)教會(huì)了AI類似的技能，讓它在處理每個(gè)人物時(shí)，能夠?qū)Ｗ⒂谠撊宋锏奶卣?，而不被其他人物干擾。

具體來說，研究團(tuán)隊(duì)在AI的訓(xùn)練過程中加入了明確的位置監(jiān)督信息。這就像給每個(gè)演員在舞臺(tái)上劃定了專屬的表演區(qū)域，確保他們不會(huì)互相干擾。通過這種方法，AI學(xué)會(huì)了為每個(gè)人物分配獨(dú)立的"注意力區(qū)域"，從根本上避免了特征混淆的問題。

更令人印象深刻的是，這種監(jiān)督只在訓(xùn)練階段使用，就像演員在排練時(shí)需要導(dǎo)演的指導(dǎo)，但正式演出時(shí)就能獨(dú)立發(fā)揮。在實(shí)際使用時(shí)，AI已經(jīng)內(nèi)化了這種分離技能，無需額外的計(jì)算開銷。

二、專家團(tuán)隊(duì)架構(gòu)：用"專業(yè)分工"提升能力

認(rèn)識(shí)到單一模型難以應(yīng)對(duì)各種復(fù)雜場(chǎng)景，研究團(tuán)隊(duì)引入了"混合專家"架構(gòu)。這就像組建一個(gè)專業(yè)團(tuán)隊(duì)，每個(gè)專家都擅長處理特定類型的任務(wù)。

在這個(gè)系統(tǒng)中，AI不再是一個(gè)"全能選手"，而是由多個(gè)專門的"專家網(wǎng)絡(luò)"組成。當(dāng)遇到不同的場(chǎng)景時(shí)，系統(tǒng)會(huì)自動(dòng)選擇最合適的專家來處理。比如，當(dāng)需要繪制兩個(gè)人并肩站立的場(chǎng)景時(shí)，會(huì)調(diào)用擅長處理這種布局的專家；而當(dāng)需要繪制多人圍桌而坐的場(chǎng)景時(shí)，則會(huì)啟用另一個(gè)專門的專家。

這種設(shè)計(jì)的巧妙之處在于，雖然系統(tǒng)內(nèi)部包含多個(gè)專家，但在實(shí)際運(yùn)行時(shí)只激活其中一個(gè)，因此并不會(huì)增加計(jì)算負(fù)擔(dān)。這就像一個(gè)工具箱，里面有各種專用工具，但每次只需要拿出最合適的那一個(gè)。

三、人性化偏好學(xué)習(xí)：讓AI懂得什么是"好看"

傳統(tǒng)的AI訓(xùn)練方法主要關(guān)注技術(shù)指標(biāo)，比如圖像的清晰度或者與原始照片的相似度。但研究團(tuán)隊(duì)意識(shí)到，真正優(yōu)秀的AI繪畫作品還需要符合人類的審美觀念和情感期待。

為此，他們開發(fā)了一套創(chuàng)新的"身份保持偏好優(yōu)化"框架。這個(gè)框架就像一位資深的藝術(shù)評(píng)論家，能夠從三個(gè)維度評(píng)估生成的圖像：美學(xué)質(zhì)量、文本匹配度和人物保真度。

在美學(xué)質(zhì)量方面，系統(tǒng)學(xué)會(huì)了什么樣的構(gòu)圖、色彩搭配和光影效果更符合人類的審美偏好。在文本匹配度方面，它確保生成的圖像準(zhǔn)確反映了用戶的文字描述。而在人物保真度方面，它保證每個(gè)人物都保持了原始照片中的關(guān)鍵特征。

特別值得一提的是，研究團(tuán)隊(duì)還開發(fā)了一套"多身份對(duì)齊獎(jiǎng)勵(lì)"機(jī)制。這個(gè)機(jī)制使用了匈牙利算法這一數(shù)學(xué)工具，能夠精確地評(píng)估生成圖像中的每個(gè)人物與原始參考照片的匹配程度。就像一位嚴(yán)格的質(zhì)檢員，它會(huì)仔細(xì)核對(duì)每個(gè)細(xì)節(jié)，確保沒有張冠李戴的錯(cuò)誤。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)驗(yàn)證了MultiCrafter框架的有效性。他們構(gòu)建了專門的數(shù)據(jù)集，包含多人場(chǎng)景的圖像和相應(yīng)的文字描述。實(shí)驗(yàn)結(jié)果顯示，與現(xiàn)有的最先進(jìn)方法相比，MultiCrafter在保持人物特征方面有了顯著提升，人臉相似度指標(biāo)提高了28.3%。

更重要的是，這種提升不是以犧牲其他方面為代價(jià)的。生成的圖像在文本匹配度和整體美學(xué)質(zhì)量方面都保持了競(jìng)爭(zhēng)力，有些指標(biāo)甚至有所提高。這就像一位廚師不僅學(xué)會(huì)了做出更美味的菜肴，還保持了營養(yǎng)均衡和賣相精美。

在定性評(píng)估中，研究團(tuán)隊(duì)展示了大量對(duì)比案例?？梢悦黠@看出，使用MultiCrafter生成的圖像中，每個(gè)人物都保持了鮮明的個(gè)人特征，避免了其他方法中常見的特征混淆問題。無論是兩個(gè)女性站在山頂觀景，還是兩個(gè)男性在咖啡廳交談，每個(gè)人都保持了獨(dú)特的面部特征和個(gè)人風(fēng)格。

這項(xiàng)技術(shù)的應(yīng)用前景非常廣闊。在電影和電視制作領(lǐng)域，它可以幫助快速生成概念藝術(shù)和分鏡頭，大大縮短前期制作時(shí)間。在社交媒體和個(gè)人創(chuàng)作方面，用戶可以輕松創(chuàng)建包含多個(gè)朋友或家人的創(chuàng)意圖像，無需復(fù)雜的圖像編輯技能。在廣告和營銷行業(yè)，品牌可以更靈活地創(chuàng)建多樣化的宣傳素材，滿足不同場(chǎng)景的需求。

當(dāng)然，研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前技術(shù)的局限性。首先，高質(zhì)量訓(xùn)練數(shù)據(jù)的稀缺仍然是一個(gè)挑戰(zhàn)。目前公開可用的多主體生成數(shù)據(jù)集數(shù)量有限，這在一定程度上限制了模型的訓(xùn)練效果。為了解決這個(gè)問題，團(tuán)隊(duì)設(shè)計(jì)了完整的自動(dòng)化數(shù)據(jù)處理流水線，從視頻中提取訓(xùn)練樣本，但數(shù)據(jù)規(guī)模和多樣性仍有改進(jìn)空間。

其次，目前的實(shí)驗(yàn)主要集中在兩個(gè)主體的場(chǎng)景中，因?yàn)楝F(xiàn)有的數(shù)據(jù)集主要包含這類樣本。雖然框架在設(shè)計(jì)上支持更多主體的場(chǎng)景，但在三個(gè)或更多主體的復(fù)雜場(chǎng)景中的表現(xiàn)還需要進(jìn)一步驗(yàn)證和優(yōu)化。

盡管存在這些局限性，MultiCrafter已經(jīng)在多主體圖像生成領(lǐng)域樹立了新的標(biāo)桿。研究團(tuán)隊(duì)表示，他們將繼續(xù)致力于數(shù)據(jù)集的擴(kuò)展和模型的優(yōu)化，努力讓這項(xiàng)技術(shù)能夠處理更加復(fù)雜和多樣化的場(chǎng)景。

從技術(shù)發(fā)展的角度來看，這項(xiàng)研究不僅解決了一個(gè)具體的技術(shù)問題，更重要的是提出了一種新的思路：如何讓AI系統(tǒng)既能保持技術(shù)精確性，又能符合人類的審美和情感需求。這種"技術(shù)與人文并重"的理念，可能會(huì)影響未來AI技術(shù)的發(fā)展方向。

說到底，MultiCrafter的成功在于它找到了一個(gè)巧妙的平衡點(diǎn)。它既解決了技術(shù)層面的"屬性泄漏"問題，又通過人性化的偏好學(xué)習(xí)滿足了用戶的實(shí)際需求。就像一位優(yōu)秀的藝術(shù)家，不僅要掌握精湛的技法，還要理解觀眾的情感和期待。

隨著這項(xiàng)技術(shù)的不斷完善和推廣，我們可以期待看到更多高質(zhì)量、個(gè)性化的AI生成內(nèi)容。無論是專業(yè)的創(chuàng)意工作者，還是普通的社交媒體用戶，都將從這項(xiàng)技術(shù)的進(jìn)步中受益。而這，正是科技進(jìn)步的真正意義所在：讓復(fù)雜的技術(shù)服務(wù)于人類的創(chuàng)造力和想象力，讓每個(gè)人都能成為自己故事的藝術(shù)家。

Q&A

Q1：MultiCrafter技術(shù)和現(xiàn)有的AI繪畫工具有什么區(qū)別？

A：MultiCrafter最大的特點(diǎn)是能夠在同一張圖片中準(zhǔn)確繪制多個(gè)不同的人物，避免"串臉"問題?，F(xiàn)有的AI繪畫工具在處理單個(gè)人物時(shí)表現(xiàn)不錯(cuò)，但繪制多人場(chǎng)景時(shí)經(jīng)常會(huì)把不同人的特征混合，比如把一個(gè)人的眼睛畫到另一個(gè)人臉上。MultiCrafter通過創(chuàng)新的注意力分離技術(shù)和專家網(wǎng)絡(luò)架構(gòu)，確保每個(gè)人物都保持獨(dú)特特征。

Q2：普通用戶什么時(shí)候能使用到MultiCrafter技術(shù)？

A：目前MultiCrafter還處于研究階段，論文剛剛發(fā)表。研究團(tuán)隊(duì)來自浙江大學(xué)和華為，相信隨著技術(shù)的進(jìn)一步優(yōu)化和產(chǎn)業(yè)化推進(jìn)，未來可能會(huì)集成到各種AI繪畫應(yīng)用中。不過具體的商業(yè)化時(shí)間表還需要等待進(jìn)一步的技術(shù)驗(yàn)證和產(chǎn)品開發(fā)。

Q3：MultiCrafter技術(shù)對(duì)計(jì)算機(jī)性能有什么要求嗎？

A：研究團(tuán)隊(duì)在設(shè)計(jì)時(shí)特別考慮了效率問題。雖然系統(tǒng)內(nèi)部包含多個(gè)專家網(wǎng)絡(luò)，但實(shí)際運(yùn)行時(shí)只激活其中一個(gè)，因此不會(huì)顯著增加計(jì)算負(fù)擔(dān)。而且注意力分離機(jī)制只在訓(xùn)練階段使用，實(shí)際生成圖像時(shí)已經(jīng)不需要額外的計(jì)算開銷，這意味著對(duì)硬件要求相對(duì)合理。

人工智能圖像生成深度學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn