
這項由北京交通大學(xué)的鄒學(xué)超、張舜,螞蟻集團(tuán)的付星,青海大學(xué)的李月,清華大學(xué)的李凱、曹雨舍、陶品、邢俊亮等研究團(tuán)隊合作完成的突破性研究發(fā)表于2025年8月,論文題為《Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation》。這項研究提出了一個名為Face-MoGLE的全新AI人臉生成框架,有興趣深入了解的讀者可以通過項目主頁https://github.com/XavierJiezou/Face-MoGLE訪問完整論文和代碼。
在數(shù)字時代,AI生成人臉技術(shù)已經(jīng)不再是科幻電影中的遙遠(yuǎn)概念。從社交媒體上的虛擬頭像到電影中的數(shù)字角色,這項技術(shù)正在改變我們與數(shù)字世界互動的方式。然而,現(xiàn)有的人臉生成技術(shù)面臨著一個關(guān)鍵挑戰(zhàn):如何既能保持照片般的真實感,又能精確控制生成人臉的各種細(xì)節(jié)特征。
設(shè)想一下,你想讓AI生成一張人臉照片,這張臉要有卷發(fā)、戴眼鏡、涂紅唇膏,同時還要符合你提供的一張面部輪廓圖。這就好比你去理發(fā)店,既要告訴理發(fā)師你想要什么發(fā)型(文字描述),又要給他看一張參考圖片(輪廓圖),希望最終的效果能完美融合這兩種要求。傳統(tǒng)的AI系統(tǒng)往往難以同時處理這些不同類型的指令,就像一個新手廚師面對復(fù)雜菜譜時手忙腳亂。
研究團(tuán)隊發(fā)現(xiàn),現(xiàn)有技術(shù)的問題就像一個只會做單一菜系的廚師。當(dāng)你要求它同時處理來自不同菜系的要求時,它往往顧此失彼。比如,當(dāng)你既提供文字描述"要有藍(lán)色眼睛的金發(fā)女性",又提供一張面部輪廓圖時,現(xiàn)有系統(tǒng)可能會生成一張眼睛顏色正確但輪廓完全不符的照片,或者輪廓正確但頭發(fā)顏色錯誤的圖片。
為了解決這個問題,研究團(tuán)隊開發(fā)了Face-MoGLE系統(tǒng),這個名字來源于"Mixture of Global and Local Experts"的縮寫。這套系統(tǒng)的核心理念就像培養(yǎng)一個既懂全局又精通細(xì)節(jié)的超級廚師團(tuán)隊。在這個比喻中,"全局廚師"負(fù)責(zé)把握整體風(fēng)格和協(xié)調(diào)性,確保整張臉看起來和諧統(tǒng)一,而"局部廚師"則專門負(fù)責(zé)精雕細(xì)琢特定區(qū)域,比如眼部、嘴唇或頭發(fā)的細(xì)節(jié)處理。
Face-MoGLE系統(tǒng)的工作原理可以用這樣一個烹飪場景來理解:當(dāng)你要做一道復(fù)雜的菜品時,主廚首先會規(guī)劃整個菜品的風(fēng)格和搭配(全局控制),然后安排不同的副廚分別處理各個部分——一個專門調(diào)制醬汁,一個專門處理主菜,一個專門裝飾擺盤(局部專精)。最后,有一個協(xié)調(diào)員根據(jù)當(dāng)前的烹飪進(jìn)度和具體情況,動態(tài)決定在每個時刻更多地聽取哪個廚師的建議(動態(tài)門控機(jī)制)。
這個系統(tǒng)的創(chuàng)新之處在于它采用了一種叫作"擴(kuò)散變換器"的先進(jìn)架構(gòu)??梢园阉胂蟪梢粋€時光倒流的魔法過程:系統(tǒng)先把一張完全由噪點構(gòu)成的圖片(就像電視沒信號時的雪花屏),通過多個步驟逐漸"凈化"成清晰的人臉照片。在這個過程中,全局專家確保整個轉(zhuǎn)換過程保持連貫性,而局部專家則在每個步驟中精細(xì)調(diào)整具體區(qū)域的細(xì)節(jié)。
Face-MoGLE支持三種不同的人臉生成任務(wù)。第一種是"文字生成人臉",就像你用語言描述一個人的長相,AI就能畫出對應(yīng)的肖像。第二種是"輪廓圖生成人臉",類似于警方根據(jù)目擊者描述繪制嫌疑人畫像,但這里是AI根據(jù)你提供的面部輪廓圖生成完整的真實人臉。第三種也是最有挑戰(zhàn)性的是"多模態(tài)生成",即同時使用文字描述和輪廓圖來指導(dǎo)AI生成人臉,就像給理發(fā)師既說了要求又提供了參考照片。
研究團(tuán)隊在系統(tǒng)設(shè)計中特別關(guān)注了一個叫作"語義解耦"的概念。簡單說,就是把復(fù)雜的面部輪廓圖分解成多個簡單的二進(jìn)制圖層,每一層只關(guān)注一個特定的面部特征。這就像把一張復(fù)雜的拼圖先分解成不同顏色的區(qū)塊,每個區(qū)塊單獨處理,最后再巧妙地組合起來。比如,一張面部輪廓圖會被分解成頭發(fā)區(qū)域、眼部區(qū)域、嘴部區(qū)域、鼻子區(qū)域等多個獨立的黑白圖層。
這種分解方式的好處就像專業(yè)的汽車維修店:當(dāng)你的車有多個部位需要維修時,不同的技師可以同時處理不同的部件,互不干擾,效率更高,質(zhì)量也更有保證。在Face-MoGLE中,每個專家網(wǎng)絡(luò)都專注于理解和處理特定的面部區(qū)域,比如有專門處理頭發(fā)紋理的專家,有專門處理眼部細(xì)節(jié)的專家,有專門處理面部輪廓的專家等。
系統(tǒng)的動態(tài)門控網(wǎng)絡(luò)是整個架構(gòu)中最巧妙的部分。它的作用就像一個經(jīng)驗豐富的交響樂指揮家,能夠在音樂演奏的不同階段決定讓哪些樂器更突出,讓哪些樂器退到后臺。在人臉生成過程中,這個門控網(wǎng)絡(luò)會根據(jù)當(dāng)前的生成階段和空間位置,動態(tài)調(diào)整不同專家的影響力。比如,在生成過程的早期階段,可能更需要全局專家來確定整體布局,而在后期階段,則可能更依賴局部專家來完善細(xì)節(jié)。
更有趣的是,這個門控機(jī)制還具有空間感知能力。也就是說,它知道在圖像的不同區(qū)域應(yīng)該更多地聽取哪個專家的意見。在處理頭發(fā)區(qū)域時,頭發(fā)專家的權(quán)重會自動增加,而在處理眼部區(qū)域時,眼部專家就會成為主導(dǎo)。這種智能的權(quán)重分配確保了每個區(qū)域都能得到最專業(yè)的處理。
為了驗證Face-MoGLE的效果,研究團(tuán)隊進(jìn)行了大量的對比實驗。他們使用了兩個主要的數(shù)據(jù)集進(jìn)行測試:MM-CelebA-HQ和MM-FFHQ-Female。前者包含3萬張高分辨率人臉圖像,每張都配有詳細(xì)的語義分割圖和十個不同的文字描述。后者則是一個更加精細(xì)的數(shù)據(jù)集,包含760張高質(zhì)量的女性面部圖像,每張圖像都有9個詳細(xì)的文字描述,特別適合測試系統(tǒng)對細(xì)微特征的處理能力。
實驗結(jié)果就像一場技術(shù)界的奧運會比賽。在多模態(tài)人臉生成任務(wù)中,F(xiàn)ace-MoGLE在幾乎所有重要指標(biāo)上都獲得了金牌成績。具體來說,在衡量圖像質(zhì)量的FID指標(biāo)上,F(xiàn)ace-MoGLE達(dá)到了22.24分,顯著優(yōu)于其他競爭對手。要知道,在這個指標(biāo)中,分?jǐn)?shù)越低表示生成的圖像質(zhì)量越好,就像高爾夫比賽中桿數(shù)越少越好一樣。相比之下,其他先進(jìn)方法的分?jǐn)?shù)大多在60分以上,有些甚至超過80分。
在圖像-文本一致性方面,F(xiàn)ace-MoGLE也表現(xiàn)出色,達(dá)到了26.32分的高分。這個指標(biāo)衡量的是生成的人臉圖像與輸入文字描述的匹配程度,分?jǐn)?shù)越高表示匹配度越好。這意味著當(dāng)你告訴系統(tǒng)"生成一個戴眼鏡的卷發(fā)女性"時,F(xiàn)ace-MoGLE生成的圖像確實會是一個戴眼鏡的卷發(fā)女性,而不是其他樣子。
更令人印象深刻的是,F(xiàn)ace-MoGLE在單一模態(tài)任務(wù)中也表現(xiàn)優(yōu)異。在僅使用輪廓圖生成人臉的任務(wù)中,它的FID分?jǐn)?shù)降至19.63,在僅使用文字生成人臉的任務(wù)中,F(xiàn)ID分?jǐn)?shù)為34.81。這就像一個全能運動員,不僅在綜合項目中表現(xiàn)出色,在單項比賽中也能拿到好成績。
研究團(tuán)隊還進(jìn)行了一系列深入的消融實驗,就像醫(yī)生逐個檢查身體各個器官的功能一樣。他們發(fā)現(xiàn),僅使用全局專家的系統(tǒng)FID分?jǐn)?shù)為30.36,雖然能夠保持整體的協(xié)調(diào)性,但在細(xì)節(jié)處理上有所不足。僅使用局部專家的系統(tǒng)FID分?jǐn)?shù)為33.62,雖然能夠處理精細(xì)的區(qū)域特征,但缺乏整體的統(tǒng)一感。而將兩者結(jié)合的完整系統(tǒng)則達(dá)到了22.24的最佳分?jǐn)?shù),充分證明了全局和局部專家協(xié)作的重要性。
在門控機(jī)制的對比實驗中,研究團(tuán)隊發(fā)現(xiàn)了動態(tài)空間門控的巨大優(yōu)勢。使用靜態(tài)權(quán)重的系統(tǒng)FID分?jǐn)?shù)為25.74,使用簡單標(biāo)量門控的系統(tǒng)分?jǐn)?shù)高達(dá)43.48,而使用完整的動態(tài)矩陣門控機(jī)制的系統(tǒng)則達(dá)到了最佳的22.24分。這個結(jié)果就像比較不同的交通管制方案:固定的紅綠燈時間(靜態(tài)權(quán)重)比完全沒有管制要好,但智能的實時交通管控系統(tǒng)(動態(tài)門控)效果最佳。
Face-MoGLE的另一個突出優(yōu)勢是它的零樣本泛化能力。研究團(tuán)隊在從未訓(xùn)練過的MM-FFHQ-Female數(shù)據(jù)集上測試了系統(tǒng)性能,結(jié)果顯示Face-MoGLE在各項指標(biāo)上都超越了競爭對手。這就像一個在北方長大的廚師,第一次到南方就能完美地適應(yīng)當(dāng)?shù)氐目谖逗褪巢?,展現(xiàn)出卓越的適應(yīng)能力。
為了進(jìn)一步驗證生成圖像的真實性,研究團(tuán)隊還進(jìn)行了一個有趣的測試:讓最先進(jìn)的假臉檢測系統(tǒng)來識別Face-MoGLE生成的人臉。結(jié)果發(fā)現(xiàn),這些檢測系統(tǒng)很難區(qū)分Face-MoGLE生成的人臉和真實照片,檢測準(zhǔn)確率接近隨機(jī)猜測的水平。這個結(jié)果從側(cè)面證明了Face-MoGLE生成的人臉具有極高的真實感。需要強(qiáng)調(diào)的是,研究團(tuán)隊進(jìn)行這個測試完全是為了學(xué)術(shù)研究目的,并且強(qiáng)烈反對任何可能誤導(dǎo)或欺騙他人的應(yīng)用。
在可視化結(jié)果中,F(xiàn)ace-MoGLE展現(xiàn)出了令人印象深刻的效果。無論是"她戴著耳環(huán)并涂著口紅的女性"這樣的文字描述,還是復(fù)雜的多模態(tài)指令,系統(tǒng)都能生成與輸入條件高度匹配的人臉圖像。與其他方法相比,F(xiàn)ace-MoGLE生成的圖像在保持真實感的同時,更好地體現(xiàn)了輸入條件的各種要求。
研究團(tuán)隊還發(fā)現(xiàn)了系統(tǒng)的一些有趣特性。通過分析動態(tài)門控網(wǎng)絡(luò)生成的權(quán)重圖,他們發(fā)現(xiàn)系統(tǒng)確實學(xué)會了在不同的生成階段和空間位置智能地調(diào)配專家資源。在處理頭發(fā)區(qū)域時,頭發(fā)專家的權(quán)重會明顯增加,在處理面部輪廓時,全局專家的影響力更為突出。這種行為模式與人類藝術(shù)家的創(chuàng)作過程非常相似:先確定整體構(gòu)圖,再逐步完善各個細(xì)節(jié)部分。
從計算效率的角度來看,F(xiàn)ace-MoGLE也表現(xiàn)出色。整個訓(xùn)練過程在8張NVIDIA A100 GPU上僅需約12小時,推理時使用28個采樣步驟即可生成高質(zhì)量的人臉圖像。這種效率使得該技術(shù)具備了實際應(yīng)用的可能性,而不僅僅是實驗室中的概念驗證。
Face-MoGLE的技術(shù)架構(gòu)基于最新的FLUX.1-dev模型,這是一個在圖像生成領(lǐng)域備受認(rèn)可的基礎(chǔ)模型。研究團(tuán)隊采用了LoRA(Low-Rank Adaptation)微調(diào)策略,只需要更新少量的參數(shù)就能獲得優(yōu)異的性能。這種設(shè)計選擇不僅提高了訓(xùn)練效率,也降了計算成本,使得更多研究機(jī)構(gòu)能夠復(fù)現(xiàn)和改進(jìn)這項技術(shù)。
在訓(xùn)練過程中,系統(tǒng)采用了一種巧妙的條件丟棄策略。具體來說,在訓(xùn)練時有10%的概率會隨機(jī)丟棄文字描述或輪廓圖中的一種輸入,這樣訓(xùn)練出的模型就能夠靈活地處理各種輸入組合。這就像訓(xùn)練一個全能選手,有時只給他看菜譜,有時只給他看成品圖片,有時兩樣都給,這樣訓(xùn)練出來的"廚師"就能應(yīng)對各種實際情況。
Face-MoGLE的應(yīng)用前景非常廣闊。在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域,它可以幫助設(shè)計師快速生成符合特定要求的人物形象。在虛擬現(xiàn)實和游戲開發(fā)中,它能夠根據(jù)劇情需要生成各種類型的NPC角色。在電影制作中,它可以用于概念設(shè)計和角色預(yù)覽。更重要的是,這項技術(shù)在公共安全領(lǐng)域也有積極的應(yīng)用價值,比如根據(jù)目擊者描述和部分線索幫助重建嫌疑人肖像,或者協(xié)助尋找失蹤人員。
當(dāng)然,就像任何強(qiáng)大的技術(shù)一樣,F(xiàn)ace-MoGLE也需要負(fù)責(zé)任的使用。研究團(tuán)隊在論文中明確表達(dá)了對技術(shù)濫用的擔(dān)憂,并承諾將繼續(xù)研究如何提高假臉檢測技術(shù),以防止不當(dāng)使用。他們強(qiáng)調(diào),這項技術(shù)的開發(fā)初衷是為了推進(jìn)科學(xué)研究和服務(wù)社會,而不是為了欺騙或誤導(dǎo)任何人。
從技術(shù)發(fā)展的角度來看,F(xiàn)ace-MoGLE代表了AI人臉生成技術(shù)的一個重要里程碑。它證明了通過精心設(shè)計的專家分工和智能協(xié)調(diào)機(jī)制,可以在保持圖像真實感的同時實現(xiàn)精確的屬性控制。這種思路不僅適用于人臉生成,也為其他類型的圖像生成任務(wù)提供了有價值的參考。
研究團(tuán)隊在論文中詳細(xì)討論了Future work的方向。他們計劃進(jìn)一步提高系統(tǒng)的計算效率,探索更加輕量化的模型架構(gòu),使得這項技術(shù)能夠在移動設(shè)備上運行。同時,他們也在研究如何擴(kuò)展到其他類型的圖像生成任務(wù),比如全身人像、動物圖像或者場景圖像的生成。
值得一提的是,F(xiàn)ace-MoGLE的開源特性使得全世界的研究者都能夠基于這項工作進(jìn)行進(jìn)一步的創(chuàng)新。研究團(tuán)隊已經(jīng)在GitHub上公開了完整的代碼和預(yù)訓(xùn)練模型,并提供了詳細(xì)的使用文檔。這種開放的態(tài)度體現(xiàn)了學(xué)術(shù)研究的本質(zhì):通過分享知識來推動整個領(lǐng)域的進(jìn)步。
總的來說,F(xiàn)ace-MoGLE不僅是一項技術(shù)突破,更是AI生成技術(shù)發(fā)展過程中的一個重要節(jié)點。它展示了通過巧妙的架構(gòu)設(shè)計和專家協(xié)作,我們可以創(chuàng)造出既強(qiáng)大又可控的AI系統(tǒng)。隨著技術(shù)的不斷成熟和完善,我們有理由相信,類似Face-MoGLE這樣的系統(tǒng)將在未來的數(shù)字世界中發(fā)揮越來越重要的作用,同時也會在負(fù)責(zé)任AI的框架下為人類社會帶來更多益處。
這項研究成果不僅推動了人臉生成技術(shù)的邊界,也為整個AI生成領(lǐng)域提供了新的思路和方法。通過將復(fù)雜的生成任務(wù)分解為全局和局部兩個層面,并使用動態(tài)門控機(jī)制進(jìn)行智能協(xié)調(diào),F(xiàn)ace-MoGLE展現(xiàn)了人工智能系統(tǒng)設(shè)計的新范式。這種設(shè)計理念強(qiáng)調(diào)了專業(yè)化分工與智能協(xié)作的重要性,這不僅適用于技術(shù)系統(tǒng),也為我們思考復(fù)雜問題的解決方案提供了啟發(fā)。
Q&A
Q1:Face-MoGLE是什么?它與傳統(tǒng)人臉生成技術(shù)有什么不同?
A:Face-MoGLE是北京交通大學(xué)等高校開發(fā)的新型AI人臉生成系統(tǒng),它最大的特點是同時使用"全局專家"和"局部專家"來生成人臉。全局專家負(fù)責(zé)整體協(xié)調(diào),局部專家專門處理眼睛、嘴巴等細(xì)節(jié)區(qū)域,再通過動態(tài)門控機(jī)制智能協(xié)調(diào)。這就像有一個主廚把控全局,多個副廚專精不同部位,最后有協(xié)調(diào)員根據(jù)情況動態(tài)調(diào)配,比傳統(tǒng)方法更精準(zhǔn)可控。
Q2:Face-MoGLE能同時處理文字和圖像指令嗎?效果如何?
A:可以。Face-MoGLE支持三種模式:純文字生成人臉、純輪廓圖生成人臉,以及同時使用文字和輪廓圖的多模態(tài)生成。在多模態(tài)測試中,它的FID分?jǐn)?shù)達(dá)到22.24(越低越好),遠(yuǎn)超其他方法的60-80分。這意味著你既能用文字描述"卷發(fā)戴眼鏡",又能提供面部輪廓圖,系統(tǒng)會完美融合兩種要求生成符合條件的人臉。
Q3:這項技術(shù)有什么實際應(yīng)用?安全性如何保證?
A:Face-MoGLE在數(shù)字內(nèi)容創(chuàng)作、游戲開發(fā)、影視制作等領(lǐng)域都有應(yīng)用前景,還能協(xié)助公安部門根據(jù)描述重建嫌疑人肖像或?qū)ふ沂й櫲藛T。安全方面,研究團(tuán)隊強(qiáng)烈反對惡意使用,已開源代碼供學(xué)術(shù)研究,并承諾持續(xù)改進(jìn)假臉檢測技術(shù)。他們還進(jìn)行了檢測器測試,發(fā)現(xiàn)現(xiàn)有檢測系統(tǒng)很難識別該技術(shù)生成的圖像,這也促使他們加強(qiáng)防護(hù)技術(shù)研發(fā)。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。