這項開創(chuàng)性研究由清華大學(xué)與騰訊AIPD團(tuán)隊共同完成,研究團(tuán)隊包括清華大學(xué)的何宇澤、趙旺、白宇石、劉永進(jìn)等學(xué)者,以及騰訊AIPD的周雁寧、葉經(jīng)文、肖凱文、孫忠謙、楊偉等研究員。該論文于2025年9月發(fā)表在計算機圖形學(xué)頂級會議上,論文編號為arXiv:2509.21114v1。感興趣的讀者可以通過該編號查詢完整論文獲取更多技術(shù)細(xì)節(jié)。
動漫角色的發(fā)型設(shè)計一直是數(shù)字娛樂行業(yè)的一個難題。就像廚師需要精心雕琢每一道菜的外觀一樣,游戲和動畫制作者在設(shè)計動漫角色時,最頭疼的往往不是角色的身體或臉部,而是那些看似簡單卻極難建模的頭發(fā)。動漫發(fā)型不同于現(xiàn)實中的頭發(fā),它們有著夸張的造型、不規(guī)則的厚度變化,以及獨特的分層結(jié)構(gòu)。傳統(tǒng)的3D建模方法就像用錘子敲釘子一樣笨重,既費時又難以達(dá)到理想效果。
研究團(tuán)隊敏銳地意識到這個問題,他們發(fā)現(xiàn)現(xiàn)有的頭發(fā)建模技術(shù)主要針對真實頭發(fā)設(shè)計,這些方法就像為正裝制作的剪裁方案,完全不適合動漫風(fēng)格的"時裝設(shè)計"。動漫發(fā)型有著獨特的美學(xué)特征:發(fā)絲粗細(xì)不均、密度變化很大、造型夸張且富有藝術(shù)表現(xiàn)力。這些特點讓傳統(tǒng)建模方法束手無策。
為了解決這個問題,研究團(tuán)隊開發(fā)了名為CHARM的全新框架。這個名字代表"控制點驅(qū)動的3D動漫發(fā)型自回歸建模"??梢园袰HARM想象成一位經(jīng)驗豐富的發(fā)型師,它不僅懂得如何理解客戶的需求,還能精確地按照這些需求創(chuàng)造出完美的發(fā)型作品。
CHARM的核心創(chuàng)新在于發(fā)明了一種全新的發(fā)型表示方法。傳統(tǒng)方法就像試圖用無數(shù)個小零件組裝一臺復(fù)雜機器,而CHARM則像是掌握了一套簡潔優(yōu)雅的建筑藍(lán)圖。它將復(fù)雜的動漫發(fā)型分解成一系列"控制點",每個控制點就像是發(fā)型骨架上的關(guān)鍵節(jié)點,包含位置、寬度和厚度等信息。這種表示方法不僅大大壓縮了數(shù)據(jù)量,還保持了發(fā)型的精確度和可編輯性。
更令人驚嘆的是,研究團(tuán)隊將動漫發(fā)型的生成過程比作語言創(chuàng)作。他們將每個發(fā)型單元視為"單詞",將每根頭發(fā)看作"句子",整個發(fā)型就是一篇"文章"。通過這種創(chuàng)新性的語言化表示,CHARM能夠像寫作一樣自動生成各種動漫發(fā)型,既保證了發(fā)型的連貫性,又確保了各個部分之間的協(xié)調(diào)性。
為了訓(xùn)練這個AI發(fā)型師,研究團(tuán)隊還構(gòu)建了迄今為止最大規(guī)模的動漫發(fā)型數(shù)據(jù)集AnimeHair。這個數(shù)據(jù)集包含37000個高質(zhì)量的動漫發(fā)型樣本,就像是給AI提供了一個龐大的發(fā)型設(shè)計圖書館。每個樣本都經(jīng)過精心處理,確保發(fā)型的各個組成部分都能被正確識別和學(xué)習(xí)。
實驗結(jié)果顯示,CHARM在發(fā)型生成質(zhì)量方面顯著超越了現(xiàn)有的所有方法。無論是幾何精度還是視覺效果,CHARM都達(dá)到了業(yè)界領(lǐng)先水平。更重要的是,它生成的發(fā)型不僅外觀精美,還保持了動漫風(fēng)格的獨特魅力和藝術(shù)表現(xiàn)力。
一、革命性的發(fā)型建模理念:從復(fù)雜到簡潔的華麗轉(zhuǎn)身
傳統(tǒng)的動漫發(fā)型建模就像是在黑暗中摸索前進(jìn)的旅程。設(shè)計師們需要手工雕琢每一根頭發(fā)絲,就像雕塑家用小刀一點點刻畫大理石雕像的細(xì)節(jié)。這個過程不僅耗時巨大,還極其依賴設(shè)計師的個人技藝。更糟糕的是,一旦需要修改發(fā)型,整個工作幾乎要從頭開始。
研究團(tuán)隊深入研究了動漫發(fā)型的內(nèi)在結(jié)構(gòu)特征。他們發(fā)現(xiàn),看似復(fù)雜多變的動漫發(fā)型實際上遵循著一定的規(guī)律,就像音樂雖然千變?nèi)f化,但都是由基本的音符和節(jié)拍組合而成。動漫發(fā)型主要由重復(fù)的幾何單元串聯(lián)構(gòu)成,這些單元就像珍珠項鏈中的珍珠,雖然大小形狀略有不同,但排列方式相對規(guī)整。
基于這個洞察,CHARM提出了控制點參數(shù)化的全新表示方法。每個控制點就像是發(fā)型骨架上的關(guān)鍵節(jié)點,僅用五個參數(shù)就能完整描述:三維空間位置(x、y、z坐標(biāo))、發(fā)絲寬度和厚度。這種表示方法的精妙之處在于,它既保留了發(fā)型的精確幾何信息,又大大簡化了數(shù)據(jù)結(jié)構(gòu)。
為了確保這種簡化表示的可逆性,研究團(tuán)隊設(shè)計了一套巧妙的幾何重建算法。這個算法就像是一位經(jīng)驗豐富的工匠,能夠根據(jù)簡單的設(shè)計圖紙精確地重建出復(fù)雜的立體結(jié)構(gòu)。算法通過數(shù)學(xué)優(yōu)化方法自動計算出每個控制點處的發(fā)絲方向和法向量,確保重建的發(fā)型在幾何上完全一致。
這種表示方法的另一個重要優(yōu)勢是大幅壓縮了存儲空間。原本需要數(shù)萬個頂點才能表示的復(fù)雜發(fā)型,現(xiàn)在只需要幾千個控制點就能完整描述,壓縮率超過98%。這種壓縮不僅節(jié)省了存儲空間,更重要的是讓AI模型的學(xué)習(xí)變得可行。
二、發(fā)型語言化:將藝術(shù)創(chuàng)作轉(zhuǎn)化為AI可理解的語法
CHARM最具創(chuàng)新性的突破在于將發(fā)型生成問題轉(zhuǎn)化為語言生成任務(wù)。這個轉(zhuǎn)換過程就像是為聾啞人設(shè)計手語一樣,需要將視覺的、空間的信息轉(zhuǎn)換成序列化的、結(jié)構(gòu)化的表達(dá)方式。
在這個"發(fā)型語言"體系中,每個控制點相當(dāng)于一個"詞匯",每根頭發(fā)相當(dāng)于一個"句子",整個發(fā)型就是一篇"文章"。這種語言化表示不是簡單的類比,而是深層次的結(jié)構(gòu)對應(yīng)。就像真正的語言有語法規(guī)則一樣,發(fā)型語言也有其內(nèi)在的組織原則。
研究團(tuán)隊精心設(shè)計了發(fā)型序列的生成順序。他們發(fā)現(xiàn),從頭部后方開始,按逆時針方向依次生成各根頭發(fā),能夠最大程度地保持空間連續(xù)性和視覺協(xié)調(diào)性。這種排序策略就像是音樂家演奏協(xié)奏曲時的配合,每個聲部的進(jìn)入都有其最佳時機,既不會顯得突兀,又能與整體和諧統(tǒng)一。
在每根頭發(fā)內(nèi)部,控制點按照從發(fā)根到發(fā)梢的自然順序排列。這種排列方式符合頭發(fā)的物理生長規(guī)律,也便于AI模型學(xué)習(xí)發(fā)型的內(nèi)在邏輯。研究團(tuán)隊還引入了特殊的標(biāo)記符號,就像句子中的標(biāo)點符號一樣,用來標(biāo)示每根頭發(fā)的開始和結(jié)束,以及整個發(fā)型的完成。
為了處理不同發(fā)型之間長度和復(fù)雜度的差異,CHARM采用了靈活的序列表示方法。短發(fā)型對應(yīng)短句,長發(fā)型對應(yīng)長句,復(fù)雜發(fā)型對應(yīng)復(fù)雜文章。這種靈活性確保了模型能夠處理各種類型的動漫發(fā)型,從簡潔的短發(fā)到復(fù)雜的長卷發(fā)。
三、智能發(fā)型設(shè)計師:基于變換器的自回歸生成框架
CHARM的核心是一個基于變換器架構(gòu)的自回歸生成模型。這個模型就像是一位經(jīng)驗豐富的發(fā)型設(shè)計師,不僅能夠理解客戶的需求,還能逐步設(shè)計出完美的發(fā)型作品。
模型的工作流程類似于人類設(shè)計師的創(chuàng)作過程。首先,它接收輸入條件,比如角色的頭部點云或參考圖像,就像設(shè)計師了解客戶的頭型和偏好。然后,模型開始逐個生成控制點,就像設(shè)計師一筆一劃地勾勒發(fā)型輪廓。每生成一個控制點,模型都會考慮之前所有的設(shè)計決策,確保新添加的部分與整體協(xié)調(diào)一致。
模型采用了層次化的解碼策略。對于每個控制點,模型首先預(yù)測其三維位置,然后基于位置信息預(yù)測寬度,最后基于位置和寬度信息預(yù)測厚度。這種層次化方法反映了發(fā)型設(shè)計的自然邏輯:位置決定發(fā)型的基本輪廓,寬度決定發(fā)絲的粗細(xì)變化,厚度決定發(fā)型的立體感。
為了確保生成過程的穩(wěn)定性和合理性,研究團(tuán)隊設(shè)計了多重約束機制。當(dāng)模型檢測到某根頭發(fā)變得過長或偏離合理范圍時,會自動觸發(fā)終止機制,避免生成不現(xiàn)實的發(fā)型。這些約束機制就像是設(shè)計師的專業(yè)經(jīng)驗,能夠在創(chuàng)作過程中及時糾正錯誤,確保最終結(jié)果的質(zhì)量。
模型還具備強大的適應(yīng)性,能夠處理各種不同的輸入條件。無論是精確的3D點云數(shù)據(jù),還是簡單的2D參考圖像,模型都能理解并生成相應(yīng)的發(fā)型。這種靈活性使得CHARM能夠適應(yīng)不同的應(yīng)用場景和用戶需求。
四、AnimeHair數(shù)據(jù)集:AI發(fā)型師的知識寶庫
為了訓(xùn)練CHARM模型,研究團(tuán)隊構(gòu)建了迄今為止最大規(guī)模的動漫發(fā)型數(shù)據(jù)集AnimeHair。這個數(shù)據(jù)集就像是一座龐大的發(fā)型設(shè)計圖書館,收錄了37000個精心篩選的高質(zhì)量動漫發(fā)型樣本。
數(shù)據(jù)集的構(gòu)建過程堪稱一項工程壯舉。研究團(tuán)隊從VRoid Hub平臺收集了大量的3D動漫角色模型,然后開發(fā)了專門的工具來提取和處理發(fā)型數(shù)據(jù)。這個過程就像是考古學(xué)家從古跡中發(fā)掘文物,需要極其細(xì)致和專業(yè)的處理技術(shù)。
每個發(fā)型樣本都經(jīng)過了嚴(yán)格的質(zhì)量控制。研究團(tuán)隊設(shè)計了多層過濾機制,剔除了不符合標(biāo)準(zhǔn)的發(fā)型,比如存在幾何缺陷、結(jié)構(gòu)不完整或風(fēng)格不匹配的樣本。只有通過所有質(zhì)量檢查的發(fā)型才能進(jìn)入最終數(shù)據(jù)集,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。
數(shù)據(jù)集涵蓋了豐富多樣的發(fā)型類型,從簡潔的短發(fā)到飄逸的長發(fā),從直發(fā)到卷發(fā),從單色到漸變色。這種多樣性確保了訓(xùn)練出的模型具有廣泛的生成能力,能夠創(chuàng)造出各種風(fēng)格的動漫發(fā)型。
為了便于模型學(xué)習(xí),研究團(tuán)隊對每個發(fā)型進(jìn)行了詳細(xì)的結(jié)構(gòu)分析和標(biāo)注。他們將復(fù)雜的發(fā)型分解成獨立的發(fā)絲單元,標(biāo)記了每個單元的起始位置、生長方向和幾何參數(shù)。這些精細(xì)的標(biāo)注信息為模型提供了豐富的學(xué)習(xí)信號。
五、性能驗證:全面超越現(xiàn)有方法的卓越表現(xiàn)
為了驗證CHARM的有效性,研究團(tuán)隊進(jìn)行了全面而嚴(yán)格的實驗評估。實驗設(shè)計就像是一場公平的競技比賽,讓CHARM與目前最先進(jìn)的3D網(wǎng)格生成方法同臺競技。
在幾何精度方面,CHARM表現(xiàn)出顯著優(yōu)勢。使用倒角距離、地球移動距離、豪斯多夫距離等多個幾何指標(biāo)進(jìn)行評估,CHARM在所有指標(biāo)上都優(yōu)于對比方法。這些數(shù)值就像是考試成績單,客觀地反映了CHARM在幾何重建方面的準(zhǔn)確性。
更令人印象深刻的是感知質(zhì)量評估結(jié)果。研究團(tuán)隊使用CLIP模型計算生成發(fā)型與真實發(fā)型之間的感知相似度,CHARM達(dá)到了0.9258的高分,遠(yuǎn)超其他方法。這個分?jǐn)?shù)反映了CHARM生成的發(fā)型不僅在幾何上準(zhǔn)確,在視覺效果上也極其逼真。
實驗還包括了詳細(xì)的消融研究,驗證了CHARM各個組件的重要性。研究發(fā)現(xiàn),控制點參數(shù)化方法和逆時針排序策略都對最終效果有顯著貢獻(xiàn)。當(dāng)移除這些關(guān)鍵組件時,模型性能會明顯下降,證明了設(shè)計決策的正確性。
定性比較結(jié)果更加直觀地展示了CHARM的優(yōu)勢。與其他方法生成的粗糙、不完整的發(fā)型相比,CHARM生成的發(fā)型具有清晰的層次結(jié)構(gòu)、自然的流動感和豐富的細(xì)節(jié)。這些發(fā)型不僅符合動漫美學(xué)標(biāo)準(zhǔn),還具有很強的藝術(shù)表現(xiàn)力。
六、廣泛應(yīng)用前景:從游戲開發(fā)到虛擬現(xiàn)實的全面革新
CHARM的應(yīng)用前景極其廣闊,幾乎涵蓋了所有需要動漫角色建模的領(lǐng)域。在游戲開發(fā)行業(yè),CHARM可以大幅提升角色設(shè)計的效率和質(zhì)量。游戲開發(fā)者不再需要花費大量時間手工制作每個角色的發(fā)型,而是可以通過簡單的輸入快速生成各種風(fēng)格的發(fā)型。
在動畫制作領(lǐng)域,CHARM為創(chuàng)作者提供了強大的工具支持。動畫師可以根據(jù)角色設(shè)定快速生成初始發(fā)型,然后進(jìn)行微調(diào)和個性化修改。這種工作流程既保證了創(chuàng)作效率,又保留了藝術(shù)創(chuàng)作的靈活性。
虛擬現(xiàn)實和增強現(xiàn)實應(yīng)用也將從CHARM中受益。隨著元宇宙概念的興起,用戶對虛擬角色的個性化需求越來越強烈。CHARM能夠讓用戶輕松創(chuàng)建獨特的虛擬形象,提升沉浸式體驗的質(zhì)量。
研究團(tuán)隊還展示了CHARM與其他AI系統(tǒng)的集成能力。通過與現(xiàn)有的角色生成框架結(jié)合,CHARM可以為完整的角色創(chuàng)建流程提供發(fā)型生成支持。這種集成方式為整個數(shù)字內(nèi)容創(chuàng)作行業(yè)提供了新的技術(shù)路徑。
教育和培訓(xùn)領(lǐng)域也是CHARM的重要應(yīng)用方向。美術(shù)院??梢允褂肅HARM作為教學(xué)工具,幫助學(xué)生理解動漫發(fā)型設(shè)計的原理和技巧。同時,CHARM生成的多樣化發(fā)型樣本也為設(shè)計研究提供了豐富的素材。
說到底,CHARM代表了AI技術(shù)在藝術(shù)創(chuàng)作領(lǐng)域的一次重要突破。它不僅解決了動漫發(fā)型建模這個具體問題,更重要的是探索了AI理解和創(chuàng)造藝術(shù)內(nèi)容的新途徑。這項研究證明了,通過精巧的表示方法和合適的模型架構(gòu),AI確實可以掌握復(fù)雜的藝術(shù)創(chuàng)作技能。
歸根結(jié)底,CHARM的成功在于找到了技術(shù)精確性與藝術(shù)表現(xiàn)力之間的完美平衡點。它既保證了生成發(fā)型的幾何準(zhǔn)確性,又保持了動漫風(fēng)格的獨特魅力。這種平衡對于所有涉及AI藝術(shù)創(chuàng)作的研究都具有重要的啟發(fā)意義。
對于普通用戶而言,CHARM意味著動漫角色創(chuàng)作門檻的大幅降低。即使沒有專業(yè)的建模技能,普通人也能通過簡單的輸入創(chuàng)造出精美的動漫角色發(fā)型。這種技術(shù)普及化趨勢將為數(shù)字創(chuàng)作帶來更多可能性。
未來,隨著技術(shù)的進(jìn)一步發(fā)展,我們可以期待看到更多類似CHARM的AI創(chuàng)作工具。這些工具將繼續(xù)模糊技術(shù)與藝術(shù)之間的界限,為人類創(chuàng)造力提供更強大的支撐。感興趣的讀者如想深入了解技術(shù)細(xì)節(jié),可以通過論文編號arXiv:2509.21114v1查詢完整的研究報告。
Q&A
Q1:CHARM動漫發(fā)型生成框架的核心技術(shù)原理是什么?
A:CHARM將復(fù)雜的動漫發(fā)型轉(zhuǎn)換成簡單的控制點序列,每個控制點只需5個參數(shù)(位置、寬度、厚度)就能描述發(fā)絲特征。然后把發(fā)型生成變成類似寫文章的過程,每個控制點是"單詞",每根頭發(fā)是"句子",整個發(fā)型是"文章"。AI模型像作家一樣逐詞逐句地生成發(fā)型,既保證了細(xì)節(jié)準(zhǔn)確性又確保了整體協(xié)調(diào)性。
Q2:相比傳統(tǒng)發(fā)型建模方法,CHARM有哪些具體優(yōu)勢?
A:傳統(tǒng)方法需要手工雕琢每根頭發(fā),耗時巨大且難以修改。CHARM實現(xiàn)了98%以上的數(shù)據(jù)壓縮,幾分鐘就能生成傳統(tǒng)方法需要幾小時才能完成的發(fā)型。更重要的是,CHARM生成的發(fā)型保持了動漫風(fēng)格的藝術(shù)特色,各個發(fā)絲之間協(xié)調(diào)自然,而傳統(tǒng)AI方法往往產(chǎn)生粗糙不完整的結(jié)果。
Q3:普通人能否使用CHARM技術(shù)創(chuàng)建動漫角色發(fā)型?
A:目前CHARM還處于研究階段,普通用戶無法直接使用。但研究團(tuán)隊已經(jīng)展示了通過簡單輸入(如角色圖片或基本描述)就能生成發(fā)型的能力。隨著技術(shù)成熟,未來很可能會有基于CHARM的用戶友好工具出現(xiàn),讓沒有專業(yè)建模技能的人也能輕松創(chuàng)建動漫角色發(fā)型。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。