這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)的陳楠、黃夢(mèng)齊、毛振東以及香港科技大學(xué)的孟伊豪共同完成的研究發(fā)表于2025年7月2日,論文編號(hào)為arXiv:2507.01945v1。有興趣深入了解的讀者可以通過(guò)arXiv平臺(tái)訪問(wèn)完整論文和相關(guān)代碼。
在動(dòng)畫制作的世界里,有一個(gè)讓制作團(tuán)隊(duì)頭疼不已的難題:如何讓長(zhǎng)篇?jiǎng)赢嬛械慕巧冀K保持一致的顏色。當(dāng)你看動(dòng)畫片時(shí),可能從未注意到這個(gè)問(wèn)題,但對(duì)制作團(tuán)隊(duì)來(lái)說(shuō),這卻是一項(xiàng)極其耗時(shí)耗力的工作。以往,動(dòng)畫師需要手工為每一幀畫面上色,確保主角的藍(lán)色衣服在第一集和第十集中看起來(lái)完全一樣,這種工作往往需要數(shù)百個(gè)小時(shí)才能完成一部10到30秒的短片。
現(xiàn)有的AI上色技術(shù)雖然能夠處理短片段,但面對(duì)長(zhǎng)動(dòng)畫時(shí)就像一個(gè)健忘的畫家,總是忘記之前用過(guò)的顏色。比如一個(gè)角色的黃色帽子可能在動(dòng)畫進(jìn)行到一半時(shí)突然變成紅色,或者背景的綠色樹葉莫名其妙地變成了紫色。這種"失憶"現(xiàn)象的根本原因在于現(xiàn)有方法只關(guān)注相鄰畫面之間的顏色連貫性,卻忽略了整個(gè)動(dòng)畫的全局色彩一致性。
研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案,他們稱之為"動(dòng)態(tài)全局-局部記憶"機(jī)制。這就像給AI配備了一個(gè)既能記住整體又能關(guān)注細(xì)節(jié)的智能大腦。在這個(gè)比喻中,全局記憶就像一個(gè)資深的美術(shù)指導(dǎo),始終記得每個(gè)角色的標(biāo)準(zhǔn)配色方案,而局部記憶則像一個(gè)細(xì)心的畫師,專注于讓相鄰畫面之間的過(guò)渡看起來(lái)自然流暢。
具體來(lái)說(shuō),他們開發(fā)的LongAnimation系統(tǒng)主要包含三個(gè)核心組件。第一個(gè)是SketchDiT,這相當(dāng)于一個(gè)智能的特征提取器,能夠同時(shí)理解參考圖像、線稿草圖和文字描述,為后續(xù)的色彩記憶機(jī)制提供基礎(chǔ)。第二個(gè)是動(dòng)態(tài)全局-局部記憶模塊,這是整個(gè)系統(tǒng)的核心創(chuàng)新,它能夠從歷史動(dòng)畫片段中動(dòng)態(tài)提取與當(dāng)前生成內(nèi)容相關(guān)的色彩一致性特征。第三個(gè)是色彩一致性獎(jiǎng)勵(lì)機(jī)制,用于進(jìn)一步優(yōu)化色彩的準(zhǔn)確性。
動(dòng)態(tài)全局-局部記憶模塊的工作原理頗為巧妙。它采用了一個(gè)長(zhǎng)視頻理解模型來(lái)壓縮和分析歷史生成的動(dòng)畫片段,就像一個(gè)經(jīng)驗(yàn)豐富的動(dòng)畫師能夠從之前的工作中快速找到相關(guān)的色彩信息。這個(gè)模塊不是簡(jiǎn)單地復(fù)制之前的顏色,而是智能地提取那些與當(dāng)前生成內(nèi)容最相關(guān)的色彩特征,然后將這些全局信息與當(dāng)前的局部特征相結(jié)合,確保既保持長(zhǎng)期的色彩一致性,又不失去畫面的自然流暢性。
在實(shí)際應(yīng)用中,這套系統(tǒng)展現(xiàn)出了令人印象深刻的性能。實(shí)驗(yàn)結(jié)果顯示,LongAnimation在短期動(dòng)畫(14幀)的色彩相似度指標(biāo)上比現(xiàn)有最佳方法提升了57.1%,在長(zhǎng)期動(dòng)畫(平均500幀)上的提升更是達(dá)到了58.0%。視頻質(zhì)量方面的提升也同樣顯著,短期和長(zhǎng)期動(dòng)畫的視頻質(zhì)量分別提升了35.1%和49.1%。這意味著生成的動(dòng)畫不僅色彩更加一致,整體視覺(jué)效果也更加出色。
更值得注意的是,這套系統(tǒng)能夠穩(wěn)定地為平均長(zhǎng)度達(dá)500幀的動(dòng)畫進(jìn)行上色,這個(gè)長(zhǎng)度是以往方法能夠處理的至少5倍。這種能力的提升對(duì)動(dòng)畫行業(yè)具有重要意義,因?yàn)楝F(xiàn)實(shí)中的動(dòng)畫片段往往長(zhǎng)達(dá)10到30秒,對(duì)應(yīng)300到1000幀的畫面,而傳統(tǒng)方法很難維持如此長(zhǎng)時(shí)間的色彩一致性。
研究團(tuán)隊(duì)還引入了一個(gè)巧妙的推理時(shí)色彩融合技術(shù)。他們發(fā)現(xiàn),如果在整個(gè)去噪過(guò)程中都進(jìn)行畫面融合,會(huì)干擾圖像的亮度等視覺(jué)細(xì)節(jié),特別是在較暗的動(dòng)畫場(chǎng)景中這種問(wèn)題更為明顯。因此,他們選擇只在去噪過(guò)程的后期階段進(jìn)行融合,這樣既能保證相鄰片段之間的平滑過(guò)渡,又不會(huì)影響其他視覺(jué)特征。
在技術(shù)實(shí)現(xiàn)方面,LongAnimation基于CogVideoX這一先進(jìn)的視頻生成模型,采用了DiT(Diffusion Transformer)架構(gòu)。他們?cè)赟akuga-42M數(shù)據(jù)集上進(jìn)行訓(xùn)練,這個(gè)數(shù)據(jù)集包含了大量高質(zhì)量的動(dòng)畫片段。整個(gè)訓(xùn)練過(guò)程分為三個(gè)階段:首先訓(xùn)練SketchDiT模塊30,000步,然后訓(xùn)練全局-局部記憶模塊10,000步,最后使用色彩一致性獎(jiǎng)勵(lì)進(jìn)行10,000步的精調(diào)。
實(shí)驗(yàn)評(píng)估采用了多個(gè)維度的指標(biāo),包括視頻質(zhì)量指標(biāo)(FID和FVD)以及幀級(jí)色彩相似度指標(biāo)(PSNR、LPIPS和SSIM)。研究團(tuán)隊(duì)將他們的方法與現(xiàn)有的幾個(gè)主要方法進(jìn)行了對(duì)比,包括ToonCrafter、LVCD和AniDoc等,結(jié)果顯示LongAnimation在所有指標(biāo)上都取得了最佳性能。
特別有趣的是,研究團(tuán)隊(duì)還進(jìn)行了頻域分析,發(fā)現(xiàn)他們的方法在保持低頻信息(主要對(duì)應(yīng)色彩特征)方面表現(xiàn)最好,在500幀的長(zhǎng)動(dòng)畫中,低頻信息的衰減率比次優(yōu)方法降低了8.2%。這從技術(shù)角度證實(shí)了該方法在長(zhǎng)期色彩一致性保持方面的優(yōu)越性。
除了核心的上色功能,LongAnimation還具備文本引導(dǎo)的背景生成能力。通過(guò)在SketchDiT中引入文本控制條件,系統(tǒng)能夠根據(jù)文本描述生成相應(yīng)的背景內(nèi)容,這是以往方法無(wú)法實(shí)現(xiàn)的功能。比如,用戶可以輸入"在森林中"或"在海邊"這樣的描述,系統(tǒng)就能生成相應(yīng)的背景環(huán)境,同時(shí)保持角色色彩的一致性。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來(lái)驗(yàn)證各個(gè)組件的有效性。結(jié)果顯示,相比僅使用SketchDiT的基礎(chǔ)版本,引入動(dòng)態(tài)全局-局部記憶機(jī)制后,幀相似度指標(biāo)提升了11.6%,視頻質(zhì)量提升了18.6%。色彩一致性獎(jiǎng)勵(lì)機(jī)制的加入進(jìn)一步帶來(lái)了10.5%的幀相似度提升和8.0%的視頻質(zhì)量提升。
在推理時(shí)間的色彩融合實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)融合時(shí)機(jī)的選擇至關(guān)重要。如果從去噪過(guò)程的早期階段就開始融合,會(huì)導(dǎo)致視頻質(zhì)量下降,但如果在去噪的后期階段進(jìn)行融合,則能在保證融合幀一致性的同時(shí)維持其他幀的亮度等特征。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用具有重要指導(dǎo)意義。
這項(xiàng)研究的意義不僅在于技術(shù)層面的突破,更在于它為動(dòng)畫產(chǎn)業(yè)帶來(lái)的實(shí)際價(jià)值。傳統(tǒng)的動(dòng)畫上色工作極其耗時(shí),一個(gè)熟練的動(dòng)畫師可能需要數(shù)天時(shí)間才能完成幾秒鐘動(dòng)畫的上色工作。而LongAnimation的出現(xiàn)有望大大縮短這個(gè)過(guò)程,讓動(dòng)畫制作團(tuán)隊(duì)能夠?qū)⒏嗑ν度氲絼?chuàng)意和故事本身,而不是重復(fù)性的技術(shù)工作。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究代表了AI在創(chuàng)意產(chǎn)業(yè)應(yīng)用方面的重要進(jìn)展。它不僅解決了一個(gè)具體的技術(shù)難題,更展示了如何將長(zhǎng)視頻理解、動(dòng)態(tài)記憶機(jī)制和擴(kuò)散模型等前沿技術(shù)有機(jī)結(jié)合,形成一個(gè)完整的解決方案。這種跨領(lǐng)域技術(shù)融合的思路對(duì)其他相關(guān)研究也具有啟發(fā)意義。
當(dāng)然,這項(xiàng)技術(shù)目前還有一些局限性。比如,它主要針對(duì)的是線稿動(dòng)畫的上色任務(wù),對(duì)于其他類型的動(dòng)畫制作支持還有待擴(kuò)展。此外,雖然在實(shí)驗(yàn)數(shù)據(jù)集上表現(xiàn)出色,但在實(shí)際商業(yè)應(yīng)用中的穩(wěn)定性和可靠性還需要進(jìn)一步驗(yàn)證。
展望未來(lái),這種動(dòng)態(tài)記憶機(jī)制可能會(huì)被應(yīng)用到更廣泛的視頻生成任務(wù)中,不僅限于動(dòng)畫上色。比如,它可能被用于視頻風(fēng)格轉(zhuǎn)換、角色一致性維護(hù),甚至是更復(fù)雜的視頻編輯任務(wù)。隨著技術(shù)的不斷完善,我們有理由相信,AI將在創(chuàng)意產(chǎn)業(yè)中發(fā)揮越來(lái)越重要的作用,成為創(chuàng)作者們的得力助手。
說(shuō)到底,LongAnimation代表的不僅僅是一項(xiàng)技術(shù)創(chuàng)新,更是對(duì)創(chuàng)意工作流程的重新思考。它告訴我們,通過(guò)巧妙的技術(shù)設(shè)計(jì),AI不僅能夠承擔(dān)重復(fù)性的技術(shù)工作,還能在保證質(zhì)量的前提下大大提高效率。這種人機(jī)協(xié)作的模式可能是創(chuàng)意產(chǎn)業(yè)未來(lái)發(fā)展的重要方向。對(duì)于動(dòng)畫愛(ài)好者來(lái)說(shuō),這項(xiàng)技術(shù)的成熟可能意味著我們將看到更多高質(zhì)量的動(dòng)畫作品,而對(duì)于從業(yè)者來(lái)說(shuō),它則可能徹底改變傳統(tǒng)的工作方式,讓創(chuàng)意表達(dá)變得更加自由和高效。
Q&A
Q1:LongAnimation能處理多長(zhǎng)的動(dòng)畫?它比傳統(tǒng)方法強(qiáng)在哪里? A:LongAnimation能穩(wěn)定處理平均500幀的動(dòng)畫(約16-20秒),是傳統(tǒng)方法處理能力的至少5倍。它的主要優(yōu)勢(shì)在于具備"全局記憶"能力,就像一個(gè)不會(huì)忘記角色原本顏色的畫師,能確保動(dòng)畫從頭到尾顏色保持一致,而傳統(tǒng)方法只能保證相鄰片段的顏色連貫性。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)取代動(dòng)畫師的工作? A:不會(huì)完全取代,更像是給動(dòng)畫師配備了一個(gè)智能助手。LongAnimation主要處理重復(fù)性的上色工作,讓動(dòng)畫師能將更多精力投入到創(chuàng)意構(gòu)思、角色設(shè)計(jì)和故事表達(dá)上。它解決的是技術(shù)性的色彩一致性問(wèn)題,而動(dòng)畫的靈魂仍然需要人類的創(chuàng)意和情感投入。
Q3:普通用戶能使用這項(xiàng)技術(shù)嗎?使用門檻高不高? A:目前LongAnimation還主要是研究階段的技術(shù),代碼已在GitHub開源供研究使用。對(duì)于普通用戶來(lái)說(shuō),需要一定的技術(shù)背景才能部署使用。不過(guò)隨著技術(shù)成熟,未來(lái)很可能會(huì)有更友好的商業(yè)化產(chǎn)品出現(xiàn),讓普通創(chuàng)作者也能輕松使用這種AI上色技術(shù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。