這項(xiàng)由香港中文大學(xué)多媒體實(shí)驗(yàn)室的王子?xùn)|、張熠源等研究員領(lǐng)導(dǎo)的重要研究,于2025年發(fā)表在計(jì)算機(jī)學(xué)習(xí)領(lǐng)域的頂級(jí)學(xué)術(shù)平臺(tái)上。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)論文代碼庫(kù)https://github.com/WZDTHU/TiM訪問(wèn)完整研究資料。這項(xiàng)突破性研究解決了AI圖像生成領(lǐng)域一個(gè)長(zhǎng)期存在的核心難題,為普通用戶帶來(lái)了前所未有的靈活性。
在當(dāng)今的AI圖像生成世界里,存在著一個(gè)令人頭疼的兩難選擇。就像烹飪一樣,你要么選擇快餐式的生成方法——幾秒鐘就能得到一張圖片,但質(zhì)量往往差強(qiáng)人意;要么選擇精工細(xì)作的慢燉模式——需要等待幾分鐘才能獲得高質(zhì)量作品,但時(shí)間成本讓人望而卻步。這種"要快不要好,要好不要快"的困境一直困擾著研究者和用戶。
更讓人苦惱的是,現(xiàn)有的AI圖像生成模型就像只會(huì)一種烹飪方式的廚師。有些模型專(zhuān)精于快速制作,比如一些"快餐"模型能在一兩步內(nèi)生成圖片,但畫(huà)面質(zhì)量就像街邊小攤的快餐,雖然能填飽肚子但談不上精致。另一些模型則走高端路線,需要數(shù)百步的精細(xì)處理才能產(chǎn)出令人滿意的作品,就像米其林餐廳的大廚,出品精美但等待時(shí)間漫長(zhǎng)。
研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)問(wèn)題的根源在于現(xiàn)有模型的"學(xué)習(xí)方式"存在局限性。傳統(tǒng)的快速生成模型就像只學(xué)會(huì)了速成菜譜的廚師,雖然能快速出菜,但無(wú)法在有更多時(shí)間時(shí)做得更好。而傳統(tǒng)的精細(xì)模型則像只會(huì)做法式大餐的廚師,必須按照復(fù)雜的步驟一步步來(lái),無(wú)法根據(jù)情況簡(jiǎn)化流程。
面對(duì)這個(gè)難題,香港中文大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:過(guò)渡模型(Transition Models,簡(jiǎn)稱(chēng)TiM)。這個(gè)名字聽(tīng)起來(lái)很學(xué)術(shù),但實(shí)際上它的核心理念非常簡(jiǎn)單——讓AI學(xué)會(huì)在任意兩個(gè)狀態(tài)之間進(jìn)行"跳躍",就像一個(gè)全能廚師,既能做快餐也能做大餐,還能根據(jù)客人的時(shí)間需求靈活調(diào)整制作精細(xì)度。
過(guò)渡模型的獨(dú)特之處在于,它不是學(xué)習(xí)固定的"菜譜",而是學(xué)習(xí)如何在任意兩個(gè)時(shí)間點(diǎn)之間進(jìn)行狀態(tài)轉(zhuǎn)換。打個(gè)比方,傳統(tǒng)模型就像只會(huì)按照固定步驟做菜的機(jī)器人,要么執(zhí)行"3分鐘快速炒菜程序",要么執(zhí)行"30分鐘精細(xì)烹飪程序",無(wú)法中途調(diào)整。而過(guò)渡模型就像一個(gè)經(jīng)驗(yàn)豐富的大廚,能夠根據(jù)現(xiàn)有食材的狀態(tài)和剩余時(shí)間,靈活決定下一步該做什么,無(wú)論你給他3分鐘還是30分鐘,都能在有限時(shí)間內(nèi)做出最好的菜。
研究團(tuán)隊(duì)的核心突破在于建立了一個(gè)叫做"狀態(tài)轉(zhuǎn)換恒等式"的數(shù)學(xué)框架。這個(gè)聽(tīng)起來(lái)復(fù)雜的概念,實(shí)際上就像是為AI制定了一套通用的"烹飪?cè)?。傳統(tǒng)方法要么只教AI學(xué)習(xí)瞬時(shí)的變化(就像只告訴廚師"現(xiàn)在把火調(diào)大一點(diǎn)"),要么只教AI學(xué)習(xí)從頭到尾的完整過(guò)程(就像只給廚師一本詳細(xì)的菜譜)。而狀態(tài)轉(zhuǎn)換恒等式則教會(huì)AI理解任意時(shí)間跨度內(nèi)應(yīng)該發(fā)生的變化,就像告訴廚師"無(wú)論現(xiàn)在食材是什么狀態(tài),無(wú)論你有多少時(shí)間,都能知道下一步該怎么做才能達(dá)到最好的效果"。
這個(gè)框架的巧妙之處在于它同時(shí)滿足兩個(gè)重要特性。第一個(gè)特性叫做"隱式軌跡一致性",簡(jiǎn)單來(lái)說(shuō)就是確保AI無(wú)論選擇什么路徑,最終都能到達(dá)同一個(gè)目標(biāo)。就像一個(gè)好的導(dǎo)航系統(tǒng),無(wú)論你選擇高速公路還是市區(qū)道路,都能可靠地把你送到目的地。第二個(gè)特性是"時(shí)間斜率匹配",這意味著AI不僅要知道目標(biāo)在哪里,還要知道以什么速度前進(jìn)最合適,就像一個(gè)經(jīng)驗(yàn)豐富的司機(jī),知道在不同路段該開(kāi)多快。
為了讓這個(gè)理論框架能夠?qū)嶋H運(yùn)用,研究團(tuán)隊(duì)還解決了一個(gè)重要的技術(shù)難題。傳統(tǒng)的計(jì)算方法需要使用一種叫做"雅可比向量積"的復(fù)雜運(yùn)算,這種方法雖然精確,但就像用手工計(jì)算器做復(fù)雜運(yùn)算一樣,不僅速度慢,還無(wú)法與現(xiàn)代的高效計(jì)算框架兼容。研究團(tuán)隊(duì)創(chuàng)新性地提出了"微分導(dǎo)數(shù)方程"方法,這就像是用現(xiàn)代計(jì)算器替代了算盤(pán),不僅速度提升了一倍,更重要的是能夠與現(xiàn)有的高效訓(xùn)練系統(tǒng)完美配合,讓大規(guī)模模型的訓(xùn)練成為可能。
在模型架構(gòu)方面,研究團(tuán)隊(duì)也進(jìn)行了精心的設(shè)計(jì)優(yōu)化。他們引入了"解耦時(shí)間和間隔嵌入"機(jī)制,這聽(tīng)起來(lái)很技術(shù)化,實(shí)際上就是讓AI能夠同時(shí)理解"現(xiàn)在是什么時(shí)候"和"還有多少時(shí)間可用"這兩個(gè)不同的概念。就像一個(gè)聰明的廚師,不僅知道現(xiàn)在菜做到了哪一步,還知道客人什么時(shí)候要用餐,從而能夠合理安排剩下的烹飪流程。
另一個(gè)重要的創(chuàng)新是"間隔感知注意力機(jī)制"。在AI圖像生成的過(guò)程中,注意力機(jī)制就像是廚師的眼睛,決定在什么時(shí)候關(guān)注哪些細(xì)節(jié)。傳統(tǒng)的注意力機(jī)制就像是近視眼的廚師,總是用同樣的方式觀察食材。而間隔感知注意力則像是配了多副眼鏡的廚師,當(dāng)時(shí)間充裕時(shí)會(huì)仔細(xì)觀察每個(gè)細(xì)節(jié),當(dāng)時(shí)間緊迫時(shí)會(huì)重點(diǎn)關(guān)注最重要的部分,從而實(shí)現(xiàn)更高效的資源分配。
研究團(tuán)隊(duì)在實(shí)驗(yàn)驗(yàn)證階段展現(xiàn)了令人印象深刻的成果。他們的過(guò)渡模型雖然只有8.65億個(gè)參數(shù)(在AI模型中算是相對(duì)精簡(jiǎn)的),但在各種測(cè)試中都表現(xiàn)出色。在GenEval這個(gè)權(quán)威的圖像生成質(zhì)量評(píng)估基準(zhǔn)上,過(guò)渡模型在單步生成時(shí)獲得了0.67分,在128步生成時(shí)達(dá)到了0.83分,全面超越了包括SD3.5(80億參數(shù))和FLUX.1(120億參數(shù))在內(nèi)的業(yè)界領(lǐng)先模型。
更令人驚喜的是,過(guò)渡模型展現(xiàn)出了真正的"多面手"特質(zhì)。無(wú)論用戶需要快速生成(1步)、中等質(zhì)量(8步)還是高精度制作(128步),模型都能提供相應(yīng)質(zhì)量的輸出,而且質(zhì)量隨著步數(shù)增加呈現(xiàn)單調(diào)遞增的趨勢(shì)。這就像是一個(gè)真正全能的廚師,既能做出合格的快餐,也能在時(shí)間允許時(shí)制作出精美大餐,完全根據(jù)客人的需求和時(shí)間安排靈活調(diào)整。
在分辨率適應(yīng)性方面,過(guò)渡模型也表現(xiàn)出了強(qiáng)大的能力。它能夠原生支持從1024×1024到4096×4096像素的各種分辨率,甚至能夠處理2:5到5:2等各種極端寬高比的圖像生成需求。這種靈活性就像是一個(gè)能在各種尺寸畫(huà)布上都能游刃有余的畫(huà)家,無(wú)論是小幅素描還是大型壁畫(huà),都能保持一致的藝術(shù)水準(zhǔn)。
在實(shí)際應(yīng)用的文本到圖像生成任務(wù)中,過(guò)渡模型使用了3300萬(wàn)張來(lái)自公開(kāi)數(shù)據(jù)集的圖片進(jìn)行訓(xùn)練,采用了"原生分辨率訓(xùn)練策略"。這個(gè)策略的核心思想是讓AI在訓(xùn)練時(shí)就接觸各種不同分辨率和寬高比的圖像,就像讓一個(gè)藝術(shù)學(xué)生同時(shí)練習(xí)各種尺寸的畫(huà)作,培養(yǎng)全面的適應(yīng)能力。
模型的訓(xùn)練過(guò)程采用了一種叫做"分辨率依賴(lài)時(shí)間步移位"的技術(shù)。這個(gè)技術(shù)的理念是,高分辨率圖像需要更強(qiáng)的"噪聲干擾"才能有效破壞原始信息,而低分辨率圖像則需要相對(duì)溫和的處理。就像洗不同材質(zhì)的衣服需要調(diào)整洗滌強(qiáng)度一樣,這種自適應(yīng)的處理方式確保了各種分辨率圖像都能獲得最佳的訓(xùn)練效果。
在訓(xùn)練策略方面,研究團(tuán)隊(duì)還采用了創(chuàng)新的"模型引導(dǎo)訓(xùn)練"方法。這種方法會(huì)在訓(xùn)練過(guò)程中讓模型同時(shí)學(xué)習(xí)有條件生成和無(wú)條件生成,然后通過(guò)調(diào)節(jié)兩者的權(quán)重來(lái)提高最終生成質(zhì)量。這就像是讓一個(gè)學(xué)生既要學(xué)會(huì)按照題目要求寫(xiě)作文,也要學(xué)會(huì)自由發(fā)揮,通過(guò)兩種能力的結(jié)合來(lái)提升整體寫(xiě)作水平。
整個(gè)模型的訓(xùn)練使用了16塊NVIDIA A100 GPU,持續(xù)訓(xùn)練了大約30天,采用了4×10^-4的恒定學(xué)習(xí)率。為了提高訓(xùn)練效率,團(tuán)隊(duì)使用了PyTorch FSDP分布式訓(xùn)練框架和半精度浮點(diǎn)運(yùn)算,這些技術(shù)組合確保了大規(guī)模模型訓(xùn)練的可行性和效率。
在與現(xiàn)有方法的對(duì)比中,過(guò)渡模型展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。傳統(tǒng)的擴(kuò)散模型雖然能夠生成高質(zhì)量圖像,但必須經(jīng)過(guò)數(shù)百次迭代步驟,就像是只會(huì)精雕細(xì)琢的工匠,無(wú)法快速出活。一致性模型雖然能夠快速生成,但質(zhì)量提升空間有限,就像是只會(huì)做標(biāo)準(zhǔn)化產(chǎn)品的工廠,缺乏精細(xì)化的能力。而過(guò)渡模型則真正實(shí)現(xiàn)了"魚(yú)和熊掌兼得",既保持了快速生成的能力,又具備了隨時(shí)間投入增加而持續(xù)改善質(zhì)量的特性。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了各個(gè)組件的重要性。實(shí)驗(yàn)結(jié)果顯示,從基礎(chǔ)的擴(kuò)散模型切換到過(guò)渡模型目標(biāo)函數(shù),能夠?qū)尾缴傻膱D像質(zhì)量指標(biāo)從309.5提升到49.91,這是一個(gè)巨大的躍升。而架構(gòu)改進(jìn),包括解耦時(shí)間嵌入和間隔感知注意力,進(jìn)一步將性能提升到了47.46。這些數(shù)字背后反映的是模型在實(shí)際應(yīng)用中從"勉強(qiáng)可用"到"令人滿意"的質(zhì)量飛躍。
在類(lèi)別引導(dǎo)圖像生成任務(wù)中,過(guò)渡模型同樣表現(xiàn)出色。在ImageNet-256×256數(shù)據(jù)集上,模型在單步生成時(shí)達(dá)到了3.26的FID分?jǐn)?shù),在250步生成時(shí)提升到1.65,全面超越了多數(shù)現(xiàn)有方法。這種性能表現(xiàn)證明了過(guò)渡模型不僅在文本到圖像生成方面有優(yōu)勢(shì),在傳統(tǒng)的類(lèi)別條件圖像生成任務(wù)中也具有強(qiáng)大的競(jìng)爭(zhēng)力。
從技術(shù)發(fā)展的角度來(lái)看,過(guò)渡模型的出現(xiàn)標(biāo)志著圖像生成領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。它打破了長(zhǎng)期以來(lái)"速度與質(zhì)量不可兼得"的技術(shù)瓶頸,為用戶提供了真正的選擇自由。用戶不再需要在快速生成和高質(zhì)量輸出之間做痛苦的權(quán)衡,而是可以根據(jù)具體場(chǎng)景和需求,靈活調(diào)整生成參數(shù)來(lái)獲得最適合的結(jié)果。
這項(xiàng)技術(shù)的實(shí)際應(yīng)用前景非常廣闊。對(duì)于內(nèi)容創(chuàng)作者來(lái)說(shuō),他們可以在創(chuàng)意構(gòu)思階段使用快速模式進(jìn)行頭腦風(fēng)暴,在精細(xì)制作階段使用高質(zhì)量模式產(chǎn)出最終作品。對(duì)于商業(yè)應(yīng)用來(lái)說(shuō),企業(yè)可以根據(jù)不同的使用場(chǎng)景調(diào)整生成參數(shù),在演示匯報(bào)時(shí)使用快速模式,在正式發(fā)布時(shí)使用精細(xì)模式。對(duì)于普通用戶來(lái)說(shuō),這意味著他們能夠根據(jù)自己的時(shí)間安排和質(zhì)量需求,獲得最合適的圖像生成服務(wù)。
值得注意的是,盡管過(guò)渡模型在多個(gè)方面都實(shí)現(xiàn)了突破,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前技術(shù)的一些局限性。在內(nèi)容安全和可控性方面,模型仍然面臨挑戰(zhàn),特別是在處理需要精細(xì)細(xì)節(jié)的場(chǎng)景(如文字渲染和手部繪制)時(shí)還有改進(jìn)空間。此外,在極高分辨率(如3072×4096)下,偶爾會(huì)出現(xiàn)一些視覺(jué)瑕疵,這主要是由于底層自編碼器的限制造成的。
從更廣泛的技術(shù)發(fā)展趨勢(shì)來(lái)看,過(guò)渡模型的成功預(yù)示著未來(lái)AI系統(tǒng)將更加注重靈活性和適應(yīng)性。傳統(tǒng)的"一刀切"解決方案正在被能夠根據(jù)具體需求動(dòng)態(tài)調(diào)整的智能系統(tǒng)所替代。這種趨勢(shì)不僅體現(xiàn)在圖像生成領(lǐng)域,也可能在自然語(yǔ)言處理、語(yǔ)音合成等其他AI應(yīng)用領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
對(duì)于整個(gè)AI研究社區(qū)而言,這項(xiàng)工作提供了一個(gè)重要的啟示:有時(shí)候最大的突破不是來(lái)自于更復(fù)雜的模型架構(gòu)或更大的計(jì)算資源,而是來(lái)自于對(duì)問(wèn)題本質(zhì)的重新思考。通過(guò)將注意力從"如何優(yōu)化特定步數(shù)的生成過(guò)程"轉(zhuǎn)向"如何學(xué)習(xí)任意時(shí)間間隔內(nèi)的狀態(tài)轉(zhuǎn)換",研究團(tuán)隊(duì)找到了一個(gè)更加根本和通用的解決方案。
說(shuō)到底,這項(xiàng)研究的真正價(jià)值在于它為AI圖像生成技術(shù)開(kāi)辟了一條全新的發(fā)展道路。它證明了我們不必在速度和質(zhì)量之間做出妥協(xié),而是可以通過(guò)更聰明的方法實(shí)現(xiàn)兩者的統(tǒng)一。就像一個(gè)真正出色的廚師不會(huì)被固定的菜譜所束縛,而是能夠根據(jù)食材狀況、時(shí)間安排和客人需求靈活調(diào)整烹飪方式一樣,過(guò)渡模型讓AI獲得了這種靈活性和智慧。
對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)的AI圖像生成工具將更加貼近實(shí)際需求。你不再需要糾結(jié)于選擇"快速但粗糙"還是"緩慢但精美"的生成模式,而是可以簡(jiǎn)單地告訴AI你有多少時(shí)間,然后等待它在有限時(shí)間內(nèi)為你創(chuàng)造出最好的作品。這種用戶友好的特性,可能會(huì)大大降低AI圖像生成技術(shù)的使用門(mén)檻,讓更多人能夠享受到人工智能創(chuàng)作的樂(lè)趣和便利。
隨著技術(shù)的進(jìn)一步發(fā)展和優(yōu)化,我們有理由期待過(guò)渡模型在解決現(xiàn)有局限性的同時(shí),會(huì)在更多應(yīng)用場(chǎng)景中展現(xiàn)出其獨(dú)特價(jià)值。有興趣了解更多技術(shù)細(xì)節(jié)的讀者,建議訪問(wèn)研究團(tuán)隊(duì)提供的開(kāi)源代碼庫(kù),那里有完整的實(shí)現(xiàn)代碼和實(shí)驗(yàn)結(jié)果,可以幫助深入理解這項(xiàng)技術(shù)的工作原理和應(yīng)用方法。
Q&A
Q1:過(guò)渡模型相比傳統(tǒng)AI畫(huà)圖軟件有什么優(yōu)勢(shì)?
A:過(guò)渡模型最大的優(yōu)勢(shì)是靈活性。傳統(tǒng)AI畫(huà)圖軟件要么只能快速生成低質(zhì)量圖片,要么需要很長(zhǎng)時(shí)間才能出高質(zhì)量作品。而過(guò)渡模型就像一個(gè)全能廚師,既能做快餐也能做大餐,用戶可以根據(jù)自己的時(shí)間安排選擇生成步數(shù),時(shí)間越多質(zhì)量越好,完全由用戶決定速度和質(zhì)量的平衡點(diǎn)。
Q2:過(guò)渡模型生成圖片需要什么硬件配置?
A:論文中提到研究團(tuán)隊(duì)使用16塊NVIDIA A100 GPU進(jìn)行訓(xùn)練,但普通用戶使用訓(xùn)練好的模型生成圖片所需的硬件要求會(huì)低很多。具體配置要求研究團(tuán)隊(duì)暫未公開(kāi)詳細(xì)說(shuō)明,但可以通過(guò)他們提供的GitHub代碼庫(kù)(https://github.com/WZDTHU/TiM)獲取最新的使用指南和硬件建議。
Q3:過(guò)渡模型什么時(shí)候能普及給普通用戶使用?
A:研究團(tuán)隊(duì)已經(jīng)在GitHub上開(kāi)源了代碼,技術(shù)愛(ài)好者現(xiàn)在就可以嘗試使用。但要真正普及到普通消費(fèi)者,還需要等待科技公司將其集成到用戶友好的產(chǎn)品中。考慮到這項(xiàng)技術(shù)的突破性和實(shí)用性,預(yù)計(jì)在未來(lái)1-2年內(nèi)就可能出現(xiàn)基于過(guò)渡模型的商業(yè)化圖像生成服務(wù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。