近日,由北京大學、中國電信、新加坡國立大學和普林斯頓大學的研究團隊聯(lián)合發(fā)布了一項突破性研究成果。這篇題為《Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model》的論文已發(fā)表于arXiv(arXiv:2505.23606v1),論文第一作者為石慶宇和白錦彬,通訊作者為李祥泰、李學龍和嚴淑成。有興趣深入了解的讀者可通過GitHub(https://github.com/M-E-AGI-Lab/Muddit)獲取源代碼和模型。
想象一下,如果你的手機相冊和備忘錄能夠互相理解,相互轉化,會是什么樣的體驗?你可以用文字描述一幅畫面,手機就能立刻為你生成相應的圖像;你也可以拍攝一張照片,手機立刻能為你生成詳細的文字描述。這聽起來很神奇,但長期以來,這種雙向轉換存在兩個主要瓶頸:一是傳統(tǒng)方法生成速度慢;二是不同模態(tài)間缺乏統(tǒng)一的生成范式。
Muddit正是為解決這些問題而生的統(tǒng)一生成模型。它采用了一種稱為"離散擴散"的技術,能夠實現(xiàn)文本與圖像之間的雙向高效轉換。不同于以往需要一個接一個地生成內(nèi)容的自回歸模型,Muddit可以并行生成內(nèi)容,大大提高了生成速度。更重要的是,它在一個統(tǒng)一的架構下處理文本和圖像兩種不同的模態(tài),實現(xiàn)了真正的多模態(tài)融合。
那么,Muddit是如何工作的呢?想象你有一幅拼圖,但拼圖上的很多塊都被擦去了。Muddit就像一個能看到完整圖像的助手,通過分析周圍已有的拼圖塊,它能夠一次性預測多個缺失的塊,而不需要按照固定順序一塊一塊地填補。這種并行生成的方式不僅速度更快,而且能夠更好地捕捉不同內(nèi)容塊之間的關系。
研究團隊的實驗結果表明,盡管Muddit只有1B的參數(shù)規(guī)模(這在當今動輒幾十上百億參數(shù)的大模型中算是相當"小巧"的),但其性能卻能夠匹敵甚至超越那些參數(shù)量遠大于它的自回歸模型。在各種基準測試中,Muddit展現(xiàn)出了優(yōu)異的性能,尤其是在生成高質量圖像和準確回答視覺問題方面。
一、統(tǒng)一生成模型的發(fā)展與挑戰(zhàn)
想象你在學習一門新語言的同時還要學習繪畫。如果這兩項技能完全沒有關聯(lián),學習起來會非常困難。但如果能找到它們之間的共通點,比如都需要理解構圖和表達,學習效率就會大大提高。這正是統(tǒng)一生成模型要解決的問題:如何讓計算機既能理解和生成文本,又能理解和生成圖像,而且是在同一個框架下完成的。
傳統(tǒng)的多模態(tài)生成模型主要有四種類型。第一種是完全自回歸模型,它們將文本和圖像都轉換為一串標記(token),然后從左到右逐個生成。想象一下你在寫信,必須一個字一個字地寫,不能跳著寫或同時寫多個字。這種方法雖然能產(chǎn)生高質量的結果,但速度極慢,尤其是生成圖像時,因為一張圖像可能包含成千上萬個標記。
第二種是混合型模型,使用自回歸方式生成文本,但用擴散模型生成圖像。這就像你會用兩種完全不同的方式來寫作和繪畫,雖然各有所長,但缺乏統(tǒng)一性。第三種是圖像使用連續(xù)擴散,文本使用離散擴散的混合模型,同樣面臨統(tǒng)一性問題。
第四種,也是Muddit所屬的類型,是完全離散擴散模型。它在統(tǒng)一的框架下處理文本和圖像,支持并行采樣和原生集成。然而,現(xiàn)有的這類模型如UniDisc存在生成質量不足、難以生成高分辨率圖像等問題。
Muddit的創(chuàng)新之處在于,它結合了離散擴散的高效并行生成能力,以及預訓練文生圖模型中豐富的視覺先驗知識。這就像一個既掌握了繪畫技巧,又精通寫作的老師,能夠同時指導你完成這兩項任務,而且能讓你理解它們之間的聯(lián)系。
二、Muddit的技術原理:如何統(tǒng)一不同模態(tài)
了解Muddit如何工作,我們需要先理解什么是離散擴散。想象你在玩一個猜詞游戲:我心里想了一個詞,但只告訴你部分字母,其余的用星號代替,比如"a**le"。你可能會猜這是"apple"。離散擴散就是這樣一個過程:先將完整信息(無論是文字還是圖像)中的大部分內(nèi)容遮蓋起來,然后訓練模型學會根據(jù)剩余可見的部分來恢復完整信息。
在技術層面,Muddit使用連續(xù)時間馬爾可夫鏈來描述這個"遮蓋-恢復"的過程。每個標記(可以是一個文字或圖像的一部分)都有一定概率被遮蓋成特殊的掩碼標記。模型的任務是預測這些被掩碼的標記原本應該是什么。
Muddit的架構包含多個關鍵組件:文本編碼器、圖像編碼器、轉換器生成器、采樣器、文本解碼器和圖像解碼器。文本編碼器將文字轉換為標記嵌入,圖像編碼器將圖像轉換為離散代碼本索引。生成器是一個單一的MM-DiT模型,它能夠預測兩種模態(tài)的被掩碼標記。
特別值得一提的是,Muddit的生成器使用了預訓練的Meissonic文生圖模型進行初始化。這就像是模型先在繪畫學校學習了如何創(chuàng)作精美的畫作,然后再學習如何將畫作與文字聯(lián)系起來。這種預訓練帶來了豐富的視覺先驗知識,能夠捕捉空間結構和語義關聯(lián),大大提升了樣本質量并加速了收斂。
在訓練過程中,Muddit使用余弦調度策略進行掩碼。這就像是在訓練初期給模型看的信息很少,讓它大膽猜測;隨著訓練進行,逐漸給它更多信息,讓它的預測更加精確。這種策略確保了模型能夠從完全隨機的猜測逐步學會準確地理解和生成內(nèi)容。
三、統(tǒng)一訓練與推理:一個模型處理多種任務
Muddit最令人印象深刻的特點是它的統(tǒng)一性。無論是從文本生成圖像,還是從圖像生成文本,它都使用相同的訓練目標和推理策略。這就像是用同一套方法學習既能聽寫(將聽到的聲音轉為文字)又能朗讀(將文字轉為聲音)的能力。
在訓練階段,無論是處理文本到圖像還是圖像到文本的任務,Muddit都應用相同的連續(xù)時間負ELBO(Evidence Lower Bound)目標函數(shù)。當從文本生成圖像時,文本嵌入作為條件;當從圖像生成文本時,圖像嵌入作為條件。這種對稱性使得優(yōu)化過程在各個任務中保持一致,使模型能夠使用單一參數(shù)集共同訓練這兩個方向的生成能力。
在推理階段,Muddit采用時間反轉后驗來逐步恢復被掩碼的內(nèi)容。想象一下拼圖游戲:一開始所有拼圖塊都是空白的,隨著時間推移,Muddit能夠同時預測多個拼圖塊的內(nèi)容,而不需要按固定順序一塊一塊填補。這種動態(tài)方法比自回歸方法更靈活,因為它不依賴于固定的標記順序,而是基于對任意可見標記子集的理解來預測。
Muddit支持三種主要任務:文本到圖像生成、圖像到文本生成(圖像描述)和視覺問答。在所有這些任務中,唯一的變化是提供給生成器的條件源;擴散過程和指導邏輯保持不變。比如,在文本到圖像生成中,文本編碼器產(chǎn)生文本標記嵌入作為條件;在圖像到文本生成中,圖像編碼器產(chǎn)生的視覺標記作為條件;在視覺問答中,則同時使用圖像和問題作為條件。
此外,Muddit還應用了無分類器引導技術來提升生成質量。這就像是給模型提供了一個參考點,告訴它"這是你應該避免的方向",從而使它能夠更好地朝著期望的方向前進。這種技術在所有三種任務中都使用相同的引導規(guī)則,進一步體現(xiàn)了模型的統(tǒng)一性。
四、實驗結果:小模型也能有大能力
Muddit的實驗設置分為兩個階段:預訓練和監(jiān)督微調。在預訓練階段,研究團隊使用了大約350萬個圖像-文本對,其中包括約200萬對經(jīng)過重新描述的高質量圖像-文本對。在監(jiān)督微調階段,他們使用了包括LLaVA-Instruct-150K和MG-LLaVA調優(yōu)集在內(nèi)的指令跟隨數(shù)據(jù)集,以及50萬對精心策劃的高質量圖像-文本對。
在文本到圖像生成任務上,Muddit在GenEval基準測試中取得了0.61的總體準確率,超過了之前的離散擴散模型如Monetico(0.44)和Meissonic(0.54),并接近Stable Diffusion 3(0.62)的性能,盡管后者的參數(shù)量遠大于Muddit的1B參數(shù)。特別是在"兩個物體"子集上得分0.72,在"計數(shù)"上得分0.54,展現(xiàn)出強大的組合推理能力。
在圖像到文本生成和視覺問答任務上,Muddit同樣表現(xiàn)出色。在MS-COCO圖像描述任務上,它獲得了59.7的CIDEr得分,超過了更大的模型如Show-O和D-DiT。在VQAv2基準測試中,它達到了67.7%的準確率,超過了其他基于擴散的模型如D-DiT(512×512),并接近使用13B參數(shù)的自回歸模型LLaVA-Next的性能。
在推理速度方面,Muddit以其并行離散擴散解碼器,將平均延遲降低到僅1.49秒,比競爭基線快4到11倍(比Qwen-2.5-VL快4.2倍,比Show-o快5.6倍,比BLIP-2快8.1倍,比LLaVA-1.6快10.9倍)。
五、消融研究:每個組件都很重要
研究團隊進行了詳盡的消融實驗,分析了各種設計選擇對Muddit性能的影響。首先,他們研究了擴散時間步數(shù)的影響。結果表明,增加擴散步數(shù)通常會提高性能,大多數(shù)指標在T=32-50時趨于穩(wěn)定。特別是GenEval和CIDEr分數(shù)從T=8到T=32有顯著改善,但之后邊際收益遞減。而VQAv2在不同時間步數(shù)下保持相對穩(wěn)定,表明較少的步數(shù)足以處理判別性任務。
其次,他們分析了文本損失權重的影響。中等文本損失權重(約0.6)產(chǎn)生了最佳的整體性能。CIDEr和GenEval分數(shù)在這個值附近達到峰值,表明過度強調或過度忽視文本都會損害生成質量。值得注意的是,VQAv2性能隨著文本監(jiān)督的增加而提高,但在0.6之后開始趨于平穩(wěn)。
第三,研究了聯(lián)合訓練的效果。"聯(lián)合訓練"指的是在圖像標記預測和文本標記預測上都使用交叉熵損失,而"非聯(lián)合訓練"僅在文本標記預測上應用損失。結果顯示,移除聯(lián)合訓練導致GenEval性能從61.6急劇下降到28.3,超過了任何其他變量帶來的變化。與此同時,CIDEr幾乎保持不變(59.4→58.38),表明語言質量得到保留,而VQAv2僅略微下降(69.2→67.8)。這一發(fā)現(xiàn)強調了統(tǒng)一優(yōu)化對多模態(tài)一致性的必要性。
六、Muddit的潛力與局限
盡管Muddit在推進離散擴散用于統(tǒng)一多模態(tài)生成方面取得了重大進展,但它仍然存在一些局限性。首先,由于其基于標記級別的離散表示,該模型在生成逼真或高分辨率圖像方面可能不如連續(xù)擴散模型。其次,Muddit是從預訓練的文生圖基礎模型初始化的,這提供了強大的視覺先驗,但限制了其進行豐富文本理解和生成的能力,使其不太適合需要長形式理解和生成或深度語言推理的任務。
不過,Muddit探索了多模態(tài)生成的新范式,通過利用強大的視覺先驗作為骨架,而不是追隨當前擴展大型語言模型的趨勢。這為高效、接地的多模態(tài)生成提供了一條互補的路徑,特別是在以視覺為中心的應用中。該模型能夠以快速、并行的方式生成對齊的視覺和文本輸出,這對下游任務可能有益,特別是在基于完成的場景中,如掩碼字幕、圖像編輯和代碼實現(xiàn)。
七、結論:離散擴散的未來
在這項研究中,研究團隊展示了Muddit這一統(tǒng)一生成框架,它利用離散擴散來連接文本和圖像模態(tài)。通過在單一模型中統(tǒng)一圖像和文本生成,Muddit在文本到圖像、圖像到文本和VQA任務上展現(xiàn)出強大的性能。值得注意的是,它超越或匹配了明顯更大的自回歸模型的能力,同時實現(xiàn)了快速、并行的推理。
這些結果證實了離散去噪作為通用建模策略的有效性,并強調了其作為未來多模態(tài)系統(tǒng)可擴展骨架的潛力。正如研究團隊所希望的,這項工作可能會啟發(fā)統(tǒng)一生成建模的新趨勢,基于離散擴散,超越傳統(tǒng)文本到圖像合成和文本合成的邊界。
當我們展望未來,Muddit代表了一種有前途的方向,將不同的模態(tài)和任務統(tǒng)一在一個連貫的框架下。通過結合并行處理的效率和預訓練模型的豐富知識,這種方法可能會繼續(xù)推動人工智能系統(tǒng)在理解和生成多種形式內(nèi)容方面的能力。隨著這一領域的發(fā)展,我們可以期待看到更多像Muddit這樣的創(chuàng)新,它們不僅提高性能,還提供更直觀、更統(tǒng)一的方式來思考跨模態(tài)任務。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。