av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 騰訊AI突破傳統(tǒng)圖像生成:不再需要"翻譯"就能直接創(chuàng)造連續(xù)畫面

騰訊AI突破傳統(tǒng)圖像生成:不再需要"翻譯"就能直接創(chuàng)造連續(xù)畫面

2025-07-09 09:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-09 09:41 ? 科技行者

這項由騰訊公司微信AI團(tuán)隊的邵晨澤、孟凡東和周杰三位研究者共同完成的突破性研究,發(fā)表在2025年第42屆機器學(xué)習(xí)國際會議(ICML 2025)上。有興趣深入了解的讀者可以通過論文代碼庫https://github.com/shaochenze/EAR訪問完整研究資料。

要理解這項研究的重要意義,我們可以從一個簡單的類比開始。傳統(tǒng)的AI圖像生成就像是讓一個外國人畫畫,他必須先把你的要求翻譯成自己的語言,再用有限的顏色盒子里的顏色來作畫。這個"翻譯"過程不可避免地會丟失一些細(xì)節(jié)和色彩層次。而騰訊這項新研究就像是教會了AI直接用無限豐富的調(diào)色板來作畫,不再需要任何"翻譯"步驟。

在傳統(tǒng)方法中,計算機需要先把連續(xù)的圖像信息轉(zhuǎn)換成離散的"代幣"(就像把連續(xù)的彩虹色彩切分成有限的幾種顏色),然后再用這些有限的代幣來重新組合生成圖像。這個過程就像用馬賽克拼圖來還原一幅油畫,總是會丟失一些精細(xì)的漸變和細(xì)節(jié)。騰訊的研究團(tuán)隊發(fā)現(xiàn)了一種全新的方法,讓AI能夠直接處理連續(xù)的視覺信息,就像真正的畫家一樣可以調(diào)出任何需要的色彩。

這種突破的核心在于他們建立了一個叫做"連續(xù)視覺自回歸生成"的框架。自回歸聽起來很復(fù)雜,但其實就是AI一步一步地生成圖像的方式,就像畫家一筆一筆地完成畫作。傳統(tǒng)方法需要先把畫作"量化"成固定的幾種顏色,而新方法讓AI可以直接使用無限豐富的色彩。

研究團(tuán)隊的創(chuàng)新之處在于運用了一種叫做"嚴(yán)格適當(dāng)評分規(guī)則"的數(shù)學(xué)工具。這個概念聽起來很學(xué)術(shù),但實際上它就像是一個非常誠實的評判系統(tǒng)。當(dāng)AI生成圖像時,這個評判系統(tǒng)會給出最公正的分?jǐn)?shù),而且它有一個特殊的性質(zhì):只有當(dāng)AI完全誠實地反映真實圖像分布時,它才能得到最高分。任何偏離真實的生成都會導(dǎo)致分?jǐn)?shù)下降。

在這個框架下,研究團(tuán)隊主要探索了一種基于"能量分?jǐn)?shù)"的訓(xùn)練方法。能量分?jǐn)?shù)是一種不需要明確計算概率的評分方式,這解決了連續(xù)空間中概率計算極其困難的問題。就像評判一個畫家的水平,你不需要用復(fù)雜的數(shù)學(xué)公式,而是可以直觀地看畫作是否生動、是否接近真實。

有趣的是,之前一些看似不同的研究方法,比如GIVT(生成無限詞匯表變換器)和擴散損失,實際上都可以在這個新框架下得到統(tǒng)一的解釋。GIVT使用的是對數(shù)評分,而擴散損失對應(yīng)的是Hyvarinen評分。這就像發(fā)現(xiàn)了不同烹飪方法背后的共同原理一樣,為整個領(lǐng)域提供了更深層的理解。

基于這個理論框架,研究團(tuán)隊開發(fā)了一種叫做EAR(Energy-based AutoRegression,基于能量的自回歸)的具體方法。這個方法的巧妙之處在于,它不需要明確估計概率密度,只需要能夠從模型分布中采樣即可。這大大降低了實現(xiàn)的復(fù)雜度,同時提供了更大的表達(dá)能力。

EAR使用的能量損失函數(shù)有一個很直觀的含義:它鼓勵模型生成的樣本盡可能接近目標(biāo)圖像,同時保持生成樣本之間的多樣性。這就像訓(xùn)練一個畫家,既要畫得像,又要保持創(chuàng)作的多樣性,不能總是畫出一模一樣的作品。

在具體的模型架構(gòu)上,能量變換器與傳統(tǒng)的離散變換器非常相似,主要區(qū)別在于輸出層。傳統(tǒng)方法使用softmax層從有限的詞匯表中選擇,而能量變換器使用一個小型的多層感知機生成器,它可以接受隨機噪聲作為額外輸入,通過采樣過程隱式地表示預(yù)測分布。這種設(shè)計類似于生成對抗網(wǎng)絡(luò)中的生成器,但更加簡潔高效。

研究團(tuán)隊在設(shè)計中還加入了幾個重要的技術(shù)細(xì)節(jié)。首先是溫度機制,這允許在訓(xùn)練和推理過程中調(diào)節(jié)生成的多樣性和準(zhǔn)確性之間的平衡。訓(xùn)練時可以稍微降低多樣性來提高質(zhì)量,推理時可以調(diào)節(jié)創(chuàng)意水平。其次是無分類器引導(dǎo)技術(shù),這是一種在條件生成中提高質(zhì)量的標(biāo)準(zhǔn)方法,通過同時考慮有條件和無條件的預(yù)測來增強生成效果。

另一個重要創(chuàng)新是支持掩碼自回歸生成。與傳統(tǒng)的從左到右的因果生成不同,掩碼自回歸允許雙向注意力,可以更有效地學(xué)習(xí)表示。生成時,模型可以以隨機順序預(yù)測被掩蓋的token,逐步完成整個圖像。這種方法在實驗中表現(xiàn)出比因果生成更好的效果。

在訓(xùn)練過程中,研究團(tuán)隊發(fā)現(xiàn)了一個關(guān)鍵的技術(shù)要點:MLP生成器需要使用比主干網(wǎng)絡(luò)更小的學(xué)習(xí)率。這是因為生成器的訓(xùn)練穩(wěn)定性要求更加嚴(yán)格,需要更細(xì)致的調(diào)優(yōu)。他們還探索了不同類型和維度的隨機噪聲對模型性能的影響,發(fā)現(xiàn)均勻分布的64維噪聲效果最佳。

實驗驗證是這項研究的重要組成部分。研究團(tuán)隊在ImageNet 256×256基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面的評估,這是計算機視覺領(lǐng)域的標(biāo)準(zhǔn)測試平臺。他們將EAR方法與多種現(xiàn)有技術(shù)進(jìn)行了比較,包括生成對抗網(wǎng)絡(luò)、擴散模型和基于向量量化的自回歸模型。

結(jié)果顯示,EAR在生成質(zhì)量上取得了競爭性的表現(xiàn)。特別值得注意的是,EAR-B(205M參數(shù))獲得了2.83的FID分?jǐn)?shù),EAR-H(937M參數(shù))達(dá)到了1.97的FID分?jǐn)?shù),這些結(jié)果在同等規(guī)模的模型中表現(xiàn)優(yōu)異。更重要的是,EAR在推理效率方面顯著優(yōu)于基于擴散的方法,能夠在大約1秒內(nèi)生成高質(zhì)量圖像,而對比方法MAR需要近10倍的時間。

這種效率優(yōu)勢源于EAR和MAR在概率建模方面的根本差異。MAR使用擴散損失訓(xùn)練,需要多次去噪迭代來恢復(fù)目標(biāo)分布,而EAR的能量式監(jiān)督使其能夠在單次前向計算中完成預(yù)測。這就像傳統(tǒng)方法需要反復(fù)修改草稿,而新方法可以一氣呵成。

研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實驗來驗證設(shè)計選擇的合理性。他們發(fā)現(xiàn),嚴(yán)格適當(dāng)性對于評分規(guī)則確實至關(guān)重要。在能量損失中,指數(shù)系數(shù)α的選擇需要在(0,2)范圍內(nèi),α=2時雖然評分規(guī)則仍然適當(dāng),但不是嚴(yán)格適當(dāng)?shù)模?xùn)練效果顯著下降。這驗證了理論分析的正確性。

在表達(dá)能力方面,研究顯示能量變換器相比使用預(yù)定義分布(如高斯分布)的方法具有明顯優(yōu)勢。預(yù)定義分布的方法雖然可以通過調(diào)整方差獲得一定的生成質(zhì)量,但與EAR相比仍有顯著差距,說明連續(xù)token分布的復(fù)雜性需要更靈活的建模方法。

連續(xù)tokenizer相比離散tokenizer的優(yōu)勢也得到了實驗驗證。使用相同模型架構(gòu)時,連續(xù)tokenization配合能量損失始終優(yōu)于離散tokenization配合交叉熵?fù)p失。這凸顯了連續(xù)視覺自回歸的巨大潛力。

在技術(shù)細(xì)節(jié)的探索中,研究團(tuán)隊發(fā)現(xiàn)學(xué)習(xí)率的調(diào)整對訓(xùn)練穩(wěn)定性至關(guān)重要。使用常規(guī)學(xué)習(xí)率時模型無法收斂,而將MLP生成器的學(xué)習(xí)率調(diào)整為主干網(wǎng)絡(luò)的0.25倍后,訓(xùn)練過程得到穩(wěn)定。這個發(fā)現(xiàn)為后續(xù)研究提供了重要的實踐指導(dǎo)。

噪聲類型和維度的選擇也經(jīng)過了系統(tǒng)的實驗驗證。均勻噪聲相比高斯噪聲表現(xiàn)更好,64維的噪聲維度在32、64、128三個選項中效果最佳。這些發(fā)現(xiàn)為實際應(yīng)用提供了具體的參數(shù)選擇指導(dǎo)。

分類器自由引導(dǎo)在EAR中發(fā)揮了重要作用。通過線性增加引導(dǎo)尺度,可以在生成質(zhì)量和多樣性之間取得良好平衡。實驗顯示,隨著引導(dǎo)尺度增加,Inception Score持續(xù)提升,而FID在尺度為3.0左右達(dá)到最優(yōu)值,過高的引導(dǎo)尺度會損害生成多樣性。

溫度機制的實驗驗證了其在質(zhì)量-多樣性權(quán)衡中的有效性。訓(xùn)練溫度設(shè)為0.99,推理溫度設(shè)為0.7時獲得了最佳效果。這種機制為用戶在實際應(yīng)用中根據(jù)需求調(diào)節(jié)生成特性提供了靈活性。

掩碼自回歸相比因果自回歸顯示出明顯優(yōu)勢,F(xiàn)ID從17.83改善到7.95(無引導(dǎo)情況下),從8.10改善到3.55(有引導(dǎo)情況下)。這驗證了雙向注意力在視覺生成任務(wù)中的價值。

速度-質(zhì)量權(quán)衡分析顯示,EAR在推理延遲和生成質(zhì)量的平衡方面具有顯著優(yōu)勢。在固定64個自回歸步數(shù)的情況下,通過調(diào)整模型大小可以在不同的速度-質(zhì)量工作點之間選擇,而MAR即使使用不同的擴散步數(shù)也難以達(dá)到EAR的效率水平。

這項研究的理論貢獻(xiàn)不僅限于技術(shù)實現(xiàn),還為連續(xù)視覺自回歸生成提供了統(tǒng)一的理論框架。通過嚴(yán)格適當(dāng)評分規(guī)則的視角,可以理解和比較不同的連續(xù)生成方法,為未來的研究方向提供了清晰的指導(dǎo)。

實際應(yīng)用方面,這種技術(shù)可以顯著改善需要高質(zhì)量圖像生成的各種場景。從藝術(shù)創(chuàng)作到內(nèi)容生成,從數(shù)據(jù)增強到虛擬環(huán)境構(gòu)建,連續(xù)視覺自回歸都能提供更精細(xì)、更高效的解決方案。特別是在需要實時或近實時生成的應(yīng)用中,EAR的效率優(yōu)勢將發(fā)揮重要作用。

研究團(tuán)隊也誠實地指出了當(dāng)前方法的局限性和未來改進(jìn)方向。架構(gòu)優(yōu)化仍有很大空間,可以探索更適合連續(xù)生成的網(wǎng)絡(luò)結(jié)構(gòu)。評分規(guī)則的選擇還可以進(jìn)一步研究,不同的嚴(yán)格適當(dāng)評分規(guī)則可能在特定任務(wù)上有不同的優(yōu)勢。擴展到視頻、音頻等其他連續(xù)模態(tài)也是自然的發(fā)展方向。

另一個有趣的研究方向是將這種方法應(yīng)用到語言建模中。雖然文本本質(zhì)上是離散的,但通過將離散文本轉(zhuǎn)換為潛在向量表示,可能也能從連續(xù)建模中受益。這種跨模態(tài)的思考體現(xiàn)了研究的深度和廣度。

從更宏觀的角度來看,這項研究反映了AI生成技術(shù)正在從粗糙的拼接向精細(xì)的創(chuàng)作演進(jìn)。就像從馬賽克藝術(shù)發(fā)展到油畫技法一樣,技術(shù)的進(jìn)步讓AI能夠處理更加細(xì)膩和連續(xù)的信息,生成更加自然和逼真的內(nèi)容。

這種進(jìn)步不僅體現(xiàn)在技術(shù)層面,也反映了我們對生成模型本質(zhì)理解的深化。通過統(tǒng)一的理論框架,研究者可以更好地理解不同方法之間的關(guān)系,從而設(shè)計出更有效的算法。這種理論指導(dǎo)實踐、實踐驗證理論的良性循環(huán),正是科學(xué)研究的核心價值所在。

最終,這項研究為連續(xù)視覺生成開辟了新的技術(shù)路徑。它不僅在當(dāng)前任務(wù)上取得了優(yōu)異表現(xiàn),更重要的是為整個領(lǐng)域提供了新的思考框架和發(fā)展方向。隨著技術(shù)的進(jìn)一步發(fā)展和優(yōu)化,我們有理由期待看到更加智能、高效和強大的視覺生成系統(tǒng)。

說到底,騰訊這項研究的真正價值在于打破了傳統(tǒng)思維的局限。它告訴我們,AI不一定要按照人類設(shè)計的"翻譯"規(guī)則來工作,而是可以直接學(xué)習(xí)和模擬自然界中連續(xù)變化的規(guī)律。這種思路的轉(zhuǎn)變,可能會在更多AI應(yīng)用領(lǐng)域帶來突破性進(jìn)展。對于普通用戶來說,這意味著未來我們可能會看到更加精美、生成速度更快的AI繪畫工具,讓每個人都能輕松創(chuàng)作出專業(yè)級別的視覺作品。隨著這類技術(shù)的成熟和普及,創(chuàng)意表達(dá)的門檻將進(jìn)一步降低,讓更多人能夠?qū)崿F(xiàn)自己的藝術(shù)想法。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以訪問研究團(tuán)隊公開的代碼庫,親自體驗這項創(chuàng)新技術(shù)的魅力。

Q&A

Q1:什么是連續(xù)視覺自回歸生成?它和傳統(tǒng)方法有什么不同? A:連續(xù)視覺自回歸生成是一種讓AI直接處理連續(xù)圖像信息的新方法,就像畫家直接用調(diào)色板調(diào)色一樣。傳統(tǒng)方法需要先把圖像"翻譯"成有限的離散代幣(像用馬賽克塊拼圖),會丟失細(xì)節(jié)。新方法跳過了這個"翻譯"步驟,能保留更多圖像的精細(xì)信息,生成質(zhì)量更高。

Q2:EAR方法會不會取代現(xiàn)有的圖像生成技術(shù)? A:EAR在某些方面確實有優(yōu)勢,特別是生成速度比擴散模型快近10倍,但不會完全取代所有方法。不同技術(shù)各有特點,EAR主要優(yōu)勢在于效率高、質(zhì)量好,適合需要快速生成的場景。未來可能會看到多種技術(shù)并存,在不同應(yīng)用中發(fā)揮各自優(yōu)勢。

Q3:普通人能使用這種技術(shù)嗎?有什么實際應(yīng)用? A:目前這還是研究階段的技術(shù),普通人暫時無法直接使用。但隨著技術(shù)成熟,預(yù)計會集成到各種圖像生成工具中,讓AI繪畫、內(nèi)容創(chuàng)作、游戲開發(fā)等應(yīng)用變得更快更好。未來可能出現(xiàn)在手機拍照美化、社交媒體內(nèi)容生成、在線設(shè)計工具等日常應(yīng)用中。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-