av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 香港科技大學等聯(lián)合提出InfGen:讓AI圖像生成告別分辨率限制,10秒內(nèi)生成4K高清圖片

香港科技大學等聯(lián)合提出InfGen:讓AI圖像生成告別分辨率限制,10秒內(nèi)生成4K高清圖片

2025-09-25 14:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-25 14:42 ? 科技行者

這項由香港科技大學韓濤、上海人工智能實驗室徐望寒、龔俊超、樂曉宇,以及悉尼大學周魯平等研究者組成的國際團隊的研究成果,發(fā)表于2025年9月12日的arXiv預印本平臺(論文編號:arXiv:2509.10441v1)。感興趣的讀者可以通過https://github.com/taohan10200/InfGen訪問項目代碼和演示。

目前的AI圖像生成就像用老式相機拍照一樣,每次只能生成固定尺寸的圖片。當你想要更高分辨率的圖像時,系統(tǒng)就需要花費大量時間進行復雜計算,生成一張4K圖片往往需要超過100秒的等待時間。這種限制就好比你有一臺打印機,每次只能打印A4紙大小的照片,如果想要更大尺寸,就必須重新設置整個打印系統(tǒng)。

研究團隊發(fā)現(xiàn)了這個問題的根本原因:現(xiàn)有的擴散模型在生成高分辨率圖像時,計算需求會隨著分辨率的平方而增長。也就是說,分辨率提高一倍,計算時間可能增長四倍,這種指數(shù)級的增長使得生成高分辨率圖像變得極其緩慢和昂貴。

為了解決這個難題,研究團隊提出了一個巧妙的解決方案——InfGen。這個方法的核心思想就像是重新設計了圖像生成的流水線。傳統(tǒng)方法就像是一個廚師必須根據(jù)不同餐具尺寸重新烹飪整道菜,而InfGen的方法更像是先烹飪出一份精華濃縮的菜品,然后用一個特殊的"放大器"將其完美地適配到任何尺寸的餐具中。

具體來說,InfGen將圖像生成過程分為兩個階段。第一個階段仍然使用現(xiàn)有的擴散模型生成一個固定尺寸的"內(nèi)容表示",這個表示就像是照片的精華版本,包含了所有重要的視覺信息。第二個階段則使用一個全新設計的生成器,將這個固定尺寸的表示轉(zhuǎn)換成任意分辨率的最終圖像。這個生成器采用了基于變換器的架構,通過交叉注意力機制來處理不同分辨率的圖像生成需求。

一、技術創(chuàng)新的核心思路

InfGen的設計理念可以用一個生動的比喻來理解。想象你是一位建筑師,傳統(tǒng)的方法要求你為每一種不同大小的房子都重新設計完整的建筑圖紙和施工方案。而InfGen的方法則是先設計一個包含所有核心要素的"建筑基因",然后用一個智能的"建筑機器人"根據(jù)不同的地塊大小,將這個基因自動擴展成相應尺寸的完整建筑。

這種方法的巧妙之處在于,它將"內(nèi)容創(chuàng)造"和"尺寸適配"這兩個原本綁定的過程完全分離開來。內(nèi)容創(chuàng)造部分仍然由經(jīng)過大量訓練的擴散模型負責,確保生成內(nèi)容的質(zhì)量和多樣性。而尺寸適配部分則由一個專門設計的輕量級生成器處理,這個生成器的核心任務就是將固定尺寸的內(nèi)容表示"翻譯"成任意目標分辨率的圖像。

為了實現(xiàn)這個目標,研究團隊設計了一個創(chuàng)新的架構。這個架構的工作原理就像是一個精密的翻譯系統(tǒng)。系統(tǒng)首先將固定尺寸的潛在表示作為"關鍵詞"和"數(shù)值",然后根據(jù)目標圖像的尺寸創(chuàng)建相應數(shù)量的"查詢令牌"。這些查詢令牌就像是空白的畫布塊,需要從潛在表示中獲取信息來填充自己。

通過多頭自注意力機制,每個查詢令牌都會與潛在表示進行"對話",根據(jù)相似性計算來決定應該獲取哪些信息。這個過程就像是每個畫布塊都在向原始圖像詢問:"我應該畫什么顏色?""我需要什么紋理?""我應該表現(xiàn)哪個部分的細節(jié)?"原始圖像會根據(jù)每個位置的特點給出相應的答案。

二、解決位置信息的巧妙設計

在這個系統(tǒng)中,一個關鍵挑戰(zhàn)是如何讓不同尺寸的圖像塊正確地理解自己應該顯示原始內(nèi)容的哪個部分。這就像是給一群工人分配任務,每個工人負責建造建筑物的一小部分,但他們需要知道自己負責的是哪個部分,以及這個部分與整體的關系。

傳統(tǒng)的位置編碼方法就像是給每個工人一個固定的工號,但當建筑物大小發(fā)生變化時,這些工號就失去了意義。研究團隊提出了一個創(chuàng)新的"隱式神經(jīng)位置嵌入"方法,這種方法就像是給每個工人一個智能的GPS系統(tǒng),無論建筑物多大,都能準確定位自己的位置和任務。

這個位置編碼系統(tǒng)的工作過程相當巧妙。首先,系統(tǒng)將每個位置的二維坐標標準化到統(tǒng)一的尺度上,這就像是將不同大小的地圖都縮放到相同比例。然后,系統(tǒng)將這些二維坐標轉(zhuǎn)換為三維球面坐標,這種轉(zhuǎn)換能夠更好地捕捉空間關系,就像是從平面地圖切換到地球儀視角。

接下來,系統(tǒng)使用傅里葉變換將這些坐標映射到高維空間,這個過程就像是給每個位置添加了豐富的"指紋信息",讓系統(tǒng)能夠區(qū)分出極其細微的位置差異。最后,一個專門訓練的神經(jīng)網(wǎng)絡將這些高維特征轉(zhuǎn)換為最終的位置編碼,這些編碼會被整合到注意力機制的查詢和鍵值中,指導圖像生成過程。

三、訓練策略與數(shù)據(jù)處理

為了訓練這個復雜的系統(tǒng),研究團隊采用了一個精心設計的策略。他們從LAION-Aesthetic數(shù)據(jù)集中選擇了1000萬張高分辨率圖像作為訓練數(shù)據(jù),這些圖像的分辨率都超過1024×1024像素。經(jīng)過進一步篩選,他們獲得了500萬張分辨率超過2048×2048的高質(zhì)量圖像。

訓練過程就像是教授一個學生如何將簡筆畫擴展成詳細的藝術作品。系統(tǒng)首先學習如何將高分辨率圖像壓縮成固定尺寸的潛在表示,然后學習如何從這個表示重建出原始分辨率的圖像。為了處理各種不同的圖像尺寸和縱橫比,訓練過程中會隨機裁剪圖像到不同大小,讓系統(tǒng)適應各種輸出需求。

考慮到高分辨率圖像訓練的巨大計算開銷,研究團隊將訓練分為兩個階段。第一階段處理512×512到1024×1024分辨率的圖像,使用32的批量大小進行50萬次迭代訓練。第二階段則處理512×512到2048×2048分辨率的圖像,將批量大小減少到8,進行10萬次迭代訓練。整個訓練過程在8塊A100 GPU上進行了15天。

訓練的損失函數(shù)結(jié)合了多個組件,包括L1重建損失、感知損失和對抗損失。L1損失確保重建圖像與原始圖像在像素級別的相似性,感知損失確保高層特征的一致性,而對抗損失則通過一個PatchGAN判別器來提高圖像的真實感和細節(jié)質(zhì)量。

四、超分辨率外推技術

為了處理超過訓練分辨率的極高分辨率需求,研究團隊還開發(fā)了一個"訓練無關的分辨率外推"方法。這個方法就像是一個智能的放大鏡系統(tǒng),能夠?qū)D像分步驟地放大到任意分辨率。

這個外推過程的工作原理相當巧妙。系統(tǒng)從一個64×64的潛在表示開始,首先生成一個中等分辨率的圖像,比如2048×2048。然后將這個圖像重新編碼回潛在空間,再次應用InfGen生成器來產(chǎn)生更高分辨率的輸出。通過這種迭代過程,系統(tǒng)可以逐步達到4K甚至更高的分辨率。

研究團隊通過大量實驗確定了每次外推的最佳縮放比例。對于64×64的潛在空間,他們建議每次縮放不超過2倍,這樣可以確保生成質(zhì)量的穩(wěn)定性。通過多次迭代,最終分辨率可以達到原始分辨率的64倍,這意味著從512×512的基礎分辨率可以擴展到超過30000×30000的超高分辨率。

五、實驗結(jié)果與性能評估

研究團隊進行了全面的實驗來驗證InfGen的性能。他們將InfGen與多個現(xiàn)有的高分辨率圖像生成方法進行了比較,包括ScaleCrafter、Inf-DiT和UltraPixel等最新技術。

在圖像質(zhì)量評估方面,研究團隊使用了多個標準指標,包括FID(Fréchet Inception Distance)、sFID、精確度和召回率。由于標準FID需要將圖像下采樣到299×299分辨率進行測試,這可能會丟失高分辨率圖像的細節(jié)信息,研究團隊采用了UltraPixel提出的方法,將高分辨率圖像裁剪成多個299×299的補丁進行測試,用FIDp、sFIDp等指標來更準確地評估高分辨率生成性能。

實驗結(jié)果顯示,InfGen在各種分辨率下都顯著優(yōu)于現(xiàn)有方法。以DiT-XL/2模型為例,在3072×3072分辨率下,InfGen實現(xiàn)了41%的FID改善。對于SD1.5模型,在相同分辨率下獲得了44%的性能提升。這些改進幅度相當可觀,表明InfGen確實能夠有效提升現(xiàn)有擴散模型的高分辨率生成能力。

更令人印象深刻的是InfGen在推理速度方面的優(yōu)勢。傳統(tǒng)方法生成一張2048×2048分辨率的圖像可能需要20-255秒不等,而InfGen只需要約5.4秒(包含4.9秒的擴散模型推理時間和1.9秒的InfGen解碼時間)。對于4K分辨率的圖像,InfGen的總用時控制在10秒以內(nèi),相比之前最快的方法提升了10倍以上的速度。

六、即插即用的通用性設計

InfGen最吸引人的特點之一是其出色的通用性。這個系統(tǒng)就像是一個萬能的圖像輸出設備,可以與任何使用相同潛在空間的擴散模型無縫配合。研究團隊在多個知名模型上驗證了這一點,包括DiT-XL/2、SiT-XL/2、MaskDiT、MDTv2和FiTv2等。

這種即插即用的特性意味著,研究者和開發(fā)者無需重新訓練他們現(xiàn)有的擴散模型,只需要將VAE解碼器替換為InfGen,就能立即獲得任意分辨率的圖像生成能力。這就像是給現(xiàn)有的相機系統(tǒng)安裝了一個智能鏡頭,立即具備了變焦和高分辨率拍攝功能。

在與現(xiàn)有圖像標記器的對比實驗中,InfGen展現(xiàn)了競爭性的重建性能。雖然InfGen需要處理比傳統(tǒng)VAE更復雜的任務(從固定尺寸潛在表示生成任意分辨率圖像),但其在PSNR和SSIM等重建質(zhì)量指標上仍然達到了可比較的水平。這證明了InfGen在增加功能的同時,并沒有犧牲基本的圖像重建質(zhì)量。

七、實際應用與未來前景

InfGen的應用前景相當廣闊。在內(nèi)容創(chuàng)作領域,設計師和藝術家可以先用較低分辨率快速預覽和調(diào)整創(chuàng)意,然后一鍵生成高分辨率的最終作品,大大提升工作效率。在游戲和虛擬現(xiàn)實開發(fā)中,開發(fā)者可以根據(jù)不同設備的顯示能力動態(tài)生成相應分辨率的紋理和背景,實現(xiàn)更好的跨平臺兼容性。

在實際的文本到圖像生成任務中,InfGen展現(xiàn)了令人滿意的性能。用戶可以輸入文本描述,系統(tǒng)首先使用擴散模型在潛在空間中生成內(nèi)容表示,然后由InfGen將其轉(zhuǎn)換為任意分辨率的圖像。整個過程保持了原始擴散模型的語義理解能力和創(chuàng)造性,同時獲得了靈活的分辨率控制能力。

研究團隊提供的可視化結(jié)果顯示,即使在相同的內(nèi)容表示基礎上生成不同分辨率的圖像,InfGen也能保持良好的語義一致性和視覺連貫性。從512×512到3072×3072的不同分辨率版本中,主要對象和場景結(jié)構保持穩(wěn)定,而細節(jié)和紋理則隨著分辨率的提升而變得更加豐富和清晰。

八、技術局限性與改進方向

盡管InfGen展現(xiàn)了出色的性能,但研究團隊也誠實地指出了一些技術局限性。首先,雖然InfGen大大減少了高分辨率生成的時間,但對于超高分辨率(如8K以上)的生成,迭代外推過程仍然需要較長時間。其次,當前的訓練數(shù)據(jù)主要來源于自然圖像,對于某些特殊領域(如醫(yī)學圖像、衛(wèi)星圖像等)的適應性還需要進一步驗證。

另外,InfGen的性能很大程度上依賴于底層擴散模型的質(zhì)量。如果原始擴散模型生成的內(nèi)容表示質(zhì)量不高,InfGen也難以產(chǎn)生高質(zhì)量的高分辨率輸出。這意味著InfGen更多的是一個增強工具,而不是替代現(xiàn)有擴散模型的完整解決方案。

研究團隊還注意到,在某些極端縱橫比的圖像生成中,InfGen可能會出現(xiàn)邊緣效應或內(nèi)容重復的問題。這主要是因為訓練數(shù)據(jù)中極端縱橫比的圖像相對較少,導致模型在這些情況下的泛化能力有限。

說到底,InfGen代表了AI圖像生成領域的一個重要進步。它成功地將"生成什么"和"以什么分辨率生成"這兩個原本糾纏在一起的問題分離開來,為高分辨率圖像生成提供了一個全新的解決思路。更重要的是,這種方法具有極好的通用性和實用性,可以立即提升現(xiàn)有系統(tǒng)的能力,而無需大規(guī)模的重新訓練或架構調(diào)整。

雖然仍然存在一些技術挑戰(zhàn)需要克服,但InfGen已經(jīng)為AI圖像生成的未來發(fā)展指明了一個有希望的方向。隨著計算資源的進一步優(yōu)化和算法的持續(xù)改進,我們有理由相信,任意分辨率的高質(zhì)量圖像生成將很快成為AI系統(tǒng)的標準功能,而不再是一個技術難題。對于普通用戶而言,這意味著更快、更靈活、更高質(zhì)量的AI圖像創(chuàng)作體驗即將到來。

Q&A

Q1:InfGen是什么?它與傳統(tǒng)AI圖像生成方法有什么區(qū)別?

A:InfGen是香港科技大學等機構開發(fā)的新型AI圖像生成系統(tǒng),它的創(chuàng)新在于將"內(nèi)容生成"和"分辨率調(diào)整"分離開來。傳統(tǒng)方法就像每次都要重新烹飪整道菜,而InfGen先制作一份"精華濃縮版",再用專門的生成器適配到任意分辨率,這樣大大提高了效率。

Q2:InfGen生成高分辨率圖像的速度到底有多快?

A:InfGen生成4K分辨率圖像只需要10秒以內(nèi),相比傳統(tǒng)方法的100多秒提升了10倍以上。具體來說,生成2048×2048分辨率圖像約需5.4秒,比之前最快的方法UltraPixel還要快4倍。這種速度提升主要得益于避免了在高分辨率潛在空間中進行多步去噪處理。

Q3:普通用戶能否使用InfGen?它對現(xiàn)有AI圖像生成工具有什么影響?

A:InfGen具有"即插即用"特性,可以直接升級現(xiàn)有的擴散模型如SDXL、DiT等,無需重新訓練。研究團隊在GitHub上提供了代碼,技術人員可以集成到現(xiàn)有系統(tǒng)中。對普通用戶來說,這意味著未來的AI圖像生成工具將能更快地生成任意分辨率的高質(zhì)量圖片。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-