av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 香港大學團隊發(fā)布600萬張圖像的AI繪畫推理數(shù)據(jù)集:讓AI像人類一樣"想象"后再創(chuàng)作

香港大學團隊發(fā)布600萬張圖像的AI繪畫推理數(shù)據(jù)集:讓AI像人類一樣"想象"后再創(chuàng)作

2025-09-12 16:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-12 16:49 ? 科技行者

香港大學聯(lián)合香港中文大學、北京航空航天大學和阿里巴巴的研究團隊,在2025年9月發(fā)布了一項突破性研究成果。這項名為"FLUX-Reason-6M & PRISM-Bench"的研究發(fā)表于arXiv預印本平臺(論文編號:arXiv:2509.09680v1),感興趣的讀者可以通過該編號在arXiv官網(wǎng)查閱完整論文,相關(guān)數(shù)據(jù)集和代碼也已在GitHub和Hugging Face平臺開放獲取。

當我們要求AI繪制一幅"夕陽下騎自行車的小貓戴著巫師帽在云朵上穿行"這樣充滿想象力的畫面時,目前最先進的開源AI繪畫工具往往會產(chǎn)生奇怪的結(jié)果:小貓可能沒有巫師帽,自行車可能懸浮在奇怪的位置,或者整個畫面看起來毫無邏輯。這是因為現(xiàn)有的AI繪畫模型缺乏像人類藝術(shù)家那樣的推理能力——它們無法理解為什么某些元素要以特定方式組合,也不明白如何處理復雜的空間關(guān)系和情感表達。

這個問題困擾著整個AI繪畫領(lǐng)域。雖然像GPT-Image和Gemini這樣的閉源商業(yè)模型表現(xiàn)出色,但開源模型在面對復雜、詳細的創(chuàng)作要求時常常力不從心。研究團隊深入分析后發(fā)現(xiàn),問題的根源在于兩個關(guān)鍵缺失:首先,缺乏大規(guī)模、高質(zhì)量、專注于推理能力訓練的開源數(shù)據(jù)集;其次,缺乏一個能夠全面評估AI繪畫模型真實能力的測評標準。

為了解決這些問題,香港大學的研究團隊投入了15000個A100 GPU天的計算資源,耗時4個月,創(chuàng)建了迄今為止最大規(guī)模的AI繪畫推理數(shù)據(jù)集。這個名為FLUX-Reason-6M的數(shù)據(jù)集包含600萬張高質(zhì)量圖像和2000萬條雙語(中英文)描述文本,專門用于教會AI模型進行復雜的視覺推理。

一、突破傳統(tǒng)局限:六大特征重新定義AI繪畫能力

研究團隊沒有簡單地收集更多圖片,而是從根本上重新思考了AI繪畫模型需要掌握哪些核心能力。他們將現(xiàn)代AI繪畫的挑戰(zhàn)分解為六個相互關(guān)聯(lián)的特征維度,就像為一位全才藝術(shù)家制定的技能清單。

想象力(Imagination)是第一個維度,專門訓練AI創(chuàng)造超現(xiàn)實、奇幻或抽象概念的能力。這類數(shù)據(jù)包含了違反物理定律或?qū)⑼耆煌拍钇婷罱Y(jié)合的場景描述。比如"一座由玻璃建成的城市,光之河流在其中流淌"這樣的描述,要求AI不僅要理解現(xiàn)實中的城市和河流,還要能夠創(chuàng)造性地重新組合這些概念,產(chǎn)生全新的視覺體驗。這種訓練讓AI具備了突破字面理解的創(chuàng)造性思維。

實體描述(Entity)維度聚焦于知識基礎(chǔ)的準確呈現(xiàn)。當用戶要求AI繪制"梅西在世界杯決賽中過人"這樣的場景時,模型需要準確識別和描繪特定的真實世界對象、人物或知名實體。這要求AI不僅要掌握視覺技巧,還要具備豐富的世界知識,能夠準確再現(xiàn)各種真實存在的事物及其特征。

文字渲染(Text Rendering)解決了AI繪畫中的一個老大難題。傳統(tǒng)的生成模型在處理圖像中的文字時經(jīng)常出現(xiàn)拼寫錯誤、位置不當或根本無法辨認的問題。這個維度專門收集能夠成功融合清晰可讀英文文字的圖像,對應的文本描述明確指出文字內(nèi)容、樣式和在圖像中的具體位置。比如描述"一個標著'FLUX-Reason-6M'的霓虹燈招牌",讓AI學會精確的文字控制能力。

風格表現(xiàn)(Style)維度建立了一個龐大而多樣的藝術(shù)與攝影風格庫。這些數(shù)據(jù)明確參考特定藝術(shù)運動(如立體主義、印象主義)、視覺技巧(如長曝光、魚眼鏡頭)甚至著名藝術(shù)家的美學特征。通過這種訓練,AI能夠理解并成功應用各種藝術(shù)風格,就像掌握了多種繪畫技法的藝術(shù)家。

情感表達(Affection)維度專門訓練AI將抽象的情感概念轉(zhuǎn)化為具體的視覺表現(xiàn)。這類數(shù)據(jù)使用富有感染力的語言描述情緒、感受或氛圍,如"寧靜孤獨的感覺"或"混亂而充滿喜悅的市場場景"。對應的圖像通過色彩搭配、光線處理和主題表情等視覺元素,將這些無形的情感概念轉(zhuǎn)化為有形的視覺符號。

構(gòu)圖安排(Composition)維度關(guān)注場景中對象的精確排列和相互作用。這些描述使用明確的空間定位語言,包括方位詞(如"在...下面"、"在...后面"、"緊鄰")和相對位置關(guān)系。對應的圖像提供了正確執(zhí)行這些復雜空間指令的清晰示例,讓AI學會處理精確的構(gòu)圖要求。

這種多標簽設(shè)計的巧妙之處在于,一張圖像可以同時屬于多個特征類別。以"埃菲爾鐵塔以梵高《星夜》風格呈現(xiàn)"為例,這張圖像既屬于實體類別(準確描繪地標建筑),也屬于風格類別(模仿藝術(shù)家風格)。這種有意的重疊確保模型能夠?qū)W會融合不同類型的推理能力,就像人類藝術(shù)家會自然地結(jié)合多種技巧一樣。

二、生成鏈式思維:讓AI像人類藝術(shù)家一樣思考創(chuàng)作過程

FLUX-Reason-6M數(shù)據(jù)集的最大創(chuàng)新在于引入了"生成鏈式思維"(Generation Chain-of-Thought,簡稱GCoT)的概念。這種方法徹底改變了AI學習繪畫的方式,從簡單的圖文對應關(guān)系升級為深度的創(chuàng)作邏輯理解。

傳統(tǒng)的AI繪畫訓練就像教學生照著樣本臨摹,只告訴他們"這是什么",但從不解釋"為什么這樣畫"。而GCoT方法則像一位經(jīng)驗豐富的藝術(shù)導師,不僅展示作品,還詳細解釋創(chuàng)作的每一個決策過程。

具體來說,當面對一張小狗坐在粉色盒子里的圖像時,傳統(tǒng)方法只會提供簡單描述:"一只可愛的約克夏犬坐在標有'Fabulous'的粉色盒子里,戴著匹配的粉色蝴蝶結(jié)。"而GCoT方法則會提供詳細的創(chuàng)作推理過程:"這幅作品巧妙地運用了色彩協(xié)調(diào)原理,粉色盒子、蝴蝶結(jié)和周圍裝飾形成統(tǒng)一的色彩主題。小狗的棕白相間毛色與暖色調(diào)背景形成恰當對比,突出了主體。構(gòu)圖上采用居中對稱設(shè)計,小狗的爪子輕搭在盒子邊緣,增加了畫面的動感和親和力。周圍的羽毛和花朵營造出夢幻氛圍,整體傳達出純真、可愛的情感基調(diào)。"

這種訓練方式讓AI不僅知道畫什么,更重要的是理解為什么這樣畫。模型學會了分析空間關(guān)系、藝術(shù)選擇、色彩搭配、情感基調(diào)和構(gòu)圖平衡等創(chuàng)作要素之間的內(nèi)在邏輯。這就像教會AI掌握了藝術(shù)創(chuàng)作的"內(nèi)功",而不僅僅是表面的"招式"。

研究團隊使用強大的Qwen-VL模型來生成這些詳細的推理鏈條。該模型接收圖像和所有類別特定的描述作為輸入,然后生成一個詳細的逐步推理過程。這個過程不僅解釋圖像中的元素,還揭示這些元素如何相互作用,為什么存在特定的布局,以及支配場景構(gòu)成的構(gòu)圖和語義原則。

三、精密的數(shù)據(jù)制作流水線:打造工業(yè)級訓練資源

創(chuàng)建如此龐大而高質(zhì)量的數(shù)據(jù)集需要一個精密設(shè)計的制作流水線。研究團隊將整個過程分為四個主要階段,每個階段都經(jīng)過精心設(shè)計以確保最終數(shù)據(jù)的質(zhì)量和一致性。

第一階段是建立高質(zhì)量的視覺基礎(chǔ)。不同于簡單收集網(wǎng)絡(luò)圖片,研究團隊選擇使用FLUX.1-dev這一先進的圖像生成模型作為合成引擎。他們首先利用視覺語言模型結(jié)合Laion-Aesthetics數(shù)據(jù)集中的圖像,重寫原始說明文字,創(chuàng)造出高質(zhì)量且描述準確的文本提示。這種方法避免了網(wǎng)絡(luò)爬取數(shù)據(jù)中常見的質(zhì)量不一致和風格混亂問題。

但這種策略在兩個特征類別上存在明顯不足:想象力和文字渲染內(nèi)容嚴重缺乏。針對想象力類別,研究團隊設(shè)計了一個漸進式創(chuàng)意培養(yǎng)過程。他們首先使用Gemini-2.5-Pro生成200個高概念、富有想象力的種子提示。然后采用創(chuàng)意擴展技術(shù):隨機選取其中10個提示作為上下文示例輸入Qwen3-32B,并提高模型的溫度參數(shù)以最大化創(chuàng)意輸出,鼓勵產(chǎn)生新穎的概念關(guān)聯(lián)。這個過程產(chǎn)生了大量極具創(chuàng)意的文本說明,經(jīng)過FLUX.1-dev渲染后,為數(shù)據(jù)集注入了超現(xiàn)實和奇幻的視覺內(nèi)容。

對于文字渲染類別,團隊開發(fā)了一個三階段的挖掘-生成-合成流水線。首先,他們使用強大的Qwen2.5-VL-32B系統(tǒng)性地從Laion-2B數(shù)據(jù)集中挖掘包含清晰可讀文字的圖像。接著,對每個驗證過的富含文字的圖像,再次利用Qwen-VL的描述能力生成高保真的新說明。這些說明精確描述文字內(nèi)容、視覺呈現(xiàn)方式以及圖像中的上下文關(guān)系。最后,這些以文字為中心的說明被輸入FLUX.1-dev進行最終合成,產(chǎn)生的圖像中渲染的文字與精制說明直接對應,形成文字渲染類別的高質(zhì)量訓練數(shù)據(jù)。

第二階段是VLM驅(qū)動的質(zhì)量篩選和多維度評分。面對800萬張初始合成圖像,團隊設(shè)計了多層級的篩選系統(tǒng)。首先進行基礎(chǔ)質(zhì)量篩選,使用Qwen-VL作為自動化質(zhì)量保證檢查員,分析每張圖像的基本清晰度和結(jié)構(gòu)一致性,識別并丟棄存在過度模糊、干擾噪點或顯著結(jié)構(gòu)扭曲的圖像。

然后進行強大的多維度分類。團隊使用Qwen-VL根據(jù)預定義的六個特征對每張篩選過的圖像進行評估。采用量化評分系統(tǒng),模型為每個特征分配1到10的相關(guān)性分數(shù),而不是簡單的二元分類。通過為每個特征設(shè)置精心校準的閾值,系統(tǒng)最終確定圖像的類別歸屬。這個系統(tǒng)專門設(shè)計用于多標簽分類,能夠準確識別單張圖像屬于多個特征的情況。

考慮到文字渲染的獨特挑戰(zhàn),團隊還實施了專門的字體質(zhì)量篩選。即使高質(zhì)量的生成模型也會產(chǎn)生難以辨認或上下文錯誤的文字。為確保數(shù)據(jù)集為這一困難任務提供清晰可靠的信號,他們再次使用Qwen-VL作為嚴格的字體質(zhì)量檢查員,對標記為文字渲染類別的圖像執(zhí)行詳細掃描,篩選出任何包含低對比度、扭曲或無意義文字的實例。

第三階段是VLM驅(qū)動的密集說明生成和推理框架構(gòu)建。通過建立高質(zhì)量分類圖像基礎(chǔ)后,下一個關(guān)鍵階段是生成豐富的多維度說明并構(gòu)建生成鏈式思維。這個過程從傳統(tǒng)說明范式轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化且具有推理意識的注釋框架。

團隊的注釋策略核心是利用VLM的先進多模態(tài)推理能力,為每張圖像生成高度針對性的類別特定說明。與產(chǎn)生通用描述的傳統(tǒng)方法不同,他們的方法為每張圖像的特定特征生成詳細說明。例如,處理實體圖像時,Qwen-VL被指導生成優(yōu)先考慮場景中特定對象、地標或人物準確識別和詳細描述的說明。相反,對于風格類別的圖像,生成的說明強調(diào)藝術(shù)技巧、視覺美學和定義藝術(shù)特色的風格元素。

生成鏈式思維合成是注釋過程的核心步驟。為了構(gòu)建這些推理過程,團隊采用精心的融合策略,將Qwen-VL與完整上下文(即圖像加上所有類別特定說明)一起提供。這種全面的輸入使模型能夠合成詳細的逐步推理鏈條,不僅闡明圖像中存在的元素,還揭示這些元素如何相互作用、為什么存在特定布局,以及支配場景構(gòu)成的構(gòu)圖和語義原則。

最終階段是原始說明整合和大規(guī)模雙語發(fā)布。為了在策劃的推理信號之外擴大泛化能力,研究團隊重新整合了Laion-Aesthetics中能夠可靠描述FLUX.1-dev合成圖像的高質(zhì)量傳統(tǒng)說明。他們使用Qwen-VL作為對齊評判員,評分每個原始Laion說明與其配對FLUX圖像之間的語義對應關(guān)系。分數(shù)超過校準閾值的說明被保留作為額外監(jiān)督,確保覆蓋多樣化的自然語言表達,同時避免圖像-說明漂移。整合原始說明、類別特定說明和GCoT注釋后,語料庫總計達到2000萬個獨特說明。

為了實現(xiàn)資源民主化并促進國際合作,團隊使用Qwen的先進翻譯能力對整個說明語料庫進行了全面中文翻譯。每個原始說明、類別特定說明和GCoT說明都被翻譯成中文。然而,對于文字渲染類別,他們實施了關(guān)鍵的內(nèi)容保護策略:為了保持任務的語義完整性,圖像中預期渲染的特定英文文字在翻譯的說明中保持原始形式。這種雙語框架使FLUX-Reason-6M成為最大且最易獲取的雙語T2I推理數(shù)據(jù)集之一。

四、PRISM-Bench:全方位測評AI繪畫的真實能力

僅僅創(chuàng)建龐大的訓練數(shù)據(jù)集還不夠,研究團隊意識到還需要一個能夠準確評估AI繪畫模型真實能力的測評標準?,F(xiàn)有的評測基準往往過于簡單或只關(guān)注少數(shù)幾個維度,無法有效區(qū)分先進模型之間的細微差別。于是,他們開發(fā)了PRISM-Bench(精確且強健的圖像合成測量基準),這是一個包含七個獨立測試軌道的綜合評估框架。

PRISM-Bench的設(shè)計哲學是"細致入微,人類對齊"。傳統(tǒng)評測方法常常依賴簡單的CLIP分數(shù)或目標檢測器,這些工具容易達到飽和狀態(tài),無法真正區(qū)分模型的實際表現(xiàn)差異。PRISM-Bench采用了一種革命性的方法:利用先進視覺語言模型(GPT-4.1和Qwen2.5-VL-72B)的認知判斷能力作為人類判斷的代理,實現(xiàn)細致入微且與人類評估高度一致的模型性能分析。

七個測試軌道中的前六個直接對應FLUX-Reason-6M數(shù)據(jù)集的六個特征:想象力、實體、文字渲染、風格、情感和構(gòu)圖。第七個軌道是獨特且具有挑戰(zhàn)性的"長文本"測試,利用GCoT說明來測試模型處理復雜指令的能力。每個軌道包含100個精心選擇和構(gòu)建的提示,總計700個多樣化、代表性強且具有挑戰(zhàn)性的雙語提示。

每個軌道的100個提示分為兩組,各50個,設(shè)計用于測量模型性能的不同方面。第一組通過系統(tǒng)化采樣直接來自FLUX-Reason-6M數(shù)據(jù)集,確保廣泛的代表性。為了避免選擇偏差并確保廣泛覆蓋,團隊沒有使用簡單的隨機采樣,而是采用語義聚類和分層采樣方法。具體地,對每個類別收集FLUX-Reason-6M數(shù)據(jù)集中得分最高的前10000個提示,然后使用K-Means算法將提示分為50個不同的語義聚類。每個聚類代表該類別內(nèi)的獨特概念主題。他們從每個聚類中選擇最接近聚類質(zhì)心的一個提示作為該語義主題最具代表性的示例。

第二組50個提示來自精心策劃,專門針對每個軌道的特定挑戰(zhàn)性方面。對于想象力軌道,團隊將想象概念劃分為幾個主要類別,如物理不可能性和超現(xiàn)實敘述,然后使用大語言模型從一個或多個類別中隨機選擇元素生成相應提示。實體軌道策劃了不同類別實體的列表:著名地標、特定動植物物種、歷史人物和品牌對象,然后利用大語言模型隨機選擇一到三個實體生成相應提示。

文字渲染軌道設(shè)計了不同長度的文字內(nèi)容、不同字體樣式以及表面和位置組合。風格軌道定義了四個主要風格類別,包括藝術(shù)運動、媒介、攝影技術(shù)和數(shù)字現(xiàn)代美學,總共25種詳細風格,為每種風格生成2個提示。情感軌道使用Plutchik的情感輪作為基礎(chǔ)來源,選擇八種主要情感及其溫和和強烈形式。構(gòu)圖軌道構(gòu)建了包括顏色、數(shù)量、尺寸、空間關(guān)系等屬性池,每次生成時從各個池中抽取幾個屬性,讓大語言模型自由組合創(chuàng)建具有多個對象及各種關(guān)系的提示。

長文本軌道從FLUX-Reason-6M數(shù)據(jù)集中選擇50張高質(zhì)量圖像及其所有對應說明,將這些輸入Gemini2.5-Pro進行長文本擴展,最終產(chǎn)生50個具有挑戰(zhàn)性的提示。所有生成的提示都經(jīng)過人工審查,確保它們明確、語法正確且邏輯合理,從而保證評估的公平性和挑戰(zhàn)性。

五、評估協(xié)議:讓AI評判AI的創(chuàng)新方法

PRISM-Bench的評估方法代表了AI繪畫測評領(lǐng)域的一次重大創(chuàng)新。傳統(tǒng)評估方法的問題在于過于粗糙——簡單詢問"圖像是否匹配提示?"無法捕捉每個類別的特定挑戰(zhàn)。研究團隊認識到,針對不同軌道需要專門設(shè)計的評估標準,就像不同類型的藝術(shù)作品需要不同的評判標準一樣。

團隊為每個軌道設(shè)計了專門的評估提示,確保評估能夠針對性地關(guān)注該軌道的核心挑戰(zhàn)。想象力軌道的評估重點是模型是否成功合成了描述的新穎或超現(xiàn)實概念,獎勵對想象創(chuàng)意的創(chuàng)造性和連貫詮釋。實體軌道基于對特定命名真實世界實體的準確渲染進行對齊評分,包括它們的關(guān)鍵定義特征和上下文。

文字渲染軌道采用嚴格的評分標準,專注于可讀性、拼寫準確性以及指定文字在圖像中的精確定位。風格軌道指導VLM評估生成圖像對明確請求的藝術(shù)或攝影風格的忠實度,檢查特征技術(shù)。情感軌道的評估集中于圖像是否通過顏色、光線和主體表情等視覺線索有效傳達了指定的情緒、情感或氛圍。

構(gòu)圖軌道的VLM評估強調(diào)驗證對象的空間排列、它們的相對位置、顏色外觀以及文本規(guī)定的正確對象計數(shù)。長文本軌道測量模型從復雜多句GCoT提示中融入高密度細節(jié)的能力。

每個生成的圖像,VLM都會提供一句話的理由說明和基于相應軌道特定標準的1分(極差對齊)到10分(完美對齊)的評分。這種針對性方法使得能夠更精確和有意義地測量模型在每個不同類別中的能力。

除了對齊度評估,PRISM-Bench還采用統(tǒng)一的美學評估。與對齊度指標不同,圖像美學評估在所有七個軌道中使用單一的統(tǒng)一指令集。這是因為美學質(zhì)量——包括光線、色彩和諧、細節(jié)和整體視覺吸引力等因素——是獨立于特定提示內(nèi)容的通用屬性。VLM為每張圖像分配一句話理由和從1分(極低質(zhì)量)到10分(專業(yè)質(zhì)量)的美學評分。

通過系統(tǒng)性地將此協(xié)議應用于領(lǐng)先閉源模型和開源模型生成的圖像,研究團隊收集了全面的結(jié)果。每個模型在每個軌道上的表現(xiàn)被報告為相應100個提示的平均對齊分數(shù)和美學分數(shù)。這兩個指標的平均值代表模型在該軌道上的綜合表現(xiàn),所有7個軌道的總體平均分數(shù)代表模型的最終表現(xiàn),提供了當前T2I生成狀態(tài)的清晰且可操作的概覽。

六、震撼的測評結(jié)果:揭示AI繪畫的真實水平

研究團隊對19個先進圖像生成模型進行了全面測評,結(jié)果既令人印象深刻又發(fā)人深省。這些模型包括最新的閉源商業(yè)模型如Gemini2.5-Flash-Image和GPT-Image-1,以及頂級開源模型如Qwen-Image、SEEDream 3.0和FLUX系列。

整體表現(xiàn)方面,閉源模型確實展現(xiàn)了明顯的優(yōu)勢。GPT-Image-1以86.3分的總分位居榜首,緊隨其后的是Gemini2.5-Flash-Image的85.3分。這兩個模型在幾乎所有評估軌道上都超越了其他競爭對手,證明了大型科技公司在AI繪畫領(lǐng)域的技術(shù)積累和資源投入確實產(chǎn)生了顯著效果。

然而,開源模型的表現(xiàn)也不容小覷。以Qwen-Image為首的競爭性階梯正在形成,雖然與頂級模型仍有明顯的性能差距,但這些模型代表了開源社區(qū)的重大飛躍。HiDream-I1-Full和FLUX.1-Krea-dev也取得了優(yōu)異成績,表明該領(lǐng)域正在快速進步。模型系列內(nèi)部的演進也很明顯,SDXL相比SD1.5顯示出實質(zhì)性改進,而更新的SD3.5-Large進一步縮小了與頂級模型的差距。

分軌道分析揭示了更多有趣的發(fā)現(xiàn)。在想象力軌道上,Gemini2.5-Flash-Image以88.6分大幅領(lǐng)先,GPT-Image-1以86.4分緊隨其后。這表明領(lǐng)先閉源模型在創(chuàng)意理解和詮釋方面具有更高級的能力。Qwen-Image的表現(xiàn)也很出色,但像SD1.5這樣的老模型表現(xiàn)很差,經(jīng)常生成普通或扭曲的圖像,無法捕捉提示的想象精髓。

實體軌道上,GPT-Image-1憑借88.2分在這一領(lǐng)域表現(xiàn)卓越,展示了其強大的內(nèi)部知識庫和高保真渲染能力。Gemini2.5-Flash-Image和SEEDream 3.0也表現(xiàn)良好。這個軌道對世界知識基礎(chǔ)較弱的模型來說很有挑戰(zhàn)性,突出了大規(guī)模高質(zhì)量訓練數(shù)據(jù)對于準確真實世界描繪的重要性。

文字渲染軌道的結(jié)果最為令人關(guān)注,因為它對幾乎所有T2I模型來說都是一個重大挑戰(zhàn)。該基準證實了這一點,這個類別在所有軌道中獲得了最低的整體分數(shù)。值得注意的是,像Bagel和JanusPro這樣的自回歸模型在這個軌道上表現(xiàn)很差,突出了自回歸架構(gòu)在文字渲染任務中的內(nèi)在局限性。即使是表現(xiàn)最好的GPT-Image-1,在這個軌道上也只獲得了74.5分,顯示出即便是最先進的模型在這個基礎(chǔ)能力上仍有很大改進空間。

風格軌道上,GPT-Image-1表現(xiàn)出卓越的性能,獲得了93.1分。大多數(shù)現(xiàn)代模型在這個軌道上表現(xiàn)相對較好,對請求風格顯示出高保真度。這些模型的高分表明,相比文字渲染等其他任務,捕捉風格精髓的能力更加成熟。

情感軌道展現(xiàn)了頂級模型在捕捉情緒和氛圍方面的非凡能力。Gemini2.5-Flash-Image以92.1分的出色表現(xiàn)領(lǐng)先,GPT-Image-1和Qwen-Image緊隨其后。值得注意的是,F(xiàn)LUX.1-dev在這個類別中獲得了最高的美學分數(shù),表明其生成的圖像在視覺傳達情感方面特別有效,即使提示對齊度略低。

構(gòu)圖軌道上,GPT-Image-1以92.8分的高分大幅領(lǐng)先,充分展示了其解析和執(zhí)行復雜空間指令的能力。Gemini2.5-Flash-Image以90.5分緊隨其后。頂級開源模型在這個領(lǐng)域具有很強競爭力,Qwen-Image的得分幾乎與Gemini2.5-Flash-Image相同,表明復雜構(gòu)圖理解方面的差距正在縮小。HiDream-I1-Full和FLUX.1-dev等模型也展現(xiàn)了強大的構(gòu)圖能力,頂級表現(xiàn)者之間的小差異表明構(gòu)圖控制正在成為現(xiàn)代圖像生成系統(tǒng)的一項成熟能力。

長文本軌道的評估結(jié)果清楚地區(qū)分了頂級模型。Gemini2.5-Flash-Image獲得了最高分81.1分,GPT-Image-1和SEEDream 3.0也表現(xiàn)相對較好。然而,與其他軌道相比,所有模型的整體分數(shù)都明顯較低,表明在遵循復雜多層指令生成高質(zhì)量圖像的能力方面還有很大改進空間。這突出了FLUX-Reason-6M旨在解決的推理差距問題。

七、中文能力測試:意外的發(fā)現(xiàn)

研究團隊還專門創(chuàng)建了PRISM-Bench-ZH來評估模型處理中文提示的能力,結(jié)果揭示了一些意想不到的發(fā)現(xiàn)。GPT-Image-1以87.5分確立了其主導地位,在想象力、實體、風格、情感和構(gòu)圖等大多數(shù)軌道上始終領(lǐng)先,展示了在響應中文提示時的卓越創(chuàng)意詮釋、知識基礎(chǔ)和空間排列能力。

SEEDream 3.0和Qwen-Image展現(xiàn)了強大的競爭力,在所有軌道上都表現(xiàn)出色,經(jīng)常與領(lǐng)導者表現(xiàn)接近。特別值得注意的是SEEDream 3.0和Qwen-Image在文字渲染方面的表現(xiàn),這與英文文字生成中觀察到的普遍弱點形成鮮明對比。其中,SEEDream 3.0和GPT-Image-1共享最高平均分,SEEDream 3.0獲得最高美學分數(shù),表明其具有渲染高質(zhì)量中文字符的能力。

這些模型的強大表現(xiàn)驗證了基準設(shè)計中使用文化適應性中文提示的有效性,并突出了處理中文字體方面的重大進展。研究團隊展示了不同模型在中文文字渲染方面的具體例子,可以看到GPT-Image-1在文字的清晰度和整合性方面表現(xiàn)最佳,而其他模型雖然能夠生成中文字符,但在精確度和自然融入畫面方面仍有改進空間。

與英文測試結(jié)果一致的是,長文本軌道仍然是所有模型面臨的最大挑戰(zhàn)。雖然GPT-Image-1在這個類別中再次領(lǐng)先,但普遍較低的分數(shù)突出了理解和合成冗長、多面向中文指令的實質(zhì)性障礙。這進一步強調(diào)了像FLUX-Reason-6M這樣專注于推理的數(shù)據(jù)集對于解決現(xiàn)有差距和訓練下一代真正智能T2I模型的迫切需要。

八、深遠影響:改變AI繪畫的游戲規(guī)則

這項研究的意義遠遠超出了單純的技術(shù)突破,它為整個AI繪畫領(lǐng)域設(shè)立了新的發(fā)展方向和評價標準。從數(shù)據(jù)集規(guī)模來看,F(xiàn)LUX-Reason-6M耗費的15000個A100 GPU天計算資源,使其可能成為成本最高的開源數(shù)據(jù)集,為開源社區(qū)提供了以前只有大型工業(yè)實驗室才能獲得的寶貴資源。

在技術(shù)創(chuàng)新方面,生成鏈式思維(GCoT)的概念徹底改變了AI學習繪畫的方式。這種方法不僅教會模型"畫什么",更重要的是讓模型理解"為什么這樣畫",這種深層推理能力的培養(yǎng)將AI繪畫從簡單的圖像復制提升到了真正的藝術(shù)創(chuàng)作層面。未來基于這種數(shù)據(jù)集訓練的模型將具備更強的創(chuàng)造性和邏輯性,能夠處理更加復雜和抽象的創(chuàng)作要求。

評估標準的革新同樣具有深遠意義。PRISM-Bench建立的精細化、多維度評測體系,使用先進視覺語言模型作為人類判斷代理的方法,為整個AI繪畫領(lǐng)域提供了更加科學和全面的能力評估工具。這種評估方法的出現(xiàn),將推動整個行業(yè)從追求簡單的視覺效果轉(zhuǎn)向追求真正的藝術(shù)創(chuàng)作能力。

對于開源社區(qū)來說,這項研究的公開發(fā)布具有里程碑意義。完整的數(shù)據(jù)集、評測基準和評估代碼的開放,大大降低了AI繪畫研究的準入門檻。世界各地的研究者現(xiàn)在都能夠基于這個強大的基礎(chǔ)開發(fā)更先進的模型,加速整個領(lǐng)域的發(fā)展進程。這種開放創(chuàng)新的模式將有助于縮小開源模型與閉源商業(yè)模型之間的性能差距。

從實際應用角度來看,這項研究揭示的技術(shù)方向?qū)⑸羁逃绊懳磥鞟I繪畫工具的發(fā)展。具備推理能力的AI繪畫模型將能夠更好地理解用戶的創(chuàng)作意圖,處理更加復雜的場景描述,并在創(chuàng)作過程中展現(xiàn)出更強的邏輯一致性和藝術(shù)表現(xiàn)力。這將極大地擴展AI繪畫的應用范圍,從簡單的圖片生成擴展到復雜的創(chuàng)意設(shè)計、教育培訓、娛樂內(nèi)容制作等眾多領(lǐng)域。

特別值得注意的是,這項研究對文字渲染這一長期技術(shù)難題的關(guān)注,一旦在未來版本中得到有效解決,將開啟全新的應用可能。能夠準確生成包含文字的圖像對于廣告設(shè)計、教育材料制作、多媒體內(nèi)容創(chuàng)作等領(lǐng)域具有巨大價值。

說到底,這項來自香港大學團隊的研究不僅僅是技術(shù)層面的進步,更是AI繪畫領(lǐng)域發(fā)展理念的重大轉(zhuǎn)變。它從關(guān)注單純的圖像質(zhì)量轉(zhuǎn)向追求深層的創(chuàng)作推理能力,從封閉的商業(yè)競爭轉(zhuǎn)向開放的協(xié)作創(chuàng)新,從簡單的功能實現(xiàn)轉(zhuǎn)向系統(tǒng)的能力培養(yǎng)。這種轉(zhuǎn)變將推動整個AI繪畫領(lǐng)域向著更加智能、更加實用、更加貼近人類創(chuàng)作思維的方向發(fā)展。

研究團隊在論文中坦承,即便是最先進的模型在面對復雜任務時仍有顯著改進空間,這種誠實的態(tài)度和持續(xù)改進的承諾,為整個AI繪畫領(lǐng)域的健康發(fā)展指明了方向。未來,我們可以期待基于這項研究成果開發(fā)出的新一代AI繪畫工具,將真正實現(xiàn)從"能畫"到"會畫",從"模仿"到"創(chuàng)造"的跨越。對于每一個對AI藝術(shù)創(chuàng)作感興趣的人來說,這項研究標志著一個激動人心的新時代的開始。有興趣深入了解技術(shù)細節(jié)的讀者,可以通過arXiv:2509.09680v1查閱完整的研究論文,或訪問項目的GitHub頁面和Hugging Face數(shù)據(jù)集頁面獲取相關(guān)資源。

Q&A

Q1:FLUX-Reason-6M數(shù)據(jù)集有什么特別之處?為什么要花這么大代價制作?

A:FLUX-Reason-6M是全球首個專門訓練AI繪畫推理能力的大規(guī)模數(shù)據(jù)集,包含600萬張高質(zhì)量圖像和2000萬條雙語描述。它的特別之處在于引入了"生成鏈式思維"技術(shù),不僅告訴AI畫什么,還詳細解釋為什么這樣畫。研究團隊花費15000個A100 GPU天的計算資源,是因為傳統(tǒng)數(shù)據(jù)集只能讓AI模仿,而這個數(shù)據(jù)集能教會AI像人類藝術(shù)家一樣思考創(chuàng)作過程。

Q2:PRISM-Bench測評結(jié)果顯示哪些AI繪畫模型表現(xiàn)最好?

A:測評結(jié)果顯示GPT-Image-1以86.3分位居第一,Gemini2.5-Flash-Image以85.3分緊隨其后。開源模型中Qwen-Image表現(xiàn)最佳。有趣的是,所有模型在文字渲染方面都表現(xiàn)較弱,而在風格模仿和構(gòu)圖安排方面相對較強。這說明AI繪畫技術(shù)在不同能力維度上發(fā)展并不均衡,仍有很大改進空間。

Q3:普通用戶如何從這項研究中受益?

A:這項研究的開源發(fā)布將推動整個AI繪畫領(lǐng)域的技術(shù)進步,普通用戶很快就能體驗到更智能的AI繪畫工具。未來的AI將能更好理解復雜創(chuàng)作要求,生成邏輯更合理、細節(jié)更豐富的圖像。特別是在處理包含文字的圖像創(chuàng)作、復雜場景構(gòu)圖等方面會有顯著改善,讓AI真正成為每個人都能使用的智能創(chuàng)作助手。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-