這項(xiàng)由Stability AI的Hmrishav Bandyopadhyay、Rahim Entezari、Jim Scott等研究人員聯(lián)合薩里大學(xué)SketchX實(shí)驗(yàn)室共同完成的研究,發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.21318v1),為AI圖像生成領(lǐng)域帶來(lái)了一次真正的"速度革命"。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2509.21318v1查詢完整論文。
想象一下,你正在用手機(jī)拍照,按下快門的瞬間就能得到一張照片?,F(xiàn)在,研究團(tuán)隊(duì)讓AI畫畫也達(dá)到了類似的速度體驗(yàn)。過(guò)去,想要AI生成一張高質(zhì)量的圖片,就像等待一鍋好湯慢慢燉煮——需要25步以上的處理過(guò)程,耗費(fèi)30多秒時(shí)間,還需要16GB以上的顯存,這樣的配置只有專業(yè)工作站才能承受。普通用戶的手機(jī)、平板,甚至大部分家用電腦都望塵莫及。
Stability AI的研究團(tuán)隊(duì)決定打破這個(gè)瓶頸。他們開發(fā)了一套名為SD3.5-Flash的系統(tǒng),能讓AI在短短4步甚至2步內(nèi)就完成高質(zhì)量圖像生成,速度提升了18倍,同時(shí)將內(nèi)存需求降低到普通設(shè)備也能承受的范圍。這就像把原本需要大型烤箱才能制作的精美蛋糕,改良成了可以用家用微波爐快速制作的版本,但味道和賣相絲毫不遜色。
研究的核心創(chuàng)新在于重新設(shè)計(jì)了AI的"學(xué)習(xí)方式"。傳統(tǒng)方法就像一個(gè)學(xué)徒廚師,必須嚴(yán)格按照師傅的每一個(gè)步驟來(lái)學(xué)習(xí)烹飪,即使是最簡(jiǎn)單的菜也要走完全套流程。而SD3.5-Flash更像是一個(gè)聰明的學(xué)徒,它學(xué)會(huì)了抓住烹飪的精髓,用更少的步驟就能做出同樣美味的菜肴。
**一、從"慢工出細(xì)活"到"快手做好菜"的技術(shù)突破**
要理解這項(xiàng)技術(shù)的突破性,我們可以把AI圖像生成比作烹飪過(guò)程。傳統(tǒng)的擴(kuò)散模型就像制作一道復(fù)雜的法式料理,需要經(jīng)過(guò)數(shù)十個(gè)精細(xì)步驟:先準(zhǔn)備食材、腌制、預(yù)處理、分層烹飪、調(diào)味、裝盤等等。每一步都必須等待足夠的時(shí)間,確保味道充分融合。雖然最終成品質(zhì)量很高,但整個(gè)過(guò)程耗時(shí)漫長(zhǎng),而且需要專業(yè)級(jí)的廚房設(shè)備。
SD3.5-Flash的革命性在于它重新審視了這個(gè)"烹飪流程"。研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)方法中有很多步驟其實(shí)是重復(fù)的或者可以合并的。他們開發(fā)了一種叫做"時(shí)間步共享"的技術(shù),這就像是發(fā)現(xiàn)了某些調(diào)料可以在同一時(shí)間加入,某些步驟可以并行進(jìn)行,從而大幅縮短烹飪時(shí)間。
更巧妙的是,他們還引入了"分時(shí)間步微調(diào)"技術(shù)。這個(gè)方法就像培訓(xùn)一個(gè)廚師時(shí),先讓他專門練習(xí)處理食材的技巧,再讓他專門練習(xí)調(diào)味和擺盤,最后把這兩套技能融合成一個(gè)完整的烹飪能力。這種分階段訓(xùn)練讓AI既能保持圖像質(zhì)量,又能準(zhǔn)確理解用戶的文字描述。
在技術(shù)層面,研究團(tuán)隊(duì)解決了一個(gè)長(zhǎng)期困擾業(yè)界的問題:如何在極少的步驟中保持生成質(zhì)量。傳統(tǒng)的分布匹配方法就像一個(gè)新手廚師試圖模仿大師的菜品,但因?yàn)榻?jīng)驗(yàn)不足,往往在簡(jiǎn)化步驟時(shí)丟失了菜品的精髓。SD3.5-Flash通過(guò)重新設(shè)計(jì)"學(xué)習(xí)目標(biāo)",讓AI能夠更精準(zhǔn)地掌握?qǐng)D像生成的核心要領(lǐng)。
**二、讓手機(jī)也能"畫大師級(jí)作品"的硬件優(yōu)化**
技術(shù)突破只是第一步,真正讓普通用戶受益的是硬件適配優(yōu)化。研究團(tuán)隊(duì)深知,再好的技術(shù)如果普通人用不上,就失去了意義。因此,他們進(jìn)行了全方位的"瘦身計(jì)劃"。
首先是內(nèi)存優(yōu)化。原本的AI圖像生成系統(tǒng)就像一個(gè)占地巨大的豪華廚房,需要各種專業(yè)設(shè)備才能運(yùn)轉(zhuǎn)。研究團(tuán)隊(duì)通過(guò)重新設(shè)計(jì)文本編碼器的結(jié)構(gòu),將其中最占空間的T5-XXL組件變?yōu)榭蛇x項(xiàng)。這就像把廚房中最占地方的大型烤箱改成了可拆卸式,需要時(shí)再裝上,平時(shí)可以節(jié)省大量空間。
量化技術(shù)的應(yīng)用更是巧妙。他們將模型從16位精度降到8位甚至6位,這就像把原本需要雙手才能拿起的重型工具,改良成單手就能操作的輕便版本。雖然重量減輕了,但功能完全保留。特別是針對(duì)蘋果設(shè)備的6位量化版本,專門優(yōu)化了蘋果神經(jīng)引擎的運(yùn)算特性,讓iPhone和iPad也能流暢運(yùn)行。
實(shí)際測(cè)試結(jié)果令人印象深刻。在iPhone上生成一張768像素的圖片只需要8.32秒,iPad上需要6.44秒,這個(gè)速度已經(jīng)接近專業(yè)工作站的表現(xiàn)。而在普通的RTX 4090顯卡上,生成時(shí)間更是壓縮到不到1秒。這種性能飛躍就像把原本只有豪華轎車才有的功能,成功移植到了經(jīng)濟(jì)型家用車上。
**三、質(zhì)量與速度的完美平衡**
速度提升了,但質(zhì)量有沒有打折扣?這是所有用戶最關(guān)心的問題。研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的用戶研究來(lái)驗(yàn)證效果,就像餐廳推出新菜品前要經(jīng)過(guò)大量試吃測(cè)試一樣。
他們邀請(qǐng)了124名測(cè)試者,使用507個(gè)精心設(shè)計(jì)的提示詞進(jìn)行評(píng)測(cè),涵蓋了從簡(jiǎn)單物體到復(fù)雜場(chǎng)景的各種情況。結(jié)果顯示,SD3.5-Flash不僅在速度上大幅領(lǐng)先,在圖像質(zhì)量上甚至超越了它的"老師"——原本的50步生成模型。這就像一個(gè)學(xué)徒不僅學(xué)會(huì)了師傅的手藝,還在某些方面青出于藍(lán)。
特別值得一提的是,SD3.5-Flash在處理復(fù)雜場(chǎng)景時(shí)表現(xiàn)尤為出色。比如生成"四只貓頭鷹站在電話線上"這樣的場(chǎng)景,其他快速生成方法往往會(huì)出現(xiàn)貓頭鷹數(shù)量錯(cuò)誤、姿態(tài)不自然等問題,而SD3.5-Flash能夠準(zhǔn)確把握細(xì)節(jié),生成符合描述的高質(zhì)量圖像。
在人體解剖結(jié)構(gòu)和多物體組合這些傳統(tǒng)難點(diǎn)上,SD3.5-Flash也表現(xiàn)優(yōu)異。其他方法生成的人物圖像經(jīng)常出現(xiàn)手指數(shù)量錯(cuò)誤、面部特征扭曲等問題,就像一個(gè)畫家在匆忙中容易出現(xiàn)筆誤。而SD3.5-Flash通過(guò)改進(jìn)的訓(xùn)練方法,顯著降低了這類錯(cuò)誤的發(fā)生率。
**四、從實(shí)驗(yàn)室到手機(jī)的完整解決方案**
研究團(tuán)隊(duì)沒有止步于算法創(chuàng)新,而是提供了一套完整的產(chǎn)品化方案。他們發(fā)布了多個(gè)版本的模型,就像汽車廠商推出不同配置的車型來(lái)滿足不同用戶需求一樣。
16位精度版本保留了最高畫質(zhì),適合有專業(yè)需求的用戶。8位版本在保持高質(zhì)量的同時(shí)顯著降低了內(nèi)存需求,適合大部分家用電腦。6位版本專為移動(dòng)設(shè)備優(yōu)化,讓手機(jī)用戶也能享受高質(zhì)量AI繪畫。每個(gè)版本都有帶T5文本編碼器和不帶T5的選擇,用戶可以根據(jù)自己的硬件條件和質(zhì)量要求來(lái)選擇。
這種分層設(shè)計(jì)理念確保了技術(shù)的普及性。就像同一個(gè)食譜可以有豪華版、標(biāo)準(zhǔn)版和簡(jiǎn)化版,每個(gè)版本都能做出美味的菜肴,只是在某些細(xì)節(jié)上有所取舍。用戶不會(huì)因?yàn)樵O(shè)備限制而被完全排除在外,總能找到適合自己的版本。
**五、開啟AI民主化的新篇章**
SD3.5-Flash的意義遠(yuǎn)不止于技術(shù)突破,它代表著AI圖像生成技術(shù)的民主化進(jìn)程。過(guò)去,高質(zhì)量AI繪畫是少數(shù)擁有專業(yè)設(shè)備用戶的特權(quán),就像早期的攝影技術(shù)只有專業(yè)攝影師才能掌握?,F(xiàn)在,這項(xiàng)技術(shù)正在變得像手機(jī)拍照一樣普及和便捷。
從更廣闊的視角來(lái)看,這項(xiàng)研究解決了AI技術(shù)推廣中的一個(gè)根本問題:如何讓先進(jìn)技術(shù)真正服務(wù)于普通大眾。很多時(shí)候,最先進(jìn)的AI技術(shù)都需要昂貴的硬件支持,這創(chuàng)造了一道"數(shù)字鴻溝"。SD3.5-Flash通過(guò)技術(shù)創(chuàng)新打破了這道屏障,讓AI圖像生成從"高端奢侈品"變成了"日用消費(fèi)品"。
研究團(tuán)隊(duì)的工作還展示了一個(gè)重要理念:技術(shù)創(chuàng)新不應(yīng)該只追求性能的極致,更應(yīng)該考慮普及性和實(shí)用性。他們沒有簡(jiǎn)單地追求更高的圖像質(zhì)量或更強(qiáng)的功能,而是在保證質(zhì)量的前提下,重點(diǎn)解決了速度和硬件要求問題,這種以用戶需求為導(dǎo)向的研發(fā)思路值得整個(gè)行業(yè)學(xué)習(xí)。
當(dāng)然,這項(xiàng)技術(shù)也還有提升空間。在某些極度復(fù)雜的場(chǎng)景下,4步生成的效果仍然不如傳統(tǒng)的25步生成。就像快餐雖然方便,但在某些精致程度上還是無(wú)法完全替代精心烹制的大餐。不過(guò),對(duì)于絕大多數(shù)應(yīng)用場(chǎng)景來(lái)說(shuō),這樣的質(zhì)量已經(jīng)完全夠用了。
說(shuō)到底,SD3.5-Flash的價(jià)值在于它讓AI繪畫技術(shù)真正走進(jìn)了千家萬(wàn)戶。當(dāng)每個(gè)人都能在手機(jī)上快速生成高質(zhì)量圖像時(shí),我們可以期待看到更多創(chuàng)意應(yīng)用的涌現(xiàn)。也許不久的將來(lái),AI輔助設(shè)計(jì)會(huì)像使用濾鏡一樣普通,每個(gè)人都能成為自己生活的藝術(shù)總監(jiān)。這種技術(shù)民主化的趨勢(shì),正是人工智能發(fā)展的應(yīng)有之義。
對(duì)于普通用戶來(lái)說(shuō),這意味著我們即將迎來(lái)一個(gè)全新的創(chuàng)作時(shí)代。無(wú)論是為社交媒體制作個(gè)性化內(nèi)容,還是為工作準(zhǔn)備演示圖片,或者僅僅是為了滿足創(chuàng)作的樂趣,高質(zhì)量AI繪畫將變得觸手可及。有興趣的讀者可以通過(guò)論文編號(hào)arXiv:2509.21318v1查詢完整的技術(shù)細(xì)節(jié),了解這項(xiàng)激動(dòng)人心的技術(shù)突破背后的完整故事。
Q&A
Q1:SD3.5-Flash是什么?它有什么特別之處?
A:SD3.5-Flash是Stability AI開發(fā)的快速AI圖像生成系統(tǒng),最大特點(diǎn)是只需4步甚至2步就能生成高質(zhì)量圖片,比傳統(tǒng)方法快18倍,而且普通手機(jī)也能運(yùn)行。就像把原本需要專業(yè)廚房才能做的大餐,改良成家用微波爐就能快速制作的版本。
Q2:普通人的手機(jī)能用SD3.5-Flash生成圖片嗎?
A:可以的。研究團(tuán)隊(duì)專門為移動(dòng)設(shè)備優(yōu)化了6位量化版本,iPhone生成768像素圖片只需8.32秒,iPad需要6.44秒。他們還提供了不同配置的版本,用戶可以根據(jù)自己的設(shè)備性能選擇合適的版本。
Q3:SD3.5-Flash生成的圖片質(zhì)量怎么樣?
A:質(zhì)量非常出色,在大規(guī)模用戶測(cè)試中甚至超越了原本需要50步才能完成的傳統(tǒng)方法。特別是在處理復(fù)雜場(chǎng)景、人體結(jié)構(gòu)和多物體組合時(shí)表現(xiàn)優(yōu)異,能準(zhǔn)確理解用戶描述并生成相應(yīng)的高質(zhì)量圖像。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。