這項由StepFun公司研究團(tuán)隊開發(fā)的突破性研究于2025年8月發(fā)表在arXiv預(yù)印本平臺,論文編號為arXiv:2508.10711v1。感興趣的讀者可以通過StepFun官網(wǎng)(https://stepfun.ai/research/en/nextstep1)或GitHub項目頁面(https://github.com/stepfun-ai/NextStep-1)了解更多詳情。這項名為NextStep-1的研究代表了人工智能圖像生成領(lǐng)域的一次重要進(jìn)步。
當(dāng)你看到一幅精美的畫作時,是否曾想過藝術(shù)家是如何一筆一劃地創(chuàng)作出來的?傳統(tǒng)的AI圖像生成就像魔術(shù)師變戲法,瞬間就能變出一張完整的圖片,但這種方式往往缺乏精細(xì)控制,就像用印章蓋出來的圖案,雖然快速但缺乏靈活性。StepFun的研究團(tuán)隊卻選擇了一條截然不同的道路——讓AI像真正的藝術(shù)家一樣,一點一點地繪制圖像。
NextStep-1最大的創(chuàng)新在于它采用了"自回歸"的方式來生成圖像。這聽起來很復(fù)雜,但實際上就像我們寫字一樣,一個字接著一個字地寫下去,每個新字都要參考前面已經(jīng)寫好的內(nèi)容。傳統(tǒng)的AI圖像生成方法要么需要將圖像切割成離散的小塊(就像拼圖游戲),要么需要依賴復(fù)雜的擴(kuò)散模型來處理連續(xù)的圖像信息。而NextStep-1則巧妙地將這兩種方式結(jié)合起來,既保持了圖像的連續(xù)性,又實現(xiàn)了逐步生成的控制能力。
這個140億參數(shù)的大型模型配備了一個只有1.57億參數(shù)的輕量級"流匹配頭部",就像一個經(jīng)驗豐富的畫家配了一支精巧的畫筆。整個系統(tǒng)在處理文本和圖像時采用了統(tǒng)一的方法,能夠同時理解文字描述并將其轉(zhuǎn)化為視覺內(nèi)容。研究團(tuán)隊在多個權(quán)威測試基準(zhǔn)上都取得了優(yōu)異成績,在WISE測試中獲得0.54分,在GenAI-Bench的高級提示測試中達(dá)到0.67分,在DPG-Bench上取得85.28分。
更令人興奮的是,這項技術(shù)不僅能生成圖像,還能進(jìn)行圖像編輯。研究團(tuán)隊開發(fā)的NextStep-1-Edit在圖像編輯任務(wù)上同樣表現(xiàn)出色,能夠根據(jù)用戶的指令對圖像進(jìn)行精確修改,就像一個聽話的助手能夠按照你的要求調(diào)整畫作的細(xì)節(jié)。
一、像拼積木一樣構(gòu)建圖像:NextStep-1的核心理念
傳統(tǒng)的AI圖像生成就像工廠的流水線,輸入一個描述,輸出一張完整圖片,中間的過程對用戶來說是個黑盒子。NextStep-1卻采用了完全不同的思路,它把圖像生成變成了一個循序漸進(jìn)的過程,就像建筑師建造房屋一樣,先打地基,再砌墻壁,最后裝修細(xì)節(jié)。
這種方法的核心在于將圖像分解成一個個連續(xù)的"圖像標(biāo)記",而不是傳統(tǒng)方法中的離散塊。每個標(biāo)記都包含豐富的視覺信息,就像音樂中的音符,雖然單獨看起來簡單,但組合起來能夠表達(dá)復(fù)雜的視覺內(nèi)容。系統(tǒng)通過一個名為"因果變換器"的核心組件來處理這些標(biāo)記,這個組件就像一個經(jīng)驗豐富的指揮家,能夠協(xié)調(diào)各個部分的工作,確保生成的圖像既符合文字描述,又保持視覺上的連貫性。
NextStep-1的架構(gòu)包含幾個關(guān)鍵組件。首先是圖像標(biāo)記器,它負(fù)責(zé)將輸入圖像轉(zhuǎn)換成機(jī)器能夠理解的標(biāo)記序列,就像翻譯官將外語翻譯成母語。然后是因果變換器,它是整個系統(tǒng)的大腦,負(fù)責(zé)理解文字描述并決定下一個圖像標(biāo)記應(yīng)該是什么。最后是流匹配頭部,它像一個精密的畫筆,將變換器的決策轉(zhuǎn)化為具體的視覺內(nèi)容。
這種設(shè)計的巧妙之處在于它將文字和圖像統(tǒng)一處理。當(dāng)你輸入"一只可愛的小貓坐在陽光下"這樣的描述時,系統(tǒng)首先會分析每個詞語的含義,然后開始逐步生成圖像的各個部分。它可能先生成小貓的輪廓,然后添加毛發(fā)的細(xì)節(jié),接著處理光影效果,最后完善背景環(huán)境。整個過程就像畫家作畫一樣自然流暢。
二、數(shù)據(jù)收集:為AI準(zhǔn)備營養(yǎng)豐富的"食材"
任何優(yōu)秀的廚師都知道,要做出美味的菜肴,首先需要優(yōu)質(zhì)的食材。NextStep-1的訓(xùn)練同樣需要高質(zhì)量、多樣化的數(shù)據(jù)作為"營養(yǎng)"。研究團(tuán)隊精心構(gòu)建了一個包含四大類數(shù)據(jù)的訓(xùn)練語料庫,就像為AI準(zhǔn)備了一份營養(yǎng)均衡的大餐。
第一類是純文本數(shù)據(jù),包含了4000億個文本標(biāo)記,主要來源于Step-3語料庫。這些文本就像是給AI講故事,讓它學(xué)會理解和生成自然語言,保持原有的語言理解能力不會因為學(xué)習(xí)圖像生成而退化。就像一個人學(xué)畫畫的同時還要保持閱讀能力一樣。
第二類是圖像-文本配對數(shù)據(jù),這是模型學(xué)習(xí)將文字描述轉(zhuǎn)換為視覺內(nèi)容的關(guān)鍵素材。研究團(tuán)隊收集了5.5億對高質(zhì)量的圖像和對應(yīng)的文字描述。這些數(shù)據(jù)來源廣泛,包括網(wǎng)絡(luò)數(shù)據(jù)、多任務(wù)視覺問答數(shù)據(jù)和富含文字的文檔。更重要的是,研究團(tuán)隊使用了先進(jìn)的AI模型為每張圖片重新生成了豐富詳細(xì)的中英文描述,確保文字和圖像之間的匹配度更高。這個過程就像請專業(yè)的藝術(shù)評論家為每幅畫作撰寫詳細(xì)的解說詞。
第三類是指令引導(dǎo)的圖像到圖像數(shù)據(jù),專門用于訓(xùn)練模型的編輯能力。研究團(tuán)隊收集了約100萬個樣本,涵蓋視覺感知、可控圖像生成、圖像修復(fù)和通用圖像編輯等多個任務(wù)。這些數(shù)據(jù)經(jīng)過了嚴(yán)格的質(zhì)量篩選,使用視覺語言模型評估圖像質(zhì)量、合理性、一致性和指令匹配度,確保只有最高質(zhì)量的樣本被用于訓(xùn)練。
第四類是交錯數(shù)據(jù),這是最有趣的一類數(shù)據(jù),它將文字和圖像seamlessly交織在一起,就像一本圖文并茂的故事書。這類數(shù)據(jù)包括從視頻中提取的幀序列配上相應(yīng)的描述、教程類內(nèi)容、以特定角色為中心的場景,以及多視角數(shù)據(jù)。特別值得一提的是,研究團(tuán)隊開發(fā)了一個專門的角色中心數(shù)據(jù)集NextStep-Video-Interleave-5M,通過人臉識別技術(shù)跟蹤視頻中的特定角色,并為這些場景生成類似故事敘述的豐富描述。這讓AI能夠?qū)W會理解復(fù)雜的多回合交互和故事情節(jié)。
三、訓(xùn)練過程:從學(xué)徒到大師的成長之路
NextStep-1的訓(xùn)練過程就像培養(yǎng)一個藝術(shù)學(xué)徒成為大師畫家的過程,需要經(jīng)歷多個階段的精心指導(dǎo)和練習(xí)。整個訓(xùn)練分為預(yù)訓(xùn)練和后訓(xùn)練兩大階段,每個階段都有其特定的學(xué)習(xí)目標(biāo)和訓(xùn)練策略。
預(yù)訓(xùn)練階段又細(xì)分為三個子階段。第一階段相當(dāng)于基礎(chǔ)訓(xùn)練,所有圖像都被調(diào)整到256×256的固定分辨率,就像學(xué)畫畫時先從簡單的素描開始。在這個階段,模型學(xué)習(xí)最基礎(chǔ)的圖像結(jié)構(gòu)和組成規(guī)律,數(shù)據(jù)配比為20%純文本、60%圖文配對和20%交錯數(shù)據(jù),共消耗了約1.23萬億個標(biāo)記。
第二階段引入了動態(tài)分辨率策略,允許模型處理256×256和512×512兩種不同的基礎(chǔ)分辨率,并使用不同的長寬比分桶來提高計算效率。這就像學(xué)會了基礎(chǔ)技法后,開始練習(xí)處理更大幅面和不同比例的畫作。在這個階段,研究團(tuán)隊增加了更多富含文字和視頻交錯的數(shù)據(jù),讓模型能夠處理更豐富的視覺細(xì)節(jié)。
第三階段是退火階段,這個過程就像藝術(shù)家在完成作品前的最后精修。研究團(tuán)隊從高質(zhì)量數(shù)據(jù)集中精選了2000萬個樣本,這些樣本在美學(xué)評分、圖像清晰度、語義相似性、水印檢測等方面都達(dá)到了更嚴(yán)格的標(biāo)準(zhǔn)。模型在這些精選數(shù)據(jù)上訓(xùn)練一個epoch,顯著提升了最終輸出的圖像質(zhì)量,增強(qiáng)了整體圖像結(jié)構(gòu)、構(gòu)圖、紋理和美學(xué)吸引力。
后訓(xùn)練階段包括監(jiān)督微調(diào)和直接偏好優(yōu)化兩個步驟。監(jiān)督微調(diào)階段使用了500萬個精心準(zhǔn)備的樣本,包括高語義一致性和視覺吸引力的圖文配對數(shù)據(jù)、其他生成模型的圖像用于蒸餾學(xué)習(xí)復(fù)雜想象性提示的處理能力,以及思維鏈數(shù)據(jù)來改進(jìn)推理能力。這個階段還包含了高質(zhì)量的圖像編輯數(shù)據(jù),增強(qiáng)了模型的編輯功能。
直接偏好優(yōu)化階段則是為了讓模型更好地符合人類的審美偏好。研究團(tuán)隊構(gòu)建了兩種類型的偏好數(shù)據(jù)集。標(biāo)準(zhǔn)偏好數(shù)據(jù)集通過讓模型為每個提示生成16個候選圖像,然后使用ImageReward評分系統(tǒng)進(jìn)行排序,選擇得分最高的4個作為"獲勝"樣本,其余12個作為"失敗"樣本。自我思維鏈偏好數(shù)據(jù)集則在此基礎(chǔ)上增加了推理步驟,讓模型在生成圖像前先進(jìn)行詳細(xì)的文本推理,類似于藝術(shù)家在動筆前先構(gòu)思整體布局。
四、性能表現(xiàn):在各個考試中都取得優(yōu)異成績
就像一個優(yōu)秀的學(xué)生在各門考試中都表現(xiàn)出色一樣,NextStep-1在多個權(quán)威評測基準(zhǔn)上都取得了令人矚目的成績,充分證明了其在文本到圖像生成任務(wù)中的強(qiáng)大能力。
在圖像-文本對齊能力的測試中,NextStep-1表現(xiàn)尤為突出。在GenEval測試中獲得了0.63分(使用自我思維鏈技術(shù)后提升到0.73分),這個測試主要評估模型在計數(shù)、定位和空間對齊方面的能力。在GenAI-Bench測試中,基礎(chǔ)提示獲得0.88分,高級提示獲得0.67分(使用思維鏈技術(shù)后分別提升到0.9和0.74分),顯示出強(qiáng)大的組合理解能力。在DPG-Bench長文本多對象場景測試中取得85.28分,證明了在處理復(fù)雜提示時的可靠組合能力。
特別值得一提的是在OneIG-Bench英文提示測試中的表現(xiàn),這個基準(zhǔn)測試評估對齊、文本渲染、推理和風(fēng)格控制等多個維度的能力。NextStep-1獲得了0.417的總分,顯著超越了其他自回歸模型,如Emu3的0.311分和Janus-Pro的0.267分。這個結(jié)果表明NextStep-1在多個技術(shù)維度上都達(dá)到了領(lǐng)先水平。
在世界知識整合能力的評估中,NextStep-1同樣表現(xiàn)優(yōu)異。WISE基準(zhǔn)測試強(qiáng)調(diào)事實基礎(chǔ)和語義理解,這個測試要求模型不僅能生成美觀的圖像,還要確保內(nèi)容的準(zhǔn)確性。NextStep-1在這項測試中獲得0.54分(使用思維鏈技術(shù)后提升到0.67分),在自回歸模型中表現(xiàn)最佳,甚至超過了大多數(shù)擴(kuò)散模型。當(dāng)使用提示重寫協(xié)議時,得分進(jìn)一步提升到0.79分(思維鏈技術(shù)下為0.83分),這些結(jié)果充分展示了模型強(qiáng)大的知識感知語義對齊和跨領(lǐng)域推理能力。
在圖像編輯任務(wù)上,研究團(tuán)隊開發(fā)的NextStep-1-Edit通過在100萬高質(zhì)量編輯專用數(shù)據(jù)上進(jìn)行微調(diào),展現(xiàn)出了與先進(jìn)擴(kuò)散模型相競爭的性能。在GEdit-Bench英文測試中獲得6.58分,在ImgEdit-Bench測試中獲得3.71分,證明了其在實際編輯應(yīng)用中的強(qiáng)大能力。
五、核心發(fā)現(xiàn):是大腦還是畫筆在作畫
在研究過程中,團(tuán)隊發(fā)現(xiàn)了一個非常有趣的現(xiàn)象,這個發(fā)現(xiàn)顛覆了人們對AI圖像生成機(jī)制的傳統(tǒng)認(rèn)知。就像探索畫家作畫時是大腦在指揮還是手在自主運(yùn)動一樣,研究團(tuán)隊想要了解在NextStep-1中,到底是140億參數(shù)的主體變換器在控制圖像生成,還是1.57億參數(shù)的流匹配頭部在起主導(dǎo)作用。
通過一系列精心設(shè)計的對比實驗,研究團(tuán)隊發(fā)現(xiàn)了一個令人驚訝的結(jié)果:流匹配頭部的大小對最終生成效果的影響微乎其微。他們測試了三種不同規(guī)模的流匹配頭部——小型(6層,1024隱藏維度,4000萬參數(shù))、基礎(chǔ)型(12層,1536隱藏維度,1.57億參數(shù))和大型(24層,2048隱藏維度,5.28億參數(shù))。盡管參數(shù)數(shù)量相差超過10倍,但三種配置產(chǎn)生的圖像質(zhì)量幾乎沒有差異,在多項評估指標(biāo)上的表現(xiàn)都非常接近。
這個發(fā)現(xiàn)的意義非常重大。它表明真正的圖像生成"智慧"主要來自于那個140億參數(shù)的變換器主體,流匹配頭部更像是一個精巧的輸出工具,負(fù)責(zé)將變換器的"想法"轉(zhuǎn)化為具體的視覺內(nèi)容。這就像一個畫家的創(chuàng)意和構(gòu)思主要來自大腦,而畫筆只是將這些想法表現(xiàn)出來的工具。無論使用粗筆還是細(xì)筆,關(guān)鍵還是畫家的藝術(shù)素養(yǎng)和創(chuàng)作能力。
這個發(fā)現(xiàn)也解釋了為什么NextStep-1能夠在保持輕量級采樣頭部的同時實現(xiàn)如此出色的生成效果。變換器通過自回歸的下一個標(biāo)記預(yù)測過程執(zhí)行核心的生成建模工作,而流匹配頭部主要充當(dāng)輕量級采樣器的角色,將變換器的上下文預(yù)測轉(zhuǎn)換為連續(xù)標(biāo)記。因此,本質(zhì)的生成邏輯存在于變換器的自回歸預(yù)測過程中。
六、圖像標(biāo)記器:成功的關(guān)鍵基石
如果說變換器是NextStep-1的大腦,那么圖像標(biāo)記器就是它的眼睛和手,負(fù)責(zé)理解和創(chuàng)造視覺內(nèi)容。研究團(tuán)隊發(fā)現(xiàn),圖像標(biāo)記器的設(shè)計對整個系統(tǒng)的成功至關(guān)重要,就像建筑的地基必須足夠堅實才能支撐整棟大樓一樣。
傳統(tǒng)的基于VAE的自回歸模型有一個眾所周知的問題:在強(qiáng)分類器自由引導(dǎo)下容易出現(xiàn)視覺偽影,特別是灰色斑塊。之前的研究認(rèn)為這個問題源于1D位置嵌入的不連續(xù)性,但NextStep-1團(tuán)隊通過深入分析發(fā)現(xiàn),真正的原因在于高引導(dǎo)尺度下標(biāo)記級分布偏移的放大。
在推理過程中,分類器自由引導(dǎo)通過插值來計算引導(dǎo)預(yù)測。在擴(kuò)散模型中,由于潛在變量通常進(jìn)行了歸一化,條件和無條件預(yù)測保持一致的尺度,因此高引導(dǎo)尺度下的推理是穩(wěn)定的。然而在標(biāo)記級自回歸模型中,整個潛在張量的全局歸一化并不能確保每個標(biāo)記的統(tǒng)計一致性。因此,條件和無條件預(yù)測之間的微小差異會被大的引導(dǎo)尺度放大,導(dǎo)致生成標(biāo)記的統(tǒng)計在序列中顯著偏移。
研究團(tuán)隊通過實驗驗證了這一現(xiàn)象。在適中的引導(dǎo)尺度(1.5)下,每個標(biāo)記的均值和方差在整個生成過程中保持穩(wěn)定。相比之下,在高引導(dǎo)尺度(3.0)下,這兩個統(tǒng)計量對后續(xù)標(biāo)記顯著偏離,這種分布偏移直接對應(yīng)于視覺偽影的出現(xiàn)。
為了解決這個問題,NextStep-1的圖像標(biāo)記器設(shè)計采用了通道級歸一化,直接解決了這個問題,通過強(qiáng)制執(zhí)行每個標(biāo)記的統(tǒng)計穩(wěn)定性來實現(xiàn)。這種簡單但關(guān)鍵的設(shè)計選擇緩解了不穩(wěn)定性,使得能夠使用強(qiáng)引導(dǎo)而不會降低圖像質(zhì)量。
研究團(tuán)隊還發(fā)現(xiàn)了一個反直覺的現(xiàn)象:生成損失和最終合成質(zhì)量之間存在反向相關(guān)關(guān)系。具體來說,在標(biāo)記器訓(xùn)練過程中應(yīng)用更高的噪聲強(qiáng)度會增加生成損失,但矛盾的是,這卻能提高生成圖像的質(zhì)量。NextStep-1使用了在噪聲強(qiáng)度γ=0.5下訓(xùn)練的標(biāo)記器,雖然這產(chǎn)生了最高的生成損失,但卻產(chǎn)生了最高保真度的圖像。相反,為低生成損失訓(xùn)練的標(biāo)記器導(dǎo)致自回歸模型產(chǎn)生類似純噪聲的輸出。
研究團(tuán)隊將這種現(xiàn)象歸因于噪聲正則化培養(yǎng)了一個條件良好的潛在空間。這個過程增強(qiáng)了兩個關(guān)鍵特性:標(biāo)記器解碼器對潛在擾動的魯棒性,以及更加分散的潛在分布。雖然目前還不清楚魯棒性還是分散性起到了關(guān)鍵作用,但這些結(jié)果突出了基于噪聲的正則化的實際好處,并為未來的分析指明了有希望的方向。
七、局限性與挑戰(zhàn):成長路上的絆腳石
任何創(chuàng)新技術(shù)在發(fā)展過程中都會遇到各種挑戰(zhàn)和限制,NextStep-1也不例外。研究團(tuán)隊非常坦誠地分享了他們在研究過程中遇到的各種問題和尚未完全解決的技術(shù)難題,這些挑戰(zhàn)為未來的改進(jìn)指明了方向。
最明顯的問題是在處理高維連續(xù)潛在空間時偶爾出現(xiàn)的視覺偽影。當(dāng)從較低維度的潛在空間(如空間下采樣因子為8、潛在通道數(shù)為4)過渡到更高維度的空間(空間下采樣因子為8、潛在通道數(shù)為16)時,雖然前者配置產(chǎn)生穩(wěn)定的輸出,后者偶爾會出現(xiàn)失效模式。這些偽影包括生成后期出現(xiàn)的局部噪聲或塊狀偽影、整張圖像的全局噪聲,以及微妙的網(wǎng)格狀偽影。研究團(tuán)隊認(rèn)為這可能源于數(shù)值不穩(wěn)定性、訓(xùn)練不足,或者1D位置編碼在捕獲2D空間關(guān)系方面的局限性。
另一個重要挑戰(zhàn)是推理延遲。理論分析顯示,在H100 GPU上批量大小為1的情況下,每個標(biāo)記的延遲主要來自LLM的串行解碼,而流匹配頭部的多步采樣也構(gòu)成了生成成本的重要部分。這提示了兩個改進(jìn)方向:提高流匹配頭部的效率,以及將LLM領(lǐng)域的加速技術(shù)(如推測解碼或多標(biāo)記預(yù)測)適應(yīng)到圖像標(biāo)記生成領(lǐng)域。
在高分辨率訓(xùn)練方面,NextStep-1面臨著與擴(kuò)散模型相比的固有劣勢。自回歸生成的嚴(yán)格順序性質(zhì)要求在更高分辨率下需要更多的訓(xùn)練步驟才能收斂,而擴(kuò)散模型可以在每次迭代中并行細(xì)化整個圖像,更直接地利用2D空間歸納偏置。此外,最近為高分辨率擴(kuò)散模型開發(fā)的技術(shù)(如時間步長偏移)很難適應(yīng)NextStep-1的設(shè)置,因為流匹配頭部主要作為輕量級采樣器,而變換器主體執(zhí)行核心生成建模,對采樣過程的修改對最終輸出的影響有限。
在監(jiān)督微調(diào)方面,NextStep-1的自回歸框架也面臨著獨特的挑戰(zhàn)。與擴(kuò)散模型相比,后者通??梢杂脦浊€樣本就適應(yīng)目標(biāo)分布并保持穩(wěn)定的通用圖像生成能力,NextStep-1的微調(diào)過程表現(xiàn)出不穩(wěn)定的動態(tài)性。只有在百萬樣本規(guī)模的數(shù)據(jù)集上訓(xùn)練時,才能獲得實質(zhì)性的改進(jìn)。使用較小的數(shù)據(jù)集時,模型處于一種不穩(wěn)定的平衡狀態(tài),要么改進(jìn)微小幾乎沒有影響,要么突然過擬合到目標(biāo)分布。因此,找到一個既能實現(xiàn)與目標(biāo)分布對齊又保持通用生成能力的中間檢查點仍然是一個重大挑戰(zhàn)。
八、未來展望:通往更智能創(chuàng)作的道路
NextStep-1的成功不僅僅是一個技術(shù)突破,更像是為整個AI圖像生成領(lǐng)域打開了一扇新的大門。這項研究證明了自回歸模型在處理連續(xù)視覺標(biāo)記方面的巨大潛力,為未來的發(fā)展指明了多個令人興奮的方向。
從技術(shù)優(yōu)化的角度來看,流匹配頭部的加速是一個重要方向。由于實驗證明了頭部大小對性能影響較小,未來可以通過減少參數(shù)數(shù)量、應(yīng)用蒸餾技術(shù)實現(xiàn)少步生成,或者使用更先進(jìn)的少步采樣器來提高推理效率。同時,自回歸主體的加速也很有希望,可以借鑒大語言模型領(lǐng)域的推測解碼或多標(biāo)記預(yù)測等技術(shù)。
在高分辨率生成方面,需要專門為逐片自回歸模型設(shè)計新的策略。這可能包括開發(fā)適合逐步生成特點的空間歸納偏置技術(shù),或者設(shè)計能夠在自回歸框架下工作的高分辨率生成策略。
模型的可控性和可編輯性是另一個充滿潛力的發(fā)展方向。NextStep-1-Edit已經(jīng)展示了在圖像編輯方面的能力,未來可以進(jìn)一步擴(kuò)展到更精細(xì)的控制,比如局部編輯、風(fēng)格轉(zhuǎn)換、或者基于草圖的生成等。逐步生成的特性使得這種精細(xì)控制成為可能,因為系統(tǒng)可以在生成過程中的任何時點接受新的指令或約束。
多模態(tài)能力的擴(kuò)展也是一個自然的發(fā)展方向。NextStep-1已經(jīng)統(tǒng)一了文本和圖像的處理,未來可以進(jìn)一步擴(kuò)展到視頻、音頻等其他模態(tài)。特別是在視頻生成方面,自回歸的逐幀生成特性與視頻的時序特性天然匹配,有望產(chǎn)生更連貫、更可控的視頻內(nèi)容。
在實際應(yīng)用層面,NextStep-1的技術(shù)可能會revolutionize內(nèi)容創(chuàng)作的工作流程。設(shè)計師、藝術(shù)家、營銷人員等創(chuàng)意工作者可能會發(fā)現(xiàn),這種逐步可控的生成方式比傳統(tǒng)的"一鍵生成"方法更適合他們的創(chuàng)作需求。它允許在創(chuàng)作過程中進(jìn)行實時調(diào)整和精細(xì)控制,就像真正的創(chuàng)作過程一樣。
更深層次地說,NextStep-1代表了AI系統(tǒng)向更加可解釋、可控制方向發(fā)展的趨勢。傳統(tǒng)的黑盒式生成方法雖然效率高,但缺乏透明性和可控性。而NextStep-1的逐步生成范式使得整個創(chuàng)作過程變得可視化和可干預(yù),這對于需要精確控制輸出的專業(yè)應(yīng)用來說具有重要意義。
說到底,NextStep-1最重要的貢獻(xiàn)可能在于它證明了AI可以像人類一樣進(jìn)行創(chuàng)作——不是通過神秘的瞬間靈感,而是通過系統(tǒng)性的、逐步的、可理解的過程。這種方法不僅在技術(shù)上更加優(yōu)雅,也在哲學(xué)層面上更符合我們對創(chuàng)造性工作的理解。當(dāng)AI能夠像人類藝術(shù)家一樣一筆一劃地創(chuàng)作時,它們就不再是冷冰冰的工具,而可能成為真正的創(chuàng)作伙伴。
這項研究表明,未來的AI系統(tǒng)可能會更加注重過程而不僅僅是結(jié)果,更加強(qiáng)調(diào)可控性而不僅僅是效率,更加重視可解釋性而不僅僅是性能。NextStep-1在這個方向上邁出了重要的第一步,為整個領(lǐng)域的發(fā)展樹立了新的標(biāo)桿。隨著技術(shù)的不斷成熟和完善,我們有理由期待看到更多基于這種理念的創(chuàng)新應(yīng)用,它們將重新定義人類與AI在創(chuàng)作領(lǐng)域的合作關(guān)系。
Q&A
Q1:NextStep-1與傳統(tǒng)AI圖像生成有什么本質(zhì)區(qū)別?
A:NextStep-1最大的區(qū)別在于它采用逐步生成的方式,就像畫家一筆一劃作畫一樣。傳統(tǒng)AI圖像生成是瞬間輸出完整圖片,而NextStep-1會一點點構(gòu)建圖像,每一步都參考前面已經(jīng)生成的內(nèi)容。這種方式雖然slower,但提供了更好的控制能力和可解釋性。
Q2:NextStep-1的14B參數(shù)和157M流匹配頭部分別起什么作用?
A:研究發(fā)現(xiàn)14B參數(shù)的變換器是真正的"大腦",負(fù)責(zé)理解文字描述和決策圖像內(nèi)容,而157M的流匹配頭部更像是"畫筆",將大腦的想法轉(zhuǎn)化為具體的視覺效果。有趣的是,即使大幅改變畫筆大小,最終效果差異也很小,說明核心智能來自于變換器主體。
Q3:NextStep-1在圖像編輯方面有什么特殊優(yōu)勢?
A:由于NextStep-1采用逐步生成的方式,它天然適合圖像編輯任務(wù)。NextStep-1-Edit可以根據(jù)用戶指令精確修改圖像的特定部分,就像一個聽話的助手。在多個編輯基準(zhǔn)測試中表現(xiàn)出色,特別適合需要精細(xì)控制的專業(yè)應(yīng)用場景。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。