av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) ReasonGen-R1:微軟使用監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)讓圖像生成模型先思考后創(chuàng)作

ReasonGen-R1:微軟使用監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)讓圖像生成模型先思考后創(chuàng)作

2025-06-05 10:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 10:20 ? 科技行者

在科技與創(chuàng)意的交匯處,人工智能如何能更像人類一樣"思考"后再創(chuàng)作?2025年5月,一個(gè)由上??萍即髮W(xué)、微軟公司和復(fù)旦大學(xué)研究人員組成的團(tuán)隊(duì)發(fā)表了一篇引人注目的研究論文《ReasonGen-R1: CoT for Autoregressive Image Generation model through SFT and RL》。這項(xiàng)研究將鏈?zhǔn)剿伎迹–hain-of-Thought,簡(jiǎn)稱CoT)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡(jiǎn)稱RL)這兩種在自然語(yǔ)言處理領(lǐng)域取得巨大突破的技術(shù),首次成功應(yīng)用到了自回歸圖像生成模型中。有興趣深入了解的讀者可以通過(guò)arXiv:2505.24875v1訪問(wèn)完整論文。

一、研究背景:為什么圖像生成模型需要"思考"能力?

想象一下,當(dāng)藝術(shù)家創(chuàng)作一幅畫(huà)作時(shí),他們通常不會(huì)立即動(dòng)筆。相反,他們會(huì)先在腦海中構(gòu)思畫(huà)面的結(jié)構(gòu)、色彩、光影等元素,考慮如何安排畫(huà)面中的各個(gè)對(duì)象,以及整體氛圍應(yīng)該如何表達(dá)。這種"先思考后創(chuàng)作"的過(guò)程是藝術(shù)創(chuàng)作的核心。

然而,目前的圖像生成模型大多是直接從文本提示詞跳到生成圖像,中間缺乏可見(jiàn)的思考過(guò)程。即使是像ChatGPT、Gemini和Janus-Pro這樣的先進(jìn)模型,雖然能夠生成高質(zhì)量的圖像,但它們的"思考"過(guò)程對(duì)用戶來(lái)說(shuō)仍然是一個(gè)黑盒。

微軟、上??萍即髮W(xué)和復(fù)旦大學(xué)的研究團(tuán)隊(duì)意識(shí)到,如果能讓圖像生成模型像人類藝術(shù)家一樣先進(jìn)行文字形式的思考,再創(chuàng)作圖像,這將大大提高模型遵循指令的能力和生成圖像的質(zhì)量。這也是ReasonGen-R1項(xiàng)目的核心目標(biāo):讓自回歸圖像生成模型學(xué)會(huì)自主產(chǎn)生文本推理序列,然后基于這些推理生成高質(zhì)量圖像。

二、面臨的挑戰(zhàn):如何教會(huì)圖像模型"思考"?

實(shí)現(xiàn)這一目標(biāo)面臨兩大挑戰(zhàn)。首先,目前主流的自回歸圖像生成模型(如Janus-Pro)通常是直接從文本提示詞生成圖像,而沒(méi)有同時(shí)產(chǎn)生文本推理的能力。如果直接使用強(qiáng)化學(xué)習(xí)方法,可能會(huì)因?yàn)槟P捅旧砣狈ν评砟芰ΧЧ患选?/p>

想象一下,這就像是試圖教一個(gè)從未學(xué)過(guò)步法的人直接跳高難度舞蹈動(dòng)作——在沒(méi)有基礎(chǔ)的情況下,高級(jí)訓(xùn)練往往效果有限。

第二個(gè)挑戰(zhàn)是,目前學(xué)術(shù)界還沒(méi)有一套成熟的框架,能夠在自回歸圖像生成模型中有效地實(shí)現(xiàn)"基于思考的生成"過(guò)程。這需要研究人員開(kāi)發(fā)新的方法和技術(shù)。

三、ReasonGen-R1的創(chuàng)新方案:兩階段訓(xùn)練方法

為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了一個(gè)名為ReasonGen-R1的兩階段訓(xùn)練框架,巧妙地結(jié)合了監(jiān)督微調(diào)(Supervised Fine-Tuning,簡(jiǎn)稱SFT)和強(qiáng)化學(xué)習(xí)(RL)。

第一階段是監(jiān)督微調(diào)(SFT)。就像先教會(huì)舞者基本步法一樣,研究團(tuán)隊(duì)首先需要讓模型學(xué)會(huì)如何生成文本推理。為此,他們構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集,包含20萬(wàn)對(duì)樣本,每個(gè)樣本包含指令、推理文本和相應(yīng)圖像。這些樣本是通過(guò)從LAION美學(xué)數(shù)據(jù)集篩選出的圖像,并使用GPT-4.1-mini生成豐富的鏈?zhǔn)剿伎迹–oT)推理軌跡精心創(chuàng)建的。

在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了"指令→CoT→圖像"的管道,同時(shí)監(jiān)督文本推理序列和圖像輸出。這有點(diǎn)像教導(dǎo)學(xué)生:看到題目(指令)后,先寫(xiě)下解題思路(CoT),再給出最終答案(圖像)。通過(guò)這種方式,模型逐漸學(xué)會(huì)了生成連貫的推理文本,并基于這些推理生成相應(yīng)的圖像。

第二階段是強(qiáng)化學(xué)習(xí)(RL)。這一階段使用了一種名為群組相對(duì)策略優(yōu)化(Group Relative Policy Optimization,簡(jiǎn)稱GRPO)的強(qiáng)化學(xué)習(xí)框架。研究團(tuán)隊(duì)使用強(qiáng)大的圖像理解模型Qwen-2.5-VL作為獎(jiǎng)勵(lì)模型,評(píng)估生成圖像與原始提示詞之間的一致性。

具體來(lái)說(shuō),對(duì)于每次訓(xùn)練嘗試,研究團(tuán)隊(duì)會(huì)讓模型生成一個(gè)完整序列:提示詞→推理→圖像。然后,獎(jiǎng)勵(lì)模型會(huì)評(píng)估生成的圖像與提示詞的一致性,給出二元一致性分?jǐn)?shù)(0或1)。這些分?jǐn)?shù)會(huì)反饋給模型,引導(dǎo)它調(diào)整自己的推理方式,從而生成更符合提示詞要求的圖像。

值得一提的是,研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)文本和圖像輸出交替進(jìn)行時(shí),強(qiáng)化學(xué)習(xí)訓(xùn)練極易出現(xiàn)"熵爆炸"(模型輸出過(guò)于隨機(jī))或"熵消失"(模型輸出過(guò)于固定)的問(wèn)題。為了解決這個(gè)問(wèn)題,他們引入了一種獨(dú)特的自適應(yīng)熵?fù)p失設(shè)計(jì),確保訓(xùn)練過(guò)程穩(wěn)定有效。

四、數(shù)據(jù)集的精心構(gòu)建:思考的原材料

任何AI模型的訓(xùn)練都離不開(kāi)高質(zhì)量的數(shù)據(jù)。為了教會(huì)模型"思考",研究團(tuán)隊(duì)需要構(gòu)建一個(gè)包含大量<指令,推理,圖像>三元組的數(shù)據(jù)集。

這個(gè)過(guò)程可以類比為給孩子提供學(xué)習(xí)材料:我們需要題目(指令)、解題思路(推理)和正確答案(圖像)三部分,才能教會(huì)孩子如何思考。

研究團(tuán)隊(duì)首先從LAION美學(xué)V1數(shù)據(jù)集中選擇了20萬(wàn)張圖像。由于基礎(chǔ)模型Janus-Pro只能生成正方形圖像,團(tuán)隊(duì)將每張圖像的長(zhǎng)邊裁剪為與短邊相同的長(zhǎng)度,得到正方形輸出。

接下來(lái),他們使用GPT-4.1 mini為每張圖像生成一個(gè)簡(jiǎn)潔的標(biāo)題,重點(diǎn)關(guān)注圖像中物體的顏色、數(shù)量、位置等關(guān)鍵細(xì)節(jié)。然后,他們使用GPT-4.1 nano基于這個(gè)簡(jiǎn)潔標(biāo)題生成多種增強(qiáng)提示詞,包括一組圖像標(biāo)簽、以物體為中心的短語(yǔ)、三個(gè)改寫(xiě)版本的簡(jiǎn)潔標(biāo)題,以及一個(gè)用不同風(fēng)格編寫(xiě)的變體標(biāo)題。

同時(shí),他們還生成了一個(gè)詳細(xì)的標(biāo)題,提供更全面的圖像描述。值得注意的是,這個(gè)詳細(xì)標(biāo)題僅基于簡(jiǎn)潔標(biāo)題生成,而非直接從圖像生成,這確保了GPT-4.1不會(huì)引入圖像中的額外信息,防止在SFT訓(xùn)練過(guò)程中出現(xiàn)信息不一致的問(wèn)題。

通過(guò)這種方法,研究團(tuán)隊(duì)構(gòu)建了一個(gè)高質(zhì)量、多樣化的數(shù)據(jù)集,包含簡(jiǎn)潔標(biāo)題、增強(qiáng)的簡(jiǎn)潔標(biāo)題和詳細(xì)標(biāo)題與圖像的配對(duì)。

五、監(jiān)督微調(diào):教會(huì)模型如何思考

大多數(shù)自回歸生成器目前生成文本和圖像是分開(kāi)的序列,需要用戶明確指示才能切換模態(tài)。這就像是一個(gè)廚師需要被告知"現(xiàn)在開(kāi)始切菜",然后再被告知"現(xiàn)在開(kāi)始炒菜",而不能自然地完成整個(gè)烹飪過(guò)程。

在監(jiān)督微調(diào)階段,研究團(tuán)隊(duì)解決了這一限制。他們訓(xùn)練模型首先生成一個(gè)連貫的推理理由,然后自然地過(guò)渡到圖像合成,所有這些都在一個(gè)連續(xù)序列中完成。團(tuán)隊(duì)以Janus-Pro-7B作為基礎(chǔ)模型,該模型使用特殊的圖像開(kāi)始標(biāo)記來(lái)觸發(fā)視覺(jué)輸出。

如圖1所示,每個(gè)訓(xùn)練序列以簡(jiǎn)潔的圖像提示詞開(kāi)始,然后是詳細(xì)的推理說(shuō)明。接著插入圖像開(kāi)始標(biāo)記和相應(yīng)的圖像標(biāo)記。通過(guò)這種格式,模型學(xué)會(huì)了在自動(dòng)發(fā)出圖像開(kāi)始標(biāo)記和生成最終圖像之前,先生成詳細(xì)的推理理由。

六、強(qiáng)化學(xué)習(xí):優(yōu)化思考的質(zhì)量

監(jiān)督微調(diào)讓模型學(xué)會(huì)了基本的思考能力,但如何確保這些思考能夠引導(dǎo)生成高質(zhì)量、符合指令的圖像呢?這就是強(qiáng)化學(xué)習(xí)階段的任務(wù)。

群組相對(duì)策略優(yōu)化(GRPO)在增強(qiáng)LLM模型的推理能力方面已經(jīng)顯示出強(qiáng)大的能力。為了進(jìn)一步使生成的圖像與文本推理和輸入提示保持一致,研究團(tuán)隊(duì)將GRPO調(diào)整用于圖像生成。

不同于原始GRPO中基于規(guī)則的獎(jiǎng)勵(lì),評(píng)估提示詞和生成圖像之間的一致性很難有預(yù)定義的黃金規(guī)則。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)使用強(qiáng)大的視覺(jué)語(yǔ)言模型Qwen-2.5-VL 7B作為獎(jiǎng)勵(lì)模型。

在每次推理中,生成模型會(huì)產(chǎn)生單一序列:提示詞→推理→圖像。研究團(tuán)隊(duì)僅通過(guò)查詢預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型來(lái)評(píng)估輸入文本和輸出圖像之間的一致性,從而計(jì)算生成圖像的獎(jiǎng)勵(lì)。為了給前面的推理步驟提供信用,他們將圖像級(jí)獎(jiǎng)勵(lì)向后傳播到整個(gè)序列,強(qiáng)化那些產(chǎn)生高質(zhì)量視覺(jué)輸出的文本推理。

這有點(diǎn)像訓(xùn)練一個(gè)學(xué)生:不僅要看最終答案是否正確,還要看解題思路是否合理。通過(guò)這種方式,模型不僅學(xué)會(huì)了生成高質(zhì)量的圖像,還學(xué)會(huì)了生成能夠引導(dǎo)高質(zhì)量圖像創(chuàng)作的推理文本。

七、實(shí)驗(yàn)結(jié)果:思考后的圖像更符合指令

那么,ReasonGen-R1的表現(xiàn)如何呢?研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試上對(duì)模型進(jìn)行了評(píng)估,包括GenEval、DPG-Bench和T2I-Benchmark。

在GenEval基準(zhǔn)測(cè)試中,ReasonGen-R1達(dá)到了0.86的總體分?jǐn)?shù),比基線模型Janus-Pro-7B的0.80高出了6個(gè)百分點(diǎn)。特別是在位置和顏色屬性方面,ReasonGen-R1分別獲得了0.84的高分,而Janus-Pro-7B只有0.79和0.66。

在DPG-Bench基準(zhǔn)測(cè)試中,ReasonGen-R1的總體分?jǐn)?shù)為85.88,比Janus-Pro-7B的84.19高出1.69個(gè)百分點(diǎn)。在全局、實(shí)體、屬性和關(guān)系各個(gè)方面,ReasonGen-R1都取得了更好的表現(xiàn)。

最令人印象深刻的是在T2I-Benchmark上的表現(xiàn),ReasonGen-R1在屬性綁定方面表現(xiàn)突出,尤其是在顏色(0.8321)和紋理(0.7295)屬性上,比Janus-Pro-7B分別高出0.1962和0.2359??傮w而言,ReasonGen-R1在復(fù)雜屬性方面的得分為0.3909,比Janus-Pro-7B的0.3559高出13.38%。

這些結(jié)果清楚地表明,通過(guò)引入鏈?zhǔn)剿伎己蛷?qiáng)化學(xué)習(xí),ReasonGen-R1顯著提高了自回歸圖像生成模型的指令遵循能力和圖像質(zhì)量。

八、鏈?zhǔn)剿伎嫉膬?nèi)容分析:模型如何思考?

研究團(tuán)隊(duì)對(duì)ReasonGen-R1的鏈?zhǔn)剿伎純?nèi)容進(jìn)行了深入分析,發(fā)現(xiàn)了一些有趣的模式。

首先,模型通常會(huì)先錨定場(chǎng)景的高層框架——"感覺(jué)"、"場(chǎng)景"和"自然"等詞匯在超過(guò)140%的思考鏈中出現(xiàn),強(qiáng)調(diào)整體背景和現(xiàn)實(shí)設(shè)置。然后,它會(huì)精細(xì)調(diào)整視覺(jué)風(fēng)格:如"柔和"、"突出"、"情緒"和"光滑"等詞匯(所有出現(xiàn)率均超過(guò)100%)來(lái)指定光照質(zhì)量、情感基調(diào)和紋理。

關(guān)鍵的是,"突出"和"強(qiáng)調(diào)"(至少在70%的思考鏈中出現(xiàn))的存在表明模型在顯式規(guī)劃構(gòu)圖焦點(diǎn)。這揭示了ReasonGen-R1不僅僅是描述物體,它還在積極規(guī)劃構(gòu)圖重點(diǎn)。

除了核心詞匯外,ReasonGen-R1還利用大量不太常見(jiàn)的修飾詞——"背景"建立環(huán)境背景;"特征"突出顯著的視覺(jué)元素;"平靜"喚起寧?kù)o的氛圍;"時(shí)刻"傳達(dá)時(shí)間捕捉的感覺(jué);"捕捉"強(qiáng)調(diào)攝影現(xiàn)實(shí)感等——為每個(gè)推理序列注入微妙的、特定于上下文的細(xì)微差別。

總體而言,這種分析表明ReasonGen-R1的鏈?zhǔn)剿伎祭昧嘶パa(bǔ)的組件——場(chǎng)景框架、風(fēng)格細(xì)節(jié)、主題突出和敘述豐富——協(xié)同引導(dǎo)圖像生成。

九、消融實(shí)驗(yàn):各個(gè)組件的重要性

為了理解SFT和RL階段各自的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。

結(jié)果顯示,ReasonGen-R1顯著優(yōu)于僅使用RL的基線(沒(méi)有SFT),在GenEval基準(zhǔn)測(cè)試中高出18個(gè)百分點(diǎn)。這表明SFT階段為基礎(chǔ)模型提供了進(jìn)行適當(dāng)交錯(cuò)推理和生成的引導(dǎo)。

然而,僅使用SFT的變體表明,SFT本身并不足夠,因?yàn)镚PT注釋的CoT軌跡并不總是代表最有利于高質(zhì)量圖像合成的推理軌跡。盡管如此,沒(méi)有SFT和沒(méi)有RL之間的差距表明,SFT使模型能夠探索多樣化的思考路徑;隨后的RL階段對(duì)于釋放這種潛力,充分實(shí)現(xiàn)"思考和生成"的動(dòng)機(jī),并實(shí)現(xiàn)最終性能提升至關(guān)重要。

研究團(tuán)隊(duì)還發(fā)現(xiàn),獎(jiǎng)勵(lì)模型的大小對(duì)RL的效果有顯著影響。使用Qwen-2.5-VL-3B作為獎(jiǎng)勵(lì)模型VLM進(jìn)行比較時(shí),較小的VLM無(wú)法提供良好的獎(jiǎng)勵(lì)信號(hào),導(dǎo)致RL后的性能不佳。這表明使用大型且準(zhǔn)確的獎(jiǎng)勵(lì)模型對(duì)于RL算法至關(guān)重要。

十、自適應(yīng)熵?fù)p失的穩(wěn)定作用

研究團(tuán)隊(duì)還發(fā)現(xiàn),在RL訓(xùn)練過(guò)程中,模型容易出現(xiàn)熵爆炸或熵消失的問(wèn)題,導(dǎo)致模式崩潰。為了解決這個(gè)問(wèn)題,他們引入了自適應(yīng)熵?fù)p失。

如圖4所示,沒(méi)有熵?fù)p失的RL在100個(gè)訓(xùn)練步驟后經(jīng)歷了熵爆炸,導(dǎo)致性能下降。另一方面,應(yīng)用固定的熵懲罰-0.002導(dǎo)致熵持續(xù)下降,在步驟80時(shí)達(dá)到危險(xiǎn)的低水平,導(dǎo)致模式崩潰和獎(jiǎng)勵(lì)急劇下降。

相比之下,研究團(tuán)隊(duì)的自適應(yīng)熵?fù)p失有效地將熵維持在最佳范圍內(nèi),確保了訓(xùn)練的穩(wěn)定性。這就像是一個(gè)自動(dòng)調(diào)節(jié)的溫度控制系統(tǒng),既不讓鍋太熱導(dǎo)致沸騰溢出,也不讓鍋太冷導(dǎo)致無(wú)法烹飪。

十一、視覺(jué)化結(jié)果展示:直觀感受思考的力量

研究團(tuán)隊(duì)還展示了ReasonGen-R1的一些生成示例,直觀地證明了鏈?zhǔn)剿伎紝?duì)圖像生成的積極影響。

例如,當(dāng)給定提示詞"一張自拍的蒙娜麗莎"時(shí),ReasonGen-R1先生成了一段思考:"柔和的自然光照亮了一個(gè)溫暖、誘人的場(chǎng)景,一個(gè)人自信地站在令人驚嘆的風(fēng)景前。在他們身后,起伏的山丘和茂密的植被創(chuàng)造了一個(gè)寧?kù)o、和平的背景...",然后才生成最終圖像。這種思考過(guò)程幫助模型規(guī)劃場(chǎng)景的整體結(jié)構(gòu)和氛圍,使最終生成的圖像更加協(xié)調(diào)和符合提示詞的要求。

另一個(gè)例子是當(dāng)給定提示詞"多倫多的鳥(niǎo)瞰圖,CN塔樓清晰可見(jiàn),河流明顯地將城市景觀一分為二"時(shí),ReasonGen-R1通過(guò)詳細(xì)的思考過(guò)程,成功生成了一張CN塔樓醒目、河流清晰分割城市的俯瞰圖像。

這些案例直觀地展示了鏈?zhǔn)剿伎既绾螏椭P透玫乩斫夂蛨?zhí)行復(fù)雜的視覺(jué)指令,生成更符合用戶期望的圖像。

十二、結(jié)論與未來(lái)展望

ReasonGen-R1證明了將鏈?zhǔn)剿伎己蛷?qiáng)化學(xué)習(xí)整合到自回歸圖像生成模型中的巨大潛力。通過(guò)先"思考"再"創(chuàng)作",模型在指令遵循和圖像質(zhì)量方面都取得了顯著進(jìn)步。

雖然取得了令人鼓舞的結(jié)果,但這項(xiàng)研究也有一些局限性。首先,當(dāng)前的評(píng)估主要集中在特定的基準(zhǔn)測(cè)試上,可能無(wú)法完全代表現(xiàn)實(shí)世界任務(wù)的多樣性。其次,依賴大型預(yù)訓(xùn)練模型(如GPT-4.1)可能會(huì)引入數(shù)據(jù)偏見(jiàn),影響生成輸出的魯棒性和公平性。最后,雖然研究團(tuán)隊(duì)實(shí)施了自適應(yīng)熵?fù)p失來(lái)緩解模式崩潰,但這個(gè)參數(shù)對(duì)特定任務(wù)的敏感性還需要更好地理解。

未來(lái)的研究方向包括探索更多樣化的數(shù)據(jù)集,開(kāi)發(fā)更精細(xì)的獎(jiǎng)勵(lì)機(jī)制,以及將這種思考能力擴(kuò)展到更多的多模態(tài)任務(wù)中。

總的來(lái)說(shuō),ReasonGen-R1為圖像生成模型的發(fā)展開(kāi)辟了一條新路徑,向著更接近人類藝術(shù)家"先思考后創(chuàng)作"的方向邁進(jìn)。正如微軟和上??萍即髮W(xué)的研究團(tuán)隊(duì)所展示的,通過(guò)賦予模型思考能力,我們可以得到更符合人類期望、更富有創(chuàng)意的AI生成內(nèi)容。

論文作者計(jì)劃在未來(lái)發(fā)布他們的數(shù)據(jù)集和訓(xùn)練代碼,以促進(jìn)這一研究領(lǐng)域的持續(xù)發(fā)展。對(duì)于那些對(duì)AI創(chuàng)意生成感興趣的開(kāi)發(fā)者和研究人員來(lái)說(shuō),這無(wú)疑是一個(gè)值得關(guān)注的領(lǐng)域。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-