這項(xiàng)由香港中文大學(xué)郭子宇、張任瑞等研究人員聯(lián)合北京大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)開(kāi)展的突破性研究,于2025年1月發(fā)表在arXiv預(yù)印本平臺(tái),論文編號(hào)arXiv:2501.13926v2。有興趣深入了解的讀者可以通過(guò)https://github.com/ZiyuGuo99/Image-Generation-CoT訪問(wèn)完整論文和代碼。
想象一下,你讓AI畫(huà)一張"紅蘋(píng)果放在橢圓盤(pán)子上"的圖片。傳統(tǒng)的AI就像一個(gè)悶頭苦干的畫(huà)師,拿起筆就開(kāi)始畫(huà),經(jīng)常畫(huà)出奇怪的結(jié)果——比如蘋(píng)果是綠的,或者盤(pán)子變成了正方形。而現(xiàn)在,研究團(tuán)隊(duì)教會(huì)了AI像人類(lèi)畫(huà)家一樣"邊畫(huà)邊思考":先想想"我要畫(huà)什么?""這一筆畫(huà)得對(duì)嗎?""需要修改什么?"然后再繼續(xù)畫(huà)下去。
這種讓AI"思考著畫(huà)畫(huà)"的方法,就是從OpenAI的o1模型那里借鑒來(lái)的"鏈?zhǔn)剿季S推理"技術(shù)。就好比教孩子做數(shù)學(xué)題時(shí),不是直接給答案,而是教他們一步步分析:"第一步要做什么?""第二步呢?""這樣做對(duì)不對(duì)?"現(xiàn)在,研究團(tuán)隊(duì)把同樣的思路應(yīng)用到了AI繪畫(huà)上,讓機(jī)器也能像人一樣有條不紊地創(chuàng)作。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:現(xiàn)在主流的AI繪畫(huà)模型大多采用"擴(kuò)散模型"技術(shù),就像在一張模糊的畫(huà)布上逐漸清晰化圖像。但還有另一類(lèi)模型叫"自回歸生成模型",它們的工作方式更像人類(lèi)畫(huà)畫(huà)——一個(gè)區(qū)域一個(gè)區(qū)域地逐步完成,每畫(huà)一筆都要考慮前面已經(jīng)畫(huà)好的部分。這種特性讓它們天然適合"邊畫(huà)邊思考"的訓(xùn)練方式。
研究團(tuán)隊(duì)以Show-o模型為基礎(chǔ),就像選擇了一個(gè)有潛力的學(xué)徒畫(huà)師,然后通過(guò)三種巧妙的訓(xùn)練方法來(lái)提升它的繪畫(huà)水平。第一種方法叫"測(cè)試時(shí)驗(yàn)證",就像給畫(huà)師配了一個(gè)嚴(yán)格的評(píng)審員,畫(huà)完每一步都要檢查:"這一筆畫(huà)得怎么樣?"如果不滿意就重新畫(huà)。第二種方法是"偏好對(duì)齊訓(xùn)練",相當(dāng)于讓畫(huà)師多看優(yōu)秀作品和糟糕作品的對(duì)比,逐漸培養(yǎng)出好的審美品味。第三種方法是把前兩種結(jié)合起來(lái),既有嚴(yán)格的評(píng)審,又有不斷的品味培養(yǎng)。
在"測(cè)試時(shí)驗(yàn)證"的探索中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題:傳統(tǒng)的評(píng)判標(biāo)準(zhǔn)不太適用于繪畫(huà)過(guò)程。就像評(píng)價(jià)一個(gè)廚師,你不能只看最后的菜品,還要看整個(gè)烹飪過(guò)程中的每個(gè)步驟。對(duì)于繪畫(huà)AI來(lái)說(shuō),早期的畫(huà)面往往很模糊,就像素描的初稿,很難判斷好壞;而后期的畫(huà)面雖然清晰,但不同路徑畫(huà)出的結(jié)果往往很相似,也難以區(qū)分優(yōu)劣。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)專(zhuān)門(mén)的"潛力評(píng)估獎(jiǎng)勵(lì)模型"(PARM),就像培訓(xùn)了一個(gè)既懂繪畫(huà)技法又有長(zhǎng)遠(yuǎn)眼光的藝術(shù)老師。這個(gè)老師不僅能看出現(xiàn)在的畫(huà)面質(zhì)量,還能預(yù)測(cè)"這樣畫(huà)下去最終會(huì)是什么效果"。更厲害的是,PARM還知道什么時(shí)候該開(kāi)始認(rèn)真評(píng)價(jià)——太早了畫(huà)面還太模糊沒(méi)法判斷,太晚了已經(jīng)定型沒(méi)法修改,只有在恰當(dāng)?shù)臅r(shí)機(jī)才給出指導(dǎo)意見(jiàn)。
PARM的工作方式分為三個(gè)步驟,就像一個(gè)經(jīng)驗(yàn)豐富的繪畫(huà)導(dǎo)師。首先是"清晰度判斷":它會(huì)觀察當(dāng)前的畫(huà)面,判斷是否已經(jīng)足夠清晰到可以進(jìn)行評(píng)價(jià)。如果畫(huà)面還太模糊,就耐心等待;如果已經(jīng)比較清晰了,就進(jìn)入下一步。然后是"潛力評(píng)估":它會(huì)分析這個(gè)畫(huà)面繼續(xù)畫(huà)下去是否有希望達(dá)到理想效果,就像一個(gè)老師看學(xué)生的草圖時(shí)能預(yù)判最終作品的質(zhì)量。最后是"最終選擇":從所有被判定為"有潛力"的畫(huà)作中挑出最好的一個(gè)作為最終結(jié)果。
研究團(tuán)隊(duì)還開(kāi)發(fā)了PARM++,這相當(dāng)于給AI畫(huà)師增加了"自我反思"的能力。當(dāng)PARM++覺(jué)得畫(huà)作還不夠好時(shí),它會(huì)具體指出哪里有問(wèn)題,比如"物體顏色不對(duì)"或"位置關(guān)系錯(cuò)誤",然后引導(dǎo)AI重新修改。這就像一個(gè)畫(huà)家畫(huà)完后自己審視作品,發(fā)現(xiàn)問(wèn)題后主動(dòng)修正,而不是被動(dòng)接受批評(píng)。
在實(shí)際測(cè)試中,研究成果表現(xiàn)令人驚喜。在GenEval這個(gè)專(zhuān)業(yè)的圖像生成評(píng)測(cè)基準(zhǔn)上,經(jīng)過(guò)"思維訓(xùn)練"的AI比原來(lái)的基礎(chǔ)模型提高了24%,甚至比著名的Stable Diffusion 3模型還要高出15%。這就好比一個(gè)原本中等水平的畫(huà)師,經(jīng)過(guò)系統(tǒng)訓(xùn)練后不僅大幅提升了自己的水平,還超越了一些知名畫(huà)家。
研究團(tuán)隊(duì)特別關(guān)注那些最考驗(yàn)AI繪畫(huà)能力的場(chǎng)景,比如畫(huà)多個(gè)物體、數(shù)數(shù)、準(zhǔn)確表達(dá)顏色、描述空間位置關(guān)系等等。傳統(tǒng)的AI在這些方面經(jīng)常出錯(cuò),比如讓它畫(huà)"三個(gè)紅蘋(píng)果",結(jié)果畫(huà)成了兩個(gè)綠蘋(píng)果;讓它畫(huà)"藍(lán)色杯子在紅色書(shū)本左邊",結(jié)果位置關(guān)系完全顛倒。而經(jīng)過(guò)"思維訓(xùn)練"的AI在這些方面都有了顯著改善,就像一個(gè)原本粗心的學(xué)生變得細(xì)致認(rèn)真了。
從技術(shù)角度來(lái)看,這項(xiàng)研究的創(chuàng)新之處在于首次系統(tǒng)性地將"鏈?zhǔn)剿季S推理"應(yīng)用到了自回歸圖像生成領(lǐng)域。研究團(tuán)隊(duì)不是簡(jiǎn)單地照搬文本領(lǐng)域的方法,而是深入分析了圖像生成的特殊性,設(shè)計(jì)了專(zhuān)門(mén)適合的訓(xùn)練和評(píng)估策略。他們發(fā)現(xiàn),相比于傳統(tǒng)的獎(jiǎng)勵(lì)模型,PARM能夠更好地處理圖像生成過(guò)程中的模糊性和漸進(jìn)性特征。
值得注意的是,這種方法不僅適用于Show-o模型,研究團(tuán)隊(duì)還在LlamaGen和Janus-Pro等其他自回歸生成模型上進(jìn)行了驗(yàn)證,都取得了一致的改善效果。這說(shuō)明"讓AI思考著畫(huà)畫(huà)"這個(gè)思路具有很好的普適性,就像一套好的教學(xué)方法可以應(yīng)用到不同的學(xué)生身上。
研究過(guò)程中也暴露了一些有趣的現(xiàn)象。比如,單純的"測(cè)試時(shí)驗(yàn)證"效果不如"偏好對(duì)齊訓(xùn)練",這說(shuō)明讓AI通過(guò)對(duì)比學(xué)習(xí)來(lái)提升品味,比單純的反復(fù)檢查更有效。但是當(dāng)兩種方法結(jié)合使用時(shí),效果會(huì)進(jìn)一步提升,這證實(shí)了不同訓(xùn)練策略的互補(bǔ)性。
從實(shí)際應(yīng)用的角度來(lái)看,這項(xiàng)技術(shù)可能會(huì)改變我們與AI繪畫(huà)工具的交互方式。目前的AI繪畫(huà)工具往往需要用戶(hù)不斷調(diào)整提示詞、反復(fù)生成,直到得到滿意的結(jié)果。而具備"思維能力"的AI可能會(huì)更加智能,能夠理解復(fù)雜的描述,自主處理細(xì)節(jié)問(wèn)題,減少用戶(hù)的試錯(cuò)成本。
研究團(tuán)隊(duì)還發(fā)現(xiàn),讓AI進(jìn)行"自我反思"雖然會(huì)帶來(lái)額外的計(jì)算開(kāi)銷(xiāo),但能夠顯著提升最終結(jié)果的質(zhì)量。這就像讓畫(huà)家多花一些時(shí)間思考和修改,雖然效率略有下降,但作品質(zhì)量會(huì)大幅提升。在實(shí)際應(yīng)用中,用戶(hù)可以根據(jù)需求選擇是要快速生成還是高質(zhì)量生成。
這項(xiàng)研究的意義不僅限于技術(shù)層面,它還為AI創(chuàng)作領(lǐng)域提供了新的思路。傳統(tǒng)上,我們往往把AI看作是一個(gè)"黑盒子",輸入需求就輸出結(jié)果。而這項(xiàng)研究展示了讓AI具備"元認(rèn)知"能力的可能性——不僅知道如何做,還知道如何檢查自己做得對(duì)不對(duì),如何改進(jìn)。
當(dāng)然,這項(xiàng)技術(shù)也有其局限性。目前的方法主要針對(duì)自回歸生成模型,對(duì)于占據(jù)主流地位的擴(kuò)散模型還需要進(jìn)一步的適配和優(yōu)化。此外,增加的"思維"過(guò)程會(huì)帶來(lái)一定的計(jì)算開(kāi)銷(xiāo),在資源受限的環(huán)境下可能會(huì)影響使用體驗(yàn)。研究團(tuán)隊(duì)在論文中誠(chéng)實(shí)地討論了這些限制,并提出了未來(lái)的改進(jìn)方向。
從更廣闊的視角來(lái)看,這項(xiàng)研究是AI能力演進(jìn)的一個(gè)重要里程碑。它不僅僅是讓機(jī)器畫(huà)畫(huà)畫(huà)得更好,更重要的是探索了讓機(jī)器具備"自我意識(shí)"和"反思能力"的路徑。這種"會(huì)思考的AI"可能會(huì)在更多領(lǐng)域發(fā)揮作用,從寫(xiě)作、編程到科學(xué)研究,都可能受益于這種"邊做邊思考"的智能模式。
總的來(lái)說(shuō),香港中文大學(xué)團(tuán)隊(duì)的這項(xiàng)研究為AI繪畫(huà)領(lǐng)域帶來(lái)了新的突破,不僅在技術(shù)上實(shí)現(xiàn)了顯著的性能提升,更在理念上展示了"思考型AI"的巨大潛力。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和優(yōu)化,我們可能會(huì)看到更加智能、更加可靠的AI創(chuàng)作工具,它們不僅能夠理解我們的需求,還能像人類(lèi)創(chuàng)作者一樣進(jìn)行思考、判斷和自我完善。
Q&A
Q1:PARM是什么?它跟傳統(tǒng)的AI繪畫(huà)評(píng)判方法有什么不同?
A:PARM是"潛力評(píng)估獎(jiǎng)勵(lì)模型"的簡(jiǎn)稱(chēng),是專(zhuān)門(mén)為AI繪畫(huà)設(shè)計(jì)的智能評(píng)判系統(tǒng)。傳統(tǒng)方法要么只看最終結(jié)果,要么對(duì)每個(gè)步驟都強(qiáng)行評(píng)判,而PARM更聰明——它知道什么時(shí)候該開(kāi)始評(píng)價(jià)(畫(huà)面足夠清晰時(shí)),能預(yù)測(cè)畫(huà)作的發(fā)展?jié)摿Γ拖褚粋€(gè)經(jīng)驗(yàn)豐富的繪畫(huà)老師既能看出學(xué)生草圖的問(wèn)題,又能預(yù)判最終效果。
Q2:這種讓AI"邊畫(huà)邊思考"的方法會(huì)讓繪畫(huà)速度變慢嗎?
A:確實(shí)會(huì)增加一些計(jì)算時(shí)間,因?yàn)锳I需要額外的"思考"過(guò)程來(lái)評(píng)估和調(diào)整。但研究團(tuán)隊(duì)發(fā)現(xiàn)這種時(shí)間投入是值得的——雖然單次生成稍慢一些,但畫(huà)出好作品的成功率大大提高,用戶(hù)不需要反復(fù)重新生成,總體效率反而可能更高。就像畫(huà)家多花時(shí)間思考構(gòu)圖,雖然慢一點(diǎn)但能避免返工。
Q3:這項(xiàng)技術(shù)什么時(shí)候能在日常的AI繪畫(huà)工具中使用?
A:目前研究團(tuán)隊(duì)已經(jīng)在GitHub上開(kāi)源了相關(guān)代碼(https://github.com/ZiyuGuo99/Image-Generation-CoT),技術(shù)開(kāi)發(fā)者可以基于此進(jìn)行開(kāi)發(fā)。但要集成到像Midjourney、Stable Diffusion這樣的主流工具中,還需要進(jìn)一步的工程優(yōu)化和適配工作。預(yù)計(jì)在未來(lái)1-2年內(nèi),我們可能會(huì)在一些新的AI繪畫(huà)產(chǎn)品中看到類(lèi)似的"思考型"功能。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。