av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 香港中文大學(xué)團(tuán)隊(duì)首次讓AI繪畫(huà)也能像人類(lèi)一樣"邊畫(huà)邊思考"

香港中文大學(xué)團(tuán)隊(duì)首次讓AI繪畫(huà)也能像人類(lèi)一樣"邊畫(huà)邊思考"

2025-09-16 10:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-16 10:31 ? 科技行者

這項(xiàng)由香港中文大學(xué)郭子宇、張任瑞等研究人員聯(lián)合北京大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)開(kāi)展的突破性研究,于2025年1月發(fā)表在arXiv預(yù)印本平臺(tái),論文編號(hào)arXiv:2501.13926v2。有興趣深入了解的讀者可以通過(guò)https://github.com/ZiyuGuo99/Image-Generation-CoT訪問(wèn)完整論文和代碼。

想象一下,你讓AI畫(huà)一張"紅蘋(píng)果放在橢圓盤(pán)子上"的圖片。傳統(tǒng)的AI就像一個(gè)悶頭苦干的畫(huà)師,拿起筆就開(kāi)始畫(huà),經(jīng)常畫(huà)出奇怪的結(jié)果——比如蘋(píng)果是綠的,或者盤(pán)子變成了正方形。而現(xiàn)在,研究團(tuán)隊(duì)教會(huì)了AI像人類(lèi)畫(huà)家一樣"邊畫(huà)邊思考":先想想"我要畫(huà)什么?""這一筆畫(huà)得對(duì)嗎?""需要修改什么?"然后再繼續(xù)畫(huà)下去。

這種讓AI"思考著畫(huà)畫(huà)"的方法,就是從OpenAI的o1模型那里借鑒來(lái)的"鏈?zhǔn)剿季S推理"技術(shù)。就好比教孩子做數(shù)學(xué)題時(shí),不是直接給答案,而是教他們一步步分析:"第一步要做什么?""第二步呢?""這樣做對(duì)不對(duì)?"現(xiàn)在,研究團(tuán)隊(duì)把同樣的思路應(yīng)用到了AI繪畫(huà)上,讓機(jī)器也能像人一樣有條不紊地創(chuàng)作。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:現(xiàn)在主流的AI繪畫(huà)模型大多采用"擴(kuò)散模型"技術(shù),就像在一張模糊的畫(huà)布上逐漸清晰化圖像。但還有另一類(lèi)模型叫"自回歸生成模型",它們的工作方式更像人類(lèi)畫(huà)畫(huà)——一個(gè)區(qū)域一個(gè)區(qū)域地逐步完成,每畫(huà)一筆都要考慮前面已經(jīng)畫(huà)好的部分。這種特性讓它們天然適合"邊畫(huà)邊思考"的訓(xùn)練方式。

研究團(tuán)隊(duì)以Show-o模型為基礎(chǔ),就像選擇了一個(gè)有潛力的學(xué)徒畫(huà)師,然后通過(guò)三種巧妙的訓(xùn)練方法來(lái)提升它的繪畫(huà)水平。第一種方法叫"測(cè)試時(shí)驗(yàn)證",就像給畫(huà)師配了一個(gè)嚴(yán)格的評(píng)審員,畫(huà)完每一步都要檢查:"這一筆畫(huà)得怎么樣?"如果不滿意就重新畫(huà)。第二種方法是"偏好對(duì)齊訓(xùn)練",相當(dāng)于讓畫(huà)師多看優(yōu)秀作品和糟糕作品的對(duì)比,逐漸培養(yǎng)出好的審美品味。第三種方法是把前兩種結(jié)合起來(lái),既有嚴(yán)格的評(píng)審,又有不斷的品味培養(yǎng)。

在"測(cè)試時(shí)驗(yàn)證"的探索中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題:傳統(tǒng)的評(píng)判標(biāo)準(zhǔn)不太適用于繪畫(huà)過(guò)程。就像評(píng)價(jià)一個(gè)廚師,你不能只看最后的菜品,還要看整個(gè)烹飪過(guò)程中的每個(gè)步驟。對(duì)于繪畫(huà)AI來(lái)說(shuō),早期的畫(huà)面往往很模糊,就像素描的初稿,很難判斷好壞;而后期的畫(huà)面雖然清晰,但不同路徑畫(huà)出的結(jié)果往往很相似,也難以區(qū)分優(yōu)劣。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)專(zhuān)門(mén)的"潛力評(píng)估獎(jiǎng)勵(lì)模型"(PARM),就像培訓(xùn)了一個(gè)既懂繪畫(huà)技法又有長(zhǎng)遠(yuǎn)眼光的藝術(shù)老師。這個(gè)老師不僅能看出現(xiàn)在的畫(huà)面質(zhì)量,還能預(yù)測(cè)"這樣畫(huà)下去最終會(huì)是什么效果"。更厲害的是,PARM還知道什么時(shí)候該開(kāi)始認(rèn)真評(píng)價(jià)——太早了畫(huà)面還太模糊沒(méi)法判斷,太晚了已經(jīng)定型沒(méi)法修改,只有在恰當(dāng)?shù)臅r(shí)機(jī)才給出指導(dǎo)意見(jiàn)。

PARM的工作方式分為三個(gè)步驟,就像一個(gè)經(jīng)驗(yàn)豐富的繪畫(huà)導(dǎo)師。首先是"清晰度判斷":它會(huì)觀察當(dāng)前的畫(huà)面,判斷是否已經(jīng)足夠清晰到可以進(jìn)行評(píng)價(jià)。如果畫(huà)面還太模糊,就耐心等待;如果已經(jīng)比較清晰了,就進(jìn)入下一步。然后是"潛力評(píng)估":它會(huì)分析這個(gè)畫(huà)面繼續(xù)畫(huà)下去是否有希望達(dá)到理想效果,就像一個(gè)老師看學(xué)生的草圖時(shí)能預(yù)判最終作品的質(zhì)量。最后是"最終選擇":從所有被判定為"有潛力"的畫(huà)作中挑出最好的一個(gè)作為最終結(jié)果。

研究團(tuán)隊(duì)還開(kāi)發(fā)了PARM++,這相當(dāng)于給AI畫(huà)師增加了"自我反思"的能力。當(dāng)PARM++覺(jué)得畫(huà)作還不夠好時(shí),它會(huì)具體指出哪里有問(wèn)題,比如"物體顏色不對(duì)"或"位置關(guān)系錯(cuò)誤",然后引導(dǎo)AI重新修改。這就像一個(gè)畫(huà)家畫(huà)完后自己審視作品,發(fā)現(xiàn)問(wèn)題后主動(dòng)修正,而不是被動(dòng)接受批評(píng)。

在實(shí)際測(cè)試中,研究成果表現(xiàn)令人驚喜。在GenEval這個(gè)專(zhuān)業(yè)的圖像生成評(píng)測(cè)基準(zhǔn)上,經(jīng)過(guò)"思維訓(xùn)練"的AI比原來(lái)的基礎(chǔ)模型提高了24%,甚至比著名的Stable Diffusion 3模型還要高出15%。這就好比一個(gè)原本中等水平的畫(huà)師,經(jīng)過(guò)系統(tǒng)訓(xùn)練后不僅大幅提升了自己的水平,還超越了一些知名畫(huà)家。

研究團(tuán)隊(duì)特別關(guān)注那些最考驗(yàn)AI繪畫(huà)能力的場(chǎng)景,比如畫(huà)多個(gè)物體、數(shù)數(shù)、準(zhǔn)確表達(dá)顏色、描述空間位置關(guān)系等等。傳統(tǒng)的AI在這些方面經(jīng)常出錯(cuò),比如讓它畫(huà)"三個(gè)紅蘋(píng)果",結(jié)果畫(huà)成了兩個(gè)綠蘋(píng)果;讓它畫(huà)"藍(lán)色杯子在紅色書(shū)本左邊",結(jié)果位置關(guān)系完全顛倒。而經(jīng)過(guò)"思維訓(xùn)練"的AI在這些方面都有了顯著改善,就像一個(gè)原本粗心的學(xué)生變得細(xì)致認(rèn)真了。

從技術(shù)角度來(lái)看,這項(xiàng)研究的創(chuàng)新之處在于首次系統(tǒng)性地將"鏈?zhǔn)剿季S推理"應(yīng)用到了自回歸圖像生成領(lǐng)域。研究團(tuán)隊(duì)不是簡(jiǎn)單地照搬文本領(lǐng)域的方法,而是深入分析了圖像生成的特殊性,設(shè)計(jì)了專(zhuān)門(mén)適合的訓(xùn)練和評(píng)估策略。他們發(fā)現(xiàn),相比于傳統(tǒng)的獎(jiǎng)勵(lì)模型,PARM能夠更好地處理圖像生成過(guò)程中的模糊性和漸進(jìn)性特征。

值得注意的是,這種方法不僅適用于Show-o模型,研究團(tuán)隊(duì)還在LlamaGen和Janus-Pro等其他自回歸生成模型上進(jìn)行了驗(yàn)證,都取得了一致的改善效果。這說(shuō)明"讓AI思考著畫(huà)畫(huà)"這個(gè)思路具有很好的普適性,就像一套好的教學(xué)方法可以應(yīng)用到不同的學(xué)生身上。

研究過(guò)程中也暴露了一些有趣的現(xiàn)象。比如,單純的"測(cè)試時(shí)驗(yàn)證"效果不如"偏好對(duì)齊訓(xùn)練",這說(shuō)明讓AI通過(guò)對(duì)比學(xué)習(xí)來(lái)提升品味,比單純的反復(fù)檢查更有效。但是當(dāng)兩種方法結(jié)合使用時(shí),效果會(huì)進(jìn)一步提升,這證實(shí)了不同訓(xùn)練策略的互補(bǔ)性。

從實(shí)際應(yīng)用的角度來(lái)看,這項(xiàng)技術(shù)可能會(huì)改變我們與AI繪畫(huà)工具的交互方式。目前的AI繪畫(huà)工具往往需要用戶(hù)不斷調(diào)整提示詞、反復(fù)生成,直到得到滿意的結(jié)果。而具備"思維能力"的AI可能會(huì)更加智能,能夠理解復(fù)雜的描述,自主處理細(xì)節(jié)問(wèn)題,減少用戶(hù)的試錯(cuò)成本。

研究團(tuán)隊(duì)還發(fā)現(xiàn),讓AI進(jìn)行"自我反思"雖然會(huì)帶來(lái)額外的計(jì)算開(kāi)銷(xiāo),但能夠顯著提升最終結(jié)果的質(zhì)量。這就像讓畫(huà)家多花一些時(shí)間思考和修改,雖然效率略有下降,但作品質(zhì)量會(huì)大幅提升。在實(shí)際應(yīng)用中,用戶(hù)可以根據(jù)需求選擇是要快速生成還是高質(zhì)量生成。

這項(xiàng)研究的意義不僅限于技術(shù)層面,它還為AI創(chuàng)作領(lǐng)域提供了新的思路。傳統(tǒng)上,我們往往把AI看作是一個(gè)"黑盒子",輸入需求就輸出結(jié)果。而這項(xiàng)研究展示了讓AI具備"元認(rèn)知"能力的可能性——不僅知道如何做,還知道如何檢查自己做得對(duì)不對(duì),如何改進(jìn)。

當(dāng)然,這項(xiàng)技術(shù)也有其局限性。目前的方法主要針對(duì)自回歸生成模型,對(duì)于占據(jù)主流地位的擴(kuò)散模型還需要進(jìn)一步的適配和優(yōu)化。此外,增加的"思維"過(guò)程會(huì)帶來(lái)一定的計(jì)算開(kāi)銷(xiāo),在資源受限的環(huán)境下可能會(huì)影響使用體驗(yàn)。研究團(tuán)隊(duì)在論文中誠(chéng)實(shí)地討論了這些限制,并提出了未來(lái)的改進(jìn)方向。

從更廣闊的視角來(lái)看,這項(xiàng)研究是AI能力演進(jìn)的一個(gè)重要里程碑。它不僅僅是讓機(jī)器畫(huà)畫(huà)畫(huà)得更好,更重要的是探索了讓機(jī)器具備"自我意識(shí)"和"反思能力"的路徑。這種"會(huì)思考的AI"可能會(huì)在更多領(lǐng)域發(fā)揮作用,從寫(xiě)作、編程到科學(xué)研究,都可能受益于這種"邊做邊思考"的智能模式。

總的來(lái)說(shuō),香港中文大學(xué)團(tuán)隊(duì)的這項(xiàng)研究為AI繪畫(huà)領(lǐng)域帶來(lái)了新的突破,不僅在技術(shù)上實(shí)現(xiàn)了顯著的性能提升,更在理念上展示了"思考型AI"的巨大潛力。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和優(yōu)化,我們可能會(huì)看到更加智能、更加可靠的AI創(chuàng)作工具,它們不僅能夠理解我們的需求,還能像人類(lèi)創(chuàng)作者一樣進(jìn)行思考、判斷和自我完善。

Q&A

Q1:PARM是什么?它跟傳統(tǒng)的AI繪畫(huà)評(píng)判方法有什么不同?

A:PARM是"潛力評(píng)估獎(jiǎng)勵(lì)模型"的簡(jiǎn)稱(chēng),是專(zhuān)門(mén)為AI繪畫(huà)設(shè)計(jì)的智能評(píng)判系統(tǒng)。傳統(tǒng)方法要么只看最終結(jié)果,要么對(duì)每個(gè)步驟都強(qiáng)行評(píng)判,而PARM更聰明——它知道什么時(shí)候該開(kāi)始評(píng)價(jià)(畫(huà)面足夠清晰時(shí)),能預(yù)測(cè)畫(huà)作的發(fā)展?jié)摿Γ拖褚粋€(gè)經(jīng)驗(yàn)豐富的繪畫(huà)老師既能看出學(xué)生草圖的問(wèn)題,又能預(yù)判最終效果。

Q2:這種讓AI"邊畫(huà)邊思考"的方法會(huì)讓繪畫(huà)速度變慢嗎?

A:確實(shí)會(huì)增加一些計(jì)算時(shí)間,因?yàn)锳I需要額外的"思考"過(guò)程來(lái)評(píng)估和調(diào)整。但研究團(tuán)隊(duì)發(fā)現(xiàn)這種時(shí)間投入是值得的——雖然單次生成稍慢一些,但畫(huà)出好作品的成功率大大提高,用戶(hù)不需要反復(fù)重新生成,總體效率反而可能更高。就像畫(huà)家多花時(shí)間思考構(gòu)圖,雖然慢一點(diǎn)但能避免返工。

Q3:這項(xiàng)技術(shù)什么時(shí)候能在日常的AI繪畫(huà)工具中使用?

A:目前研究團(tuán)隊(duì)已經(jīng)在GitHub上開(kāi)源了相關(guān)代碼(https://github.com/ZiyuGuo99/Image-Generation-CoT),技術(shù)開(kāi)發(fā)者可以基于此進(jìn)行開(kāi)發(fā)。但要集成到像Midjourney、Stable Diffusion這樣的主流工具中,還需要進(jìn)一步的工程優(yōu)化和適配工作。預(yù)計(jì)在未來(lái)1-2年內(nèi),我們可能會(huì)在一些新的AI繪畫(huà)產(chǎn)品中看到類(lèi)似的"思考型"功能。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-