av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="mvxdq"></blockquote>

<bdo id="mvxdq"><rp id="mvxdq"></rp></bdo>

<p id="mvxdq"><li id="mvxdq"></li></p>

<s id="mvxdq"><li id="mvxdq"></li></s>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

香港中文大學(xué)團(tuán)隊(duì)首次讓AI繪畫(huà)也能像人類(lèi)一樣"邊畫(huà)邊思考"

人工智能鏈?zhǔn)剿季S推理潛力評(píng)估獎(jiǎng)勵(lì)模型

香港中文大學(xué)團(tuán)隊(duì)首次讓AI繪畫(huà)也能像人類(lèi)一樣"邊畫(huà)邊思考"

作者：科技行者

2025-09-16 10:31

分享至：

香港中文大學(xué)團(tuán)隊(duì)首次將"鏈?zhǔn)剿季S推理"技術(shù)應(yīng)用于AI繪畫(huà)領(lǐng)域，教會(huì)AI像人類(lèi)畫(huà)家一樣"邊畫(huà)邊思考"。通過(guò)開(kāi)發(fā)專(zhuān)門(mén)的PARM評(píng)估模型和多種訓(xùn)練策略，讓AI繪畫(huà)在復(fù)雜場(chǎng)景描述上提升24%，超越知名的Stable Diffusion 3模型15%。這項(xiàng)突破為AI創(chuàng)作工具帶來(lái)更智能的"自我反思"能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-16 10:31 ? 科技行者

這項(xiàng)由香港中文大學(xué)郭子宇、張任瑞等研究人員聯(lián)合北京大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)開(kāi)展的突破性研究，于2025年1月發(fā)表在arXiv預(yù)印本平臺(tái)，論文編號(hào)arXiv:2501.13926v2。有興趣深入了解的讀者可以通過(guò)https://github.com/ZiyuGuo99/Image-Generation-CoT訪問(wèn)完整論文和代碼。

想象一下，你讓AI畫(huà)一張"紅蘋(píng)果放在橢圓盤(pán)子上"的圖片。傳統(tǒng)的AI就像一個(gè)悶頭苦干的畫(huà)師，拿起筆就開(kāi)始畫(huà)，經(jīng)常畫(huà)出奇怪的結(jié)果——比如蘋(píng)果是綠的，或者盤(pán)子變成了正方形。而現(xiàn)在，研究團(tuán)隊(duì)教會(huì)了AI像人類(lèi)畫(huà)家一樣"邊畫(huà)邊思考"：先想想"我要畫(huà)什么？""這一筆畫(huà)得對(duì)嗎？""需要修改什么？"然后再繼續(xù)畫(huà)下去。

這種讓AI"思考著畫(huà)畫(huà)"的方法，就是從OpenAI的o1模型那里借鑒來(lái)的"鏈?zhǔn)剿季S推理"技術(shù)。就好比教孩子做數(shù)學(xué)題時(shí)，不是直接給答案，而是教他們一步步分析："第一步要做什么？""第二步呢？""這樣做對(duì)不對(duì)？"現(xiàn)在，研究團(tuán)隊(duì)把同樣的思路應(yīng)用到了AI繪畫(huà)上，讓機(jī)器也能像人一樣有條不紊地創(chuàng)作。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：現(xiàn)在主流的AI繪畫(huà)模型大多采用"擴(kuò)散模型"技術(shù)，就像在一張模糊的畫(huà)布上逐漸清晰化圖像。但還有另一類(lèi)模型叫"自回歸生成模型"，它們的工作方式更像人類(lèi)畫(huà)畫(huà)——一個(gè)區(qū)域一個(gè)區(qū)域地逐步完成，每畫(huà)一筆都要考慮前面已經(jīng)畫(huà)好的部分。這種特性讓它們天然適合"邊畫(huà)邊思考"的訓(xùn)練方式。

研究團(tuán)隊(duì)以Show-o模型為基礎(chǔ)，就像選擇了一個(gè)有潛力的學(xué)徒畫(huà)師，然后通過(guò)三種巧妙的訓(xùn)練方法來(lái)提升它的繪畫(huà)水平。第一種方法叫"測(cè)試時(shí)驗(yàn)證"，就像給畫(huà)師配了一個(gè)嚴(yán)格的評(píng)審員，畫(huà)完每一步都要檢查："這一筆畫(huà)得怎么樣？"如果不滿意就重新畫(huà)。第二種方法是"偏好對(duì)齊訓(xùn)練"，相當(dāng)于讓畫(huà)師多看優(yōu)秀作品和糟糕作品的對(duì)比，逐漸培養(yǎng)出好的審美品味。第三種方法是把前兩種結(jié)合起來(lái)，既有嚴(yán)格的評(píng)審，又有不斷的品味培養(yǎng)。

在"測(cè)試時(shí)驗(yàn)證"的探索中，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題：傳統(tǒng)的評(píng)判標(biāo)準(zhǔn)不太適用于繪畫(huà)過(guò)程。就像評(píng)價(jià)一個(gè)廚師，你不能只看最后的菜品，還要看整個(gè)烹飪過(guò)程中的每個(gè)步驟。對(duì)于繪畫(huà)AI來(lái)說(shuō)，早期的畫(huà)面往往很模糊，就像素描的初稿，很難判斷好壞；而后期的畫(huà)面雖然清晰，但不同路徑畫(huà)出的結(jié)果往往很相似，也難以區(qū)分優(yōu)劣。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)專(zhuān)門(mén)的"潛力評(píng)估獎(jiǎng)勵(lì)模型"（PARM），就像培訓(xùn)了一個(gè)既懂繪畫(huà)技法又有長(zhǎng)遠(yuǎn)眼光的藝術(shù)老師。這個(gè)老師不僅能看出現(xiàn)在的畫(huà)面質(zhì)量，還能預(yù)測(cè)"這樣畫(huà)下去最終會(huì)是什么效果"。更厲害的是，PARM還知道什么時(shí)候該開(kāi)始認(rèn)真評(píng)價(jià)——太早了畫(huà)面還太模糊沒(méi)法判斷，太晚了已經(jīng)定型沒(méi)法修改，只有在恰當(dāng)?shù)臅r(shí)機(jī)才給出指導(dǎo)意見(jiàn)。

PARM的工作方式分為三個(gè)步驟，就像一個(gè)經(jīng)驗(yàn)豐富的繪畫(huà)導(dǎo)師。首先是"清晰度判斷"：它會(huì)觀察當(dāng)前的畫(huà)面，判斷是否已經(jīng)足夠清晰到可以進(jìn)行評(píng)價(jià)。如果畫(huà)面還太模糊，就耐心等待；如果已經(jīng)比較清晰了，就進(jìn)入下一步。然后是"潛力評(píng)估"：它會(huì)分析這個(gè)畫(huà)面繼續(xù)畫(huà)下去是否有希望達(dá)到理想效果，就像一個(gè)老師看學(xué)生的草圖時(shí)能預(yù)判最終作品的質(zhì)量。最后是"最終選擇"：從所有被判定為"有潛力"的畫(huà)作中挑出最好的一個(gè)作為最終結(jié)果。

研究團(tuán)隊(duì)還開(kāi)發(fā)了PARM++，這相當(dāng)于給AI畫(huà)師增加了"自我反思"的能力。當(dāng)PARM++覺(jué)得畫(huà)作還不夠好時(shí)，它會(huì)具體指出哪里有問(wèn)題，比如"物體顏色不對(duì)"或"位置關(guān)系錯(cuò)誤"，然后引導(dǎo)AI重新修改。這就像一個(gè)畫(huà)家畫(huà)完后自己審視作品，發(fā)現(xiàn)問(wèn)題后主動(dòng)修正，而不是被動(dòng)接受批評(píng)。

在實(shí)際測(cè)試中，研究成果表現(xiàn)令人驚喜。在GenEval這個(gè)專(zhuān)業(yè)的圖像生成評(píng)測(cè)基準(zhǔn)上，經(jīng)過(guò)"思維訓(xùn)練"的AI比原來(lái)的基礎(chǔ)模型提高了24%，甚至比著名的Stable Diffusion 3模型還要高出15%。這就好比一個(gè)原本中等水平的畫(huà)師，經(jīng)過(guò)系統(tǒng)訓(xùn)練后不僅大幅提升了自己的水平，還超越了一些知名畫(huà)家。

研究團(tuán)隊(duì)特別關(guān)注那些最考驗(yàn)AI繪畫(huà)能力的場(chǎng)景，比如畫(huà)多個(gè)物體、數(shù)數(shù)、準(zhǔn)確表達(dá)顏色、描述空間位置關(guān)系等等。傳統(tǒng)的AI在這些方面經(jīng)常出錯(cuò)，比如讓它畫(huà)"三個(gè)紅蘋(píng)果"，結(jié)果畫(huà)成了兩個(gè)綠蘋(píng)果；讓它畫(huà)"藍(lán)色杯子在紅色書(shū)本左邊"，結(jié)果位置關(guān)系完全顛倒。而經(jīng)過(guò)"思維訓(xùn)練"的AI在這些方面都有了顯著改善，就像一個(gè)原本粗心的學(xué)生變得細(xì)致認(rèn)真了。

從技術(shù)角度來(lái)看，這項(xiàng)研究的創(chuàng)新之處在于首次系統(tǒng)性地將"鏈?zhǔn)剿季S推理"應(yīng)用到了自回歸圖像生成領(lǐng)域。研究團(tuán)隊(duì)不是簡(jiǎn)單地照搬文本領(lǐng)域的方法，而是深入分析了圖像生成的特殊性，設(shè)計(jì)了專(zhuān)門(mén)適合的訓(xùn)練和評(píng)估策略。他們發(fā)現(xiàn)，相比于傳統(tǒng)的獎(jiǎng)勵(lì)模型，PARM能夠更好地處理圖像生成過(guò)程中的模糊性和漸進(jìn)性特征。

值得注意的是，這種方法不僅適用于Show-o模型，研究團(tuán)隊(duì)還在LlamaGen和Janus-Pro等其他自回歸生成模型上進(jìn)行了驗(yàn)證，都取得了一致的改善效果。這說(shuō)明"讓AI思考著畫(huà)畫(huà)"這個(gè)思路具有很好的普適性，就像一套好的教學(xué)方法可以應(yīng)用到不同的學(xué)生身上。

研究過(guò)程中也暴露了一些有趣的現(xiàn)象。比如，單純的"測(cè)試時(shí)驗(yàn)證"效果不如"偏好對(duì)齊訓(xùn)練"，這說(shuō)明讓AI通過(guò)對(duì)比學(xué)習(xí)來(lái)提升品味，比單純的反復(fù)檢查更有效。但是當(dāng)兩種方法結(jié)合使用時(shí)，效果會(huì)進(jìn)一步提升，這證實(shí)了不同訓(xùn)練策略的互補(bǔ)性。

從實(shí)際應(yīng)用的角度來(lái)看，這項(xiàng)技術(shù)可能會(huì)改變我們與AI繪畫(huà)工具的交互方式。目前的AI繪畫(huà)工具往往需要用戶(hù)不斷調(diào)整提示詞、反復(fù)生成，直到得到滿意的結(jié)果。而具備"思維能力"的AI可能會(huì)更加智能，能夠理解復(fù)雜的描述，自主處理細(xì)節(jié)問(wèn)題，減少用戶(hù)的試錯(cuò)成本。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，讓AI進(jìn)行"自我反思"雖然會(huì)帶來(lái)額外的計(jì)算開(kāi)銷(xiāo)，但能夠顯著提升最終結(jié)果的質(zhì)量。這就像讓畫(huà)家多花一些時(shí)間思考和修改，雖然效率略有下降，但作品質(zhì)量會(huì)大幅提升。在實(shí)際應(yīng)用中，用戶(hù)可以根據(jù)需求選擇是要快速生成還是高質(zhì)量生成。

這項(xiàng)研究的意義不僅限于技術(shù)層面，它還為AI創(chuàng)作領(lǐng)域提供了新的思路。傳統(tǒng)上，我們往往把AI看作是一個(gè)"黑盒子"，輸入需求就輸出結(jié)果。而這項(xiàng)研究展示了讓AI具備"元認(rèn)知"能力的可能性——不僅知道如何做，還知道如何檢查自己做得對(duì)不對(duì)，如何改進(jìn)。

當(dāng)然，這項(xiàng)技術(shù)也有其局限性。目前的方法主要針對(duì)自回歸生成模型，對(duì)于占據(jù)主流地位的擴(kuò)散模型還需要進(jìn)一步的適配和優(yōu)化。此外，增加的"思維"過(guò)程會(huì)帶來(lái)一定的計(jì)算開(kāi)銷(xiāo)，在資源受限的環(huán)境下可能會(huì)影響使用體驗(yàn)。研究團(tuán)隊(duì)在論文中誠(chéng)實(shí)地討論了這些限制，并提出了未來(lái)的改進(jìn)方向。

從更廣闊的視角來(lái)看，這項(xiàng)研究是AI能力演進(jìn)的一個(gè)重要里程碑。它不僅僅是讓機(jī)器畫(huà)畫(huà)畫(huà)得更好，更重要的是探索了讓機(jī)器具備"自我意識(shí)"和"反思能力"的路徑。這種"會(huì)思考的AI"可能會(huì)在更多領(lǐng)域發(fā)揮作用，從寫(xiě)作、編程到科學(xué)研究，都可能受益于這種"邊做邊思考"的智能模式。

總的來(lái)說(shuō)，香港中文大學(xué)團(tuán)隊(duì)的這項(xiàng)研究為AI繪畫(huà)領(lǐng)域帶來(lái)了新的突破，不僅在技術(shù)上實(shí)現(xiàn)了顯著的性能提升，更在理念上展示了"思考型AI"的巨大潛力。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和優(yōu)化，我們可能會(huì)看到更加智能、更加可靠的AI創(chuàng)作工具，它們不僅能夠理解我們的需求，還能像人類(lèi)創(chuàng)作者一樣進(jìn)行思考、判斷和自我完善。

Q&A

Q1：PARM是什么？它跟傳統(tǒng)的AI繪畫(huà)評(píng)判方法有什么不同？

A：PARM是"潛力評(píng)估獎(jiǎng)勵(lì)模型"的簡(jiǎn)稱(chēng)，是專(zhuān)門(mén)為AI繪畫(huà)設(shè)計(jì)的智能評(píng)判系統(tǒng)。傳統(tǒng)方法要么只看最終結(jié)果，要么對(duì)每個(gè)步驟都強(qiáng)行評(píng)判，而PARM更聰明——它知道什么時(shí)候該開(kāi)始評(píng)價(jià)（畫(huà)面足夠清晰時(shí)），能預(yù)測(cè)畫(huà)作的發(fā)展?jié)摿Γ拖褚粋€(gè)經(jīng)驗(yàn)豐富的繪畫(huà)老師既能看出學(xué)生草圖的問(wèn)題，又能預(yù)判最終效果。

Q2：這種讓AI"邊畫(huà)邊思考"的方法會(huì)讓繪畫(huà)速度變慢嗎？

A：確實(shí)會(huì)增加一些計(jì)算時(shí)間，因?yàn)锳I需要額外的"思考"過(guò)程來(lái)評(píng)估和調(diào)整。但研究團(tuán)隊(duì)發(fā)現(xiàn)這種時(shí)間投入是值得的——雖然單次生成稍慢一些，但畫(huà)出好作品的成功率大大提高，用戶(hù)不需要反復(fù)重新生成，總體效率反而可能更高。就像畫(huà)家多花時(shí)間思考構(gòu)圖，雖然慢一點(diǎn)但能避免返工。

Q3：這項(xiàng)技術(shù)什么時(shí)候能在日常的AI繪畫(huà)工具中使用？

A：目前研究團(tuán)隊(duì)已經(jīng)在GitHub上開(kāi)源了相關(guān)代碼（https://github.com/ZiyuGuo99/Image-Generation-CoT），技術(shù)開(kāi)發(fā)者可以基于此進(jìn)行開(kāi)發(fā)。但要集成到像Midjourney、Stable Diffusion這樣的主流工具中，還需要進(jìn)一步的工程優(yōu)化和適配工作。預(yù)計(jì)在未來(lái)1-2年內(nèi)，我們可能會(huì)在一些新的AI繪畫(huà)產(chǎn)品中看到類(lèi)似的"思考型"功能。

人工智能鏈?zhǔn)剿季S推理潛力評(píng)估獎(jiǎng)勵(lì)模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專(zhuān)家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專(zhuān)線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn