這項(xiàng)由香港中文大學(xué)多媒體實(shí)驗(yàn)室的方榮耀、香港大學(xué)的段承棋,以及商湯科技等多家機(jī)構(gòu)合作完成的突破性研究,于2025年3月發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議上。研究團(tuán)隊(duì)開發(fā)了一種名為"生成思維鏈"(Generation Chain-of-Thought,簡(jiǎn)稱GoT)的全新AI圖像生成和編輯方法,讓AI在創(chuàng)作圖像時(shí)能像人類一樣先思考、再動(dòng)手。這項(xiàng)研究的完整論文可通過(guò)arXiv:2503.10639獲取,為AI創(chuàng)作領(lǐng)域帶來(lái)了革命性的進(jìn)展。
傳統(tǒng)的AI圖像生成就像一個(gè)只會(huì)照搬菜譜的廚師,你說(shuō)要做紅燒肉,它就機(jī)械地按照固定流程操作,但如果你要求"把肉放在盤子左邊,旁邊配點(diǎn)綠色蔬菜,整體要溫馨一些",這種復(fù)雜的空間布局和情感表達(dá)就讓它手足無(wú)措了。而GoT方法就像給這個(gè)廚師裝上了一個(gè)會(huì)思考的大腦,讓它能夠理解你的需求,思考如何搭配,然后按照自己的理解去創(chuàng)作。
這種變化的意義遠(yuǎn)不止于技術(shù)層面的提升。當(dāng)AI能夠像人類一樣進(jìn)行推理和規(guī)劃時(shí),它生成的圖像不再是簡(jiǎn)單的像素堆砌,而是帶有邏輯和意圖的創(chuàng)作。更重要的是,用戶可以直接與AI的思考過(guò)程互動(dòng),就像和一個(gè)真正的設(shè)計(jì)師交流一樣,告訴它"把這個(gè)蘋果移到左邊一點(diǎn)"或者"把綠色改成紅色",AI會(huì)立即理解并執(zhí)行。
一、讓機(jī)器學(xué)會(huì)"想明白再動(dòng)手"的創(chuàng)作哲學(xué)
傳統(tǒng)的圖像生成AI就像一個(gè)技藝高超但缺乏思考的畫匠。當(dāng)你給它一個(gè)描述,比如"一只貓坐在椅子上",它會(huì)直接開始作畫,但往往無(wú)法準(zhǔn)確把握物體之間的關(guān)系、空間位置,或者用戶的真實(shí)意圖。結(jié)果就是生成的圖像雖然看起來(lái)不錯(cuò),但經(jīng)常出現(xiàn)邏輯錯(cuò)誤,比如貓懸浮在椅子上方,或者椅子比貓還小。
GoT方法的核心創(chuàng)新在于引入了"思考過(guò)程"。就像一個(gè)專業(yè)設(shè)計(jì)師接到委托后,會(huì)先在腦海中構(gòu)思整個(gè)畫面的布局,思考每個(gè)元素應(yīng)該放在哪里,它們之間的關(guān)系如何,然后才開始動(dòng)筆。GoT讓AI也具備了這種能力,它會(huì)先生成一段詳細(xì)的"內(nèi)心獨(dú)白",描述即將創(chuàng)作的圖像中每個(gè)物體的特征、位置和相互關(guān)系。
這個(gè)思考過(guò)程不是抽象的,而是具體的、可見(jiàn)的。AI會(huì)明確說(shuō)出"畫面中央有一只橙色的貓(坐標(biāo)位置194,80到763,925),它坐在一張棕色的木椅上(坐標(biāo)位置50,200到400,800),貓的尾巴自然下垂,椅子的靠背在貓的身后"。這種精確的描述不僅幫助AI生成更準(zhǔn)確的圖像,也讓用戶能夠理解AI的創(chuàng)作思路。
更令人興奮的是,這種思考過(guò)程是可以修改的。如果用戶覺(jué)得貓的位置不合適,可以直接修改坐標(biāo),或者將"橙色的貓"改為"白色的貓",AI會(huì)立即根據(jù)修改后的思考過(guò)程重新生成圖像。這就像你可以直接修改設(shè)計(jì)師的草圖和構(gòu)思,然后看到最終作品的即時(shí)變化。
二、構(gòu)建史上最大規(guī)模的"AI思考訓(xùn)練營(yíng)"
要讓AI學(xué)會(huì)思考,首先需要給它提供大量的"思考樣本"。這就像教一個(gè)孩子寫作文,你需要先給他看很多優(yōu)秀作文的例子,讓他了解什么是好的構(gòu)思和表達(dá)。研究團(tuán)隊(duì)面臨的挑戰(zhàn)是:世界上并不存在現(xiàn)成的"AI圖像生成思考過(guò)程"數(shù)據(jù)庫(kù),他們必須從零開始創(chuàng)建。
這個(gè)過(guò)程就像建造一座前所未有的圖書館。研究團(tuán)隊(duì)動(dòng)用了100塊NVIDIA A100顯卡,連續(xù)工作一個(gè)多月,處理了超過(guò)900萬(wàn)個(gè)圖像樣本。他們使用了最先進(jìn)的多模態(tài)大語(yǔ)言模型Qwen2-VL和Qwen2.5,為每張圖像生成詳細(xì)的思考過(guò)程描述。
這個(gè)"思考訓(xùn)練營(yíng)"的規(guī)模是驚人的。在文本到圖像生成方面,他們處理了840萬(wàn)張圖像,這些圖像來(lái)自Laion-Aesthetics高分辨率數(shù)據(jù)集、JourneyDB數(shù)據(jù)集,以及使用FLUX模型生成的60萬(wàn)張高質(zhì)量圖像。每張圖像都配有詳細(xì)的思考描述,平均每個(gè)思考過(guò)程包含超過(guò)800個(gè)字符的詳細(xì)分析,并標(biāo)注了平均4個(gè)物體的精確坐標(biāo)位置。
在圖像編輯方面,他們構(gòu)建了92萬(wàn)個(gè)編輯樣例,覆蓋了從簡(jiǎn)單的顏色修改到復(fù)雜的多步驟編輯的各種場(chǎng)景。這些樣例不僅包括單次編輯,還包括需要多個(gè)步驟完成的復(fù)雜編輯任務(wù),比如"先把紅色外套改成綠色,然后移除右邊的鳥群,最后添加森林背景,并在左側(cè)放置一輛汽車"。
構(gòu)建這個(gè)數(shù)據(jù)集的過(guò)程充滿了技術(shù)挑戰(zhàn)。研究團(tuán)隊(duì)需要確保每個(gè)思考過(guò)程既準(zhǔn)確描述了圖像內(nèi)容,又包含了合理的空間推理。他們?cè)O(shè)計(jì)了復(fù)雜的標(biāo)注流水線,使用多個(gè)AI模型協(xié)作完成不同的任務(wù):有的負(fù)責(zé)生成詳細(xì)描述,有的負(fù)責(zé)識(shí)別物體,有的負(fù)責(zé)確定精確位置,最后將這些信息整合成完整的思考鏈條。
三、打造會(huì)思考的圖像生成"大腦"
有了豐富的訓(xùn)練數(shù)據(jù),下一步就是設(shè)計(jì)一個(gè)能夠利用這些思考過(guò)程的AI系統(tǒng)。這就像給一個(gè)畫家裝上一個(gè)會(huì)分析和規(guī)劃的大腦,讓他能夠?qū)?fù)雜的想法轉(zhuǎn)化為具體的畫作。
GoT框架的核心架構(gòu)包含兩個(gè)相互協(xié)作的部分:一個(gè)負(fù)責(zé)思考的"策劃大腦"和一個(gè)負(fù)責(zé)創(chuàng)作的"執(zhí)行之手"。策劃大腦使用先進(jìn)的多模態(tài)大語(yǔ)言模型Qwen2.5-VL-3B,它能夠理解用戶的需求,分析圖像內(nèi)容,并生成詳細(xì)的創(chuàng)作計(jì)劃。執(zhí)行之手則基于穩(wěn)定擴(kuò)散模型SDXL,根據(jù)策劃大腦的指導(dǎo)生成最終的圖像。
最具創(chuàng)新性的是研究團(tuán)隊(duì)開發(fā)的"語(yǔ)義-空間引導(dǎo)模塊"(SSGM),這個(gè)模塊就像一個(gè)精密的翻譯器,能夠?qū)⒉邉澊竽X的抽象思考轉(zhuǎn)化為執(zhí)行之手能夠理解的具體指令。傳統(tǒng)的圖像生成模型只能接受簡(jiǎn)單的文本描述,但SSGM能夠同時(shí)處理三種不同類型的信息:語(yǔ)義信息(描述物體的特征和關(guān)系)、空間信息(精確的位置坐標(biāo))、以及參考信息(用于圖像編輯時(shí)的原始圖像)。
這種三重引導(dǎo)機(jī)制就像一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)演同時(shí)給演員提供劇本、走位圖和參考視頻。語(yǔ)義引導(dǎo)告訴AI"這里應(yīng)該有一只貓",空間引導(dǎo)告訴它"貓應(yīng)該在畫面的這個(gè)位置",參考引導(dǎo)(在編輯任務(wù)中)告訴它"要保持與原圖的連貫性"。
訓(xùn)練過(guò)程采用了端到端的方法,這意味著策劃大腦和執(zhí)行之手是一起學(xué)習(xí)的,它們會(huì)相互調(diào)整,直到達(dá)到最佳的配合效果。研究團(tuán)隊(duì)使用了低秩適應(yīng)(LoRA)技術(shù)來(lái)高效地微調(diào)模型參數(shù),這種方法既保證了訓(xùn)練效果,又大大降低了計(jì)算成本。整個(gè)訓(xùn)練過(guò)程分為兩個(gè)階段:預(yù)訓(xùn)練階段使用大規(guī)模數(shù)據(jù)集訓(xùn)練60000步,精調(diào)階段使用高質(zhì)量數(shù)據(jù)集訓(xùn)練10000步。
四、三大應(yīng)用場(chǎng)景展現(xiàn)無(wú)限潛力
GoT框架的強(qiáng)大之處在于它能夠統(tǒng)一處理多種不同的圖像生成和編輯任務(wù),就像一個(gè)多才多藝的藝術(shù)家,既能創(chuàng)作全新的作品,又能修改現(xiàn)有的畫作,還能與客戶實(shí)時(shí)互動(dòng)調(diào)整方案。
在文本到圖像生成方面,GoT展現(xiàn)出了前所未有的精確控制能力。當(dāng)用戶輸入"一個(gè)現(xiàn)代客廳,帶有一點(diǎn)復(fù)古風(fēng)格,包括白色家具、吊燈,以及鏡子和花環(huán)等裝飾元素"這樣的復(fù)雜描述時(shí),傳統(tǒng)模型往往只能生成一個(gè)大概符合描述的圖像,但物體位置和相互關(guān)系可能存在問(wèn)題。而GoT會(huì)先生成詳細(xì)的思考過(guò)程:"圖像展示了一個(gè)精心布置的客廳(坐標(biāo)0,0到998,998),大型華麗的吊燈位于(372,0到613,254),墻上裝飾著帶框鏡子(157,251到285,519),白色沙發(fā)位于(0,572到421,998)",然后根據(jù)這個(gè)精確的規(guī)劃生成圖像。
最令人印象深刻的是交互式生成功能。用戶可以直接修改GoT的思考過(guò)程來(lái)調(diào)整圖像。比如,如果生成的圖像中有"一個(gè)灰色背包(194,80到763,925)和一個(gè)綠色蘋果(633,684到836,928)",用戶可以直接將描述中的"綠色"改為"紅色",并調(diào)整蘋果的位置坐標(biāo)到(133,684到336,928),AI會(huì)立即生成更新后的圖像。這種交互方式比傳統(tǒng)的重新輸入提示詞要直觀和精確得多。
在圖像編輯方面,GoT能夠處理從簡(jiǎn)單的顏色修改到復(fù)雜的物體替換等各種任務(wù)。比如面對(duì)"將巨大的葉子替換為雨傘"這樣的編輯要求,GoT會(huì)生成結(jié)構(gòu)化的編輯計(jì)劃:"源圖像顯示了一個(gè)場(chǎng)景,被編輯的物體是巨大的葉子,區(qū)域位于(204,0到916,258),編輯后的圖像將顯示一個(gè)人舉著深藍(lán)色雨傘"。這種結(jié)構(gòu)化的編輯過(guò)程確保了修改的準(zhǔn)確性和合理性。
更復(fù)雜的多步驟編輯也難不倒GoT。當(dāng)用戶要求"將中間的紅外套改為淺綠色,移除右邊的鳥群,添加森林背景,并在左側(cè)放置一輛汽車"時(shí),GoT會(huì)將這個(gè)復(fù)雜任務(wù)分解為多個(gè)步驟,每個(gè)步驟都有明確的目標(biāo)和執(zhí)行方案,確保最終結(jié)果既滿足所有要求,又保持畫面的協(xié)調(diào)統(tǒng)一。
五、實(shí)驗(yàn)驗(yàn)證:全面超越現(xiàn)有技術(shù)
為了驗(yàn)證GoT框架的效果,研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)測(cè)試基準(zhǔn)上進(jìn)行了全面的實(shí)驗(yàn)評(píng)估,結(jié)果顯示GoT在各項(xiàng)指標(biāo)上都取得了顯著的提升。
在文本到圖像生成的評(píng)估中,研究團(tuán)隊(duì)使用了GenEval基準(zhǔn)測(cè)試,這是一個(gè)專門用于評(píng)估圖像生成模型理解和表現(xiàn)復(fù)雜場(chǎng)景能力的測(cè)試集。GoT框架獲得了0.64的總體得分,超過(guò)了所有對(duì)比方法。更令人印象深刻的是,在單個(gè)物體生成任務(wù)中,GoT獲得了0.99的近乎完美得分,在計(jì)數(shù)任務(wù)(需要生成指定數(shù)量的物體)中獲得了0.67的得分,在顏色控制任務(wù)中獲得了0.85的得分。
這些數(shù)字背后反映的是GoT框架在理解和執(zhí)行復(fù)雜指令方面的優(yōu)勢(shì)。比如當(dāng)測(cè)試要求生成"兩只紅色的鳥和三個(gè)藍(lán)色的球"時(shí),傳統(tǒng)模型經(jīng)常會(huì)在數(shù)量或顏色上出錯(cuò),而GoT由于有了明確的思考過(guò)程,能夠準(zhǔn)確地規(guī)劃每個(gè)物體的特征和數(shù)量。
在圖像編輯方面,GoT在多個(gè)基準(zhǔn)測(cè)試中都表現(xiàn)出色。在Emu-Edit基準(zhǔn)測(cè)試中,GoT在CLIP-I指標(biāo)上獲得了0.864的得分,在CLIP-T指標(biāo)上獲得了0.276的得分,均為最高分。在ImagenHub測(cè)試中,GoT獲得了0.533的GPT-4o評(píng)估得分,這個(gè)指標(biāo)更接近人類的評(píng)判標(biāo)準(zhǔn)。特別值得注意的是,在需要復(fù)雜推理的Reason-Edit基準(zhǔn)測(cè)試中,GoT獲得了0.561的得分,僅次于專門為推理編輯設(shè)計(jì)的SmartEdit方法。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分析了GoT框架中各個(gè)組件的貢獻(xiàn)。實(shí)驗(yàn)顯示,思考鏈(GoT)本身就能帶來(lái)顯著的性能提升,從基線的0.38提升到0.40。加入語(yǔ)義-空間引導(dǎo)模塊(SSGM)后,性能進(jìn)一步提升到0.42。而完整的GoT框架(包括大規(guī)模預(yù)訓(xùn)練)最終達(dá)到了0.64的得分,證明了每個(gè)組件都是必要的。
六、技術(shù)創(chuàng)新的深層意義
GoT框架的意義遠(yuǎn)超技術(shù)層面的改進(jìn),它代表了AI創(chuàng)作領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn):從盲目的模式匹配轉(zhuǎn)向有意識(shí)的推理創(chuàng)作。
傳統(tǒng)的圖像生成AI就像一個(gè)擁有完美技巧但缺乏理解能力的機(jī)器。它能夠生成看起來(lái)很棒的圖像,但無(wú)法真正理解用戶的意圖,也無(wú)法解釋自己的創(chuàng)作過(guò)程。這就導(dǎo)致了一個(gè)根本性問(wèn)題:用戶很難精確控制生成結(jié)果,當(dāng)結(jié)果不滿意時(shí),只能不斷嘗試不同的提示詞,希望碰運(yùn)氣得到想要的效果。
GoT框架通過(guò)引入顯式推理過(guò)程,根本性地改變了這種狀況。現(xiàn)在,AI不僅能夠生成圖像,還能告訴你它為什么這樣生成,每個(gè)決策的依據(jù)是什么。更重要的是,用戶可以直接與AI的思考過(guò)程互動(dòng),就像與一個(gè)真正的設(shè)計(jì)師合作一樣。
這種變化帶來(lái)了幾個(gè)重要的優(yōu)勢(shì)。首先是可控性的大幅提升。用戶不再需要猜測(cè)AI的想法,而是可以直接看到并修改AI的創(chuàng)作計(jì)劃。其次是可解釋性的增強(qiáng)。當(dāng)生成結(jié)果有問(wèn)題時(shí),用戶可以通過(guò)查看思考過(guò)程找到問(wèn)題所在,并進(jìn)行針對(duì)性的修改。最后是交互效率的提高。用戶可以通過(guò)修改思考過(guò)程實(shí)現(xiàn)精確的局部調(diào)整,而不需要重新生成整個(gè)圖像。
從更宏觀的角度來(lái)看,GoT框架為AI創(chuàng)作工具的發(fā)展指明了方向。未來(lái)的AI助手不應(yīng)該是一個(gè)黑盒子,而應(yīng)該是一個(gè)透明的、可交互的創(chuàng)作伙伴。它們需要能夠解釋自己的決策,接受用戶的指導(dǎo),并在創(chuàng)作過(guò)程中展現(xiàn)出類似人類的推理能力。
七、面向未來(lái)的技術(shù)展望
GoT框架的成功開啟了許多令人興奮的研究方向和應(yīng)用可能性。
在技術(shù)發(fā)展方面,這種"思考再創(chuàng)作"的模式可以擴(kuò)展到更多的創(chuàng)作領(lǐng)域。比如在視頻生成中,AI可以先規(guī)劃整個(gè)故事情節(jié)和鏡頭安排,再逐幀生成視頻內(nèi)容。在3D模型生成中,AI可以先分析物體的結(jié)構(gòu)和功能,再構(gòu)建精確的三維幾何形狀。在音樂(lè)創(chuàng)作中,AI可以先分析情感表達(dá)和結(jié)構(gòu)安排,再生成具體的旋律和和聲。
在實(shí)際應(yīng)用方面,GoT框架為創(chuàng)意產(chǎn)業(yè)帶來(lái)了新的可能性。設(shè)計(jì)師可以使用這種工具快速探索不同的設(shè)計(jì)方案,通過(guò)修改思考過(guò)程來(lái)實(shí)現(xiàn)精確的調(diào)整。廣告公司可以用它來(lái)生成個(gè)性化的營(yíng)銷素材,針對(duì)不同的目標(biāo)群體調(diào)整畫面元素和布局。教育領(lǐng)域可以利用這種技術(shù)生成定制化的教學(xué)圖像,幫助學(xué)生更好地理解抽象概念。
更廣泛地說(shuō),GoT框架代表了AI發(fā)展的一個(gè)重要趨勢(shì):從單純的模式識(shí)別和生成,向具備推理和規(guī)劃能力的智能系統(tǒng)轉(zhuǎn)變。這種轉(zhuǎn)變不僅提高了AI系統(tǒng)的性能,更重要的是增強(qiáng)了人機(jī)協(xié)作的可能性。當(dāng)AI能夠解釋自己的思考過(guò)程時(shí),人類就能更好地理解和指導(dǎo)AI的行為,實(shí)現(xiàn)真正意義上的智能合作。
當(dāng)然,這項(xiàng)技術(shù)也面臨一些挑戰(zhàn)和限制。生成詳細(xì)的思考過(guò)程需要額外的計(jì)算資源,這可能會(huì)影響系統(tǒng)的響應(yīng)速度。如何在保持推理質(zhì)量的同時(shí)提高效率,是一個(gè)需要繼續(xù)研究的問(wèn)題。此外,如何確保AI生成的思考過(guò)程既準(zhǔn)確又易于用戶理解,也是一個(gè)值得深入探討的話題。
說(shuō)到底,GoT框架的最大價(jià)值在于它向我們展示了AI創(chuàng)作的未來(lái)方向:不是替代人類創(chuàng)作者,而是成為更智能、更透明、更易于協(xié)作的創(chuàng)作伙伴。當(dāng)AI能夠像人類一樣思考和推理時(shí),人機(jī)協(xié)作將達(dá)到一個(gè)全新的水平,創(chuàng)意工作將變得更加高效和有趣。這項(xiàng)研究不僅推動(dòng)了技術(shù)的進(jìn)步,更重要的是為我們描繪了一個(gè)AI與人類和諧共創(chuàng)的美好未來(lái)。對(duì)于想要深入了解這項(xiàng)突破性研究的讀者,可以通過(guò)論文arXiv:2503.10639獲取完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:GoT方法和傳統(tǒng)AI畫畫有什么區(qū)別? A:傳統(tǒng)AI就像一個(gè)只會(huì)照搬的畫匠,你說(shuō)畫貓它就直接畫,但經(jīng)常畫錯(cuò)位置。GoT就像給AI裝了個(gè)會(huì)思考的大腦,它會(huì)先想"貓應(yīng)該坐在哪里、什么顏色、多大尺寸",然后再動(dòng)筆畫,結(jié)果更準(zhǔn)確,而且你還能看到它的思考過(guò)程并直接修改。
Q2:普通人能用GoT來(lái)生成圖片嗎?操作會(huì)不會(huì)很復(fù)雜? A:目前GoT還是研究階段的技術(shù),不過(guò)研究團(tuán)隊(duì)已經(jīng)公開了代碼和模型。操作其實(shí)不復(fù)雜,你可以像平常一樣輸入文字描述,然后看到AI的"內(nèi)心獨(dú)白",如果不滿意可以直接修改這個(gè)思考過(guò)程,比如把"紅蘋果"改成"綠蘋果"或者調(diào)整位置坐標(biāo)。
Q3:GoT生成的圖片質(zhì)量怎么樣?比其他AI工具好在哪里? A:GoT在各項(xiàng)測(cè)試中都取得了最好成績(jī),特別是在復(fù)雜場(chǎng)景生成方面。它最大的優(yōu)勢(shì)是精確控制,比如你要求畫"兩只紅鳥三個(gè)藍(lán)球",傳統(tǒng)AI經(jīng)常搞錯(cuò)數(shù)量或顏色,但GoT因?yàn)橛忻鞔_的思考過(guò)程,基本都能準(zhǔn)確執(zhí)行。而且你可以精確調(diào)整任何細(xì)節(jié),不用重新生成整張圖。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。