這項(xiàng)由香港科技大學(xué)謝維彥、高瀚等人領(lǐng)導(dǎo),聯(lián)合華為香港AI框架與數(shù)據(jù)技術(shù)實(shí)驗(yàn)室以及上海財(cái)經(jīng)大學(xué)共同完成的研究成果發(fā)表于2025年8月。研究團(tuán)隊(duì)推出了名為CannyEdit的全新圖像編輯框架,這項(xiàng)技術(shù)突破性地解決了AI圖像編輯中的一個(gè)核心難題:如何讓人工智能修改后的圖像看起來就像原本就存在的真實(shí)場景,而不是明顯的"人工痕跡"。有興趣深入了解的讀者可以通過項(xiàng)目主頁vaynexie.github.io/CannyEdit訪問完整論文和技術(shù)演示。
想象你正在用修圖軟件給一張公園照片添加一個(gè)人物?,F(xiàn)有的AI編輯工具往往會(huì)出現(xiàn)兩種令人頭疼的情況:要么新添加的人物看起來完全符合你的要求,但整張圖片的背景卻發(fā)生了莫名其妙的變化,就像被濾鏡過度處理過一樣;要么背景保持得很好,但新人物的樣子與你的描述相差甚遠(yuǎn),甚至出現(xiàn)奇形怪狀的效果。更糟糕的是,即使前兩點(diǎn)都還算滿意,新添加的內(nèi)容往往在邊界處顯得生硬突兀,就像是用膠水粘貼上去的貼紙,任何人一眼就能看出這是后期添加的。
CannyEdit的出現(xiàn)就是為了徹底解決這個(gè)困擾。這個(gè)系統(tǒng)就像一位極其熟練的畫家,不僅能精確理解你想要添加什么內(nèi)容,還能巧妙地讓新內(nèi)容與原始場景完美融合,仿佛它們本來就應(yīng)該在那里。在研究團(tuán)隊(duì)進(jìn)行的用戶測試中,普通用戶只有49.2%的概率能識(shí)別出CannyEdit編輯過的圖片是AI制作的,而AI專家的識(shí)別率也僅為42.0%。相比之下,其他主流編輯工具的AI痕跡識(shí)別率高達(dá)76%到89%,差異相當(dāng)明顯。
一、邊緣控制:給AI一雙"透視眼"
傳統(tǒng)的圖像編輯就像是蒙著眼睛畫畫。AI系統(tǒng)在處理圖像時(shí),往往無法準(zhǔn)確理解原始圖片的結(jié)構(gòu)布局,導(dǎo)致編輯結(jié)果顯得不自然。CannyEdit采用了一種被稱為"選擇性邊緣控制"的創(chuàng)新技術(shù),這就像給AI裝上了一雙能夠"透視"圖像結(jié)構(gòu)的眼睛。
這個(gè)過程可以用室內(nèi)裝修來類比。當(dāng)你想在房間里添加新家具時(shí),首先需要了解房間的基本結(jié)構(gòu):墻在哪里,柱子在哪里,現(xiàn)有家具的位置如何。Canny邊緣檢測技術(shù)就扮演了這個(gè)結(jié)構(gòu)圖的角色,它能夠識(shí)別出圖像中所有重要的邊緣和輪廓信息,就像房間的建筑圖紙一樣。
CannyEdit的聰明之處在于它的"選擇性"應(yīng)用。與其他方法不同,它不會(huì)對整張圖片都施加同樣的結(jié)構(gòu)約束。在需要編輯的區(qū)域,系統(tǒng)會(huì)放松這種結(jié)構(gòu)限制,讓AI有足夠的創(chuàng)作自由來生成新內(nèi)容。而在不需要改動(dòng)的背景區(qū)域,系統(tǒng)則嚴(yán)格遵循原始圖像的結(jié)構(gòu)信息,確保這些區(qū)域保持原樣。
這種方法的效果就像一個(gè)經(jīng)驗(yàn)豐富的修復(fù)師在處理古畫。他們會(huì)仔細(xì)保護(hù)畫作中完好的部分,只對需要修復(fù)的區(qū)域進(jìn)行精細(xì)處理,最終讓整幅作品看起來渾然一體。研究團(tuán)隊(duì)發(fā)現(xiàn),這種選擇性的邊緣控制不僅提高了編輯的精確度,還大大減少了處理時(shí)間,因?yàn)橄到y(tǒng)在編輯過程中可以直接使用預(yù)先計(jì)算好的結(jié)構(gòu)信息。
二、雙重提示策略:讓AI同時(shí)關(guān)注"局部"和"全局"
如果說邊緣控制是給AI裝上了"透視眼",那么雙重提示策略就是教會(huì)AI如何同時(shí)思考"局部"和"全局"的問題。這就像一個(gè)優(yōu)秀的室內(nèi)設(shè)計(jì)師,他不僅要考慮單個(gè)家具的樣式,還要確保整個(gè)房間的協(xié)調(diào)性。
在傳統(tǒng)的圖像編輯中,AI往往只能專注于單一目標(biāo)。要么專心處理你想添加的新元素,要么關(guān)注整體圖像的協(xié)調(diào)性,很難做到兩者兼顧。CannyEdit通過引入"雙重提示策略"巧妙地解決了這個(gè)問題。
具體來說,系統(tǒng)會(huì)同時(shí)接收兩種類型的文字指令。第一種是"局部提示",詳細(xì)描述你想在特定區(qū)域添加或修改的內(nèi)容,比如"一個(gè)穿紅色夾克的女孩蹲在草地上看著小貓"。第二種是"全局提示",描述編輯后整張圖片應(yīng)該呈現(xiàn)的場景,比如"一個(gè)陽光明媚的公園里,一個(gè)男人在慢跑,一個(gè)女孩蹲在草地上看著小貓"。
這種雙重策略的巧妙之處在于它模擬了人類藝術(shù)家的創(chuàng)作思維過程。當(dāng)畫家在畫布上添加新元素時(shí),他們既會(huì)專注于新元素的細(xì)節(jié),也會(huì)不斷退后觀察整體效果,確保新添加的內(nèi)容與現(xiàn)有畫面和諧統(tǒng)一。
為了實(shí)現(xiàn)這種雙重關(guān)注,CannyEdit在技術(shù)層面采用了復(fù)雜的注意力機(jī)制調(diào)整。系統(tǒng)會(huì)巧妙地控制不同區(qū)域之間的信息交流。局部提示主要影響編輯區(qū)域的生成,而全局提示則確保編輯區(qū)域與背景區(qū)域之間的自然過渡。同時(shí),系統(tǒng)還會(huì)特別加強(qiáng)編輯區(qū)域邊界附近的處理,讓這些過渡區(qū)域能夠同時(shí)接收來自編輯內(nèi)容和背景內(nèi)容的信息,從而產(chǎn)生自然的融合效果。
三、訓(xùn)練免費(fèi)的智能編輯:站在巨人的肩膀上
CannyEdit的另一個(gè)重要優(yōu)勢是它不需要大量的專門訓(xùn)練數(shù)據(jù)。這就像是站在巨人的肩膀上,充分利用現(xiàn)有的強(qiáng)大AI模型的能力,而不是從零開始建造一個(gè)全新的系統(tǒng)。
當(dāng)前的圖像生成模型,比如FLUX,已經(jīng)通過分析數(shù)百萬張圖片學(xué)會(huì)了如何理解和生成各種場景。這些模型就像是一個(gè)見多識(shí)廣的藝術(shù)家,已經(jīng)掌握了豐富的繪畫技巧和場景理解能力。CannyEdit巧妙地利用這些現(xiàn)有能力,通過技術(shù)手段引導(dǎo)它們完成更精準(zhǔn)的編輯任務(wù)。
這種方法的好處是顯而易見的。如果要訓(xùn)練一個(gè)專門的圖像編輯AI,需要收集大量的"編輯前"和"編輯后"圖像對比數(shù)據(jù),這不僅成本高昂,而且很難覆蓋所有可能的編輯場景。更重要的是,這樣訓(xùn)練出來的系統(tǒng)往往只能處理與訓(xùn)練數(shù)據(jù)相似的場景,遇到新奇的編輯需求時(shí)就會(huì)表現(xiàn)不佳。
相比之下,CannyEdit通過技術(shù)創(chuàng)新,讓現(xiàn)有的通用圖像生成模型能夠直接應(yīng)用于精確的編輯任務(wù)。這就像是教會(huì)一個(gè)已經(jīng)很會(huì)畫畫的藝術(shù)家如何更好地修改現(xiàn)有作品,而不是從頭培養(yǎng)一個(gè)專門的修復(fù)師。這種方法不僅節(jié)省了大量的訓(xùn)練成本,還能享受到基礎(chǔ)模型不斷進(jìn)步帶來的性能提升。
系統(tǒng)的核心創(chuàng)新在于它巧妙地利用了"圖像反演"技術(shù)。這個(gè)過程就像是逆向工程:系統(tǒng)首先分析原始圖像,理解AI模型在生成類似圖像時(shí)的"思維過程",然后在編輯階段引導(dǎo)模型按照修改后的要求重新生成圖像的特定部分。
四、實(shí)戰(zhàn)效果:數(shù)據(jù)說話的編輯質(zhì)量
為了驗(yàn)證CannyEdit的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的對比測試。他們創(chuàng)建了一個(gè)名為RICE-Bench的專門測試集,包含80張真實(shí)場景圖像,涵蓋了添加對象、替換元素、移除內(nèi)容等多種編輯任務(wù)。這些測試場景都是現(xiàn)實(shí)生活中常見的復(fù)雜情況,比如在公園里添加人物、在體育場替換運(yùn)動(dòng)員、從街景中移除特定物體等。
測試結(jié)果顯示,CannyEdit在保持背景真實(shí)度的同時(shí),文字指令的執(zhí)行準(zhǔn)確度比目前最好的競爭方法KV-Edit提升了2.93%到10.49%。更令人印象深刻的是編輯的自然度表現(xiàn)。研究團(tuán)隊(duì)邀請了137名參與者進(jìn)行盲測,其中包括96名普通用戶和41名AI技術(shù)專家。
在測試中,參與者需要在兩張圖片中選擇哪一張更可能是AI編輯過的。結(jié)果顯示,面對CannyEdit處理的圖片,普通用戶只有49.2%的準(zhǔn)確率,AI專家也只有42.0%的準(zhǔn)確率,這意味著大多數(shù)人都無法準(zhǔn)確識(shí)別出這些圖片是經(jīng)過AI編輯的。相比之下,其他方法的可識(shí)別率都在76%以上,有些甚至超過89%。
這種效果差異在日常應(yīng)用中的意義非常重大。以社交媒體照片編輯為例,用CannyEdit處理后的照片能夠通過大多數(shù)人的"真實(shí)性檢驗(yàn)",而不會(huì)讓人一眼就看出是后期編輯的痕跡。這對于需要自然圖像效果的廣告制作、內(nèi)容創(chuàng)作等領(lǐng)域具有重要價(jià)值。
研究團(tuán)隊(duì)還在更大規(guī)模的PIE-Bench數(shù)據(jù)集上進(jìn)行了測試,該數(shù)據(jù)集包含620張圖像和多種編輯任務(wù)。結(jié)果同樣顯示,CannyEdit在文字執(zhí)行準(zhǔn)確度方面大幅超越了現(xiàn)有方法,從22.44分提升到25.36分,在圖像質(zhì)量保持方面也表現(xiàn)出色。
五、技術(shù)細(xì)節(jié):巧妙的工程實(shí)現(xiàn)
CannyEdit的技術(shù)實(shí)現(xiàn)充滿了工程智慧。系統(tǒng)基于FLUX圖像生成模型構(gòu)建,采用50步去噪過程,引導(dǎo)強(qiáng)度設(shè)置為4.0。邊緣控制的強(qiáng)度參數(shù)在反演階段和背景區(qū)域設(shè)置為0.8,系統(tǒng)每5步進(jìn)行一次循環(huán)融合處理,融合強(qiáng)度為0.5。
特別值得注意的是系統(tǒng)對邊界區(qū)域的特殊處理。在編輯區(qū)域和背景區(qū)域的交界處,CannyEdit會(huì)逐漸調(diào)整控制強(qiáng)度,創(chuàng)造平滑的過渡效果。這就像畫家在處理色彩過渡時(shí)會(huì)用漸變技巧,避免生硬的分界線。
在注意力機(jī)制的設(shè)計(jì)上,系統(tǒng)采用了復(fù)雜的掩碼策略來控制不同區(qū)域之間的信息交流。對于文字到文字的注意力,系統(tǒng)確保每個(gè)提示只關(guān)注自己的內(nèi)容,避免不同指令之間的相互干擾。對于文字到圖像的注意力,局部提示主要影響對應(yīng)的編輯區(qū)域,而全局提示則可以影響整張圖片,確保整體協(xié)調(diào)性。
系統(tǒng)還能夠靈活處理多種編輯任務(wù)。對于對象移除任務(wù),CannyEdit結(jié)合了正向和負(fù)向提示策略,既描述期望的結(jié)果(比如"空曠的背景"),也明確指出不想要的內(nèi)容(比如被移除的對象名稱),通過無分類器引導(dǎo)技術(shù)實(shí)現(xiàn)精確的移除效果。
六、應(yīng)用前景:從專業(yè)制作到日常生活
CannyEdit的應(yīng)用前景極其廣闊。在專業(yè)領(lǐng)域,這項(xiàng)技術(shù)可以大大提高廣告制作、影視后期、產(chǎn)品展示等工作的效率和質(zhì)量。傳統(tǒng)的專業(yè)圖像編輯往往需要熟練的技師花費(fèi)大量時(shí)間進(jìn)行精細(xì)調(diào)整,而CannyEdit可以在幾分鐘內(nèi)完成類似的工作,且效果更加自然。
在內(nèi)容創(chuàng)作領(lǐng)域,這項(xiàng)技術(shù)能夠讓普通用戶輕松制作高質(zhì)量的視覺內(nèi)容。無論是社交媒體博主想要?jiǎng)?chuàng)建吸引人的場景圖片,還是小企業(yè)主需要制作產(chǎn)品宣傳圖,CannyEdit都能提供專業(yè)級(jí)的編輯效果,而不需要用戶掌握復(fù)雜的圖像處理技能。
更有趣的是,CannyEdit支持多重編輯功能,可以在一次處理中完成多個(gè)編輯任務(wù)。比如既可以在公園場景中添加一個(gè)慢跑的人,同時(shí)還能添加一個(gè)遛狗的女士和一個(gè)看書的學(xué)生,所有這些元素都會(huì)自然地融入原始場景中。這種能力為復(fù)雜場景的創(chuàng)作提供了強(qiáng)大支持。
系統(tǒng)的另一個(gè)優(yōu)勢是對不同類型編輯任務(wù)的靈活適應(yīng)。除了基本的添加、移除、替換功能外,CannyEdit還能處理對象形狀保持轉(zhuǎn)換(比如將貓的形狀保持不變但轉(zhuǎn)換為老虎)、環(huán)境氛圍修改(比如將晴天場景轉(zhuǎn)換為陰雨天)、身份保持編輯(比如改變?nèi)宋镒藙莸3稚矸萏卣鳎┑雀呒?jí)任務(wù)。
七、技術(shù)優(yōu)勢:站在前沿的創(chuàng)新突破
相比現(xiàn)有技術(shù),CannyEdit實(shí)現(xiàn)了多個(gè)重要突破。首先是編輯質(zhì)量的顯著提升。傳統(tǒng)方法往往在編輯精度和背景保持之間難以平衡,要么新添加的內(nèi)容不夠準(zhǔn)確,要么背景發(fā)生不必要的變化。CannyEdit通過選擇性邊緣控制巧妙地解決了這個(gè)問題,讓系統(tǒng)能夠在保持背景完整的同時(shí)實(shí)現(xiàn)精確編輯。
其次是編輯自然度的革命性改善。以往的AI編輯結(jié)果往往在邊界處顯得生硬,容易被識(shí)別為人工處理。CannyEdit通過巧妙的邊界處理技術(shù)和雙重提示策略,實(shí)現(xiàn)了前所未有的自然融合效果。在用戶測試中,大多數(shù)人都無法識(shí)別出編輯痕跡,這標(biāo)志著AI圖像編輯技術(shù)向真正實(shí)用化邁出了重要一步。
計(jì)算效率方面,CannyEdit也展現(xiàn)出明顯優(yōu)勢。由于采用了預(yù)計(jì)算和緩存策略,系統(tǒng)在編輯階段可以直接使用已經(jīng)處理好的結(jié)構(gòu)信息,大大減少了計(jì)算時(shí)間。雖然集成了額外的邊緣控制網(wǎng)絡(luò),但這個(gè)網(wǎng)絡(luò)相比基礎(chǔ)模型要輕量得多(0.74B參數(shù) vs 12B參數(shù)),因此并不會(huì)顯著增加計(jì)算負(fù)擔(dān)。
技術(shù)擴(kuò)展性是CannyEdit的另一個(gè)重要優(yōu)勢。由于采用了模塊化設(shè)計(jì),這個(gè)框架可以輕松集成其他控制模塊,比如姿態(tài)控制、IP控制等,為未來的功能擴(kuò)展提供了良好基礎(chǔ)。同時(shí),雖然當(dāng)前版本基于FLUX模型構(gòu)建,但核心思想可以遷移到其他圖像生成模型上。
八、局限性與改進(jìn)方向
盡管CannyEdit表現(xiàn)出色,但研究團(tuán)隊(duì)也坦承存在一些局限性。最主要的限制是系統(tǒng)需要用戶提供編輯區(qū)域的掩碼,這增加了操作的復(fù)雜性。與那些僅需文字描述就能自動(dòng)識(shí)別編輯區(qū)域的方法相比,這確實(shí)增加了用戶的操作負(fù)擔(dān)。不過,研究團(tuán)隊(duì)指出,這種設(shè)計(jì)也帶來了更精確的控制能力,用戶可以準(zhǔn)確指定編輯區(qū)域的邊界。
身份保持能力是另一個(gè)有待改進(jìn)的方面。雖然CannyEdit可以通過結(jié)合源注意力注入技術(shù)實(shí)現(xiàn)一定程度的身份保持編輯,但在人臉身份保持方面的效果還不夠完美。研究團(tuán)隊(duì)計(jì)劃在未來版本中集成專門的身份控制模塊來解決這個(gè)問題。
為了降低用戶操作門檻,研究團(tuán)隊(duì)正在探索使用多模態(tài)大語言模型自動(dòng)生成編輯掩碼的可能性。通過鏈?zhǔn)剿季S提示技術(shù),系統(tǒng)有望實(shí)現(xiàn)從文字描述到掩碼生成的全自動(dòng)化流程。同時(shí),這些模型還能幫助自動(dòng)生成源圖像描述、優(yōu)化用戶提供的編輯指令、生成全局目標(biāo)提示等,進(jìn)一步簡化操作流程。
研究團(tuán)隊(duì)還計(jì)劃將CannyEdit擴(kuò)展到其他圖像生成模型上。雖然當(dāng)前版本基于FLUX構(gòu)建,但核心的選擇性邊緣控制和雙重提示策略在原理上可以適用于其他模型架構(gòu),這為技術(shù)的廣泛應(yīng)用提供了可能。
說到底,CannyEdit代表了AI圖像編輯技術(shù)發(fā)展的一個(gè)重要里程碑。它不僅解決了長期困擾該領(lǐng)域的核心技術(shù)問題,還為普通用戶提供了接近專業(yè)水準(zhǔn)的圖像編輯能力。這項(xiàng)技術(shù)的出現(xiàn),讓我們看到了AI工具從"能用"向"好用"轉(zhuǎn)變的可能性。
歸根結(jié)底,CannyEdit的成功在于它深刻理解了圖像編輯的本質(zhì)需求:不僅要準(zhǔn)確執(zhí)行用戶指令,還要讓結(jié)果看起來完全自然。通過巧妙的技術(shù)創(chuàng)新,研究團(tuán)隊(duì)找到了平衡編輯精度、背景保持和視覺自然度的最佳方案。
這項(xiàng)研究對普通人的意義是顯而易見的。無論你是想為社交媒體制作有趣的內(nèi)容,還是需要為工作創(chuàng)建專業(yè)的視覺素材,CannyEdit都能提供前所未有的編輯體驗(yàn)。更重要的是,這種"無痕編輯"能力讓創(chuàng)意表達(dá)變得更加自由,用戶不再需要擔(dān)心編輯痕跡過于明顯的問題。
當(dāng)然,隨著這類技術(shù)的普及,我們也需要思考如何在享受便利的同時(shí)保持對視覺內(nèi)容真實(shí)性的理性判斷。研究團(tuán)隊(duì)在論文中也提到了相關(guān)的倫理考慮,強(qiáng)調(diào)在技術(shù)應(yīng)用中需要建立適當(dāng)?shù)膬?nèi)容審核機(jī)制,防止技術(shù)被用于有害目的。
對于那些希望深入了解這項(xiàng)技術(shù)的讀者,可以訪問研究團(tuán)隊(duì)的項(xiàng)目主頁獲取更多技術(shù)細(xì)節(jié)和演示樣例。這項(xiàng)研究不僅展示了當(dāng)前AI圖像編輯技術(shù)的最高水準(zhǔn),也為未來的發(fā)展方向提供了重要啟示。
Q&A
Q1:CannyEdit與普通修圖軟件有什么區(qū)別?
A:CannyEdit是基于人工智能的圖像編輯系統(tǒng),與Photoshop等傳統(tǒng)軟件最大的區(qū)別是它可以通過文字描述直接生成編輯內(nèi)容,而不需要用戶手動(dòng)繪制或拼貼。比如你只需要輸入"在公園里添加一個(gè)遛狗的女士",系統(tǒng)就能自動(dòng)生成相應(yīng)的人物并完美融入原始場景。更重要的是,CannyEdit的編輯效果更加自然,在用戶測試中,大多數(shù)人都無法識(shí)別出圖片是經(jīng)過AI編輯的。
Q2:使用CannyEdit需要什么技術(shù)基礎(chǔ)嗎?
A:從操作角度來說,CannyEdit相比傳統(tǒng)圖像編輯軟件要簡單得多,用戶主要需要提供兩樣?xùn)|西:一個(gè)標(biāo)記編輯區(qū)域的蒙版(可以是簡單的橢圓或矩形),以及描述想要添加或修改內(nèi)容的文字。不過目前CannyEdit還主要是研究階段的技術(shù)演示,普通用戶暫時(shí)無法直接使用。研究團(tuán)隊(duì)正在開發(fā)更加用戶友好的版本,計(jì)劃集成自動(dòng)蒙版生成功能,讓操作變得更簡單。
Q3:CannyEdit能處理哪些類型的圖像編輯任務(wù)?
A:CannyEdit支持多種圖像編輯任務(wù),包括在場景中添加新的人物或物體、替換現(xiàn)有元素(比如將網(wǎng)球運(yùn)動(dòng)員替換為籃球運(yùn)動(dòng)員)、移除不需要的內(nèi)容(比如刪除照片中的雨傘)、改變物體形狀但保持輪廓(比如將貓變成老虎但保持姿勢)、修改環(huán)境氛圍(比如將晴天改為陰雨天)等。系統(tǒng)還支持一次性完成多個(gè)編輯任務(wù),比如同時(shí)在公園場景中添加多個(gè)不同的人物,所有編輯都會(huì)自然地融入原始場景。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對培養(yǎng)AI空間智能的重要價(jià)值。