
這項由清華大學(xué)馮浩然、北京航空航天大學(xué)黃澤桓(項目負責(zé)人)、中國人民大學(xué)李琳等研究團隊共同完成的突破性研究發(fā)表于2025年3月,論文題目為《Personalize Anything for Free with Diffusion Transformer》。有興趣深入了解的讀者可以通過arXiv:2503.12590v1訪問完整論文。
想象一下,如果你能讓AI繪畫工具完全按照你的想法,把你家的寵物狗、你最喜歡的杯子,或者任何你想要的物品,準確無誤地畫在任何你想要的場景中,會是什么感覺?以前,這樣的定制化AI繪畫需要大量的訓(xùn)練時間和計算資源,就像給AI老師上很多節(jié)私教課一樣昂貴。但現(xiàn)在,中國研究團隊找到了一個巧妙的方法,讓這一切變得簡單而免費。
這個被稱為"Personalize Anything"(個性化一切)的技術(shù)框架,就像是給AI繪畫工具裝上了一個超級智能的"復(fù)制粘貼"功能。你只需要提供一張參考圖片,AI就能把其中的物體準確地"移植"到任何新的場景中,而且效果好得驚人。更重要的是,整個過程完全免費,不需要額外的訓(xùn)練或微調(diào)。
研究團隊發(fā)現(xiàn)了一個令人興奮的秘密:新一代的AI繪畫工具(被稱為擴散變換器,或DiT)具有一種特殊的能力——它們能夠?qū)⑽矬w的外觀特征和位置信息分開處理。這就像是一個智能的拼圖游戲,你可以把一塊拼圖的圖案保留下來,但把它的位置換到拼圖的任何地方。這種能力為免費的個性化圖像生成打開了全新的大門。
研究的創(chuàng)新之處在于發(fā)現(xiàn)了擴散變換器的"位置解耦"特性,并開發(fā)出了一套時間步自適應(yīng)的令牌替換策略和補丁擾動技術(shù)。簡單來說,他們找到了在AI繪畫過程中的最佳時機來"植入"你想要的物體,既保證了物體特征的準確性,又確保了生成圖像的多樣性和自然度。
這項技術(shù)不僅能處理單個物體的個性化生成,還能同時處理多個物體的組合,甚至支持按布局指導(dǎo)生成、圖像修復(fù)和擴展等高級功能。從實際應(yīng)用角度來看,這意味著廣告制作、內(nèi)容創(chuàng)作、視覺故事敘述等領(lǐng)域都將因此受益。
一、揭開AI繪畫的神秘面紗:為什么舊方法這么麻煩?
要理解這項研究的價值,我們首先需要了解傳統(tǒng)AI個性化繪畫面臨的挑戰(zhàn)。傳統(tǒng)的個性化圖像生成就像是訓(xùn)練一個專門的畫師,每當你想要畫一個新的物體時,都需要給這個畫師提供很多該物體的樣本圖片,然后讓他反復(fù)練習(xí),直到能夠準確地畫出這個物體為止。
這種方法主要分為兩類。第一類是"臨時抱佛腳"式的方法,每次遇到新物體都要現(xiàn)場訓(xùn)練模型,通常需要幾百次的迭代練習(xí),耗時約30分鐘的GPU計算時間。雖然效果不錯,但時間成本很高,就像每次畫畫前都要重新學(xué)習(xí)一遍。第二類是"提前準備"式的方法,研究人員預(yù)先在大量數(shù)據(jù)上訓(xùn)練輔助網(wǎng)絡(luò),希望能夠一勞永逸地解決個性化問題。但這種方法容易過度擬合訓(xùn)練數(shù)據(jù),在面對真實世界的多樣性時表現(xiàn)不佳。
近年來出現(xiàn)了一些"免訓(xùn)練"的方法,試圖通過注意力共享機制來解決問題。這些方法的思路是讓AI在生成新圖像時,同時"關(guān)注"參考圖像中的相關(guān)特征。然而,這些方法在應(yīng)用到最新的擴散變換器架構(gòu)時遇到了嚴重問題。
問題的根源在于擴散變換器采用了一種特殊的位置編碼機制。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(U-Net)通過卷積操作隱式地處理位置信息,而擴散變換器則明確地為每個圖像塊分配位置坐標。當研究人員嘗試將傳統(tǒng)的注意力共享方法應(yīng)用到擴散變換器時,就像是在同一個座位上安排兩個人坐下——參考圖像和生成圖像的對應(yīng)位置會產(chǎn)生沖突,導(dǎo)致生成的圖像出現(xiàn)重影和偽影。
研究團隊通過定量分析發(fā)現(xiàn),在擴散變換器中,生成圖像對參考圖像相同位置的注意力分數(shù)比在U-Net中高出723%,這說明擴散變換器對位置信息極其敏感。他們嘗試了幾種修復(fù)策略,比如移除參考圖像的位置信息或?qū)⑵湟频椒侵丿B區(qū)域,但都無法很好地保持物體特征的一致性。
二、意外的發(fā)現(xiàn):簡單替換竟然效果驚人
就在研究團隊為傳統(tǒng)方法的失效而苦惱時,他們做了一個看似簡單的實驗:直接用參考圖像的特征塊替換生成圖像中對應(yīng)區(qū)域的特征塊。結(jié)果令人震驚——這種簡單的"令牌替換"方法在擴散變換器中產(chǎn)生了高質(zhì)量的物體重建效果,而在傳統(tǒng)的U-Net架構(gòu)中卻會產(chǎn)生模糊邊緣和偽影。
這個發(fā)現(xiàn)就像是意外找到了一把萬能鑰匙。研究團隊意識到,擴散變換器的位置解耦特性是關(guān)鍵所在。在擴散變換器中,物體的語義特征和位置信息是分開存儲的,就像是一個智能的標簽系統(tǒng),每個標簽上既記錄了"這是什么",也記錄了"在哪里"。當進行令牌替換時,研究人員只替換了"這是什么"的信息,而保留了"在哪里"的信息,因此能夠在新位置準確重建物體。
相比之下,傳統(tǒng)的U-Net架構(gòu)通過卷積操作將紋理和空間位置緊密綁定在一起,就像是一幅馬賽克畫,每個小塊都與其周圍的塊存在復(fù)雜的依賴關(guān)系。當你試圖替換其中的某些塊時,就會破壞這種精細的依賴關(guān)系,導(dǎo)致圖像質(zhì)量下降。
這個發(fā)現(xiàn)不僅解釋了為什么簡單的令牌替換在擴散變換器中如此有效,也為各種圖像編輯應(yīng)用打開了新的可能性。無論是個性化生成、圖像修復(fù)還是圖像擴展,都可以通過這種統(tǒng)一的令牌替換框架來實現(xiàn),而不需要復(fù)雜的注意力工程。
三、精心設(shè)計的"植入"策略:時機就是一切
雖然簡單的令牌替換已經(jīng)能夠?qū)崿F(xiàn)高質(zhì)量的物體重建,但研究團隊發(fā)現(xiàn),如果在整個生成過程中都使用這種替換,會導(dǎo)致生成的圖像過于僵硬,缺乏靈活性。就像是完全按照模板畫畫,雖然準確但缺乏創(chuàng)意。
為了解決這個問題,研究團隊開發(fā)了一種"時間步自適應(yīng)"的策略,巧妙地在生成過程的不同階段采用不同的處理方式。這種策略的核心思想是在生成的早期階段確保物體特征的一致性,在后期階段增強靈活性和多樣性。
具體來說,在生成過程的前80%時間里(早期階段),系統(tǒng)采用令牌替換策略來錨定物體的身份特征。這個階段就像是先打好草稿,確定物體的基本形狀和關(guān)鍵特征。研究團隊通過實驗發(fā)現(xiàn),這個階段的令牌替換對于保持物體的身份一致性至關(guān)重要。
在生成過程的后20%時間里(后期階段),系統(tǒng)切換到多模態(tài)注意力機制,讓參考物體的特征與文本描述進行語義融合。這個階段就像是給草圖上色和添加細節(jié),讓最終的圖像既保持了物體的核心特征,又能夠靈活地適應(yīng)文本描述的要求。
這種分階段的處理策略非常巧妙。早期的令牌替換確保了生成物體與參考物體的高度相似性,而后期的注意力融合則允許系統(tǒng)根據(jù)文本提示對物體進行適當?shù)恼{(diào)整和美化。這就像是一個經(jīng)驗豐富的畫家,先用確定的筆觸勾勒出物體的輪廓,然后用靈活的技法添加光影和色彩。
四、增加變化的巧思:補丁擾動技術(shù)
為了進一步增強生成圖像的多樣性,研究團隊引入了"補丁擾動"技術(shù)。這個技術(shù)的靈感來自于一個簡單的觀察:如果完全按照參考圖像來重建物體,雖然能夠保證一致性,但可能會導(dǎo)致生成的圖像過于單調(diào)。
補丁擾動技術(shù)包含兩個核心策略。第一個策略是"隨機局部令牌洗牌",在3×3的小窗口內(nèi)隨機打亂特征塊的排列。這就像是輕微地搖晃一下拼圖,讓每個小塊都稍微偏離原來的位置,但整體圖案依然清晰可辨。這種局部的隨機性破壞了過于剛性的紋理對齊,鼓勵模型引入更多的全局外觀信息。
第二個策略是"掩碼增強",通過形態(tài)學(xué)操作(如膨脹和腐蝕)對物體掩碼進行變形,或者手動選擇強調(diào)身份特征的關(guān)鍵區(qū)域。這就像是稍微調(diào)整物體的邊界,讓系統(tǒng)有更多的靈活性來決定哪些細節(jié)需要嚴格保持,哪些可以適當變化。
這兩種擾動策略的結(jié)合使用,讓生成的圖像在保持物體身份一致性的同時,具有了更好的結(jié)構(gòu)和紋理多樣性。研究團隊的實驗表明,使用補丁擾動技術(shù)后,生成的圖像在身份保持和靈活性之間達到了更好的平衡。
五、無縫擴展:一個框架解決多種問題
"Personalize Anything"框架的另一個突出優(yōu)勢是其出色的擴展性。通過幾何編程的方式,這個框架可以自然地擴展到多種復(fù)雜的應(yīng)用場景。
對于布局引導(dǎo)的生成,系統(tǒng)只需要平移替換區(qū)域就能實現(xiàn)物體的空間重新排列。這就像是在畫布上移動貼紙,你可以把同一個物體放在畫面的任何位置。這種能力對于廣告設(shè)計和產(chǎn)品展示特別有用,設(shè)計師可以輕松地調(diào)整產(chǎn)品在畫面中的位置。
對于多物體個性化,系統(tǒng)通過順序注入多個參考物體的特征來實現(xiàn)。每個物體都有自己的參考圖像和目標區(qū)域,系統(tǒng)會依次處理每個物體,然后通過統(tǒng)一的多模態(tài)注意力機制協(xié)調(diào)所有物體與文本描述的關(guān)系。這就像是指揮一個樂隊,每個樂器都有自己的旋律,但最終要和諧地融合在一起。
對于圖像修復(fù)和擴展應(yīng)用,系統(tǒng)會在逆向工程過程中加入用戶指定的掩碼條件,獲得需要保留的參考特征。同時,系統(tǒng)會禁用擾動策略并將閾值參數(shù)調(diào)整到總步數(shù)的10%,這樣可以最大程度地保留原始圖像的內(nèi)容,實現(xiàn)連貫的修復(fù)或擴展效果。
這種統(tǒng)一框架的設(shè)計哲學(xué)體現(xiàn)了研究團隊的深刻洞察:看似不同的圖像編輯任務(wù),本質(zhì)上都可以歸結(jié)為在特定區(qū)域用特定內(nèi)容替換原有內(nèi)容的問題。通過巧妙的參數(shù)調(diào)整和策略選擇,同一個框架就可以勝任各種不同的任務(wù)。
六、實驗驗證:數(shù)據(jù)說話的時刻
研究團隊進行了全面的實驗評估,證明了"Personalize Anything"框架的卓越性能。他們建立了三個層次的評估體系:單物體個性化、多物體個性化和物體-場景組合,并與10多種代表性方法進行了比較。
在單物體個性化任務(wù)中,研究團隊使用了DreamBench數(shù)據(jù)集,該數(shù)據(jù)集包含30個基礎(chǔ)物體,每個物體配有25個文本提示。他們將數(shù)據(jù)集擴展到750個測試案例,并使用多維度指標進行評估:FID用于質(zhì)量分析,CLIP-T用于圖像-文本對齊評估,DINO、CLIP-I和DreamSim用于身份保持評估。
實驗結(jié)果顯示,"Personalize Anything"在身份保持方面表現(xiàn)出色,CLIP-I得分達到0.876,DINO得分達到0.683,DreamSim得分僅為0.179(越低越好)。這些數(shù)字背后的含義是,生成的圖像與參考物體高度相似,同時與文本描述的匹配度也很高。
特別值得注意的是,傳統(tǒng)的基于優(yōu)化的方法(如DreamBooth)雖然在某些指標上表現(xiàn)不錯,但需要每個概念30分鐘的GPU訓(xùn)練時間,而且有時會出現(xiàn)概念混淆的問題,比如將背景色彩錯誤地當作物體的特征。基于大規(guī)模訓(xùn)練的方法雖然不需要測試時調(diào)整,但在處理真實圖像輸入時往往難以保持細節(jié)的準確性。
在多物體個性化任務(wù)中,現(xiàn)有方法經(jīng)常出現(xiàn)概念融合的問題,難以維持各個物體的獨立身份特征,或者由于對物體間關(guān)系建模不當而產(chǎn)生破碎的結(jié)果。相比之下,"Personalize Anything"通過布局引導(dǎo)生成策略,成功地維持了物體間的自然交互,同時確保每個物體都保持其獨特的身份特征。
在物體-場景組合任務(wù)中,與AnyDoor等方法相比,"Personalize Anything"生成的圖像在主體與環(huán)境因素(如光照)之間表現(xiàn)出更好的一致性,避免了不協(xié)調(diào)的視覺效果。
七、用戶研究:真實世界的認可
除了客觀的數(shù)值評估,研究團隊還進行了大規(guī)模的用戶研究來驗證方法的實際效果。他們邀請了48名年齡分布在15到60歲之間的參與者,每人回答15個問題,總共收集了720個有效反饋。
在單物體個性化任務(wù)中,用戶需要從文本對齊、身份保持和圖像質(zhì)量三個維度選擇最佳方法。結(jié)果顯示,"Personalize Anything"在圖像質(zhì)量方面獲得了70%的支持率,在身份保持方面獲得了63%的支持率,在文本對齊方面獲得了44%的支持率。
在多物體個性化任務(wù)中,"Personalize Anything"的表現(xiàn)更加突出,在圖像質(zhì)量方面獲得了75%的支持率,這表明用戶認為該方法生成的多物體圖像看起來更加自然和協(xié)調(diào)。
在物體-場景組合任務(wù)中,研究團隊用場景一致性替代了文本對齊指標,以評估物體與場景的協(xié)調(diào)程度。結(jié)果顯示,"Personalize Anything"在圖像質(zhì)量方面獲得了73%的支持率,在身份保持方面獲得了66%的支持率,這證明了該方法在復(fù)雜場景合成方面的優(yōu)勢。
用戶研究的結(jié)果不僅驗證了客觀評估的結(jié)論,也說明了該方法生成的圖像確實符合人類的視覺偏好和質(zhì)量標準。
八、深入的消融實驗:解析成功的關(guān)鍵因素
為了更好地理解"Personalize Anything"框架中各個組件的作用,研究團隊進行了詳細的消融實驗。這些實驗就像是拆解一臺精密機器,逐一檢查每個零件的功能。
首先,他們系統(tǒng)性地研究了時間步閾值τ的影響。實驗結(jié)果顯示,當τ設(shè)置為總步數(shù)的90%時,生成的圖像與參考物體幾乎完全相同,但缺乏靈活性。隨著τ值逐漸降低到80%,系統(tǒng)在保持高身份相似性(CLIP-I得分0.882)的同時,獲得了更好的文本對齊能力(CLIP-T得分0.302)。
當τ繼續(xù)降低到70%時,生成的物體開始過度依賴文本描述,身份特征的保持程度顯著下降。這個實驗清楚地表明了80%這個閾值的合理性——它在身份保持和生成靈活性之間找到了最佳平衡點。
補丁擾動策略的效果同樣顯著。在沒有擾動的情況下,生成的物體在結(jié)構(gòu)上與參考物體高度相似,但可能顯得過于剛性。加入補丁擾動后,生成的圖像在保持身份一致性的同時,展現(xiàn)出更好的結(jié)構(gòu)和紋理多樣性。實驗數(shù)據(jù)顯示,使用擾動策略后,CLIP-T得分從0.302提升到0.307,這表明生成的圖像更好地融合了文本描述的要求。
九、實際應(yīng)用展示:從實驗室到現(xiàn)實世界
"Personalize Anything"框架的實際應(yīng)用潛力通過一系列令人印象深刻的示例得到了充分展示。在布局引導(dǎo)生成方面,用戶可以輕松地將同一個物體放置在圖像的不同位置,就像是在數(shù)字畫布上自由移動貼紙一樣。這種能力對于廣告設(shè)計師來說特別有價值,他們可以快速嘗試不同的產(chǎn)品布局方案。
在圖像修復(fù)應(yīng)用中,系統(tǒng)能夠無縫地填充圖像中的缺失區(qū)域,保持與原始內(nèi)容的高度一致性。無論是去除不需要的元素,還是修復(fù)損壞的區(qū)域,系統(tǒng)都能產(chǎn)生自然流暢的結(jié)果。
在圖像擴展應(yīng)用中,最令人驚嘆的是系統(tǒng)能夠合理地擴展圖像邊界,創(chuàng)造出與原始圖像風(fēng)格一致的新內(nèi)容。這就像是讓AI畫家續(xù)寫一幅未完成的畫作,既要保持原有的風(fēng)格和主題,又要合理地擴展畫面內(nèi)容。
視覺故事敘述是另一個引人入勝的應(yīng)用場景。通過在不同的場景中重復(fù)使用相同的角色或物體,創(chuàng)作者可以構(gòu)建連貫的視覺故事。這種能力對于兒童讀物插畫、廣告系列創(chuàng)作和教育內(nèi)容制作都具有重要價值。
十、技術(shù)細節(jié)與實現(xiàn):讓理論變成現(xiàn)實
"Personalize Anything"框架基于開源的HunyuanDiT和FLUX.1-dev模型實現(xiàn)。系統(tǒng)采用50步采樣策略,配合3.5的無分類器指導(dǎo)權(quán)重,能夠生成1024×1024分辨率的高質(zhì)量圖像。令牌替換閾值τ設(shè)置為總步數(shù)的80%,這個參數(shù)是通過大量實驗優(yōu)化得出的最佳值。
實現(xiàn)過程中的一個關(guān)鍵技術(shù)挑戰(zhàn)是如何準確地獲取參考圖像的特征表示。研究團隊采用了流逆轉(zhuǎn)技術(shù)來從參考圖像中提取不含位置編碼的特征令牌,同時獲取對應(yīng)的物體掩碼。這個過程就像是對圖像進行"逆向工程",提取出最純粹的語義信息。
另一個重要的技術(shù)細節(jié)是多模態(tài)注意力機制的實現(xiàn)。在生成過程的后期階段,系統(tǒng)需要協(xié)調(diào)參考物體特征、生成圖像特征和文本嵌入之間的關(guān)系。這個過程通過精心設(shè)計的注意力計算來實現(xiàn),確保最終生成的圖像既符合參考物體的身份特征,又滿足文本描述的要求。
補丁擾動策略的實現(xiàn)相對簡單但效果顯著。隨機局部令牌洗牌在3×3窗口內(nèi)進行,而掩碼增強使用5像素內(nèi)核的形態(tài)學(xué)操作。這些看似簡單的操作卻能有效地打破過度剛性的特征對齊,為生成過程注入適度的隨機性。
研究團隊還特別注意了系統(tǒng)的計算效率。與需要每個概念訓(xùn)練30分鐘的傳統(tǒng)方法相比,"Personalize Anything"的推理過程只需要幾秒鐘,這使得它在實際應(yīng)用中具有明顯的優(yōu)勢。
這項研究最終建立了一個完整的技術(shù)生態(tài)系統(tǒng),從理論發(fā)現(xiàn)到實際應(yīng)用,從單一功能到多場景支持,展現(xiàn)了從學(xué)術(shù)研究到實用工具轉(zhuǎn)化的完整路徑。研究團隊不僅解決了一個具體的技術(shù)問題,更重要的是為整個領(lǐng)域提供了新的思路和方法。
說到底,這項研究的真正價值不僅在于它解決了個性化圖像生成的技術(shù)難題,更在于它揭示了擴散變換器這一新興架構(gòu)的內(nèi)在潛力。通過簡單而優(yōu)雅的令牌替換策略,研究團隊證明了有時候最簡單的解決方案往往最有效。這種"大道至簡"的哲學(xué)可能會啟發(fā)更多類似的技術(shù)突破。
從實用角度來看,這項技術(shù)將大大降低個性化內(nèi)容創(chuàng)作的門檻。無論是小企業(yè)主想要為自己的產(chǎn)品制作廣告圖片,還是內(nèi)容創(chuàng)作者想要制作個性化的視覺作品,都可以通過這種免費的方法實現(xiàn)專業(yè)級的效果。這種技術(shù)民主化的趨勢,正在讓AI工具變得更加普惠和實用。
更有趣的是,這項研究可能預(yù)示著AI圖像生成領(lǐng)域的一個重要轉(zhuǎn)折點。隨著擴散變換器架構(gòu)的不斷發(fā)展和優(yōu)化,我們可能會看到更多基于這種位置解耦特性的創(chuàng)新應(yīng)用。也許在不久的將來,我們就能看到更加智能、更加靈活的AI繪畫工具,讓每個人都能成為數(shù)字藝術(shù)的創(chuàng)作者。
有興趣深入了解技術(shù)細節(jié)的讀者,可以通過arXiv:2503.12590v1訪問完整的研究論文,其中包含了更多的技術(shù)實現(xiàn)細節(jié)和實驗數(shù)據(jù)。
Q&A
Q1:Personalize Anything是什么?它能做什么? A:Personalize Anything是由清華大學(xué)等機構(gòu)開發(fā)的免費AI圖像定制框架,它能讓用戶僅通過一張參考圖片,就讓AI準確地在任何新場景中重現(xiàn)該物體,無需訓(xùn)練或付費。支持單物體、多物體個性化,以及圖像修復(fù)擴展等功能。
Q2:這個技術(shù)會不會取代傳統(tǒng)的圖像設(shè)計工作? A:目前不會完全取代,但會大大提升設(shè)計效率。它更像是給設(shè)計師提供了一個強大的輔助工具,能快速實現(xiàn)創(chuàng)意構(gòu)思,讓設(shè)計師把更多精力投入到創(chuàng)意本身而非技術(shù)實現(xiàn)上。小企業(yè)和個人創(chuàng)作者將特別受益。
Q3:普通人如何使用這項技術(shù)?有什么要求? A:目前該技術(shù)基于開源的HunyuanDiT和FLUX模型實現(xiàn),研究團隊已公開相關(guān)代碼。普通用戶需要一定的技術(shù)基礎(chǔ)來部署使用,但隨著技術(shù)成熟,未來可能會有更友好的產(chǎn)品化應(yīng)用出現(xiàn),降低使用門檻。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。