這項(xiàng)由清華大學(xué)鄭凱文、陳華宇等研究者與英偉達(dá)、斯坦福大學(xué)合作完成的研究發(fā)表于2025年9月,論文編號為arXiv:2509.16117v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。這項(xiàng)研究提出了一種名為"擴(kuò)散負(fù)感知微調(diào)"(DiffusionNFT)的新方法,徹底改變了AI圖像生成的訓(xùn)練方式。
當(dāng)前AI圖像生成面臨的最大問題就像是教一個(gè)廚師做菜,但你只能通過品嘗最終的菜品來給出反饋,卻無法在烹飪過程中指導(dǎo)每一個(gè)步驟?,F(xiàn)有的AI圖像生成模型在接受人類反饋進(jìn)行改進(jìn)時(shí),就面臨著這樣的困境。它們需要復(fù)雜的數(shù)學(xué)計(jì)算來估算每一步操作的"好壞程度",這個(gè)過程既耗時(shí)又不夠準(zhǔn)確,就像是蒙著眼睛做菜一樣困難。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)巧妙的解決方案。他們不再試圖在復(fù)雜的"烹飪過程"中給出指導(dǎo),而是回到了最基礎(chǔ)的"食材準(zhǔn)備"階段。在AI圖像生成中,這相當(dāng)于從"加噪聲"的正向過程入手,而不是傳統(tǒng)方法關(guān)注的"去噪聲"反向過程。這種思路轉(zhuǎn)換帶來了革命性的改進(jìn):訓(xùn)練效率提升了25倍,同時(shí)生成的圖像質(zhì)量顯著提高。
一、從復(fù)雜到簡單:重新定義AI圖像生成的訓(xùn)練方式
傳統(tǒng)的AI圖像生成訓(xùn)練就像是教一個(gè)學(xué)生通過觀察老師的每一個(gè)動(dòng)作來學(xué)習(xí)繪畫技巧。學(xué)生需要記住老師畫每一筆時(shí)的手法、力度和方向,然后試圖模仿這個(gè)復(fù)雜的過程。這種方法的問題在于,學(xué)生必須同時(shí)掌握無數(shù)個(gè)細(xì)節(jié),任何一個(gè)環(huán)節(jié)出錯(cuò)都可能影響最終效果。
現(xiàn)有的強(qiáng)化學(xué)習(xí)方法,比如FlowGRPO,就采用了這種復(fù)雜的訓(xùn)練方式。它們將圖像生成過程分解為多個(gè)步驟,每一步都需要計(jì)算概率、估算獎(jiǎng)勵(lì),就像是在解一道有幾百個(gè)未知數(shù)的復(fù)雜方程。這不僅計(jì)算量巨大,還容易出現(xiàn)累積誤差。
DiffusionNFT提出的解決方案則完全不同。它不再關(guān)注復(fù)雜的生成過程,而是專注于最終結(jié)果的對比。就像是教學(xué)生繪畫時(shí),不再逐筆指導(dǎo),而是展示好作品和差作品,讓學(xué)生通過對比來理解什么是好的藝術(shù)風(fēng)格。這種方法的核心思想是"負(fù)感知學(xué)習(xí)",即同時(shí)從正面和負(fù)面的例子中學(xué)習(xí)。
具體來說,研究團(tuán)隊(duì)將生成的圖像分為兩類:高質(zhì)量的"正面樣本"和低質(zhì)量的"負(fù)面樣本"。然后,他們訓(xùn)練AI模型朝著正面樣本的方向優(yōu)化,同時(shí)遠(yuǎn)離負(fù)面樣本的特征。這種對比學(xué)習(xí)的方式讓AI能夠更清晰地理解什么是好的圖像,什么是需要避免的問題。
這種方法的優(yōu)勢在于它的簡潔性和有效性。傳統(tǒng)方法需要存儲整個(gè)生成過程的軌跡數(shù)據(jù),就像是記錄一個(gè)畫家從空白畫布到完成作品的每一筆。而DiffusionNFT只需要保存最終的圖像結(jié)果,大大減少了存儲和計(jì)算需求。
二、技術(shù)創(chuàng)新:從反向工程到正向優(yōu)化
要理解DiffusionNFT的技術(shù)創(chuàng)新,我們可以用修復(fù)古董的比喻來說明。傳統(tǒng)的擴(kuò)散模型訓(xùn)練就像是學(xué)習(xí)如何將一件破損的古董逐步修復(fù)到完美狀態(tài)。這個(gè)過程需要掌握每一個(gè)修復(fù)步驟的技巧,從清理污垢到填補(bǔ)裂縫,再到最終的拋光。每一步都需要精確的判斷和操作。
而DiffusionNFT采用的是完全相反的思路。它不是學(xué)習(xí)如何修復(fù)破損的古董,而是學(xué)習(xí)如何從完美的古董開始,理解它是如何"變舊"的過程。通過掌握這個(gè)"老化"過程,AI反而能更好地理解什么樣的狀態(tài)是理想的。
在技術(shù)層面,這種方法被稱為"正向過程強(qiáng)化學(xué)習(xí)"。傳統(tǒng)方法關(guān)注的是從噪聲圖像逐步去除噪聲得到清晰圖像的過程,而DiffusionNFT關(guān)注的是從清晰圖像逐步添加噪聲的過程。這個(gè)看似簡單的轉(zhuǎn)換帶來了多個(gè)重要優(yōu)勢。
首先是"求解器靈活性"。傳統(tǒng)方法就像是只能使用特定品牌的工具來完成工作,而DiffusionNFT可以使用任何"工具"(求解器)來生成圖像。這意味著它可以利用最新、最高效的圖像生成算法,而不受訓(xùn)練方法的限制。
其次是"前向一致性"。傳統(tǒng)方法在訓(xùn)練過程中可能會破壞原有的數(shù)學(xué)結(jié)構(gòu),就像是在修理機(jī)器時(shí)不小心損壞了其他部件。而DiffusionNFT保持了擴(kuò)散模型的基本數(shù)學(xué)原理不變,確保訓(xùn)練后的模型仍然具有良好的理論基礎(chǔ)。
第三是"無需似然估計(jì)"。傳統(tǒng)方法需要計(jì)算復(fù)雜的概率值,就像是需要精確計(jì)算每種食材在菜品中的比例。而DiffusionNFT完全繞過了這個(gè)計(jì)算難題,直接通過結(jié)果對比來進(jìn)行學(xué)習(xí)。
三、實(shí)驗(yàn)驗(yàn)證:顯著的性能提升
研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)測試中驗(yàn)證了DiffusionNFT的效果,結(jié)果令人印象深刻。他們使用了SD3.5-Medium模型作為基礎(chǔ),這是一個(gè)擁有25億參數(shù)的大型圖像生成模型。
在GenEval測試中,這是一個(gè)專門評估AI能否根據(jù)復(fù)雜描述生成準(zhǔn)確圖像的標(biāo)準(zhǔn)。傳統(tǒng)的FlowGRPO方法需要超過5000個(gè)訓(xùn)練步驟才能達(dá)到0.95分(滿分1.0),而DiffusionNFT僅用1000個(gè)步驟就達(dá)到了0.98分。這相當(dāng)于在同樣的時(shí)間內(nèi),DiffusionNFT的學(xué)習(xí)效率比傳統(tǒng)方法高出25倍。
更令人驚訝的是,DiffusionNFT在訓(xùn)練過程中完全不使用分類器自由引導(dǎo)(CFG)技術(shù)。CFG就像是給AI配備了一個(gè)"質(zhì)量檢查員",在生成圖像時(shí)進(jìn)行實(shí)時(shí)指導(dǎo)。傳統(tǒng)方法嚴(yán)重依賴這個(gè)"檢查員"來保證圖像質(zhì)量,但DiffusionNFT證明了通過更好的訓(xùn)練方法,AI可以內(nèi)化這種質(zhì)量控制能力,不再需要外部指導(dǎo)。
在文字渲染任務(wù)(OCR)中,DiffusionNFT展現(xiàn)出了24倍的效率提升。這個(gè)任務(wù)要求AI生成包含清晰可讀文字的圖像,這對傳統(tǒng)方法來說是一個(gè)巨大挑戰(zhàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),DiffusionNFT不僅學(xué)習(xí)速度更快,生成的文字也更加清晰準(zhǔn)確。
在圖像質(zhì)量評估(PickScore)和人類偏好匹配(HPSv2.1)等多個(gè)維度的測試中,DiffusionNFT都表現(xiàn)出了3到8倍的效率優(yōu)勢。這些測試涵蓋了圖像的美學(xué)質(zhì)量、與文字描述的匹配度、以及是否符合人類審美偏好等多個(gè)方面。
四、多獎(jiǎng)勵(lì)聯(lián)合訓(xùn)練:全面提升圖像生成能力
DiffusionNFT的另一個(gè)重要?jiǎng)?chuàng)新是能夠同時(shí)優(yōu)化多個(gè)不同的目標(biāo)。這就像是訓(xùn)練一個(gè)全能運(yùn)動(dòng)員,不僅要跑得快,還要跳得高,同時(shí)保持良好的體態(tài)。傳統(tǒng)方法通常只能專注于單一目標(biāo)的優(yōu)化,而DiffusionNFT可以同時(shí)處理多個(gè)評價(jià)標(biāo)準(zhǔn)。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)多階段的訓(xùn)練方案。首先,他們使用Pick-a-Pic數(shù)據(jù)集訓(xùn)練模型的基礎(chǔ)圖像質(zhì)量,這個(gè)階段主要關(guān)注圖像的整體美感和技術(shù)質(zhì)量。接著,他們加入了GenEval數(shù)據(jù)集,訓(xùn)練模型理解復(fù)雜的文字描述并生成相應(yīng)圖像的能力。最后,他們使用OCR數(shù)據(jù)集訓(xùn)練模型生成包含清晰文字的圖像。
這種分階段訓(xùn)練就像是學(xué)習(xí)一門復(fù)雜技能的過程。首先掌握基礎(chǔ)技巧,然后學(xué)習(xí)應(yīng)用這些技巧解決具體問題,最后訓(xùn)練處理特殊情況的能力。每個(gè)階段都建立在前一階段的基礎(chǔ)上,形成了一個(gè)完整的能力體系。
令人驚訝的是,經(jīng)過這種多目標(biāo)訓(xùn)練的模型不僅在訓(xùn)練目標(biāo)上表現(xiàn)優(yōu)秀,在其他未見過的評估標(biāo)準(zhǔn)上也展現(xiàn)出了卓越性能。例如,雖然模型沒有專門針對美學(xué)評分進(jìn)行訓(xùn)練,但它在Aesthetic評估中的得分從原來的5.13提升到了6.01。這說明DiffusionNFT學(xué)到的不僅僅是特定任務(wù)的技巧,而是對圖像質(zhì)量的深層理解。
在ImageReward和UnifiedReward等綜合評估中,DiffusionNFT訓(xùn)練的模型甚至超越了更大規(guī)模的模型,如SD3.5-Large(80億參數(shù))和FLUX.1-Dev(120億參數(shù))。這證明了優(yōu)秀的訓(xùn)練方法比單純增加模型規(guī)模更為重要。
五、技術(shù)細(xì)節(jié):巧妙的設(shè)計(jì)選擇
DiffusionNFT的成功不僅來自于核心思想的創(chuàng)新,還體現(xiàn)在許多巧妙的技術(shù)細(xì)節(jié)上。這些細(xì)節(jié)就像是烹飪中的調(diào)味技巧,看似微小但對最終效果至關(guān)重要。
在獎(jiǎng)勵(lì)信號的處理上,研究團(tuán)隊(duì)采用了一種"軟更新"策略。傳統(tǒng)方法就像是嚴(yán)格的老師,每次都要求學(xué)生完全按照最新的標(biāo)準(zhǔn)來學(xué)習(xí)。而DiffusionNFT更像是耐心的導(dǎo)師,允許學(xué)生逐步適應(yīng)新的要求。具體來說,它不會在每次訓(xùn)練后完全替換舊的策略,而是將新舊策略進(jìn)行加權(quán)平均,讓模型有一個(gè)平滑的學(xué)習(xí)過程。
這種軟更新的好處在于避免了訓(xùn)練過程中的劇烈波動(dòng)。就像是調(diào)節(jié)音響的音量,如果突然從最小調(diào)到最大,會產(chǎn)生刺耳的噪音。而逐步調(diào)節(jié)則能獲得平滑悅耳的效果。研究團(tuán)隊(duì)發(fā)現(xiàn),完全的"硬更新"雖然在初期學(xué)習(xí)速度較快,但容易導(dǎo)致訓(xùn)練不穩(wěn)定甚至崩潰。而過于保守的更新策略則會讓學(xué)習(xí)過程變得異常緩慢。
在時(shí)間權(quán)重的處理上,DiffusionNFT采用了自適應(yīng)加權(quán)方案。傳統(tǒng)方法使用固定的權(quán)重分配,就像是用同樣的力度處理所有工作。而DiffusionNFT會根據(jù)實(shí)際情況動(dòng)態(tài)調(diào)整權(quán)重,在需要精細(xì)處理的地方投入更多注意力,在相對簡單的地方減少計(jì)算資源。
研究團(tuán)隊(duì)還發(fā)現(xiàn),負(fù)面樣本的學(xué)習(xí)對于DiffusionNFT的成功至關(guān)重要。如果只使用正面樣本進(jìn)行訓(xùn)練,就像是只告訴學(xué)生什么是對的,但不告訴他們什么是錯(cuò)的。這種單向?qū)W習(xí)很容易導(dǎo)致模型過度擬合,在面對新情況時(shí)表現(xiàn)不佳。而同時(shí)使用正面和負(fù)面樣本,讓模型能夠建立更完整的判斷標(biāo)準(zhǔn)。
六、實(shí)際應(yīng)用與影響
DiffusionNFT的成功不僅僅是學(xué)術(shù)研究的突破,更重要的是它為實(shí)際應(yīng)用帶來的巨大潛力。這種高效的訓(xùn)練方法意味著更多的組織和個(gè)人能夠負(fù)擔(dān)得起高質(zhì)量AI圖像生成模型的訓(xùn)練和部署。
在內(nèi)容創(chuàng)作領(lǐng)域,DiffusionNFT可以幫助設(shè)計(jì)師、藝術(shù)家和營銷人員更快速地生成符合特定要求的圖像。傳統(tǒng)方法需要大量的計(jì)算資源和時(shí)間來訓(xùn)練一個(gè)專門的模型,而DiffusionNFT可以在相對較短的時(shí)間內(nèi)完成這個(gè)過程。這就像是從手工制作轉(zhuǎn)向了自動(dòng)化生產(chǎn),大大提高了創(chuàng)作效率。
在教育和科研領(lǐng)域,DiffusionNFT的高效性使得更多研究機(jī)構(gòu)能夠進(jìn)行相關(guān)實(shí)驗(yàn)和研究。以前只有擁有大量計(jì)算資源的大型科技公司才能負(fù)擔(dān)得起的研究,現(xiàn)在中小型研究團(tuán)隊(duì)也可以參與其中。這種技術(shù)的民主化將促進(jìn)整個(gè)領(lǐng)域的快速發(fā)展。
對于商業(yè)應(yīng)用來說,DiffusionNFT的CFG-free特性特別有價(jià)值。傳統(tǒng)的圖像生成模型在部署時(shí)需要運(yùn)行兩個(gè)并行的模型來實(shí)現(xiàn)分類器自由引導(dǎo),這不僅增加了計(jì)算成本,還復(fù)雜化了部署過程。而DiffusionNFT訓(xùn)練出的模型可以獨(dú)立運(yùn)行,大大簡化了部署流程,降低了運(yùn)營成本。
在個(gè)性化內(nèi)容生成方面,DiffusionNFT的多獎(jiǎng)勵(lì)聯(lián)合訓(xùn)練能力使得單個(gè)模型可以同時(shí)滿足多種不同的需求。這就像是培養(yǎng)了一個(gè)多才多藝的助手,既能處理文字渲染任務(wù),又能生成高質(zhì)量的藝術(shù)作品,還能理解復(fù)雜的場景描述。
七、局限性與未來發(fā)展
盡管DiffusionNFT展現(xiàn)出了顯著的優(yōu)勢,但研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的一些局限性。這種科學(xué)的態(tài)度體現(xiàn)了嚴(yán)謹(jǐn)?shù)难芯烤瘛?/p>
首先,DiffusionNFT對負(fù)面樣本的依賴性較強(qiáng)。如果訓(xùn)練數(shù)據(jù)中缺乏足夠的負(fù)面樣本,或者負(fù)面樣本的質(zhì)量不夠代表性,模型的學(xué)習(xí)效果可能會受到影響。這就像是學(xué)習(xí)辨別真假古董,如果只見過粗制濫造的假貨,可能無法識別高仿品。
其次,雖然DiffusionNFT在多個(gè)標(biāo)準(zhǔn)測試中表現(xiàn)優(yōu)異,但這些測試主要集中在英文內(nèi)容和西方文化背景的圖像上。對于其他語言和文化背景的適應(yīng)性還需要進(jìn)一步驗(yàn)證。這反映了當(dāng)前AI研究中普遍存在的文化多樣性挑戰(zhàn)。
在計(jì)算資源方面,雖然DiffusionNFT比傳統(tǒng)方法更高效,但對于個(gè)人用戶來說,訓(xùn)練一個(gè)高質(zhì)量的圖像生成模型仍然需要相當(dāng)?shù)挠?jì)算能力。這種門檻限制了技術(shù)的普及程度。
研究團(tuán)隊(duì)提出了幾個(gè)有前景的未來發(fā)展方向。首先是探索更加智能的負(fù)面樣本生成策略,讓AI能夠自動(dòng)識別和生成有價(jià)值的負(fù)面訓(xùn)練樣本。其次是研究如何將DiffusionNFT的思想應(yīng)用到其他類型的生成模型中,如視頻生成、音頻生成等。
另一個(gè)重要方向是提高訓(xùn)練的穩(wěn)定性和魯棒性。雖然當(dāng)前的軟更新策略已經(jīng)大大改善了訓(xùn)練穩(wěn)定性,但在面對極端情況或者特殊數(shù)據(jù)分布時(shí),仍然可能出現(xiàn)不穩(wěn)定現(xiàn)象。
八、對AI發(fā)展的深遠(yuǎn)意義
DiffusionNFT的成功不僅僅是圖像生成領(lǐng)域的進(jìn)步,它代表了AI訓(xùn)練方法論的一個(gè)重要轉(zhuǎn)變。這種從復(fù)雜到簡單、從間接到直接的思路轉(zhuǎn)換,為其他AI領(lǐng)域的發(fā)展提供了有價(jià)值的啟示。
在強(qiáng)化學(xué)習(xí)領(lǐng)域,DiffusionNFT展示了如何將傳統(tǒng)的策略梯度方法轉(zhuǎn)換為更簡單的監(jiān)督學(xué)習(xí)問題。這種轉(zhuǎn)換不僅提高了效率,還增強(qiáng)了訓(xùn)練的穩(wěn)定性。類似的思路可能在自然語言處理、機(jī)器人控制等其他領(lǐng)域也有應(yīng)用潛力。
從更宏觀的角度來看,DiffusionNFT體現(xiàn)了AI研究中"少即是多"的哲學(xué)。通過簡化訓(xùn)練過程、減少依賴關(guān)系,反而獲得了更好的性能。這提醒我們,在追求復(fù)雜性和先進(jìn)性的同時(shí),不應(yīng)忽視簡潔性和實(shí)用性的價(jià)值。
這項(xiàng)研究也突出了跨機(jī)構(gòu)合作的重要性。清華大學(xué)的理論基礎(chǔ)、英偉達(dá)的工程實(shí)踐經(jīng)驗(yàn)、斯坦福大學(xué)的創(chuàng)新思維,三者的結(jié)合產(chǎn)生了超越單一機(jī)構(gòu)能力的研究成果。這種合作模式可能成為未來AI研究的重要趨勢。
對于整個(gè)AI行業(yè)來說,DiffusionNFT的成功意味著高質(zhì)量圖像生成技術(shù)的門檻將進(jìn)一步降低。這不僅會促進(jìn)相關(guān)應(yīng)用的普及,還可能催生新的商業(yè)模式和創(chuàng)新應(yīng)用。從長遠(yuǎn)來看,這種技術(shù)進(jìn)步將推動(dòng)整個(gè)數(shù)字內(nèi)容創(chuàng)作行業(yè)的變革。
說到底,DiffusionNFT的真正價(jià)值不僅在于它解決了一個(gè)技術(shù)問題,更在于它展示了一種新的思考方式。當(dāng)面對復(fù)雜問題時(shí),有時(shí)候最好的解決方案不是增加更多的復(fù)雜性,而是找到問題的本質(zhì),用更簡單直接的方法來解決。這種思維方式的轉(zhuǎn)變,可能會在未來的AI研究中發(fā)揮更大的作用。
研究團(tuán)隊(duì)的工作證明了,在AI快速發(fā)展的今天,創(chuàng)新不僅來自于更大的模型、更多的數(shù)據(jù),也來自于更聰明的方法和更深刻的洞察。DiffusionNFT為我們展示了一條通往更高效、更實(shí)用AI系統(tǒng)的道路,這條道路值得更多研究者去探索和發(fā)展。
Q&A
Q1:DiffusionNFT相比傳統(tǒng)方法有什么優(yōu)勢?
A:DiffusionNFT最大的優(yōu)勢是效率提升,比傳統(tǒng)的FlowGRPO方法快25倍。它不需要復(fù)雜的概率計(jì)算,可以使用任何圖像生成器,而且不依賴分類器自由引導(dǎo)技術(shù),訓(xùn)練過程更簡單穩(wěn)定。同時(shí)它能同時(shí)優(yōu)化多個(gè)目標(biāo),讓一個(gè)模型具備多種能力。
Q2:為什么DiffusionNFT要從正向過程而不是反向過程進(jìn)行訓(xùn)練?
A:傳統(tǒng)方法關(guān)注從噪聲圖像去除噪聲的反向過程,就像學(xué)習(xí)如何修復(fù)破損古董的每一步。而DiffusionNFT關(guān)注從清晰圖像添加噪聲的正向過程,就像理解古董是如何變舊的。這種轉(zhuǎn)換讓訓(xùn)練變得更簡單,不需要存儲復(fù)雜的生成軌跡,只需要對比最終結(jié)果的好壞。
Q3:普通用戶能使用DiffusionNFT技術(shù)嗎?
A:目前DiffusionNFT主要是研究階段的技術(shù)突破,普通用戶還無法直接使用。但這項(xiàng)技術(shù)的高效性意味著未來會有更多公司能夠負(fù)擔(dān)得起部署高質(zhì)量圖像生成服務(wù),最終會讓普通用戶受益,獲得更快速、更高質(zhì)量的AI圖像生成體驗(yàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。