這項(xiàng)由北京交通大學(xué)的王繼遠(yuǎn)、林春雨教授與阿里巴巴AMAP地圖團(tuán)隊(duì)的孫磊等研究人員合作完成的創(chuàng)新研究于2025年9月發(fā)表,論文名為"From Editor to Dense Geometry Estimator"。研究團(tuán)隊(duì)還包括來自重慶郵電大學(xué)和南洋理工大學(xué)的合作者。有興趣深入了解這項(xiàng)工作的讀者可以通過arXiv:2509.04338v1獲取完整論文。
想象你正在用手機(jī)拍照,拍下一張普通的風(fēng)景照片。如果告訴你,僅憑這一張照片,計(jì)算機(jī)就能精確判斷出照片中每個物體離你有多遠(yuǎn),每個表面的角度和方向如何,你是否會感到驚訝?這正是"單目幾何估計(jì)"這個聽起來很專業(yè)的技術(shù)所要解決的問題。簡單來說,就是讓計(jì)算機(jī)像人眼一樣,從一張平面照片中"看出"立體的深度信息。
在我們的日常生活中,這項(xiàng)技術(shù)的應(yīng)用其實(shí)隨處可見。當(dāng)你使用手機(jī)的人像模式拍照時,手機(jī)需要知道哪些部分是背景、哪些是人物,這樣才能產(chǎn)生漂亮的虛化效果。自動駕駛汽車需要準(zhǔn)確判斷前方障礙物的距離,才能安全行駛。增強(qiáng)現(xiàn)實(shí)游戲需要了解現(xiàn)實(shí)環(huán)境的幾何結(jié)構(gòu),才能讓虛擬物體看起來真實(shí)地"放置"在現(xiàn)實(shí)世界中。
傳統(tǒng)的解決方案通常分為兩個流派:一種是用海量數(shù)據(jù)訓(xùn)練的"數(shù)據(jù)派",就像一個見多識廣的老師傅,通過看過無數(shù)案例來判斷;另一種是"生成派",它們借用那些能畫圖的人工智能模型的能力,就像請一個藝術(shù)家來幫忙分析畫面。然而,這兩種方法都有各自的問題:數(shù)據(jù)派需要消耗巨大的計(jì)算資源和訓(xùn)練數(shù)據(jù),而生成派雖然數(shù)據(jù)需求較小,但往往不夠精確。
研究團(tuán)隊(duì)提出了一個頗具創(chuàng)新性的想法:既然深度估計(jì)本質(zhì)上是一個"圖像到圖像"的轉(zhuǎn)換任務(wù)——輸入一張彩色照片,輸出一張深度圖——那為什么不直接使用那些專門做圖像編輯的模型呢?這就好比,與其訓(xùn)練一個全新的翻譯官,不如直接找一個已經(jīng)很擅長語言轉(zhuǎn)換的編輯來做這件事。
基于這個靈感,他們開發(fā)了名為FE2E的框架。這個名字的含義是"From Editor to Estimator",即"從編輯器到估計(jì)器"。這個系統(tǒng)建立在當(dāng)前最先進(jìn)的圖像編輯模型Step1X-Edit的基礎(chǔ)上,就像是給一個已經(jīng)很聰明的圖像編輯助手安排了一個新的工作任務(wù)。
一、為什么圖像編輯模型更適合做幾何估計(jì)
要理解這項(xiàng)研究的核心創(chuàng)新,我們需要先了解圖像編輯模型與傳統(tǒng)生成模型的根本差異??梢杂脧N師的比喻來說明這個問題:傳統(tǒng)的圖像生成模型就像一個只會憑空創(chuàng)造菜譜的廚師,給他一份文字描述,他能從無到有地做出一道菜。而圖像編輯模型則像一個改良菜譜的專家廚師,他需要先看到一道現(xiàn)有的菜,然后根據(jù)要求對這道菜進(jìn)行精確的調(diào)整和改造。
研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)細(xì)致的對比實(shí)驗(yàn),就像兩個廚師同時學(xué)習(xí)制作同一道新菜。他們選擇了Step1X-Edit作為編輯模型的代表,選擇了FLUX作為生成模型的代表。這兩個模型在架構(gòu)上非常相似,就像兩個有著相同基礎(chǔ)技能的廚師,這樣比較起來更加公平。
實(shí)驗(yàn)結(jié)果顯示出編輯模型的三個顯著優(yōu)勢。首先是起點(diǎn)優(yōu)勢:從訓(xùn)練的第一天開始,編輯模型就表現(xiàn)得更好。這就像一個有經(jīng)驗(yàn)的改良菜譜專家,即使面對全新的菜系,也能憑借對食材和烹飪技法的深刻理解,很快上手。研究團(tuán)隊(duì)發(fā)現(xiàn),在訓(xùn)練初期,編輯模型的內(nèi)部特征就已經(jīng)與輸入圖像的幾何結(jié)構(gòu)高度對齊,而生成模型的特征則顯得雜亂無序。
其次是學(xué)習(xí)穩(wěn)定性:編輯模型的訓(xùn)練過程更加穩(wěn)定。在訓(xùn)練過程中,生成模型的性能經(jīng)常出現(xiàn)波動,就像一個學(xué)徒廚師時好時壞的表現(xiàn)。而編輯模型則展現(xiàn)出穩(wěn)定的改進(jìn)趨勢。這種穩(wěn)定性源于編輯模型的學(xué)習(xí)方式——它更像是在"精調(diào)"已有的技能,而生成模型則需要從頭重塑自己的能力結(jié)構(gòu)。
最關(guān)鍵的是性能上限:即使經(jīng)過長期訓(xùn)練,生成模型也始終無法達(dá)到編輯模型的性能水平。這就像兩個廚師學(xué)習(xí)同樣長的時間后,有改良經(jīng)驗(yàn)的廚師總是能做出更精確、更符合要求的菜品。研究數(shù)據(jù)顯示,編輯模型的訓(xùn)練損失最終能降低到0.073,而生成模型則卡在0.08左右,無法繼續(xù)改進(jìn)。
研究團(tuán)隊(duì)通過可視化分析進(jìn)一步揭示了這種差異的根本原因。他們發(fā)現(xiàn),編輯模型的特征演化過程更像是"聚焦和細(xì)化"——原本就比較清晰的特征變得更加精確和任務(wù)導(dǎo)向。而生成模型則經(jīng)歷了"重塑和再造"的過程——需要完全改變原有的混亂特征結(jié)構(gòu),這個過程不僅困難,而且容易不穩(wěn)定。
二、解決編輯模型適配中的技術(shù)挑戰(zhàn)
雖然編輯模型展現(xiàn)出了明顯優(yōu)勢,但要讓它們勝任幾何估計(jì)任務(wù),還需要解決幾個關(guān)鍵的技術(shù)挑戰(zhàn)。這就像要讓一個擅長改良西餐的廚師去做中餐,雖然基礎(chǔ)技能相通,但還需要一些專門的適配和調(diào)整。
第一個挑戰(zhàn)是訓(xùn)練目標(biāo)的重新設(shè)計(jì)。原本的圖像編輯任務(wù)具有一定的靈活性——同一個編輯指令可能對應(yīng)多種合理的結(jié)果,就像"把這道菜做得更香"可能有很多不同的實(shí)現(xiàn)方式。但幾何估計(jì)任務(wù)要求絕對的精確性——每個像素點(diǎn)的深度值應(yīng)該有且只有一個正確答案。
傳統(tǒng)的Flow Matching訓(xùn)練方法會讓模型學(xué)習(xí)一種"瞬時速度",這種方法在推理時需要多步積分計(jì)算,每一步都可能引入誤差。研究團(tuán)隊(duì)將這個過程比作開車導(dǎo)航:傳統(tǒng)方法像是每隔幾米就重新規(guī)劃路線,而他們的新方法則是一開始就確定一條直線路徑,然后嚴(yán)格按照這條路徑行駛。
具體來說,他們提出了"一致速度"的概念。與其讓模型在不同時刻學(xué)習(xí)不同的變化方向,不如讓它學(xué)習(xí)一個固定的、從起點(diǎn)到終點(diǎn)的直接映射。這樣做的好處是消除了多步推理過程中的累積誤差,同時大大提高了推理速度。原本需要多次計(jì)算的過程現(xiàn)在只需要一步就能完成。
第二個挑戰(zhàn)是數(shù)值精度問題。現(xiàn)代的圖像編輯模型通常使用BFloat16精度進(jìn)行訓(xùn)練,這對于生成RGB圖像來說完全足夠——畢竟人眼也看不出那么細(xì)微的顏色差異。但幾何估計(jì)任務(wù)對數(shù)值精度的要求要高得多,特別是在處理距離信息時。
研究團(tuán)隊(duì)發(fā)現(xiàn),如果直接使用傳統(tǒng)的線性量化方法,在處理Virtual KITTI數(shù)據(jù)集時會出現(xiàn)嚴(yán)重問題。這個數(shù)據(jù)集包含0到80米的深度范圍,如果簡單地將這個范圍線性映射到模型要求的[-1,1]區(qū)間,會導(dǎo)致在近距離處出現(xiàn)巨大誤差。比如,0.1米和0.26米的距離在模型看來可能是相同的,這顯然無法接受。
為了解決這個問題,他們采用了對數(shù)量化策略。這種方法的巧妙之處在于,它確保了相對誤差在整個距離范圍內(nèi)保持基本恒定。就像相機(jī)的光圈設(shè)計(jì)一樣,每一檔光圈的變化都代表相同比例的光量變化,而不是相同的絕對光量變化。通過對數(shù)量化,無論是近處的小物體還是遠(yuǎn)處的建筑,模型都能保持相似的相對精度。
第三個挑戰(zhàn)是如何充分利用模型的計(jì)算能力。研究團(tuán)隊(duì)注意到,基于Transformer架構(gòu)的編輯模型具有全局注意力機(jī)制,這意味著模型在處理圖像時能夠同時關(guān)注所有區(qū)域的信息。這種特性為同時預(yù)測多種幾何屬性提供了可能性。
他們設(shè)計(jì)了一種巧妙的"免費(fèi)聯(lián)合估計(jì)"方案。原本的編輯模型在處理輸入時會將條件圖像和噪聲圖像水平拼接,處理后再分離輸出。研究團(tuán)隊(duì)保留了這種設(shè)計(jì),但將原本被丟棄的一部分輸出重新利用起來,用于預(yù)測表面法向量。這樣,一次前向傳播就能同時得到深度信息和表面法向量,而且這兩種信息可以相互增強(qiáng)和驗(yàn)證。
這種設(shè)計(jì)的美妙之處在于,深度和法向量本身就是相互關(guān)聯(lián)的幾何屬性。深度描述了表面在空間中的位置,而法向量描述了表面的方向。當(dāng)模型同時學(xué)習(xí)這兩種屬性時,它對場景幾何結(jié)構(gòu)的理解變得更加完整和準(zhǔn)確。
三、實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)
為了驗(yàn)證FE2E框架的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn)。他們的訓(xùn)練數(shù)據(jù)相對有限,只使用了約71,000張圖像,這相比于那些使用數(shù)千萬張圖像的數(shù)據(jù)驅(qū)動方法來說,簡直是九牛一毛。訓(xùn)練數(shù)據(jù)主要來自兩個合成數(shù)據(jù)集:Hypersim(一個逼真的室內(nèi)場景數(shù)據(jù)集)和Virtual KITTI(一個模擬街景數(shù)據(jù)集)。
在深度估計(jì)任務(wù)上,F(xiàn)E2E展現(xiàn)出了令人印象深刻的性能。在最具挑戰(zhàn)性的ETH3D數(shù)據(jù)集上,F(xiàn)E2E將絕對相對誤差(AbsRel)降低到3.8,相比第二名的方法提升了35%。這個提升幅度在學(xué)術(shù)界是相當(dāng)顯著的,特別是在一個已經(jīng)相對成熟的研究領(lǐng)域。
更令人驚喜的是,F(xiàn)E2E在KITTI數(shù)據(jù)集上也表現(xiàn)出色,AbsRel達(dá)到6.6,比之前最好的結(jié)果提升了約10%。KITTI數(shù)據(jù)集以其復(fù)雜的戶外駕駛場景而著名,包含各種光照條件、天氣狀況和動態(tài)對象,是自動駕駛領(lǐng)域的重要基準(zhǔn)。
在表面法向量估計(jì)任務(wù)上,F(xiàn)E2E同樣表現(xiàn)優(yōu)異。在NYUv2室內(nèi)數(shù)據(jù)集上,它的平均角度誤差降低到16.2度,在更具挑戰(zhàn)性的ScanNet數(shù)據(jù)集上達(dá)到13.8度。這些數(shù)字看似抽象,但換算成實(shí)際應(yīng)用場景就很直觀了:法向量的精度直接影響3D重建的質(zhì)量和增強(qiáng)現(xiàn)實(shí)應(yīng)用的真實(shí)感。
特別值得注意的是FE2E與數(shù)據(jù)驅(qū)動方法的對比。著名的Depth Anything系列模型使用了超過6260萬張訓(xùn)練圖像,是FE2E訓(xùn)練數(shù)據(jù)量的約880倍。但FE2E依然在平均排名上超越了這些"數(shù)據(jù)巨獸"。這個結(jié)果清楚地表明,選擇合適的基礎(chǔ)模型和訓(xùn)練策略,往往比單純增加數(shù)據(jù)量更加有效。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融研究,就像拆解一個復(fù)雜機(jī)器來了解每個零件的作用。他們發(fā)現(xiàn),每個技術(shù)組件都對最終性能有重要貢獻(xiàn)。編輯模型相比生成模型的優(yōu)勢是基礎(chǔ)性的,一致速度訓(xùn)練目標(biāo)帶來了約7-10%的性能提升,對數(shù)量化策略解決了數(shù)值精度問題,而聯(lián)合訓(xùn)練則進(jìn)一步優(yōu)化了結(jié)果質(zhì)量。
在定性比較中,F(xiàn)E2E展現(xiàn)出的優(yōu)勢更加明顯。與其他方法相比,F(xiàn)E2E在處理復(fù)雜光照條件時表現(xiàn)更加穩(wěn)定。比如在極亮或極暗的環(huán)境中,其他方法往往會產(chǎn)生模糊或不準(zhǔn)確的深度估計(jì),而FE2E能夠保持清晰的邊界和準(zhǔn)確的距離判斷。在處理遠(yuǎn)距離細(xì)節(jié)時,F(xiàn)E2E也表現(xiàn)出更好的保真度,這對于實(shí)際應(yīng)用來說非常重要。
四、技術(shù)創(chuàng)新的深層意義
FE2E的成功不僅僅是一個新算法的勝利,更代表了計(jì)算機(jī)視覺領(lǐng)域一種新思維方式的確立。傳統(tǒng)上,研究者們傾向于為每個特定任務(wù)設(shè)計(jì)專門的模型,或者通過增加訓(xùn)練數(shù)據(jù)來提升性能。FE2E的成功表明,仔細(xì)分析任務(wù)特性并選擇合適的基礎(chǔ)模型,可能比這些傳統(tǒng)方法更加有效。
從技術(shù)哲學(xué)的角度來看,F(xiàn)E2E體現(xiàn)了"巧用現(xiàn)有工具"勝過"重新發(fā)明輪子"的智慧。圖像編輯模型經(jīng)過大規(guī)模訓(xùn)練,已經(jīng)學(xué)會了理解圖像的空間結(jié)構(gòu)和幾何關(guān)系。與其從零開始訓(xùn)練一個新的深度估計(jì)模型,不如充分利用這些已經(jīng)存在的能力,通過適當(dāng)?shù)倪m配來完成新任務(wù)。
這種思路對于資源有限的研究團(tuán)隊(duì)具有特別重要的意義。訓(xùn)練一個大型深度估計(jì)模型需要大量的計(jì)算資源和時間,而使用FE2E這樣的方法,相對較小的研究團(tuán)隊(duì)也能獲得世界級的性能。這有助于推動整個領(lǐng)域的民主化發(fā)展,讓更多研究者能夠參與到前沿研究中來。
從實(shí)用角度來看,F(xiàn)E2E的高效性也意味著更廣泛的應(yīng)用前景。傳統(tǒng)的大規(guī)模模型雖然性能優(yōu)異,但部署成本高昂,限制了它們的實(shí)際應(yīng)用。FE2E相對較小的計(jì)算需求使其更適合在移動設(shè)備或邊緣設(shè)備上運(yùn)行,這為增強(qiáng)現(xiàn)實(shí)、智能手機(jī)攝影、無人機(jī)導(dǎo)航等應(yīng)用提供了新的可能性。
聯(lián)合訓(xùn)練策略的成功也啟發(fā)了對多任務(wù)學(xué)習(xí)的新思考。深度和法向量雖然都是幾何屬性,但傳統(tǒng)上往往被分別處理。FE2E證明了在合適的架構(gòu)下,相關(guān)任務(wù)可以相互促進(jìn),達(dá)到"1+1>2"的效果。這個思路可能啟發(fā)研究者在其他領(lǐng)域?qū)ふ翌愃频膮f(xié)同機(jī)會。
五、面臨的挑戰(zhàn)與未來發(fā)展
盡管FE2E展現(xiàn)出了優(yōu)異的性能,但研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的一些局限性。最主要的限制是計(jì)算復(fù)雜度相對較高。雖然相比訓(xùn)練一個全新的大型模型來說,F(xiàn)E2E已經(jīng)相當(dāng)高效,但與一些輕量級的專用模型相比,它仍然需要更多的計(jì)算資源。
在實(shí)際測試中,F(xiàn)E2E的推理時間為1.78秒,相比最快的方法Lotus-D的212毫秒,還有顯著差距。這種速度差異在某些實(shí)時應(yīng)用中可能成為瓶頸,比如自動駕駛或?qū)崟r增強(qiáng)現(xiàn)實(shí)等對響應(yīng)速度要求極高的場景。
另一個挑戰(zhàn)是基礎(chǔ)模型的依賴性。FE2E的成功很大程度上依賴于Step1X-Edit這個高質(zhì)量的基礎(chǔ)編輯模型。隨著圖像編輯技術(shù)的快速發(fā)展,新的編輯模型不斷涌現(xiàn),如何將FE2E的核心思想遷移到其他編輯模型上,是一個需要進(jìn)一步探索的問題。
訓(xùn)練數(shù)據(jù)的規(guī)模雖然相對較小,但研究團(tuán)隊(duì)也認(rèn)識到,在某些對精度要求極高的應(yīng)用場景中,適當(dāng)增加訓(xùn)練數(shù)據(jù)仍然可能帶來進(jìn)一步的性能提升。如何在保持?jǐn)?shù)據(jù)效率的同時進(jìn)一步提升性能,是一個值得探索的方向。
展望未來,研究團(tuán)隊(duì)提出了幾個有前景的發(fā)展方向。首先是模型多樣化,他們計(jì)劃將FE2E的核心思想應(yīng)用到其他類型的編輯模型上,驗(yàn)證這種"從編輯器到估計(jì)器"范式的普適性。其次是任務(wù)擴(kuò)展,除了深度和法向量估計(jì),其他幾何屬性如語義分割、邊緣檢測等也可能受益于類似的方法。
技術(shù)優(yōu)化方面,研究團(tuán)隊(duì)正在探索如何進(jìn)一步提升推理速度,包括模型剪枝、知識蒸餾等技術(shù)。他們還在研究如何更好地利用模型的并行計(jì)算能力,為實(shí)時應(yīng)用鋪平道路。
應(yīng)用拓展方面,F(xiàn)E2E的高精度幾何估計(jì)能力為許多新興應(yīng)用提供了可能。在建筑和工程領(lǐng)域,它可能用于自動化的建筑測量和3D建模。在文物保護(hù)方面,它可以幫助創(chuàng)建精確的數(shù)字化文物模型。在電影制作中,它可能簡化特效制作的前期準(zhǔn)備工作。
說到底,F(xiàn)E2E代表的不僅僅是一個新算法,更是一種新的研究思維方式。它告訴我們,在人工智能快速發(fā)展的今天,有時候最大的創(chuàng)新不是發(fā)明全新的技術(shù),而是以新的角度重新審視和組合現(xiàn)有的工具。通過深入理解不同模型的特性和優(yōu)勢,我們可能發(fā)現(xiàn)意想不到的應(yīng)用潛力,就像FE2E將圖像編輯模型的空間理解能力用于幾何估計(jì)一樣。
這項(xiàng)研究的成功也提醒我們,在追求更大、更復(fù)雜模型的同時,不要忽視智慧地利用現(xiàn)有資源的重要性。有時候,一個巧妙的想法勝過千萬倍的數(shù)據(jù)和算力。對于那些希望在計(jì)算機(jī)視覺領(lǐng)域做出貢獻(xiàn)但資源有限的研究者來說,F(xiàn)E2E提供了一個很好的示例:創(chuàng)新不一定需要無限的資源,而是需要深刻的洞察和巧妙的方法。
隨著技術(shù)的不斷發(fā)展,我們有理由相信,類似FE2E這樣的創(chuàng)新思路將會催生更多令人興奮的應(yīng)用和突破,為人工智能在現(xiàn)實(shí)世界中的廣泛應(yīng)用開辟新的道路。
Q&A
Q1:FE2E是什么?它能做什么?
A:FE2E是由北京交通大學(xué)和阿里巴巴AMAP團(tuán)隊(duì)開發(fā)的新型深度估計(jì)框架,全稱"From Editor to Estimator"。它能僅從一張普通照片就精確判斷出照片中每個物體的距離和表面角度,就像給計(jì)算機(jī)裝上了能"看出"立體深度的眼睛。這種技術(shù)可以用于手機(jī)人像拍照、自動駕駛汽車避障、增強(qiáng)現(xiàn)實(shí)游戲等各種日常應(yīng)用場景。
Q2:FE2E和傳統(tǒng)深度估計(jì)方法有什么不同?
A:最大的不同在于FE2E使用圖像編輯模型作為基礎(chǔ),而不是從零開始訓(xùn)練或使用純生成模型。這就像利用一個已經(jīng)很會改良菜譜的廚師來學(xué)做新菜,比從零開始培養(yǎng)廚師要高效得多。實(shí)驗(yàn)顯示,F(xiàn)E2E在ETH3D數(shù)據(jù)集上的性能提升了35%,而且只需要其他方法1%的訓(xùn)練數(shù)據(jù)。
Q3:普通用戶什么時候能體驗(yàn)到FE2E技術(shù)?
A:雖然FE2E目前還是研究階段的技術(shù),但其背后的深度估計(jì)能力已經(jīng)在很多產(chǎn)品中有所應(yīng)用。預(yù)計(jì)隨著技術(shù)進(jìn)一步優(yōu)化,特別是推理速度的提升,我們可能在未來1-2年內(nèi)在智能手機(jī)的相機(jī)功能、AR濾鏡應(yīng)用、以及各種3D掃描APP中看到類似技術(shù)的普及應(yīng)用。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。