這項由騰訊混元3D團隊主導的研究于2025年9月發(fā)表在arXiv預印本服務器上,論文編號為arXiv:2509.21245v1。研究團隊包括來自騰訊的多位研究人員,他們在原有的Hunyuan3D 2.1基礎上開發(fā)了這一統一的可控3D生成框架。
在數字內容創(chuàng)作的世界里,從一張照片生成3D模型就像是從一張素描中雕刻出完整的雕塑一樣充滿挑戰(zhàn)?,F有的3D生成技術雖然已經相當先進,但往往只能依靠單一的圖片或文字描述來創(chuàng)建3D物體,這就像是讓廚師僅憑一張菜品照片就要復原出完整的菜譜一樣困難。騰訊的研究團隊意識到,如果能同時提供多種"線索"——比如物體的輪廓、體積信息、姿態(tài)結構等,就能大大提高3D生成的準確性和可控性。
這項研究的創(chuàng)新之處在于首次將點云、體素、邊界框和骨架姿態(tài)四種不同的控制信號統一在一個框架中。以往的方法通常只能處理一種控制信號,就像是只會使用一種工具的工匠。而Hunyuan3D-Omni則像是一位多才多藝的藝術家,能夠同時運用多種工具和技巧來創(chuàng)作更精準的3D作品。更重要的是,這個系統能夠智能地處理缺失的信息,即使某些控制信號不完整,也能生成令人滿意的結果。
研究團隊采用了一種漸進式的訓練策略,這種方法就像是教學生解數學題時,先從簡單的題目開始,逐漸增加難度。系統在訓練過程中會優(yōu)先學習較難的控制信號(如骨架姿態(tài)),同時降低對簡單信號(如點云)的依賴權重。這種策略確保了模型能夠robust地融合多種控制信號,并優(yōu)雅地處理信息缺失的情況。
一、統一控制的藝術:四種信號如何協同工作
在傳統的3D生成過程中,系統就像是一位只能看到物體正面照片的雕塑家,需要憑借有限的信息來推測整個物體的形狀。這種單一信息源的局限性經常導致生成的3D模型出現變形、扁平化或細節(jié)缺失等問題。Hunyuan3D-Omni的突破性在于它能夠同時接受和處理四種不同類型的控制信號,就像是為雕塑家提供了物體的正面照、側面圖、體積測量和內部結構圖。
點云信號在這個系統中扮演著"空間向導"的角色。當我們用激光雷達掃描一個物體時,得到的點云就像是在黑暗中用手電筒照射物體表面時看到的光點分布。這些點云數據能夠提供準確的空間結構信息,幫助系統理解物體的真實幾何形狀。研究團隊設計的系統能夠處理各種來源的點云數據,包括完整的點云、從深度圖提取的部分點云,甚至是帶有噪聲的掃描點云。系統會根據點云的完整程度和質量自動調整處理策略,就像是經驗豐富的考古學家能夠從殘缺的文物碎片中推斷出完整器物的樣貌。
體素信號則像是"積木大師"的工具箱。體素可以理解為三維空間中的像素,就像是用樂高積木來構建物體的基本單元。在Hunyuan3D-Omni中,體素信號以16×16×16的分辨率工作,這種精度足以捕捉物體的基本形狀特征。系統首先將物體表面的點云轉換為體素表示,然后通過智能算法將這些體素信息融入到生成過程中。這種轉換過程就像是將復雜的雕塑作品用標準化的積木塊來重新表示,雖然可能損失一些細節(jié),但能夠提供清晰的結構指導。
邊界框信號充當著"比例控制師"的職責。在3D建模中,邊界框就像是包圍物體的一個透明盒子,它定義了物體在三維空間中的長、寬、高比例。這個控制信號特別重要,因為僅憑一張2D圖片很難準確判斷物體的厚度和比例關系。比如,一張卡通角色的側面圖可能看起來很薄,但實際的3D模型應該有合理的厚度。Hunyuan3D-Omni通過將長寬高比例轉換為三維空間中八個頂點的坐標,為系統提供了明確的尺寸指導。這種方法不僅能夠解決薄片化問題,還能支持幾何編輯功能,用戶可以通過調整邊界框來改變生成物體的比例。
骨架姿態(tài)信號則是"動作導演"的專業(yè)工具。在角色建模中,骨架就像是人體內部的支撐結構,它定義了角色的姿態(tài)和動作。研究團隊采用了與PoseMaster類似的方法,使用骨骼起始點的3D坐標來表示每個骨骼,涵蓋了身體骨骼和手部骨骼。這種表示方法包含了M個骨骼,每個骨骼用6個參數描述(起始點的x、y、z坐標以及方向信息)。通過這種方式,系統能夠準確控制生成角色的姿態(tài),無論是標準的A字形姿態(tài)、動態(tài)的跳躍動作,還是復雜的手勢表達,都能精確再現。
這四種控制信號的協同工作機制就像是一個經驗豐富的制作團隊。每種信號都有其專長領域:點云負責精確的幾何定位,體素提供結構化的形狀信息,邊界框確保合理的比例,骨架控制動態(tài)姿態(tài)。當這些信號同時工作時,它們相互補充、相互驗證,大大提高了3D生成的準確性和可控性。
二、智能融合的秘訣:統一控制編碼器的設計哲學
將四種截然不同的控制信號整合到一個統一的系統中,就像是讓說著不同語言的專家在同一個項目中協作。Hunyuan3D-Omni的核心創(chuàng)新在于設計了一個巧妙的統一控制編碼器,它能夠將所有控制信號"翻譯"成系統能夠理解的統一語言。
這個編碼器的設計哲學基于一個關鍵洞察:雖然點云、體素、邊界框和骨架在表面上看起來完全不同,但它們都可以用點的集合來表示。這就像是發(fā)現所有的烹飪方法雖然看起來不同,但都遵循著"加熱食材"這一基本原理。研究團隊將邊界框轉換為八個頂點的坐標,將體素表示為體素中心點的坐標,將骨架表示為骨骼節(jié)點的坐標,這樣所有的控制信號都統一為點云的形式。
然而,僅僅將不同信號轉換為統一格式還不夠,系統還需要能夠區(qū)分這些信號的不同含義和用途。這就像是雖然都是用文字寫成的,但詩歌、說明書和新聞報道需要用不同的方式來理解和處理。為了解決這個問題,研究團隊為每種控制信號設計了專門的嵌入向量,就像是給每種信號貼上了獨特的"身份標簽"。
具體的處理流程就像是一個精密的信息處理工廠。首先,系統對輸入的點云數據進行位置編碼,這個過程類似于給每個點分配一個精確的地址坐標。然后,通過線性變換層提取特征,這個步驟就像是從原始數據中提煉出有用的信息精華。接下來,系統會根據信號類型添加相應的任務嵌入向量,這就像是在處理過的信息上加蓋不同的印章,標明其來源和用途。最后,所有處理過的特征被整合到一起,形成統一的控制特征表示。
這種設計的巧妙之處在于它的可擴展性和靈活性。由于采用了統一的點云表示,未來可以很容易地添加新的控制信號類型,只需要將新信號轉換為點云格式并設計相應的任務嵌入向量即可。這就像是設計了一個通用的接口標準,任何符合這個標準的設備都可以輕松接入系統。
編碼器的另一個重要特性是它能夠處理信號的缺失或不完整。在實際應用中,用戶可能只能提供部分控制信號,比如只有一張圖片和一個粗略的邊界框,而沒有詳細的點云或骨架信息。系統通過智能的特征融合機制,能夠在缺少某些信號的情況下仍然生成高質量的結果。這種容錯性就像是一個經驗豐富的廚師,即使缺少某些食材,也能通過調整配方和烹飪方法來制作出美味的菜肴。
為了確保不同控制信號能夠有效融合而不會相互干擾,研究團隊還設計了特殊的訓練策略。系統在訓練過程中會隨機選擇一種控制信號進行學習,并且會優(yōu)先關注較難學習的信號類型。這種方法就像是在教授多項技能時,會把更多時間分配給較困難的技能,確保學生在所有方面都能達到較高水平。
三、漸進式學習的智慧:從簡單到復雜的訓練策略
訓練一個能夠同時處理多種控制信號的AI系統,就像是訓練一個全能運動員,需要在多個項目上都達到專業(yè)水準。Hunyuan3D-Omni采用了一種被稱為"漸進式難度感知采樣"的訓練策略,這種方法的核心思想是讓系統先掌握基礎技能,再逐步學習更復雜的控制方式。
這種訓練策略的設計基于一個重要觀察:不同類型的控制信號具有不同的學習難度。點云信號相對容易掌握,因為它直接提供了物體表面的幾何信息,就像是給系統提供了一個詳細的地形圖。而骨架姿態(tài)控制則要困難得多,因為它不僅需要理解人體的結構,還要能夠將2D圖像中的姿態(tài)準確轉換為3D空間中的骨骼配置,這就像是要求系統從一張照片中推斷出人物的完整動作序列。
為了平衡這種難度差異,研究團隊設計了一個動態(tài)采樣策略。在每個訓練批次中,系統會隨機選擇一種控制模態(tài)進行學習,但這種選擇并不是完全隨機的。相反,系統會給較難學習的信號分配更高的采樣概率,同時降低較容易信號的權重。這種方法就像是在學習多門課程時,會把更多的學習時間分配給較困難的科目,確保整體水平的均衡提升。
具體的實現過程就像是一個智能的學習調度系統。在訓練開始時,系統會評估每種控制信號的當前掌握程度。對于骨架姿態(tài)這樣的復雜信號,系統會增加其在訓練批次中被選擇的概率,可能達到40-50%。而對于相對簡單的點云信號,其采樣概率可能只有10-15%。這種不均等的分配確保了系統不會因為過度關注簡單任務而忽略了復雜但重要的控制能力。
這種訓練策略的另一個重要特點是它的自適應性。隨著訓練的進行,系統會根據各種信號的學習進度動態(tài)調整采樣概率。當骨架控制的準確率提升到一定水平后,系統會逐漸增加其他信號的采樣比例,實現全面而均衡的能力發(fā)展。這就像是一個智能的個人教練,會根據學員在不同項目上的進步情況來調整訓練計劃。
訓練過程中還采用了一種"逐步揭示"的策略。系統不會一開始就接受所有四種控制信號的組合訓練,而是先學會處理單一信號,然后逐步學習處理信號組合。這種方法就像是學習演奏交響樂,先要熟練掌握每個樂器的演奏技巧,然后才能進行合奏訓練。通過這種漸進式的學習,系統能夠更好地理解不同信號之間的關系和相互作用。
為了驗證訓練效果,研究團隊還設計了多層次的評估體系。不僅要評估系統在單一控制信號下的表現,還要測試它在多信號組合、信號缺失等復雜情況下的魯棒性。這種全面的評估就像是對全能運動員進行的綜合測試,確保其在各種比賽條件下都能發(fā)揮出色。
訓練數據的構建也體現了漸進式的思想。對于骨架控制,研究團隊采用了PoseMaster的數據構建方法,通過隨機采樣不同幀來獲得圖像和對應的骨架-網格對。對于其他控制信號,則通過在渲染圖像或底層點云中隨機添加擾動來創(chuàng)建訓練對,這種數據增強技術確保了系統能夠處理真實世界中的噪聲和不確定性。
四、四位一體的控制魔法:深入解析每種信號的獨特作用
每種控制信號在Hunyuan3D-Omni系統中都扮演著不可替代的角色,就像交響樂團中的不同聲部,各自貢獻獨特的音色,共同演奏出和諧的樂章。深入理解每種信號的工作機制,有助于我們更好地把握這個系統的強大之處。
骨架姿態(tài)控制在角色建模中發(fā)揮著"動作指揮家"的核心作用。在3D動畫制作中,角色通常需要先建立在標準姿態(tài)(通常是T字形或A字形姿態(tài))下,這樣便于后續(xù)的綁定和動畫制作。但在實際應用中,我們經常希望直接生成特定姿態(tài)的角色模型,比如用于3D打印的動態(tài)手辦,或者游戲中的特定動作角色。骨架控制正是為了解決這個問題而設計的。
系統使用M×6的數據結構來表示骨架信息,其中M是骨骼數量,每個骨骼用6個參數描述:起始點的三維坐標和方向信息。這種表示方法涵蓋了人體的主要骨骼結構,包括脊椎、四肢和手指關節(jié)。當用戶提供一張?zhí)囟ㄗ藨B(tài)的人物圖像時,系統能夠根據骨架信號生成精確匹配該姿態(tài)的3D模型。研究結果顯示,無論是標準的A字姿態(tài)、動態(tài)的天空姿態(tài)還是復雜的手勢動作,系統都能生成幾何細節(jié)豐富且嚴格符合輸入骨架的人體網格,且沒有任何變形或錯位的問題。
邊界框控制則扮演著"比例協調師"的重要角色。這種控制方式解決了單圖像3D生成中的一個根本性問題:如何確定物體的真實比例和厚度。從2D圖像推斷3D結構本身就是一個病態(tài)問題,特別是對于卡通風格或藝術化的圖像,系統很難準確判斷物體的實際尺寸。邊界框控制通過將長寬高比例轉換為標準空間中八個頂點的坐標,為系統提供了明確的幾何約束。
在實際應用中,邊界框控制展現出了令人印象深刻的靈活性。當給定相同的輸入圖像但不同的邊界框時,系統能夠生成不同尺寸比例的物體。更重要的是,這種調整不是簡單的拉伸變形,而是智能的幾何重建。比如,當沙發(fā)被拉長時,系統會自動添加額外的支撐腿;當凱旋門被調整比例時,其建筑結構也會相應地保持合理性。這種能力對于產品設計和建筑建模具有重要的實際價值。
邊界框控制還能夠解決一個常見的問題:薄片化現象。當系統僅基于圖像生成3D模型時,由于缺乏厚度信息,生成的物體經常呈現為薄片狀。通過提供邊界框約束,系統能夠為物體分配合理的厚度,生成具有真實體積感的3D模型。這種改進在卡通角色和藝術品的3D化過程中特別明顯。
點云控制充當著"幾何導航儀"的精確角色。在所有控制信號中,點云提供了最直接的幾何信息,它能夠精確描述物體表面的空間位置。系統支持三種分辨率的點云輸入:512、1024和2048個點,能夠適應不同精度需求和計算資源限制。
為了模擬真實世界中的各種點云數據源,研究團隊設計了多種數據處理策略。對于完整點云,系統能夠利用其豐富的幾何信息來解決單視圖輸入的模糊性,并恢復被遮擋的內部結構。對于從深度圖提取的表面點云,系統能夠有效緩解單視圖的歧義性,確保生成的幾何體在尺度上與真實物體良好對齊。對于帶有噪聲的掃描點云,系統通過智能過濾和補全機制,能夠生成比僅基于圖像的基線方法更準確的幾何體。
點云控制的一個重要優(yōu)勢是它能夠處理不完整的數據。通過采用點云補全方法中的隨機丟棄采樣策略,系統學會了從部分信息中推斷完整結構的能力。這種能力使得系統能夠處理各種來源的點云數據,包括激光雷達掃描、RGBD相機捕獲,以及3D重建算法生成的點云。
體素控制則像是"積木建筑師",通過規(guī)整的三維網格來指導物體生成。雖然16×16×16的分辨率相對較低,但這種表示方法在保持計算效率的同時,能夠有效捕捉物體的基本形狀特征。體素表示的優(yōu)勢在于其規(guī)整性和可預測性,這使得系統能夠更容易地理解和處理復雜的幾何結構。
在實際應用中,體素控制在恢復細致幾何細節(jié)方面表現出色。比如在盾牌平面的恢復、鳥類翅膀形狀的捕捉,以及杯子低多邊形風格幾何的再現等方面,體素控制都能提供有效的指導。這種控制方式特別適合于需要保持特定幾何特征的應用場景,如工業(yè)設計和建筑建模。
四種控制信號的協同作用創(chuàng)造了一種全新的3D生成體驗。用戶可以根據具體需求選擇合適的控制信號組合,或者在缺少某些信號的情況下仍然獲得滿意的結果。這種靈活性和魯棒性使得Hunyuan3D-Omni成為一個真正實用的3D內容創(chuàng)作工具。
五、實戰(zhàn)檢驗:從理論到應用的華麗轉身
理論再完美,最終還是要在實際應用中接受檢驗。Hunyuan3D-Omni在各種測試場景中的表現,就像是一位經過嚴格訓練的全能選手在正式比賽中的精彩表現,充分證明了其設計理念的正確性和實用價值。
在骨架姿態(tài)控制的測試中,系統展現出了令人印象深刻的精確性和多樣性。研究團隊選擇了各種風格的角色圖像作為輸入,包括3D角色數據的渲染圖像和生成模型產生的合成圖像。無論輸入圖像的風格如何變化,系統都能夠生成高質量的角色幾何體,這些模型在細節(jié)豐富度和姿態(tài)準確性方面都達到了專業(yè)水準。特別值得注意的是,生成的人體網格能夠嚴格遵循輸入的骨架約束,沒有出現任何形變或位移現象。
在A字姿態(tài)的測試中,系統生成的角色模型呈現出標準的對稱站立姿態(tài),四肢比例協調,肌肉和服裝細節(jié)清晰可見。天空姿態(tài)的測試展示了系統處理動態(tài)姿態(tài)的能力,生成的角色雙臂高舉,身體略微后仰,完美再現了慶?;驓g呼的動作。手勢控制的測試更是顯示了系統的精細程度,不僅能夠準確控制手臂的位置,連手指的細微動作都能精確再現。
這種精確的姿態(tài)控制能力為3D動畫制作和3D打印應用開辟了新的可能性。傳統的3D角色制作流程通常需要先建立標準姿態(tài)的模型,然后通過復雜的綁定和動畫技術來實現姿態(tài)變換。而Hunyuan3D-Omni能夠直接生成特定姿態(tài)的角色模型,大大簡化了制作流程,特別適合于手辦設計和游戲角色快速原型制作。
邊界框控制的測試結果展現了系統在幾何編輯方面的強大能力。在相同輸入圖像的基礎上,通過調整邊界框參數,系統能夠生成不同比例的物體變體。這種調整不是簡單的幾何拉伸,而是智能的結構重建。沙發(fā)長度調整的實驗特別有說服力:當沙發(fā)被拉長時,系統不僅調整了坐墊的長度,還智能地增加了支撐腿的數量,保持了家具的結構合理性和美觀性。
凱旋門的比例調整實驗同樣令人印象深刻。無論是將其拉高還是壓扁,生成的建筑結構都保持了合理的比例關系和建筑美學。這種能力對于建筑設計和產品開發(fā)具有重要價值,設計師可以快速探索不同的比例方案,而無需重新建模。
邊界框控制在解決薄片化問題方面的效果尤為顯著。對比實驗清楚地顯示,當僅使用圖像輸入時,生成的3D模型往往呈現為缺乏厚度的薄片狀結構。而添加邊界框約束后,系統能夠為物體分配合理的體積,生成具有真實感的立體模型。這種改進對于卡通角色和藝術品的3D化特別重要。
點云控制的測試涵蓋了三種不同的應用場景,全面驗證了系統的適應性和魯棒性。在完整點云輸入的測試中,系統能夠有效利用豐富的幾何信息來解決單視圖的歧義性問題,并成功恢復被遮擋的內部結構。這種能力在復雜物體的3D重建中表現得尤為明顯,比如能夠準確重建家具的內部框架結構。
深度圖點云的測試模擬了RGBD相機的應用場景。雖然這種點云只包含表面信息,但系統仍然能夠有效緩解單視圖的模糊性,確保生成的幾何體在尺度和比例上與真實物體高度一致。這種能力使得系統能夠與現有的深度感知設備無縫集成,為增強現實和機器人視覺應用提供了技術基礎。
噪聲點云的處理測試展現了系統的實際應用價值。真實世界的3D掃描數據往往包含各種噪聲和不完整信息,傳統方法很難處理這種復雜情況。Hunyuan3D-Omni通過智能的噪聲過濾和結構推斷,能夠從不完美的掃描數據中生成高質量的3D模型,這為文物數字化和工業(yè)檢測等應用提供了強有力的技術支持。
體素控制的測試重點驗證了系統在幾何細節(jié)恢復方面的能力。雖然16×16×16的分辨率相對有限,但系統仍然能夠有效捕捉和再現物體的關鍵幾何特征。在盾牌平面恢復的測試中,系統準確地重建了平整的表面結構。鳥類翅膀形狀的測試顯示了系統處理復雜曲面的能力。杯子低多邊形風格的重現則證明了系統能夠保持特定的藝術風格特征。
這些測試結果不僅驗證了Hunyuan3D-Omni的技術先進性,更重要的是證明了其實際應用價值。無論是動畫制作、游戲開發(fā)、產品設計還是文物保護,這個系統都能提供有力的技術支持,推動3D內容創(chuàng)作進入一個新的時代。
說到底,Hunyuan3D-Omni的成功不僅僅在于技術的先進性,更在于它對實際需求的深刻理解和巧妙回應。通過將四種不同的控制信號統一在一個框架中,這個系統為3D內容創(chuàng)作者提供了前所未有的靈活性和控制精度。無論是專業(yè)的3D藝術家還是普通的創(chuàng)作愛好者,都能夠通過這個工具更輕松地實現自己的創(chuàng)意想法。
這項研究的意義還在于它為3D生成技術的發(fā)展指明了方向。單一信息源的局限性在各種AI應用中都是一個普遍問題,而多模態(tài)融合正是解決這個問題的關鍵途徑。Hunyuan3D-Omni的成功經驗可以為其他領域的多模態(tài)AI系統提供重要參考,推動整個人工智能技術的進步。
對于普通用戶而言,這項技術意味著3D內容創(chuàng)作將變得更加民主化和便捷化。原本需要專業(yè)技能和昂貴軟件才能完成的3D建模工作,現在可能只需要一張照片和一些簡單的控制信號就能實現。這將大大降低3D內容創(chuàng)作的門檻,讓更多人能夠參與到數字創(chuàng)意的世界中來。
展望未來,隨著技術的進一步發(fā)展和完善,我們有理由相信,像Hunyuan3D-Omni這樣的智能3D生成系統將成為數字內容創(chuàng)作的標準工具,推動游戲、影視、設計等行業(yè)的創(chuàng)新發(fā)展。有興趣深入了解這項技術的讀者可以通過arXiv:2509.21245v1查詢完整的研究論文,獲取更多技術細節(jié)和實驗數據。
Q&A
Q1:Hunyuan3D-Omni支持哪四種控制信號,它們分別有什么作用?
A:Hunyuan3D-Omni支持點云、體素、邊界框和骨架姿態(tài)四種控制信號。點云提供精確的空間幾何信息,幫助系統理解物體的真實形狀;體素像積木一樣提供結構化的形狀指導;邊界框控制物體的長寬高比例,解決厚度和尺寸問題;骨架姿態(tài)專門用于控制人物角色的動作和姿態(tài)。
Q2:這個系統相比傳統3D生成方法有什么優(yōu)勢?
A:傳統方法通常只能依靠單一的圖片或文字描述,容易產生變形、扁平化或細節(jié)缺失等問題。Hunyuan3D-Omni能夠同時處理多種控制信號,提供更精確的幾何控制,即使在信號缺失的情況下也能生成高質量結果,大大提高了3D生成的準確性和實用性。
Q3:普通用戶如何使用Hunyuan3D-Omni生成3D模型?
A:用戶可以提供一張物體圖片,然后根據需要添加不同的控制信號。比如想控制人物姿態(tài)就提供骨架信息,想調整物體比例就設置邊界框,想提高幾何精度就添加點云數據。系統會智能融合這些信息生成相應的3D模型,即使只提供部分信號也能獲得滿意的結果。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。