這項由清華大學(xué)、西安交通大學(xué)、上海交通大學(xué)、北京大學(xué)、上海智能研究院和上海人工智能實驗室的聯(lián)合研究團隊完成的成果,以孟迪佳、祁澤琨為共同第一作者,李藝教授為通訊作者,發(fā)表于2025年6月3日的arXiv預(yù)印本平臺(arXiv:2506.03135v1)。
一、研究背景:空間推理,AI的"盲區(qū)"
你有沒有體驗過這樣的場景:當(dāng)你讓ChatGPT或其他AI助手識別圖片中"左邊的人"或"右邊的物體"時,它們能夠輕松應(yīng)對;但如果你問"如果我站在這個房間的另一角,哪個物體會擋住我的視線?"或者"這個機器人手臂應(yīng)該如何旋轉(zhuǎn)才能抓住物體?",AI往往會給出錯誤或模糊的答案。
這正是當(dāng)前視覺語言模型(VLMs)面臨的一個重要挑戰(zhàn)——空間推理能力的局限性??臻g推理是人類認(rèn)知心理學(xué)中的重要方面,也是現(xiàn)代AI系統(tǒng)的一個主要瓶頸。雖然已有大量研究致力于評估或改進VLMs對基本空間關(guān)系的理解,如區(qū)分左右、遠近和物體計數(shù),但這些任務(wù)僅代表了空間推理的最基礎(chǔ)層面。
想象一下在現(xiàn)實世界中,當(dāng)你需要在緊急情況下找到AED(自動體外除顫器)時,僅僅知道它"在門的右側(cè)"是遠遠不夠的——你還需要理解原理圖,將地圖與實際環(huán)境對應(yīng)起來,并規(guī)劃一條高效路線。同樣地,插入刀具到刀架或折疊紙盒等任務(wù)需要對物體旋轉(zhuǎn)、變形和空間兼容性進行推理——這遠遠超出了簡單的物體放置范圍。
正是在這一背景下,研究團隊提出了OmniSpatial,一個全面評估視覺語言模型空間推理能力的基準(zhǔn)測試。
二、OmniSpatial:空間認(rèn)知的四大維度
從認(rèn)知心理學(xué)的角度來看,復(fù)雜的空間推理遠不止基本關(guān)系那么簡單。它還包括動態(tài)世界知識推理、與環(huán)境或代理的交互空間行為、3D空間結(jié)構(gòu)的邏輯分析,以及視角轉(zhuǎn)換能力。
研究團隊將空間推理分為四個關(guān)鍵維度:
**動態(tài)推理**:想象你正在觀察一個來回擺動的鐘擺。動態(tài)推理能力讓你預(yù)測鐘擺下一秒的位置,即使畫面暫停了。在機器人控制和自動駕駛等領(lǐng)域,這種預(yù)測運動和時間變化的能力至關(guān)重要,能讓系統(tǒng)在動態(tài)環(huán)境中做出適應(yīng)性決策。
**復(fù)雜空間邏輯**:這就像解魔方或拼圖一樣,需要高階的空間關(guān)系推理、變換和幾何結(jié)構(gòu)理解。例如,想象有一個3D物體的2D展開圖,你需要在腦海中"折疊"它,預(yù)測最終的3D形狀。這種能力對工程設(shè)計、機器人操作至關(guān)重要。
**空間交互**:這類似于你在擁擠的商場中穿行,需要根據(jù)環(huán)境約束和目標(biāo)實時調(diào)整路徑。在現(xiàn)實應(yīng)用中,這包括路徑規(guī)劃、避障,以及基于空間反饋的實時決策——就像導(dǎo)航應(yīng)用需要根據(jù)實時交通狀況調(diào)整路線一樣。
**視角轉(zhuǎn)換**:想象你在玩"藏貓貓"游戲,需要預(yù)測從其他人的角度能看到什么。這種能力讓我們能從不同視角理解空間關(guān)系,對導(dǎo)航、社交認(rèn)知和空間感知至關(guān)重要,就像需要理解其他駕駛員視角的交通環(huán)境一樣。
這四個維度共同構(gòu)成了OmniSpatial基準(zhǔn)測試的框架,涵蓋了50個細分任務(wù)類別,提供了一個前所未有的全面空間認(rèn)知評估體系。
三、數(shù)據(jù)集構(gòu)建:精心選擇的1500多道空間題
與那些聚焦少數(shù)任務(wù)的大規(guī)模基準(zhǔn)不同,OmniSpatial優(yōu)先考慮任務(wù)多樣性和結(jié)構(gòu)化分類,而非簡單地追求數(shù)據(jù)集規(guī)模。研究團隊構(gòu)建了1533個高質(zhì)量的問答對,這些問題設(shè)計用于挑戰(zhàn)模型超越簡單的模式匹配或統(tǒng)計學(xué)習(xí),即使在有限數(shù)據(jù)的情況下也能嚴(yán)格測試空間推理能力。
**數(shù)據(jù)來源多樣化**:研究團隊從網(wǎng)絡(luò)搜索、標(biāo)準(zhǔn)化測試、駕駛考試問題和現(xiàn)有數(shù)據(jù)集(包括MME、HOI4D等)中精心篩選數(shù)據(jù)。這種多樣化的來源增強了任務(wù)的真實性、復(fù)雜性和跨領(lǐng)域泛化能力。
想象一下這些測試場景的豐富多樣性:
- 網(wǎng)絡(luò)搜索的圖片涵蓋自然環(huán)境、建筑和日常生活,增加了視覺復(fù)雜性 - 心理學(xué)和認(rèn)知科學(xué)的標(biāo)準(zhǔn)化測試提供了科學(xué)嚴(yán)謹(jǐn)?shù)目臻g推理挑戰(zhàn) - 駕駛考試問題引入了現(xiàn)實世界的動態(tài)交互,如道路規(guī)則理解和運動預(yù)測 - HOI4D等數(shù)據(jù)集貢獻了多分辨率、不同光照和視角多樣性,以及涉及人-物交互的具身智能任務(wù)
為確保全面評估,研究團隊將任務(wù)分為4大空間推理類型,進一步細分為50個精細任務(wù)類別。例如,視角轉(zhuǎn)換任務(wù)從簡單的空間判斷("藍色運動員的對手的武器在左邊還是右邊?")到復(fù)雜的運動預(yù)測("藍色運動員正在阻擋紅色運動員的進攻——接下來會發(fā)生什么?")??臻g交互任務(wù)既包括靜態(tài)碰撞評估("車輛是否離前面的車太近?")也包括動態(tài)環(huán)境推理("前方有車門打開——是行人下車嗎?")。
研究團隊強調(diào)了精確的圖像-任務(wù)對齊在數(shù)據(jù)集選擇和注釋中的重要性。每個問答對都經(jīng)過手動策劃并多輪審核,以確保準(zhǔn)確性、一致性和最小歧義。與自動注釋不同,手動完善保證了視覺場景與空間推理任務(wù)之間的高度相關(guān)性,增強了OmniSpatial作為未來研究基準(zhǔn)的可靠性。
四、改進空間推理能力:兩種創(chuàng)新方法
研究團隊不僅開發(fā)了評估基準(zhǔn),還探索了改進視覺語言模型空間推理能力的方法。
**PointGraph:通過點關(guān)系增強空間推理**
第一種方法像是給AI提供了一個"物體分布地圖"。研究團隊嘗試使用Segment Anything Model(SAM)等現(xiàn)有專家模型將圖像分割成不同區(qū)域。這一過程提取出與圖像中多個物體對應(yīng)的像素簇,使模型能夠估計物體中心并更有效地執(zhí)行后續(xù)空間推理任務(wù)。
想象一下,這就像是在閱讀復(fù)雜的城市地圖時,有人幫你標(biāo)出了所有重要地標(biāo)的確切位置,讓你更容易規(guī)劃路線或判斷距離。這種結(jié)構(gòu)化的物體表示方法為模型提供了清晰的空間關(guān)系指引。
**SpatialCoT:通過新視角合成增強空間想象**
第二種方法解決了一個更根本的問題:視覺語言模型主要受限于文本推理范式,而人類天生具備強大的空間想象能力,通常稱為"心理意象"。
這種空間想象能力在某種程度上對應(yīng)于物體或場景的新視角合成。幸運的是,最近在3D生成模型方面的進展可以有效執(zhí)行此類任務(wù)。研究團隊采用InstantMesh來從輸入圖像合成新視角,提供額外的視覺線索來增強空間想象。
這就像是當(dāng)你在腦海中想象房間的另一側(cè)看起來如何,或者物體從背面會是什么樣子。通過提供這些額外的"想象視角",模型能夠構(gòu)建更完整的空間理解。
五、實驗結(jié)果:頂尖模型也未能攻克空間推理
研究團隊對現(xiàn)有視覺語言模型在OmniSpatial上進行了全面評估,測試對象包括專有模型和開源模型。結(jié)果顯示了當(dāng)前AI系統(tǒng)在復(fù)雜空間推理方面的顯著局限性。
**整體模型表現(xiàn)**:
1. 專有推理模型如ChatGPT o3和Gemini-2.5-pro表現(xiàn)最佳,總體成功率超過56%;但與人類水平相比仍有顯著差距。這些模型需要大量推理時間和tokens。
2. 開源模型也展示了有競爭力的結(jié)果,大規(guī)模模型如InternVL3-78B和Qwen-VL2.5-72B達到了與GPT-4.1-mini和Gemini-2.0-flash-exp相當(dāng)?shù)谋憩F(xiàn)。
3. 專用空間推理模型由于數(shù)據(jù)集覆蓋范圍和模型容量的限制,在全面基準(zhǔn)測試中難以實現(xiàn)實質(zhì)性改進。
**分類表現(xiàn)差異**:
不同空間推理類別的表現(xiàn)差異尤為顯著:
1. 在動態(tài)推理和空間交互方面,專有模型表現(xiàn)強勁,表明推理模型在時間理解、空間關(guān)系分析和基于地圖的理解方面具有高水平能力。
2. 對于幾何模式識別和推理等復(fù)雜邏輯任務(wù),即使是為擴展思考設(shè)計的推理模型也只能達到約30%到40%的準(zhǔn)確率,僅略高于隨機基線。
3. 當(dāng)前模型展示出有限的視角轉(zhuǎn)換能力,主要從自我中心視角分析場景,而在想象他人視角方面存在困難。
**PointGraph和SpatialCoT的影響**:
研究還評估了所提出方法的有效性:
1. PointGraph作為GPT-4.1、Gemini-2.5-flash和Qwen-VL2.5-7B的預(yù)處理步驟,帶來了明顯的準(zhǔn)確度提升,特別是在動態(tài)推理和視角轉(zhuǎn)換方面,驗證了集成結(jié)構(gòu)化物體表示的好處。
2. 傳統(tǒng)的文本鏈?zhǔn)剿伎?Chain-of-Thought)難以帶來顯著改進。
3. 通過InstantMesh實現(xiàn)的空間鏈?zhǔn)剿伎?SpatialCoT)方法在OmniSpatial視角轉(zhuǎn)換測試中表現(xiàn)出顯著的性能改進,驗證了顯式空間想象的有效性。
六、未來發(fā)展方向:邁向真正的空間感知AI
OmniSpatial基準(zhǔn)測試不僅揭示了當(dāng)前AI系統(tǒng)在空間推理方面的局限性,還為未來研究指明了方向。研究團隊發(fā)現(xiàn),即使是最先進的專有和開源視覺語言模型,在OmniSpatial上的表現(xiàn)也最高僅達到57%的準(zhǔn)確率,遠低于人類表現(xiàn)的30多個百分點,特別是在幾何推理和非自我中心視角轉(zhuǎn)換方面表現(xiàn)不佳。
這些發(fā)現(xiàn)表明,我們需要發(fā)展更強大的物理和視角感知多模態(tài)模型。研究團隊的PointGraph和SpatialCoT方法提供了有希望的起點,但要實現(xiàn)真正的空間認(rèn)知AI,仍需更多創(chuàng)新。
通過系統(tǒng)地揭示這些差距,OmniSpatial為未來的物理和視角感知多模態(tài)模型研究提供了嚴(yán)格的評估標(biāo)準(zhǔn)和豐富的錯誤分析平臺。這一基準(zhǔn)測試將推動空間推理研究向前發(fā)展,最終實現(xiàn)能夠在現(xiàn)實世界中有效導(dǎo)航和交互的AI系統(tǒng)。
正如人類需要空間認(rèn)知來在物理世界中有效導(dǎo)航和交互一樣,AI系統(tǒng)也需要掌握這些能力才能實現(xiàn)真正的通用智能。OmniSpatial基準(zhǔn)測試向這一目標(biāo)邁出了重要一步,為研究人員提供了一個系統(tǒng)評估和改進AI空間推理能力的框架。
未來的研究方向可能包括:
1. 進一步探索3D表示和感知在空間推理中的作用 2. 開發(fā)更強大的空間鏈?zhǔn)剿伎挤椒?3. 創(chuàng)建能夠同時處理多個視角的多模態(tài)模型 4. 將空間推理能力與機器人執(zhí)行任務(wù)相結(jié)合
隨著這些方向的發(fā)展,我們離真正理解和導(dǎo)航物理世界的AI系統(tǒng)又近了一步。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。