av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 SpatialScore:多模態(tài)空間理解的統(tǒng)一評測基準——上海交通大學AI團隊如何挑戰(zhàn)大模型的3D空間感知能力

SpatialScore:多模態(tài)空間理解的統(tǒng)一評測基準——上海交通大學AI團隊如何挑戰(zhàn)大模型的3D空間感知能力

2025-05-28 08:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 08:09 ? 科技行者

**為什么我們需要關(guān)注AI的空間理解能力?** 假設(shè)你正在超市購物,讓你的AI助手告訴你"哪一盒牛奶離你更近"或"轉(zhuǎn)彎后右側(cè)第二個貨架是什么",這些看似簡單的問題,實際上涉及復(fù)雜的3D空間理解能力。盡管當前多模態(tài)大語言模型(MLLMs)在回答"這是什么"、"誰在畫面中"等語義問題表現(xiàn)出色,但它們是否真正理解空間關(guān)系、相機運動和物體距離等幾何特性呢?

這正是由上海交通大學人工智能學院的吳昊寧、黃曉等人,聯(lián)合上海AI實驗室在2025年5月提出的研究"SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding"所要探索的核心問題。這篇發(fā)表在arXiv上的研究(arXiv:2505.17012v1)圍繞一個關(guān)鍵問題展開:**現(xiàn)有的多模態(tài)大語言模型是否真正具備3D空間感知和理解能力?**

想象一下,如果你讓AI告訴你"桌子和沙發(fā)之間的距離有多遠",或者"基于這兩張照片,相機是如何移動的",大多數(shù)現(xiàn)有模型往往會茫然不知所措。這是因為真正的空間理解需要模型不僅能"看見"畫面中的物體,還要理解它們在三維空間中的位置、方向和相互關(guān)系。就像人類在現(xiàn)實世界中導(dǎo)航一樣,需要直覺理解空間幾何關(guān)系。

這項研究的重要性不僅在于評估當前AI模型的空間理解能力,更在于為未來的模型發(fā)展提供明確方向。設(shè)想一下,如果家用機器人或自動駕駛汽車無法準確理解"左轉(zhuǎn)"、"前方兩米"這樣的空間指令,后果將會多么嚴重。

研究團隊的貢獻主要包括四個方面:首先,他們創(chuàng)建了專門評估視覺幾何感知能力的VGBench基準測試;其次,他們整合了11個現(xiàn)有數(shù)據(jù)集,提出了迄今為止最全面的空間理解評測基準SpatialScore;第三,他們開發(fā)了名為SpatialAgent的多代理系統(tǒng),集成9種專業(yè)工具來增強空間理解能力;最后,他們通過大量實驗揭示了當前模型在空間推理方面仍然存在的挑戰(zhàn),同時證明了SpatialAgent的有效性。

讓我們一起深入了解這項研究如何為AI注入"空間感",以及這對未來AI應(yīng)用有何重大意義。

一、為什么現(xiàn)有AI模型缺乏空間理解能力?

想象你站在一個陌生的房間里,僅憑一張照片,你可以立刻判斷哪個物體離你更近,哪個物體放在另一個物體的上方,甚至能大致估計物體間的距離。這種空間感知能力對人類來說是如此自然,但對AI模型卻是巨大挑戰(zhàn)。

在傳統(tǒng)計算機視覺研究中,3D視覺幾何感知被認為是一個"已解決"的問題(盡管依賴優(yōu)化算法),有著完善的工具和嚴謹?shù)臄?shù)學基礎(chǔ)。近期研究已經(jīng)通過前饋神經(jīng)網(wǎng)絡(luò)重新激活了這些經(jīng)典方法。然而,這些進展仍局限于純視覺范式,缺乏與語言理解的整合和統(tǒng)一的評估協(xié)議。

現(xiàn)有的評測基準主要存在兩個關(guān)鍵限制:一是任務(wù)過于簡單,主要關(guān)注表面的空間相關(guān)查詢(如基本物體存在或位置關(guān)系),忽略了嚴格的視覺幾何理解(如相機姿態(tài)和動態(tài));二是評估范圍狹窄,通常是片面的,考慮簡單問題(如是/否判斷),單一模態(tài)輸入(如靜態(tài)圖像),或孤立技能(如距離或大小估計),缺乏衡量整體空間推理能力的統(tǒng)一框架。

上海交通大學的研究團隊發(fā)現(xiàn),盡管現(xiàn)有多模態(tài)大語言模型在語義理解和邏輯推理方面取得了令人印象深刻的進展,但在處理空間幾何問題時表現(xiàn)不佳。例如,當被要求估計物體距離、判斷相機運動方向或計算同一物體在不同視角下的位置時,這些模型往往給出錯誤或不一致的答案。

這種情況就像一個能流利描述周圍環(huán)境但無法準確判斷距離和方向的導(dǎo)游——表面上看似懂得很多,但實際應(yīng)用價值有限。正如研究團隊所言:"集成語義理解與空間幾何感知將成為多模態(tài)大語言模型的下一個演化步驟。"

二、VGBench與SpatialScore:全面評估空間理解能力的新基準

為了系統(tǒng)評估AI模型的空間理解能力,研究團隊首先開發(fā)了VGBench,這是一個專門設(shè)計用于評估視覺幾何感知能力的基準測試。

VGBench的構(gòu)建過程非常精細。研究團隊從ScanNet、ScanNet++、CA-1M和WildRGB-D等數(shù)據(jù)集中隨機選取了約300個場景,這些場景都帶有精確的3D注釋(如深度圖和3D邊界框)。隨后,他們結(jié)合預(yù)定義的問題模板與大語言模型改寫,構(gòu)建了開放式問答對,確保問題的多樣性。為了便于定量評估,他們還將部分開放式問答轉(zhuǎn)換為判斷和多選格式,采用三種策略生成既合理又具挑戰(zhàn)性的干擾選項。

想象VGBench就像一個空間智力測試,包含了各種視覺幾何感知任務(wù),例如:

1. 相機參數(shù)估計:就像要求AI判斷"拍照人站在什么位置,鏡頭朝哪個方向" 2. 深度估計:要求AI判斷"哪個物體離相機更近"或"這個區(qū)域的平均深度是多少米" 3. 距離估計:要求計算兩個物體中心之間的實際距離 4. 單應(yīng)矩陣估計:判斷兩張圖片之間的幾何變換關(guān)系 5. 物體位置:確定3D空間中物體的精確位置 6. 姿態(tài)估計:判斷相機在兩個位置之間的相對旋轉(zhuǎn)和平移 7. 點跟蹤:識別同一個3D點在不同圖像中的對應(yīng)位置

VGBench最終包含6000個高質(zhì)量樣本,涵蓋判斷題、多選題和開放式問答格式。這就像給AI模型出了一套全面的空間幾何測試題,測試它們是否真正理解三維世界的規(guī)則。

在VGBench的基礎(chǔ)上,研究團隊進一步整合了11個現(xiàn)有的空間相關(guān)數(shù)據(jù)集,構(gòu)建了名為SpatialScore的全面空間理解基準。這些整合的數(shù)據(jù)集包括MMVP、RealWorldQA、SpatialSense、VSR、SpatialBench、CV-Bench、QSpatialBench、3DSRBench、VSI-Bench,以及BLINK和MMIU中的空間相關(guān)子集。

想象SpatialScore就像一所完整的空間理解學校,包含各種難度和類型的課程??偣灿?8,093個樣本,分為8大類別:

1. 計數(shù):要求AI數(shù)出場景中特定物體的數(shù)量 2. 物體定位:確定物體在2D或3D空間中的位置 3. 3D位置關(guān)系:理解物體之間的相對位置關(guān)系 4. 深度與距離:估計物體的深度或物體之間的距離 5. 物體屬性:判斷物體的大小、形狀、方向等屬性 6. 相機與圖像變換:理解相機運動和圖像變換 7. 點/物體跟蹤:跟蹤多幀圖像或視頻中的點或物體 8. 其他:包括各種不屬于上述類別的空間理解任務(wù)

此外,研究團隊還精心策劃了SpatialScore-Hard子集,包含1,400個特別具有挑戰(zhàn)性的樣本。這些樣本是通過嚴格流程篩選出來的:首先識別至少16個不同規(guī)模的多模態(tài)大語言模型(從1B到78B參數(shù))都無法給出正確答案的樣本,并且要求至少有兩個大型模型(32B+參數(shù))在每個樣本上失敗。這些候選樣本經(jīng)過手動驗證并在各類別間平衡,形成了一個能更好揭示當前模型在空間理解方面局限性的集中子集。

如果把VGBench比作專業(yè)的空間幾何考試,那么SpatialScore就是一套全面的空間理解評估系統(tǒng),而SpatialScore-Hard則是其中特別具有挑戰(zhàn)性的高級測試題。這三者共同構(gòu)成了迄今為止最全面、最多樣化的空間理解評測基準。

三、SpatialAgent:增強空間理解能力的多代理系統(tǒng)

發(fā)現(xiàn)問題后,研究團隊并未止步于評估,而是提出了一個創(chuàng)新的解決方案——SpatialAgent,這是一個專為空間理解設(shè)計的多代理系統(tǒng)。

想象SpatialAgent就像一個專家團隊,每個專家負責空間理解的不同方面,共同合作解決復(fù)雜的空間問題。這個系統(tǒng)集成了9種專業(yè)工具,涵蓋2D感知、運動與變換、相機與幾何、以及輔助工具四大類別。

在2D感知方面,SpatialAgent使用RAM++進行開放詞匯表物體識別,OWLv2進行準確的物體檢測和定位,SAM2進行實例分割以細化定位并量化物體比例。結(jié)合深度線索和現(xiàn)實世界先驗知識,這些工具使系統(tǒng)能夠可靠地估計物體的物理尺寸。

在運動與變換方面,系統(tǒng)集成了RAFT光流估計算法,用于分析多幀序列或視頻中的運動。這有助于相機運動分析,結(jié)合2D感知模塊,還能實現(xiàn)物體級和區(qū)域級運動跟蹤。此外,系統(tǒng)利用OpenCV中的SIFT算法進行特征匹配和單應(yīng)性估計,支持點跟蹤和圖像對齊任務(wù)。

對于相機與幾何方面,SpatialAgent集成了VGGT用于從單幀或多幀輸入估計相機參數(shù)(內(nèi)參和外參),DepthAnythingV2用于使用特定領(lǐng)域模型(室內(nèi)/室外)進行深度估計,以及OrientAnything用于估計3D物體方向,便于細粒度空間關(guān)系推斷。

最后,輔助工具包括基本圖像操作(如裁剪、調(diào)整大?。┖蛿?shù)值計算工具。專門的Terminate動作用于整合工具輸出并標志推理完成。此外,系統(tǒng)還采用目標提示工程來增強開源多模態(tài)大語言模型(如Qwen2.5-VL、InternVL3)的逐步推理能力。

SpatialAgent的工作方式有兩種不同的范式:Plan-Execute(計劃-執(zhí)行)和ReAct(推理-行動)。

Plan-Execute范式就像是先制定詳細的行動計劃,然后按步驟執(zhí)行。具體來說,系統(tǒng)先由計劃者(planner)生成工具調(diào)用計劃,然后執(zhí)行者(executor)按順序執(zhí)行計劃并獲取工具輸出,最后總結(jié)者(summarizer)根據(jù)工具輸出和原始輸入生成最終響應(yīng)。這種方法在高效制定和執(zhí)行計劃方面表現(xiàn)出色,但預(yù)先確定的執(zhí)行路徑可能在復(fù)雜場景中犧牲精度。

ReAct范式則更像是一個迭代推理過程,通過動態(tài)規(guī)劃適應(yīng)中間輸出。系統(tǒng)由觀察者(observer)、執(zhí)行者(executor)和總結(jié)者(summarizer)組成,維護一個記錄所有中間交互的內(nèi)存模塊。觀察者根據(jù)原始輸入和完整交互歷史生成下一個動作,執(zhí)行者相應(yīng)處理,這個迭代過程持續(xù)到觀察者輸出Terminate動作,觸發(fā)總結(jié)階段。ReAct范式通過動態(tài)規(guī)劃展現(xiàn)出更好的靈活性,但由于其迭代性質(zhì),效率可能較低。

這兩種范式通過精心設(shè)計的提示詞驅(qū)動,各有優(yōu)勢:Plan-Execute高效但可能缺乏靈活性,ReAct靈活但效率較低??傮w而言,SpatialAgent就像一個由多個專家組成的團隊,根據(jù)不同的問題類型選擇最合適的工作方式,大大提升了現(xiàn)有模型的空間理解能力。

四、實驗結(jié)果:當前模型的空間理解能力如何?

研究團隊在SpatialScore基準上對25個代表性模型進行了廣泛實驗,這些模型參數(shù)規(guī)模從1B到78B不等,包括InternVL2.5、InternVL3、Kimi-VL、Qwen2.5VL、LLaVA-OneVision、LLaMA-3.2V等通用多模態(tài)大語言模型,以及SpaceQwen2.5VL、SpatialBot和SpaceLLaVA等專為空間理解微調(diào)的模型。

實驗結(jié)果令人深思:即使是最先進的模型,在空間理解任務(wù)上的表現(xiàn)也遠非完美。在VGBench上,最佳模型InternVL3-78B的總體準確率僅為43.53%,這表明當前模型在視覺幾何感知方面存在顯著局限。特別是在涉及單應(yīng)矩陣、相機參數(shù)、3D重建以及距離/深度估計的任務(wù)上,表現(xiàn)尤為不佳。

在SpatialScore整體基準上,最佳模型InternVL3-78B的準確率為60.17%,雖然表現(xiàn)較好,但仍有很大提升空間。有趣的是,更大的模型通常表現(xiàn)更好,這表明隨著參數(shù)規(guī)模增加,空間推理能力確實有所提升。然而,即使是最大的模型,其絕對性能仍然有限,說明在全面空間理解方面仍有很大改進空間。

此外,專為有限空間相關(guān)數(shù)據(jù)微調(diào)的模型(如SpaceQwen2.5VL-3B、SpaceLLaVA-13B)表現(xiàn)出較差的泛化能力,在多樣化且具挑戰(zhàn)性的SpatialScore基準上表現(xiàn)不佳。這就像一個只學會了某一種特定道路導(dǎo)航的司機,在陌生復(fù)雜環(huán)境中容易迷失方向。

在2D vs 3D推理方面,雖然現(xiàn)有模型能適度處理基本2D空間任務(wù)(如物體定位),但在3D空間推理方面表現(xiàn)明顯較差,特別是在需要視覺幾何感知的任務(wù)上,如相機參數(shù)預(yù)測和圖像變換(單應(yīng)矩陣)。

在SpatialScore-Hard子集上的表現(xiàn)更加突出地揭示了當前模型的局限性。即使是開源和專有模型(如商業(yè)API)在這個具有挑戰(zhàn)性的子集上也表現(xiàn)不佳,進一步強調(diào)了這些樣本的難度。

與此相比,研究團隊提出的SpatialAgent展示了顯著的改進。即使使用Qwen2.5VL-7B和InternVL-8B等緊湊模型作為代理核心,SpatialAgent也能提升它們的空間理解能力,超越所有開源模型,甚至在幾個類別中超過專有系統(tǒng)。這些改進歸功于SpatialAgent的結(jié)構(gòu)化、工具調(diào)用框架,驗證了其系統(tǒng)化、工具增強的推理框架在復(fù)雜空間任務(wù)中的決定性優(yōu)勢,特別是在那些需要精確視覺幾何和多步推理的任務(wù)中。

具體來說,在SpatialScore-Hard上,SpatialAgent-Intern-PE(使用Plan-Execute范式)的總體準確率達到46.08%,遠高于未增強的InternVL3-78B(21.79%)和商業(yè)API如GPT-4o(30.57%)。這表明通過集成專業(yè)工具和結(jié)構(gòu)化推理,即使相對小型的模型也能在空間理解任務(wù)上取得顯著進步。

然而,即使是SpatialAgent,偶爾也會失敗,通常是由于工具執(zhí)行次優(yōu)或?qū)χ虚g結(jié)果的誤解(例如,混淆深度與物體距離)。這些局限性預(yù)計會隨著多模態(tài)大語言模型理解能力的提升和工具箱設(shè)計的改進而減少。

總的來說,這些實驗結(jié)果既揭示了當前模型在空間理解方面的持續(xù)挑戰(zhàn),又證明了SpatialAgent的有效性。雖然通過工具增強方法取得了顯著進步,但空間理解領(lǐng)域仍需要基礎(chǔ)性的架構(gòu)創(chuàng)新。

五、未來展望:空間智能研究的下一步是什么?

隨著人工智能向?qū)嶓w環(huán)境應(yīng)用的不斷拓展,空間理解能力將變得越來越重要。研究團隊的工作不僅評估了當前模型的能力,還為未來研究指明了方向。

從短期來看,SpatialAgent代表了一種有效的過渡解決方案,通過集成專業(yè)工具和結(jié)構(gòu)化推理,顯著提升了現(xiàn)有模型的空間理解能力。這種方法可以立即應(yīng)用于實際場景,如智能家居、機器人導(dǎo)航和增強現(xiàn)實應(yīng)用。

然而,從長期來看,真正的突破可能需要在模型架構(gòu)上進行基礎(chǔ)創(chuàng)新。就像人類不需要明確計算就能直觀理解空間關(guān)系一樣,未來的AI模型可能需要內(nèi)建空間幾何理解能力,而不僅僅依賴外部工具。

此外,研究團隊開發(fā)的VGBench和SpatialScore提供了全面評估空間理解能力的標準,這將有助于推動該領(lǐng)域的發(fā)展。這些基準測試不僅評估模型當前的能力,還指出了需要改進的具體方向。

在方法論方面,SpatialAgent展示的Plan-Execute和ReAct范式為復(fù)雜問題的解決提供了有效框架,可能會影響未來多模態(tài)系統(tǒng)的設(shè)計。特別是對于需要多步推理和專業(yè)工具協(xié)作的任務(wù),這種多代理系統(tǒng)方法可能會變得越來越普遍。

具體到應(yīng)用層面,隨著空間理解能力的提升,我們可以期待更自然、更直觀的人機交互。例如,能夠理解"把這個放在那個旁邊"或"朝門的方向走五米然后右轉(zhuǎn)"等自然指令的機器人助手。同樣,增強現(xiàn)實應(yīng)用可以更準確地將虛擬內(nèi)容融入物理空間,自動駕駛系統(tǒng)可以更好地理解復(fù)雜的交通環(huán)境。

最后,該研究揭示的一個重要見解是:即使是最先進的模型,在處理需要3D空間感知的任務(wù)時仍然存在顯著局限。這提醒我們,盡管在語義理解和邏輯推理方面取得了令人印象深刻的進展,AI仍然缺乏人類視為理所當然的某些基本能力。彌合這一差距將是未來研究的關(guān)鍵挑戰(zhàn)。

結(jié)語

想象一個能夠精確理解并導(dǎo)航我們?nèi)S世界的AI系統(tǒng)。這不再是科幻小說中的場景,而是隨著上海交通大學研究團隊的這項開創(chuàng)性工作,正在逐步成為現(xiàn)實。

歸根結(jié)底,SpatialScore研究的核心貢獻在于系統(tǒng)地揭示并解決了當前多模態(tài)大語言模型在空間理解方面的局限性。通過構(gòu)建全面的評測基準,研究團隊不僅為我們提供了衡量AI空間智能的標尺,還通過SpatialAgent展示了提升這種能力的可行路徑。

對于普通用戶來說,這項研究意味著未來的AI助手將能更好地理解我們的空間相關(guān)指令。無論是指導(dǎo)你在超市找到特定商品,還是幫助你重新布置家具,或者在陌生城市為你導(dǎo)航,空間理解能力的提升將使AI在日常生活中變得更加實用和自然。

對于研究人員和開發(fā)者來說,VGBench、SpatialScore和SpatialAgent提供了寶貴的資源和方法,為未來的模型發(fā)展提供了明確方向。這些工具將幫助下一代AI系統(tǒng)不僅能"看見"世界,還能真正"理解"世界的空間結(jié)構(gòu)。

正如研究團隊所言,整合語義理解與空間幾何感知將成為多模態(tài)大語言模型的下一個演化步驟。隨著這一進展,AI將離真正的"空間智能"更近一步,這對于從家用機器人到自動駕駛車輛等各種實體AI應(yīng)用都具有深遠意義。

你是否曾想過,當AI不僅能認出畫面中的物體,還能理解它們在空間中的確切位置和關(guān)系時,會開啟哪些新的可能性?隨著SpatialScore和SpatialAgent這樣的創(chuàng)新研究推動技術(shù)邊界,這個問題的答案正在逐漸展開。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-