這項(xiàng)由SenseTime Research(商湯科技研究院)與新加坡南洋理工大學(xué)S-Lab實(shí)驗(yàn)室聯(lián)合進(jìn)行的研究發(fā)表于2025年8月,論文首作者包括蔡中港、王玉博、孫慶平等多位核心研究者,通訊作者為楊磊。這篇重量級(jí)研究論文可通過arXiv平臺(tái)訪問(編號(hào):arXiv:2508.13142v1),為我們?nèi)娼沂玖水?dāng)前最先進(jìn)AI模型在空間智能方面的真實(shí)表現(xiàn)。
當(dāng)OpenAI在2025年8月發(fā)布GPT-5時(shí),全世界都在好奇一個(gè)問題:這個(gè)被譽(yù)為"迄今為止最強(qiáng)大AI模型"的系統(tǒng),是否真的具備了空間智能?空間智能聽起來(lái)很抽象,但實(shí)際上就是我們?nèi)祟惷刻於荚谑褂玫哪芰?mdash;—比如你能夠想象從不同角度看一個(gè)物體會(huì)是什么樣子,或者你能夠在腦海中旋轉(zhuǎn)一個(gè)立方體,又或者你能夠根據(jù)地圖找到回家的路。這些看似簡(jiǎn)單的能力,對(duì)于人工智能來(lái)說卻是極大的挑戰(zhàn)。
為了回答這個(gè)問題,研究團(tuán)隊(duì)耗費(fèi)了超過十億個(gè)token(相當(dāng)于數(shù)百萬(wàn)頁(yè)文檔的信息量),對(duì)包括GPT-5在內(nèi)的多個(gè)最先進(jìn)AI模型進(jìn)行了史無(wú)前例的全面測(cè)試。這就像給AI模型進(jìn)行了一次"空間智商測(cè)試",測(cè)試內(nèi)容包括從簡(jiǎn)單的物體識(shí)別到復(fù)雜的三維推理,覆蓋了人類空間思維的方方面面。
研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)全面的空間智能評(píng)估體系。他們發(fā)現(xiàn),現(xiàn)有的各種測(cè)試基準(zhǔn)就像散落的拼圖碎片,每個(gè)都只關(guān)注空間智能的某一個(gè)方面,缺乏統(tǒng)一的標(biāo)準(zhǔn)。為了解決這個(gè)問題,他們將所有空間任務(wù)歸納為六個(gè)核心能力,就像把復(fù)雜的空間思維分解為六種基本技能。
一、六種空間智能的核心能力
第一種能力叫做"度量測(cè)量",簡(jiǎn)單來(lái)說就是AI能否像人類一樣估算物體的大小。當(dāng)你看到一張照片時(shí),即使沒有尺子,你也能大概判斷出門有多高、房間有多大。這種能力看似簡(jiǎn)單,實(shí)際上需要AI理解現(xiàn)實(shí)世界中物體的常見尺寸,并能從二維圖像中推斷三維信息。
第二種是"心理重構(gòu)"能力。這就像你能夠在腦海中想象一個(gè)物體的完整形狀,即使你只能看到它的一部分。比如看到桌子的一條腿,你就能想象出整張桌子的樣子。對(duì)于AI來(lái)說,這意味著要從有限的視角信息中重建完整的三維物體模型。
第三種"空間關(guān)系"能力涉及理解多個(gè)物體之間的相對(duì)位置。當(dāng)你說"杯子在書的左邊"時(shí),你的大腦自動(dòng)建立了一個(gè)空間坐標(biāo)系統(tǒng)。AI需要具備同樣的能力,能夠理解和描述物體之間的空間關(guān)系。
第四種"視角轉(zhuǎn)換"能力可能是最具挑戰(zhàn)性的。這就像你能夠想象從不同角度看同一個(gè)場(chǎng)景會(huì)是什么樣子。當(dāng)你站在房間的一角,你能夠想象從對(duì)面看這個(gè)房間的景象。這需要AI具備強(qiáng)大的三維空間想象力。
第五種"變形與組裝"能力關(guān)注的是物體形狀的變化。比如你能夠想象一張紙如何折疊成紙飛機(jī),或者多個(gè)積木如何組裝成復(fù)雜的結(jié)構(gòu)。這種能力在現(xiàn)實(shí)生活中無(wú)處不在,從折疊衣服到組裝家具都需要用到。
最后一種"綜合推理"能力要求AI將前面所有能力結(jié)合起來(lái),解決復(fù)雜的空間問題。這就像解決一個(gè)立體拼圖,需要同時(shí)考慮多個(gè)因素,進(jìn)行多步驟的空間推理。
研究團(tuán)隊(duì)選擇了八個(gè)最具代表性的測(cè)試基準(zhǔn)來(lái)評(píng)估這些能力。這些測(cè)試就像不同難度的空間智力游戲,從簡(jiǎn)單的物體識(shí)別到復(fù)雜的空間推理,全面考查AI的空間智能水平。有趣的是,這些測(cè)試基準(zhǔn)中的大部分都是在最近三個(gè)月內(nèi)發(fā)布的,這反映了空間智能研究的熱度正在急劇上升。
二、GPT-5的實(shí)際表現(xiàn)如何
當(dāng)研究團(tuán)隊(duì)對(duì)GPT-5進(jìn)行測(cè)試時(shí),結(jié)果既令人鼓舞又讓人擔(dān)憂。好消息是,GPT-5確實(shí)在空間智能方面取得了顯著進(jìn)步,在大多數(shù)測(cè)試中都超越了其他AI模型,成為了新的標(biāo)桿。在某些特定任務(wù)上,比如"度量測(cè)量"和"空間關(guān)系"理解,GPT-5甚至達(dá)到了接近人類的水平。
具體來(lái)看,在VSI-Bench測(cè)試中,GPT-5取得了36.27分的成績(jī)(滿分應(yīng)該是100分左右),而人類的得分是95.08分。在SITE測(cè)試中,GPT-5得到了64.18分,人類得分67.5分,這個(gè)差距已經(jīng)相當(dāng)小了。在處理物體大小估算的任務(wù)中,GPT-5表現(xiàn)尤其出色,在某些子項(xiàng)目上甚至超過了人類表現(xiàn)。
但是,壞消息是GPT-5距離真正的空間智能還有相當(dāng)?shù)木嚯x。在MMSI這個(gè)特別具有挑戰(zhàn)性的測(cè)試中,GPT-5只得到了22.47分,而人類得分高達(dá)96.27分,差距巨大。這就像一個(gè)人在簡(jiǎn)單的幾何題上表現(xiàn)不錯(cuò),但面對(duì)復(fù)雜的立體幾何問題時(shí)就完全束手無(wú)策了。
更有意思的發(fā)現(xiàn)是,GPT-5在不同類型的空間任務(wù)上表現(xiàn)差異極大。在需要"心理重構(gòu)"、"視角轉(zhuǎn)換"、"變形組裝"和"綜合推理"的任務(wù)中,GPT-5仍然遠(yuǎn)遠(yuǎn)落后于人類。這就像一個(gè)學(xué)生在某些科目上表現(xiàn)優(yōu)秀,但在其他科目上卻是不及格的水平。
三、思維模式對(duì)性能的影響
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)非常有趣的現(xiàn)象:GPT-5的"思考方式"對(duì)其空間推理能力有巨大影響。GPT-5有四種不同的思維強(qiáng)度模式:最小、低、中、高。就像人類思考問題時(shí)可以快速判斷,也可以深思熟慮一樣。
當(dāng)研究人員讓GPT-5使用更深入的思維模式時(shí),它的準(zhǔn)確率從48.31%提升到了56.78%。但這種提升是有代價(jià)的——思考時(shí)間大幅增加,從平均11.69秒延長(zhǎng)到140.3秒,就像一個(gè)學(xué)生從快速作答變成了仔細(xì)思考每道題。
更極端的情況是,在最高強(qiáng)度思維模式下,GPT-5經(jīng)常因?yàn)樗伎紩r(shí)間過長(zhǎng)(超過15分鐘)或思考內(nèi)容過多而"超時(shí)",就像考試時(shí)因?yàn)樵谝坏李}上花費(fèi)太多時(shí)間而無(wú)法完成整張?jiān)嚲怼_@揭示了一個(gè)重要問題:即使是最先進(jìn)的AI,在面對(duì)復(fù)雜空間推理任務(wù)時(shí),仍然需要在速度和準(zhǔn)確性之間做出權(quán)衡。
四、開源模型VS閉源模型的較量
研究結(jié)果還揭示了一個(gè)令人意外的發(fā)現(xiàn):在最困難的空間智能任務(wù)上,昂貴的閉源模型(如GPT-5、Gemini等)并沒有顯示出對(duì)開源模型的決定性優(yōu)勢(shì)。這就像在簡(jiǎn)單的數(shù)學(xué)題上,優(yōu)等生和中等生的差距很明顯,但在超級(jí)難題面前,大家都是一樣的困惑。
具體來(lái)說,在MMSI、OmniSpatial、STARE和SpatialViz等特別困難的測(cè)試中,無(wú)論是GPT-5這樣的頂級(jí)閉源模型,還是InternVL3、Qwen2.5-VL這樣的開源模型,都距離人類水平很遠(yuǎn),彼此之間的差距相對(duì)較小。這個(gè)發(fā)現(xiàn)對(duì)研究社區(qū)來(lái)說是個(gè)好消息,意味著開源社區(qū)完全有機(jī)會(huì)在空間智能這個(gè)前沿領(lǐng)域?qū)崿F(xiàn)突破。
五、循環(huán)評(píng)估揭示的問題
為了確保測(cè)試結(jié)果的可靠性,研究團(tuán)隊(duì)還采用了一種特殊的"循環(huán)評(píng)估"方法。這就像給學(xué)生出同一道題的不同版本,看他們是否能保持一致的表現(xiàn)。結(jié)果發(fā)現(xiàn),很多AI模型在這種測(cè)試中暴露出了"蒙對(duì)答案"的問題。
比如,一個(gè)模型在標(biāo)準(zhǔn)測(cè)試中可能得到80分,但在循環(huán)測(cè)試中只能得到60分,這意味著原來(lái)20分的成績(jī)實(shí)際上是靠運(yùn)氣獲得的。GPT-5在這方面表現(xiàn)相對(duì)穩(wěn)定,但仍然存在一定程度的性能下降,這提醒我們?cè)谠u(píng)估AI能力時(shí)需要更加謹(jǐn)慎。
六、具體案例分析的有趣發(fā)現(xiàn)
研究團(tuán)隊(duì)通過具體案例分析發(fā)現(xiàn)了一些既有趣又令人擔(dān)憂的現(xiàn)象。在"度量測(cè)量"任務(wù)中,GPT-5表現(xiàn)相當(dāng)不錯(cuò),能夠合理估算現(xiàn)實(shí)世界中物體的尺寸。這可能是因?yàn)樗谟?xùn)練過程中見過大量包含尺寸信息的圖像和文本。
在"心理重構(gòu)"任務(wù)中,GPT-5展現(xiàn)出了一些令人印象深刻的能力。比如,當(dāng)給它展示一個(gè)物體的多個(gè)視角時(shí),它能夠首次成功地重構(gòu)出物體的完整三維結(jié)構(gòu)。特別是在生成物體的俯視圖時(shí),當(dāng)啟用思維模式后,GPT-5的準(zhǔn)確性顯著提升。
但是,在"視角轉(zhuǎn)換"任務(wù)中,GPT-5仍然困難重重。當(dāng)需要想象從不同角度看同一個(gè)場(chǎng)景時(shí),特別是當(dāng)視角重疊很少時(shí),GPT-5往往無(wú)法正確推理。研究人員發(fā)現(xiàn),GPT-5試圖建立不同視角之間的對(duì)應(yīng)關(guān)系,但經(jīng)常誤解相機(jī)的旋轉(zhuǎn)方向。
最令人擔(dān)憂的是"變形組裝"任務(wù)。GPT-5在需要想象紙張折疊或物體組裝的任務(wù)中表現(xiàn)很差,甚至不如一些開源模型。這就像一個(gè)人雖然能夠識(shí)別各種工具,但完全不會(huì)使用它們一樣。
在"綜合推理"任務(wù)中,GPT-5面對(duì)需要多步驟空間推理的問題時(shí)也顯得力不從心。比如在一個(gè)看似簡(jiǎn)單的"數(shù)積木"任務(wù)中,GPT-5雖然能夠識(shí)別可見的積木,但無(wú)法通過空間推理推斷出隱藏積木的存在。
七、人類與AI的巨大差距
通過與人類表現(xiàn)的對(duì)比,研究揭示了一個(gè)發(fā)人深省的現(xiàn)象:在涉及空間智能的任務(wù)上,即使是最先進(jìn)的AI模型也遠(yuǎn)遠(yuǎn)落后于人類,而在非空間智能任務(wù)上,AI往往能夠達(dá)到甚至超越人類水平。
這種差距在某些測(cè)試中特別明顯。比如在CoreCognition測(cè)試的"形式運(yùn)算"類別(非空間智能任務(wù))中,多個(gè)AI模型都達(dá)到或超過了人類水平。但在同一測(cè)試的"視角轉(zhuǎn)換"任務(wù)中,即使是GPT-5也遠(yuǎn)遠(yuǎn)落后于人類表現(xiàn)。
這個(gè)發(fā)現(xiàn)提出了一個(gè)重要問題:為什么AI能夠在語(yǔ)言理解、數(shù)學(xué)計(jì)算、甚至某些創(chuàng)造性任務(wù)上表現(xiàn)出色,卻在人類看似輕松的空間推理上如此困難?研究團(tuán)隊(duì)認(rèn)為,這可能反映了當(dāng)前AI訓(xùn)練方法的局限性——大多數(shù)AI模型主要通過文本和二維圖像進(jìn)行訓(xùn)練,缺乏真實(shí)的三維空間經(jīng)驗(yàn)。
八、空間智能的特殊挑戰(zhàn)
研究發(fā)現(xiàn),空間智能任務(wù)對(duì)AI模型提出了獨(dú)特的挑戰(zhàn)。與語(yǔ)言或數(shù)學(xué)任務(wù)不同,空間推理往往需要模型能夠在腦海中"看到"和"操作"三維物體,這種能力很難通過傳統(tǒng)的文本訓(xùn)練獲得。
更具體地說,當(dāng)面對(duì)需要想象物體從不同角度的外觀、預(yù)測(cè)物體變形后的形狀、或者在復(fù)雜環(huán)境中進(jìn)行導(dǎo)航的任務(wù)時(shí),AI模型往往采用錯(cuò)誤的推理策略。它們可能會(huì)依賴二維圖像的表面特征,而不是真正理解三維空間關(guān)系。
這就像一個(gè)從來(lái)沒有玩過積木的人,雖然能夠通過圖片認(rèn)識(shí)各種形狀,但無(wú)法想象如何將它們組裝成復(fù)雜的結(jié)構(gòu)。AI模型缺乏的正是這種通過實(shí)際操作獲得的空間直覺。
九、評(píng)估方法的重要性
研究還強(qiáng)調(diào)了建立公平、準(zhǔn)確評(píng)估方法的重要性。由于不同的測(cè)試基準(zhǔn)采用不同的評(píng)分方法、系統(tǒng)提示和輸出格式,直接比較結(jié)果往往是不公平的。研究團(tuán)隊(duì)花費(fèi)了大量精力統(tǒng)一這些評(píng)估標(biāo)準(zhǔn),就像確保所有學(xué)生在相同條件下參加考試一樣。
他們發(fā)現(xiàn),AI模型的表現(xiàn)對(duì)評(píng)估細(xì)節(jié)高度敏感。比如,系統(tǒng)提示的微小變化可能導(dǎo)致開源模型性能波動(dòng)達(dá)到15個(gè)百分點(diǎn)。這提醒我們,在評(píng)估AI能力時(shí),必須非常小心地控制實(shí)驗(yàn)條件,否則可能得出誤導(dǎo)性的結(jié)論。
說到底,這項(xiàng)耗費(fèi)巨大資源的研究為我們提供了一個(gè)清晰的答案:GPT-5雖然在空間智能方面取得了顯著進(jìn)步,并且在某些特定任務(wù)上接近了人類水平,但距離真正的空間智能還有相當(dāng)大的距離。這就像一個(gè)學(xué)生在某些科目上表現(xiàn)優(yōu)異,但總體而言還沒有達(dá)到畢業(yè)標(biāo)準(zhǔn)。
更重要的是,這項(xiàng)研究揭示了AI發(fā)展中的一個(gè)重要盲點(diǎn):盡管我們?cè)谧寵C(jī)器理解語(yǔ)言和處理信息方面取得了巨大成功,但在讓機(jī)器真正"看懂"和"理解"我們的三維世界方面,還有很長(zhǎng)的路要走。這不僅僅是技術(shù)問題,更是對(duì)AI如何獲得類似人類的空間直覺這一根本問題的探索。
對(duì)于普通人來(lái)說,這意味著什么呢?首先,我們不應(yīng)該期待現(xiàn)在的AI能夠完全替代需要空間推理的人類工作,比如建筑設(shè)計(jì)、工程制圖或者復(fù)雜的裝配任務(wù)。其次,這也提醒我們,人類的空間智能是一種非常珍貴和獨(dú)特的能力,值得我們更加珍視。最后,隨著研究的深入,我們可能會(huì)看到專門針對(duì)空間智能優(yōu)化的AI系統(tǒng)的出現(xiàn),這將為robotics、自動(dòng)駕駛、虛擬現(xiàn)實(shí)等領(lǐng)域帶來(lái)革命性的變化。
研究團(tuán)隊(duì)希望這項(xiàng)工作能夠?yàn)槲磥?lái)的空間智能研究奠定基礎(chǔ)。他們不僅提供了當(dāng)前模型性能的全面評(píng)估,還標(biāo)準(zhǔn)化了評(píng)估方法,為研究社區(qū)提供了共同的參考框架。正如他們?cè)谡撐闹兴f,空間智能可能是實(shí)現(xiàn)真正人工通用智能路上最后的幾個(gè)重要frontiers之一。
這項(xiàng)研究最終告訴我們,雖然我們已經(jīng)創(chuàng)造出了在某些方面超越人類的AI,但讓機(jī)器真正理解我們生活的這個(gè)三維世界,仍然是一個(gè)充滿挑戰(zhàn)的目標(biāo)。GPT-5的出現(xiàn)讓我們向這個(gè)目標(biāo)又邁進(jìn)了一步,但這只是漫長(zhǎng)旅程的開始,而不是終點(diǎn)。
Q&A
Q1:什么是空間智能?為什么對(duì)AI來(lái)說這么困難?
A:空間智能就是我們?nèi)祟惷刻於荚谑褂玫哪芰?,比如想象從不同角度看一個(gè)物體的樣子,在腦海中旋轉(zhuǎn)立方體,或根據(jù)地圖找路。對(duì)AI來(lái)說困難是因?yàn)榇蠖鄶?shù)AI模型主要通過文本和二維圖像訓(xùn)練,缺乏真實(shí)的三維空間經(jīng)驗(yàn),就像一個(gè)從未玩過積木的人無(wú)法想象如何組裝復(fù)雜結(jié)構(gòu)一樣。
Q2:GPT-5在空間智能測(cè)試中的表現(xiàn)如何?
A:GPT-5表現(xiàn)呈現(xiàn)兩極分化。在簡(jiǎn)單的度量測(cè)量和空間關(guān)系任務(wù)中接近人類水平,比如在SITE測(cè)試中得到64.18分,人類得分67.5分。但在復(fù)雜的空間推理任務(wù)中差距巨大,如MMSI測(cè)試中只得22.47分,人類得分96.27分??傮w而言,GPT-5雖然是目前最好的AI模型,但距離真正的空間智能還很遠(yuǎn)。
Q3:這項(xiàng)研究花費(fèi)了多少資源?測(cè)試了哪些內(nèi)容?
A:研究團(tuán)隊(duì)耗費(fèi)超過十億個(gè)token(相當(dāng)于數(shù)百萬(wàn)頁(yè)文檔的信息量)對(duì)多個(gè)AI模型進(jìn)行測(cè)試。他們將空間智能分為六種核心能力:度量測(cè)量、心理重構(gòu)、空間關(guān)系、視角轉(zhuǎn)換、變形組裝和綜合推理,使用八個(gè)代表性測(cè)試基準(zhǔn)進(jìn)行全面評(píng)估,就像給AI模型進(jìn)行了史無(wú)前例的"空間智商測(cè)試"。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。