av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 上海AI實(shí)驗(yàn)室團(tuán)隊(duì)提出LEGO-Puzzles:揭露多模態(tài)大模型在空間推理上的驚人短板

上海AI實(shí)驗(yàn)室團(tuán)隊(duì)提出LEGO-Puzzles:揭露多模態(tài)大模型在空間推理上的驚人短板

2025-07-30 10:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-30 10:00 ? 科技行者

這項(xiàng)由上海AI實(shí)驗(yàn)室聯(lián)合同濟(jì)大學(xué)、清華大學(xué)的研究團(tuán)隊(duì)于2025年6月發(fā)表在arXiv預(yù)印本平臺(tái)上的研究(論文編號(hào):arXiv:2503.19990v3),通過一個(gè)巧妙的LEGO積木評測基準(zhǔn),深度檢驗(yàn)了當(dāng)前最先進(jìn)多模態(tài)大語言模型的空間推理能力。有興趣深入了解的讀者可以通過論文編號(hào)在arXiv平臺(tái)訪問完整研究內(nèi)容。

研究團(tuán)隊(duì)由唐克仙、高俊堯等多位研究者組成,他們發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:即使是最強(qiáng)大的人工智能模型,在處理需要多步驟空間推理的任務(wù)時(shí),表現(xiàn)竟然只能達(dá)到人類水平的一半左右。這個(gè)發(fā)現(xiàn)對于我們理解人工智能的真實(shí)能力,以及未來在機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域的應(yīng)用具有重要意義。

研究背景可以用一個(gè)簡單的比喻來理解:就像我們從小玩積木一樣,搭建一個(gè)完整的LEGO模型需要理解每個(gè)零件的形狀、大小、連接方式,還要按照說明書一步步組裝。這個(gè)過程看似簡單,實(shí)際上需要大腦進(jìn)行復(fù)雜的三維空間思維和邏輯推理。研究團(tuán)隊(duì)正是利用這個(gè)特點(diǎn),設(shè)計(jì)了一套全面的測試體系來評估人工智能模型是否真的具備了類似人類的空間智能。

在當(dāng)今人工智能飛速發(fā)展的時(shí)代,多模態(tài)大語言模型已經(jīng)在圖像識(shí)別、文本理解等單一任務(wù)上表現(xiàn)出色,但在需要多步驟空間推理的復(fù)雜場景中,它們的真實(shí)能力仍然是個(gè)謎。這項(xiàng)研究首次系統(tǒng)性地揭示了這個(gè)重要問題,為未來人工智能的發(fā)展方向提供了寶貴的洞察。

一、積木世界里的智能測試:LEGO-Puzzles基準(zhǔn)的巧妙設(shè)計(jì)

研究團(tuán)隊(duì)選擇LEGO積木作為測試載體絕非偶然,這背后有著深刻的認(rèn)知科學(xué)依據(jù)。就像兒童通過搭積木逐步發(fā)展空間認(rèn)知能力一樣,人類的空間智能發(fā)展遵循著從簡單到復(fù)雜的階段性規(guī)律。首先是基礎(chǔ)的空間理解能力,比如判斷物體的高低、遠(yuǎn)近關(guān)系;然后是單步驟的組裝推理,能夠理解如何將一個(gè)零件正確安裝到指定位置;最后是多步驟的序列推理,能夠規(guī)劃和執(zhí)行復(fù)雜的組裝流程。

基于這種認(rèn)知發(fā)展模式,研究團(tuán)隊(duì)將測試任務(wù)分為三個(gè)遞進(jìn)的層次。第一層是空間理解測試,就像教孩子認(rèn)識(shí)"上下左右"一樣基礎(chǔ)但重要。這包括高度判斷任務(wù),讓模型比較不同LEGO積木在三維空間中的相對高度;相鄰性判斷任務(wù),確定積木塊是否相互接觸;旋轉(zhuǎn)角度計(jì)算任務(wù),識(shí)別積木旋轉(zhuǎn)了多少度;以及多視角預(yù)測任務(wù),從不同角度觀察同一個(gè)積木組合。

第二層是單步驟推理測試,這就像詢問"下一步應(yīng)該怎么做"。研究團(tuán)隊(duì)設(shè)計(jì)了旋轉(zhuǎn)狀態(tài)判斷任務(wù),確定某個(gè)零件在安裝前是否需要旋轉(zhuǎn);位置確定任務(wù),找出零件應(yīng)該安裝在哪個(gè)精確位置;下一步預(yù)測任務(wù),根據(jù)當(dāng)前狀態(tài)和待安裝零件預(yù)測組裝后的樣子;依賴關(guān)系識(shí)別任務(wù),判斷完成某個(gè)步驟需要哪些特定零件。

第三層是多步驟推理測試,這是最具挑戰(zhàn)性的部分,需要模型像熟練的積木大師一樣進(jìn)行長期規(guī)劃。逆向推理任務(wù)要求模型從完成品倒推中間步驟;排序任務(wù)需要將打亂的組裝步驟重新排列成正確順序;異常檢測任務(wù)要求識(shí)別出不屬于正確組裝流程的步驟。

整個(gè)LEGO-Puzzles基準(zhǔn)包含了1100個(gè)精心設(shè)計(jì)的視覺問答樣本,涵蓋11種不同類型的任務(wù)。每個(gè)任務(wù)都包含100個(gè)測試樣本,確保評估結(jié)果的統(tǒng)計(jì)可靠性。更重要的是,這些測試樣本都來自真實(shí)的LEGO積木套裝,具有很強(qiáng)的實(shí)用性和代表性。

數(shù)據(jù)構(gòu)建過程也頗具匠心。研究團(tuán)隊(duì)首先從互聯(lián)網(wǎng)收集了大量開源的LEGO項(xiàng)目文件,這些文件包含詳細(xì)的分步組裝說明和零件清單。為了確保測試的合適難度,他們過濾掉了過于復(fù)雜或過于簡單的項(xiàng)目。太復(fù)雜的項(xiàng)目結(jié)構(gòu)繁瑣,微小的視覺變化讓模型難以察覺步驟差異;太簡單的項(xiàng)目則缺乏足夠的空間復(fù)雜性,無法有效測試多步推理能力。

接下來是渲染和轉(zhuǎn)換階段。研究團(tuán)隊(duì)使用專業(yè)軟件將LEGO項(xiàng)目渲染成PDF格式,保持?jǐn)z像機(jī)視角在各步驟間的一致性,確??臻g和時(shí)間的連貫性。這個(gè)工具還允許靈活編輯源文件,可以根據(jù)任務(wù)需求修改零件屬性,比如類型、數(shù)量、顏色和位置。比如在旋轉(zhuǎn)和多視角任務(wù)中,他們應(yīng)用POV-Ray風(fēng)格渲染并調(diào)整光照來模擬不同觀察角度;在逆向推理任務(wù)中,他們故意在零件屬性中引入錯(cuò)誤來生成不正確的組裝狀態(tài)。

質(zhì)量控制環(huán)節(jié)同樣嚴(yán)格。研究團(tuán)隊(duì)實(shí)施了多階段的人工審核流程,包括重復(fù)樣本過濾、圖像質(zhì)量檢查和模板驗(yàn)證。每個(gè)問答對都經(jīng)過三名訓(xùn)練有素的標(biāo)注員驗(yàn)證,確保圖像標(biāo)記的正確順序和答案的準(zhǔn)確性。對于存在分歧的樣本,要么修訂要么移除,確保最終數(shù)據(jù)集的高質(zhì)量。

二、令人意外的測試結(jié)果:人工智能的空間推理短板暴露無遺

當(dāng)研究團(tuán)隊(duì)用LEGO-Puzzles基準(zhǔn)測試了20個(gè)當(dāng)前最先進(jìn)的多模態(tài)大語言模型后,結(jié)果令人深思。這些模型包括了業(yè)界最頂尖的產(chǎn)品,比如OpenAI的GPT-4o、谷歌的Gemini-2.0-Flash,以及眾多優(yōu)秀的開源模型如Qwen2-VL、InternVL等。

測試結(jié)果呈現(xiàn)出明顯的分化格局。在閉源商業(yè)模型方面,表現(xiàn)最好的是GPT-4o,總體準(zhǔn)確率達(dá)到57.7%,其次是Gemini-2.0-Flash的54.0%。這個(gè)成績看起來還不錯(cuò),但要知道,這已經(jīng)是目前人工智能領(lǐng)域最強(qiáng)大的模型了。相比之下,開源模型的表現(xiàn)就顯得力不從心了,大部分模型的準(zhǔn)確率都在隨機(jī)猜測的水平附近徘徊,只有少數(shù)幾個(gè)大型模型如Qwen2.5-VL-72B達(dá)到了53.0%的準(zhǔn)確率。

更加鮮明的對比來自與人類表現(xiàn)的比較。研究團(tuán)隊(duì)邀請了30名人類專家對隨機(jī)選擇的220個(gè)問題進(jìn)行測試,結(jié)果人類專家的平均準(zhǔn)確率高達(dá)93.6%。這意味著即使是最強(qiáng)大的人工智能模型,也與人類存在超過30%的巨大差距。這個(gè)差距不是一點(diǎn)點(diǎn)的技術(shù)調(diào)優(yōu)就能彌補(bǔ)的,而是反映了當(dāng)前人工智能在空間推理能力上的根本性不足。

深入分析各項(xiàng)任務(wù)的表現(xiàn),我們能發(fā)現(xiàn)更多有趣的細(xì)節(jié)。在基礎(chǔ)的空間理解任務(wù)中,高度判斷是一個(gè)特別能暴露問題的測試。研究團(tuán)隊(duì)故意設(shè)計(jì)了一些從二維視角看會(huì)產(chǎn)生誤導(dǎo)的案例,只有真正理解三維空間關(guān)系的模型才能答對。結(jié)果顯示,20個(gè)模型中有11個(gè)的表現(xiàn)還不如隨機(jī)猜測,這說明大多數(shù)模型實(shí)際上是在用二維的思維方式處理三維問題,就像看平面照片來判斷物體的真實(shí)距離一樣不靠譜。

旋轉(zhuǎn)角度識(shí)別任務(wù)同樣困難重重。要準(zhǔn)確識(shí)別一個(gè)物體旋轉(zhuǎn)了多少度,需要模型具備精確的角度感知和空間變換理解能力。結(jié)果顯示,20個(gè)模型中有6個(gè)的表現(xiàn)低于隨機(jī)水平,大多數(shù)模型的準(zhǔn)確率都達(dá)不到40%。這表明當(dāng)前的人工智能模型在感知和區(qū)分物體方向變化方面存在嚴(yán)重困難。

在序列推理任務(wù)中,問題變得更加嚴(yán)峻。多步驟的排序任務(wù)要求模型像拼圖大師一樣,理解多個(gè)步驟之間的邏輯依賴關(guān)系,并將打亂的步驟重新排列成正確順序。結(jié)果顯示,幾乎一半的模型在這個(gè)任務(wù)上的表現(xiàn)都低于統(tǒng)計(jì)顯著性水平,有些模型如InternVL2.5-8B、LLaVA-OneVision-7B甚至完全失敗,得分為零。

類似的困難也出現(xiàn)在逆向推理任務(wù)中。這個(gè)任務(wù)要求模型從完整的積木作品出發(fā),識(shí)別出某個(gè)特定的中間組裝階段。這就像讓模型成為一名考古學(xué)家,從最終結(jié)果推斷歷史過程。結(jié)果顯示,14個(gè)開源模型中有8個(gè)的表現(xiàn)低于隨機(jī)水平,說明大多數(shù)模型缺乏這種逆向思維能力。

三、深度實(shí)驗(yàn):探索多模態(tài)模型的生成能力與推理步長影響

除了傳統(tǒng)的選擇題測試,研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)創(chuàng)新性的實(shí)驗(yàn):讓模型不再是選擇答案,而是直接生成圖像。這就像從"選擇題考試"變成了"作文考試",難度和要求都大大提升。他們將原本的多選題轉(zhuǎn)換成圖像生成任務(wù),比如給定一個(gè)積木組合,要求模型生成它旋轉(zhuǎn)60度后的樣子;或者給定組裝前后的狀態(tài),要求模型生成需要添加的零件圖像。

這項(xiàng)測試涵蓋了8個(gè)不同的模型,包括開源的Emu2、GILL、Anole,以及商業(yè)模型GPT-4o、Gemini-2.0-Flash等。評估方式也很有意思,研究團(tuán)隊(duì)請來了5名人類專家,從外觀相似度和指令遵循度兩個(gè)維度對生成結(jié)果進(jìn)行打分,每個(gè)維度滿分3分。

結(jié)果再次讓人意外。即使是表現(xiàn)最好的GPT-4o,在外觀相似度上也只得到了2.25分,在指令遵循度上更是只有1.77分。這意味著即使是最先進(jìn)的模型,也只能勉強(qiáng)保持生成圖像的基本外觀,而在理解和執(zhí)行復(fù)雜的空間變換指令方面還有很大不足。Gemini-2.0-Flash的表現(xiàn)相近,外觀相似度2.15分,指令遵循度1.08分。

更早版本的GPT-4o表現(xiàn)則顯著不同,雖然在某些任務(wù)上外觀保持還可以,但整體指令遵循能力很弱。研究團(tuán)隊(duì)分析認(rèn)為,這個(gè)版本的模型可能不是直接編輯輸入圖像,而是基于文本理解重新生成整個(gè)場景,這導(dǎo)致了較低的外觀一致性,反映的是概念重構(gòu)過程而非精確的視覺編輯。

開源模型的表現(xiàn)就更加令人擔(dān)憂了。Emu2雖然在保持視覺外觀方面還有一些能力(0.89分),但在指令遵循方面幾乎完全失?。?.05分),基本上把這些任務(wù)當(dāng)作簡單的圖像復(fù)制而不是基于推理的生成。GILL和Anole的表現(xiàn)則是全面失敗,在所有任務(wù)上的得分都接近零,經(jīng)常生成與指令完全無關(guān)的輸出。

這些結(jié)果清楚地表明,當(dāng)前的多模態(tài)模型雖然在圖像識(shí)別和基礎(chǔ)的視覺理解方面已經(jīng)相當(dāng)成熟,但在需要空間推理指導(dǎo)的圖像生成方面還處于起步階段。大多數(shù)模型要么無法理解復(fù)雜的空間變換指令,要么無法將理解轉(zhuǎn)化為準(zhǔn)確的視覺輸出。

為了更深入地理解模型在多步推理方面的局限性,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)漸進(jìn)式的實(shí)驗(yàn):Next-k-Step任務(wù)。這個(gè)實(shí)驗(yàn)的巧妙之處在于,它可以精確控制推理的步驟數(shù)量,從而觀察模型性能隨步驟增加而變化的規(guī)律。

具體來說,研究團(tuán)隊(duì)設(shè)置了k=1到k=5五個(gè)不同的推理長度。k=1意味著只需要推理一步,k=5則需要連續(xù)推理五個(gè)步驟。每個(gè)設(shè)置都包含20個(gè)測試案例,確保結(jié)果的統(tǒng)計(jì)可靠性。同時(shí),他們還測試了廣泛使用的"鏈?zhǔn)剿季S"提示策略是否能改善多步推理性能。

結(jié)果顯現(xiàn)出清晰的規(guī)律。GPT-4o和Gemini-2.0-Flash都表現(xiàn)出明顯的性能遞減趨勢:隨著推理步驟的增加,準(zhǔn)確率顯著下降。GPT-4o在k=1時(shí)還能達(dá)到45%的準(zhǔn)確率,但到了k=4和k=5時(shí)就降到了5%;Gemini-2.0-Flash從k=1時(shí)的85%一路下滑到k=5時(shí)的20%。這種下降反映了這些模型在處理多步序列推理時(shí)的根本困難,就像人在心算復(fù)雜數(shù)學(xué)題時(shí),步驟越多出錯(cuò)概率越大。

令人意外的是,Qwen2.5-VL-72B展現(xiàn)出了與眾不同的穩(wěn)定性。無論推理步驟有多少,它都能保持大約65%的準(zhǔn)確率,這種一致性暗示著該模型可能具備了某種更強(qiáng)的多步推理穩(wěn)定性。相比之下,InternVL2.5-78B的表現(xiàn)基本維持在隨機(jī)猜測水平(25%)附近,不管步驟多少,都顯示出有限的整體效果。

關(guān)于"鏈?zhǔn)剿季S"提示策略的效果,結(jié)果同樣發(fā)人深省。在k=1的簡單情況下,這種策略確實(shí)能帶來顯著改善,GPT-4o提升了30%,InternVL2.5-78B提升了20%。但隨著推理步驟增加到k≥2,這種策略的效果就迅速消失甚至產(chǎn)生負(fù)面影響。GPT-4o在k=4時(shí)甚至降到了0%,InternVL2.5-78B也無法維持在隨機(jī)基線之上。

這個(gè)發(fā)現(xiàn)特別重要,因?yàn)?鏈?zhǔn)剿季S"提示一直被認(rèn)為是提升大語言模型推理能力的重要技術(shù)。但在空間推理任務(wù)中,它的局限性暴露得非常明顯。Gemini-2.0-Flash和Qwen2.5-VL-72B對這種策略基本沒有響應(yīng),表明它們可能已經(jīng)有了某種內(nèi)在的推理結(jié)構(gòu),不需要依賴外部的步驟分解指導(dǎo)。

四、真實(shí)世界的驗(yàn)證:從虛擬積木到自然圖像的能力遷移

考慮到LEGO-Puzzles基于渲染數(shù)據(jù)構(gòu)建,一個(gè)自然的疑問是:這種合成環(huán)境下的測試結(jié)果能否反映模型在真實(shí)世界場景中的空間推理能力?為了回答這個(gè)關(guān)鍵問題,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)重要的驗(yàn)證實(shí)驗(yàn)。

他們選擇了3DSRBench作為對比基準(zhǔn),這是一個(gè)基于自然圖像的三維空間推理評測集。雖然兩個(gè)基準(zhǔn)的具體任務(wù)設(shè)計(jì)不同,但它們在核心能力要求上高度相似。LEGO-Puzzles中的高度判斷任務(wù)對應(yīng)3DSRBench中的高度任務(wù),相鄰性判斷任務(wù)對應(yīng)位置任務(wù)。這種對應(yīng)關(guān)系為跨數(shù)據(jù)集的能力比較提供了基礎(chǔ)。

研究團(tuán)隊(duì)對所有在LEGO-Puzzles上測試過的商業(yè)模型進(jìn)行了3DSRBench上相應(yīng)任務(wù)的評估,然后計(jì)算兩個(gè)數(shù)據(jù)集上性能表現(xiàn)的皮爾遜相關(guān)系數(shù)。結(jié)果令人振奮:高度任務(wù)的相關(guān)系數(shù)達(dá)到0.93,相鄰性任務(wù)更是高達(dá)0.98,兩者的p值都小于0.01,表明統(tǒng)計(jì)顯著性很強(qiáng)。

這種強(qiáng)相關(guān)性意味著什么?簡單來說,就是一個(gè)模型如果在LEGO積木的虛擬世界里空間推理能力強(qiáng),那么它在真實(shí)照片中處理類似問題的能力也會(huì)相應(yīng)較強(qiáng);反之,在虛擬環(huán)境中表現(xiàn)不佳的模型,在真實(shí)場景中也難以有出色表現(xiàn)。這個(gè)發(fā)現(xiàn)驗(yàn)證了LEGO-Puzzles作為空間推理能力評測工具的有效性和代表性。

更深層的意義在于,這表明空間推理能力是一種相對通用的認(rèn)知能力,不會(huì)因?yàn)閿?shù)據(jù)的具體形式(是渲染圖像還是自然照片)而發(fā)生根本性改變。就像一個(gè)人的空間想象力在搭積木和看建筑圖紙時(shí)都會(huì)發(fā)揮作用一樣,人工智能模型的空間推理能力也具有跨域的一致性。

這個(gè)驗(yàn)證結(jié)果還有另一層重要含義:它證明了使用合成數(shù)據(jù)進(jìn)行空間推理評測的合理性。在人工智能研究中,合成數(shù)據(jù)具有可控性強(qiáng)、規(guī)??蓴U(kuò)展、標(biāo)注成本低等優(yōu)勢,但一直存在與真實(shí)世界差距的質(zhì)疑。LEGO-Puzzles的成功驗(yàn)證為這類研究方法提供了有力支持,表明精心設(shè)計(jì)的合成環(huán)境確實(shí)能夠有效評估模型的核心能力。

從更廣闊的視角來看,這項(xiàng)驗(yàn)證實(shí)驗(yàn)還揭示了一個(gè)有趣的現(xiàn)象:空間推理能力的評估可能比我們想象的更加穩(wěn)定和可預(yù)測。不管是在精心控制的實(shí)驗(yàn)室環(huán)境中,還是在復(fù)雜多變的真實(shí)世界里,模型之間的相對優(yōu)劣關(guān)系基本保持一致。這為未來開發(fā)更好的空間推理模型提供了明確的方向指引。

五、研究啟示:多模態(tài)人工智能發(fā)展的新思考

通過LEGO-Puzzles這個(gè)巧妙的測試平臺(tái),這項(xiàng)研究為我們理解當(dāng)前多模態(tài)人工智能的真實(shí)能力提供了珍貴的洞察。就像用一面鏡子照出了人工智能發(fā)展過程中一些之前被忽視的盲點(diǎn)。

最直接的發(fā)現(xiàn)是,即使是當(dāng)前最先進(jìn)的人工智能模型,在需要多步驟空間推理的任務(wù)上仍然存在顯著不足。這種不足不是簡單的技術(shù)細(xì)節(jié)問題,而是反映了當(dāng)前人工智能架構(gòu)在處理三維空間信息和序列推理方面的根本性局限。就像一個(gè)只會(huì)背誦公式但不理解物理原理的學(xué)生,這些模型雖然在單項(xiàng)任務(wù)上表現(xiàn)出色,但在需要綜合運(yùn)用多種空間認(rèn)知能力的復(fù)雜場景中就暴露出明顯短板。

研究結(jié)果顯示的另一個(gè)重要現(xiàn)象是,開源模型和商業(yè)模型之間存在顯著的能力差距。這種差距不僅體現(xiàn)在總體性能上,更體現(xiàn)在處理復(fù)雜推理任務(wù)的穩(wěn)定性上。商業(yè)模型雖然也遠(yuǎn)未達(dá)到人類水平,但至少在大多數(shù)任務(wù)上能夠超越隨機(jī)猜測;而許多開源模型的表現(xiàn)甚至不如隨機(jī)選擇,這表明它們可能根本沒有掌握相關(guān)的推理模式。

這種差距的背后可能隱藏著訓(xùn)練數(shù)據(jù)質(zhì)量、模型架構(gòu)設(shè)計(jì)、計(jì)算資源投入等多個(gè)因素的綜合影響。商業(yè)模型通常擁有更大規(guī)模的高質(zhì)量訓(xùn)練數(shù)據(jù)、更精細(xì)的模型調(diào)優(yōu)和更充足的計(jì)算資源支持,這些優(yōu)勢在處理復(fù)雜推理任務(wù)時(shí)可能會(huì)被放大。但即使如此,它們與人類的巨大差距也提醒我們,單純依靠規(guī)模擴(kuò)展可能無法解決空間推理的根本問題。

從技術(shù)發(fā)展角度來看,研究揭示的問題指向了幾個(gè)重要的改進(jìn)方向。首先是三維空間表征能力的提升。當(dāng)前的多模態(tài)模型主要基于二維圖像訓(xùn)練,雖然能夠識(shí)別圖像中的物體和場景,但對真正的三維空間關(guān)系理解有限。未來可能需要引入更多三維幾何知識(shí)、空間變換原理和立體視覺機(jī)制。

其次是序列推理能力的增強(qiáng)。多步驟推理不僅需要每一步的準(zhǔn)確執(zhí)行,更需要步驟之間的邏輯連貫和長期規(guī)劃能力。當(dāng)前模型在這方面的表現(xiàn)表明,簡單的注意力機(jī)制和transformer架構(gòu)可能還不足以支撐復(fù)雜的序列推理??赡苄枰敫鞔_的推理結(jié)構(gòu)、記憶機(jī)制和規(guī)劃算法。

研究還揭示了一個(gè)有趣的現(xiàn)象:不同模型展現(xiàn)出了不同的推理特征。比如Qwen2.5-VL-72B在多步推理中表現(xiàn)出的穩(wěn)定性,以及某些模型對"鏈?zhǔn)剿季S"提示的不同響應(yīng)模式。這些差異可能反映了不同的訓(xùn)練策略和架構(gòu)設(shè)計(jì)對推理能力的影響,為未來模型設(shè)計(jì)提供了有價(jià)值的參考。

從應(yīng)用前景來看,空間推理能力的不足對許多實(shí)際應(yīng)用領(lǐng)域都有重要影響。在機(jī)器人控制領(lǐng)域,機(jī)器人需要理解三維環(huán)境、規(guī)劃運(yùn)動(dòng)軌跡、執(zhí)行復(fù)雜的操作序列,這些都高度依賴空間推理能力。在自動(dòng)駕駛領(lǐng)域,車輛需要實(shí)時(shí)理解復(fù)雜的三維交通環(huán)境、預(yù)測其他車輛的運(yùn)動(dòng)軌跡、規(guī)劃安全的行駛路徑。在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用中,系統(tǒng)需要準(zhǔn)確理解真實(shí)世界的三維結(jié)構(gòu)并與虛擬對象進(jìn)行自然交互。

目前多模態(tài)模型在空間推理方面的局限性意味著,這些應(yīng)用領(lǐng)域可能還需要更長時(shí)間才能實(shí)現(xiàn)真正的智能化。但同時(shí),這也為相關(guān)研究和技術(shù)發(fā)展指明了清晰的方向和目標(biāo)。

說到底,這項(xiàng)研究最大的價(jià)值可能不在于揭示了人工智能的不足,而在于為我們提供了一個(gè)評估和改進(jìn)空間推理能力的有效工具。LEGO-Puzzles不僅是一個(gè)測試基準(zhǔn),更是一個(gè)研究平臺(tái),可以幫助研究者系統(tǒng)地分析不同方法的優(yōu)劣,追蹤技術(shù)進(jìn)步的軌跡,發(fā)現(xiàn)新的研究機(jī)會(huì)。

歸根結(jié)底,空間智能是人類認(rèn)知能力的重要組成部分,也是人工智能走向真正通用智能的必經(jīng)之路。通過LEGO積木這個(gè)看似簡單的載體,我們看到了當(dāng)前人工智能發(fā)展中的重要挑戰(zhàn),也看到了未來突破的方向。正如兒童通過搭積木逐步發(fā)展空間認(rèn)知能力一樣,人工智能也需要在這個(gè)過程中不斷學(xué)習(xí)和改進(jìn),最終具備真正的空間智能。

對于有興趣深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)和完整實(shí)驗(yàn)結(jié)果的讀者,可以通過arXiv:2503.19990v3在相關(guān)學(xué)術(shù)平臺(tái)查閱完整論文,研究團(tuán)隊(duì)還在項(xiàng)目主頁提供了數(shù)據(jù)集和代碼,為后續(xù)研究提供了便利的基礎(chǔ)。

Q&A

Q1:LEGO-Puzzles是什么?它是如何測試AI模型的? A:LEGO-Puzzles是上海AI實(shí)驗(yàn)室開發(fā)的一個(gè)評測基準(zhǔn),通過1100個(gè)LEGO積木相關(guān)的視覺問答任務(wù)來測試AI模型的空間推理能力。它設(shè)計(jì)了11種不同難度的任務(wù),從簡單的高度判斷到復(fù)雜的多步驟組裝規(guī)劃,像給AI做"空間智力測試"一樣全面評估其三維思維能力。

Q2:目前最強(qiáng)的AI模型在空間推理方面表現(xiàn)如何? A:令人意外的是,即使是GPT-4o這樣的頂級(jí)模型,在LEGO-Puzzles上的準(zhǔn)確率也只有57.7%,而人類專家能達(dá)到93.6%。大多數(shù)開源模型的表現(xiàn)甚至接近隨機(jī)猜測水平。這表明當(dāng)前AI在空間推理方面還有巨大提升空間,與人類存在30%以上的性能差距。

Q3:這項(xiàng)研究對未來AI發(fā)展有什么意義? A:這項(xiàng)研究揭示了當(dāng)前AI在三維空間理解和多步推理方面的重要短板,這直接影響到機(jī)器人控制、自動(dòng)駕駛、AR/VR等應(yīng)用的發(fā)展。同時(shí),LEGO-Puzzles為AI研究提供了一個(gè)標(biāo)準(zhǔn)化的評測工具,幫助研究者更好地改進(jìn)模型的空間推理能力,推動(dòng)AI向真正的通用智能發(fā)展。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-