av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<sup id="sg5a8"></sup>

<blockquote id="sg5a8"><rt id="sg5a8"></rt></blockquote>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

視角正確嗎？用多維精細(xì)感知任務(wù)解析多模態(tài)大語(yǔ)言模型的方向理解能力

人工智能多模態(tài)大語(yǔ)言模型空間推理

視角正確嗎？用多維精細(xì)感知任務(wù)解析多模態(tài)大語(yǔ)言模型的方向理解能力

作者：科技行者

2025-06-03 09:49

分享至：

波士頓大學(xué)研究團(tuán)隊(duì)開發(fā)的DORI基準(zhǔn)測(cè)試從四個(gè)維度評(píng)估多模態(tài)大語(yǔ)言模型的物體方向理解能力：正面對(duì)齊、旋轉(zhuǎn)變換、相對(duì)方向和規(guī)范方向感知。研究評(píng)估了15個(gè)最先進(jìn)模型，發(fā)現(xiàn)即使最佳模型在粗粒度任務(wù)上的準(zhǔn)確率也僅為54.2%，在細(xì)粒度方向判斷上更低至33.0%，與人類表現(xiàn)相差近30%。結(jié)果表明當(dāng)前模型在精確角度估計(jì)、多視角追蹤和理解復(fù)合旋轉(zhuǎn)方面存在系統(tǒng)性缺陷，反映了它們內(nèi)部3D空間表示的根本局限，為未來(lái)模型設(shè)計(jì)提供了明確方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-03 09:49 ? 科技行者

多模態(tài)大語(yǔ)言模型（MLLMs）近年來(lái)在許多視覺(jué)-語(yǔ)言任務(wù)上取得了令人矚目的進(jìn)展，但它們是否真正理解物體的方向性？這個(gè)看似簡(jiǎn)單的問(wèn)題，實(shí)際上關(guān)系到機(jī)器人操作、自動(dòng)駕駛和增強(qiáng)現(xiàn)實(shí)等眾多實(shí)際應(yīng)用。波士頓大學(xué)的研究團(tuán)隊(duì)于2025年5月發(fā)表了一項(xiàng)開創(chuàng)性研究，深入探究了這個(gè)問(wèn)題。由Keanu Nichols、Nazia Tasnim（共同第一作者）、Yuting Yan、Nicholas Ikechukwu、Elva Zou、Deepti Ghadiyaram和Bryan A. Plummer組成的研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為DORI（辨別性方向推理智能）的綜合基準(zhǔn)測(cè)試，專門評(píng)估MLLMs對(duì)物體方向的理解能力。有興趣的讀者可以通過(guò)其GitHub倉(cāng)庫(kù)（https://huggingface.co/datasets/appledora/DORI-Benchmark）獲取完整數(shù)據(jù)集。

想象一下，你進(jìn)入一個(gè)房間，需要快速判斷哪些物體朝向你，哪些背對(duì)你，或者哪些物體彼此面對(duì)面。這對(duì)人類來(lái)說(shuō)是如此自然的能力，我們甚至不需要思考就能完成。但對(duì)于人工智能系統(tǒng)，尤其是多模態(tài)大語(yǔ)言模型，這實(shí)際上是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。這項(xiàng)研究正是探索了這些AI系統(tǒng)在理解物體方向方面的能力與局限。

目前的多模態(tài)模型評(píng)估基準(zhǔn)往往將方向理解與其他空間關(guān)系（如上/下、物體間距離）混為一談，或者僅通過(guò)少量樣本進(jìn)行測(cè)試，無(wú)法全面評(píng)估模型的方向理解能力。而DORI基準(zhǔn)則專門針對(duì)物體方向理解設(shè)計(jì)了一系列精細(xì)的測(cè)試任務(wù)，覆蓋了從基礎(chǔ)的朝向判斷到復(fù)雜的多軸旋轉(zhuǎn)理解等多個(gè)層次。

研究團(tuán)隊(duì)評(píng)估了15個(gè)最先進(jìn)的多模態(tài)大語(yǔ)言模型，結(jié)果令人驚訝：即使是最好的模型在粗粒度方向任務(wù)上的準(zhǔn)確率也僅達(dá)到54.2%，在細(xì)粒度方向判斷上更是只有33.0%的準(zhǔn)確率。更令人擔(dān)憂的是，當(dāng)任務(wù)涉及參考框架轉(zhuǎn)換或復(fù)合旋轉(zhuǎn)時(shí)，模型性能會(huì)大幅下降。這一發(fā)現(xiàn)表明，現(xiàn)有的多模態(tài)模型在物體方向理解方面存在根本性的局限，需要在未來(lái)的架構(gòu)設(shè)計(jì)中專門增強(qiáng)方向表示機(jī)制。

一、為什么物體方向理解如此重要？

想象你正在使用增強(qiáng)現(xiàn)實(shí)眼鏡，你需要系統(tǒng)能夠準(zhǔn)確判斷現(xiàn)實(shí)世界中物體的朝向，以便正確放置虛擬對(duì)象?；蛘?，你的家用機(jī)器人需要知道如何抓取朝向不同方向的物品。再或者，自動(dòng)駕駛汽車需要判斷其他車輛和行人的朝向以做出安全決策。這些場(chǎng)景都需要AI系統(tǒng)具備強(qiáng)大的物體方向理解能力。

人類從嬰兒時(shí)期就開始發(fā)展方向認(rèn)知能力，先掌握基本的正面朝向識(shí)別，然后逐漸發(fā)展出復(fù)雜的心理旋轉(zhuǎn)操作能力。這種能力依賴于我們的感覺(jué)運(yùn)動(dòng)經(jīng)驗(yàn)、本體感受整合和神經(jīng)形成。簡(jiǎn)單來(lái)說(shuō)，我們通過(guò)與環(huán)境的實(shí)際互動(dòng)，發(fā)展出了理解物體如何在空間中定向的能力。

研究團(tuán)隊(duì)指出，物體方向理解涉及復(fù)雜的多階段處理，包括內(nèi)在物體特征識(shí)別、觀察者視角、角度關(guān)系和參考框架轉(zhuǎn)換。這就像你在三維迷宮中導(dǎo)航時(shí)，不僅需要知道自己的位置，還需要理解周圍物體的朝向，以及它們與你和彼此之間的相對(duì)關(guān)系。

盡管多模態(tài)大語(yǔ)言模型在許多視覺(jué)-語(yǔ)言任務(wù)上表現(xiàn)出色，但先前的研究已經(jīng)表明，它們?cè)谖矬w方向任務(wù)上普遍表現(xiàn)不佳?，F(xiàn)有的評(píng)估基準(zhǔn)往往只評(píng)估有限的方向問(wèn)題集，如簡(jiǎn)單的方向判斷而不測(cè)試精細(xì)的旋轉(zhuǎn)理解，或者樣本數(shù)量極少，導(dǎo)致對(duì)模型方向推理能力的評(píng)估不完整。

二、DORI：全面評(píng)估方向理解能力的創(chuàng)新基準(zhǔn)

研究團(tuán)隊(duì)開發(fā)的DORI基準(zhǔn)測(cè)試從四個(gè)基本維度評(píng)估物體方向理解能力，這些維度反映了人類認(rèn)知中不同的神經(jīng)和認(rèn)知過(guò)程：

首先是"正面對(duì)齊"維度，它評(píng)估模型識(shí)別物體前表面相對(duì)于觀察者朝向的基本能力。就像我們能立即判斷一個(gè)人是面對(duì)我們還是背對(duì)我們一樣，這是方向理解的基礎(chǔ)。DORI通過(guò)兩項(xiàng)互補(bǔ)任務(wù)評(píng)估這一能力：視角平行性分析（判斷物體前表面與相機(jī)平面的角度）和方向面向感知（判斷物體前表面相對(duì)于相機(jī)的朝向，如向左、向右等）。

第二個(gè)維度是"旋轉(zhuǎn)變換"，測(cè)試模型理解物體通過(guò)旋轉(zhuǎn)發(fā)生方向變化的能力。想象你需要轉(zhuǎn)動(dòng)鑰匙以插入鎖孔，或者旋轉(zhuǎn)地圖以適應(yīng)你的導(dǎo)航方向。DORI設(shè)計(jì)了從簡(jiǎn)單到復(fù)雜的任務(wù)，先測(cè)試單軸旋轉(zhuǎn)（如物體需要順時(shí)針旋轉(zhuǎn)多少度才能面向相機(jī)），再進(jìn)階到更認(rèn)知要求高的復(fù)合旋轉(zhuǎn)（涉及沿多個(gè)軸的順序旋轉(zhuǎn)）。

第三個(gè)維度是"相對(duì)方向"，檢驗(yàn)?zāi)Ｐ屠斫馕矬w之間以及物體與觀察者之間方向關(guān)系的能力。人類大腦有專門處理"心理方向"的互連區(qū)域，使我們能從不同視角有效空間定向物體。DORI通過(guò)物體間方向關(guān)系（如兩個(gè)物體是否面對(duì)面）和圖像對(duì)旋轉(zhuǎn)關(guān)系（識(shí)別同一物體在兩張圖片間的旋轉(zhuǎn)角度）兩項(xiàng)子任務(wù)系統(tǒng)評(píng)估這一能力。

最后一個(gè)維度是"規(guī)范方向感知"，評(píng)估模型識(shí)別物體何時(shí)偏離其預(yù)期方向，以及確定恢復(fù)其規(guī)范狀態(tài)所需變換的能力。就像我們能立即看出一張倒置的建筑物照片需要旋轉(zhuǎn)180度才能正常一樣。DORI首先評(píng)估模型識(shí)別規(guī)范方向偏差的能力，然后評(píng)估確定恢復(fù)所需具體幾何操作（旋轉(zhuǎn)、翻轉(zhuǎn)或組合）的能力。

DORI基準(zhǔn)包含33,656個(gè)精心構(gòu)建的多項(xiàng)選擇題，涵蓋了來(lái)自11個(gè)現(xiàn)有計(jì)算機(jī)視覺(jué)數(shù)據(jù)集的13,652張圖像，包括真實(shí)世界圖像（37%）和模擬渲染（63%），以確保評(píng)估數(shù)據(jù)具有各種視覺(jué)復(fù)雜度水平。這些數(shù)據(jù)集包括KITTI、Cityscapes、COCO、ShapeNet等知名數(shù)據(jù)集，涉及67個(gè)物體類別（31個(gè)家居和36個(gè)戶外物品類別）。

三、如何設(shè)計(jì)出更精準(zhǔn)的方向理解評(píng)估？

研究團(tuán)隊(duì)采用了系統(tǒng)、以人為中心的方法設(shè)計(jì)DORI的評(píng)估提示，以隔離方向感知與混淆因素（如物體識(shí)別難度、場(chǎng)景雜亂、語(yǔ)言歧義等）。

每個(gè)提示遵循精心設(shè)計(jì)的格式，包含五個(gè)關(guān)鍵組成部分：（1）簡(jiǎn)明的任務(wù)描述，指定被測(cè)試的方向維度；（2）解釋相關(guān)方向概念的背景信息；（3）逐步分析指導(dǎo)；（4）多項(xiàng)選擇選項(xiàng)；以及（5）說(shuō)明預(yù)期推理的具體示例。這種結(jié)構(gòu)化方法借鑒了有效的指令調(diào)整數(shù)據(jù)集（如LLaVA）的經(jīng)驗(yàn)，明確的任務(wù)框架和示例驅(qū)動(dòng)指導(dǎo)能顯著提高模型理解。

研究團(tuán)隊(duì)通過(guò)多輪非專家評(píng)估者反饋迭代完善提示，解決歧義，澄清術(shù)語(yǔ)，并提高任務(wù)特異性。例如，旋轉(zhuǎn)變換提示的早期版本對(duì)旋轉(zhuǎn)軸的解釋產(chǎn)生了不一致的理解。人類評(píng)估者幫助研究團(tuán)隊(duì)納入更精確的語(yǔ)言和視覺(jué)參考（如"像芭蕾舞者順時(shí)針旋轉(zhuǎn)"來(lái)說(shuō)明垂直軸旋轉(zhuǎn)），而不是抽象的方向描述。

為全面覆蓋物體方向推理，研究團(tuán)隊(duì)開發(fā)了兩層問(wèn)題框架： - 粗粒度問(wèn)題評(píng)估基本類別理解（如"兩個(gè)圖像之間物體是否旋轉(zhuǎn)？"） - 細(xì)粒度問(wèn)題探測(cè)精確的定量估計(jì)（如"物體順時(shí)針旋轉(zhuǎn)了多少度？"）

這種層次化方法使評(píng)估能從基本感知到高級(jí)方向推理系統(tǒng)化進(jìn)行，就像人類認(rèn)知發(fā)展中觀察到的進(jìn)階模式一樣。

四、多模態(tài)大語(yǔ)言模型真的理解物體方向嗎？

研究團(tuán)隊(duì)評(píng)估了15個(gè)最先進(jìn)的多模態(tài)模型，包括LLaVA系列、Yi-VL、Mantis和DeepSeek變體等開源模型，以及Gemini和GPT-4等專有系統(tǒng)。這些模型代表了不同的架構(gòu)、參數(shù)規(guī)模和預(yù)訓(xùn)練方法。

實(shí)驗(yàn)結(jié)果揭示了幾個(gè)關(guān)鍵發(fā)現(xiàn)：

首先，模型在處理復(fù)雜、動(dòng)態(tài)旋轉(zhuǎn)任務(wù)（需要在圖像之間心理追蹤物體旋轉(zhuǎn)）時(shí)，性能平均比簡(jiǎn)單的靜態(tài)方向任務(wù)（如識(shí)別當(dāng)前物體姿態(tài)）低30%。這就像人們能輕松識(shí)別眼前物體的朝向，但要追蹤快速移動(dòng)物體的旋轉(zhuǎn)變化就困難得多。

其次，模型在需要視角轉(zhuǎn)換的任務(wù)上（例如，從物體自身參考框架而非相機(jī)視角確定兩個(gè)物體是否相互面對(duì)）表現(xiàn)特別差，準(zhǔn)確率比自我中心框架任務(wù)低25%。這相當(dāng)于我們不僅需要知道自己看到的景象，還需要想象從其他位置看到的景象，這對(duì)AI系統(tǒng)來(lái)說(shuō)是一項(xiàng)極具挑戰(zhàn)的任務(wù)。

第三，基于令牌的集成方法（如Mantis-Idefics2-8B）在方向任務(wù)上始終優(yōu)于線性投影方法，表明架構(gòu)設(shè)計(jì)對(duì)方向推理能力有顯著影響?？梢詫⑵湎胂鬄閮煞N不同的信息處理方式：一種能保留更豐富的維度信息，而另一種則在轉(zhuǎn)換過(guò)程中丟失了一些關(guān)鍵空間信息。

最后，模型規(guī)模并不能保證更好的方向理解；較小的對(duì)話調(diào)優(yōu)變體（如DeepSeek-1.3B-Chat）經(jīng)常優(yōu)于較大的基礎(chǔ)模型（如DeepSeek-7B-Base），突顯了訓(xùn)練目標(biāo)相比參數(shù)數(shù)量的重要性。這就像兩個(gè)學(xué)生，一個(gè)接受了專門的空間思維訓(xùn)練，另一個(gè)只是學(xué)習(xí)了更多一般知識(shí)，前者在空間任務(wù)上可能表現(xiàn)更好，盡管后者知識(shí)面更廣。

研究還發(fā)現(xiàn)，模型在涉及人和動(dòng)物的方向任務(wù)上表現(xiàn)相對(duì)較好，這些類別有明顯的前/后區(qū)分（如面部），而對(duì)家具或容器等更模糊的物體則表現(xiàn)較差。這表明當(dāng)前模型在確定物體方向時(shí)主要依賴語(yǔ)義特征（如識(shí)別面部），而非更基礎(chǔ)的幾何理解。

最令人擔(dān)憂的是，即使是最先進(jìn)的商業(yè)系統(tǒng)在旋轉(zhuǎn)變換和相對(duì)方向問(wèn)題上仍然顯著掙扎，突顯了即使在最先進(jìn)的商業(yè)系統(tǒng)中，方向理解也有很大改進(jìn)空間。

五、人類vs機(jī)器：方向理解的鴻溝

為了進(jìn)一步評(píng)估模型性能與人類能力的差距，研究團(tuán)隊(duì)招募了7名具有復(fù)雜標(biāo)注經(jīng)驗(yàn)的專家評(píng)估方向感知能力。每位參與者使用相同的圖像評(píng)估了30個(gè)粗粒度和細(xì)粒度任務(wù)的例子。

結(jié)果顯示，人類在粗粒度任務(wù)上達(dá)到了86.6%的準(zhǔn)確率，在細(xì)粒度任務(wù)上達(dá)到了80.9%的準(zhǔn)確率。相比之下，即使是最好的閉源模型在這些任務(wù)上的表現(xiàn)也低了將近30%，這表明人工智能系統(tǒng)與人類方向理解能力之間存在顯著差距。

這種差距表明，當(dāng)前的多模態(tài)大語(yǔ)言模型缺乏人類在方向理解方面天生具備的神經(jīng)歸納偏置。人類通過(guò)身體體驗(yàn)、本體感受和運(yùn)動(dòng)反饋發(fā)展出強(qiáng)大的空間理解能力，而AI系統(tǒng)則沒(méi)有這種體驗(yàn)式學(xué)習(xí)的優(yōu)勢(shì)。這些模型基本上是"脫離身體"訓(xùn)練的，迫使它們通過(guò)次優(yōu)的注意力模式來(lái)近似這些神經(jīng)機(jī)制，導(dǎo)致推理錯(cuò)誤。

六、提升方向理解能力的未來(lái)方向

研究結(jié)果表明，當(dāng)前多模態(tài)大語(yǔ)言模型在物體方向理解方面存在根本性局限，特別是在進(jìn)行精確角度估計(jì)、跟蹤多視角方向變化和理解復(fù)合旋轉(zhuǎn)方面。這些局限可能源于當(dāng)前架構(gòu)如何壓縮和表示幾何信息。

多數(shù)評(píng)估的模型使用CLIP式對(duì)比目標(biāo)進(jìn)行預(yù)訓(xùn)練，這種方法優(yōu)化高級(jí)圖像-文本語(yǔ)義對(duì)齊，而非核心幾何理解。這創(chuàng)造了"維度崩塌"現(xiàn)象，即連續(xù)的方向變化在嵌入空間中被壓縮成離散的語(yǔ)義集群（例如，將"左"和"右"視為相反的分類概念，而非連續(xù)角度譜上的點(diǎn)）。

研究團(tuán)隊(duì)指出，通過(guò)生成目標(biāo)微調(diào)可能會(huì)略微緩解這一限制，但MLLMs仍然缺乏人類利用的必要神經(jīng)歸納偏置。這些"無(wú)身體"的訓(xùn)練機(jī)制迫使MLLMs通過(guò)次優(yōu)的注意力模式來(lái)近似這些神經(jīng)機(jī)制，導(dǎo)致產(chǎn)生錯(cuò)誤的認(rèn)知。

這項(xiàng)研究為未來(lái)的多模態(tài)系統(tǒng)設(shè)計(jì)提供了明確方向，表明需要專門的方向表示機(jī)制和架構(gòu)創(chuàng)新，使模型能夠更好地理解和推理物體方向。DORI基準(zhǔn)為評(píng)估這些進(jìn)步提供了全面的診斷工具，對(duì)機(jī)器人控制、3D場(chǎng)景重建和人機(jī)交互等眾多應(yīng)用有著直接的影響。

七、DORI基準(zhǔn)測(cè)試的技術(shù)細(xì)節(jié)

DORI基準(zhǔn)測(cè)試在設(shè)計(jì)上具有豐富的多樣性和全面性。它涵蓋了從KITTI、Cityscapes、COCO等真實(shí)世界數(shù)據(jù)集到ShapeNet、Get3D等模擬環(huán)境的多個(gè)數(shù)據(jù)源，確保評(píng)估數(shù)據(jù)具有各種視覺(jué)復(fù)雜度水平。

基準(zhǔn)中的每種任務(wù)都經(jīng)過(guò)精心設(shè)計(jì)，以測(cè)試方向理解的特定方面：

視角平行性感知任務(wù)評(píng)估模型確定物體前表面是朝向、背離或垂直于相機(jī)平面的能力。研究團(tuán)隊(duì)使用JTA和KITTI數(shù)據(jù)集構(gòu)建了這個(gè)數(shù)據(jù)集，分析肩部位置相對(duì)于相機(jī)和頭部角度，或利用可用的旋轉(zhuǎn)矩陣對(duì)車輛和行人進(jìn)行分類。

方向面向感知任務(wù)將方向評(píng)估擴(kuò)展到基本方向，要求模型識(shí)別物體是面向、背離、向左或向右相對(duì)于相機(jī)。這使用COCO和Cityscapes圖像，通過(guò)專家手動(dòng)標(biāo)注或利用旋轉(zhuǎn)矩陣精確確定方向。

單軸旋轉(zhuǎn)任務(wù)評(píng)估對(duì)垂直軸旋轉(zhuǎn)變換的理解，要求模型確定物體面向相機(jī)所需的最佳旋轉(zhuǎn)方向和精確角度調(diào)整。這使用3D-Future和Objectron數(shù)據(jù)集，計(jì)算對(duì)象面向相機(jī)所需的精確旋轉(zhuǎn)調(diào)整。

復(fù)合旋轉(zhuǎn)任務(wù)評(píng)估對(duì)涉及沿多個(gè)軸的順序變換的復(fù)雜旋轉(zhuǎn)的理解，使用Get3D、ShapeNet和OmniObject3D中的3D渲染對(duì)象，實(shí)施控制的渲染流水線，應(yīng)用精確的水平和垂直軸旋轉(zhuǎn)。

物體間方向感知任務(wù)評(píng)估從物體自身視角而非相機(jī)視角理解物體之間相對(duì)方向的能力。使用3D Future和NOCS REAL數(shù)據(jù)集，利用6 DoF參數(shù)計(jì)算物體對(duì)之間的精確角度關(guān)系。

觀察者-場(chǎng)景方向感知任務(wù)評(píng)估感知兩張同一物體圖像之間旋轉(zhuǎn)變化的能力。使用Get3D、ShapeNet和OmniObject3D數(shù)據(jù)集，渲染帶有地平面參考的對(duì)象，然后創(chuàng)建物體繞垂直軸旋轉(zhuǎn)特定角度的對(duì)應(yīng)圖像。

規(guī)范方向推理任務(wù)評(píng)估識(shí)別物體何時(shí)出現(xiàn)在非規(guī)范位置和確定恢復(fù)物體所需變換的能力。使用COCO圖像子集，創(chuàng)建帶有系統(tǒng)翻轉(zhuǎn)和旋轉(zhuǎn)的變體。

DORI基準(zhǔn)包含總計(jì)33,656個(gè)多項(xiàng)選擇題，覆蓋67個(gè)不同物體類別，并提供了兩種評(píng)估粒度（粗粒度和細(xì)粒度）以提供關(guān)于模型方向理解的全面視圖。

八、研究的局限性與未來(lái)展望

盡管DORI基準(zhǔn)提供了對(duì)多模態(tài)大語(yǔ)言模型方向理解能力的前所未有的洞察，但研究團(tuán)隊(duì)也承認(rèn)存在一些局限性。

首先，DORI主要集中在靜態(tài)圖像上的方向理解，而未探索視頻或交互式環(huán)境中的動(dòng)態(tài)方向理解。就像看照片和看電影的區(qū)別一樣，動(dòng)態(tài)環(huán)境中的方向理解可能涉及額外的復(fù)雜性和挑戰(zhàn)。

其次，盡管DORI涵蓋了廣泛的物體類別，但它仍然無(wú)法完全代表現(xiàn)實(shí)世界中所有可能的物體和場(chǎng)景。某些特殊領(lǐng)域（如醫(yī)療、工業(yè)）的物體可能具有獨(dú)特的方向理解要求。

研究團(tuán)隊(duì)指出，未來(lái)的工作可以擴(kuò)展到更多樣化的數(shù)據(jù)源，包括更多物體類別和更復(fù)雜的場(chǎng)景。此外，探索物體方向理解與其他空間推理能力（如深度感知、遮擋理解）的交互也是重要的研究方向。

值得注意的是，研究表明，當(dāng)前方向理解的限制可能源于現(xiàn)有架構(gòu)中缺乏專門的幾何表示機(jī)制。這啟示未來(lái)的模型設(shè)計(jì)應(yīng)考慮如何更好地編碼和處理三維空間信息，可能通過(guò)整合專門的3D表示模塊或采用能更好保留幾何關(guān)系的訓(xùn)練目標(biāo)。

最終，這項(xiàng)研究不僅指出了當(dāng)前多模態(tài)系統(tǒng)的限制，也為未來(lái)的發(fā)展指明了方向。隨著我們?cè)絹?lái)越多地依賴AI系統(tǒng)在物理世界中導(dǎo)航和操作，增強(qiáng)它們的方向理解能力將變得至關(guān)重要。DORI基準(zhǔn)為這一關(guān)鍵能力的進(jìn)步提供了清晰的路徑和評(píng)估工具。

人工智能多模態(tài)大語(yǔ)言模型空間推理

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<meter id="ekuct"><dfn id="ekuct"></dfn></meter>