av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 視角正確嗎?用多維精細(xì)感知任務(wù)解析多模態(tài)大語(yǔ)言模型的方向理解能力

視角正確嗎?用多維精細(xì)感知任務(wù)解析多模態(tài)大語(yǔ)言模型的方向理解能力

2025-06-03 09:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 09:49 ? 科技行者

多模態(tài)大語(yǔ)言模型(MLLMs)近年來(lái)在許多視覺(jué)-語(yǔ)言任務(wù)上取得了令人矚目的進(jìn)展,但它們是否真正理解物體的方向性?這個(gè)看似簡(jiǎn)單的問(wèn)題,實(shí)際上關(guān)系到機(jī)器人操作、自動(dòng)駕駛和增強(qiáng)現(xiàn)實(shí)等眾多實(shí)際應(yīng)用。波士頓大學(xué)的研究團(tuán)隊(duì)于2025年5月發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究,深入探究了這個(gè)問(wèn)題。由Keanu Nichols、Nazia Tasnim(共同第一作者)、Yuting Yan、Nicholas Ikechukwu、Elva Zou、Deepti Ghadiyaram和Bryan A. Plummer組成的研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為DORI(辨別性方向推理智能)的綜合基準(zhǔn)測(cè)試,專(zhuān)門(mén)評(píng)估MLLMs對(duì)物體方向的理解能力。有興趣的讀者可以通過(guò)其GitHub倉(cāng)庫(kù)(https://huggingface.co/datasets/appledora/DORI-Benchmark)獲取完整數(shù)據(jù)集。

想象一下,你進(jìn)入一個(gè)房間,需要快速判斷哪些物體朝向你,哪些背對(duì)你,或者哪些物體彼此面對(duì)面。這對(duì)人類(lèi)來(lái)說(shuō)是如此自然的能力,我們甚至不需要思考就能完成。但對(duì)于人工智能系統(tǒng),尤其是多模態(tài)大語(yǔ)言模型,這實(shí)際上是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。這項(xiàng)研究正是探索了這些AI系統(tǒng)在理解物體方向方面的能力與局限。

目前的多模態(tài)模型評(píng)估基準(zhǔn)往往將方向理解與其他空間關(guān)系(如上/下、物體間距離)混為一談,或者僅通過(guò)少量樣本進(jìn)行測(cè)試,無(wú)法全面評(píng)估模型的方向理解能力。而DORI基準(zhǔn)則專(zhuān)門(mén)針對(duì)物體方向理解設(shè)計(jì)了一系列精細(xì)的測(cè)試任務(wù),覆蓋了從基礎(chǔ)的朝向判斷到復(fù)雜的多軸旋轉(zhuǎn)理解等多個(gè)層次。

研究團(tuán)隊(duì)評(píng)估了15個(gè)最先進(jìn)的多模態(tài)大語(yǔ)言模型,結(jié)果令人驚訝:即使是最好的模型在粗粒度方向任務(wù)上的準(zhǔn)確率也僅達(dá)到54.2%,在細(xì)粒度方向判斷上更是只有33.0%的準(zhǔn)確率。更令人擔(dān)憂(yōu)的是,當(dāng)任務(wù)涉及參考框架轉(zhuǎn)換或復(fù)合旋轉(zhuǎn)時(shí),模型性能會(huì)大幅下降。這一發(fā)現(xiàn)表明,現(xiàn)有的多模態(tài)模型在物體方向理解方面存在根本性的局限,需要在未來(lái)的架構(gòu)設(shè)計(jì)中專(zhuān)門(mén)增強(qiáng)方向表示機(jī)制。

一、為什么物體方向理解如此重要?

想象你正在使用增強(qiáng)現(xiàn)實(shí)眼鏡,你需要系統(tǒng)能夠準(zhǔn)確判斷現(xiàn)實(shí)世界中物體的朝向,以便正確放置虛擬對(duì)象?;蛘?,你的家用機(jī)器人需要知道如何抓取朝向不同方向的物品。再或者,自動(dòng)駕駛汽車(chē)需要判斷其他車(chē)輛和行人的朝向以做出安全決策。這些場(chǎng)景都需要AI系統(tǒng)具備強(qiáng)大的物體方向理解能力。

人類(lèi)從嬰兒時(shí)期就開(kāi)始發(fā)展方向認(rèn)知能力,先掌握基本的正面朝向識(shí)別,然后逐漸發(fā)展出復(fù)雜的心理旋轉(zhuǎn)操作能力。這種能力依賴(lài)于我們的感覺(jué)運(yùn)動(dòng)經(jīng)驗(yàn)、本體感受整合和神經(jīng)形成。簡(jiǎn)單來(lái)說(shuō),我們通過(guò)與環(huán)境的實(shí)際互動(dòng),發(fā)展出了理解物體如何在空間中定向的能力。

研究團(tuán)隊(duì)指出,物體方向理解涉及復(fù)雜的多階段處理,包括內(nèi)在物體特征識(shí)別、觀察者視角、角度關(guān)系和參考框架轉(zhuǎn)換。這就像你在三維迷宮中導(dǎo)航時(shí),不僅需要知道自己的位置,還需要理解周?chē)矬w的朝向,以及它們與你和彼此之間的相對(duì)關(guān)系。

盡管多模態(tài)大語(yǔ)言模型在許多視覺(jué)-語(yǔ)言任務(wù)上表現(xiàn)出色,但先前的研究已經(jīng)表明,它們?cè)谖矬w方向任務(wù)上普遍表現(xiàn)不佳?,F(xiàn)有的評(píng)估基準(zhǔn)往往只評(píng)估有限的方向問(wèn)題集,如簡(jiǎn)單的方向判斷而不測(cè)試精細(xì)的旋轉(zhuǎn)理解,或者樣本數(shù)量極少,導(dǎo)致對(duì)模型方向推理能力的評(píng)估不完整。

二、DORI:全面評(píng)估方向理解能力的創(chuàng)新基準(zhǔn)

研究團(tuán)隊(duì)開(kāi)發(fā)的DORI基準(zhǔn)測(cè)試從四個(gè)基本維度評(píng)估物體方向理解能力,這些維度反映了人類(lèi)認(rèn)知中不同的神經(jīng)和認(rèn)知過(guò)程:

首先是"正面對(duì)齊"維度,它評(píng)估模型識(shí)別物體前表面相對(duì)于觀察者朝向的基本能力。就像我們能立即判斷一個(gè)人是面對(duì)我們還是背對(duì)我們一樣,這是方向理解的基礎(chǔ)。DORI通過(guò)兩項(xiàng)互補(bǔ)任務(wù)評(píng)估這一能力:視角平行性分析(判斷物體前表面與相機(jī)平面的角度)和方向面向感知(判斷物體前表面相對(duì)于相機(jī)的朝向,如向左、向右等)。

第二個(gè)維度是"旋轉(zhuǎn)變換",測(cè)試模型理解物體通過(guò)旋轉(zhuǎn)發(fā)生方向變化的能力。想象你需要轉(zhuǎn)動(dòng)鑰匙以插入鎖孔,或者旋轉(zhuǎn)地圖以適應(yīng)你的導(dǎo)航方向。DORI設(shè)計(jì)了從簡(jiǎn)單到復(fù)雜的任務(wù),先測(cè)試單軸旋轉(zhuǎn)(如物體需要順時(shí)針旋轉(zhuǎn)多少度才能面向相機(jī)),再進(jìn)階到更認(rèn)知要求高的復(fù)合旋轉(zhuǎn)(涉及沿多個(gè)軸的順序旋轉(zhuǎn))。

第三個(gè)維度是"相對(duì)方向",檢驗(yàn)?zāi)P屠斫馕矬w之間以及物體與觀察者之間方向關(guān)系的能力。人類(lèi)大腦有專(zhuān)門(mén)處理"心理方向"的互連區(qū)域,使我們能從不同視角有效空間定向物體。DORI通過(guò)物體間方向關(guān)系(如兩個(gè)物體是否面對(duì)面)和圖像對(duì)旋轉(zhuǎn)關(guān)系(識(shí)別同一物體在兩張圖片間的旋轉(zhuǎn)角度)兩項(xiàng)子任務(wù)系統(tǒng)評(píng)估這一能力。

最后一個(gè)維度是"規(guī)范方向感知",評(píng)估模型識(shí)別物體何時(shí)偏離其預(yù)期方向,以及確定恢復(fù)其規(guī)范狀態(tài)所需變換的能力。就像我們能立即看出一張倒置的建筑物照片需要旋轉(zhuǎn)180度才能正常一樣。DORI首先評(píng)估模型識(shí)別規(guī)范方向偏差的能力,然后評(píng)估確定恢復(fù)所需具體幾何操作(旋轉(zhuǎn)、翻轉(zhuǎn)或組合)的能力。

DORI基準(zhǔn)包含33,656個(gè)精心構(gòu)建的多項(xiàng)選擇題,涵蓋了來(lái)自11個(gè)現(xiàn)有計(jì)算機(jī)視覺(jué)數(shù)據(jù)集的13,652張圖像,包括真實(shí)世界圖像(37%)和模擬渲染(63%),以確保評(píng)估數(shù)據(jù)具有各種視覺(jué)復(fù)雜度水平。這些數(shù)據(jù)集包括KITTI、Cityscapes、COCO、ShapeNet等知名數(shù)據(jù)集,涉及67個(gè)物體類(lèi)別(31個(gè)家居和36個(gè)戶(hù)外物品類(lèi)別)。

三、如何設(shè)計(jì)出更精準(zhǔn)的方向理解評(píng)估?

研究團(tuán)隊(duì)采用了系統(tǒng)、以人為中心的方法設(shè)計(jì)DORI的評(píng)估提示,以隔離方向感知與混淆因素(如物體識(shí)別難度、場(chǎng)景雜亂、語(yǔ)言歧義等)。

每個(gè)提示遵循精心設(shè)計(jì)的格式,包含五個(gè)關(guān)鍵組成部分:(1)簡(jiǎn)明的任務(wù)描述,指定被測(cè)試的方向維度;(2)解釋相關(guān)方向概念的背景信息;(3)逐步分析指導(dǎo);(4)多項(xiàng)選擇選項(xiàng);以及(5)說(shuō)明預(yù)期推理的具體示例。這種結(jié)構(gòu)化方法借鑒了有效的指令調(diào)整數(shù)據(jù)集(如LLaVA)的經(jīng)驗(yàn),明確的任務(wù)框架和示例驅(qū)動(dòng)指導(dǎo)能顯著提高模型理解。

研究團(tuán)隊(duì)通過(guò)多輪非專(zhuān)家評(píng)估者反饋迭代完善提示,解決歧義,澄清術(shù)語(yǔ),并提高任務(wù)特異性。例如,旋轉(zhuǎn)變換提示的早期版本對(duì)旋轉(zhuǎn)軸的解釋產(chǎn)生了不一致的理解。人類(lèi)評(píng)估者幫助研究團(tuán)隊(duì)納入更精確的語(yǔ)言和視覺(jué)參考(如"像芭蕾舞者順時(shí)針旋轉(zhuǎn)"來(lái)說(shuō)明垂直軸旋轉(zhuǎn)),而不是抽象的方向描述。

為全面覆蓋物體方向推理,研究團(tuán)隊(duì)開(kāi)發(fā)了兩層問(wèn)題框架: - 粗粒度問(wèn)題評(píng)估基本類(lèi)別理解(如"兩個(gè)圖像之間物體是否旋轉(zhuǎn)?") - 細(xì)粒度問(wèn)題探測(cè)精確的定量估計(jì)(如"物體順時(shí)針旋轉(zhuǎn)了多少度?")

這種層次化方法使評(píng)估能從基本感知到高級(jí)方向推理系統(tǒng)化進(jìn)行,就像人類(lèi)認(rèn)知發(fā)展中觀察到的進(jìn)階模式一樣。

四、多模態(tài)大語(yǔ)言模型真的理解物體方向嗎?

研究團(tuán)隊(duì)評(píng)估了15個(gè)最先進(jìn)的多模態(tài)模型,包括LLaVA系列、Yi-VL、Mantis和DeepSeek變體等開(kāi)源模型,以及Gemini和GPT-4等專(zhuān)有系統(tǒng)。這些模型代表了不同的架構(gòu)、參數(shù)規(guī)模和預(yù)訓(xùn)練方法。

實(shí)驗(yàn)結(jié)果揭示了幾個(gè)關(guān)鍵發(fā)現(xiàn):

首先,模型在處理復(fù)雜、動(dòng)態(tài)旋轉(zhuǎn)任務(wù)(需要在圖像之間心理追蹤物體旋轉(zhuǎn))時(shí),性能平均比簡(jiǎn)單的靜態(tài)方向任務(wù)(如識(shí)別當(dāng)前物體姿態(tài))低30%。這就像人們能輕松識(shí)別眼前物體的朝向,但要追蹤快速移動(dòng)物體的旋轉(zhuǎn)變化就困難得多。

其次,模型在需要視角轉(zhuǎn)換的任務(wù)上(例如,從物體自身參考框架而非相機(jī)視角確定兩個(gè)物體是否相互面對(duì))表現(xiàn)特別差,準(zhǔn)確率比自我中心框架任務(wù)低25%。這相當(dāng)于我們不僅需要知道自己看到的景象,還需要想象從其他位置看到的景象,這對(duì)AI系統(tǒng)來(lái)說(shuō)是一項(xiàng)極具挑戰(zhàn)的任務(wù)。

第三,基于令牌的集成方法(如Mantis-Idefics2-8B)在方向任務(wù)上始終優(yōu)于線(xiàn)性投影方法,表明架構(gòu)設(shè)計(jì)對(duì)方向推理能力有顯著影響??梢詫⑵湎胂鬄閮煞N不同的信息處理方式:一種能保留更豐富的維度信息,而另一種則在轉(zhuǎn)換過(guò)程中丟失了一些關(guān)鍵空間信息。

最后,模型規(guī)模并不能保證更好的方向理解;較小的對(duì)話(huà)調(diào)優(yōu)變體(如DeepSeek-1.3B-Chat)經(jīng)常優(yōu)于較大的基礎(chǔ)模型(如DeepSeek-7B-Base),突顯了訓(xùn)練目標(biāo)相比參數(shù)數(shù)量的重要性。這就像兩個(gè)學(xué)生,一個(gè)接受了專(zhuān)門(mén)的空間思維訓(xùn)練,另一個(gè)只是學(xué)習(xí)了更多一般知識(shí),前者在空間任務(wù)上可能表現(xiàn)更好,盡管后者知識(shí)面更廣。

研究還發(fā)現(xiàn),模型在涉及人和動(dòng)物的方向任務(wù)上表現(xiàn)相對(duì)較好,這些類(lèi)別有明顯的前/后區(qū)分(如面部),而對(duì)家具或容器等更模糊的物體則表現(xiàn)較差。這表明當(dāng)前模型在確定物體方向時(shí)主要依賴(lài)語(yǔ)義特征(如識(shí)別面部),而非更基礎(chǔ)的幾何理解。

最令人擔(dān)憂(yōu)的是,即使是最先進(jìn)的商業(yè)系統(tǒng)在旋轉(zhuǎn)變換和相對(duì)方向問(wèn)題上仍然顯著掙扎,突顯了即使在最先進(jìn)的商業(yè)系統(tǒng)中,方向理解也有很大改進(jìn)空間。

五、人類(lèi)vs機(jī)器:方向理解的鴻溝

為了進(jìn)一步評(píng)估模型性能與人類(lèi)能力的差距,研究團(tuán)隊(duì)招募了7名具有復(fù)雜標(biāo)注經(jīng)驗(yàn)的專(zhuān)家評(píng)估方向感知能力。每位參與者使用相同的圖像評(píng)估了30個(gè)粗粒度和細(xì)粒度任務(wù)的例子。

結(jié)果顯示,人類(lèi)在粗粒度任務(wù)上達(dá)到了86.6%的準(zhǔn)確率,在細(xì)粒度任務(wù)上達(dá)到了80.9%的準(zhǔn)確率。相比之下,即使是最好的閉源模型在這些任務(wù)上的表現(xiàn)也低了將近30%,這表明人工智能系統(tǒng)與人類(lèi)方向理解能力之間存在顯著差距。

這種差距表明,當(dāng)前的多模態(tài)大語(yǔ)言模型缺乏人類(lèi)在方向理解方面天生具備的神經(jīng)歸納偏置。人類(lèi)通過(guò)身體體驗(yàn)、本體感受和運(yùn)動(dòng)反饋發(fā)展出強(qiáng)大的空間理解能力,而AI系統(tǒng)則沒(méi)有這種體驗(yàn)式學(xué)習(xí)的優(yōu)勢(shì)。這些模型基本上是"脫離身體"訓(xùn)練的,迫使它們通過(guò)次優(yōu)的注意力模式來(lái)近似這些神經(jīng)機(jī)制,導(dǎo)致推理錯(cuò)誤。

六、提升方向理解能力的未來(lái)方向

研究結(jié)果表明,當(dāng)前多模態(tài)大語(yǔ)言模型在物體方向理解方面存在根本性局限,特別是在進(jìn)行精確角度估計(jì)、跟蹤多視角方向變化和理解復(fù)合旋轉(zhuǎn)方面。這些局限可能源于當(dāng)前架構(gòu)如何壓縮和表示幾何信息。

多數(shù)評(píng)估的模型使用CLIP式對(duì)比目標(biāo)進(jìn)行預(yù)訓(xùn)練,這種方法優(yōu)化高級(jí)圖像-文本語(yǔ)義對(duì)齊,而非核心幾何理解。這創(chuàng)造了"維度崩塌"現(xiàn)象,即連續(xù)的方向變化在嵌入空間中被壓縮成離散的語(yǔ)義集群(例如,將"左"和"右"視為相反的分類(lèi)概念,而非連續(xù)角度譜上的點(diǎn))。

研究團(tuán)隊(duì)指出,通過(guò)生成目標(biāo)微調(diào)可能會(huì)略微緩解這一限制,但MLLMs仍然缺乏人類(lèi)利用的必要神經(jīng)歸納偏置。這些"無(wú)身體"的訓(xùn)練機(jī)制迫使MLLMs通過(guò)次優(yōu)的注意力模式來(lái)近似這些神經(jīng)機(jī)制,導(dǎo)致產(chǎn)生錯(cuò)誤的認(rèn)知。

這項(xiàng)研究為未來(lái)的多模態(tài)系統(tǒng)設(shè)計(jì)提供了明確方向,表明需要專(zhuān)門(mén)的方向表示機(jī)制和架構(gòu)創(chuàng)新,使模型能夠更好地理解和推理物體方向。DORI基準(zhǔn)為評(píng)估這些進(jìn)步提供了全面的診斷工具,對(duì)機(jī)器人控制、3D場(chǎng)景重建和人機(jī)交互等眾多應(yīng)用有著直接的影響。

七、DORI基準(zhǔn)測(cè)試的技術(shù)細(xì)節(jié)

DORI基準(zhǔn)測(cè)試在設(shè)計(jì)上具有豐富的多樣性和全面性。它涵蓋了從KITTI、Cityscapes、COCO等真實(shí)世界數(shù)據(jù)集到ShapeNet、Get3D等模擬環(huán)境的多個(gè)數(shù)據(jù)源,確保評(píng)估數(shù)據(jù)具有各種視覺(jué)復(fù)雜度水平。

基準(zhǔn)中的每種任務(wù)都經(jīng)過(guò)精心設(shè)計(jì),以測(cè)試方向理解的特定方面:

視角平行性感知任務(wù)評(píng)估模型確定物體前表面是朝向、背離或垂直于相機(jī)平面的能力。研究團(tuán)隊(duì)使用JTA和KITTI數(shù)據(jù)集構(gòu)建了這個(gè)數(shù)據(jù)集,分析肩部位置相對(duì)于相機(jī)和頭部角度,或利用可用的旋轉(zhuǎn)矩陣對(duì)車(chē)輛和行人進(jìn)行分類(lèi)。

方向面向感知任務(wù)將方向評(píng)估擴(kuò)展到基本方向,要求模型識(shí)別物體是面向、背離、向左或向右相對(duì)于相機(jī)。這使用COCO和Cityscapes圖像,通過(guò)專(zhuān)家手動(dòng)標(biāo)注或利用旋轉(zhuǎn)矩陣精確確定方向。

單軸旋轉(zhuǎn)任務(wù)評(píng)估對(duì)垂直軸旋轉(zhuǎn)變換的理解,要求模型確定物體面向相機(jī)所需的最佳旋轉(zhuǎn)方向和精確角度調(diào)整。這使用3D-Future和Objectron數(shù)據(jù)集,計(jì)算對(duì)象面向相機(jī)所需的精確旋轉(zhuǎn)調(diào)整。

復(fù)合旋轉(zhuǎn)任務(wù)評(píng)估對(duì)涉及沿多個(gè)軸的順序變換的復(fù)雜旋轉(zhuǎn)的理解,使用Get3D、ShapeNet和OmniObject3D中的3D渲染對(duì)象,實(shí)施控制的渲染流水線(xiàn),應(yīng)用精確的水平和垂直軸旋轉(zhuǎn)。

物體間方向感知任務(wù)評(píng)估從物體自身視角而非相機(jī)視角理解物體之間相對(duì)方向的能力。使用3D Future和NOCS REAL數(shù)據(jù)集,利用6 DoF參數(shù)計(jì)算物體對(duì)之間的精確角度關(guān)系。

觀察者-場(chǎng)景方向感知任務(wù)評(píng)估感知兩張同一物體圖像之間旋轉(zhuǎn)變化的能力。使用Get3D、ShapeNet和OmniObject3D數(shù)據(jù)集,渲染帶有地平面參考的對(duì)象,然后創(chuàng)建物體繞垂直軸旋轉(zhuǎn)特定角度的對(duì)應(yīng)圖像。

規(guī)范方向推理任務(wù)評(píng)估識(shí)別物體何時(shí)出現(xiàn)在非規(guī)范位置和確定恢復(fù)物體所需變換的能力。使用COCO圖像子集,創(chuàng)建帶有系統(tǒng)翻轉(zhuǎn)和旋轉(zhuǎn)的變體。

DORI基準(zhǔn)包含總計(jì)33,656個(gè)多項(xiàng)選擇題,覆蓋67個(gè)不同物體類(lèi)別,并提供了兩種評(píng)估粒度(粗粒度和細(xì)粒度)以提供關(guān)于模型方向理解的全面視圖。

八、研究的局限性與未來(lái)展望

盡管DORI基準(zhǔn)提供了對(duì)多模態(tài)大語(yǔ)言模型方向理解能力的前所未有的洞察,但研究團(tuán)隊(duì)也承認(rèn)存在一些局限性。

首先,DORI主要集中在靜態(tài)圖像上的方向理解,而未探索視頻或交互式環(huán)境中的動(dòng)態(tài)方向理解。就像看照片和看電影的區(qū)別一樣,動(dòng)態(tài)環(huán)境中的方向理解可能涉及額外的復(fù)雜性和挑戰(zhàn)。

其次,盡管DORI涵蓋了廣泛的物體類(lèi)別,但它仍然無(wú)法完全代表現(xiàn)實(shí)世界中所有可能的物體和場(chǎng)景。某些特殊領(lǐng)域(如醫(yī)療、工業(yè))的物體可能具有獨(dú)特的方向理解要求。

研究團(tuán)隊(duì)指出,未來(lái)的工作可以擴(kuò)展到更多樣化的數(shù)據(jù)源,包括更多物體類(lèi)別和更復(fù)雜的場(chǎng)景。此外,探索物體方向理解與其他空間推理能力(如深度感知、遮擋理解)的交互也是重要的研究方向。

值得注意的是,研究表明,當(dāng)前方向理解的限制可能源于現(xiàn)有架構(gòu)中缺乏專(zhuān)門(mén)的幾何表示機(jī)制。這啟示未來(lái)的模型設(shè)計(jì)應(yīng)考慮如何更好地編碼和處理三維空間信息,可能通過(guò)整合專(zhuān)門(mén)的3D表示模塊或采用能更好保留幾何關(guān)系的訓(xùn)練目標(biāo)。

最終,這項(xiàng)研究不僅指出了當(dāng)前多模態(tài)系統(tǒng)的限制,也為未來(lái)的發(fā)展指明了方向。隨著我們?cè)絹?lái)越多地依賴(lài)AI系統(tǒng)在物理世界中導(dǎo)航和操作,增強(qiáng)它們的方向理解能力將變得至關(guān)重要。DORI基準(zhǔn)為這一關(guān)鍵能力的進(jìn)步提供了清晰的路徑和評(píng)估工具。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-