av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) MLLMs能幫我找到回家的路嗎?——新加坡國(guó)立大學(xué)等機(jī)構(gòu)發(fā)布基于交通地圖的細(xì)粒度視覺(jué)推理基準(zhǔn)研究

MLLMs能幫我找到回家的路嗎?——新加坡國(guó)立大學(xué)等機(jī)構(gòu)發(fā)布基于交通地圖的細(xì)粒度視覺(jué)推理基準(zhǔn)研究

2025-05-29 20:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 20:44 ? 科技行者

最近,多模態(tài)大語(yǔ)言模型(MLLMs)在視覺(jué)任務(wù)上取得了令人矚目的進(jìn)展,從語(yǔ)義場(chǎng)景理解到文本-圖像對(duì)齊,再到推理型模型在復(fù)雜任務(wù)中的增強(qiáng)表現(xiàn),尤其是在數(shù)學(xué)和邏輯方面。然而,這些模型在涉及細(xì)粒度視覺(jué)理解的推理任務(wù)中的能力還未得到充分評(píng)估。為了填補(bǔ)這一空白,來(lái)自新加坡國(guó)立大學(xué)、西湖大學(xué)、浙江大學(xué)和華中科技大學(xué)的研究團(tuán)隊(duì)共同開(kāi)發(fā)了一個(gè)名為REASONMAP的新基準(zhǔn),旨在評(píng)估MLLMs的細(xì)粒度視覺(jué)理解和空間推理能力。這項(xiàng)研究于2025年5月24日發(fā)布在arXiv(arXiv:2505.18675v1)預(yù)印本平臺(tái)上,研究數(shù)據(jù)集和工具包可在https://fscdc.github.io/Reason-Map 獲取。

想象一下這個(gè)場(chǎng)景:你正在一個(gè)陌生城市旅行,需要通過(guò)地鐵從一個(gè)地方到另一個(gè)地方。你手持一張高分辨率的地鐵線路圖,但上面復(fù)雜的線路網(wǎng)絡(luò)讓你頭暈?zāi)垦?。這時(shí),如果你的智能手機(jī)應(yīng)用能夠"看懂"這張地圖,并準(zhǔn)確地告訴你該如何換乘,那該有多方便?這正是REASONMAP基準(zhǔn)測(cè)試想要解決的問(wèn)題:多模態(tài)大語(yǔ)言模型能否真正理解復(fù)雜的交通線路圖,并提供準(zhǔn)確的路線規(guī)劃?

REASONMAP包含來(lái)自13個(gè)國(guó)家30個(gè)城市的高分辨率交通地圖,并包括1,008個(gè)問(wèn)答對(duì),涵蓋兩種問(wèn)題類型和三種模板。平均而言,這些地圖的分辨率高達(dá)5,839×5,449像素,遠(yuǎn)超其他多模態(tài)推理數(shù)據(jù)集。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩級(jí)評(píng)估流程,分別評(píng)估答案的正確性和質(zhì)量。通過(guò)對(duì)15個(gè)流行MLLMs(包括基礎(chǔ)模型和推理型模型)的全面評(píng)估,研究發(fā)現(xiàn)了一個(gè)反直覺(jué)的現(xiàn)象:在開(kāi)源模型中,基礎(chǔ)模型的表現(xiàn)優(yōu)于推理型模型,而在閉源模型中則恰恰相反。此外,當(dāng)視覺(jué)輸入被遮蓋時(shí),模型性能普遍下降,這表明盡管MLLMs可以利用先驗(yàn)知識(shí)回答一些問(wèn)題,但細(xì)粒度視覺(jué)推理任務(wù)仍然需要真正的視覺(jué)感知才能取得良好的表現(xiàn)。

一、研究背景與意義

想象你正在使用導(dǎo)航軟件尋找回家的路。這個(gè)軟件需要理解地圖、識(shí)別路線并為你規(guī)劃最佳路徑?,F(xiàn)在,把這個(gè)場(chǎng)景遷移到人工智能領(lǐng)域:如果我們希望AI助手能夠幫助我們理解復(fù)雜的地鐵線路圖并規(guī)劃路線,它需要具備什么樣的能力?

多模態(tài)大語(yǔ)言模型(MLLMs)最近在視覺(jué)-語(yǔ)言任務(wù)上取得了顯著進(jìn)步。它們能夠理解圖像中的場(chǎng)景,找出圖像中的特定物體,甚至進(jìn)行一些基于圖像的推理。但當(dāng)任務(wù)變得更加復(fù)雜,需要細(xì)致入微地理解視覺(jué)內(nèi)容并進(jìn)行空間推理時(shí),這些模型的表現(xiàn)如何呢?

就像你需要放大地圖才能看清楚換乘站點(diǎn)的細(xì)節(jié)一樣,研究人員需要專門設(shè)計(jì)的測(cè)試來(lái)評(píng)估AI模型在處理高分辨率、信息密集的圖像(如交通地圖)時(shí)的能力。這正是REASONMAP基準(zhǔn)的創(chuàng)新之處。研究者們選擇了交通地圖作為測(cè)試媒介,因?yàn)樗鼈兲烊恍枰_的空間解讀—想象你必須從地圖上確定從A站到B站需要經(jīng)過(guò)哪些線路和換乘站,這正是對(duì)細(xì)粒度視覺(jué)理解能力的挑戰(zhàn)。

當(dāng)前已有一些測(cè)試MLLMs推理能力的基準(zhǔn),如MathVQA(測(cè)試視覺(jué)數(shù)學(xué)問(wèn)題)和MMMU(測(cè)試多學(xué)科多模態(tài)理解),但這些基準(zhǔn)往往允許模型通過(guò)淺層啟發(fā)式方法取得成功,而不需要真正理解視覺(jué)內(nèi)容。MathVerse通過(guò)引入多樣化的問(wèn)題變體來(lái)鼓勵(lì)依賴視覺(jué)輸入,VisuLogic則通過(guò)明確消除語(yǔ)言捷徑來(lái)強(qiáng)制視覺(jué)推理。還有其他一些工作,如VisualPuzzles、VGRP-Bench和R-Bench關(guān)注邏輯和結(jié)構(gòu)推理,而CityBench和DriveBench則專注于城市任務(wù)和自動(dòng)駕駛等特定應(yīng)用領(lǐng)域。V*Bench強(qiáng)調(diào)詳細(xì)的視覺(jué)理解。盡管這些進(jìn)展令人鼓舞,但對(duì)于細(xì)粒度視覺(jué)推理的系統(tǒng)評(píng)估仍然有限,特別是對(duì)于結(jié)構(gòu)化且信息豐富的圖表,如高分辨率交通地圖,這在現(xiàn)有基準(zhǔn)中留下了一個(gè)關(guān)鍵空白。

二、REASONMAP數(shù)據(jù)集設(shè)計(jì)與構(gòu)建

想象你正在設(shè)計(jì)一個(gè)考試,測(cè)試學(xué)生是否能夠看懂城市地鐵圖并規(guī)劃路線。你會(huì)怎么做?你可能會(huì)選擇不同城市的地鐵圖,設(shè)計(jì)從一個(gè)站點(diǎn)到另一個(gè)站點(diǎn)的問(wèn)題,并要求學(xué)生詳細(xì)說(shuō)明如何到達(dá)目的地。這正是研究團(tuán)隊(duì)構(gòu)建REASONMAP的方式。

REASONMAP包含30個(gè)來(lái)自13個(gè)國(guó)家的高分辨率交通地圖,平均分辨率達(dá)到5,839×5,449像素。為了確保多樣性,研究團(tuán)隊(duì)選擇了具有不同復(fù)雜度的地圖,并將它們分為簡(jiǎn)單、中等和復(fù)雜三個(gè)難度級(jí)別,每個(gè)級(jí)別包含10個(gè)地圖。所選城市包括北京、新加坡、羅馬、布達(dá)佩斯等世界各地的大都市,確保了地理和語(yǔ)言的多樣性。

數(shù)據(jù)集的構(gòu)建過(guò)程分為三個(gè)主要階段:

首先是數(shù)據(jù)收集和預(yù)處理階段。研究團(tuán)隊(duì)收集了符合相關(guān)許可和規(guī)定的公開(kāi)可用交通地圖。然后利用MLLMs提取交通線路名稱和對(duì)應(yīng)的站點(diǎn),并進(jìn)行人工校正,確保信息準(zhǔn)確無(wú)誤。特殊情況如換乘站和分支起始站以標(biāo)準(zhǔn)化格式進(jìn)行了注釋,最終將所有路線和站點(diǎn)信息保存為統(tǒng)一的JSON格式,稱為地圖元數(shù)據(jù)。

第二階段是問(wèn)答對(duì)構(gòu)建。這個(gè)過(guò)程包括三個(gè)關(guān)鍵步驟:?jiǎn)栴}生成、參考路線收集和標(biāo)簽注釋。在問(wèn)題生成環(huán)節(jié),研究團(tuán)隊(duì)隨機(jī)選擇地圖上的兩個(gè)站點(diǎn),然后基于預(yù)定義的模板生成一個(gè)簡(jiǎn)短問(wèn)題和一個(gè)長(zhǎng)問(wèn)題。簡(jiǎn)短問(wèn)題只有一個(gè)固定模板,而長(zhǎng)問(wèn)題則隨機(jī)分配兩個(gè)可用模板之一。這兩個(gè)長(zhǎng)問(wèn)題模板關(guān)注點(diǎn)不同:一個(gè)詢問(wèn)經(jīng)過(guò)站點(diǎn)的數(shù)量,另一個(gè)要求識(shí)別每個(gè)經(jīng)過(guò)的站點(diǎn)。

對(duì)于參考路線收集,研究團(tuán)隊(duì)使用高德地圖(針對(duì)中國(guó)城市)和谷歌地圖(針對(duì)其他城市)的API查詢所選兩個(gè)站點(diǎn)之間的所有有效交通路線。這些路線以統(tǒng)一格式存儲(chǔ),包含相關(guān)元數(shù)據(jù)如路線名稱、出發(fā)站、到達(dá)站、經(jīng)過(guò)站和經(jīng)過(guò)站數(shù)量。研究團(tuán)隊(duì)丟棄了那些無(wú)法在地圖上直觀追蹤的路線,確保與視覺(jué)內(nèi)容的一致性。

在標(biāo)簽注釋環(huán)節(jié),研究團(tuán)隊(duì)進(jìn)行了兩級(jí)難度標(biāo)記。對(duì)于地圖難度,他們手動(dòng)將每個(gè)地圖分配到三個(gè)難度級(jí)別之一(簡(jiǎn)單、中等、復(fù)雜),確保在30個(gè)地圖中平均分配,每個(gè)級(jí)別10個(gè)地圖。對(duì)于問(wèn)題難度,則基于參考路線中的換乘次數(shù)進(jìn)行分配:無(wú)需換乘的路線標(biāo)記為簡(jiǎn)單,需要一次換乘的標(biāo)記為中等,所有其他情況標(biāo)記為復(fù)雜。為確保平衡,研究團(tuán)隊(duì)為每個(gè)地圖設(shè)定了固定的難度分布閾值為20:15:5(簡(jiǎn)單:中等:復(fù)雜),生成40個(gè)問(wèn)題。一旦特定地圖上某個(gè)難度級(jí)別的配額達(dá)到,就不再保留該級(jí)別的額外問(wèn)題。

第三階段是質(zhì)量控制。為確保數(shù)據(jù)集的可靠性和平衡性,研究團(tuán)隊(duì)從三個(gè)方面進(jìn)行了質(zhì)量控制:正確性、多樣性和難度平衡。不正確的問(wèn)答對(duì)要么被手動(dòng)糾正,要么被丟棄。然后通過(guò)自動(dòng)檢查和手動(dòng)調(diào)整確保在所有難度級(jí)別上的一致性和覆蓋率。

最終的REASONMAP數(shù)據(jù)集包含1,008個(gè)問(wèn)答對(duì),難度分布如下:57.7%被標(biāo)記為簡(jiǎn)單,34.4%被標(biāo)記為中等,7.8%被標(biāo)記為復(fù)雜。此外,研究團(tuán)隊(duì)從中手動(dòng)選擇了312個(gè)樣本作為測(cè)試集,用于基準(zhǔn)實(shí)驗(yàn),剩余樣本作為未來(lái)使用的訓(xùn)練集。為確保多樣性和難度平衡,測(cè)試集包括11個(gè)城市,地圖難度比例為4:3:4,問(wèn)題難度分布(181簡(jiǎn)單,108中等,23復(fù)雜)與完整數(shù)據(jù)集保持一致。

三、評(píng)估框架設(shè)計(jì)

假設(shè)你是一位老師,正在批改學(xué)生規(guī)劃地鐵路線的作業(yè)。你不僅要看學(xué)生給出的路線是否正確(能否到達(dá)目的地),還要評(píng)估路線的質(zhì)量(是否選擇了最優(yōu)路徑,是否有不必要的繞路)。REASONMAP的評(píng)估框架正是基于這樣的思路設(shè)計(jì)的。

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩級(jí)評(píng)估框架,分別評(píng)估模型生成答案的正確性和質(zhì)量。正確性使用準(zhǔn)確率來(lái)衡量,而質(zhì)量則通過(guò)一個(gè)名為"地圖分?jǐn)?shù)"(map score)的指標(biāo)來(lái)評(píng)估,考慮多種因素如路線效率和與參考路線的一致性。

在評(píng)估準(zhǔn)備階段,研究團(tuán)隊(duì)首先根據(jù)指定格式解析模型生成的答案。不符合指定格式或因模型幻覺(jué)而無(wú)法解析的答案被標(biāo)記為無(wú)效,并在后續(xù)評(píng)估中被排除,準(zhǔn)確率和地圖分?jǐn)?shù)均設(shè)為零。對(duì)于正確性評(píng)估,研究團(tuán)隊(duì)使用第3.1.1節(jié)中提到的地圖元數(shù)據(jù)作為真實(shí)值。對(duì)于質(zhì)量評(píng)估,則采用第3.1.2節(jié)中收集的參考路線作為真實(shí)值。

正確性評(píng)估算法檢查答案的整體正確性。具體來(lái)說(shuō),評(píng)估算法檢查第一段路線的出發(fā)站和最后一段路線的到達(dá)站是否分別與問(wèn)題中的起點(diǎn)和終點(diǎn)相匹配,驗(yàn)證每個(gè)路線段的路線名稱是否存在于地圖元數(shù)據(jù)中,確保每個(gè)路線段的出發(fā)站和到達(dá)站對(duì)該路線是有效的,并確認(rèn)連續(xù)路線段之間的換乘站點(diǎn)是一致的。只有當(dāng)所有這些檢查都通過(guò)時(shí),答案才被視為正確。同樣的評(píng)估算法也應(yīng)用于短問(wèn)題和長(zhǎng)問(wèn)題的答案。

質(zhì)量評(píng)估則引入了一個(gè)統(tǒng)一的評(píng)分指標(biāo)——地圖分?jǐn)?shù),適用于短問(wèn)題和長(zhǎng)問(wèn)題??傮w框架與正確性評(píng)估類似,但更注重路線質(zhì)量。對(duì)于短問(wèn)題,地圖分?jǐn)?shù)僅關(guān)注路線級(jí)別和端點(diǎn)一致性,不包含所有特定于長(zhǎng)問(wèn)題的部分。具體來(lái)說(shuō),正確匹配起點(diǎn)和終點(diǎn)貢獻(xiàn)一分,匹配路線名稱增加兩分,匹配每個(gè)路線段內(nèi)的出發(fā)站和到達(dá)站各提供一分。最終分?jǐn)?shù)上限為10分,如果基于正確性評(píng)估判斷答案正確,則額外獎(jiǎng)勵(lì)分?jǐn)?shù)。這樣設(shè)計(jì)確保了正確答案始終獲得高于任何不正確答案的分?jǐn)?shù)。

對(duì)于長(zhǎng)問(wèn)題,評(píng)估還加入了根據(jù)兩種問(wèn)題模板設(shè)計(jì)的額外評(píng)分組件。這些組件旨在捕捉長(zhǎng)格式回答中所需的更深層次推理。與短問(wèn)題一樣,正確答案也會(huì)獲得額外的獎(jiǎng)勵(lì)分?jǐn)?shù)。

具體來(lái)說(shuō),對(duì)于要求模型預(yù)測(cè)每個(gè)路線段經(jīng)過(guò)站點(diǎn)數(shù)量的長(zhǎng)問(wèn)題,研究團(tuán)隊(duì)引入了"經(jīng)過(guò)站點(diǎn)數(shù)量分?jǐn)?shù)"(num_via_stop_score)。這個(gè)分?jǐn)?shù)通過(guò)計(jì)算答案和參考路線經(jīng)過(guò)站點(diǎn)數(shù)量的絕對(duì)誤差,并將其映射到固定分?jǐn)?shù)(4分)來(lái)計(jì)算。完全匹配獲得滿分,較大差異獲得相應(yīng)較低的分?jǐn)?shù)。整個(gè)路線的分?jǐn)?shù)上限為10分。

對(duì)于要求明確列舉中間站點(diǎn)的長(zhǎng)問(wèn)題,研究團(tuán)隊(duì)計(jì)算"經(jīng)過(guò)站點(diǎn)分?jǐn)?shù)"(via_stop_score),綜合考慮兩個(gè)因素:正確匹配的經(jīng)過(guò)站點(diǎn)數(shù)量,以及答案和參考路線經(jīng)過(guò)站點(diǎn)集合的交并比(IoU)。該組件的最終分?jǐn)?shù)通過(guò)取IoU分?jǐn)?shù)(縮放至10分)和精確匹配數(shù)(上限為10)的平均值,然后限制最大值為10分來(lái)獲得。

四、實(shí)驗(yàn)設(shè)置與模型評(píng)估

想象一場(chǎng)"視覺(jué)導(dǎo)航大賽",參賽選手是各種先進(jìn)的AI模型,他們的任務(wù)是理解交通地圖并提供準(zhǔn)確的路線規(guī)劃。研究團(tuán)隊(duì)邀請(qǐng)了15個(gè)流行的多模態(tài)大語(yǔ)言模型參加這場(chǎng)比賽,包括開(kāi)源模型和閉源模型,基礎(chǔ)模型和推理型模型。這些選手將如何表現(xiàn)呢?

研究團(tuán)隊(duì)評(píng)估的模型基于是否為推理導(dǎo)向型模型(具有長(zhǎng)思考過(guò)程)分為兩組。推理模型包括:Skywork-R1V-38B、QvQ-72B-Preview、Kimi-VL-A3B-Thinking/Instruct、OpenAI o3、Gemini-2.5-Flash、Doubao-1-5-thinking-vision-pro-250428(簡(jiǎn)稱Doubao-428)和Doubao-1.5-Thinking-Pro-M-250415(簡(jiǎn)稱Doubao-415)。基礎(chǔ)模型包括:Qwen2.5-VL系列(3B、32B、72B)、InternVL3系列(38B、78B)、OpenAI 4o和Doubao-1.5-Vision-Pro-32k-250115(簡(jiǎn)稱Doubao-115)。此外,Doubao 1.5 Pro系列的激活參數(shù)大小為20B。

對(duì)于開(kāi)源模型,研究團(tuán)隊(duì)將最大輸出令牌限制設(shè)置為2,048,同時(shí)保持其他參數(shù)與官方HuggingFace配置一致。所有開(kāi)源模型都使用PyTorch和HuggingFace Transformers庫(kù)部署在8塊NVIDIA A100 GPU上。對(duì)于閉源模型,研究團(tuán)隊(duì)使用其官方API進(jìn)行評(píng)估,并遵循每個(gè)模型官方文檔提供的默認(rèn)設(shè)置。研究團(tuán)隊(duì)還在附錄D中討論了處理高分辨率視覺(jué)輸入時(shí)各種模型采用的不同圖像處理策略。

為了更好地反映不同樣本的復(fù)雜度差異,研究團(tuán)隊(duì)采用了基于問(wèn)題難度和地圖難度組合的難度感知加權(quán)策略。具體而言,每個(gè)難度組合都分配了一個(gè)預(yù)定義的權(quán)重,較難的組合獲得更高的值。完整的權(quán)重矩陣在附錄B.2中提供。準(zhǔn)確率和地圖分?jǐn)?shù)都使用這種加權(quán)方案進(jìn)行評(píng)估,確保模型在正確解決更具挑戰(zhàn)性的例子時(shí)獲得更高的獎(jiǎng)勵(lì)。

五、實(shí)驗(yàn)結(jié)果與分析

現(xiàn)在,讓我們來(lái)看看這場(chǎng)"視覺(jué)導(dǎo)航大賽"的結(jié)果。這些AI模型在理解交通地圖和規(guī)劃路線方面表現(xiàn)如何?有哪些令人驚訝的發(fā)現(xiàn)?

首先,研究團(tuán)隊(duì)觀察到一個(gè)反直覺(jué)的現(xiàn)象:在開(kāi)源模型中,基礎(chǔ)模型始終優(yōu)于其推理型對(duì)應(yīng)模型,而在閉源模型中則恰恰相反。先前的研究表明,強(qiáng)化學(xué)習(xí)可能會(huì)提高樣本效率,但不會(huì)引入根本性的新推理能力,而經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型往往會(huì)將其輸出分布偏向高獎(jiǎng)勵(lì)軌跡,這有助于產(chǎn)生更正確的響應(yīng),但可能同時(shí)限制模型的探索能力并降低其利用更廣泛基礎(chǔ)知識(shí)的能力。此外,最近的研究表明,多模態(tài)模型有時(shí)可能依賴內(nèi)部知識(shí)先驗(yàn)而非真正關(guān)注視覺(jué)輸入。這一趨勢(shì)在后續(xù)實(shí)驗(yàn)中得到進(jìn)一步支持,當(dāng)沒(méi)有視覺(jué)輸入時(shí),開(kāi)源模型仍然保持部分性能,表明視覺(jué)基礎(chǔ)有限。相比之下,閉源推理模型優(yōu)于其基礎(chǔ)變體。一種可能的解釋是這些模型在知識(shí)覆蓋面和視覺(jué)整合方面表現(xiàn)更好。

通過(guò)分析同一架構(gòu)系列內(nèi)的模型性能,研究團(tuán)隊(duì)發(fā)現(xiàn)模型大小對(duì)性能有顯著影響。Qwen2.5-VL和InternVL系列展示了一致的趨勢(shì):更大的模型在使用更少令牌的情況下取得更好的準(zhǔn)確率,這表明即使在細(xì)粒度視覺(jué)推理任務(wù)中,規(guī)模法則仍然適用。

研究團(tuán)隊(duì)還分析了不同難度組合下的準(zhǔn)確率分布。如預(yù)期的那樣,隨著任務(wù)復(fù)雜度增加,性能下降。此外,研究團(tuán)隊(duì)還檢查了不同城市之間的準(zhǔn)確率變化。結(jié)果表明,地圖難度與準(zhǔn)確率呈負(fù)相關(guān)。更有趣的是,即使在具有相似地圖難度級(jí)別的城市之間,模型性能也存在顯著差異。這種差異部分可歸因于城市知名度和站點(diǎn)名稱使用的語(yǔ)言等因素,這兩者都與模型的預(yù)訓(xùn)練知識(shí)密切相關(guān)。例如,OpenAI o3在復(fù)雜城市如新加坡上的表現(xiàn)明顯好于杭州,這可能是因?yàn)樾录悠碌膰?guó)際知名度更高,且使用英文站名,而杭州的知名度較低,站名為中文。

為了進(jìn)一步調(diào)查MLLMs對(duì)視覺(jué)輸入的依賴程度,研究團(tuán)隊(duì)選擇了代表性的開(kāi)源和閉源模型進(jìn)行額外實(shí)驗(yàn),其中視覺(jué)輸入被遮蓋。結(jié)果表明,雖然大多數(shù)模型可以利用內(nèi)部知識(shí)回答某些問(wèn)題,但當(dāng)視覺(jué)輸入被移除時(shí),它們的性能普遍下降到不同程度,其中閉源模型的下降更為明顯。模型性能與遮蓋視覺(jué)輸入后的性能下降呈正相關(guān),表明有效使用視覺(jué)信息。相比之下,Qwen2.5-VL-3B-I等模型表現(xiàn)出最小甚至略有改善的性能,表明其更依賴內(nèi)部知識(shí)而非真正的視覺(jué)推理。

最后,研究團(tuán)隊(duì)分析了REASONMAP中的代表性失敗案例,揭示了幾種常見(jiàn)的錯(cuò)誤類型。一個(gè)常見(jiàn)問(wèn)題是視覺(jué)混淆,模型由于相似顏色或相鄰布局而錯(cuò)誤識(shí)別交通線路。另一個(gè)頻繁問(wèn)題是格式錯(cuò)誤,響應(yīng)偏離了所需結(jié)構(gòu),使其無(wú)法處理,盡管可能包含正確的路線信息。研究團(tuán)隊(duì)還觀察到幻覺(jué)實(shí)例,模型重復(fù)正確答案或生成輸入中不存在的信息。拒絕案例也存在,模型明確拒絕回答。值得注意的是,這些錯(cuò)誤有時(shí)會(huì)在單個(gè)響應(yīng)中同時(shí)出現(xiàn)。這些行為突顯了視覺(jué)基礎(chǔ)和響應(yīng)穩(wěn)健性的局限性,特別是在處理細(xì)粒度視覺(jué)細(xì)節(jié)時(shí)。

六、結(jié)論與未來(lái)展望

就像一個(gè)導(dǎo)游需要精確理解地圖才能帶領(lǐng)游客順利到達(dá)目的地,多模態(tài)大語(yǔ)言模型也需要具備細(xì)粒度視覺(jué)理解和空間推理能力才能在現(xiàn)實(shí)世界中發(fā)揮更大作用。

通過(guò)REASONMAP這一基準(zhǔn)測(cè)試,研究團(tuán)隊(duì)揭示了當(dāng)前多模態(tài)大語(yǔ)言模型在處理高分辨率、信息密集型視覺(jué)輸入時(shí)的能力和局限性。研究發(fā)現(xiàn),即使是最先進(jìn)的模型在理解交通地圖和規(guī)劃路線方面仍面臨挑戰(zhàn),特別是當(dāng)任務(wù)需要細(xì)粒度的視覺(jué)理解和多步驟的推理時(shí)。

研究還揭示了一個(gè)有趣的現(xiàn)象:在開(kāi)源模型中,基礎(chǔ)模型表現(xiàn)優(yōu)于推理型模型,而在閉源模型中則相反。這可能反映了當(dāng)前強(qiáng)化學(xué)習(xí)訓(xùn)練方法在增強(qiáng)模型推理能力方面的局限性,以及開(kāi)源和閉源模型在知識(shí)覆蓋和視覺(jué)整合方面的差異。

此外,研究表明,大多數(shù)模型在沒(méi)有視覺(jué)輸入的情況下性能顯著下降,表明它們確實(shí)在一定程度上依賴視覺(jué)信息進(jìn)行推理。然而,一些模型仍能在僅有文本輸入的情況下部分保持性能,這表明它們可能過(guò)度依賴內(nèi)部知識(shí)而非真正理解視覺(jué)內(nèi)容。

REASONMAP的創(chuàng)建填補(bǔ)了現(xiàn)有多模態(tài)推理基準(zhǔn)中的一個(gè)重要空白,為評(píng)估模型在處理結(jié)構(gòu)化視覺(jué)信息和進(jìn)行空間推理方面的能力提供了有價(jià)值的工具。這不僅有助于推動(dòng)多模態(tài)大語(yǔ)言模型在視覺(jué)理解方面的進(jìn)步,還為理解開(kāi)源和閉源模型之間的差距提供了新的視角。

未來(lái)的研究方向可能包括:擴(kuò)展數(shù)據(jù)集以覆蓋更多城市和語(yǔ)言,開(kāi)發(fā)更先進(jìn)的評(píng)估方法以捕捉更細(xì)微的推理能力差異,以及探索如何增強(qiáng)模型的視覺(jué)基礎(chǔ)和空間推理能力。隨著這些進(jìn)步,我們可以期待多模態(tài)大語(yǔ)言模型在未來(lái)能夠更好地理解復(fù)雜的視覺(jué)世界,為用戶提供更準(zhǔn)確、更有用的信息和建議。

正如一位熟練的導(dǎo)游不僅需要知道目的地,還需要理解如何最有效地到達(dá)那里,未來(lái)的AI助手也將需要不僅僅識(shí)別視覺(jué)內(nèi)容,還要理解其空間關(guān)系和邏輯含義。REASONMAP向這一目標(biāo)邁出了重要一步,為研究人員提供了一個(gè)強(qiáng)大的工具來(lái)評(píng)估和改進(jìn)多模態(tài)模型的細(xì)粒度視覺(jué)理解和推理能力。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-