av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 MLLMs能幫我找到回家的路嗎?——新加坡國立大學(xué)等機構(gòu)發(fā)布基于交通地圖的細粒度視覺推理基準研究

MLLMs能幫我找到回家的路嗎?——新加坡國立大學(xué)等機構(gòu)發(fā)布基于交通地圖的細粒度視覺推理基準研究

2025-05-29 20:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 20:44 ? 科技行者

最近,多模態(tài)大語言模型(MLLMs)在視覺任務(wù)上取得了令人矚目的進展,從語義場景理解到文本-圖像對齊,再到推理型模型在復(fù)雜任務(wù)中的增強表現(xiàn),尤其是在數(shù)學(xué)和邏輯方面。然而,這些模型在涉及細粒度視覺理解的推理任務(wù)中的能力還未得到充分評估。為了填補這一空白,來自新加坡國立大學(xué)、西湖大學(xué)、浙江大學(xué)和華中科技大學(xué)的研究團隊共同開發(fā)了一個名為REASONMAP的新基準,旨在評估MLLMs的細粒度視覺理解和空間推理能力。這項研究于2025年5月24日發(fā)布在arXiv(arXiv:2505.18675v1)預(yù)印本平臺上,研究數(shù)據(jù)集和工具包可在https://fscdc.github.io/Reason-Map 獲取。

想象一下這個場景:你正在一個陌生城市旅行,需要通過地鐵從一個地方到另一個地方。你手持一張高分辨率的地鐵線路圖,但上面復(fù)雜的線路網(wǎng)絡(luò)讓你頭暈?zāi)垦!_@時,如果你的智能手機應(yīng)用能夠"看懂"這張地圖,并準確地告訴你該如何換乘,那該有多方便?這正是REASONMAP基準測試想要解決的問題:多模態(tài)大語言模型能否真正理解復(fù)雜的交通線路圖,并提供準確的路線規(guī)劃?

REASONMAP包含來自13個國家30個城市的高分辨率交通地圖,并包括1,008個問答對,涵蓋兩種問題類型和三種模板。平均而言,這些地圖的分辨率高達5,839×5,449像素,遠超其他多模態(tài)推理數(shù)據(jù)集。研究團隊設(shè)計了一個兩級評估流程,分別評估答案的正確性和質(zhì)量。通過對15個流行MLLMs(包括基礎(chǔ)模型和推理型模型)的全面評估,研究發(fā)現(xiàn)了一個反直覺的現(xiàn)象:在開源模型中,基礎(chǔ)模型的表現(xiàn)優(yōu)于推理型模型,而在閉源模型中則恰恰相反。此外,當(dāng)視覺輸入被遮蓋時,模型性能普遍下降,這表明盡管MLLMs可以利用先驗知識回答一些問題,但細粒度視覺推理任務(wù)仍然需要真正的視覺感知才能取得良好的表現(xiàn)。

一、研究背景與意義

想象你正在使用導(dǎo)航軟件尋找回家的路。這個軟件需要理解地圖、識別路線并為你規(guī)劃最佳路徑?,F(xiàn)在,把這個場景遷移到人工智能領(lǐng)域:如果我們希望AI助手能夠幫助我們理解復(fù)雜的地鐵線路圖并規(guī)劃路線,它需要具備什么樣的能力?

多模態(tài)大語言模型(MLLMs)最近在視覺-語言任務(wù)上取得了顯著進步。它們能夠理解圖像中的場景,找出圖像中的特定物體,甚至進行一些基于圖像的推理。但當(dāng)任務(wù)變得更加復(fù)雜,需要細致入微地理解視覺內(nèi)容并進行空間推理時,這些模型的表現(xiàn)如何呢?

就像你需要放大地圖才能看清楚換乘站點的細節(jié)一樣,研究人員需要專門設(shè)計的測試來評估AI模型在處理高分辨率、信息密集的圖像(如交通地圖)時的能力。這正是REASONMAP基準的創(chuàng)新之處。研究者們選擇了交通地圖作為測試媒介,因為它們天然需要精確的空間解讀—想象你必須從地圖上確定從A站到B站需要經(jīng)過哪些線路和換乘站,這正是對細粒度視覺理解能力的挑戰(zhàn)。

當(dāng)前已有一些測試MLLMs推理能力的基準,如MathVQA(測試視覺數(shù)學(xué)問題)和MMMU(測試多學(xué)科多模態(tài)理解),但這些基準往往允許模型通過淺層啟發(fā)式方法取得成功,而不需要真正理解視覺內(nèi)容。MathVerse通過引入多樣化的問題變體來鼓勵依賴視覺輸入,VisuLogic則通過明確消除語言捷徑來強制視覺推理。還有其他一些工作,如VisualPuzzles、VGRP-Bench和R-Bench關(guān)注邏輯和結(jié)構(gòu)推理,而CityBench和DriveBench則專注于城市任務(wù)和自動駕駛等特定應(yīng)用領(lǐng)域。V*Bench強調(diào)詳細的視覺理解。盡管這些進展令人鼓舞,但對于細粒度視覺推理的系統(tǒng)評估仍然有限,特別是對于結(jié)構(gòu)化且信息豐富的圖表,如高分辨率交通地圖,這在現(xiàn)有基準中留下了一個關(guān)鍵空白。

二、REASONMAP數(shù)據(jù)集設(shè)計與構(gòu)建

想象你正在設(shè)計一個考試,測試學(xué)生是否能夠看懂城市地鐵圖并規(guī)劃路線。你會怎么做?你可能會選擇不同城市的地鐵圖,設(shè)計從一個站點到另一個站點的問題,并要求學(xué)生詳細說明如何到達目的地。這正是研究團隊構(gòu)建REASONMAP的方式。

REASONMAP包含30個來自13個國家的高分辨率交通地圖,平均分辨率達到5,839×5,449像素。為了確保多樣性,研究團隊選擇了具有不同復(fù)雜度的地圖,并將它們分為簡單、中等和復(fù)雜三個難度級別,每個級別包含10個地圖。所選城市包括北京、新加坡、羅馬、布達佩斯等世界各地的大都市,確保了地理和語言的多樣性。

數(shù)據(jù)集的構(gòu)建過程分為三個主要階段:

首先是數(shù)據(jù)收集和預(yù)處理階段。研究團隊收集了符合相關(guān)許可和規(guī)定的公開可用交通地圖。然后利用MLLMs提取交通線路名稱和對應(yīng)的站點,并進行人工校正,確保信息準確無誤。特殊情況如換乘站和分支起始站以標(biāo)準化格式進行了注釋,最終將所有路線和站點信息保存為統(tǒng)一的JSON格式,稱為地圖元數(shù)據(jù)。

第二階段是問答對構(gòu)建。這個過程包括三個關(guān)鍵步驟:問題生成、參考路線收集和標(biāo)簽注釋。在問題生成環(huán)節(jié),研究團隊隨機選擇地圖上的兩個站點,然后基于預(yù)定義的模板生成一個簡短問題和一個長問題。簡短問題只有一個固定模板,而長問題則隨機分配兩個可用模板之一。這兩個長問題模板關(guān)注點不同:一個詢問經(jīng)過站點的數(shù)量,另一個要求識別每個經(jīng)過的站點。

對于參考路線收集,研究團隊使用高德地圖(針對中國城市)和谷歌地圖(針對其他城市)的API查詢所選兩個站點之間的所有有效交通路線。這些路線以統(tǒng)一格式存儲,包含相關(guān)元數(shù)據(jù)如路線名稱、出發(fā)站、到達站、經(jīng)過站和經(jīng)過站數(shù)量。研究團隊丟棄了那些無法在地圖上直觀追蹤的路線,確保與視覺內(nèi)容的一致性。

在標(biāo)簽注釋環(huán)節(jié),研究團隊進行了兩級難度標(biāo)記。對于地圖難度,他們手動將每個地圖分配到三個難度級別之一(簡單、中等、復(fù)雜),確保在30個地圖中平均分配,每個級別10個地圖。對于問題難度,則基于參考路線中的換乘次數(shù)進行分配:無需換乘的路線標(biāo)記為簡單,需要一次換乘的標(biāo)記為中等,所有其他情況標(biāo)記為復(fù)雜。為確保平衡,研究團隊為每個地圖設(shè)定了固定的難度分布閾值為20:15:5(簡單:中等:復(fù)雜),生成40個問題。一旦特定地圖上某個難度級別的配額達到,就不再保留該級別的額外問題。

第三階段是質(zhì)量控制。為確保數(shù)據(jù)集的可靠性和平衡性,研究團隊從三個方面進行了質(zhì)量控制:正確性、多樣性和難度平衡。不正確的問答對要么被手動糾正,要么被丟棄。然后通過自動檢查和手動調(diào)整確保在所有難度級別上的一致性和覆蓋率。

最終的REASONMAP數(shù)據(jù)集包含1,008個問答對,難度分布如下:57.7%被標(biāo)記為簡單,34.4%被標(biāo)記為中等,7.8%被標(biāo)記為復(fù)雜。此外,研究團隊從中手動選擇了312個樣本作為測試集,用于基準實驗,剩余樣本作為未來使用的訓(xùn)練集。為確保多樣性和難度平衡,測試集包括11個城市,地圖難度比例為4:3:4,問題難度分布(181簡單,108中等,23復(fù)雜)與完整數(shù)據(jù)集保持一致。

三、評估框架設(shè)計

假設(shè)你是一位老師,正在批改學(xué)生規(guī)劃地鐵路線的作業(yè)。你不僅要看學(xué)生給出的路線是否正確(能否到達目的地),還要評估路線的質(zhì)量(是否選擇了最優(yōu)路徑,是否有不必要的繞路)。REASONMAP的評估框架正是基于這樣的思路設(shè)計的。

研究團隊設(shè)計了一個兩級評估框架,分別評估模型生成答案的正確性和質(zhì)量。正確性使用準確率來衡量,而質(zhì)量則通過一個名為"地圖分數(shù)"(map score)的指標(biāo)來評估,考慮多種因素如路線效率和與參考路線的一致性。

在評估準備階段,研究團隊首先根據(jù)指定格式解析模型生成的答案。不符合指定格式或因模型幻覺而無法解析的答案被標(biāo)記為無效,并在后續(xù)評估中被排除,準確率和地圖分數(shù)均設(shè)為零。對于正確性評估,研究團隊使用第3.1.1節(jié)中提到的地圖元數(shù)據(jù)作為真實值。對于質(zhì)量評估,則采用第3.1.2節(jié)中收集的參考路線作為真實值。

正確性評估算法檢查答案的整體正確性。具體來說,評估算法檢查第一段路線的出發(fā)站和最后一段路線的到達站是否分別與問題中的起點和終點相匹配,驗證每個路線段的路線名稱是否存在于地圖元數(shù)據(jù)中,確保每個路線段的出發(fā)站和到達站對該路線是有效的,并確認連續(xù)路線段之間的換乘站點是一致的。只有當(dāng)所有這些檢查都通過時,答案才被視為正確。同樣的評估算法也應(yīng)用于短問題和長問題的答案。

質(zhì)量評估則引入了一個統(tǒng)一的評分指標(biāo)——地圖分數(shù),適用于短問題和長問題??傮w框架與正確性評估類似,但更注重路線質(zhì)量。對于短問題,地圖分數(shù)僅關(guān)注路線級別和端點一致性,不包含所有特定于長問題的部分。具體來說,正確匹配起點和終點貢獻一分,匹配路線名稱增加兩分,匹配每個路線段內(nèi)的出發(fā)站和到達站各提供一分。最終分數(shù)上限為10分,如果基于正確性評估判斷答案正確,則額外獎勵分數(shù)。這樣設(shè)計確保了正確答案始終獲得高于任何不正確答案的分數(shù)。

對于長問題,評估還加入了根據(jù)兩種問題模板設(shè)計的額外評分組件。這些組件旨在捕捉長格式回答中所需的更深層次推理。與短問題一樣,正確答案也會獲得額外的獎勵分數(shù)。

具體來說,對于要求模型預(yù)測每個路線段經(jīng)過站點數(shù)量的長問題,研究團隊引入了"經(jīng)過站點數(shù)量分數(shù)"(num_via_stop_score)。這個分數(shù)通過計算答案和參考路線經(jīng)過站點數(shù)量的絕對誤差,并將其映射到固定分數(shù)(4分)來計算。完全匹配獲得滿分,較大差異獲得相應(yīng)較低的分數(shù)。整個路線的分數(shù)上限為10分。

對于要求明確列舉中間站點的長問題,研究團隊計算"經(jīng)過站點分數(shù)"(via_stop_score),綜合考慮兩個因素:正確匹配的經(jīng)過站點數(shù)量,以及答案和參考路線經(jīng)過站點集合的交并比(IoU)。該組件的最終分數(shù)通過取IoU分數(shù)(縮放至10分)和精確匹配數(shù)(上限為10)的平均值,然后限制最大值為10分來獲得。

四、實驗設(shè)置與模型評估

想象一場"視覺導(dǎo)航大賽",參賽選手是各種先進的AI模型,他們的任務(wù)是理解交通地圖并提供準確的路線規(guī)劃。研究團隊邀請了15個流行的多模態(tài)大語言模型參加這場比賽,包括開源模型和閉源模型,基礎(chǔ)模型和推理型模型。這些選手將如何表現(xiàn)呢?

研究團隊評估的模型基于是否為推理導(dǎo)向型模型(具有長思考過程)分為兩組。推理模型包括:Skywork-R1V-38B、QvQ-72B-Preview、Kimi-VL-A3B-Thinking/Instruct、OpenAI o3、Gemini-2.5-Flash、Doubao-1-5-thinking-vision-pro-250428(簡稱Doubao-428)和Doubao-1.5-Thinking-Pro-M-250415(簡稱Doubao-415)?;A(chǔ)模型包括:Qwen2.5-VL系列(3B、32B、72B)、InternVL3系列(38B、78B)、OpenAI 4o和Doubao-1.5-Vision-Pro-32k-250115(簡稱Doubao-115)。此外,Doubao 1.5 Pro系列的激活參數(shù)大小為20B。

對于開源模型,研究團隊將最大輸出令牌限制設(shè)置為2,048,同時保持其他參數(shù)與官方HuggingFace配置一致。所有開源模型都使用PyTorch和HuggingFace Transformers庫部署在8塊NVIDIA A100 GPU上。對于閉源模型,研究團隊使用其官方API進行評估,并遵循每個模型官方文檔提供的默認設(shè)置。研究團隊還在附錄D中討論了處理高分辨率視覺輸入時各種模型采用的不同圖像處理策略。

為了更好地反映不同樣本的復(fù)雜度差異,研究團隊采用了基于問題難度和地圖難度組合的難度感知加權(quán)策略。具體而言,每個難度組合都分配了一個預(yù)定義的權(quán)重,較難的組合獲得更高的值。完整的權(quán)重矩陣在附錄B.2中提供。準確率和地圖分數(shù)都使用這種加權(quán)方案進行評估,確保模型在正確解決更具挑戰(zhàn)性的例子時獲得更高的獎勵。

五、實驗結(jié)果與分析

現(xiàn)在,讓我們來看看這場"視覺導(dǎo)航大賽"的結(jié)果。這些AI模型在理解交通地圖和規(guī)劃路線方面表現(xiàn)如何?有哪些令人驚訝的發(fā)現(xiàn)?

首先,研究團隊觀察到一個反直覺的現(xiàn)象:在開源模型中,基礎(chǔ)模型始終優(yōu)于其推理型對應(yīng)模型,而在閉源模型中則恰恰相反。先前的研究表明,強化學(xué)習(xí)可能會提高樣本效率,但不會引入根本性的新推理能力,而經(jīng)過強化學(xué)習(xí)訓(xùn)練的模型往往會將其輸出分布偏向高獎勵軌跡,這有助于產(chǎn)生更正確的響應(yīng),但可能同時限制模型的探索能力并降低其利用更廣泛基礎(chǔ)知識的能力。此外,最近的研究表明,多模態(tài)模型有時可能依賴內(nèi)部知識先驗而非真正關(guān)注視覺輸入。這一趨勢在后續(xù)實驗中得到進一步支持,當(dāng)沒有視覺輸入時,開源模型仍然保持部分性能,表明視覺基礎(chǔ)有限。相比之下,閉源推理模型優(yōu)于其基礎(chǔ)變體。一種可能的解釋是這些模型在知識覆蓋面和視覺整合方面表現(xiàn)更好。

通過分析同一架構(gòu)系列內(nèi)的模型性能,研究團隊發(fā)現(xiàn)模型大小對性能有顯著影響。Qwen2.5-VL和InternVL系列展示了一致的趨勢:更大的模型在使用更少令牌的情況下取得更好的準確率,這表明即使在細粒度視覺推理任務(wù)中,規(guī)模法則仍然適用。

研究團隊還分析了不同難度組合下的準確率分布。如預(yù)期的那樣,隨著任務(wù)復(fù)雜度增加,性能下降。此外,研究團隊還檢查了不同城市之間的準確率變化。結(jié)果表明,地圖難度與準確率呈負相關(guān)。更有趣的是,即使在具有相似地圖難度級別的城市之間,模型性能也存在顯著差異。這種差異部分可歸因于城市知名度和站點名稱使用的語言等因素,這兩者都與模型的預(yù)訓(xùn)練知識密切相關(guān)。例如,OpenAI o3在復(fù)雜城市如新加坡上的表現(xiàn)明顯好于杭州,這可能是因為新加坡的國際知名度更高,且使用英文站名,而杭州的知名度較低,站名為中文。

為了進一步調(diào)查MLLMs對視覺輸入的依賴程度,研究團隊選擇了代表性的開源和閉源模型進行額外實驗,其中視覺輸入被遮蓋。結(jié)果表明,雖然大多數(shù)模型可以利用內(nèi)部知識回答某些問題,但當(dāng)視覺輸入被移除時,它們的性能普遍下降到不同程度,其中閉源模型的下降更為明顯。模型性能與遮蓋視覺輸入后的性能下降呈正相關(guān),表明有效使用視覺信息。相比之下,Qwen2.5-VL-3B-I等模型表現(xiàn)出最小甚至略有改善的性能,表明其更依賴內(nèi)部知識而非真正的視覺推理。

最后,研究團隊分析了REASONMAP中的代表性失敗案例,揭示了幾種常見的錯誤類型。一個常見問題是視覺混淆,模型由于相似顏色或相鄰布局而錯誤識別交通線路。另一個頻繁問題是格式錯誤,響應(yīng)偏離了所需結(jié)構(gòu),使其無法處理,盡管可能包含正確的路線信息。研究團隊還觀察到幻覺實例,模型重復(fù)正確答案或生成輸入中不存在的信息。拒絕案例也存在,模型明確拒絕回答。值得注意的是,這些錯誤有時會在單個響應(yīng)中同時出現(xiàn)。這些行為突顯了視覺基礎(chǔ)和響應(yīng)穩(wěn)健性的局限性,特別是在處理細粒度視覺細節(jié)時。

六、結(jié)論與未來展望

就像一個導(dǎo)游需要精確理解地圖才能帶領(lǐng)游客順利到達目的地,多模態(tài)大語言模型也需要具備細粒度視覺理解和空間推理能力才能在現(xiàn)實世界中發(fā)揮更大作用。

通過REASONMAP這一基準測試,研究團隊揭示了當(dāng)前多模態(tài)大語言模型在處理高分辨率、信息密集型視覺輸入時的能力和局限性。研究發(fā)現(xiàn),即使是最先進的模型在理解交通地圖和規(guī)劃路線方面仍面臨挑戰(zhàn),特別是當(dāng)任務(wù)需要細粒度的視覺理解和多步驟的推理時。

研究還揭示了一個有趣的現(xiàn)象:在開源模型中,基礎(chǔ)模型表現(xiàn)優(yōu)于推理型模型,而在閉源模型中則相反。這可能反映了當(dāng)前強化學(xué)習(xí)訓(xùn)練方法在增強模型推理能力方面的局限性,以及開源和閉源模型在知識覆蓋和視覺整合方面的差異。

此外,研究表明,大多數(shù)模型在沒有視覺輸入的情況下性能顯著下降,表明它們確實在一定程度上依賴視覺信息進行推理。然而,一些模型仍能在僅有文本輸入的情況下部分保持性能,這表明它們可能過度依賴內(nèi)部知識而非真正理解視覺內(nèi)容。

REASONMAP的創(chuàng)建填補了現(xiàn)有多模態(tài)推理基準中的一個重要空白,為評估模型在處理結(jié)構(gòu)化視覺信息和進行空間推理方面的能力提供了有價值的工具。這不僅有助于推動多模態(tài)大語言模型在視覺理解方面的進步,還為理解開源和閉源模型之間的差距提供了新的視角。

未來的研究方向可能包括:擴展數(shù)據(jù)集以覆蓋更多城市和語言,開發(fā)更先進的評估方法以捕捉更細微的推理能力差異,以及探索如何增強模型的視覺基礎(chǔ)和空間推理能力。隨著這些進步,我們可以期待多模態(tài)大語言模型在未來能夠更好地理解復(fù)雜的視覺世界,為用戶提供更準確、更有用的信息和建議。

正如一位熟練的導(dǎo)游不僅需要知道目的地,還需要理解如何最有效地到達那里,未來的AI助手也將需要不僅僅識別視覺內(nèi)容,還要理解其空間關(guān)系和邏輯含義。REASONMAP向這一目標(biāo)邁出了重要一步,為研究人員提供了一個強大的工具來評估和改進多模態(tài)模型的細粒度視覺理解和推理能力。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-