在人類日常交流中,指著某物說(shuō)"看那個(gè)"是再自然不過(guò)的行為了。當(dāng)媽媽教孩子認(rèn)識(shí)世界時(shí),她會(huì)指著蘋(píng)果說(shuō)"這是蘋(píng)果";當(dāng)朋友幫你找東西時(shí),他會(huì)指著角落說(shuō)"在那兒"。這種指向性交流是如此基礎(chǔ),以至于孩子們?cè)趯W(xué)會(huì)說(shuō)話前就已經(jīng)掌握了指向的能力。
長(zhǎng)程(Long Cheng)、段佳飛(Jiafei Duan)等來(lái)自華盛頓大學(xué)和艾倫人工智能研究所的研究團(tuán)隊(duì)在2025年5月發(fā)布的最新研究《PointArena: Probing Multimodal Grounding Through Language-Guided Pointing》(指向競(jìng)技場(chǎng):通過(guò)語(yǔ)言引導(dǎo)的指向探索多模態(tài)基礎(chǔ))中,正是聚焦于這一基礎(chǔ)卻極其重要的人機(jī)交互能力。讀者可通過(guò)論文預(yù)印本網(wǎng)站arXiv(arXiv:2505.09990v2)或項(xiàng)目官網(wǎng)(https://pointarena.github.io)了解更多細(xì)節(jié)。
想象一下,如果你的智能助手不僅能理解"幫我找到桌上的紅色杯子"這樣的指令,還能精確地指出杯子的位置,甚至幫助機(jī)器人將其拿起,這將為各種應(yīng)用場(chǎng)景帶來(lái)革命性變化。從輔助技術(shù)(幫助視障人士找到物體)到機(jī)器人操作(精確抓取特定物品),從教育輔助(指出科學(xué)圖表中的特定部分)到增強(qiáng)現(xiàn)實(shí)交互,指向能力都是連接語(yǔ)言理解和實(shí)際行動(dòng)的關(guān)鍵橋梁。
近年來(lái),多模態(tài)大型語(yǔ)言模型(MLLMs)取得了長(zhǎng)足進(jìn)步,能夠同時(shí)處理文本和圖像,但在精確指向能力的測(cè)評(píng)上,我們?nèi)匀狈θ媲蚁到y(tǒng)的評(píng)測(cè)平臺(tái)。現(xiàn)有的評(píng)測(cè)數(shù)據(jù)集如RefCOCO系列主要關(guān)注物體定位,無(wú)法評(píng)估更廣泛、更復(fù)雜的指向場(chǎng)景。
為填補(bǔ)這一空白,研究團(tuán)隊(duì)開(kāi)發(fā)了PointArena評(píng)測(cè)平臺(tái),它包含三個(gè)相互補(bǔ)充的組件:Point-Bench(指向測(cè)試臺(tái))、Point-Battle(指向競(jìng)技場(chǎng))和Point-Act(指向行動(dòng))。這三個(gè)部分分別從靜態(tài)基準(zhǔn)測(cè)試、人類偏好評(píng)價(jià)和實(shí)際機(jī)器人操作三個(gè)維度全方位評(píng)估模型的指向能力。
在Point-Bench中,研究團(tuán)隊(duì)精心構(gòu)建了982個(gè)圖像-問(wèn)題對(duì),涵蓋空間關(guān)系理解、功能部件識(shí)別、計(jì)數(shù)、相對(duì)位置指向和推理等五大類指向任務(wù)。在Point-Battle平臺(tái)上,用戶可以上傳圖片并提供指令,讓兩個(gè)匿名模型進(jìn)行指向預(yù)測(cè),然后投票選擇表現(xiàn)更好的一方。目前該平臺(tái)已收集來(lái)自100多名全球參與者的4,500多次投票。最后,Point-Act將指向轉(zhuǎn)化為實(shí)際的機(jī)器人操作,讓用戶直觀感受模型指向精度對(duì)實(shí)際任務(wù)的影響。
研究團(tuán)隊(duì)評(píng)測(cè)了包括Molmo-72B、GPT-4o、Gemini-2.5-Pro等在內(nèi)的多個(gè)開(kāi)源和閉源模型。結(jié)果顯示,Molmo-72B在Point-Bench上表現(xiàn)最佳,而專門(mén)針對(duì)指向任務(wù)進(jìn)行訓(xùn)練的模型普遍優(yōu)于未經(jīng)指向特定訓(xùn)練的模型。有趣的是,研究發(fā)現(xiàn),通過(guò)語(yǔ)言推理(如思維鏈方法)并不能提高模型的視覺(jué)定位準(zhǔn)確性,反而會(huì)降低性能。
更令人欣喜的是,研究團(tuán)隊(duì)發(fā)現(xiàn)這三種評(píng)測(cè)方法之間存在高度相關(guān)性,這意味著模型在靜態(tài)數(shù)據(jù)集上的優(yōu)異表現(xiàn)很可能轉(zhuǎn)化為人類更喜歡的指向行為和更高的實(shí)際任務(wù)成功率。這不僅驗(yàn)證了PointArena評(píng)測(cè)框架的有效性,也表明精確的指向能力對(duì)于多模態(tài)模型連接抽象推理和具體實(shí)際行動(dòng)至關(guān)重要。
接下來(lái),讓我們更深入地了解這個(gè)創(chuàng)新的評(píng)測(cè)平臺(tái)及其發(fā)現(xiàn)的重要洞見(jiàn)。
一、研究背景:為什么指向能力如此重要?
想象一下,當(dāng)你在雜亂的廚房里尋找某種調(diào)料時(shí),你的朋友不是抽象地描述"在櫥柜的第二層靠右的地方",而是直接指著說(shuō)"就在那兒"。這種簡(jiǎn)單的指向動(dòng)作傳遞了精確的空間信息,極大地簡(jiǎn)化了溝通過(guò)程。在人機(jī)交互中,這種能力同樣至關(guān)重要。
指向是人類最早、最普遍的非語(yǔ)言交流方式之一。心理學(xué)研究表明,嬰兒在學(xué)會(huì)說(shuō)話之前就已經(jīng)掌握了指向作為一種前語(yǔ)言交流形式。正如研究者在論文中指出的,精確的空間定位——指向——能夠支持廣泛的實(shí)際應(yīng)用,從機(jī)器人技術(shù)到輔助技術(shù),再到人機(jī)交互和視覺(jué)-語(yǔ)言界面。
例如,在機(jī)器人領(lǐng)域,具備指向能力的模型可以理解"拿起碗旁邊的紅杯子"這樣的語(yǔ)言命令,并將其轉(zhuǎn)化為精確的空間動(dòng)作,實(shí)現(xiàn)在雜亂環(huán)境中的精細(xì)物體操作。在輔助技術(shù)方面,系統(tǒng)可以幫助視障用戶回答"這個(gè)門(mén)的把手在哪里?"或"哪一個(gè)是大蒜?"等空間查詢。在教育或創(chuàng)意工具中,指向功能允許進(jìn)行交互式視覺(jué)輔導(dǎo),如識(shí)別科學(xué)圖表中的組件或引導(dǎo)學(xué)習(xí)者理解一幅畫(huà)作。即使在日常虛擬助手或搜索引擎中,通過(guò)指向引用特定圖像區(qū)域的能力也能使多模態(tài)交互更加直觀和表達(dá)豐富。
近年來(lái),多模態(tài)大型語(yǔ)言模型在融入更動(dòng)態(tài)、更具空間表達(dá)力的交互形式方面取得了顯著進(jìn)展。例如,分割任意物體模型(SAM)支持從點(diǎn)或框等稀疏視覺(jué)提示進(jìn)行分割,展示了精細(xì)空間控制的潛力。谷歌的Gemini模型推動(dòng)了長(zhǎng)上下文視覺(jué)推理的邊界,整合了多種模態(tài)的擴(kuò)展序列。另一方面,新的數(shù)據(jù)集也開(kāi)始支持顯式空間引用。Molmo的PixMo數(shù)據(jù)集將2D指向作為圖像和指令之間多模態(tài)對(duì)齊的一種形式,而RoboPoint則專注于通過(guò)將指令鏈接到機(jī)器人上下文中與交互相關(guān)的關(guān)鍵點(diǎn)來(lái)預(yù)測(cè)空間可供性。
盡管這些進(jìn)步令人振奮,但仍然缺乏一個(gè)整體性的評(píng)估平臺(tái)來(lái)推動(dòng)語(yǔ)言引導(dǎo)指向的進(jìn)展。雖然已經(jīng)存在用于引用表達(dá)式的數(shù)據(jù)集(如RefCOCO、RefCOCO+和RefCOCOg),但它們僅關(guān)注指向任務(wù)的一個(gè)子集:物體定位。這些數(shù)據(jù)集缺乏用戶期望從現(xiàn)代交互模型中獲得的模糊性和上下文變化性,限制了它們?cè)谘芯繉?shí)用或交互應(yīng)用中的效用。
二、PointArena:一個(gè)全面的指向能力評(píng)測(cè)平臺(tái)
為了系統(tǒng)地評(píng)估語(yǔ)言引導(dǎo)下的指向能力,研究團(tuán)隊(duì)開(kāi)發(fā)了PointArena評(píng)測(cè)平臺(tái)。這個(gè)平臺(tái)將指向任務(wù)分為三個(gè)評(píng)估階段,每個(gè)階段都提供了不同角度的洞察。
### 任務(wù)定義:將語(yǔ)言轉(zhuǎn)化為精確坐標(biāo)
在深入了解平臺(tái)各部分之前,我們先來(lái)理解PointArena如何定義指向任務(wù)。指向被形式化為一個(gè)語(yǔ)言條件下的精細(xì)定位任務(wù)。輸入包括一張RGB圖像和一個(gè)自然語(yǔ)言指令提示,多模態(tài)大型語(yǔ)言模型需要預(yù)測(cè)一組圖像空間坐標(biāo)點(diǎn)。
具體來(lái)說(shuō),如果我們有一張尺寸為H×W的圖像和一個(gè)包含T個(gè)詞的語(yǔ)言指令,模型需要輸出K個(gè)坐標(biāo)點(diǎn),每個(gè)點(diǎn)都在圖像邊界內(nèi)。模型預(yù)測(cè)的成功與否取決于這些點(diǎn)是否落在了正確的目標(biāo)區(qū)域內(nèi)——這些區(qū)域用二進(jìn)制掩碼表示。
預(yù)測(cè)被視為成功需要滿足兩個(gè)條件:首先,預(yù)測(cè)點(diǎn)的數(shù)量需要與目標(biāo)區(qū)域的數(shù)量匹配;其次,每個(gè)目標(biāo)區(qū)域至少被一個(gè)預(yù)測(cè)點(diǎn)覆蓋。這種形式化使得評(píng)估可以完全自動(dòng)化,無(wú)需在測(cè)試時(shí)依賴人類標(biāo)注者。
### Point-Bench:靜態(tài)基準(zhǔn)測(cè)試
Point-Bench是目前最大的語(yǔ)言引導(dǎo)指向評(píng)測(cè)基準(zhǔn),提供了982個(gè)文本-圖像對(duì),每對(duì)都有像素級(jí)的目標(biāo)掩碼。這些數(shù)據(jù)來(lái)自2025年4月20日之后發(fā)布的公共資源,確保了數(shù)據(jù)的新穎性。數(shù)據(jù)集均勻分為五個(gè)任務(wù)驅(qū)動(dòng)類別:空間關(guān)系(Spatial)、功能部件(Affordance)、計(jì)數(shù)(Counting)、相對(duì)位置(Steerable)和推理(Reasoning)。
這些類別是如何設(shè)計(jì)的呢?想象一下生活中的各種場(chǎng)景:
1. 空間關(guān)系(Spatial):這類場(chǎng)景選擇了具有豐富空間關(guān)系或重復(fù)物體的圖像。比如,街景中有多棵樹(shù),標(biāo)注者會(huì)提出純粹基于位置的查詢,如"指向圖像中最左邊的樹(shù)。"
2. 功能部件(Affordance):這些場(chǎng)景展示桌面物體或強(qiáng)調(diào)功能部分的特寫(xiě)。例如,一個(gè)茶壺的圖像,標(biāo)注者會(huì)詢問(wèn)關(guān)于可操作組件的問(wèn)題,比如"指向用于倒水的把手"。
3. 計(jì)數(shù)(Counting):這類場(chǎng)景包含不同數(shù)量的相似物體。比如,一張停車場(chǎng)的照片,標(biāo)注者會(huì)提出選擇特定數(shù)量或?qū)傩宰蛹牟樵?,?指向圖像中所有藍(lán)色汽車"。
4. 相對(duì)位置(Steerable):來(lái)自PixMo數(shù)據(jù)集的圖像,每張都包含一個(gè)參考點(diǎn)。標(biāo)注者提出相對(duì)于該點(diǎn)的查詢,避免顯式物體名稱,如"指向距離標(biāo)記點(diǎn)最近的物品"。
5. 推理(Reasoning):一般性、事件豐富的場(chǎng)景,邀請(qǐng)開(kāi)放式查詢,需要視覺(jué)推理,答案通過(guò)指向傳達(dá),如"指向圖像中最高的人造物體"。
為了構(gòu)建這個(gè)數(shù)據(jù)集,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)直觀的基于Gradio的標(biāo)注界面。標(biāo)注者首先根據(jù)每個(gè)類別的主題撰寫(xiě)自然語(yǔ)言查詢,然后使用三個(gè)匿名多模態(tài)模型評(píng)估這些查詢。如果僅有一個(gè)或更少的模型產(chǎn)生正確預(yù)測(cè)(由人類評(píng)估者判斷),則該查詢被認(rèn)為足夠具有挑戰(zhàn)性,可以納入數(shù)據(jù)集。隨后,標(biāo)注者直接在圖像上標(biāo)注目標(biāo)點(diǎn),使用SAM模型生成初始掩碼,并可以通過(guò)編輯或移除部分內(nèi)容來(lái)細(xì)化這些掩碼。最后,另一組標(biāo)注者手動(dòng)驗(yàn)證掩碼,確保它們準(zhǔn)確反映了用戶生成的查詢。
### Point-Battle:人類偏好評(píng)估平臺(tái)
隨著多模態(tài)模型越來(lái)越多地融入視覺(jué)基礎(chǔ)推理和指向能力,靜態(tài)基準(zhǔn)在評(píng)估開(kāi)放式、真實(shí)世界場(chǎng)景中的性能時(shí)變得不夠充分,特別是在考量人類偏好方面。為了解決這一限制,研究團(tuán)隊(duì)引入了Point-Battle,這是一個(gè)基于用戶提供的語(yǔ)言指令對(duì)多模態(tài)模型指向能力進(jìn)行兩兩評(píng)估的動(dòng)態(tài)平臺(tái)。
Point-Battle采用了受Chatbot Arena啟發(fā)的頭對(duì)頭評(píng)估格式,通過(guò)基于Gradio的網(wǎng)絡(luò)界面實(shí)現(xiàn)。在每一輪中,從Point-Bench表現(xiàn)最佳的模型中隨機(jī)抽取兩個(gè)匿名模型——包括GPT-4o、Gemini 2.5 Flash、Molmo-7B-D、Qwen2.5-VL-7B和Grok-2 Vision。用戶提交一個(gè)自然語(yǔ)言指令,并從精選數(shù)據(jù)集(2025年4月20日后)中選擇圖像或上傳自己的圖像。兩個(gè)模型返回點(diǎn)預(yù)測(cè),并并排顯示。參與者為更好的輸出投票,或者在適用的情況下選擇"兩者都好"或"兩者都差"。
這種設(shè)計(jì)鼓勵(lì)了多樣化和無(wú)偏見(jiàn)的指令,不提供預(yù)設(shè)提示。模型身份保持匿名以防止偏見(jiàn)。自平臺(tái)推出以來(lái),Point-Battle已收集了來(lái)自約100名全球參與者的4,500多次投票。與靜態(tài)的Point-Bench不同(如果在模型開(kāi)發(fā)過(guò)程中使用可能導(dǎo)致過(guò)擬合),Point-Battle服務(wù)為持續(xù)更新的基準(zhǔn),捕捉實(shí)時(shí)人類偏好并跟蹤多模態(tài)模型在視覺(jué)基礎(chǔ)推理方面的進(jìn)展。隨著Point-Battle規(guī)模的擴(kuò)大,這也將成為收集指向數(shù)據(jù)的平臺(tái)。
### Point-Act:真實(shí)世界機(jī)器人操作測(cè)試
PointArena的前兩個(gè)階段通過(guò)定量指標(biāo)和人類偏好評(píng)估來(lái)評(píng)估模型的指向能力。然而,指向只有在能夠?qū)崿F(xiàn)真實(shí)世界的實(shí)用性時(shí)才有意義。為了評(píng)估這種支持,研究團(tuán)隊(duì)引入了Point-Act——一個(gè)交互式系統(tǒng),用戶通過(guò)GUI向雙盲多模態(tài)模型發(fā)出自然語(yǔ)言指令。模型生成一個(gè)或多個(gè)預(yù)測(cè)點(diǎn),這些點(diǎn)被轉(zhuǎn)換為xArm 6 Lite機(jī)器人的可操作命令。機(jī)器人使用深度感知進(jìn)行空間推理,在指示位置執(zhí)行拾取或放置操作。
這種設(shè)置將指向操作化為端到端物理操作,將語(yǔ)言基礎(chǔ)與機(jī)器人控制連接起來(lái)。Point-Act突顯了基礎(chǔ)精度的下游后果:即使是小的定位錯(cuò)誤也會(huì)導(dǎo)致執(zhí)行失敗,而準(zhǔn)確的預(yù)測(cè)則能實(shí)現(xiàn)持續(xù)的真實(shí)世界成功。
三、研究實(shí)驗(yàn):誰(shuí)是指向能力的王者?
研究團(tuán)隊(duì)評(píng)估了一系列多模態(tài)大型語(yǔ)言模型(MLLMs)——包括專有和開(kāi)源的——使用PointArena的三個(gè)組件。這些評(píng)估在零樣本提示條件下進(jìn)行,也就是說(shuō),模型沒(méi)有接受過(guò)特定于任務(wù)的微調(diào)或示例學(xué)習(xí)。為了確保具有不同內(nèi)部坐標(biāo)系統(tǒng)的模型(特別是專有模型)的輸出一致,研究團(tuán)隊(duì)采用了標(biāo)準(zhǔn)化的輸出格式:[x, y],其中x和y分別表示水平和垂直像素坐標(biāo)。
成功率的衡量使用了一個(gè)二元指標(biāo):如果預(yù)測(cè)點(diǎn)落在目標(biāo)掩碼內(nèi),則認(rèn)為預(yù)測(cè)正確。對(duì)于非計(jì)數(shù)任務(wù),模型被提示預(yù)測(cè)單個(gè)點(diǎn);如果返回多個(gè)點(diǎn),則只評(píng)估第一個(gè)點(diǎn),假設(shè)它因自回歸生成過(guò)程而反映最高置信度的預(yù)測(cè)。
### 實(shí)驗(yàn)設(shè)置
在Point-Bench上,研究團(tuán)隊(duì)評(píng)測(cè)了16個(gè)MLLMs(跨越開(kāi)源和專有模型,包括關(guān)鍵變體)。每個(gè)模型都在相同的982個(gè)圖像-指令對(duì)上評(píng)估三次,以計(jì)算平均值和標(biāo)準(zhǔn)偏差。開(kāi)源模型在本地的NVIDIA A100 GPU上執(zhí)行,而專有模型則通過(guò)公共API訪問(wèn)。
對(duì)于Point-Battle,為了測(cè)量與人類偏好的一致性,研究團(tuán)隊(duì)發(fā)布了一個(gè)實(shí)時(shí)評(píng)估平臺(tái),并通過(guò)社交媒體和郵件列表進(jìn)行宣傳。用戶對(duì)匿名模型輸出進(jìn)行頭對(duì)頭比較投票。從成對(duì)比較中計(jì)算Elo評(píng)級(jí),排除模糊投票("兩者都好"或"兩者都差")。
在Point-Act中,招募了10名遠(yuǎn)程參與者與真實(shí)世界機(jī)器人設(shè)置進(jìn)行交互。對(duì)于固定場(chǎng)景,參與者評(píng)估了三個(gè)代理——Molmo-7B-D、GPT-4o和人類參考——進(jìn)行三次試驗(yàn)。在每個(gè)條件之后,他們完成了系統(tǒng)可用性量表(SUS)調(diào)查。
評(píng)估的模型包括Molmo、Gemini、OpenAI、Claude、Grok、LLaVA和Qwen的多個(gè)變體。
### 主要發(fā)現(xiàn)
實(shí)驗(yàn)結(jié)果揭示了幾個(gè)關(guān)鍵發(fā)現(xiàn):
1. **開(kāi)源模型的表現(xiàn)可與專有模型相媲美**:Point-Bench結(jié)果顯示,明確針對(duì)指向數(shù)據(jù)訓(xùn)練的開(kāi)源MLLMs通常能夠匹配或優(yōu)于專有模型。例如,Molmo-72B在性能上超過(guò)了Gemini-2.5-Pro 0.43個(gè)百分點(diǎn)——這是一個(gè)統(tǒng)計(jì)上不顯著的差距(p≈0.29)。在功能部件推理方面,像Molmo-72B和Qwen2.5-VL這樣的開(kāi)源模型始終超過(guò)專有基線??傮w而言,Molmo-72B在Point-Bench基準(zhǔn)測(cè)試中取得了最高性能。
2. **指向監(jiān)督顯著提升性能**:接觸明確的指向數(shù)據(jù)是模型準(zhǔn)確性的關(guān)鍵驅(qū)動(dòng)因素。在Qwen家族中,將PixMo語(yǔ)料庫(kù)融入Qwen2.5-VL-7B使性能提高到52.3%,遠(yuǎn)高于未使用此類數(shù)據(jù)的Qwen2-VL-7B的17.4%。相比之下,同樣未經(jīng)過(guò)明確指向監(jiān)督訓(xùn)練的LLaVA變體在平均上僅達(dá)到4.8-17.4%。
3. **專有模型可能受益于開(kāi)源指向數(shù)據(jù)集**:雖然專有訓(xùn)練數(shù)據(jù)是不透明的,但研究團(tuán)隊(duì)觀察到在PixMo和RoboPoint數(shù)據(jù)集發(fā)布后不久發(fā)布的模型性能大幅躍升。例如,GPT-o3比GPT-4-Turbo提高了21.1個(gè)百分點(diǎn),而Gemini-2.5-Flash比Gemini-1.5-Flash提高了45.9個(gè)百分點(diǎn)。這些結(jié)果表明,最近的專有模型可能已經(jīng)融入了PixMo或類似的語(yǔ)料庫(kù)。
4. **開(kāi)源模型更符合人類偏好**:在Point-Battle中,Molmo-7B-D的表現(xiàn)超過(guò)Gemini-2.5-Flash 196個(gè)Elo點(diǎn)。它們的95%置信區(qū)間不重疊,在115次直接頭對(duì)頭比較中,Molmo-7B-D贏得了79%。Qwen2.5-VL-7B和Molmo-7B-D在人類偏好評(píng)估中都超過(guò)了專有模型,并超過(guò)了1000點(diǎn)的基線,表明相對(duì)于隨機(jī)猜測(cè)具有統(tǒng)計(jì)顯著的優(yōu)勢(shì)。
5. **Molmo在Point-Act評(píng)估中表現(xiàn)出色**:用戶研究結(jié)果顯示,Molmo-7B-D的表現(xiàn)大幅超過(guò)專有GPT-4o模型,性能提高了65%,接近人類(預(yù)言)基線水平。這種優(yōu)勢(shì)也反映在用戶偏好上,Molmo-7B-D在SUS評(píng)分上比GPT-4o高出60.3分。
6. **模型大小對(duì)指向性能影響不大**:如圖5c所示,開(kāi)源模型(LLaVA-OV、Molmo和Qwen-VL)在Point-Bench上的性能隨著模型大小增加而基本保持不變。例如,Qwen2.5-VL-7B的性能在Qwen2.5-VL-72B的3%范圍內(nèi),而Molmo-7B-O與Molmo-72B的差異不到1%。這些結(jié)果表明,增加模型大小并不會(huì)顯著提高指向準(zhǔn)確性。
### 三個(gè)評(píng)估框架之間的相關(guān)性
PointArena對(duì)MLLMs指向能力的三階段評(píng)估不應(yīng)被視為孤立的組件,而應(yīng)被視為漸進(jìn)流程中的互補(bǔ)步驟。隨著MLLMs的改進(jìn),它們有望通過(guò)這些階段取得進(jìn)展。因此,了解階段之間的相關(guān)性和一致性對(duì)于評(píng)估一致性能提升至關(guān)重要。
研究發(fā)現(xiàn),人類偏好和靜態(tài)數(shù)據(jù)集評(píng)估高度一致。隨著MLLMs的改進(jìn),Point-Bench的靜態(tài)數(shù)據(jù)集將不可避免地達(dá)到平臺(tái)期。為了保持領(lǐng)先,研究團(tuán)隊(duì)引入了Point-Battle,一個(gè)不斷更新的實(shí)時(shí)競(jìng)技場(chǎng),支持開(kāi)放式模型比較。驗(yàn)證這一設(shè)置時(shí),研究團(tuán)隊(duì)重新評(píng)估了在Point-Bench上測(cè)試的模型,并觀察到強(qiáng)烈的一致性:Point-Battle分?jǐn)?shù)與Point-Bench結(jié)果的相關(guān)性為R? = 0.85。
更重要的是,Point-Bench準(zhǔn)確性能夠預(yù)測(cè)真實(shí)世界任務(wù)成功率。研究團(tuán)隊(duì)通過(guò)在Point-Act上測(cè)試三個(gè)代理——Molmo-7B-D、GPT-4o和人類參考——來(lái)驗(yàn)證Point-Bench作為可靠代理的有效性。成功率與Point-Bench分?jǐn)?shù)緊密一致,產(chǎn)生強(qiáng)線性相關(guān)(R? = 0.92)。這種高相關(guān)性表明,Point-Bench是多模態(tài)LLMs在實(shí)際環(huán)境中指向能力的可靠代理。
四、影響指向性能的其他因素
為了理解影響指向的設(shè)計(jì)選擇,研究團(tuán)隊(duì)對(duì)GPT-4o進(jìn)行了消融實(shí)驗(yàn),使用提示結(jié)構(gòu)和輸出表示的變體。
結(jié)果表明,針對(duì)性提示優(yōu)于冗長(zhǎng)推理。融入思維鏈(CoT)推理使GPT-4o的指向準(zhǔn)確率降低了2.9%,而對(duì)Gemini-2.5-Flash則大幅降低了16%。使用原始、未過(guò)濾的用戶查詢導(dǎo)致GPT-4o和Gemini-2.5-Flash分別額外下降2.6%和3.7%。這些結(jié)果表明,清晰、針對(duì)性的提示與明確定義的坐標(biāo)系統(tǒng)對(duì)于有效指向至關(guān)重要,而通過(guò)語(yǔ)言的額外推理并不能增強(qiáng)MLLMs的指向能力。
這一發(fā)現(xiàn)非常有趣,因?yàn)樗c許多其他任務(wù)中的發(fā)現(xiàn)相反——在那些任務(wù)中,思維鏈方法通常會(huì)提高性能。這表明視覺(jué)定位任務(wù)可能需要與純語(yǔ)言任務(wù)不同的推理策略。
五、PointArena的局限性與未來(lái)展望
雖然PointArena為評(píng)估多模態(tài)模型的指向能力提供了一個(gè)統(tǒng)一、可擴(kuò)展的框架,但研究團(tuán)隊(duì)也坦率地討論了當(dāng)前的局限性。
當(dāng)前的標(biāo)注管道依賴于分割任意物體模型(SAM)生成初始掩碼,標(biāo)注者通過(guò)基于網(wǎng)格的界面對(duì)其進(jìn)行細(xì)化。雖然高效,但這種方法通常導(dǎo)致粗糙和不精確的邊界,特別是對(duì)于精細(xì)或不規(guī)則形狀。這種情況降低了分割質(zhì)量,并將噪聲引入下游評(píng)估。
此外,隨著大型多模態(tài)模型經(jīng)常在公開(kāi)可用的數(shù)據(jù)集上訓(xùn)練,像Point-Bench這樣的靜態(tài)基準(zhǔn)越來(lái)越有風(fēng)險(xiǎn)成為訓(xùn)練數(shù)據(jù)的一部分,降低了它們?cè)谠u(píng)估泛化能力方面的有效性。最后,Point-Battle目前隨機(jī)均勻地選擇模型對(duì),這導(dǎo)致了無(wú)信息的比較——特別是在性能差距較大的模型之間——限制了評(píng)估過(guò)程的效率。
未來(lái)工作計(jì)劃通過(guò)幾個(gè)關(guān)鍵方向解決這些限制:
首先,研究團(tuán)隊(duì)計(jì)劃用自由形式輪廓界面替換當(dāng)前的網(wǎng)格基礎(chǔ)細(xì)化工具,允許標(biāo)注者使用鼠標(biāo)或手寫(xiě)筆直接追蹤物體邊界。這可能產(chǎn)生更平滑、更精確的掩碼,特別是在物體邊緣周圍,粗糙網(wǎng)格經(jīng)常失效。
第二,為解決基準(zhǔn)陳舊性問(wèn)題,研究團(tuán)隊(duì)計(jì)劃用來(lái)自Point-Battle的用戶生成內(nèi)容增強(qiáng)Point-Bench,參與者上傳圖像并通過(guò)交互提供隱式監(jiān)督。雖然這些標(biāo)注比手動(dòng)策劃的標(biāo)注噪聲更大,但它們支持可擴(kuò)展、最新的評(píng)估。
最后,研究團(tuán)隊(duì)計(jì)劃實(shí)施自適應(yīng)采樣策略,動(dòng)態(tài)選擇性能相似的模型對(duì),增加每次比較的信息量。
結(jié)語(yǔ):指向能力對(duì)未來(lái)AI的重要意義
通過(guò)對(duì)PointArena基準(zhǔn)三個(gè)階段的開(kāi)源和專有模型評(píng)估,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾個(gè)重要見(jiàn)解,這些見(jiàn)解可能對(duì)多模態(tài)模型的未來(lái)發(fā)展產(chǎn)生深遠(yuǎn)影響。
首先,Molmo-72B在Point-Bench上取得了最高性能,專有模型如Gemini-2.5-Pro表現(xiàn)相當(dāng)。明確針對(duì)指向監(jiān)督訓(xùn)練的模型始終優(yōu)于未經(jīng)訓(xùn)練的模型。研究團(tuán)隊(duì)還觀察到靜態(tài)基準(zhǔn)準(zhǔn)確性與Point-Battle中的人類偏好之間存在強(qiáng)相關(guān)性。值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn),增加語(yǔ)言推理(如思維鏈)并不能提高指向任務(wù)的視覺(jué)基礎(chǔ)能力,反而會(huì)降低性能。
從更廣泛的角度來(lái)看,PointArena填補(bǔ)了一個(gè)關(guān)鍵空白,為多模態(tài)指向能力提供了一個(gè)統(tǒng)一的評(píng)估框架。隨著我們向更通用、更交互式的AI系統(tǒng)發(fā)展,精確的空間基礎(chǔ)能力將變得越來(lái)越重要。無(wú)論是輔助視障人士導(dǎo)航環(huán)境、指導(dǎo)機(jī)器人在家庭或工廠中執(zhí)行任務(wù),還是簡(jiǎn)單地使人機(jī)交互更加直觀,準(zhǔn)確的指向都是將語(yǔ)言理解轉(zhuǎn)化為有意義的實(shí)際行動(dòng)的基礎(chǔ)橋梁。
通過(guò)提供一個(gè)開(kāi)放、可擴(kuò)展的平臺(tái)來(lái)測(cè)量這種能力,PointArena不僅推動(dòng)了當(dāng)前多模態(tài)模型的進(jìn)步,還為未來(lái)更復(fù)雜、更自然的人機(jī)交互奠定了基礎(chǔ)。隨著模型繼續(xù)改進(jìn),我們可以期待看到指向能力從簡(jiǎn)單的物體定位擴(kuò)展到復(fù)雜的視覺(jué)推理和實(shí)時(shí)交互場(chǎng)景,最終實(shí)現(xiàn)真正自然的、指向增強(qiáng)的人機(jī)溝通。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。