在人類日常交流中,指著某物說"看那個"是再自然不過的行為了。當(dāng)媽媽教孩子認識世界時,她會指著蘋果說"這是蘋果";當(dāng)朋友幫你找東西時,他會指著角落說"在那兒"。這種指向性交流是如此基礎(chǔ),以至于孩子們在學(xué)會說話前就已經(jīng)掌握了指向的能力。
長程(Long Cheng)、段佳飛(Jiafei Duan)等來自華盛頓大學(xué)和艾倫人工智能研究所的研究團隊在2025年5月發(fā)布的最新研究《PointArena: Probing Multimodal Grounding Through Language-Guided Pointing》(指向競技場:通過語言引導(dǎo)的指向探索多模態(tài)基礎(chǔ))中,正是聚焦于這一基礎(chǔ)卻極其重要的人機交互能力。讀者可通過論文預(yù)印本網(wǎng)站arXiv(arXiv:2505.09990v2)或項目官網(wǎng)(https://pointarena.github.io)了解更多細節(jié)。
想象一下,如果你的智能助手不僅能理解"幫我找到桌上的紅色杯子"這樣的指令,還能精確地指出杯子的位置,甚至幫助機器人將其拿起,這將為各種應(yīng)用場景帶來革命性變化。從輔助技術(shù)(幫助視障人士找到物體)到機器人操作(精確抓取特定物品),從教育輔助(指出科學(xué)圖表中的特定部分)到增強現(xiàn)實交互,指向能力都是連接語言理解和實際行動的關(guān)鍵橋梁。
近年來,多模態(tài)大型語言模型(MLLMs)取得了長足進步,能夠同時處理文本和圖像,但在精確指向能力的測評上,我們?nèi)匀狈θ媲蚁到y(tǒng)的評測平臺?,F(xiàn)有的評測數(shù)據(jù)集如RefCOCO系列主要關(guān)注物體定位,無法評估更廣泛、更復(fù)雜的指向場景。
為填補這一空白,研究團隊開發(fā)了PointArena評測平臺,它包含三個相互補充的組件:Point-Bench(指向測試臺)、Point-Battle(指向競技場)和Point-Act(指向行動)。這三個部分分別從靜態(tài)基準(zhǔn)測試、人類偏好評價和實際機器人操作三個維度全方位評估模型的指向能力。
在Point-Bench中,研究團隊精心構(gòu)建了982個圖像-問題對,涵蓋空間關(guān)系理解、功能部件識別、計數(shù)、相對位置指向和推理等五大類指向任務(wù)。在Point-Battle平臺上,用戶可以上傳圖片并提供指令,讓兩個匿名模型進行指向預(yù)測,然后投票選擇表現(xiàn)更好的一方。目前該平臺已收集來自100多名全球參與者的4,500多次投票。最后,Point-Act將指向轉(zhuǎn)化為實際的機器人操作,讓用戶直觀感受模型指向精度對實際任務(wù)的影響。
研究團隊評測了包括Molmo-72B、GPT-4o、Gemini-2.5-Pro等在內(nèi)的多個開源和閉源模型。結(jié)果顯示,Molmo-72B在Point-Bench上表現(xiàn)最佳,而專門針對指向任務(wù)進行訓(xùn)練的模型普遍優(yōu)于未經(jīng)指向特定訓(xùn)練的模型。有趣的是,研究發(fā)現(xiàn),通過語言推理(如思維鏈方法)并不能提高模型的視覺定位準(zhǔn)確性,反而會降低性能。
更令人欣喜的是,研究團隊發(fā)現(xiàn)這三種評測方法之間存在高度相關(guān)性,這意味著模型在靜態(tài)數(shù)據(jù)集上的優(yōu)異表現(xiàn)很可能轉(zhuǎn)化為人類更喜歡的指向行為和更高的實際任務(wù)成功率。這不僅驗證了PointArena評測框架的有效性,也表明精確的指向能力對于多模態(tài)模型連接抽象推理和具體實際行動至關(guān)重要。
接下來,讓我們更深入地了解這個創(chuàng)新的評測平臺及其發(fā)現(xiàn)的重要洞見。
一、研究背景:為什么指向能力如此重要?
想象一下,當(dāng)你在雜亂的廚房里尋找某種調(diào)料時,你的朋友不是抽象地描述"在櫥柜的第二層靠右的地方",而是直接指著說"就在那兒"。這種簡單的指向動作傳遞了精確的空間信息,極大地簡化了溝通過程。在人機交互中,這種能力同樣至關(guān)重要。
指向是人類最早、最普遍的非語言交流方式之一。心理學(xué)研究表明,嬰兒在學(xué)會說話之前就已經(jīng)掌握了指向作為一種前語言交流形式。正如研究者在論文中指出的,精確的空間定位——指向——能夠支持廣泛的實際應(yīng)用,從機器人技術(shù)到輔助技術(shù),再到人機交互和視覺-語言界面。
例如,在機器人領(lǐng)域,具備指向能力的模型可以理解"拿起碗旁邊的紅杯子"這樣的語言命令,并將其轉(zhuǎn)化為精確的空間動作,實現(xiàn)在雜亂環(huán)境中的精細物體操作。在輔助技術(shù)方面,系統(tǒng)可以幫助視障用戶回答"這個門的把手在哪里?"或"哪一個是大蒜?"等空間查詢。在教育或創(chuàng)意工具中,指向功能允許進行交互式視覺輔導(dǎo),如識別科學(xué)圖表中的組件或引導(dǎo)學(xué)習(xí)者理解一幅畫作。即使在日常虛擬助手或搜索引擎中,通過指向引用特定圖像區(qū)域的能力也能使多模態(tài)交互更加直觀和表達豐富。
近年來,多模態(tài)大型語言模型在融入更動態(tài)、更具空間表達力的交互形式方面取得了顯著進展。例如,分割任意物體模型(SAM)支持從點或框等稀疏視覺提示進行分割,展示了精細空間控制的潛力。谷歌的Gemini模型推動了長上下文視覺推理的邊界,整合了多種模態(tài)的擴展序列。另一方面,新的數(shù)據(jù)集也開始支持顯式空間引用。Molmo的PixMo數(shù)據(jù)集將2D指向作為圖像和指令之間多模態(tài)對齊的一種形式,而RoboPoint則專注于通過將指令鏈接到機器人上下文中與交互相關(guān)的關(guān)鍵點來預(yù)測空間可供性。
盡管這些進步令人振奮,但仍然缺乏一個整體性的評估平臺來推動語言引導(dǎo)指向的進展。雖然已經(jīng)存在用于引用表達式的數(shù)據(jù)集(如RefCOCO、RefCOCO+和RefCOCOg),但它們僅關(guān)注指向任務(wù)的一個子集:物體定位。這些數(shù)據(jù)集缺乏用戶期望從現(xiàn)代交互模型中獲得的模糊性和上下文變化性,限制了它們在研究實用或交互應(yīng)用中的效用。
二、PointArena:一個全面的指向能力評測平臺
為了系統(tǒng)地評估語言引導(dǎo)下的指向能力,研究團隊開發(fā)了PointArena評測平臺。這個平臺將指向任務(wù)分為三個評估階段,每個階段都提供了不同角度的洞察。
### 任務(wù)定義:將語言轉(zhuǎn)化為精確坐標(biāo)
在深入了解平臺各部分之前,我們先來理解PointArena如何定義指向任務(wù)。指向被形式化為一個語言條件下的精細定位任務(wù)。輸入包括一張RGB圖像和一個自然語言指令提示,多模態(tài)大型語言模型需要預(yù)測一組圖像空間坐標(biāo)點。
具體來說,如果我們有一張尺寸為H×W的圖像和一個包含T個詞的語言指令,模型需要輸出K個坐標(biāo)點,每個點都在圖像邊界內(nèi)。模型預(yù)測的成功與否取決于這些點是否落在了正確的目標(biāo)區(qū)域內(nèi)——這些區(qū)域用二進制掩碼表示。
預(yù)測被視為成功需要滿足兩個條件:首先,預(yù)測點的數(shù)量需要與目標(biāo)區(qū)域的數(shù)量匹配;其次,每個目標(biāo)區(qū)域至少被一個預(yù)測點覆蓋。這種形式化使得評估可以完全自動化,無需在測試時依賴人類標(biāo)注者。
### Point-Bench:靜態(tài)基準(zhǔn)測試
Point-Bench是目前最大的語言引導(dǎo)指向評測基準(zhǔn),提供了982個文本-圖像對,每對都有像素級的目標(biāo)掩碼。這些數(shù)據(jù)來自2025年4月20日之后發(fā)布的公共資源,確保了數(shù)據(jù)的新穎性。數(shù)據(jù)集均勻分為五個任務(wù)驅(qū)動類別:空間關(guān)系(Spatial)、功能部件(Affordance)、計數(shù)(Counting)、相對位置(Steerable)和推理(Reasoning)。
這些類別是如何設(shè)計的呢?想象一下生活中的各種場景:
1. 空間關(guān)系(Spatial):這類場景選擇了具有豐富空間關(guān)系或重復(fù)物體的圖像。比如,街景中有多棵樹,標(biāo)注者會提出純粹基于位置的查詢,如"指向圖像中最左邊的樹。"
2. 功能部件(Affordance):這些場景展示桌面物體或強調(diào)功能部分的特寫。例如,一個茶壺的圖像,標(biāo)注者會詢問關(guān)于可操作組件的問題,比如"指向用于倒水的把手"。
3. 計數(shù)(Counting):這類場景包含不同數(shù)量的相似物體。比如,一張停車場的照片,標(biāo)注者會提出選擇特定數(shù)量或?qū)傩宰蛹牟樵儯?指向圖像中所有藍色汽車"。
4. 相對位置(Steerable):來自PixMo數(shù)據(jù)集的圖像,每張都包含一個參考點。標(biāo)注者提出相對于該點的查詢,避免顯式物體名稱,如"指向距離標(biāo)記點最近的物品"。
5. 推理(Reasoning):一般性、事件豐富的場景,邀請開放式查詢,需要視覺推理,答案通過指向傳達,如"指向圖像中最高的人造物體"。
為了構(gòu)建這個數(shù)據(jù)集,研究團隊開發(fā)了一個直觀的基于Gradio的標(biāo)注界面。標(biāo)注者首先根據(jù)每個類別的主題撰寫自然語言查詢,然后使用三個匿名多模態(tài)模型評估這些查詢。如果僅有一個或更少的模型產(chǎn)生正確預(yù)測(由人類評估者判斷),則該查詢被認為足夠具有挑戰(zhàn)性,可以納入數(shù)據(jù)集。隨后,標(biāo)注者直接在圖像上標(biāo)注目標(biāo)點,使用SAM模型生成初始掩碼,并可以通過編輯或移除部分內(nèi)容來細化這些掩碼。最后,另一組標(biāo)注者手動驗證掩碼,確保它們準(zhǔn)確反映了用戶生成的查詢。
### Point-Battle:人類偏好評估平臺
隨著多模態(tài)模型越來越多地融入視覺基礎(chǔ)推理和指向能力,靜態(tài)基準(zhǔn)在評估開放式、真實世界場景中的性能時變得不夠充分,特別是在考量人類偏好方面。為了解決這一限制,研究團隊引入了Point-Battle,這是一個基于用戶提供的語言指令對多模態(tài)模型指向能力進行兩兩評估的動態(tài)平臺。
Point-Battle采用了受Chatbot Arena啟發(fā)的頭對頭評估格式,通過基于Gradio的網(wǎng)絡(luò)界面實現(xiàn)。在每一輪中,從Point-Bench表現(xiàn)最佳的模型中隨機抽取兩個匿名模型——包括GPT-4o、Gemini 2.5 Flash、Molmo-7B-D、Qwen2.5-VL-7B和Grok-2 Vision。用戶提交一個自然語言指令,并從精選數(shù)據(jù)集(2025年4月20日后)中選擇圖像或上傳自己的圖像。兩個模型返回點預(yù)測,并并排顯示。參與者為更好的輸出投票,或者在適用的情況下選擇"兩者都好"或"兩者都差"。
這種設(shè)計鼓勵了多樣化和無偏見的指令,不提供預(yù)設(shè)提示。模型身份保持匿名以防止偏見。自平臺推出以來,Point-Battle已收集了來自約100名全球參與者的4,500多次投票。與靜態(tài)的Point-Bench不同(如果在模型開發(fā)過程中使用可能導(dǎo)致過擬合),Point-Battle服務(wù)為持續(xù)更新的基準(zhǔn),捕捉實時人類偏好并跟蹤多模態(tài)模型在視覺基礎(chǔ)推理方面的進展。隨著Point-Battle規(guī)模的擴大,這也將成為收集指向數(shù)據(jù)的平臺。
### Point-Act:真實世界機器人操作測試
PointArena的前兩個階段通過定量指標(biāo)和人類偏好評估來評估模型的指向能力。然而,指向只有在能夠?qū)崿F(xiàn)真實世界的實用性時才有意義。為了評估這種支持,研究團隊引入了Point-Act——一個交互式系統(tǒng),用戶通過GUI向雙盲多模態(tài)模型發(fā)出自然語言指令。模型生成一個或多個預(yù)測點,這些點被轉(zhuǎn)換為xArm 6 Lite機器人的可操作命令。機器人使用深度感知進行空間推理,在指示位置執(zhí)行拾取或放置操作。
這種設(shè)置將指向操作化為端到端物理操作,將語言基礎(chǔ)與機器人控制連接起來。Point-Act突顯了基礎(chǔ)精度的下游后果:即使是小的定位錯誤也會導(dǎo)致執(zhí)行失敗,而準(zhǔn)確的預(yù)測則能實現(xiàn)持續(xù)的真實世界成功。
三、研究實驗:誰是指向能力的王者?
研究團隊評估了一系列多模態(tài)大型語言模型(MLLMs)——包括專有和開源的——使用PointArena的三個組件。這些評估在零樣本提示條件下進行,也就是說,模型沒有接受過特定于任務(wù)的微調(diào)或示例學(xué)習(xí)。為了確保具有不同內(nèi)部坐標(biāo)系統(tǒng)的模型(特別是專有模型)的輸出一致,研究團隊采用了標(biāo)準(zhǔn)化的輸出格式:[x, y],其中x和y分別表示水平和垂直像素坐標(biāo)。
成功率的衡量使用了一個二元指標(biāo):如果預(yù)測點落在目標(biāo)掩碼內(nèi),則認為預(yù)測正確。對于非計數(shù)任務(wù),模型被提示預(yù)測單個點;如果返回多個點,則只評估第一個點,假設(shè)它因自回歸生成過程而反映最高置信度的預(yù)測。
### 實驗設(shè)置
在Point-Bench上,研究團隊評測了16個MLLMs(跨越開源和專有模型,包括關(guān)鍵變體)。每個模型都在相同的982個圖像-指令對上評估三次,以計算平均值和標(biāo)準(zhǔn)偏差。開源模型在本地的NVIDIA A100 GPU上執(zhí)行,而專有模型則通過公共API訪問。
對于Point-Battle,為了測量與人類偏好的一致性,研究團隊發(fā)布了一個實時評估平臺,并通過社交媒體和郵件列表進行宣傳。用戶對匿名模型輸出進行頭對頭比較投票。從成對比較中計算Elo評級,排除模糊投票("兩者都好"或"兩者都差")。
在Point-Act中,招募了10名遠程參與者與真實世界機器人設(shè)置進行交互。對于固定場景,參與者評估了三個代理——Molmo-7B-D、GPT-4o和人類參考——進行三次試驗。在每個條件之后,他們完成了系統(tǒng)可用性量表(SUS)調(diào)查。
評估的模型包括Molmo、Gemini、OpenAI、Claude、Grok、LLaVA和Qwen的多個變體。
### 主要發(fā)現(xiàn)
實驗結(jié)果揭示了幾個關(guān)鍵發(fā)現(xiàn):
1. **開源模型的表現(xiàn)可與專有模型相媲美**:Point-Bench結(jié)果顯示,明確針對指向數(shù)據(jù)訓(xùn)練的開源MLLMs通常能夠匹配或優(yōu)于專有模型。例如,Molmo-72B在性能上超過了Gemini-2.5-Pro 0.43個百分點——這是一個統(tǒng)計上不顯著的差距(p≈0.29)。在功能部件推理方面,像Molmo-72B和Qwen2.5-VL這樣的開源模型始終超過專有基線??傮w而言,Molmo-72B在Point-Bench基準(zhǔn)測試中取得了最高性能。
2. **指向監(jiān)督顯著提升性能**:接觸明確的指向數(shù)據(jù)是模型準(zhǔn)確性的關(guān)鍵驅(qū)動因素。在Qwen家族中,將PixMo語料庫融入Qwen2.5-VL-7B使性能提高到52.3%,遠高于未使用此類數(shù)據(jù)的Qwen2-VL-7B的17.4%。相比之下,同樣未經(jīng)過明確指向監(jiān)督訓(xùn)練的LLaVA變體在平均上僅達到4.8-17.4%。
3. **專有模型可能受益于開源指向數(shù)據(jù)集**:雖然專有訓(xùn)練數(shù)據(jù)是不透明的,但研究團隊觀察到在PixMo和RoboPoint數(shù)據(jù)集發(fā)布后不久發(fā)布的模型性能大幅躍升。例如,GPT-o3比GPT-4-Turbo提高了21.1個百分點,而Gemini-2.5-Flash比Gemini-1.5-Flash提高了45.9個百分點。這些結(jié)果表明,最近的專有模型可能已經(jīng)融入了PixMo或類似的語料庫。
4. **開源模型更符合人類偏好**:在Point-Battle中,Molmo-7B-D的表現(xiàn)超過Gemini-2.5-Flash 196個Elo點。它們的95%置信區(qū)間不重疊,在115次直接頭對頭比較中,Molmo-7B-D贏得了79%。Qwen2.5-VL-7B和Molmo-7B-D在人類偏好評估中都超過了專有模型,并超過了1000點的基線,表明相對于隨機猜測具有統(tǒng)計顯著的優(yōu)勢。
5. **Molmo在Point-Act評估中表現(xiàn)出色**:用戶研究結(jié)果顯示,Molmo-7B-D的表現(xiàn)大幅超過專有GPT-4o模型,性能提高了65%,接近人類(預(yù)言)基線水平。這種優(yōu)勢也反映在用戶偏好上,Molmo-7B-D在SUS評分上比GPT-4o高出60.3分。
6. **模型大小對指向性能影響不大**:如圖5c所示,開源模型(LLaVA-OV、Molmo和Qwen-VL)在Point-Bench上的性能隨著模型大小增加而基本保持不變。例如,Qwen2.5-VL-7B的性能在Qwen2.5-VL-72B的3%范圍內(nèi),而Molmo-7B-O與Molmo-72B的差異不到1%。這些結(jié)果表明,增加模型大小并不會顯著提高指向準(zhǔn)確性。
### 三個評估框架之間的相關(guān)性
PointArena對MLLMs指向能力的三階段評估不應(yīng)被視為孤立的組件,而應(yīng)被視為漸進流程中的互補步驟。隨著MLLMs的改進,它們有望通過這些階段取得進展。因此,了解階段之間的相關(guān)性和一致性對于評估一致性能提升至關(guān)重要。
研究發(fā)現(xiàn),人類偏好和靜態(tài)數(shù)據(jù)集評估高度一致。隨著MLLMs的改進,Point-Bench的靜態(tài)數(shù)據(jù)集將不可避免地達到平臺期。為了保持領(lǐng)先,研究團隊引入了Point-Battle,一個不斷更新的實時競技場,支持開放式模型比較。驗證這一設(shè)置時,研究團隊重新評估了在Point-Bench上測試的模型,并觀察到強烈的一致性:Point-Battle分數(shù)與Point-Bench結(jié)果的相關(guān)性為R? = 0.85。
更重要的是,Point-Bench準(zhǔn)確性能夠預(yù)測真實世界任務(wù)成功率。研究團隊通過在Point-Act上測試三個代理——Molmo-7B-D、GPT-4o和人類參考——來驗證Point-Bench作為可靠代理的有效性。成功率與Point-Bench分數(shù)緊密一致,產(chǎn)生強線性相關(guān)(R? = 0.92)。這種高相關(guān)性表明,Point-Bench是多模態(tài)LLMs在實際環(huán)境中指向能力的可靠代理。
四、影響指向性能的其他因素
為了理解影響指向的設(shè)計選擇,研究團隊對GPT-4o進行了消融實驗,使用提示結(jié)構(gòu)和輸出表示的變體。
結(jié)果表明,針對性提示優(yōu)于冗長推理。融入思維鏈(CoT)推理使GPT-4o的指向準(zhǔn)確率降低了2.9%,而對Gemini-2.5-Flash則大幅降低了16%。使用原始、未過濾的用戶查詢導(dǎo)致GPT-4o和Gemini-2.5-Flash分別額外下降2.6%和3.7%。這些結(jié)果表明,清晰、針對性的提示與明確定義的坐標(biāo)系統(tǒng)對于有效指向至關(guān)重要,而通過語言的額外推理并不能增強MLLMs的指向能力。
這一發(fā)現(xiàn)非常有趣,因為它與許多其他任務(wù)中的發(fā)現(xiàn)相反——在那些任務(wù)中,思維鏈方法通常會提高性能。這表明視覺定位任務(wù)可能需要與純語言任務(wù)不同的推理策略。
五、PointArena的局限性與未來展望
雖然PointArena為評估多模態(tài)模型的指向能力提供了一個統(tǒng)一、可擴展的框架,但研究團隊也坦率地討論了當(dāng)前的局限性。
當(dāng)前的標(biāo)注管道依賴于分割任意物體模型(SAM)生成初始掩碼,標(biāo)注者通過基于網(wǎng)格的界面對其進行細化。雖然高效,但這種方法通常導(dǎo)致粗糙和不精確的邊界,特別是對于精細或不規(guī)則形狀。這種情況降低了分割質(zhì)量,并將噪聲引入下游評估。
此外,隨著大型多模態(tài)模型經(jīng)常在公開可用的數(shù)據(jù)集上訓(xùn)練,像Point-Bench這樣的靜態(tài)基準(zhǔn)越來越有風(fēng)險成為訓(xùn)練數(shù)據(jù)的一部分,降低了它們在評估泛化能力方面的有效性。最后,Point-Battle目前隨機均勻地選擇模型對,這導(dǎo)致了無信息的比較——特別是在性能差距較大的模型之間——限制了評估過程的效率。
未來工作計劃通過幾個關(guān)鍵方向解決這些限制:
首先,研究團隊計劃用自由形式輪廓界面替換當(dāng)前的網(wǎng)格基礎(chǔ)細化工具,允許標(biāo)注者使用鼠標(biāo)或手寫筆直接追蹤物體邊界。這可能產(chǎn)生更平滑、更精確的掩碼,特別是在物體邊緣周圍,粗糙網(wǎng)格經(jīng)常失效。
第二,為解決基準(zhǔn)陳舊性問題,研究團隊計劃用來自Point-Battle的用戶生成內(nèi)容增強Point-Bench,參與者上傳圖像并通過交互提供隱式監(jiān)督。雖然這些標(biāo)注比手動策劃的標(biāo)注噪聲更大,但它們支持可擴展、最新的評估。
最后,研究團隊計劃實施自適應(yīng)采樣策略,動態(tài)選擇性能相似的模型對,增加每次比較的信息量。
結(jié)語:指向能力對未來AI的重要意義
通過對PointArena基準(zhǔn)三個階段的開源和專有模型評估,研究團隊發(fā)現(xiàn)了幾個重要見解,這些見解可能對多模態(tài)模型的未來發(fā)展產(chǎn)生深遠影響。
首先,Molmo-72B在Point-Bench上取得了最高性能,專有模型如Gemini-2.5-Pro表現(xiàn)相當(dāng)。明確針對指向監(jiān)督訓(xùn)練的模型始終優(yōu)于未經(jīng)訓(xùn)練的模型。研究團隊還觀察到靜態(tài)基準(zhǔn)準(zhǔn)確性與Point-Battle中的人類偏好之間存在強相關(guān)性。值得注意的是,研究團隊發(fā)現(xiàn),增加語言推理(如思維鏈)并不能提高指向任務(wù)的視覺基礎(chǔ)能力,反而會降低性能。
從更廣泛的角度來看,PointArena填補了一個關(guān)鍵空白,為多模態(tài)指向能力提供了一個統(tǒng)一的評估框架。隨著我們向更通用、更交互式的AI系統(tǒng)發(fā)展,精確的空間基礎(chǔ)能力將變得越來越重要。無論是輔助視障人士導(dǎo)航環(huán)境、指導(dǎo)機器人在家庭或工廠中執(zhí)行任務(wù),還是簡單地使人機交互更加直觀,準(zhǔn)確的指向都是將語言理解轉(zhuǎn)化為有意義的實際行動的基礎(chǔ)橋梁。
通過提供一個開放、可擴展的平臺來測量這種能力,PointArena不僅推動了當(dāng)前多模態(tài)模型的進步,還為未來更復(fù)雜、更自然的人機交互奠定了基礎(chǔ)。隨著模型繼續(xù)改進,我們可以期待看到指向能力從簡單的物體定位擴展到復(fù)雜的視覺推理和實時交互場景,最終實現(xiàn)真正自然的、指向增強的人機溝通。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。