av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 EOC-Bench: 多模態(tài)大語言模型能否識別、回憶和預(yù)測第一人稱視角下的物體?

EOC-Bench: 多模態(tài)大語言模型能否識別、回憶和預(yù)測第一人稱視角下的物體?

2025-06-09 14:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 14:35 ? 科技行者

近日,由浙江大學(xué)、阿里巴巴達摩院和湖畔實驗室聯(lián)合研究團隊發(fā)表了一項突破性研究,探討了多模態(tài)大語言模型(MLLMs)在第一人稱場景中對物體的認知能力。這篇題為《EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?》的論文于2025年6月5日在arXiv上發(fā)表(arXiv:2506.05287v1),由袁宇乾、黨榮浩、李龍、李文通、焦典等學(xué)者共同完成。研究團隊開發(fā)了一個名為EOC-Bench的創(chuàng)新基準測試,用于評估模型在動態(tài)第一人稱場景中對物體的理解能力。

我們的日常生活中,當我們戴上AR眼鏡或使用機器人助手時,這些智能系統(tǒng)需要理解我們所看到的物體。想象一下,你正在廚房準備晚餐,你的智能助手需要識別出哪個是刀,哪個是砧板,它們現(xiàn)在的狀態(tài)如何,以及剛才你把胡蘿卜放在了哪里。這種情境下的物體認知與普通的圖像識別有很大不同,因為物體會不斷移動、被遮擋,甚至狀態(tài)會發(fā)生變化。

現(xiàn)有的評估基準主要關(guān)注靜態(tài)場景探索,強調(diào)物體的外觀和空間屬性,但忽略了用戶交互引起的動態(tài)變化。EOC-Bench正是為解決這一問題而生,它從三個時間維度評估模型對物體的認知能力:過去、現(xiàn)在和未來。

過去維度考察模型是否記得物體之前的狀態(tài)、位置和關(guān)系。就像你問朋友:"記得我剛才把眼鏡放在哪里了嗎?"或"這個水杯是什么時候被清洗的?"這類問題測試模型的記憶能力?,F(xiàn)在維度則關(guān)注當前場景中物體的狀態(tài)和關(guān)系識別,比如"這個物體是什么?""它的功能是什么?"未來維度則考察模型預(yù)測物體變化的能力,例如"如果我移開這個支撐物,盤子會怎么樣?"這對避免潛在危險至關(guān)重要。

研究團隊創(chuàng)新性地使用了混合格式標注框架,包括四種問題類型:是非題、單選題、多選題和開放式問題。特別是對于時間感知的開放式問題,他們設(shè)計了一種多尺度時間準確性指標,可以在不同的誤差容忍度下評估模型的時間感知能力。此外,為了解決動態(tài)場景中物體指代的問題,研究者引入了視覺提示方法(點、框、掩碼),確保模型能準確理解問題涉及的是哪個物體。

最終的EOC-Bench包含3,277個問答對,涵蓋11個細粒度評估維度和3種視覺物體引用類型。研究團隊對市場上主流的專有模型(如GPT-4o)、開源模型(如Qwen2.5-VL)以及物體級別的模型進行了全面評估,發(fā)現(xiàn)即使是最先進的模型在物體級時間感知方面也存在明顯不足,特別是在絕對時間感知方面,顯著落后于人類水平。

這項研究為多模態(tài)大語言模型在第一人稱場景中理解物體提供了重要基準,也為未來智能系統(tǒng)在AR眼鏡、機器人等領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。接下來,讓我們深入了解EOC-Bench的設(shè)計理念、評估方法和研究發(fā)現(xiàn)。

一、為什么我們需要新的基準測試?

想象一下你正在廚房準備一道復(fù)雜的菜肴。你的手上沾滿面粉,但需要查看下一步的烹飪步驟。你對智能眼鏡說:"那個胡蘿卜切好了嗎?"或者"我?guī)追昼娗鞍雅D谭旁谀睦锪耍?這種第一人稱視角下的物體認知能力對未來的智能助手至關(guān)重要。

現(xiàn)有的基準測試存在哪些不足呢?就像一個只會識別靜止物體的助手,它能告訴你"這是一把刀",但無法回答"這把刀剛才被用來切什么了?"或"如果我把刀放在這個不穩(wěn)定的表面上會怎樣?"市場上的測試如ScanQA、SQA3D主要關(guān)注封閉詞匯的靜態(tài)場景理解,而更新的OpenEQA、VSI-Bench和ECBench雖然支持開放詞匯,但仍主要集中于靜態(tài)場景探索,如家庭參觀,很少評估動態(tài)交互環(huán)境中的物體認知能力。

EOC-Bench的創(chuàng)新之處在于,它專注于評估模型在動態(tài)第一人稱場景中對物體的全方位認知能力。這就像從"認識物體"升級到"理解物體的過去、現(xiàn)在和未來"。研究團隊從四個公開數(shù)據(jù)集(EPIC-KITCHENS、Ego4D、Charades-ego和MECCANO)和自錄視頻中精心挑選了656個真實場景視頻,涵蓋廚房、起居室、餐廳等多種環(huán)境。

在這些動態(tài)場景中,物體展現(xiàn)出三個關(guān)鍵特性:

1. 瞬時可見性:由于頻繁的遮擋和視角變化,物體的狀態(tài)和位置會動態(tài)變化。就像你轉(zhuǎn)身拿鹽時,鍋里的食物繼續(xù)在烹飪。

2. 視覺模糊性:相似外觀的物品在空間上靠近,很容易混淆。想象一下廚房臺面上擺著幾個相似的碗和杯子。

3. 時間依賴性:當前狀態(tài)依賴于歷史交互并影響未來結(jié)果。例如,剛從冰箱拿出的牛奶溫度會隨時間變化。

這些特性使得第一人稱場景下的物體認知變得極具挑戰(zhàn)性,需要模型能夠維持持續(xù)的視覺定位,同時處理空間和時間細節(jié)。EOC-Bench正是為系統(tǒng)評估這種能力而設(shè)計的。

二、EOC-Bench如何構(gòu)建?

想象EOC-Bench是一個精心設(shè)計的考試系統(tǒng),用來測試智能助手在第一人稱視角下"看懂"物體的能力。這個考試不僅測試"你看到了什么",還會問"之前發(fā)生了什么"和"接下來會怎樣"。

首先,研究團隊設(shè)計了一個系統(tǒng)性的能力分類法,將第一人稱場景下的物體認知能力分為三個時間維度:

過去維度關(guān)注模型對物體歷史狀態(tài)的記憶能力,包括: - 物體狀態(tài)回顧:評估模型監(jiān)測物體屬性變化的能力,如顏色、形狀、大小、姿態(tài)、溫度和運動。 - 物體位置回顧:測量歷史定位準確性,從宏觀層面(房間尺度)到微觀層面(精確位置)。 - 物體關(guān)系演變:考察物體關(guān)系變化,包括空間關(guān)系、運動狀態(tài)動態(tài)和時間序列關(guān)系。 - 絕對時間感知:評估通過兩個方面的絕對時間認知精度,包括指定特定時間點和理解時間持續(xù)時間。

現(xiàn)在維度測試模型理解當前場景的能力: - 即時狀態(tài)識別:評估模型識別物體當前狀態(tài)的能力,包括材料、形狀、功能狀態(tài)、表面條件等。 - 物體關(guān)系:分析物體之間的動態(tài)關(guān)系,包括空間、功能或比較關(guān)系。 - 目的和功能推斷:要求根據(jù)物體的外部特征、材料、配置和場景推斷其潛在用途。 - 異常感知:測量模型檢測異?;虿粎f(xié)調(diào)視覺輸入的能力,特別是在不尋常的組合場景中。

未來維度考察模型的預(yù)測能力: - 軌跡和運動預(yù)測:預(yù)測物體基于當前運動和位置的未來路徑或動態(tài)運動變化。 - 狀態(tài)變化預(yù)測:預(yù)測物體由于持續(xù)動作或環(huán)境波動而發(fā)生的未來狀態(tài)變化。 - 動態(tài)關(guān)系預(yù)測:預(yù)見物體間關(guān)系的潛在變化,幫助預(yù)防即將發(fā)生的碰撞或其他交互。

為確保評估的全面性,研究團隊開發(fā)了一個混合格式的人工標注框架。這就像設(shè)計一套考試題目,包括是非題、單選題、多選題和開放式問題。對于開放式問題,特別是涉及時間感知的問題,他們創(chuàng)新地設(shè)計了一個多尺度時間準確性指標(MSTA)。

具體來說,假設(shè)有一個問題:"物體A多久前被清洗了?"標準答案是10秒,一個模型回答8秒,另一個回答25秒,我們?nèi)绾闻袛嗄膫€更準確?傳統(tǒng)方法可能簡單比較絕對誤差,但這忽略了時間尺度的影響。研究團隊分析了人類對不同時間尺度的誤差容忍度,設(shè)計了{1%、10%、20%、30%}四個相對誤差閾值。這就像說,對于10秒的時間,1%的閾值意味著允許0.1秒的誤差,而30%的閾值允許3秒的誤差。模型的最終得分是在這四個閾值下的平均表現(xiàn)。

另一個重要創(chuàng)新是視覺物體引用方法。在動態(tài)場景中,文本描述如"最左邊的碗"或"那個勺子"往往難以準確指代物體。當物體在洗滌過程中重新排列,或廚房中有多個相似的勺子時,這些描述失去了明確性。為解決這個問題,研究團隊引入了視覺引用提示,包括點、框和掩碼,它們提供了持久、明確的物體引用,同時保留了理解物體所需的空間時間上下文。

最終的EOC-Bench包含3,277個問答對,涵蓋11個細粒度評估維度和3種視覺物體引用類型。數(shù)據(jù)集包含廣泛的物體類別,從廚房用具到電子設(shè)備,涵蓋各種使用場景。視頻長度從幾秒到六分鐘不等,確保了測試的多樣性和全面性。

三、主流模型表現(xiàn)如何?

研究團隊對市場上的主流多模態(tài)大語言模型進行了全面評估,包括專有模型(GPT-4o、GPT-4o-mini和Gemini-2.0-flash),開源模型(Qwen2.5-VL、InternVL2.5、VideoLLaMA2&3等)以及專注于物體理解的模型(VideoRefer、ViP-LLaVA等)。測試采用零樣本推理方式,使用模型的默認設(shè)置進行評估。

人類在EOC-Bench上的平均準確率達到了驚人的94.63%,展示了人類在物體理解和時間感知方面的卓越能力。相比之下,即使是頂尖的專有模型GPT-4o也只達到了61.83%的準確率,與人類水平存在顯著差距。

GPT-4o在各個子任務(wù)中表現(xiàn)相對均衡,但在過去維度的任務(wù),特別是絕對時間感知(34.46%)和物體關(guān)系演變(46.56%)方面,即使提供了每幀的時間戳,模型的表現(xiàn)也不盡如人意。這表明模型在感知和記憶時間變化方面存在明顯局限。

頂級開源模型如InternVL2.5-78B與閉源模型相比存在明顯差距,比GPT-4o低9.5%。其他在現(xiàn)有基準測試上表現(xiàn)良好的視頻大語言模型,如Qwen2.5-VL、VideoLLaMA3和NVILA,在我們的任務(wù)上表現(xiàn)欠佳,特別是在物體關(guān)系演變和絕對時間感知方面。許多這些模型在記憶回憶能力上存在顯著限制。

物體級別的多模態(tài)模型,如最近的VideoRefer,表現(xiàn)優(yōu)于許多競爭模型,突顯了物體級別表示學(xué)習(xí)的有效性。然而,它們在處理復(fù)雜操作場景中的密集相似物體時,以及在動態(tài)時間變化的絕對時間感知任務(wù)中仍面臨挑戰(zhàn)。

研究團隊還進行了不同問題類型的分析,發(fā)現(xiàn)許多模型在回答多選題方面面臨挑戰(zhàn),得分低于隨機猜測。這個問題在參數(shù)較少(7B或更少)的小型模型中尤為明顯。研究者推測,這些小型模型可能在訓(xùn)練過程中過度擬合了簡單的單選題,影響了它們處理多選項問題的能力。

此外,時間敏感度分析表明,許多模型(21個中的9個)在感知過去時間方面的表現(xiàn)低于隨機猜測水平。即使是最強大的開源模型也只比隨機機會高出13.1%,這凸顯了當前大多數(shù)模型缺乏但對體感AI至關(guān)重要的能力。

隨著模型規(guī)模的增加,它們處理未來導(dǎo)向問題的能力顯著提升。例如,Qwen2.5-VL和VideoLLaMA3的不同參數(shù)版本在這些任務(wù)上展示了明顯的性能提升。這表明較大的模型更善于處理需要前瞻性思維和預(yù)測推理的問題。

相比之下,過去導(dǎo)向的問題對模型構(gòu)成了更大的挑戰(zhàn)。雖然較小的模型可能在未來導(dǎo)向問題上掙扎,但較大的模型在處理過去導(dǎo)向問題時往往表現(xiàn)不佳。這種準確回憶和處理過去信息的困難是當前多模態(tài)大語言模型中的普遍問題,表明這是改進設(shè)計和訓(xùn)練的重要方向。

研究團隊還評估了多幀輸入對模型性能的提升。頂級專有模型GPT-4o和Gemini-2.0-flash在從單幀輸入轉(zhuǎn)向32幀輸入時獲得了顯著性能提升,分別提高了24.6%和20.1%。這種改進在過去導(dǎo)向任務(wù)中尤為顯著,分別提高了49.2%和60.2%。這些發(fā)現(xiàn)凸顯了多幀推理在EOC-Bench中的關(guān)鍵作用,特別是對于記憶回憶任務(wù)。能夠訪問先前幀的信息可以顯著增強當前和未來的理解。

四、錯誤分析揭示了什么問題?

為了深入了解模型的困難所在,研究團隊對表現(xiàn)最佳的GPT-4o進行了全面的錯誤分析,檢查了選擇題和開放式問題的表現(xiàn)。

對于選擇題,研究者隨機抽樣了300個錯誤案例,覆蓋各個任務(wù)類別,并將錯誤分為四類:

1. 感知錯誤:這類錯誤與當前幀的感知問題有關(guān),包括來自先前幀的干擾、對細節(jié)的不足關(guān)注、計數(shù)錯誤和幀內(nèi)干擾。

2. 記憶錯誤:這類錯誤反映了對先前幀信息的錯誤觀察或回憶,包括當前幀的干擾和缺失觀察,表明32個采樣幀可能不足以回答與記憶相關(guān)的問題。

3. 關(guān)系推理錯誤:這類錯誤涉及感知或推斷物體之間簡單關(guān)系的困難。

4. 知識錯誤:這類錯誤包括推理、常識和計算方面的問題。

在過去類別中,記憶錯誤占主導(dǎo)地位,占錯誤的93%。這些主要是由于對歷史幀的處理不足(73%)和當前幀的干擾(17%)所致。剩余10%是缺失觀察錯誤,這突顯了固定幀采樣策略的內(nèi)在限制。這些發(fā)現(xiàn)指向GPT-4o在時間上下文建模方面的顯著弱點,特別是在有效保留和使用跨幀信息以理解視頻方面的困難。

在現(xiàn)在類別中,感知錯誤占61%,其次是知識錯誤(22%)和記憶錯誤(7%)。值得注意的是,幀內(nèi)干擾構(gòu)成了感知錯誤的顯著部分,揭示了模型在區(qū)域級視覺感知方面的局限性及其對幻覺偽影的敏感性。這些觀察表明空間感知仍然是一個持續(xù)挑戰(zhàn)。

在未來類別中,約59%的錯誤與知識相關(guān),表明推理能力和常識理解方面的局限性。

對于開放式問題,特別是與時間感知準確性相關(guān)的問題,研究者進行了基于密度的分析,比較了地面真相時間戳與模型生成響應(yīng)之間的偏差。人類響應(yīng)的分布表現(xiàn)出顯著的峰值,隨后是快速衰減,表明大多數(shù)人類答案實現(xiàn)了最小的誤差比率,只有零星的較高不準確性。相比之下,五個表現(xiàn)最佳的模型(GPT-4o、LLaVA-Video-72B、VideoLLaMA3-7B、Qwen2.5-VL-72B和NVILA-8B)表現(xiàn)出更平坦的分布,更廣泛的擴散。這種模式表明,這些模型在時間感知方面表現(xiàn)出更大的變異性,頻繁產(chǎn)生特定情況下的更大錯誤。

這種差異突顯了當前多模態(tài)大語言模型與人類水平時間感知之間的顯著差距,暗示一些模型預(yù)測可能依賴于隨機估計而非精確的時間理解。研究者還分析了模型在不同時間閾值(0.01、0.1、0.2和0.3)下的準確性,進一步證實了這一差距。

五、EOC-Bench的價值與展望

EOC-Bench為理解和改進多模態(tài)大語言模型在第一人稱場景中的物體認知能力提供了一個重要工具。它系統(tǒng)地評估了模型在三個時間維度(過去、現(xiàn)在和未來)下識別、回憶和預(yù)測物體的能力,揭示了當前模型在時間感知和物體級理解方面的重要差距。

這些發(fā)現(xiàn)對開發(fā)更強大的體感認知系統(tǒng)具有重要意義。例如,在增強現(xiàn)實眼鏡和機器人應(yīng)用中,系統(tǒng)需要持續(xù)跟蹤和理解物體的狀態(tài)和位置變化,以便提供及時、相關(guān)的幫助。理解"咖啡杯在哪里"、"面包是什么時候烤好的"以及"如果我現(xiàn)在移動這個盤子會發(fā)生什么"這類問題對于創(chuàng)建真正有用的智能助手至關(guān)重要。

未來的研究方向可能包括:

1. 改進模型的時間感知能力,特別是絕對時間感知,這是當前模型表現(xiàn)最差的領(lǐng)域之一。

2. 增強多幀處理能力,使模型能更有效地利用視頻中的時間信息。

3. 開發(fā)更專注于物體級理解的模型架構(gòu),可能結(jié)合更高效的視覺提示方法。

4. 擴展評估范圍,包括更長視頻中的長期記憶能力測試。

盡管EOC-Bench主要關(guān)注物體認知,但其設(shè)計原則和評估方法可以擴展到更廣泛的體感理解任務(wù),如行為識別、意圖理解和場景變化預(yù)測。

總之,EOC-Bench不僅是一個評估工具,更是推動多模態(tài)大語言模型向更全面、更實用的體感認知方向發(fā)展的催化劑。隨著這些模型能力的提升,我們可以期待看到更智能、更有用的體感AI系統(tǒng)在我們的日常生活中發(fā)揮作用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-