av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 從機器人感知到智能理解:UC伯克利推出Robo2VLM,利用真實機器人操作數據訓練視覺語言模型

從機器人感知到智能理解:UC伯克利推出Robo2VLM,利用真實機器人操作數據訓練視覺語言模型

2025-05-28 07:40
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 07:40 ? 科技行者

**【研究背景與團隊介紹】**

2025年5月,加州大學伯克利分校的研究團隊Kaiyuan Chen、Shuangyu Xie、Zehan Ma和Ken Goldberg共同發(fā)表了一項創(chuàng)新研究,為機器人與人工智能領域帶來了新的突破。這篇名為"Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets"的論文于2025年5月21日發(fā)布在arXiv預印本平臺上(arXiv:2505.15517v1),探索了如何利用真實世界的機器人操作數據來增強視覺語言模型(VLM)的能力。

想象一下,當你教導孩子認識世界時,你不僅會告訴他們物體的名稱,還會讓他們親手觸摸、操作這些物體,從而建立更深刻的理解。同樣的道理適用于人工智能系統(tǒng)。現有的視覺語言模型(如LLaVA、Llama和Qwen等)雖然通過互聯網上的大量圖像和文本學習了豐富的知識,但它們缺乏真實物理世界的互動經驗,特別是在精細的空間關系理解和物理交互方面存在明顯不足。

伯克利團隊的研究就像是給這些"聰明但缺乏實踐經驗"的AI模型提供了一個動手學習的機會。他們創(chuàng)新性地提出了一個反向思路:通常我們使用視覺語言模型來幫助機器人理解場景和任務,但這次研究卻是利用機器人在現實世界中的操作經驗來反過來增強視覺語言模型的能力。這種機器人到視覺語言模型(Robot-to-VLM,簡稱Robo2VLM)的思路,開創(chuàng)了人工智能訓練的新范式。

**【研究核心問題與創(chuàng)新點】**

當前視覺語言模型面臨的核心挑戰(zhàn)在于,它們所訓練的圖像-文本數據缺乏精細的空間信息,而這些信息對于機器人識別長尾物體、理解復雜場景、推理空間關系和規(guī)劃物理交互至關重要。一些研究者試圖通過模擬生成數據來解決這一問題,但模擬環(huán)境與真實世界之間存在明顯差距,無法準確模擬真實世界的視覺屬性(如噪聲、雜亂和光照變化)和物理屬性(如接觸動力學和交互)。

相比之下,遙操作機器人軌跡包含了精確、結構化的本體感知和運動學信息,如關節(jié)角度、末端執(zhí)行器姿態(tài)、抓取器狀態(tài)和力-扭矩讀數,這些數據隱含地編碼了3D空間信息。伯克利團隊提出的核心假設是:從機器人軌跡中提取的視覺和文本數據可以提高視覺語言模型的空間推理能力。

基于這一假設,研究團隊開發(fā)了Robo2VLM,這是一個多選視覺問答(VQA)數據集生成框架。給定一個人類遙操作的機器人軌跡,Robo2VLM從非視覺和非描述性的傳感模態(tài)(如末端執(zhí)行器姿態(tài)、抓取器開口度和力感知)中提取地面真值。根據這些模態(tài),它將機器人軌跡分割成一系列操作階段。在每個階段,Robo2VLM利用場景和交互理解來識別機器人、任務目標和目標物體的3D屬性。這些屬性用于生成基于空間、目標條件和交互推理問題模板的代表性VQA查詢——圖像和文本多選題。

**【研究方法詳解】**

Robo2VLM的工作流程就像是一位細心的觀察者,它不僅看到機器人的動作,還理解動作背后的目的和過程。首先,它將機器人軌跡定義為來自多個傳感器模態(tài)的時間同步數據幀序列。每個時間步的數據幀包含了RGB圖像、立體圖像對(如果有)、末端執(zhí)行器姿態(tài)、抓取器狀態(tài)和力-扭矩向量等信息。

想象一下烹飪過程中的不同階段:準備食材、下鍋烹煮、翻炒調味、裝盤上菜。類似地,Robo2VLM將機器人操作過程分解為幾個關鍵階段:接近、穩(wěn)定、接觸、釋放和重置。它通過分析末端執(zhí)行器姿態(tài)、抓取器開口信號和力-扭矩測量的序列來實現這一點。比如,當抓取器從開始慢慢閉合,并且力傳感器檢測到接觸力時,系統(tǒng)就知道機器人正在執(zhí)行"接觸"階段。

接下來,Robo2VLM設計了一系列視覺問題原型,每個原型都與特定的操作任務完成所需的機器人能力相對應,并錨定到不同的操作階段。這些問題原型分為三類:空間推理、目標條件推理和交互推理。

空間推理專注于機器人對物體幾何、可達性和跨視點空間布局的理解。比如"物體是否可以被機器人抓取?"或"抓取器和物體之間的相對方向是什么?"這類問題通常出現在早期的接近和穩(wěn)定階段。

目標條件推理探測機器人對任務的高級理解,包括目標推斷、未來行動預測和整體任務成功。例如"任務是否失?。?、"機器人接下來會做什么?"和"機器人當前的動作階段是什么?"這類問題貫穿從接近到重置的多個操作階段。

交互推理關注物理交互動態(tài),如抓取穩(wěn)定性或機器人當前執(zhí)行器狀態(tài)。這些問題發(fā)生在穩(wěn)定、接觸和釋放階段,依賴于RGB、觸覺或抓取器開口信號。比如,"這是一個穩(wěn)定的抓取嗎?"可能依賴于接觸力讀數或推斷的物體位移。

**【數據集構建與特點】**

研究團隊將Robo2VLM應用于開放X-實體(Open X-Embodiment)數據集中的176k多樣化、真實世界的軌跡,生成了超過300萬個VQA樣本。Open X-Embodiment是一個主要的協作研究計劃,匯總了來自22個不同機器人實體、35個研究實驗室的機器人演示數據,包含超過100萬個軌跡,涵蓋500多種技能。

通過數據優(yōu)化范式(如自然語言處理中的域重加權和機器人策略學習),研究團隊精心策劃了Robo2VLM-1,這是一個大規(guī)模的野外VQA數據集,包含684,710個問題,涵蓋463個不同場景、3,396個機器人操作任務和149個操作技能。

Robo2VLM-1數據集的場景分布非常豐富,其中辦公室場景占33.6%,實驗室場景占25.3%,廚房場景占16.9%。任務類型也很多樣,包括常見的操作動作如抓?。?1.5%)、放置(20.6%)和移動(9.9%)。問題的平均長度為108.69個字符,每個問題平均有4.65個選項,選項的平均長度為14.22個字符。

**【實驗評估與結果分析】**

研究團隊從Robo2VLM-1中采樣了60k個VQA問題,分為50k訓練集和10k測試集,主要研究兩個問題:(1) Robo2VLM-1訓練集如何提高VLM的空間和交互推理能力?(2) Robo2VLM-1測試集在這些推理任務中有效評估VLM的能力程度?

他們對14種模型配置進行了評估,包括LLaVA、Llama 3.2和Qwen2/Qwen2.5-VL等開源模型,每個模型都在零樣本和思維鏈(Chain-of-Thought,CoT)提示設置下進行評估。

評估結果表明,在Robo2VLM-1測試集上,Qwen模型與同配置的其他VLM相比具有更高的整體準確率。Qwen 2.5 VL-72B在零樣本設置下獲得了37.76%的最高準確率,而Qwen 2.5 VL-32B在CoT設置下獲得了41.30%的整體準確率。Qwen模型在以物體為中心的類別中表現特別出色,如"物體狀態(tài)"(Object State),Qwen 2.5 VL-72B在這一類別中的準確率達到了85.00%(零樣本)和92.37%(CoT)。

有趣的是,零樣本準確率通常隨著模型規(guī)模的增加而提高——從30.63%(Qwen 7B)上升到37.76%(Qwen 72B)。然而,這一趨勢在CoT設置中并不成立,32B模型的表現優(yōu)于72B模型(41.30% vs. 39.52%)。這一觀察與Qwen2.5的官方技術報告一致,報告指出Qwen2.5-VL-32B的數學和問題解決能力通過強化學習得到了進一步增強。

對于模型微調實驗,研究團隊使用Robo2VLM-1訓練集對LLaVA 1.6進行了微調,并在Robo2VLM-1測試集上進行評估。他們將訓練數據樣本從10k增加到50k進行微調。隨著微調數據的增加,大多數VQA類別的性能都有顯著提升。"物體狀態(tài)"理解的準確率從29.34%提高到80.24%,"任務狀態(tài)-成功"的準確率也從47.65%提高到68.03%。其他類別也隨著更多數據而顯示出明顯的積極趨勢。

然而,在一些類別中,如"空間關系"和"任務狀態(tài)-目標",用有限數據(如10k)微調的表現不如未微調的基線。這可能是因為模型還沒有看到足夠多的特定任務示例來開始泛化,或者因為Robo2VLM-1中的問題格式與預訓練中看到的格式不同,需要適應時間。

研究團隊還進行了人類評估,覆蓋了表3中定義的所有11個類別。對于每個類別,要求人類評估者隨機回答來自Robo2VLM-1測試集的問題。他們使用平均成功率作為與三個模型(LLaVA 1.6-7B、LLaVA 1.6-7B-Finetuned和Qwen 2.5 VL-32B-CoT)在相同類別集上比較的參考。

結果顯示,Qwen 2.5 VL-32B-CoT在某些任務上接近人類準確率,例如在"物體狀態(tài)"類別中達到90.5%(相比人類的96.7%),在"交互階段"類別中達到71.35%(相比人類的80.0%)。但在更復雜的空間推理任務中,如"空間關系",人類達到60.0%的準確率,而最佳模型(經微調的LLaVa 1.6-7B)僅達到19.42%。這可能表明,即使從多個視角觀察,單目圖像可能缺乏準確確定空間關系所需的完整深度信息。

**【研究意義與未來展望】**

這項研究的意義在于首次提出了一種利用真實機器人感知數據來增強視覺語言模型的方法。通過Robo2VLM框架,研究者能夠從機器人的物理交互中提取出有價值的空間和交互知識,進而提升視覺語言模型的推理能力。

與現有方法相比,Robo2VLM減少了對手動注釋的需求,并實現了交互和物理屬性推理,這在以前的VQA基準測試中很少被探索,如抓取器狀態(tài)、抓取穩(wěn)定性、任務目標以及關注機器人和目標物體的空間信息。

未來的工作將專注于將Robo2VLM推廣到更廣泛的機器人實體,并生成更多樣化的數據集。研究團隊還計劃探索將在Robo2VLM-1上訓練的模型部署到現實世界機器人任務中的可能性。

盡管如此,研究團隊也承認Robo2VLM存在一定局限性。作為一個數據生成框架,它依賴于輸入遙操作軌跡的質量。如果原始軌跡校準錯誤,它會影響生成的VQA數據的質量?;蛘?,如果原始軌跡缺少實體傳感模態(tài),如NYU VINN(占176k軌跡的0.2%),則會限制Robo2VLM可以生成的問題數量。

總的來說,Robo2VLM為彌合視覺語言模型與物理世界之間的鴻溝邁出了重要一步,為未來的機器人智能和人工智能系統(tǒng)開辟了新的研究方向。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-