av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 LoHoVLA:一個統(tǒng)一長時序實體任務的視覺-語言-動作模型——復旦大學和上海交通大學聯(lián)合突破

LoHoVLA:一個統(tǒng)一長時序實體任務的視覺-語言-動作模型——復旦大學和上海交通大學聯(lián)合突破

2025-06-05 11:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 11:04 ? 科技行者

在人工智能與機器人領域,由復旦大學的楊一和王藝涵,上海交通大學的寇思琪,以及上??萍即髮W的孫佳軒,在上海交通大學鄧志杰教授的指導下,開發(fā)了一個名為"LoHoVLA"的創(chuàng)新模型。這項研究于2025年5月31日發(fā)表在arXiv預印本平臺(arXiv:2506.00411v1),為長時序機器人任務帶來了全新的解決方案。

想象一下,你在客廳里指揮一個機器人幫你整理桌子。你說:"請把桌子收拾干凈。"這對我們人類來說是個簡單的指令,但對機器人而言卻是一項復雜的長時序任務。它需要識別桌上的所有物品,理解它們應該放在哪里,并規(guī)劃一系列動作來完成任務。比如先把筆放進筆筒,再合上筆記本電腦,然后把書放到書架上,等等。這種需要多步驟才能完成的任務,在人工智能領域稱為"長時序任務"。

目前主流的解決方案有兩種:一種是視覺-語言-動作(VLA)模型,直接從視覺和語言輸入預測機器人動作;另一種是分層架構,使用一個高層規(guī)劃器來分解任務,再用低層控制器執(zhí)行具體動作。但這兩種方法各有缺陷:VLA模型在規(guī)劃能力上欠佳,而分層架構則常因模塊間協(xié)調不良導致效果不佳。

而LoHoVLA模型則采取了一種創(chuàng)新的統(tǒng)一方法,將高層任務規(guī)劃和低層動作控制整合在一個模型中。就像一個既能規(guī)劃旅行路線又能親自開車的司機,LoHoVLA能在同一個神經(jīng)網(wǎng)絡中既生成子任務描述(如"拿起橙色小方塊并放在橙色大方塊上"),又生成精確的機器人動作指令。

研究團隊還構建了一個名為"LoHoSet"的數(shù)據(jù)集,基于Ravens機器人模擬器,包含20個長時序任務,每個任務有1,000個專家示范,涵蓋視覺觀察、語言目標、子任務和機器人動作。實驗結果表明,LoHoVLA在Ravens模擬器的長時序任務上顯著優(yōu)于現(xiàn)有方法,展現(xiàn)出統(tǒng)一架構在實現(xiàn)可泛化的實體智能方面的巨大潛力。

接下來,讓我們深入了解這項研究的細節(jié),看看這種統(tǒng)一的視覺-語言-動作模型如何改變機器人完成復雜任務的方式。

一、長時序任務的挑戰(zhàn)

現(xiàn)實世界中的機器人面臨著各種長時序、組合性和動態(tài)變化的任務。與簡單的短時序任務不同,長時序任務涉及無法通過單一動作實現(xiàn)的高層目標。想象一下,如果你讓機器人"整理廚房",它需要做出一系列決策和動作:先把餐具放進洗碗機,再把食物放回冰箱,然后擦拭臺面等。這就像是完成一個復雜的樂高積木項目,需要按照特定順序完成多個步驟,而非簡單地拼接一兩塊積木。

完成這類任務需要兩種關鍵能力:高層任務規(guī)劃(將總體目標分解為原子任務)和低層動作控制(生成精確的機器人動作)。這就像一個廚師既需要規(guī)劃一道復雜菜肴的烹飪步驟,又需要精確控制每一步的操作細節(jié)。

目前的視覺語言動作(VLA)模型利用預訓練的視覺語言模型(VLM)作為骨干,在機器人演示數(shù)據(jù)上進行微調,以將視覺和語言輸入映射到可執(zhí)行的機器人動作。這些模型善于從觀察和指令中提取關鍵信息,但在長時序任務中的規(guī)劃和推理能力卻相對不足。就像一個只會按照食譜一步步操作但不理解整體烹飪邏輯的新手廚師,容易在面對復雜菜肴時迷失方向。

另一方面,針對長時序任務的研究通常采用分層架構,包括基于VLM的高層規(guī)劃器(來推理子任務指令)和基于VLA的低層控制器(將這些指令轉換為機器人動作)。這種模塊化結構雖然提供了靈活性,但經(jīng)常導致次優(yōu)協(xié)調和有限的泛化能力。就像餐廳中的主廚和幫廚之間溝通不暢,即使各自能力出色,整體效率也會大打折扣。

二、LoHoVLA:統(tǒng)一的視覺-語言-動作模型

為了解決這些挑戰(zhàn),研究團隊提出了LoHoVLA,一個用于長時序實體任務的統(tǒng)一視覺-語言-動作模型,將高層任務規(guī)劃和低層動作控制整合在一起。這就像訓練一個既能策劃旅行路線又能駕駛汽車的全能向導,能夠從宏觀到微觀無縫處理整個任務流程。

LoHoVLA的工作流程是這樣的:首先,它根據(jù)輸入觀察和指定的高層目標推斷出語言子任務,然后將這些推斷出的子任務作為上下文指導來預測行動。機器人執(zhí)行預測的動作與環(huán)境交互并修改環(huán)境。隨后捕獲新的觀察結果,用于推斷下一個子任務和后續(xù)動作。

舉個例子,假設高層目標是"將所有小塊疊在同色的大塊上,放在相同顏色的區(qū)域中"。LoHoVLA會先推斷出子任務,如"拿起小橙色塊并將其放在大橙色塊上"。然后,它會根據(jù)這個子任務和當前環(huán)境狀態(tài)生成具體的機器人動作參數(shù)。機器人執(zhí)行這些動作后,系統(tǒng)會捕獲新的環(huán)境狀態(tài),繼續(xù)推斷下一個子任務(如"拿起小藍色塊并將其放在大藍色塊上")以及相應的動作。

研究團隊以大型預訓練視覺語言模型作為LoHoVLA的骨干,利用其豐富的世界知識和推理能力。他們擴展了原始語言生成頭,使其能夠生成語言子任務和離散動作標記。這種共享骨干使模型能夠學習在規(guī)劃和控制之間可泛化的表示。

為了進一步增強魯棒性,研究團隊引入了一種分層閉環(huán)控制機制:如果子任務執(zhí)行失敗次數(shù)超過預定閾值,系統(tǒng)會重新規(guī)劃子任務;否則,它只會根據(jù)新的環(huán)境狀態(tài)更新動作。這就像導航系統(tǒng)遇到小障礙時會嘗試調整前進路線,只有在連續(xù)多次失敗后才會重新規(guī)劃整個路線。

三、LoHoSet:長時序實體任務的合成數(shù)據(jù)集

訓練LoHoVLA需要包含細粒度子任務和動作標注的長時序演示數(shù)據(jù),但這類數(shù)據(jù)在現(xiàn)實世界中很難大規(guī)模獲取。因此,研究團隊合成了LoHoSet數(shù)據(jù)集來訓練LoHoVLA。

LoHoSet基于Ravens機器人模擬器開發(fā),包含20個長時序實體任務。每個任務包含1,000個專家演示,特征是視覺觀察、語言目標、子任務和機器人動作。這些任務包括三類物體:方塊、碗和區(qū)域,有11種不同的顏色。方塊有大小兩種尺寸。

模擬環(huán)境包括一個UR5e機器人手臂,配有吸盤抓手和放置在桌子上的幾個物體。環(huán)境只在預測動作既語義正確又成功執(zhí)行時提供獎勵信號。為模擬現(xiàn)實世界的不確定性,模擬器添加了觀察噪聲,并引入了抓取物體每秒掉落的概率。視覺觀察包括RGB和深度俯視圖重建。

任務的語言指令主要關注將物體重新排列成所需配置,例如"在綠色區(qū)域上以交替顏色堆疊方塊"。研究團隊基于手動設計的規(guī)則收集分解的子任務,利用模擬器提供的場景完整信息。每個物體都被分配一個文本標簽,插入到子任務模板中生成子任務描述,如"拿起綠色方塊并將其放在綠色區(qū)域中"。

最終的LoHoSet包括3個拾取和放置原始任務和20個長時序任務。其中10個長時序任務和所有3個原始任務來自LoHoRavens基準,以便與基線進行比較。另外10個長時序任務是研究團隊設計的,用于提高訓練模型的泛化能力。

四、模型架構與訓練策略

LoHoVLA使用大型預訓練視覺語言模型作為骨干,生成下一個標記,通過專門的解標記器將其轉換為語言子任務和動作。為解決高層規(guī)劃和低層控制中的錯誤,它結合了分層閉環(huán)控制機制。

具體來說,研究團隊選擇PaliGemma作為模型骨干,這是一個多模態(tài)基礎模型,處理圖像和文本提示以生成文本。它集成了基于SigLIP的圖像編碼器、Gemma-2B解碼器型語言模型,以及將視覺特征映射到語言模型標記空間的線性投影層。

對于機器人動作,研究團隊將其表示為離散標記,以便與視覺-語言數(shù)據(jù)集聯(lián)合訓練。具體而言,他們將歸一化的動作值離散化為1,024個均勻區(qū)間。在推理過程中,通過解標記和反歸一化恢復機器人動作。

與原子任務的閉環(huán)控制相比,管理長時序任務更加復雜。執(zhí)行失敗可能來自子任務規(guī)劃錯誤、不準確的動作預測或外部干擾。LoHoVLA采用分層閉環(huán)控制策略,比重新規(guī)劃子任務更頻繁地重新預測動作。具體來說,如果當前子任務失敗次數(shù)超過預定閾值K,系統(tǒng)會觸發(fā)子任務重新規(guī)劃;否則,它只會重新預測動作。

在訓練LoHoVLA時,研究團隊優(yōu)化語言模型骨干,同時保持圖像編碼器和線性投影層固定。訓練目標包括兩個組件:子任務生成和動作預測,兩者都由語言模型頭產(chǎn)生并使用交叉熵損失優(yōu)化。

研究團隊采用兩階段訓練策略。在第一階段,他們在長時序任務上微調PaliGemma,僅優(yōu)化文本損失以改進高層任務規(guī)劃。在第二階段,他們用拾取和放置原始任務增強數(shù)據(jù)集,同時優(yōu)化文本和動作損失以增強動作預測能力。

五、實驗結果與分析

研究團隊評估了LoHoVLA在高層任務規(guī)劃、低層動作控制以及對訓練期間未見任務的泛化能力方面的表現(xiàn)。實驗結果顯示,LoHoVLA在幾乎所有任務上都達到了最高的平均分數(shù)和成功率。

在"將方塊放入匹配碗中"任務上,LoHoVLA達到了接近完美的準確率。在最具挑戰(zhàn)性的推理任務"將偶數(shù)方塊放入同色區(qū)域"上,這個任務需要整合顏色識別、計數(shù)、空間推理和邏輯,LoHoVLA獲得了85.1的分數(shù)和81.0的成功率,而所有基線表現(xiàn)都很差。值得注意的是,盡管沒有接觸過這些任務,LoHoVLA在未見任務上表現(xiàn)出強大的泛化能力,始終優(yōu)于所有基線。

有趣的是,LoHoVLA在長時序任務上的表現(xiàn)有時比在拾取和放置原始任務上更好。這主要是由于評估標準的差異:區(qū)域匹配任務(如涉及碗或彩色區(qū)域的任務)允許輕微的空間不準確性,而LoHoVLA能有效處理這些任務。相比之下,姿態(tài)匹配任務(如方塊堆疊)需要精確對齊,而偶爾次優(yōu)的運動軌跡可能會稍微降低性能。盡管如此,LoHoVLA在兩種任務類型上都保持穩(wěn)健。

普通VLA模型在所有模型中表現(xiàn)最差,在幾項任務上成功率為零。研究團隊的定性分析揭示,這主要是由于缺乏子任務監(jiān)督,導致模型過度擬合訓練數(shù)據(jù)中的頻繁模式。例如,在"將方塊放入匹配碗中"任務中,它經(jīng)常將方塊放入錯誤的碗中,無視目標條件。

為了評估專門閉環(huán)控制機制在解決任務執(zhí)行失敗方面的有效性,研究團隊比較了三種控制策略: 1. 策略(a):失敗時,系統(tǒng)僅重新預測動作,不重新規(guī)劃子任務。 2. 策略(b):系統(tǒng)在每次失敗后重新規(guī)劃子任務,然后重新預測動作。 3. 策略(c):分層閉環(huán)控制策略:如果當前子任務內的失敗次數(shù)超過預定閾值K,系統(tǒng)啟動子任務重新規(guī)劃;否則,它只重新預測動作。

如預期的那樣,策略(a)表現(xiàn)最差。當失敗源于錯誤的子任務規(guī)劃時,這種方法繼續(xù)執(zhí)行有缺陷的計劃,可能導致死鎖。策略(b)和(c)在整體指標上表現(xiàn)相當;然而,策略(c)需要更少的高層子任務規(guī)劃步驟。這是因為許多失敗源于低層預測錯誤或外部干擾,此時重新規(guī)劃子任務是不必要的。

研究團隊還研究了訓練集擴展和兩階段訓練方法對模型性能的影響。結果表明,沒有額外數(shù)據(jù)訓練的模型泛化能力較差,由于對已見任務的嚴重過擬合。例如,"將方塊放入不匹配碗中"任務的成功率為0,因為其場景與"將方塊放入匹配碗中"相似,導致模型過擬合后者而忽視語言目標,將方塊放入匹配顏色的碗中。擴展的數(shù)據(jù)集緩解了這種過擬合問題。

一階段訓練設置產(chǎn)生了較低的子任務規(guī)劃成功率,進而導致任務成功率降低。這表明過早引入動作標簽和原始任務會阻礙高層任務規(guī)劃的有效優(yōu)化。

六、總結與未來展望

對于需要高層規(guī)劃和低層控制的長時序實體任務,現(xiàn)有的VLA模型和分層方法在規(guī)劃和協(xié)調方面存在困難。為解決這個問題,研究團隊提出了LoHoVLA,一個統(tǒng)一的VLA框架,利用大型預訓練視覺語言模型聯(lián)合生成子任務和機器人動作。它結合了分層閉環(huán)控制機制,在兩個層面糾正錯誤。實驗結果表明,LoHoVLA通過可觀的優(yōu)勢優(yōu)于先前的VLA和分層方法,并展示出強大的泛化能力。

研究的局限性主要來源于機器人動作由于其離散結構而精度有限。此外,假設子任務可以在單個時間步內完成可能在實時應用中不切實際。未來的研究方向可能包括提高動作表示的精度,以及開發(fā)能夠處理跨越多個時間步的子任務的框架。

歸根結底,LoHoVLA展示了統(tǒng)一架構在推進可泛化的實體智能方面的巨大潛力,為未來的機器人系統(tǒng)在復雜任務中的表現(xiàn)提供了新的可能性。就像一個既能規(guī)劃又能執(zhí)行的全能助手,這種統(tǒng)一模型可能是未來機器人系統(tǒng)處理復雜、長時序任務的關鍵。

如果您對這項研究感興趣,可以通過arXiv平臺(arXiv:2506.00411v1)查閱原論文,深入了解技術細節(jié)和實驗結果。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-