av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 SmolVLA:為低成本高效機(jī)器人打造的視覺-語言-動(dòng)作模型

SmolVLA:為低成本高效機(jī)器人打造的視覺-語言-動(dòng)作模型

2025-06-06 09:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 09:17 ? 科技行者

在機(jī)器人技術(shù)領(lǐng)域,一個(gè)重大挑戰(zhàn)一直是讓機(jī)器人能夠自然地理解語言指令并在真實(shí)世界中執(zhí)行對應(yīng)動(dòng)作。2025年6月,由Hugging Face、巴黎索邦大學(xué)、法國Valeo公司和巴黎高等師范學(xué)院研究人員共同合作的團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性研究——SmolVLA。這項(xiàng)研究由Mustafa Shukor、Dana Aubakirova和Francesco Capuano領(lǐng)銜,發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2506.01844v1)。

為什么我們需要更小、更高效的機(jī)器人模型?

想象一下,你有一臺(tái)家用機(jī)器人,你希望它能理解"把紅色積木放進(jìn)盒子里"這樣的簡單指令。聽起來不難,對吧?但實(shí)際上,讓機(jī)器人理解人類語言并執(zhí)行相應(yīng)動(dòng)作,一直是人工智能領(lǐng)域的一大挑戰(zhàn)。

近年來,視覺-語言模型(VLM)在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集上預(yù)訓(xùn)練后,已經(jīng)能夠很好地理解圖像和文本。研究人員開始將這些模型應(yīng)用到機(jī)器人領(lǐng)域,發(fā)展出所謂的視覺-語言-動(dòng)作(VLA)模型,讓機(jī)器人可以根據(jù)自然語言指令和視覺觀察來執(zhí)行任務(wù)。

然而,現(xiàn)有的VLA模型通常體積龐大——參數(shù)量往往達(dá)到數(shù)十億級別,這導(dǎo)致訓(xùn)練成本高昂,且難以部署到實(shí)際應(yīng)用中。此外,這些模型大多依賴學(xué)術(shù)和工業(yè)數(shù)據(jù)集,忽視了來自普通愛好者社區(qū)收集的數(shù)據(jù)資源。

SmolVLA團(tuán)隊(duì)看到了這一痛點(diǎn),他們提出了一個(gè)全新問題:能否創(chuàng)建一個(gè)小型、高效且能力強(qiáng)大的VLA模型,使其能夠在消費(fèi)級硬件上運(yùn)行,同時(shí)保持良好的性能?

SmolVLA:小身材,大能量

SmolVLA就像是VLA模型世界中的"迷你庫珀"——體積小巧但性能強(qiáng)勁。這個(gè)模型僅有4.5億參數(shù),比現(xiàn)有的主流VLA模型小了約10倍,卻能達(dá)到與它們相當(dāng)甚至更好的性能。更令人驚訝的是,SmolVLA可以在單個(gè)GPU上訓(xùn)練,甚至能在CPU上運(yùn)行,這對于資源有限的研究人員和愛好者來說是個(gè)巨大福音。

SmolVLA的核心理念是:通過巧妙的架構(gòu)設(shè)計(jì)和訓(xùn)練策略,證明小型模型也能在機(jī)器人控制任務(wù)中表現(xiàn)出色。這就像是一位廚師不需要一整套昂貴的廚具也能烹飪出美味佳肴,關(guān)鍵在于技巧而非工具。

社區(qū)數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方式

傳統(tǒng)的機(jī)器人學(xué)習(xí)通常依賴于高度結(jié)構(gòu)化的學(xué)術(shù)或工業(yè)環(huán)境中收集的數(shù)據(jù)。SmolVLA團(tuán)隊(duì)則另辟蹊徑,他們利用來自Hugging Face社區(qū)的481個(gè)數(shù)據(jù)集,包含約2.3萬個(gè)機(jī)器人操作片段和1060萬幀圖像。

這些社區(qū)數(shù)據(jù)集就像是由全球各地的"業(yè)余偵探"提供的線索,它們反映了真實(shí)世界的復(fù)雜性:不同的機(jī)器人、不同的相機(jī)角度、不同的任務(wù),甚至包含噪聲和不完美的示范。這種多樣性恰恰成為了模型學(xué)習(xí)的寶貴資源。

研究團(tuán)隊(duì)還巧妙地解決了社區(qū)數(shù)據(jù)集帶來的標(biāo)準(zhǔn)化挑戰(zhàn)。例如,對于任務(wù)描述不清或缺失的數(shù)據(jù)集,他們使用現(xiàn)成的VLM模型(Qwen2.5-VL-3B-Instruct)自動(dòng)生成簡潔的任務(wù)描述。對于相機(jī)視角命名不一致的問題,他們手動(dòng)將每個(gè)相機(jī)映射到標(biāo)準(zhǔn)化的視圖類型,優(yōu)先考慮頂部、手腕和側(cè)面視角。

模型架構(gòu):精巧的"折紙藝術(shù)"

SmolVLA的架構(gòu)設(shè)計(jì)堪比精妙的折紙藝術(shù),在保持小體積的同時(shí)實(shí)現(xiàn)強(qiáng)大功能。整個(gè)模型由兩個(gè)主要部分組成:

首先是預(yù)訓(xùn)練的視覺-語言模型(VLM)。團(tuán)隊(duì)選擇了SmolVLM-2,這是一個(gè)專為多圖像和視頻輸入優(yōu)化的小型高效模型。SmolVLM-2使用SigLIP編碼視覺特征,并將這些特征輸入到SmolLM2語言解碼器中。在SmolVLA中,VLM負(fù)責(zé)處理圖像序列、語言指令和機(jī)器人的狀態(tài)信息,并將它們?nèi)诤铣商卣鞅硎尽?/p>

第二部分是動(dòng)作專家(Action Expert)。這個(gè)組件接收VLM的特征輸出,并預(yù)測一系列連續(xù)動(dòng)作。動(dòng)作專家使用交錯(cuò)的交叉注意力(Cross-Attention)和自注意力(Self-Attention)層,通過流匹配(Flow Matching)技術(shù)訓(xùn)練,可以輸出連續(xù)動(dòng)作塊。

研究團(tuán)隊(duì)還引入了幾個(gè)關(guān)鍵創(chuàng)新來提高效率:

1. 視覺令牌減少:通過限制每幀圖像的視覺令牌數(shù)量為64個(gè),大大提高了處理速度。

2. 層跳躍加速推理:研究發(fā)現(xiàn),不需要使用VLM的所有層。他們設(shè)置N=L/2(使用總層數(shù)的一半),有效地將計(jì)算成本減半,同時(shí)保持良好性能。

3. 交錯(cuò)注意力層:不同于之前的VLA架構(gòu)僅使用自注意力或交叉注意力,SmolVLA交替使用這兩種機(jī)制,獲得更好的效果并加快推理速度。

異步推理:讓機(jī)器人更靈活應(yīng)對變化

在傳統(tǒng)的機(jī)器人控制中,模型輸出一系列動(dòng)作后,機(jī)器人會(huì)執(zhí)行完所有動(dòng)作才獲取新的觀察并預(yù)測下一組動(dòng)作。這種同步推理方式在動(dòng)作執(zhí)行與動(dòng)作預(yù)測之間造成了"空檔期",降低了系統(tǒng)響應(yīng)性。

SmolVLA團(tuán)隊(duì)提出了一種異步推理策略,就像是讓機(jī)器人的"手"和"眼"能夠獨(dú)立工作。在這種策略下,機(jī)器人可以一邊執(zhí)行當(dāng)前動(dòng)作,一邊已經(jīng)開始處理新的觀察并預(yù)測下一組動(dòng)作,從而消除推理延遲,提高控制頻率。

具體來說,當(dāng)動(dòng)作隊(duì)列消耗到一定閾值(比如剩余30%)時(shí),系統(tǒng)就會(huì)捕獲新的觀察并發(fā)送給策略服務(wù)器進(jìn)行處理,而不必等待當(dāng)前隊(duì)列完全耗盡。這就像是開車時(shí),你不會(huì)等到油箱完全空了才去加油,而是在還有一定油量時(shí)就開始計(jì)劃加油。

實(shí)驗(yàn)證明,異步推理使機(jī)器人完成任務(wù)的速度提高了約30%,在固定時(shí)間內(nèi)可以完成更多任務(wù)(19次對比同步模式的9次)。更重要的是,這種方式使機(jī)器人對環(huán)境變化的反應(yīng)更快、更穩(wěn)健。

實(shí)驗(yàn)結(jié)果:小模型,大驚喜

SmolVLA在各種基準(zhǔn)測試中的表現(xiàn)令人印象深刻。在LIBERO和Meta-World這兩個(gè)模擬環(huán)境基準(zhǔn)測試中,SmolVLA不僅超過了其他同類開源模型,如Octo和OpenVLA,還與經(jīng)過機(jī)器人數(shù)據(jù)預(yù)訓(xùn)練的更大型模型(如π0)表現(xiàn)相當(dāng)。

在真實(shí)世界的測試中,SmolVLA在多個(gè)任務(wù)上的表現(xiàn)同樣出色:

1. 抓取與放置任務(wù):機(jī)器人需要抓起立方體并放入盒子中。SmolVLA在這項(xiàng)任務(wù)上達(dá)到75%的成功率。

2. 堆疊任務(wù):機(jī)器人需要將紅色立方體放在藍(lán)色立方體上。SmolVLA在這項(xiàng)任務(wù)上達(dá)到90%的成功率。

3. 分類任務(wù):機(jī)器人需要根據(jù)顏色將立方體分類到不同的盒子中。SmolVLA在這項(xiàng)任務(wù)上達(dá)到70%的成功率。

與訓(xùn)練單個(gè)任務(wù)的ACT模型(成功率48.3%)和更大的π0模型(成功率61.7%)相比,SmolVLA在多任務(wù)訓(xùn)練設(shè)置下的平均成功率達(dá)到了78.3%。

更令人驚訝的是,SmolVLA還展示了出色的泛化能力。在沒有見過的SO101機(jī)器人上,經(jīng)過單任務(wù)訓(xùn)練的SmolVLA在分布內(nèi)測試中達(dá)到90%的成功率,在分布外測試中達(dá)到50%的成功率,明顯優(yōu)于基線模型ACT。

關(guān)鍵發(fā)現(xiàn)與設(shè)計(jì)選擇

研究團(tuán)隊(duì)進(jìn)行了廣泛的消融實(shí)驗(yàn),揭示了幾個(gè)關(guān)鍵設(shè)計(jì)選擇的重要性:

1. 交錯(cuò)的交叉注意力和自注意力機(jī)制比單獨(dú)使用其中任一種都更有效,在LIBERO基準(zhǔn)測試中平均成功率達(dá)到85.5%,而純交叉注意力為79.0%,純自注意力為74.5%。

2. 在動(dòng)作令牌之間使用因果自注意力(只能看到過去的令牌)比雙向自注意力效果更好,這表明防止未來動(dòng)作泄露對性能很重要。

3. 使用VLM的前半部分層而非所有層能夠在保持性能的同時(shí)顯著提高效率。

4. 流匹配訓(xùn)練目標(biāo)比傳統(tǒng)的回歸目標(biāo)效果更好,這與之前研究一致,表明流匹配為建模復(fù)雜的多模態(tài)動(dòng)作分布提供了更好的歸納偏置。

5. 將機(jī)器人狀態(tài)信息輸入到VLM而非直接輸入到動(dòng)作專家,可以顯著提高性能。

未來方向與局限性

盡管取得了顯著成果,SmolVLA仍存在一些局限性。研究團(tuán)隊(duì)坦誠地指出了這些問題:

1. 數(shù)據(jù)集多樣性和跨實(shí)施訓(xùn)練:當(dāng)前預(yù)訓(xùn)練主要使用來自單一機(jī)器人類型(SO100)的數(shù)據(jù)集。雖然模型可以微調(diào)到不同的機(jī)器人上,但研究團(tuán)隊(duì)認(rèn)為,納入更多不同機(jī)器人平臺(tái)的訓(xùn)練數(shù)據(jù)可能對提高模型泛化能力至關(guān)重要。

2. 數(shù)據(jù)集規(guī)模:用于訓(xùn)練的數(shù)據(jù)集包含約2.3萬個(gè)軌跡,明顯小于典型VLA訓(xùn)練方案中使用的數(shù)據(jù)量。擴(kuò)大數(shù)據(jù)集規(guī)??赡軙?huì)顯著提高模型在更廣泛任務(wù)和環(huán)境中的性能。

3. VLM主干網(wǎng)絡(luò)的選擇:SmolVLA使用的是主要在文檔閱讀和OCR任務(wù)上預(yù)訓(xùn)練的現(xiàn)成VLM。未來工作可以探索更專門化的預(yù)訓(xùn)練策略,以更好地適應(yīng)機(jī)器人環(huán)境的特殊需求。

4. 任務(wù)復(fù)雜性和長期規(guī)劃:雖然SmolVLA在相對簡單的短期任務(wù)上表現(xiàn)良好,但擴(kuò)展到處理更復(fù)雜的長期問題仍是一個(gè)重要挑戰(zhàn)。整合分層策略或多級規(guī)劃機(jī)制可能有助于解決這一問題。

結(jié)語:小型模型的大未來

SmolVLA的研究表明,在人工智能和機(jī)器人領(lǐng)域,"更大"并不總是意味著"更好"。通過精心的架構(gòu)設(shè)計(jì)、訓(xùn)練策略和推理優(yōu)化,小型模型也能達(dá)到甚至超越大型模型的性能。

這項(xiàng)工作為機(jī)器人研究的民主化和普及化鋪平了道路?,F(xiàn)在,即使是資源有限的研究人員、教育工作者和愛好者,也可以在普通硬件上訓(xùn)練和部署先進(jìn)的機(jī)器人控制模型。SmolVLA的成功證明,機(jī)器人技術(shù)不必依賴于昂貴的硬件和大規(guī)模數(shù)據(jù)集,而可以通過社區(qū)努力和巧妙的技術(shù)設(shè)計(jì)來實(shí)現(xiàn)。

研究團(tuán)隊(duì)已經(jīng)開源了所有代碼、預(yù)訓(xùn)練模型和訓(xùn)練數(shù)據(jù),鼓勵(lì)更廣泛的社區(qū)參與和進(jìn)一步改進(jìn)。這種開放精神將有助于加速機(jī)器人研究的進(jìn)展,最終讓智能機(jī)器人成為我們?nèi)粘I畹囊徊糠帧?/p>

隨著SmolVLA這樣的工作不斷涌現(xiàn),我們有理由期待未來的機(jī)器人系統(tǒng)將變得更加智能、高效,同時(shí)也更加親民和易于獲取。正如這項(xiàng)研究所展示的那樣,有時(shí)候最強(qiáng)大的解決方案并非來自最復(fù)雜的模型,而是來自最巧妙的設(shè)計(jì)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-