這項(xiàng)由華沙大學(xué)的帕維爾·布齊亞諾夫斯基(Pawel Budzianowski)領(lǐng)導(dǎo)的國(guó)際研究團(tuán)隊(duì)發(fā)表于2025年9月的機(jī)器人學(xué)習(xí)會(huì)議(CoRL 2025),論文編號(hào)為arXiv:2509.17321v2。研究團(tuán)隊(duì)還包括來自IDEAS研究所、Simple Automation公司和波茲南理工大學(xué)的多位專家。
機(jī)器人要學(xué)會(huì)干活,就像人類學(xué)習(xí)技能一樣,需要大量的"練習(xí)素材"。但問題來了:現(xiàn)在網(wǎng)上的機(jī)器人訓(xùn)練數(shù)據(jù)越來越多,就像一個(gè)巨大的圖書館,里面既有精品教材,也有錯(cuò)誤百出的垃圾讀物。如何快速找出那些真正有用的高質(zhì)量數(shù)據(jù),成為了機(jī)器人學(xué)習(xí)路上的一大難題。
研究團(tuán)隊(duì)開發(fā)了一個(gè)叫OpenGVL的智能"篩選器",它就像一位經(jīng)驗(yàn)豐富的導(dǎo)師,能夠通過觀看機(jī)器人執(zhí)行任務(wù)的視頻,判斷這個(gè)機(jī)器人是否真的在朝著目標(biāo)前進(jìn),還是在做無用功。更神奇的是,這個(gè)篩選器不需要專門為每種任務(wù)進(jìn)行訓(xùn)練,而是利用現(xiàn)有的視覺語言模型的"常識(shí)"來進(jìn)行判斷。
這項(xiàng)研究的核心創(chuàng)新在于,它首次系統(tǒng)性地評(píng)估了開源視覺語言模型在預(yù)測(cè)任務(wù)進(jìn)展方面的能力。研究發(fā)現(xiàn),雖然開源模型在文本處理上已經(jīng)相當(dāng)接近商業(yè)模型的水平,但在需要理解時(shí)間順序和空間關(guān)系的機(jī)器人任務(wù)上,開源模型的表現(xiàn)只能達(dá)到商業(yè)模型的60-70%。這個(gè)發(fā)現(xiàn)對(duì)于那些希望使用開源工具來處理機(jī)器人數(shù)據(jù)的研究者來說,具有重要的指導(dǎo)意義。
研究團(tuán)隊(duì)不僅創(chuàng)建了一個(gè)公開的測(cè)試平臺(tái),還通過分析Hugging Face平臺(tái)上超過13000個(gè)機(jī)器人數(shù)據(jù)集,展示了如何在實(shí)際應(yīng)用中使用OpenGVL來自動(dòng)識(shí)別和過濾低質(zhì)量數(shù)據(jù)。他們發(fā)現(xiàn)了三類常見的數(shù)據(jù)質(zhì)量問題:任務(wù)定義不清、標(biāo)注模糊和失敗樣本混入。這些發(fā)現(xiàn)為未來的大規(guī)模機(jī)器人數(shù)據(jù)收集和處理提供了寶貴經(jīng)驗(yàn)。
一、機(jī)器人學(xué)習(xí)的"數(shù)據(jù)荒"難題
當(dāng)我們談?wù)撊斯ぶ悄軙r(shí),經(jīng)常會(huì)聽到"數(shù)據(jù)就是新石油"這樣的說法。在機(jī)器人領(lǐng)域,這個(gè)比喻尤其貼切。機(jī)器人要學(xué)會(huì)抓取物品、打開門鎖或者組裝零件,就必須觀看大量的"示范視頻",就像小孩子通過模仿大人的動(dòng)作來學(xué)習(xí)走路和說話一樣。
然而,機(jī)器人面臨的學(xué)習(xí)環(huán)境比人類復(fù)雜得多。人類可以從日常生活中自然獲得各種學(xué)習(xí)經(jīng)驗(yàn),但機(jī)器人的訓(xùn)練數(shù)據(jù)需要專門收集和標(biāo)注。過去幾年里,雖然機(jī)器人硬件成本在不斷下降,各種開源機(jī)器人項(xiàng)目如雨后春筍般涌現(xiàn),但高質(zhì)量的訓(xùn)練數(shù)據(jù)卻依然稀缺。
這種數(shù)據(jù)稀缺性就像沙漠中的綠洲一樣珍貴。目前最大的機(jī)器人數(shù)據(jù)集,比如Agibot-World、OXE和Droid,雖然已經(jīng)包含了數(shù)百萬個(gè)操作片段,但相比于自然語言處理領(lǐng)域動(dòng)輒數(shù)萬億詞匯的訓(xùn)練數(shù)據(jù),機(jī)器人領(lǐng)域的數(shù)據(jù)量仍然顯得杯水車薪。更讓人頭疼的是,這些數(shù)據(jù)的質(zhì)量參差不齊,就像一個(gè)裝滿了各種書籍的圖書館,既有經(jīng)典教科書,也有錯(cuò)誤百出的盜版讀物。
隨著數(shù)據(jù)收集門檻的降低,越來越多的研究者開始分享自己收集的機(jī)器人數(shù)據(jù)。僅在Hugging Face這一個(gè)平臺(tái)上,就有超過260萬個(gè)機(jī)器人操作片段被公開分享。這種數(shù)據(jù)共享的熱潮本來是件好事,但也帶來了新的挑戰(zhàn):如何從海量數(shù)據(jù)中篩選出真正有用的高質(zhì)量?jī)?nèi)容?
傳統(tǒng)的數(shù)據(jù)篩選方法往往需要人工逐一檢查,這就像讓一個(gè)人去檢查整個(gè)圖書館中每本書的質(zhì)量一樣,既耗時(shí)又低效。而且,不同的機(jī)器人任務(wù)需要不同的評(píng)判標(biāo)準(zhǔn),一套標(biāo)準(zhǔn)很難適用于所有場(chǎng)景。正是在這樣的背景下,研究團(tuán)隊(duì)開始思考:能否開發(fā)一個(gè)通用的"智能篩選器",讓它自動(dòng)判斷哪些機(jī)器人數(shù)據(jù)值得保留,哪些應(yīng)該被淘汰?
二、視覺語言模型的"時(shí)間感"
要理解OpenGVL的工作原理,我們首先需要了解什么是"時(shí)間進(jìn)展預(yù)測(cè)"。這個(gè)概念聽起來很學(xué)術(shù),但其實(shí)可以用一個(gè)簡(jiǎn)單的比喻來解釋:就像看電影時(shí),我們能夠根據(jù)劇情的發(fā)展判斷故事進(jìn)行到了什么程度一樣,OpenGVL要做的就是讓機(jī)器學(xué)會(huì)判斷一個(gè)機(jī)器人任務(wù)完成了多少。
舉個(gè)具體例子:當(dāng)機(jī)器人要完成"打開一扇門"的任務(wù)時(shí),我們可以將整個(gè)過程分解為幾個(gè)階段。開始時(shí),機(jī)器人還沒有接觸到門把手,這時(shí)任務(wù)完成度是0%。當(dāng)機(jī)器人的手臂伸向門把手時(shí),完成度可能是25%。抓住門把手后,完成度提升到50%。轉(zhuǎn)動(dòng)門把手時(shí)是75%,最后門完全打開時(shí)達(dá)到100%。
OpenGVL的核心思路是利用現(xiàn)有的視覺語言模型來進(jìn)行這種時(shí)間進(jìn)展判斷。視覺語言模型就像一個(gè)既能看圖又能理解文字的"多才多藝的助手",它在大量圖片和文字配對(duì)數(shù)據(jù)上進(jìn)行過訓(xùn)練,因此具備了豐富的世界知識(shí)。當(dāng)給它展示一系列機(jī)器人操作的圖片時(shí),它能夠根據(jù)自己的"常識(shí)"來判斷任務(wù)的進(jìn)展情況。
這種方法的巧妙之處在于,它不需要為每種特定任務(wù)單獨(dú)訓(xùn)練模型。就像一個(gè)有經(jīng)驗(yàn)的導(dǎo)師能夠看懂各種不同的技能演示一樣,經(jīng)過充分訓(xùn)練的視覺語言模型能夠理解各種機(jī)器人任務(wù)的基本邏輯。當(dāng)它看到機(jī)器人在廚房里伸手去抓蘋果時(shí),即使從未專門學(xué)習(xí)過"抓蘋果"這個(gè)任務(wù),它也能根據(jù)常識(shí)推斷出機(jī)器人現(xiàn)在處于任務(wù)的哪個(gè)階段。
為了確保判斷的準(zhǔn)確性,研究團(tuán)隊(duì)采用了一個(gè)聰明的技巧:他們故意打亂視頻幀的順序,然后讓模型預(yù)測(cè)每一幀對(duì)應(yīng)的任務(wù)完成程度。如果模型真的理解了任務(wù)的本質(zhì),那么它給出的完成度數(shù)值應(yīng)該能夠反映真實(shí)的時(shí)間順序。這就像給學(xué)生一堆打亂的歷史照片,要求他們按照事件發(fā)生的先后順序排列一樣。能夠正確排序的學(xué)生顯然更好地掌握了歷史知識(shí)。
三、開源與商業(yè)模型的"能力鴻溝"
在評(píng)估不同視覺語言模型的表現(xiàn)時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:開源模型和商業(yè)模型之間存在著顯著的性能差距。這種差距就像業(yè)余選手和職業(yè)選手之間的水平差異一樣明顯。
研究團(tuán)隊(duì)測(cè)試了多個(gè)開源模型家族,包括Google的Gemma-3系列(4B、12B、27B參數(shù))、阿里的Qwen2.5-VL系列(3B、7B、32B參數(shù))等。同時(shí),他們也測(cè)試了GPT-4o、Gemini-2.5-Pro等頂級(jí)商業(yè)模型。結(jié)果顯示,即使是參數(shù)量最大的開源模型,在時(shí)間進(jìn)展預(yù)測(cè)任務(wù)上的表現(xiàn)也只能達(dá)到商業(yè)模型的60-70%。
這個(gè)發(fā)現(xiàn)特別有趣,因?yàn)樵诩兾谋咎幚砣蝿?wù)上,開源模型已經(jīng)能夠與商業(yè)模型平分秋色。但在需要深度理解視覺內(nèi)容和時(shí)間關(guān)系的機(jī)器人任務(wù)上,兩者的差距依然很大。這就像兩個(gè)學(xué)生,在背誦課文方面都很出色,但在理解復(fù)雜圖表和時(shí)間線方面,其中一個(gè)明顯更勝一籌。
研究團(tuán)隊(duì)還發(fā)現(xiàn),模型的規(guī)模確實(shí)重要。在同一個(gè)模型家族內(nèi),參數(shù)量更大的版本通常表現(xiàn)更好。比如Gemma-3-27B的表現(xiàn)就遠(yuǎn)超Gemma-3-4B,這符合我們對(duì)深度學(xué)習(xí)模型的一般認(rèn)知:更大的模型往往具備更強(qiáng)的理解能力。
有趣的是,一些專門針對(duì)推理能力進(jìn)行優(yōu)化的模型,比如GLM-4.1V-9B-Thinking和MiMo-VL-7B-RL-2508,雖然參數(shù)量不是最大的,但表現(xiàn)卻相當(dāng)不錯(cuò)。這些模型就像經(jīng)過特殊訓(xùn)練的專業(yè)選手,雖然"身材"不是最高大的,但技巧更加精湛。
四、實(shí)戰(zhàn)檢驗(yàn):從理論到應(yīng)用
為了驗(yàn)證OpenGVL在實(shí)際應(yīng)用中的效果,研究團(tuán)隊(duì)對(duì)Hugging Face平臺(tái)上的大量機(jī)器人數(shù)據(jù)集進(jìn)行了全面分析。他們就像食品安全檢查員一樣,逐一檢查這些數(shù)據(jù)集的"質(zhì)量標(biāo)簽"。
通過這種大規(guī)模分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了三類典型的數(shù)據(jù)質(zhì)量問題。第一類是任務(wù)定義不清晰。比如有個(gè)數(shù)據(jù)集的任務(wù)描述是"挖草并倒入卡車",聽起來很簡(jiǎn)單,但實(shí)際操作時(shí)卻發(fā)現(xiàn)問題重重:什么叫"挖夠了"?要挖多少草才算完成?怎樣的動(dòng)作才算"倒入"?這些模糊的定義讓機(jī)器很難判斷任務(wù)是否真的在朝著正確方向進(jìn)展。
第二類問題是標(biāo)注模糊。有些數(shù)據(jù)集的指令像"拿出試管放到另一個(gè)口袋里"這樣含糊不清,機(jī)器人可能有多種不同的完成方式,每種方式的進(jìn)展路徑都不相同。這就像給人一個(gè)模糊的地址去找地方,可能會(huì)走很多條不同的路線,很難確定哪條路是"正確的進(jìn)展方向"。
第三類問題是數(shù)據(jù)中混入了失敗樣本。研究團(tuán)隊(duì)在一個(gè)名為Rorschach4153/so101_60_new的數(shù)據(jù)集中發(fā)現(xiàn),150個(gè)操作片段中有一個(gè)(第93個(gè))明顯異常。這個(gè)異常樣本就像混在好蘋果里的爛蘋果,如果不及時(shí)發(fā)現(xiàn)和剔除,可能會(huì)影響整個(gè)數(shù)據(jù)集的質(zhì)量。
這些發(fā)現(xiàn)證明了OpenGVL作為數(shù)據(jù)質(zhì)量檢測(cè)工具的實(shí)用價(jià)值。它不僅能夠在大規(guī)模數(shù)據(jù)集層面發(fā)現(xiàn)系統(tǒng)性問題,還能夠精確定位到具體的問題樣本。這種能力對(duì)于構(gòu)建大規(guī)模、高質(zhì)量的機(jī)器人訓(xùn)練數(shù)據(jù)集至關(guān)重要。
五、隱藏任務(wù)的"壓力測(cè)試"
為了更全面地評(píng)估不同模型的能力,研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)特殊的"隱藏任務(wù)"。這些任務(wù)被特意保密,以防止模型在訓(xùn)練過程中"見過"相關(guān)數(shù)據(jù),確保評(píng)估結(jié)果的公正性。這就像考試時(shí)使用全新的題目,而不是讓學(xué)生做練習(xí)冊(cè)上的原題一樣。
這兩個(gè)隱藏任務(wù)都涉及精密的電子元件組裝,要求亞毫米級(jí)別的操作精度。其中一個(gè)任務(wù)由人類專家完成,另一個(gè)則使用兩個(gè)7自由度機(jī)械臂協(xié)同操作。這種高精度、多步驟的任務(wù)對(duì)模型的理解能力提出了極高要求,就像讓鋼琴初學(xué)者演奏高難度的協(xié)奏曲一樣具有挑戰(zhàn)性。
測(cè)試結(jié)果顯示,大多數(shù)模型在這些隱藏任務(wù)上的表現(xiàn)都相當(dāng)困難。在零樣本(沒有示例)的情況下,很多模型的預(yù)測(cè)準(zhǔn)確度接近隨機(jī)水平,這意味著它們基本上是在"瞎猜"。即使提供了兩個(gè)示例進(jìn)行參考,大部分模型的表現(xiàn)仍然不理想,只有少數(shù)幾個(gè)模型能夠達(dá)到中等水平的準(zhǔn)確度。
這個(gè)結(jié)果并不令人意外,因?yàn)檫@些隱藏任務(wù)確實(shí)非常具有挑戰(zhàn)性。但它們的存在為未來模型能力的評(píng)估提供了一個(gè)"高標(biāo)準(zhǔn)"的基準(zhǔn)。隨著視覺語言模型能力的不斷提升,我們可以期待看到更多模型能夠在這些困難任務(wù)上取得突破。
六、開放平臺(tái):讓評(píng)估變得更簡(jiǎn)單
認(rèn)識(shí)到標(biāo)準(zhǔn)化評(píng)估的重要性,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)開放的在線評(píng)估平臺(tái)。這個(gè)平臺(tái)就像一個(gè)公共的"健身房",任何研究者都可以帶著自己開發(fā)的模型來"鍛煉"和"比試"。
通過這個(gè)平臺(tái),研究者不僅可以測(cè)試自己模型的性能,還可以與其他模型進(jìn)行對(duì)比,了解自己在整個(gè)領(lǐng)域中的位置。平臺(tái)提供了友好的用戶界面,即使沒有深厚技術(shù)背景的用戶也能輕松使用。這種開放性促進(jìn)了整個(gè)研究社區(qū)的協(xié)作和進(jìn)步。
更重要的是,這個(gè)平臺(tái)還支持研究者貢獻(xiàn)新的評(píng)估數(shù)據(jù)集。隨著越來越多不同類型的機(jī)器人任務(wù)被加入到評(píng)估體系中,整個(gè)基準(zhǔn)測(cè)試將變得更加全面和具有代表性。這就像一個(gè)不斷擴(kuò)充的題庫,能夠更準(zhǔn)確地評(píng)估模型在各種真實(shí)場(chǎng)景下的表現(xiàn)。
七、數(shù)據(jù)質(zhì)量檢測(cè)的三大"殺手锏"
OpenGVL在數(shù)據(jù)質(zhì)量檢測(cè)方面展現(xiàn)出了三種獨(dú)特的能力,就像一位經(jīng)驗(yàn)豐富的質(zhì)檢員擁有的三雙"火眼金睛"。
第一雙眼睛專門識(shí)別任務(wù)定義問題。當(dāng)OpenGVL分析一個(gè)數(shù)據(jù)集時(shí),如果發(fā)現(xiàn)模型對(duì)任務(wù)進(jìn)展的預(yù)測(cè)結(jié)果混亂不堪,毫無規(guī)律可言,這通常意味著任務(wù)本身的定義就有問題。比如在分析那個(gè)"挖草倒卡車"的數(shù)據(jù)集時(shí),OpenGVL發(fā)現(xiàn)模型完全無法理解什么叫"進(jìn)展",因?yàn)檫B人類都很難明確定義這個(gè)任務(wù)的各個(gè)階段。
第二雙眼睛負(fù)責(zé)發(fā)現(xiàn)標(biāo)注模糊問題。當(dāng)數(shù)據(jù)集中的指令過于寬泛或模糊時(shí),不同的執(zhí)行路徑可能導(dǎo)致完全不同的進(jìn)展模式。OpenGVL能夠通過分析預(yù)測(cè)結(jié)果的一致性來識(shí)別這種問題。如果同樣的指令在不同視頻中呈現(xiàn)出完全不同的進(jìn)展模式,這通常表明指令本身存在歧義。
第三雙眼睛擅長(zhǎng)捕捉異常樣本。通過比較同一數(shù)據(jù)集中不同樣本的預(yù)測(cè)結(jié)果,OpenGVL能夠識(shí)別出那些明顯偏離正常模式的異常案例。這些異常案例可能是設(shè)備故障、操作失誤或者數(shù)據(jù)收集過程中的錯(cuò)誤,需要被及時(shí)發(fā)現(xiàn)和處理。
這三種檢測(cè)能力相互補(bǔ)充,構(gòu)成了一個(gè)完整的數(shù)據(jù)質(zhì)量保障體系。就像一個(gè)全方位的安全檢查系統(tǒng),確保進(jìn)入訓(xùn)練流程的數(shù)據(jù)都達(dá)到了基本的質(zhì)量標(biāo)準(zhǔn)。
八、開源模型的"成長(zhǎng)空間"
雖然研究結(jié)果顯示開源模型在時(shí)間進(jìn)展預(yù)測(cè)任務(wù)上還有很大改進(jìn)空間,但這并不意味著開源社區(qū)應(yīng)該放棄努力。相反,這個(gè)發(fā)現(xiàn)為開源模型的發(fā)展指明了具體的改進(jìn)方向。
研究團(tuán)隊(duì)觀察到,模型規(guī)模的增加確實(shí)能夠帶來性能提升,但這種提升存在邊際遞減效應(yīng)。簡(jiǎn)單地堆砌參數(shù)并不是解決問題的萬能鑰匙。更重要的是要在模型架構(gòu)、訓(xùn)練數(shù)據(jù)和訓(xùn)練方法上進(jìn)行創(chuàng)新。
一些專門針對(duì)推理能力進(jìn)行優(yōu)化的開源模型,比如GLM-4.1V-9B-Thinking,雖然參數(shù)量不是最大的,但在某些任務(wù)上的表現(xiàn)卻出人意料地好。這說明通過巧妙的設(shè)計(jì)和訓(xùn)練策略,開源模型完全有可能在特定領(lǐng)域達(dá)到甚至超越商業(yè)模型的水平。
此外,開源模型還有一個(gè)重要優(yōu)勢(shì):透明度和可定制性。研究者可以根據(jù)自己的特定需求對(duì)開源模型進(jìn)行微調(diào)和優(yōu)化,這是商業(yè)模型難以提供的靈活性。隨著更多優(yōu)秀的開源模型不斷涌現(xiàn),我們有理由相信這個(gè)性能差距會(huì)逐漸縮小。
九、未來展望:向大規(guī)模智能數(shù)據(jù)管理邁進(jìn)
OpenGVL的成功只是一個(gè)開始,它為機(jī)器人領(lǐng)域的大規(guī)模數(shù)據(jù)管理開辟了新的可能性。就像搜索引擎徹底改變了我們獲取信息的方式一樣,智能數(shù)據(jù)篩選工具可能會(huì)徹底改變機(jī)器人學(xué)習(xí)數(shù)據(jù)的收集和管理方式。
研究團(tuán)隊(duì)設(shè)想了這樣一個(gè)未來場(chǎng)景:當(dāng)研究者收集了新的機(jī)器人操作數(shù)據(jù)時(shí),不再需要人工逐一檢查質(zhì)量,而是可以直接使用類似OpenGVL的工具進(jìn)行自動(dòng)評(píng)估和篩選。高質(zhì)量的數(shù)據(jù)會(huì)被自動(dòng)標(biāo)記和保留,低質(zhì)量或有問題的數(shù)據(jù)則會(huì)被標(biāo)記出來進(jìn)行人工復(fù)查或直接剔除。
這種自動(dòng)化的數(shù)據(jù)管理方式不僅能夠提高效率,還能夠確保數(shù)據(jù)質(zhì)量的一致性。更重要的是,它將使小型研究團(tuán)隊(duì)也能夠處理大規(guī)模的數(shù)據(jù)集,從而加速整個(gè)領(lǐng)域的發(fā)展進(jìn)程。
當(dāng)然,要實(shí)現(xiàn)這個(gè)愿景還需要克服許多挑戰(zhàn)。比如如何處理更復(fù)雜的多模態(tài)數(shù)據(jù),如何適應(yīng)快速變化的機(jī)器人技術(shù),如何確保評(píng)估標(biāo)準(zhǔn)的公平性和普適性等。但OpenGVL已經(jīng)為我們展示了一條可行的道路。
說到底,OpenGVL這項(xiàng)研究就像給機(jī)器人數(shù)據(jù)處理領(lǐng)域點(diǎn)亮了一盞明燈。它不僅揭示了當(dāng)前開源視覺語言模型的能力邊界,更為未來的大規(guī)模智能數(shù)據(jù)管理指明了方向。
研究團(tuán)隊(duì)通過創(chuàng)建這個(gè)開放的評(píng)估基準(zhǔn),讓整個(gè)學(xué)術(shù)界都能夠客觀地評(píng)估和比較不同模型的能力。這種透明化的評(píng)估方式促進(jìn)了良性競(jìng)爭(zhēng),推動(dòng)了技術(shù)進(jìn)步。同時(shí),通過實(shí)際應(yīng)用案例的展示,他們證明了這項(xiàng)技術(shù)不僅僅是學(xué)術(shù)研究的產(chǎn)物,更是可以解決實(shí)際問題的實(shí)用工具。
對(duì)于普通人來說,這項(xiàng)研究的意義可能不會(huì)立即顯現(xiàn),但它的影響將是深遠(yuǎn)的。更高質(zhì)量的機(jī)器人訓(xùn)練數(shù)據(jù)意味著更智能、更可靠的機(jī)器人系統(tǒng)。無論是家庭服務(wù)機(jī)器人、工業(yè)生產(chǎn)機(jī)器人,還是醫(yī)療護(hù)理機(jī)器人,它們的表現(xiàn)都將受益于這種數(shù)據(jù)質(zhì)量的提升。
當(dāng)然,這項(xiàng)研究也提出了一些值得深思的問題。比如,在追求數(shù)據(jù)質(zhì)量的過程中,我們是否可能過度依賴自動(dòng)化工具而忽視了人類專家的判斷?如何確保這些評(píng)估工具本身不會(huì)引入偏見?這些問題需要整個(gè)研究社區(qū)的共同思考和解答。
研究團(tuán)隊(duì)在論文中坦誠地承認(rèn)了當(dāng)前方法的局限性,并提出了未來的改進(jìn)方向。這種科學(xué)嚴(yán)謹(jǐn)?shù)膽B(tài)度值得贊賞,也為后續(xù)研究者提供了寶貴的參考。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv:2509.17321v2查閱完整論文,或者訪問他們提供的開源代碼庫進(jìn)行實(shí)際體驗(yàn)。
從更宏觀的角度看,OpenGVL代表了人工智能領(lǐng)域向更加務(wù)實(shí)和應(yīng)用導(dǎo)向發(fā)展的趨勢(shì)。與那些追求炫酷演示效果的研究不同,這項(xiàng)工作專注于解決實(shí)際存在的問題,為整個(gè)領(lǐng)域的健康發(fā)展奠定基礎(chǔ)。這種"修路搭橋"式的研究雖然可能不會(huì)立即獲得媒體關(guān)注,但其長(zhǎng)遠(yuǎn)價(jià)值不可估量。
Q&A
Q1:OpenGVL是什么?它主要解決什么問題?
A:OpenGVL是華沙大學(xué)等機(jī)構(gòu)開發(fā)的機(jī)器人數(shù)據(jù)質(zhì)量評(píng)估工具,主要解決如何從海量機(jī)器人訓(xùn)練數(shù)據(jù)中自動(dòng)篩選出高質(zhì)量?jī)?nèi)容的問題。它就像一個(gè)智能篩選器,能夠判斷機(jī)器人是否真的在朝著任務(wù)目標(biāo)前進(jìn),幫助研究者自動(dòng)發(fā)現(xiàn)和剔除低質(zhì)量或有問題的訓(xùn)練數(shù)據(jù)。
Q2:開源視覺語言模型和商業(yè)模型在機(jī)器人任務(wù)上差距有多大?
A:研究發(fā)現(xiàn),即使是最大的開源視覺語言模型,在時(shí)間進(jìn)展預(yù)測(cè)任務(wù)上的表現(xiàn)也只能達(dá)到商業(yè)模型的60-70%。這個(gè)差距比在純文本任務(wù)上的差距更大,說明在需要理解視覺內(nèi)容和時(shí)間關(guān)系的復(fù)雜任務(wù)上,開源模型還有很大改進(jìn)空間。
Q3:普通研究者如何使用OpenGVL來改善自己的機(jī)器人數(shù)據(jù)質(zhì)量?
A:研究團(tuán)隊(duì)創(chuàng)建了一個(gè)開放的在線評(píng)估平臺(tái),任何研究者都可以上傳自己的機(jī)器人數(shù)據(jù)集進(jìn)行質(zhì)量檢測(cè)。平臺(tái)會(huì)自動(dòng)識(shí)別三類常見問題:任務(wù)定義不清、標(biāo)注模糊和異常樣本混入,并提供詳細(xì)的分析報(bào)告,幫助研究者改善數(shù)據(jù)質(zhì)量。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。