這項(xiàng)由北京大學(xué)李穆遙、王子浩、何凱晨團(tuán)隊(duì)以及清華大學(xué)馬曉健研究員共同完成的突破性研究發(fā)表于2025年3月,論文題目為《JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse》。感興趣的讀者可以通過(guò)arXiv:2503.16365v1訪問(wèn)完整論文,項(xiàng)目頁(yè)面為https://craftjarvis.github.io/JarvisVLA。
想象一下,如果讓一個(gè)從未接觸過(guò)《我的世界》的人突然坐在電腦前開(kāi)始游戲,他們可能會(huì)手忙腳亂,不知道該如何挖掘、建造或者與游戲世界互動(dòng)。但如果這個(gè)人事先通過(guò)大量觀看游戲視頻、閱讀攻略指南,并且深入理解游戲世界的各種規(guī)則和物品屬性,那么他們上手游戲時(shí)就會(huì)表現(xiàn)得更加出色。北京大學(xué)的研究團(tuán)隊(duì)正是基于這樣的思路,開(kāi)發(fā)出了一個(gè)名為JARVIS-VLA的人工智能系統(tǒng),它不僅能夠理解《我的世界》這個(gè)復(fù)雜的開(kāi)放世界游戲,還能夠熟練地執(zhí)行超過(guò)1000種不同的游戲任務(wù)。
以往的游戲AI大多采用直接模仿人類玩家行為的方式進(jìn)行訓(xùn)練,就像讓一個(gè)學(xué)生直接照搬老師的每一個(gè)動(dòng)作,而不去理解動(dòng)作背后的原理。這種方法雖然能讓AI學(xué)會(huì)一些基本操作,但在面對(duì)新情況時(shí)往往顯得力不從心。研究團(tuán)隊(duì)意識(shí)到,真正優(yōu)秀的游戲AI應(yīng)該像人類玩家一樣,首先深入理解游戲世界的知識(shí)和規(guī)律,然后再學(xué)習(xí)具體的操作技巧。
這個(gè)研究的創(chuàng)新之處在于提出了一種全新的訓(xùn)練范式,叫做"視覺(jué)語(yǔ)言行為后訓(xùn)練"(ActVLP)。這個(gè)方法的核心思想是讓AI在學(xué)習(xí)游戲操作之前,先通過(guò)大量的視覺(jué)和語(yǔ)言材料來(lái)理解游戲世界。就像一個(gè)優(yōu)秀的廚師在制作復(fù)雜菜肴之前,不僅要熟練掌握刀工和火候,更重要的是要深入了解各種食材的特性、營(yíng)養(yǎng)搭配原理以及不同烹飪方法的適用場(chǎng)景。
一、從零開(kāi)始構(gòu)建游戲AI的"大腦"
要理解JARVIS-VLA的工作原理,我們可以把它想象成一個(gè)正在學(xué)習(xí)成為《我的世界》專家的學(xué)生。這個(gè)學(xué)生的"大腦"由幾個(gè)關(guān)鍵部分組成,每個(gè)部分都有著特定的功能。
首先是視覺(jué)處理系統(tǒng),就像人類的眼睛和視覺(jué)皮層一樣。當(dāng)游戲畫(huà)面出現(xiàn)在屏幕上時(shí),這個(gè)系統(tǒng)能夠識(shí)別畫(huà)面中的各種元素:哪里有樹(shù)木、哪里有石頭、玩家手中拿著什么工具、背包里有什么物品等等。這個(gè)系統(tǒng)采用了先進(jìn)的視覺(jué)變換器(Vision Transformer)技術(shù),能夠?qū)?fù)雜的游戲畫(huà)面分解成一個(gè)個(gè)小塊進(jìn)行分析,就像拼圖游戲中把整幅圖片分成許多小塊一樣,然后逐一識(shí)別每個(gè)小塊的內(nèi)容。
接下來(lái)是語(yǔ)言理解系統(tǒng),相當(dāng)于學(xué)生的語(yǔ)言能力和知識(shí)儲(chǔ)備。這個(gè)系統(tǒng)不僅能夠理解人類給出的游戲指令,比如"制作一把鉆石劍"或"找到并擊殺一只僵尸",還能理解游戲世界中各種物品之間的關(guān)系和制作配方。它就像一本活的游戲百科全書(shū),儲(chǔ)存著關(guān)于《我的世界》的所有知識(shí)。
最重要的是行為決策系統(tǒng),這是整個(gè)AI的"行動(dòng)大腦"。它需要綜合視覺(jué)信息和語(yǔ)言指令,然后決定應(yīng)該進(jìn)行什么樣的操作:是移動(dòng)鼠標(biāo)查看周圍環(huán)境,還是按下特定按鍵進(jìn)行挖掘,或者打開(kāi)背包整理物品。這個(gè)系統(tǒng)的特殊之處在于,它能夠?qū)Q策轉(zhuǎn)換成具體的鍵盤(pán)和鼠標(biāo)操作,就像人類玩家一樣通過(guò)標(biāo)準(zhǔn)的輸入設(shè)備控制游戲。
為了讓這些系統(tǒng)協(xié)調(diào)工作,研究團(tuán)隊(duì)采用了一種巧妙的方法。他們沒(méi)有重新設(shè)計(jì)全新的AI架構(gòu),而是在現(xiàn)有的大型視覺(jué)語(yǔ)言模型基礎(chǔ)上進(jìn)行改進(jìn)。這就像在一輛性能良好的汽車上安裝專業(yè)的導(dǎo)航系統(tǒng)和駕駛輔助設(shè)備,而不是從零開(kāi)始制造一輛全新的車。
特別值得注意的是,JARVIS-VLA采用了非馬爾可夫架構(gòu),這個(gè)聽(tīng)起來(lái)復(fù)雜的術(shù)語(yǔ)實(shí)際上描述了一個(gè)很直觀的概念。在《我的世界》這樣的游戲中,玩家往往需要記住之前發(fā)生的事情才能做出正確決策。比如,如果你剛才看到遠(yuǎn)處有一個(gè)村莊,現(xiàn)在雖然暫時(shí)看不到了,但你仍然記得它的位置。JARVIS-VLA通過(guò)保存歷史畫(huà)面的方式來(lái)模擬這種記憶能力,讓AI能夠基于過(guò)去的觀察做出更明智的決策。
二、三步走的訓(xùn)練策略:讓AI循序漸進(jìn)掌握游戲技能
JARVIS-VLA的訓(xùn)練過(guò)程可以比作培養(yǎng)一個(gè)《我的世界》專家的完整教育過(guò)程。傳統(tǒng)的AI訓(xùn)練方法就像讓一個(gè)完全不懂游戲的人直接觀看高手操作視頻,然后試圖模仿每一個(gè)動(dòng)作,這種方法效果往往不理想。研究團(tuán)隊(duì)采用了一種更加科學(xué)的三階段訓(xùn)練方法,就像讓學(xué)生從理論學(xué)習(xí)開(kāi)始,逐步過(guò)渡到實(shí)踐操作。
第一階段是世界知識(shí)學(xué)習(xí)階段。在這個(gè)階段,AI主要通過(guò)大量的文本資料學(xué)習(xí)《我的世界》的基礎(chǔ)知識(shí)。這些知識(shí)包括各種方塊的特性、工具的用途、怪物的行為模式、建筑的基本原理等等。這個(gè)過(guò)程就像讓學(xué)生先閱讀游戲說(shuō)明書(shū)、攻略指南和百科全書(shū),建立對(duì)游戲世界的基本認(rèn)知框架。研究團(tuán)隊(duì)收集了大約277000條知識(shí)問(wèn)答對(duì),涵蓋了從基礎(chǔ)的物品制作到復(fù)雜的建筑技巧等各個(gè)方面。
在這個(gè)階段,AI系統(tǒng)的視覺(jué)處理部分被暫時(shí)"凍結(jié)",只有語(yǔ)言理解部分在學(xué)習(xí)。這樣做的好處是讓AI能夠?qū)W⒂诶斫庥螒虻膬?nèi)在邏輯和規(guī)律,而不被復(fù)雜的視覺(jué)信息干擾。就像學(xué)習(xí)開(kāi)車時(shí),教練往往會(huì)先在教室里講解交通規(guī)則和駕駛理論,然后再讓學(xué)員實(shí)際上路練習(xí)。
第二階段是視覺(jué)語(yǔ)言結(jié)合學(xué)習(xí)階段。在掌握了基礎(chǔ)知識(shí)后,AI開(kāi)始學(xué)習(xí)如何將抽象的知識(shí)與具體的游戲畫(huà)面聯(lián)系起來(lái)。這個(gè)階段就像讓學(xué)生看著游戲截圖回答問(wèn)題:這個(gè)畫(huà)面中有什么物品?玩家應(yīng)該使用什么工具?如何找到特定的資源?
研究團(tuán)隊(duì)為這個(gè)階段準(zhǔn)備了三類訓(xùn)練數(shù)據(jù)。首先是圖像描述任務(wù),讓AI學(xué)會(huì)準(zhǔn)確描述游戲畫(huà)面中的內(nèi)容。比如,看到一個(gè)森林場(chǎng)景,AI需要能夠識(shí)別出"這里有橡樹(shù)、樺樹(shù),地面上散落著一些掉落的原木,遠(yuǎn)處可以看到山脈"這樣的詳細(xì)信息。其次是視覺(jué)問(wèn)答任務(wù),訓(xùn)練AI根據(jù)畫(huà)面回答具體問(wèn)題。最后是空間定位任務(wù),這是一個(gè)特別重要的能力,讓AI能夠準(zhǔn)確指出畫(huà)面中特定物品的位置。
空間定位能力對(duì)于游戲AI來(lái)說(shuō)至關(guān)重要。當(dāng)玩家說(shuō)"挖掘那塊鐵礦石"時(shí),AI必須能夠準(zhǔn)確識(shí)別鐵礦石在畫(huà)面中的位置,然后控制角色移動(dòng)到正確位置進(jìn)行挖掘。研究團(tuán)隊(duì)使用了先進(jìn)的目標(biāo)檢測(cè)技術(shù),讓AI能夠像人類一樣用"指點(diǎn)"的方式標(biāo)記物品位置。
第三階段是行為模仿學(xué)習(xí)階段。經(jīng)過(guò)前兩個(gè)階段的準(zhǔn)備,AI已經(jīng)具備了豐富的游戲知識(shí)和良好的視覺(jué)理解能力,現(xiàn)在需要學(xué)習(xí)如何將這些能力轉(zhuǎn)化為具體的游戲操作。這個(gè)階段就像駕校學(xué)員從理論學(xué)習(xí)和模擬練習(xí)轉(zhuǎn)向?qū)嶋H道路駕駛。
在這個(gè)階段,AI通過(guò)觀察大量的人類玩家游戲錄像來(lái)學(xué)習(xí)操作技巧。但與傳統(tǒng)方法不同的是,由于AI已經(jīng)具備了深厚的游戲知識(shí)背景,它能夠更好地理解每個(gè)操作背后的意圖和原理。就像一個(gè)已經(jīng)熟悉交通規(guī)則的學(xué)員在學(xué)習(xí)駕駛時(shí),能夠更快地理解為什么要在特定情況下采取特定操作。
研究團(tuán)隊(duì)收集了超過(guò)740萬(wàn)幀的游戲數(shù)據(jù),包括人類玩家的操作、YouTube游戲視頻,以及其他AI系統(tǒng)的游戲記錄。為了讓AI學(xué)會(huì)處理圖形用戶界面(GUI)操作,比如打開(kāi)背包、使用工作臺(tái)制作物品等,他們還專門(mén)生成了640萬(wàn)條專家級(jí)的操作數(shù)據(jù)。
三、海量數(shù)據(jù)支撐:構(gòu)建AI的知識(shí)庫(kù)和技能庫(kù)
JARVIS-VLA的成功很大程度上依賴于研究團(tuán)隊(duì)精心構(gòu)建的龐大數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像為AI準(zhǔn)備的一座圖書(shū)館,里面不僅有理論知識(shí),還有大量的實(shí)踐案例和操作示范。
世界知識(shí)數(shù)據(jù)集是這座圖書(shū)館的理論書(shū)籍部分。研究團(tuán)隊(duì)從維基百科和專業(yè)的《我的世界》網(wǎng)站收集了大量資料,然后使用GPT-3.5模型生成了超過(guò)20萬(wàn)條問(wèn)答對(duì)。這些問(wèn)答涵蓋了游戲的方方面面:從"制作面包需要什么材料"這樣的基礎(chǔ)問(wèn)題,到"如何建造高效的自動(dòng)化農(nóng)場(chǎng)"這樣的高級(jí)話題。
為了提高訓(xùn)練效率,研究團(tuán)隊(duì)采用了一種巧妙的數(shù)據(jù)組織方式。他們將原本獨(dú)立的問(wèn)答對(duì)重新組織成多輪對(duì)話的形式,就像模擬一個(gè)資深玩家在回答新手的連續(xù)提問(wèn)。這種方式不僅提高了數(shù)據(jù)的利用效率,還讓AI能夠?qū)W會(huì)進(jìn)行連貫的對(duì)話交流。
視覺(jué)語(yǔ)言對(duì)齊數(shù)據(jù)集相當(dāng)于圖書(shū)館中的圖文并茂的教科書(shū)。研究團(tuán)隊(duì)從各種來(lái)源收集了35000張高質(zhì)量的游戲截圖,然后使用GPT-4o、Claude 3.5 Sonnet等先進(jìn)的AI模型為這些圖片生成詳細(xì)的描述和問(wèn)答對(duì)。這個(gè)過(guò)程就像請(qǐng)多位專家為同一張圖片寫(xiě)解說(shuō)詞,然后綜合他們的意見(jiàn)得出最準(zhǔn)確的描述。
為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還建立了一套嚴(yán)格的驗(yàn)證流程。他們使用Llama-3.1-72B模型來(lái)檢查生成的問(wèn)答對(duì)是否準(zhǔn)確、是否與圖片內(nèi)容相符。這個(gè)過(guò)程就像出版社的編輯審查流程,確保最終的教材內(nèi)容準(zhǔn)確無(wú)誤。
空間定位數(shù)據(jù)集是最具挑戰(zhàn)性的部分,相當(dāng)于為AI準(zhǔn)備的"實(shí)操手冊(cè)"。對(duì)于3D游戲環(huán)境,研究團(tuán)隊(duì)使用了一種叫做"反向軌跡重標(biāo)記"的技術(shù)。這個(gè)技術(shù)的工作原理很有趣:當(dāng)AI看到一個(gè)玩家正在與某個(gè)物品互動(dòng)時(shí),系統(tǒng)會(huì)自動(dòng)回溯之前的游戲畫(huà)面,找出這個(gè)物品在不同時(shí)間點(diǎn)的位置,然后為這些位置打上標(biāo)記。
這就像制作一部電影的幕后花絮:雖然觀眾在最終畫(huà)面中看到演員在特定位置表演,但制作團(tuán)隊(duì)需要追溯拍攝過(guò)程,記錄演員是如何移動(dòng)到那個(gè)位置的。通過(guò)這種方法,研究團(tuán)隊(duì)為AI提供了大量的物品位置信息,讓它能夠準(zhǔn)確識(shí)別和定位游戲世界中的各種元素。
對(duì)于2D界面操作,比如在背包中整理物品或在工作臺(tái)上制作裝備,研究團(tuán)隊(duì)直接利用了《我的世界》游戲本身提供的界面信息。由于游戲中每個(gè)界面元素都有固定的位置,他們可以準(zhǔn)確地標(biāo)記出每個(gè)物品槽位的坐標(biāo)。這個(gè)過(guò)程就像為一個(gè)復(fù)雜的控制面板制作詳細(xì)的操作手冊(cè),標(biāo)明每個(gè)按鈕和顯示器的位置和功能。
通過(guò)這些努力,研究團(tuán)隊(duì)最終構(gòu)建了一個(gè)包含超過(guò)40萬(wàn)條空間定位數(shù)據(jù)的訓(xùn)練集,為AI提供了豐富的空間理解能力訓(xùn)練素材。
四、性能表現(xiàn):在多項(xiàng)測(cè)試中展現(xiàn)超強(qiáng)能力
為了評(píng)估JARVIS-VLA的實(shí)際表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的測(cè)試體系,就像為一個(gè)游戲高手準(zhǔn)備的綜合考試。這套測(cè)試不僅檢驗(yàn)AI的游戲操作能力,還考察它的理論知識(shí)和視覺(jué)理解能力。
在實(shí)際游戲任務(wù)測(cè)試中,JARVIS-VLA展現(xiàn)出了令人印象深刻的表現(xiàn)。研究團(tuán)隊(duì)使用了MCU基準(zhǔn)測(cè)試,這是一個(gè)專門(mén)為《我的世界》AI設(shè)計(jì)的評(píng)估標(biāo)準(zhǔn),包含四大類任務(wù):挖掘方塊、擊殺生物、制作物品和熔煉材料。每一類任務(wù)都包含多個(gè)具體的子任務(wù),難度從簡(jiǎn)單到困難不等。
在挖掘任務(wù)中,JARVIS-VLA需要識(shí)別目標(biāo)方塊并使用正確的工具進(jìn)行開(kāi)采。比如,挖掘鐵礦石需要使用石鎬或更好的工具,而挖掘黑曜石則必須使用鉆石鎬。AI不僅要識(shí)別這些方塊,還要知道使用什么工具,以及如何導(dǎo)航到正確位置。在這類任務(wù)中,JARVIS-VLA達(dá)到了95%的成功率,遠(yuǎn)超之前的最佳系統(tǒng)。
擊殺生物任務(wù)要求AI識(shí)別并攻擊特定的怪物或動(dòng)物。這類任務(wù)不僅考驗(yàn)AI的視覺(jué)識(shí)別能力,還需要它掌握戰(zhàn)斗技巧和移動(dòng)策略。JARVIS-VLA在這類任務(wù)中表現(xiàn)同樣出色,成功率達(dá)到了77%。特別值得注意的是,AI能夠區(qū)分不同類型的生物,并采用適當(dāng)?shù)墓舨呗浴?/p>
制作任務(wù)是最具挑戰(zhàn)性的測(cè)試之一,因?yàn)樗婕皬?fù)雜的圖形用戶界面操作。當(dāng)接到"制作鉆石劍"這樣的指令時(shí),AI需要打開(kāi)背包、找到工作臺(tái)、按照正確的配方放置材料,然后完成制作。這個(gè)過(guò)程需要精確的鼠標(biāo)控制和對(duì)界面布局的深度理解。JARVIS-VLA在制作任務(wù)中的成功率達(dá)到了70%,相比之下,傳統(tǒng)的AI系統(tǒng)在這類任務(wù)中往往表現(xiàn)很差。
熔煉任務(wù)同樣需要復(fù)雜的界面操作,AI需要使用熔爐將原材料轉(zhuǎn)化為有用的物品。JARVIS-VLA在這類任務(wù)中也表現(xiàn)出了顯著的優(yōu)勢(shì),成功率同樣達(dá)到了70%。
更重要的是,當(dāng)研究團(tuán)隊(duì)將JARVIS-VLA與僅通過(guò)模仿學(xué)習(xí)訓(xùn)練的系統(tǒng)進(jìn)行比較時(shí),發(fā)現(xiàn)了一個(gè)驚人的結(jié)果:JARVIS-VLA僅使用了21%的訓(xùn)練數(shù)據(jù),但性能卻提升了15%以上。這就像一個(gè)學(xué)生通過(guò)更有效的學(xué)習(xí)方法,用更少的時(shí)間取得了更好的成績(jī)。
在理論知識(shí)測(cè)試中,JARVIS-VLA同樣表現(xiàn)出色。研究團(tuán)隊(duì)設(shè)計(jì)了47個(gè)涵蓋游戲各個(gè)方面的知識(shí)問(wèn)題,從基礎(chǔ)的物品制作到復(fù)雜的游戲機(jī)制。JARVIS-VLA在這個(gè)測(cè)試中獲得了70.7%的正確率,雖然仍然落后于GPT-4o的96.6%,但已經(jīng)大幅超越了其他同類系統(tǒng)。
視覺(jué)理解測(cè)試評(píng)估AI對(duì)游戲畫(huà)面的理解能力,包括場(chǎng)景識(shí)別、物品檢測(cè)、界面讀取等多個(gè)方面。在這個(gè)測(cè)試中,JARVIS-VLA達(dá)到了76.7%的準(zhǔn)確率,與最先進(jìn)的GPT-4o持平。這個(gè)結(jié)果特別有意義,因?yàn)樗砻鰽I不僅能夠執(zhí)行游戲操作,還能像人類一樣理解游戲世界。
空間定位測(cè)試是最直觀的能力展示。當(dāng)要求AI指出畫(huà)面中特定物品的位置時(shí),JARVIS-VLA能夠以88%的準(zhǔn)確率完成任務(wù)。這種能力對(duì)于游戲AI來(lái)說(shuō)至關(guān)重要,因?yàn)闇?zhǔn)確的空間理解是執(zhí)行所有游戲操作的基礎(chǔ)。
五、創(chuàng)新突破:多重驗(yàn)證證實(shí)方法的有效性
為了證明他們的方法確實(shí)有效,研究團(tuán)隊(duì)進(jìn)行了一系列精心設(shè)計(jì)的對(duì)比實(shí)驗(yàn),就像科學(xué)家在實(shí)驗(yàn)室中控制變量來(lái)驗(yàn)證假設(shè)一樣。
首先,他們驗(yàn)證了視覺(jué)語(yǔ)言后訓(xùn)練的必要性。研究團(tuán)隊(duì)創(chuàng)建了幾個(gè)不同版本的AI系統(tǒng):一個(gè)是直接在原始模型基礎(chǔ)上進(jìn)行游戲訓(xùn)練的版本,另一個(gè)是先進(jìn)行大規(guī)模模仿學(xué)習(xí)然后再訓(xùn)練的版本,還有就是采用他們提出的ActVLP方法訓(xùn)練的版本。結(jié)果顯示,ActVLP方法訓(xùn)練出的AI在各項(xiàng)任務(wù)中都顯著優(yōu)于其他方法。
更有趣的是,研究團(tuán)隊(duì)還測(cè)試了不同類型的后訓(xùn)練數(shù)據(jù)對(duì)最終性能的影響。他們分別創(chuàng)建了只使用世界知識(shí)數(shù)據(jù)、只使用視覺(jué)對(duì)齊數(shù)據(jù)、只使用空間定位數(shù)據(jù)訓(xùn)練的AI版本,然后比較它們的表現(xiàn)。結(jié)果發(fā)現(xiàn),空間定位訓(xùn)練對(duì)最終的游戲表現(xiàn)影響最大,這符合直覺(jué),因?yàn)闇?zhǔn)確的空間理解是執(zhí)行游戲操作的基礎(chǔ)。
研究團(tuán)隊(duì)還探索了AI系統(tǒng)的規(guī)模化效應(yīng),這是一個(gè)在AI領(lǐng)域非常重要的問(wèn)題。他們發(fā)現(xiàn),隨著后訓(xùn)練數(shù)據(jù)量的增加,AI的游戲表現(xiàn)也相應(yīng)提升。特別是當(dāng)后訓(xùn)練損失降到0.22以下時(shí),AI才開(kāi)始在實(shí)際任務(wù)中表現(xiàn)出非零的成功率。這個(gè)發(fā)現(xiàn)為未來(lái)的AI訓(xùn)練提供了重要的指導(dǎo)原則。
另一個(gè)重要發(fā)現(xiàn)是關(guān)于訓(xùn)練數(shù)據(jù)量與性能的關(guān)系。研究團(tuán)隊(duì)發(fā)現(xiàn),增加用于后訓(xùn)練的非軌跡數(shù)據(jù)能夠直接提升下游任務(wù)的表現(xiàn),即使下游訓(xùn)練使用的數(shù)據(jù)量保持不變。這就像一個(gè)學(xué)生通過(guò)廣泛的課外閱讀提高了理解能力,即使在相同的考試準(zhǔn)備時(shí)間內(nèi)也能取得更好的成績(jī)。
為了驗(yàn)證方法的通用性,研究團(tuán)隊(duì)還在兩個(gè)不同的基礎(chǔ)模型(Qwen2-VL和Llava-Next)上測(cè)試了他們的訓(xùn)練方法。結(jié)果顯示,無(wú)論使用哪個(gè)基礎(chǔ)模型,ActVLP方法都能帶來(lái)顯著的性能提升,這證明了這種方法的普適性。
特別值得注意的是,研究團(tuán)隊(duì)還進(jìn)行了一個(gè)被稱為"scaling experiments"的實(shí)驗(yàn)。他們系統(tǒng)性地研究了不同規(guī)模的訓(xùn)練數(shù)據(jù)對(duì)AI性能的影響。結(jié)果顯示,無(wú)論是增加下游任務(wù)的訓(xùn)練數(shù)據(jù),還是增加后訓(xùn)練階段的數(shù)據(jù),都能夠改善AI的最終表現(xiàn)。這個(gè)發(fā)現(xiàn)為未來(lái)構(gòu)建更強(qiáng)大的游戲AI提供了明確的路徑。
六、技術(shù)細(xì)節(jié):讓AI像人類一樣操作游戲
JARVIS-VLA在技術(shù)實(shí)現(xiàn)上有許多巧妙的設(shè)計(jì),這些細(xì)節(jié)雖然聽(tīng)起來(lái)復(fù)雜,但實(shí)際上都有著很直觀的道理。
在動(dòng)作空間設(shè)計(jì)方面,研究團(tuán)隊(duì)面臨一個(gè)關(guān)鍵挑戰(zhàn):如何讓AI像人類一樣使用鍵盤(pán)和鼠標(biāo)控制游戲?!段业氖澜纭沸枰婕疫M(jìn)行各種復(fù)雜操作,包括移動(dòng)角色、轉(zhuǎn)動(dòng)視角、點(diǎn)擊界面、按下功能鍵等等。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)采用了一種稱為"動(dòng)作標(biāo)記化"的方法。
這個(gè)方法的核心思想是將所有可能的游戲操作轉(zhuǎn)換成特殊的"詞匯",就像為AI創(chuàng)造了一套專門(mén)的"游戲語(yǔ)言"。比如,鼠標(biāo)向左移動(dòng)可能對(duì)應(yīng)一個(gè)特殊標(biāo)記,按下W鍵對(duì)應(yīng)另一個(gè)標(biāo)記,點(diǎn)擊鼠標(biāo)左鍵又是另一個(gè)標(biāo)記。通過(guò)這種方式,AI就可以像生成文本一樣生成游戲操作序列。
對(duì)于鼠標(biāo)移動(dòng)這樣的連續(xù)動(dòng)作,研究團(tuán)隊(duì)使用了一種叫做μ-law編碼的技術(shù),將連續(xù)的移動(dòng)距離離散化為21個(gè)不同的檔位。這就像把無(wú)限可能的移動(dòng)距離簡(jiǎn)化為21個(gè)標(biāo)準(zhǔn)選項(xiàng),既保持了操作的精確性,又讓AI能夠處理這些信息。
在詞匯表設(shè)計(jì)上,研究團(tuán)隊(duì)采用了一個(gè)特別聰明的策略。他們沒(méi)有重新訓(xùn)練模型的詞匯表,而是將最不常用的51個(gè)詞匯重新定義為游戲操作標(biāo)記。這種方法既避免了重新訓(xùn)練的復(fù)雜性,又確保了與原始模型的兼容性。
為了處理《我的世界》這樣的部分可觀測(cè)環(huán)境,JARVIS-VLA采用了歷史信息保持機(jī)制。當(dāng)AI在游戲中移動(dòng)時(shí),它會(huì)記住之前看到的畫(huà)面,就像人類玩家會(huì)記住剛才經(jīng)過(guò)的地形一樣。這種設(shè)計(jì)讓AI能夠做出更加明智的決策,比如在尋找資源時(shí)能夠避免重復(fù)搜索已經(jīng)探索過(guò)的區(qū)域。
在推理階段,JARVIS-VLA采用了一種叫做"action chunking"的技術(shù)。簡(jiǎn)單來(lái)說(shuō),就是讓AI一次性預(yù)測(cè)未來(lái)幾步的操作,而不是每次只預(yù)測(cè)下一步。這種方法不僅提高了執(zhí)行效率,還讓AI的行為更加連貫和目標(biāo)導(dǎo)向。
七、實(shí)驗(yàn)環(huán)境與評(píng)估:嚴(yán)格的科學(xué)驗(yàn)證
為了確保實(shí)驗(yàn)結(jié)果的可靠性和可重復(fù)性,研究團(tuán)隊(duì)建立了一套嚴(yán)格的實(shí)驗(yàn)環(huán)境和評(píng)估體系。
實(shí)驗(yàn)環(huán)境選擇了《我的世界》1.16.5版本,這是一個(gè)功能完整且相對(duì)穩(wěn)定的游戲版本。為了保證公平性,研究團(tuán)隊(duì)隱藏了所有人類玩家無(wú)法獲得的信息,比如精確的坐標(biāo)位置、物品數(shù)量統(tǒng)計(jì)等,讓AI完全依賴視覺(jué)信息進(jìn)行游戲。
評(píng)估基準(zhǔn)使用了MCU(Minecraft Understanding)基準(zhǔn)測(cè)試,這是專門(mén)為評(píng)估《我的世界》AI設(shè)計(jì)的標(biāo)準(zhǔn)化測(cè)試集。這個(gè)基準(zhǔn)包含了四大類任務(wù),每類任務(wù)又包含多個(gè)具體的子任務(wù),從簡(jiǎn)單的"用手挖掘橡樹(shù)原木"到復(fù)雜的"用鉆石鎬挖掘黑曜石超過(guò)10秒",難度跨度很大。
為了確保結(jié)果的統(tǒng)計(jì)顯著性,研究團(tuán)隊(duì)對(duì)每個(gè)任務(wù)至少進(jìn)行了30次獨(dú)立測(cè)試。這就像進(jìn)行醫(yī)學(xué)實(shí)驗(yàn)時(shí)需要足夠大的樣本量來(lái)確保結(jié)果的可靠性一樣。他們使用成功率作為主要評(píng)估指標(biāo),這是一個(gè)直觀且易于理解的度量標(biāo)準(zhǔn)。
在基線模型選擇上,研究團(tuán)隊(duì)包含了該領(lǐng)域的主要代表性系統(tǒng):VPT(Video Pre-Training)是OpenAI開(kāi)發(fā)的里程碑式系統(tǒng),STEVE-1是結(jié)合了視覺(jué)語(yǔ)言理解的文本指令跟隨系統(tǒng),GROOT使用視頻提示作為任務(wù)指令,MineDreamer則結(jié)合了視覺(jué)語(yǔ)言模型和擴(kuò)散模型。這些基線系統(tǒng)代表了當(dāng)前游戲AI的不同技術(shù)路線。
特別值得注意的是,研究團(tuán)隊(duì)還設(shè)計(jì)了專門(mén)的視覺(jué)語(yǔ)言理解評(píng)估,包括世界知識(shí)問(wèn)答、視覺(jué)理解和空間定位三個(gè)方面。對(duì)于主觀性較強(qiáng)的問(wèn)答題,他們使用GPT-4o作為評(píng)判員,這種方法已經(jīng)在學(xué)術(shù)界得到廣泛認(rèn)可。對(duì)于空間定位任務(wù),則使用基于規(guī)則的客觀評(píng)分方法。
八、局限性與未來(lái)展望:持續(xù)改進(jìn)的空間
盡管JARVIS-VLA取得了顯著成果,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前系統(tǒng)的一些局限性,并為未來(lái)的改進(jìn)指明了方向。
首先是推理速度問(wèn)題。由于JARVIS-VLA基于大型視覺(jué)語(yǔ)言模型構(gòu)建,系統(tǒng)的參數(shù)量很大,這導(dǎo)致推理速度相對(duì)較慢。雖然研究團(tuán)隊(duì)通過(guò)優(yōu)化已經(jīng)將推理速度提升到55幀每秒,但與人類玩家的反應(yīng)速度相比仍有差距。他們認(rèn)為未來(lái)可以通過(guò)混合專家模型(MoE)等技術(shù)來(lái)改善推理效率,目標(biāo)是達(dá)到40Hz以上的實(shí)時(shí)響應(yīng)能力。
其次是性能上限問(wèn)題。雖然JARVIS-VLA在與其他AI系統(tǒng)的比較中表現(xiàn)優(yōu)異,但與頂級(jí)人類玩家相比仍有差距。經(jīng)驗(yàn)豐富的《我的世界》玩家在相同任務(wù)上的成功率通常能達(dá)到90%以上,而JARVIS-VLA目前的平均成功率還沒(méi)有達(dá)到這個(gè)水平。
從更廣闊的角度來(lái)看,這項(xiàng)研究為視覺(jué)語(yǔ)言行為模型的發(fā)展開(kāi)辟了新的道路。傳統(tǒng)的AI訓(xùn)練往往將重點(diǎn)放在模仿學(xué)習(xí)上,而這項(xiàng)研究證明了在行為學(xué)習(xí)之前進(jìn)行深入的知識(shí)和理解訓(xùn)練的重要性。這種思路不僅適用于游戲AI,也可能為其他需要復(fù)雜決策的AI應(yīng)用提供啟發(fā),比如機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域。
研究團(tuán)隊(duì)還指出,他們的方法在處理更復(fù)雜、更開(kāi)放的任務(wù)時(shí)仍有改進(jìn)空間?!段业氖澜纭冯m然是一個(gè)復(fù)雜的開(kāi)放世界游戲,但相比真實(shí)世界的復(fù)雜性仍然有限。如何將這種訓(xùn)練方法擴(kuò)展到更加復(fù)雜和不確定的環(huán)境中,是一個(gè)值得繼續(xù)探索的方向。
另一個(gè)有趣的發(fā)現(xiàn)是關(guān)于AI系統(tǒng)的可解釋性。由于JARVIS-VLA具備了豐富的世界知識(shí)和視覺(jué)理解能力,它不僅能夠執(zhí)行任務(wù),還能夠在某種程度上"解釋"自己的行為。這為開(kāi)發(fā)更加透明和可信的AI系統(tǒng)提供了新的思路。
九、更廣泛的影響:從游戲到現(xiàn)實(shí)世界的應(yīng)用
雖然JARVIS-VLA是在《我的世界》這個(gè)虛擬環(huán)境中開(kāi)發(fā)和測(cè)試的,但其背后的技術(shù)原理和訓(xùn)練方法具有更廣泛的應(yīng)用潛力。
在教育領(lǐng)域,這種技術(shù)可能會(huì)帶來(lái)革命性的變化。想象一下,如果我們能夠創(chuàng)造出像JARVIS-VLA一樣既理解理論知識(shí)又能進(jìn)行實(shí)際操作的教學(xué)AI,它們就能夠?yàn)閷W(xué)生提供更加個(gè)性化和交互式的學(xué)習(xí)體驗(yàn)。比如在化學(xué)教學(xué)中,AI可以先理解化學(xué)原理,然后在虛擬實(shí)驗(yàn)室中演示實(shí)驗(yàn)過(guò)程,最后指導(dǎo)學(xué)生進(jìn)行實(shí)際操作。
在機(jī)器人技術(shù)方面,JARVIS-VLA展示的多模態(tài)理解和行為生成能力為開(kāi)發(fā)更智能的機(jī)器人提供了新的思路。未來(lái)的家庭服務(wù)機(jī)器人可能會(huì)采用類似的訓(xùn)練方法:首先學(xué)習(xí)大量關(guān)于家庭環(huán)境和日常任務(wù)的知識(shí),然后學(xué)習(xí)識(shí)別和理解視覺(jué)場(chǎng)景,最后學(xué)習(xí)執(zhí)行具體的操作任務(wù)。
在工業(yè)自動(dòng)化領(lǐng)域,這種技術(shù)也可能發(fā)揮重要作用。現(xiàn)代工廠中的許多任務(wù)都需要結(jié)合理論知識(shí)、視覺(jué)識(shí)別和精確操作,這正是JARVIS-VLA所擅長(zhǎng)的能力組合。比如在質(zhì)量檢測(cè)環(huán)節(jié),AI需要理解產(chǎn)品規(guī)范,識(shí)別視覺(jué)缺陷,然后執(zhí)行相應(yīng)的處理操作。
值得注意的是,JARVIS-VLA的開(kāi)源特性為整個(gè)學(xué)術(shù)和工業(yè)界提供了寶貴的資源。研究團(tuán)隊(duì)已經(jīng)公開(kāi)了代碼、模型和數(shù)據(jù)集,這意味著其他研究者可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和應(yīng)用。這種開(kāi)放的研究態(tài)度有助于加速整個(gè)領(lǐng)域的發(fā)展。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究也預(yù)示著AI系統(tǒng)正在向更加綜合和智能的方向發(fā)展。早期的AI往往專注于單一任務(wù),比如下棋或圖像識(shí)別。而JARVIS-VLA展示了一種新的可能性:AI系統(tǒng)可以像人類一樣,綜合運(yùn)用知識(shí)、理解和行動(dòng)能力來(lái)解決復(fù)雜問(wèn)題。
說(shuō)到底,JARVIS-VLA不僅僅是一個(gè)游戲AI,它更像是一個(gè)展示未來(lái)AI發(fā)展方向的技術(shù)原型。通過(guò)在《我的世界》這個(gè)相對(duì)可控的環(huán)境中驗(yàn)證新的訓(xùn)練方法和技術(shù)路線,研究團(tuán)隊(duì)為AI技術(shù)的進(jìn)一步發(fā)展奠定了重要基礎(chǔ)。隨著計(jì)算能力的提升和訓(xùn)練方法的完善,我們有理由相信,未來(lái)會(huì)出現(xiàn)更多像JARVIS-VLA這樣能夠真正理解世界、與人類自然交互的智能系統(tǒng)。
這項(xiàng)研究的意義不僅在于技術(shù)突破本身,更在于它所代表的研究思路和方法論。通過(guò)將知識(shí)學(xué)習(xí)、視覺(jué)理解和行為執(zhí)行有機(jī)結(jié)合,研究團(tuán)隊(duì)展示了構(gòu)建更加智能和通用AI系統(tǒng)的可行路徑。對(duì)于那些希望深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以訪問(wèn)項(xiàng)目主頁(yè)https://craftjarvis.github.io/JarvisVLA或查閱完整的學(xué)術(shù)論文來(lái)獲取更多信息。
Q&A
Q1:JARVIS-VLA能做什么?它和普通游戲AI有什么區(qū)別? A:JARVIS-VLA是一個(gè)能夠像人類一樣玩《我的世界》的AI系統(tǒng),可以執(zhí)行超過(guò)1000種不同任務(wù),包括挖掘、建造、制作和戰(zhàn)斗。與普通游戲AI不同,它不是簡(jiǎn)單模仿人類操作,而是先學(xué)習(xí)游戲世界的知識(shí)和規(guī)律,再學(xué)習(xí)如何操作,就像人類玩家那樣既懂理論又會(huì)實(shí)踐。
Q2:這個(gè)AI訓(xùn)練需要多長(zhǎng)時(shí)間?普通人能使用嗎? A:訓(xùn)練JARVIS-VLA需要使用32塊A800 GPU,視覺(jué)語(yǔ)言訓(xùn)練階段需要128個(gè)GPU小時(shí),行為訓(xùn)練階段需要512個(gè)GPU小時(shí)。目前這主要是研究項(xiàng)目,但研究團(tuán)隊(duì)已經(jīng)開(kāi)源了代碼和模型,技術(shù)愛(ài)好者可以通過(guò)項(xiàng)目頁(yè)面獲取相關(guān)資源。
Q3:這項(xiàng)技術(shù)會(huì)不會(huì)應(yīng)用到其他游戲或現(xiàn)實(shí)場(chǎng)景中? A:研究團(tuán)隊(duì)展示的訓(xùn)練方法具有很強(qiáng)的通用性,理論上可以應(yīng)用到其他需要復(fù)雜決策的場(chǎng)景中,比如機(jī)器人控制、工業(yè)自動(dòng)化等。不過(guò)從研究原型到實(shí)際應(yīng)用還需要時(shí)間,目前主要價(jià)值在于為AI研究提供了新的技術(shù)路徑。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。