這項(xiàng)由META公司FAIR實(shí)驗(yàn)組聯(lián)合魁北克AI研究院等機(jī)構(gòu)共同完成的重磅研究于2025年6月發(fā)表,論文題為《V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning》。有興趣深入了解的讀者可以通過(guò)arXiv:2506.09985v1訪問(wèn)完整論文,相關(guān)代碼已在GitHub開(kāi)源(https://github.com/facebookresearch/vjepa2)。
人類(lèi)有一項(xiàng)令人驚嘆的能力:僅僅通過(guò)觀察就能理解世界,預(yù)測(cè)未來(lái),并制定行動(dòng)計(jì)劃。當(dāng)你看到一個(gè)球從桌子邊緣滾過(guò)時(shí),你的大腦會(huì)自動(dòng)預(yù)測(cè)它將掉落,甚至能規(guī)劃伸手去接的動(dòng)作?,F(xiàn)在,META的研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)名為V-JEPA 2的AI系統(tǒng),讓機(jī)器第一次具備了類(lèi)似人類(lèi)的"視覺(jué)智慧"。
這個(gè)突破性的AI系統(tǒng)就像一個(gè)超級(jí)聰明的學(xué)徒,通過(guò)觀看超過(guò)100萬(wàn)小時(shí)的互聯(lián)網(wǎng)視頻自學(xué)成才,學(xué)會(huì)了理解物理世界的運(yùn)作規(guī)律。更令人驚嘆的是,它不需要任何人工標(biāo)注或指導(dǎo),就能掌握物體運(yùn)動(dòng)、因果關(guān)系,甚至學(xué)會(huì)操控機(jī)器人完成復(fù)雜任務(wù)。研究團(tuán)隊(duì)表示,這是首次有AI系統(tǒng)能夠同時(shí)在理解、預(yù)測(cè)和規(guī)劃三個(gè)核心能力上都達(dá)到頂尖水平。
在多項(xiàng)測(cè)試中,V-JEPA 2的表現(xiàn)讓人刮目相看。在理解視頻內(nèi)容方面,它在Something-Something v2數(shù)據(jù)集上達(dá)到77.3%的準(zhǔn)確率,在人類(lèi)行為預(yù)測(cè)任務(wù)上更是創(chuàng)下39.7的新紀(jì)錄,比之前最好的系統(tǒng)提升了44%。當(dāng)研究人員把它與大語(yǔ)言模型結(jié)合后,在多個(gè)視頻問(wèn)答任務(wù)上都取得了業(yè)界最佳成績(jī)。最令人興奮的是,僅用62小時(shí)的機(jī)器人操作視頻訓(xùn)練后,V-JEPA 2就能零樣本控制兩個(gè)不同實(shí)驗(yàn)室的機(jī)械臂,完成抓取和搬運(yùn)物品等復(fù)雜任務(wù),而且完全不需要在這些環(huán)境中收集額外數(shù)據(jù)。
一、從觀察到智慧:V-JEPA 2如何像人類(lèi)一樣學(xué)習(xí)
傳統(tǒng)的AI訓(xùn)練就像是填鴨式教育,需要大量標(biāo)注好的數(shù)據(jù)告訴系統(tǒng)"這是什么"、"那是什么"。但V-JEPA 2采用了一種全新的學(xué)習(xí)方式,更像是一個(gè)好奇的孩子通過(guò)觀察世界來(lái)理解規(guī)律。
V-JEPA 2的學(xué)習(xí)過(guò)程可以比作一位藝術(shù)修復(fù)師的工作。當(dāng)你給修復(fù)師一幅殘缺的畫(huà)作時(shí),他需要根據(jù)可見(jiàn)的部分推斷出缺失的內(nèi)容。V-JEPA 2也是如此工作的:研究團(tuán)隊(duì)故意遮擋視頻的某些部分,讓系統(tǒng)學(xué)會(huì)根據(jù)可見(jiàn)的內(nèi)容預(yù)測(cè)被遮擋的區(qū)域。這種"掩碼去噪"的訓(xùn)練方式強(qiáng)迫系統(tǒng)深度理解視頻中物體的運(yùn)動(dòng)規(guī)律、空間關(guān)系和因果邏輯。
與以往的AI系統(tǒng)不同,V-JEPA 2不是試圖逐像素地重建視頻,而是在一個(gè)抽象的"表示空間"中進(jìn)行預(yù)測(cè)。這就像一個(gè)經(jīng)驗(yàn)豐富的偵探,他不需要記住犯罪現(xiàn)場(chǎng)的每一個(gè)細(xì)節(jié),而是抓住關(guān)鍵線索來(lái)推斷事件的發(fā)展。這種方法讓V-JEPA 2能夠?qū)W⒂谝曨l中真正重要的可預(yù)測(cè)內(nèi)容,比如物體的運(yùn)動(dòng)軌跡,而忽略那些無(wú)關(guān)緊要的細(xì)節(jié),比如背景中隨風(fēng)擺動(dòng)的樹(shù)葉。
研究團(tuán)隊(duì)使用了一個(gè)名為VideoMix22M的大規(guī)模數(shù)據(jù)集來(lái)訓(xùn)練V-JEPA 2,這個(gè)數(shù)據(jù)集包含超過(guò)2200萬(wàn)個(gè)視頻片段,總時(shí)長(zhǎng)超過(guò)100萬(wàn)小時(shí)。這些視頻來(lái)自多個(gè)來(lái)源:Something-Something v2提供了手部操作物體的精細(xì)動(dòng)作,Kinetics系列提供了各種人類(lèi)活動(dòng),HowTo100M貢獻(xiàn)了YouTube上的教學(xué)視頻,而YT-Temporal-1B則提供了更廣泛的互聯(lián)網(wǎng)視頻內(nèi)容。為了提高數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還開(kāi)發(fā)了一套智能篩選系統(tǒng),從海量的YouTube視頻中挑選出最有價(jià)值的內(nèi)容進(jìn)行訓(xùn)練。
V-JEPA 2的架構(gòu)基于視覺(jué)變換器(Vision Transformer),這是一種已被證明非常有效的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。不過(guò),研究團(tuán)隊(duì)對(duì)其進(jìn)行了重要改進(jìn),特別是引入了3D旋轉(zhuǎn)位置編碼(3D-RoPE),這讓系統(tǒng)能夠更好地理解視頻中的時(shí)空關(guān)系。整個(gè)系統(tǒng)包含兩個(gè)主要組件:一個(gè)負(fù)責(zé)理解視頻內(nèi)容的編碼器(參數(shù)量高達(dá)10億),和一個(gè)負(fù)責(zé)預(yù)測(cè)缺失內(nèi)容的預(yù)測(cè)器。
訓(xùn)練過(guò)程采用了一種巧妙的多階段策略。首先是主要訓(xùn)練階段,系統(tǒng)在16幀、256×256分辨率的視頻片段上學(xué)習(xí)基礎(chǔ)的視覺(jué)理解能力。隨后是冷卻階段,系統(tǒng)開(kāi)始處理更長(zhǎng)的64幀視頻和更高的384×384分辨率,這大大提升了系統(tǒng)對(duì)復(fù)雜場(chǎng)景和長(zhǎng)時(shí)間序列的理解能力。這種漸進(jìn)式訓(xùn)練就像學(xué)鋼琴一樣,先掌握基本指法,再挑戰(zhàn)復(fù)雜樂(lè)曲。
二、從理解到預(yù)測(cè):掌握視覺(jué)世界的因果規(guī)律
理解是智能的基礎(chǔ),但預(yù)測(cè)才是智慧的體現(xiàn)。V-JEPA 2在視覺(jué)理解方面的表現(xiàn)已經(jīng)令人印象深刻,但它的預(yù)測(cè)能力更是讓研究者們興奮不已。
在Something-Something v2這個(gè)專(zhuān)門(mén)測(cè)試細(xì)粒度動(dòng)作理解的數(shù)據(jù)集上,V-JEPA 2達(dá)到了77.3%的頂級(jí)準(zhǔn)確率。這個(gè)數(shù)據(jù)集的特殊之處在于,它需要AI系統(tǒng)真正理解物體之間的交互關(guān)系,而不僅僅是識(shí)別物體本身。比如,系統(tǒng)需要區(qū)分"把東西放在某物上面"和"把東西放在某物后面"這樣的細(xì)微差別。V-JEPA 2的成功表明它已經(jīng)掌握了復(fù)雜的空間推理能力。
更令人驚嘆的是V-JEPA 2在行為預(yù)測(cè)方面的表現(xiàn)。在Epic-Kitchens-100人類(lèi)行為預(yù)測(cè)任務(wù)中,系統(tǒng)需要觀看廚房中的活動(dòng)片段,然后預(yù)測(cè)人類(lèi)接下來(lái)最可能做什么。這就像一個(gè)經(jīng)驗(yàn)豐富的廚師,能夠根據(jù)當(dāng)前的準(zhǔn)備工作預(yù)測(cè)下一步的烹飪動(dòng)作。V-JEPA 2在這項(xiàng)任務(wù)上取得了39.7的recall-at-5分?jǐn)?shù),比之前的最佳系統(tǒng)提升了44%,這是一個(gè)巨大的飛躍。
研究團(tuán)隊(duì)發(fā)現(xiàn),V-JEPA 2的預(yù)測(cè)能力隨著模型規(guī)模的增大而線性提升。從3億參數(shù)的ViT-L模型到10億參數(shù)的ViT-g模型,系統(tǒng)的預(yù)測(cè)精度持續(xù)改善。這種可擴(kuò)展性表明,隨著計(jì)算資源的增加和模型規(guī)模的擴(kuò)大,V-JEPA 2的能力還有進(jìn)一步提升的空間。
特別值得注意的是,V-JEPA 2在處理更長(zhǎng)視頻序列時(shí)表現(xiàn)出色。當(dāng)從16幀擴(kuò)展到64幀時(shí),系統(tǒng)在多個(gè)任務(wù)上的表現(xiàn)都有顯著提升。這說(shuō)明更長(zhǎng)的時(shí)間窗口讓系統(tǒng)能夠捕捉到更復(fù)雜的時(shí)間依賴(lài)關(guān)系和因果模式。就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生,需要觀察病人一段時(shí)間才能做出準(zhǔn)確診斷一樣,V-JEPA 2也需要足夠的時(shí)間序列信息來(lái)理解復(fù)雜的動(dòng)態(tài)過(guò)程。
研究團(tuán)隊(duì)還進(jìn)行了大量的消融實(shí)驗(yàn)來(lái)驗(yàn)證各個(gè)組件的重要性。他們發(fā)現(xiàn),數(shù)據(jù)規(guī)模、模型規(guī)模、訓(xùn)練時(shí)長(zhǎng)和輸入分辨率都對(duì)最終性能有重要影響。特別是數(shù)據(jù)篩選策略,通過(guò)智能篩選YouTube視頻,系統(tǒng)性能提升了1.4個(gè)百分點(diǎn),這在AI研究中是一個(gè)相當(dāng)可觀的改進(jìn)。
三、從預(yù)測(cè)到行動(dòng):讓AI學(xué)會(huì)在真實(shí)世界中規(guī)劃
理解和預(yù)測(cè)雖然重要,但真正的智能還需要能夠制定和執(zhí)行行動(dòng)計(jì)劃。這就像一個(gè)優(yōu)秀的棋手,不僅要能分析當(dāng)前局面,還要能預(yù)見(jiàn)幾步之后的棋局發(fā)展,并據(jù)此制定最佳策略。V-JEPA 2在這方面的突破可能是整個(gè)研究中最激動(dòng)人心的部分。
為了讓V-JEPA 2具備行動(dòng)規(guī)劃能力,研究團(tuán)隊(duì)開(kāi)發(fā)了V-JEPA 2-AC(Action-Conditioned)版本。這個(gè)過(guò)程就像培養(yǎng)一位實(shí)習(xí)醫(yī)生:首先讓他通過(guò)大量觀察學(xué)會(huì)理解人體結(jié)構(gòu)和生理過(guò)程(這是V-JEPA 2的基礎(chǔ)訓(xùn)練),然后再教他如何根據(jù)病人的具體情況制定治療方案(這是V-JEPA 2-AC的專(zhuān)門(mén)訓(xùn)練)。
V-JEPA 2-AC的訓(xùn)練使用了Droid數(shù)據(jù)集,這是一個(gè)包含機(jī)器人操作視頻的專(zhuān)門(mén)數(shù)據(jù)集。令人驚訝的是,研究團(tuán)隊(duì)僅使用了62小時(shí)的機(jī)器人操作視頻就訓(xùn)練出了一個(gè)功能強(qiáng)大的行動(dòng)規(guī)劃系統(tǒng)。這些視頻記錄了7自由度Franka Emika Panda機(jī)械臂執(zhí)行各種操作任務(wù)的過(guò)程,包括機(jī)械臂的位置、朝向和夾爪狀態(tài)等信息。
V-JEPA 2-AC的工作原理類(lèi)似于一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)航系統(tǒng)。當(dāng)給定當(dāng)前觀察和目標(biāo)狀態(tài)時(shí),系統(tǒng)會(huì)在其學(xué)到的表示空間中搜索最佳的行動(dòng)序列。具體來(lái)說(shuō),系統(tǒng)使用一種叫做"交叉熵方法"的優(yōu)化算法,通過(guò)反復(fù)嘗試和改進(jìn)來(lái)找到最佳的行動(dòng)路徑。這個(gè)過(guò)程就像一個(gè)經(jīng)驗(yàn)豐富的司機(jī)規(guī)劃路線:根據(jù)當(dāng)前位置和目的地,考慮各種可能的路徑,最終選擇最優(yōu)方案。
在實(shí)際部署測(cè)試中,V-JEPA 2-AC的表現(xiàn)令人印象深刻。研究團(tuán)隊(duì)在兩個(gè)不同的實(shí)驗(yàn)室中部署了完全相同的系統(tǒng),這些實(shí)驗(yàn)室的環(huán)境、物體擺放和背景都與訓(xùn)練數(shù)據(jù)不同。令人驚訝的是,V-JEPA 2-AC能夠零樣本完成各種復(fù)雜的操作任務(wù)。
在抓取任務(wù)中,系統(tǒng)需要準(zhǔn)確控制機(jī)械臂夾爪抓住特定物體。V-JEPA 2-AC對(duì)杯子的抓取成功率達(dá)到65%,對(duì)盒子的抓取成功率為25%。這種差異反映了不同物體的操作難度:杯子可以通過(guò)多種方式抓?。ū热绮迦電A爪再夾緊邊緣),而盒子則需要更精確的夾爪控制。
在帶物體移動(dòng)任務(wù)中,系統(tǒng)需要在抓住物體的同時(shí)移動(dòng)到指定位置,這需要對(duì)物理約束和運(yùn)動(dòng)動(dòng)力學(xué)有深入理解。V-JEPA 2-AC在這項(xiàng)任務(wù)上的平均成功率達(dá)到75%,表明系統(tǒng)已經(jīng)掌握了基本的物理直覺(jué)。
最復(fù)雜的是拾取和放置任務(wù),這需要系統(tǒng)將多個(gè)子技能組合起來(lái):首先抓取物體,然后移動(dòng)到目標(biāo)位置,最后準(zhǔn)確放下。研究團(tuán)隊(duì)為這個(gè)任務(wù)設(shè)計(jì)了多個(gè)子目標(biāo)圖像,系統(tǒng)會(huì)依次優(yōu)化向每個(gè)子目標(biāo)的行動(dòng)。V-JEPA 2-AC在這項(xiàng)任務(wù)上的成功率達(dá)到65-80%,這在零樣本機(jī)器人控制中是一個(gè)了不起的成就。
特別令人印象深刻的是系統(tǒng)的泛化能力。訓(xùn)練數(shù)據(jù)來(lái)自完全不同的環(huán)境和機(jī)器人設(shè)置,但V-JEPA 2-AC能夠適應(yīng)新環(huán)境中的不同背景、光照條件和物體擺放。這說(shuō)明系統(tǒng)學(xué)到的不是簡(jiǎn)單的模式匹配,而是對(duì)物理世界更深層的理解。
四、融合語(yǔ)言智能:讓AI真正"看懂"并"說(shuō)清"視頻內(nèi)容
當(dāng)V-JEPA 2具備了強(qiáng)大的視覺(jué)理解和預(yù)測(cè)能力后,研究團(tuán)隊(duì)進(jìn)一步探索了一個(gè)有趣的問(wèn)題:能否讓這個(gè)視覺(jué)專(zhuān)家學(xué)會(huì)用人類(lèi)的語(yǔ)言來(lái)描述和回答關(guān)于視頻的問(wèn)題?這就像培養(yǎng)一位優(yōu)秀的體育解說(shuō)員,不僅要看懂比賽,還要能用生動(dòng)的語(yǔ)言向觀眾解釋比賽的精彩之處。
為了實(shí)現(xiàn)這個(gè)目標(biāo),研究團(tuán)隊(duì)將V-JEPA 2與大語(yǔ)言模型進(jìn)行了巧妙的結(jié)合。這個(gè)過(guò)程類(lèi)似于讓一位視覺(jué)藝術(shù)專(zhuān)家和一位文學(xué)大師合作:視覺(jué)專(zhuān)家負(fù)責(zé)理解畫(huà)面內(nèi)容,文學(xué)大師負(fù)責(zé)用優(yōu)美的語(yǔ)言表達(dá)出來(lái)。具體來(lái)說(shuō),V-JEPA 2負(fù)責(zé)提取視頻的視覺(jué)特征,然后通過(guò)一個(gè)專(zhuān)門(mén)設(shè)計(jì)的投影模塊將這些特征轉(zhuǎn)換為語(yǔ)言模型能夠理解的形式。
這種融合訓(xùn)練采用了漸進(jìn)式的策略,就像學(xué)習(xí)一門(mén)外語(yǔ)一樣循序漸進(jìn)。首先是對(duì)齊階段,讓視覺(jué)特征和語(yǔ)言表示建立基本的對(duì)應(yīng)關(guān)系,這就像學(xué)習(xí)基本詞匯。然后是圖像理解階段,在大量圖像-文本對(duì)上訓(xùn)練,讓系統(tǒng)學(xué)會(huì)描述靜態(tài)場(chǎng)景。最后是視頻理解階段,系統(tǒng)學(xué)會(huì)處理動(dòng)態(tài)內(nèi)容和時(shí)間序列信息。
研究團(tuán)隊(duì)使用了8850萬(wàn)個(gè)圖像和視頻文本對(duì)來(lái)訓(xùn)練這個(gè)多模態(tài)系統(tǒng)。為了驗(yàn)證V-JEPA 2的視覺(jué)理解能力確實(shí)有助于語(yǔ)言任務(wù),他們還進(jìn)行了對(duì)比實(shí)驗(yàn),將V-JEPA 2與其他頂級(jí)視覺(jué)編碼器進(jìn)行了比較,包括DINOv2、SigLIP2和Perception Encoder等。
實(shí)驗(yàn)結(jié)果表明,即使V-JEPA 2沒(méi)有經(jīng)過(guò)任何語(yǔ)言監(jiān)督訓(xùn)練,但當(dāng)與語(yǔ)言模型結(jié)合后,它在多個(gè)視頻問(wèn)答任務(wù)上都達(dá)到了業(yè)界最佳水平。在PerceptionTest這個(gè)綜合性視頻理解基準(zhǔn)上,V-JEPA 2達(dá)到了84.0%的準(zhǔn)確率。這個(gè)測(cè)試涵蓋了記憶、抽象推理、物理理解和語(yǔ)義理解等多個(gè)維度,是評(píng)估視頻理解能力的權(quán)威基準(zhǔn)。
在MVP(最小視頻對(duì))基準(zhǔn)測(cè)試中,V-JEPA 2的配對(duì)準(zhǔn)確率達(dá)到44.5%。這個(gè)測(cè)試特別設(shè)計(jì)用來(lái)評(píng)估物理世界理解能力,通過(guò)最小化視覺(jué)和文本偏見(jiàn)來(lái)確保測(cè)試的公平性。V-JEPA 2的優(yōu)秀表現(xiàn)表明它確實(shí)掌握了深層的物理理解能力。
在時(shí)間推理方面,V-JEPA 2同樣表現(xiàn)出色。在TempCompass測(cè)試中達(dá)到76.9%的多選準(zhǔn)確率,在TemporalBench的短問(wèn)答任務(wù)中達(dá)到36.7%的準(zhǔn)確率。這些結(jié)果表明V-JEPA 2不僅能理解空間關(guān)系,還能掌握復(fù)雜的時(shí)間因果關(guān)系。
特別值得注意的是,當(dāng)使用更高分辨率輸入和更大模型規(guī)模時(shí),V-JEPA 2的表現(xiàn)會(huì)進(jìn)一步提升。從256像素提升到512像素,從7B參數(shù)的語(yǔ)言模型升級(jí)到8B參數(shù),都會(huì)帶來(lái)顯著的性能改進(jìn)。這種可擴(kuò)展性為未來(lái)的發(fā)展提供了廣闊空間。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:相比于傳統(tǒng)的圖像編碼器,V-JEPA 2在處理長(zhǎng)視頻時(shí)表現(xiàn)出明顯優(yōu)勢(shì)。當(dāng)視頻幀數(shù)從20幀增加到140幀時(shí),V-JEPA 2的性能持續(xù)改善,而基于圖像的編碼器性能則趨于平緩甚至下降。這進(jìn)一步證明了專(zhuān)門(mén)為視頻設(shè)計(jì)的架構(gòu)在處理動(dòng)態(tài)內(nèi)容時(shí)的優(yōu)越性。
五、技術(shù)創(chuàng)新的關(guān)鍵要素:規(guī)?;?xùn)練的智慧
V-JEPA 2的成功并非偶然,而是多項(xiàng)技術(shù)創(chuàng)新巧妙結(jié)合的結(jié)果。研究團(tuán)隊(duì)在訓(xùn)練過(guò)程中遇到了諸多挑戰(zhàn),他們的解決方案為AI訓(xùn)練提供了許多寶貴經(jīng)驗(yàn)。
數(shù)據(jù)規(guī)模的重要性首先得到了驗(yàn)證。研究團(tuán)隊(duì)發(fā)現(xiàn),從200萬(wàn)視頻增加到2200萬(wàn)視頻,系統(tǒng)性能提升了1個(gè)百分點(diǎn)。這個(gè)改進(jìn)看似微小,但在AI研究中已經(jīng)是相當(dāng)顯著的進(jìn)步。更重要的是,他們發(fā)現(xiàn)數(shù)據(jù)質(zhì)量比數(shù)量更重要。通過(guò)智能篩選算法從YT-Temporal-1B數(shù)據(jù)集中挑選高質(zhì)量視頻,比直接使用未篩選的數(shù)據(jù)效果好1.4個(gè)百分點(diǎn)。
模型規(guī)模的擴(kuò)展同樣帶來(lái)了明顯收益。從3億參數(shù)擴(kuò)展到10億參數(shù),系統(tǒng)在各項(xiàng)任務(wù)上的表現(xiàn)都有1.5個(gè)百分點(diǎn)的提升。研究團(tuán)隊(duì)發(fā)現(xiàn)這種性能提升是線性的,這意味著繼續(xù)擴(kuò)大模型規(guī)模仍有進(jìn)一步改進(jìn)的潛力。
訓(xùn)練策略的創(chuàng)新是另一個(gè)關(guān)鍵因素。傳統(tǒng)的做法是使用固定的訓(xùn)練配置,但V-JEPA 2采用了漸進(jìn)式訓(xùn)練策略。系統(tǒng)首先在較短的16幀、較低的256像素分辨率上進(jìn)行主要訓(xùn)練,建立基礎(chǔ)的視覺(jué)理解能力。然后在冷卻階段切換到64幀、384像素的配置,這大大提升了系統(tǒng)對(duì)復(fù)雜場(chǎng)景和長(zhǎng)時(shí)序列的處理能力。
這種漸進(jìn)式策略的巧妙之處在于計(jì)算效率。如果從一開(kāi)始就使用高分辨率長(zhǎng)序列進(jìn)行訓(xùn)練,計(jì)算成本會(huì)增加60倍。但通過(guò)漸進(jìn)式訓(xùn)練,他們將額外的計(jì)算開(kāi)銷(xiāo)控制在最后的冷卻階段,總體上節(jié)省了約8.4倍的計(jì)算資源。
技術(shù)架構(gòu)方面,3D旋轉(zhuǎn)位置編碼(3D-RoPE)的引入是一個(gè)重要?jiǎng)?chuàng)新。傳統(tǒng)的位置編碼主要考慮二維空間關(guān)系,但視頻還有時(shí)間維度。3D-RoPE將特征維度分成三個(gè)部分,分別處理時(shí)間、高度和寬度信息,讓系統(tǒng)能夠更好地理解時(shí)空關(guān)系。
掩碼策略的設(shè)計(jì)也經(jīng)過(guò)了精心考慮。研究團(tuán)隊(duì)發(fā)現(xiàn),空間掩碼比例在15-70%之間效果最好,時(shí)間掩碼保持100%(即不進(jìn)行時(shí)間掩碼)最為有效。這種策略迫使系統(tǒng)學(xué)會(huì)根據(jù)部分空間信息推斷完整場(chǎng)景,同時(shí)保持時(shí)間連續(xù)性。
訓(xùn)練穩(wěn)定性是大規(guī)模訓(xùn)練面臨的另一個(gè)挑戰(zhàn)。研究團(tuán)隊(duì)采用了指數(shù)移動(dòng)平均(EMA)機(jī)制來(lái)穩(wěn)定訓(xùn)練過(guò)程,同時(shí)使用停梯度操作防止表示坍塌。學(xué)習(xí)率調(diào)度采用了預(yù)熱-恒定-衰減的三階段策略,這比傳統(tǒng)的余弦衰減策略更適合長(zhǎng)時(shí)間訓(xùn)練。
數(shù)據(jù)增強(qiáng)技術(shù)也起到了重要作用。研究團(tuán)隊(duì)使用了隨機(jī)裁剪、尺度變換等技術(shù),讓系統(tǒng)能夠適應(yīng)各種視角和尺度變化。特別是在機(jī)器人控制任務(wù)中,這種數(shù)據(jù)增強(qiáng)幫助系統(tǒng)更好地泛化到新環(huán)境。
六、實(shí)際應(yīng)用與未來(lái)展望:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
V-JEPA 2的成功不僅僅是學(xué)術(shù)研究的勝利,更重要的是它展示了AI技術(shù)向真實(shí)世界應(yīng)用邁進(jìn)的巨大潛力。這項(xiàng)研究的影響將遠(yuǎn)遠(yuǎn)超出計(jì)算機(jī)視覺(jué)和機(jī)器人技術(shù)的范疇。
在機(jī)器人技術(shù)領(lǐng)域,V-JEPA 2-AC的零樣本控制能力開(kāi)啟了新的可能性。傳統(tǒng)的機(jī)器人系統(tǒng)需要在特定環(huán)境中收集大量數(shù)據(jù)進(jìn)行訓(xùn)練,這個(gè)過(guò)程既昂貴又耗時(shí)。V-JEPA 2-AC證明了通過(guò)互聯(lián)網(wǎng)視頻的大規(guī)模預(yù)訓(xùn)練,機(jī)器人可以獲得通用的操作能力,然后用少量特定任務(wù)數(shù)據(jù)進(jìn)行快速適應(yīng)。這就像培養(yǎng)一個(gè)多才多藝的工匠,他掌握了基本技能后可以快速學(xué)會(huì)各種專(zhuān)門(mén)手藝。
這種能力對(duì)制造業(yè)有著深遠(yuǎn)影響。未來(lái)的工廠可能不再需要為每個(gè)新產(chǎn)品重新編程機(jī)器人,而是使用像V-JEPA 2-AC這樣的通用系統(tǒng),通過(guò)簡(jiǎn)單的示例就能快速適應(yīng)新任務(wù)。這將大大降低自動(dòng)化的門(mén)檻,讓更多中小企業(yè)也能享受智能制造的便利。
在家庭服務(wù)機(jī)器人領(lǐng)域,V-JEPA 2的視覺(jué)理解能力同樣具有革命性意義。一個(gè)配備V-JEPA 2系統(tǒng)的家庭機(jī)器人能夠理解復(fù)雜的家庭環(huán)境,預(yù)測(cè)人類(lèi)的需求,并執(zhí)行相應(yīng)的服務(wù)任務(wù)。比如,它可能通過(guò)觀察主人的行為模式預(yù)測(cè)何時(shí)需要清潔,或者根據(jù)廚房的狀態(tài)判斷是否需要協(xié)助烹飪。
教育領(lǐng)域也將從這項(xiàng)技術(shù)中受益。V-JEPA 2的視頻理解和問(wèn)答能力可以用來(lái)開(kāi)發(fā)智能教學(xué)助手,幫助學(xué)生理解復(fù)雜的科學(xué)概念或歷史事件。系統(tǒng)可以分析教學(xué)視頻,回答學(xué)生的問(wèn)題,甚至根據(jù)學(xué)生的理解程度調(diào)整教學(xué)策略。
醫(yī)療保健是另一個(gè)充滿(mǎn)潛力的應(yīng)用領(lǐng)域。V-JEPA 2的行為預(yù)測(cè)能力可以用于分析患者的日?;顒?dòng)模式,及早發(fā)現(xiàn)健康問(wèn)題的征象。在手術(shù)培訓(xùn)中,系統(tǒng)可以分析手術(shù)視頻,為醫(yī)學(xué)生提供詳細(xì)的操作指導(dǎo)和評(píng)估。
內(nèi)容創(chuàng)作行業(yè)也將迎來(lái)變革。V-JEPA 2的視頻理解能力可以自動(dòng)生成視頻摘要、標(biāo)簽和描述,大大提升內(nèi)容管理的效率。在直播和短視頻平臺(tái)上,系統(tǒng)可以實(shí)時(shí)理解內(nèi)容并進(jìn)行智能推薦。
然而,研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前系統(tǒng)的局限性。V-JEPA 2-AC對(duì)相機(jī)位置較為敏感,這在實(shí)際部署中可能帶來(lái)挑戰(zhàn)。長(zhǎng)期規(guī)劃能力仍有待提升,目前系統(tǒng)主要適用于相對(duì)短期的任務(wù)規(guī)劃。此外,系統(tǒng)目前主要依賴(lài)圖像目標(biāo)進(jìn)行規(guī)劃,而在現(xiàn)實(shí)應(yīng)用中,更自然的方式可能是通過(guò)語(yǔ)言指令來(lái)指定任務(wù)目標(biāo)。
展望未來(lái),研究團(tuán)隊(duì)計(jì)劃在幾個(gè)方向上繼續(xù)推進(jìn)。首先是開(kāi)發(fā)層次化的世界模型,能夠在不同時(shí)間和空間尺度上進(jìn)行預(yù)測(cè)和規(guī)劃。其次是增強(qiáng)語(yǔ)言理解能力,讓系統(tǒng)能夠根據(jù)自然語(yǔ)言指令執(zhí)行任務(wù)。再次是擴(kuò)大模型規(guī)模,目前的10億參數(shù)模型已經(jīng)顯示出良好的擴(kuò)展性,更大規(guī)模的模型可能帶來(lái)質(zhì)的飛躍。
V-JEPA 2的成功也為AI安全研究提供了新的思路。通過(guò)自監(jiān)督學(xué)習(xí)而非強(qiáng)化學(xué)習(xí)訓(xùn)練的系統(tǒng)可能更加可控和可解釋。系統(tǒng)的預(yù)測(cè)能力可以用來(lái)評(píng)估行動(dòng)的后果,從而避免危險(xiǎn)行為。
這項(xiàng)研究最深遠(yuǎn)的意義在于它向我們展示了一條通向通用人工智能的可能路徑。通過(guò)大規(guī)模視頻數(shù)據(jù)的自監(jiān)督學(xué)習(xí),AI系統(tǒng)可以獲得對(duì)物理世界的深入理解,這是實(shí)現(xiàn)真正智能的重要基礎(chǔ)。正如研究團(tuán)隊(duì)所言,這項(xiàng)工作展示了如何通過(guò)觀察來(lái)學(xué)習(xí)理解、預(yù)測(cè)和規(guī)劃,這正是智能的核心特征。
當(dāng)然,從當(dāng)前的原型系統(tǒng)到真正的產(chǎn)品化應(yīng)用還有很長(zhǎng)的路要走。系統(tǒng)的魯棒性、安全性和可靠性都需要進(jìn)一步提升。但V-JEPA 2已經(jīng)為我們描繪了一個(gè)令人興奮的未來(lái)圖景:AI不再是處理特定任務(wù)的工具,而是能夠理解和適應(yīng)復(fù)雜現(xiàn)實(shí)世界的智能伙伴。
正如META首席AI科學(xué)家Yann LeCun所說(shuō),V-JEPA 2代表了向"觀察學(xué)習(xí)"這一核心AI目標(biāo)的重要進(jìn)步。這項(xiàng)研究證明了通過(guò)大規(guī)模自監(jiān)督學(xué)習(xí),我們可以訓(xùn)練出既能理解世界又能在其中有效行動(dòng)的AI系統(tǒng)。雖然距離真正的通用人工智能還有距離,但V-JEPA 2無(wú)疑是這條道路上的一個(gè)重要里程碑。
對(duì)于普通人來(lái)說(shuō),V-JEPA 2的意義在于它讓我們看到了AI技術(shù)從實(shí)驗(yàn)室走向現(xiàn)實(shí)生活的可能性。在不遠(yuǎn)的將來(lái),我們可能會(huì)看到更多基于這種技術(shù)的實(shí)際應(yīng)用,從智能家居助手到工業(yè)機(jī)器人,從教育工具到醫(yī)療設(shè)備。這些應(yīng)用將逐步改變我們的生活方式,讓科技真正服務(wù)于人類(lèi)的需求。
研究團(tuán)隊(duì)表示,他們將繼續(xù)開(kāi)源相關(guān)代碼和模型,希望全球的研究者和開(kāi)發(fā)者能夠基于這項(xiàng)工作開(kāi)發(fā)出更多有益的應(yīng)用。這種開(kāi)放合作的精神體現(xiàn)了科學(xué)研究的本質(zhì):通過(guò)共同努力推動(dòng)人類(lèi)知識(shí)的邊界,最終造福全人類(lèi)。
Q&A
Q1:V-JEPA 2和傳統(tǒng)AI視覺(jué)系統(tǒng)有什么本質(zhì)區(qū)別? A:傳統(tǒng)AI需要大量人工標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練,就像填鴨式教育。而V-JEPA 2采用自監(jiān)督學(xué)習(xí),通過(guò)觀看大量無(wú)標(biāo)注視頻自學(xué)成才,更像人類(lèi)通過(guò)觀察世界來(lái)理解規(guī)律。它不僅能識(shí)別物體,還能理解物理規(guī)律、預(yù)測(cè)未來(lái)并制定行動(dòng)計(jì)劃。
Q2:V-JEPA 2真的能控制機(jī)器人嗎?安全性如何? A:是的,V-JEPA 2-AC僅用62小時(shí)機(jī)器人視頻訓(xùn)練后就能零樣本控制機(jī)械臂完成抓取、搬運(yùn)等任務(wù),成功率達(dá)65-80%。由于采用自監(jiān)督學(xué)習(xí)而非強(qiáng)化學(xué)習(xí),系統(tǒng)相對(duì)更可控。但目前仍在研究階段,距離商業(yè)應(yīng)用還需要在安全性和可靠性方面進(jìn)一步完善。
Q3:普通人什么時(shí)候能用上基于V-JEPA 2的產(chǎn)品? A:雖然V-JEPA 2展現(xiàn)了巨大潛力,但從研究原型到實(shí)際產(chǎn)品還需要時(shí)間。預(yù)計(jì)在3-5年內(nèi)可能會(huì)看到基于類(lèi)似技術(shù)的家庭服務(wù)機(jī)器人、智能監(jiān)控系統(tǒng)或教育工具等初步應(yīng)用。META已經(jīng)開(kāi)源了相關(guān)代碼,這將加速技術(shù)的產(chǎn)業(yè)化進(jìn)程。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話(huà)題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。