av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 從看電視到AI眼中的世界:Meta和UC Berkeley如何讓機(jī)器像人類一樣"看"視頻

從看電視到AI眼中的世界:Meta和UC Berkeley如何讓機(jī)器像人類一樣"看"視頻

2025-09-16 10:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-16 10:30 ? 科技行者

這項(xiàng)由Meta FAIR和UC Berkeley聯(lián)合進(jìn)行的研究于2025年1月發(fā)表在arXiv預(yù)印本平臺(tái)上,研究團(tuán)隊(duì)由Jathushan Rajasegaran、Ilija Radosavovic等多位學(xué)者組成。有興趣深入了解的讀者可以通過論文標(biāo)題"An Empirical Study of Autoregressive Pre-training from Videos"在arXiv平臺(tái)上找到完整論文。

當(dāng)我們看電視時(shí),大腦會(huì)根據(jù)前面的畫面預(yù)測(cè)接下來可能發(fā)生什么。如果一個(gè)人正在跑步,我們能預(yù)測(cè)他的下一個(gè)動(dòng)作;如果一輛車正在轉(zhuǎn)彎,我們能預(yù)測(cè)它的行駛軌跡?,F(xiàn)在,研究人員想讓人工智能也具備這種能力,不僅能理解單張照片,還能像人類一樣理解連續(xù)的視頻畫面。

這項(xiàng)研究的核心在于訓(xùn)練一個(gè)名為Toto的AI模型,讓它通過觀看大量視頻來學(xué)習(xí)預(yù)測(cè)下一個(gè)畫面。就像教孩子看圖說話一樣,研究團(tuán)隊(duì)讓Toto觀看了超過十萬小時(shí)的視頻內(nèi)容,包括日常生活、運(yùn)動(dòng)、各種活動(dòng)場(chǎng)景。通過這種訓(xùn)練,Toto不僅學(xué)會(huì)了識(shí)別圖像中的物體,還學(xué)會(huì)了理解動(dòng)作、預(yù)測(cè)物體的運(yùn)動(dòng)軌跡,甚至能在復(fù)雜場(chǎng)景中持續(xù)跟蹤特定目標(biāo)。

這種訓(xùn)練方式被稱為"自回歸預(yù)訓(xùn)練",本質(zhì)上就是讓AI通過"看前面猜后面"的游戲來學(xué)習(xí)理解世界。研究團(tuán)隊(duì)發(fā)現(xiàn),盡管這種方法看起來很簡(jiǎn)單,沒有復(fù)雜的規(guī)則和約束,但訓(xùn)練出的AI在各種視覺任務(wù)上都表現(xiàn)出色,包括圖像分類、視頻理解、物體跟蹤,甚至機(jī)器人操作。

更有趣的是,研究人員發(fā)現(xiàn)AI學(xué)習(xí)視頻的規(guī)律和人類學(xué)習(xí)語言的規(guī)律非常相似。當(dāng)我們?cè)黾痈嗟挠?jì)算資源和訓(xùn)練數(shù)據(jù)時(shí),AI的能力會(huì)按照一定規(guī)律持續(xù)提升,就像語言模型隨著規(guī)模增大而變得更聰明一樣。不過,視頻AI的提升速度比語言AI稍慢一些,這可能是因?yàn)橐曨l信息比文字信息更加復(fù)雜和冗余。

一、讓AI學(xué)會(huì)"看前猜后"的訓(xùn)練秘訣

要理解這項(xiàng)研究的核心方法,可以想象教一個(gè)孩子看連環(huán)畫的過程。當(dāng)孩子看到前幾幅畫后,我們會(huì)遮住后面的畫面,讓他猜測(cè)接下來會(huì)發(fā)生什么。Toto的訓(xùn)練過程本質(zhì)上就是這樣一個(gè)巨大規(guī)模的"看圖猜后續(xù)"游戲。

研究團(tuán)隊(duì)首先需要將視頻轉(zhuǎn)換成AI能夠理解的"語言"。就像我們需要將復(fù)雜的想法轉(zhuǎn)換成文字來表達(dá)一樣,視頻也需要被轉(zhuǎn)換成數(shù)字符號(hào)。他們使用了一種稱為dVAE的技術(shù),將每一幀視頻畫面轉(zhuǎn)換成256個(gè)離散的"視覺單詞"。這樣,一個(gè)16幀的短視頻片段就變成了4096個(gè)"單詞"組成的"句子"。

在這種轉(zhuǎn)換下,一張256×256像素的圖片被分解成16×16個(gè)小塊,每個(gè)小塊用一個(gè)特定的數(shù)字代碼表示。這個(gè)過程就像將一幅拼圖分解成小塊,然后用數(shù)字給每個(gè)小塊編號(hào)。通過這種方式,原本連續(xù)的視頻畫面變成了離散的數(shù)字序列,為后續(xù)的AI訓(xùn)練奠定了基礎(chǔ)。

Toto的核心架構(gòu)采用了類似GPT語言模型的transformer結(jié)構(gòu),但專門針對(duì)視頻內(nèi)容進(jìn)行了優(yōu)化。這種結(jié)構(gòu)讓AI能夠同時(shí)關(guān)注畫面中的多個(gè)位置和時(shí)間點(diǎn),就像人類看視頻時(shí)能同時(shí)注意到畫面中不同區(qū)域的變化一樣。研究團(tuán)隊(duì)構(gòu)建了三個(gè)不同規(guī)模的模型,參數(shù)量分別為1.2億、2.8億和11億,就像訓(xùn)練三個(gè)不同"智力水平"的AI學(xué)生。

訓(xùn)練數(shù)據(jù)的規(guī)模令人驚嘆。研究團(tuán)隊(duì)收集了包括ImageNet圖像數(shù)據(jù)集、Kinetics-600動(dòng)作視頻、Ego4D第一人稱視頻,以及HowTo100M教學(xué)視頻在內(nèi)的海量數(shù)據(jù)。這些數(shù)據(jù)總共包含超過十萬小時(shí)的視頻內(nèi)容和約1萬億個(gè)視覺"單詞"。相當(dāng)于讓AI觀看了幾千年的電視內(nèi)容,涵蓋了人類生活的方方面面。

在訓(xùn)練過程中,每個(gè)批次的數(shù)據(jù)按照特定比例混合:20%是靜態(tài)圖像,10%是第一人稱生活視頻,10%是動(dòng)作識(shí)別視頻,60%是教學(xué)類視頻。這種搭配就像給AI提供營(yíng)養(yǎng)均衡的"視覺餐",確保它能夠?qū)W習(xí)到不同類型的視覺模式和規(guī)律。整個(gè)訓(xùn)練過程使用了AdamW優(yōu)化器,學(xué)習(xí)率設(shè)置為0.0003,并采用余弦衰減策略逐漸降低學(xué)習(xí)率。

二、從像素到智能:視覺信息的魔法轉(zhuǎn)換

將連續(xù)的視頻畫面轉(zhuǎn)換成AI能夠理解的離散符號(hào),這個(gè)過程充滿了技術(shù)巧思。研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是選擇合適的"翻譯器",將豐富的視覺信息轉(zhuǎn)換成數(shù)字代碼,同時(shí)盡可能保留重要信息。

他們比較了三種主要的轉(zhuǎn)換方法。第一種是dVAE方法,將每個(gè)圖像塊轉(zhuǎn)換成8000個(gè)可能符號(hào)中的一個(gè),就像用8000種不同的"積木塊"來重建圖像。第二種是VQGAN方法,提供了1000到16000種不同的選擇。第三種是連續(xù)塊標(biāo)準(zhǔn)化方法,不使用離散符號(hào),而是保持連續(xù)的數(shù)值表示。

實(shí)驗(yàn)結(jié)果顯示,在相同分辨率下,dVAE和VQGAN的表現(xiàn)相當(dāng),都能達(dá)到約61%的圖像分類準(zhǔn)確率。然而,dVAE有一個(gè)重要優(yōu)勢(shì):它的符號(hào)使用更加均勻。通過分析1-gram分布發(fā)現(xiàn),dVAE幾乎使用了所有8000個(gè)可能的符號(hào),而VQGAN只使用了不到50%的符號(hào)。這就像一個(gè)詞匯豐富的作家使用了更多樣化的詞匯來表達(dá)思想,而不是反復(fù)使用同樣的詞語。

分辨率選擇也是一個(gè)關(guān)鍵考慮。更高分辨率意味著更多細(xì)節(jié),但也意味著更多計(jì)算成本。研究發(fā)現(xiàn),從低分辨率開始訓(xùn)練,然后微調(diào)到高分辨率,這種策略不僅節(jié)省了計(jì)算資源,還獲得了更好的最終性能。128×128分辨率訓(xùn)練后微調(diào)到256×256分辨率的模型,表現(xiàn)甚至超過了直接用256×256分辨率訓(xùn)練的模型。

這種現(xiàn)象的原因在于RoPE位置編碼的使用。RoPE允許模型在訓(xùn)練后適應(yīng)更長(zhǎng)的序列,就像一個(gè)學(xué)會(huì)了短篇寫作的作者可以逐步適應(yīng)長(zhǎng)篇?jiǎng)?chuàng)作。當(dāng)研究團(tuán)隊(duì)調(diào)整RoPE的基值參數(shù)從10000到50000時(shí),模型對(duì)高分辨率的適應(yīng)能力進(jìn)一步提升。

在架構(gòu)選擇方面,研究團(tuán)隊(duì)比較了三種不同的模型結(jié)構(gòu)。LLaMA架構(gòu)表現(xiàn)最佳,達(dá)到53.2%的準(zhǔn)確率,而傳統(tǒng)的GPT2架構(gòu)只有48.5%,新興的Mamba架構(gòu)為40.7%。這說明LLaMA的設(shè)計(jì)更適合視覺信息的處理,可能因?yàn)樗褂昧薘MSNorm標(biāo)準(zhǔn)化、SwiGLU激活函數(shù)和RoPE位置編碼等先進(jìn)技術(shù)。

三、解碼AI的"視覺大腦":不同層級(jí)的智能表現(xiàn)

當(dāng)我們深入研究Toto模型的內(nèi)部工作機(jī)制時(shí),發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:就像人腦的不同區(qū)域負(fù)責(zé)不同功能一樣,AI模型的不同層次也展現(xiàn)出不同的能力特征。這個(gè)發(fā)現(xiàn)對(duì)理解AI如何處理視覺信息具有重要意義。

在對(duì)模型不同層次的探測(cè)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚訝的規(guī)律。與傳統(tǒng)的編碼器-解碼器結(jié)構(gòu)不同,這種純解碼器模型的最佳表現(xiàn)出現(xiàn)在大約50%的深度位置。換句話說,既不是最淺層,也不是最深層,而是中間層提供了最好的視覺理解能力。

這種現(xiàn)象可以用一個(gè)生動(dòng)的比喻來理解。如果把AI模型比作一個(gè)復(fù)雜的視覺處理工廠,那么前半部分就像工廠的原料處理車間,負(fù)責(zé)將原始的視覺信息逐步提煉和抽象,形成越來越高級(jí)的特征表示。而后半部分則像產(chǎn)品組裝車間,將這些抽象特征重新組合,生成最終的預(yù)測(cè)結(jié)果。

這種結(jié)構(gòu)特征在不同任務(wù)上表現(xiàn)一致。無論是圖像分類、動(dòng)作識(shí)別還是物體跟蹤,所有模型規(guī)模都顯示出相同的規(guī)律:中間層表現(xiàn)最優(yōu)。但有一個(gè)例外值得注意,那就是機(jī)器人操作任務(wù)。在這類任務(wù)中,除了中間層表現(xiàn)良好外,最后幾層也顯示出不錯(cuò)的性能。

這個(gè)例外現(xiàn)象揭示了一個(gè)深刻的道理。機(jī)器人操作本質(zhì)上是一個(gè)生成性任務(wù),需要模型根據(jù)當(dāng)前觀察生成具體的動(dòng)作指令。因此,那些專門訓(xùn)練來生成下一個(gè)視覺符號(hào)的后期層次,恰好也適合生成動(dòng)作指令。這就像一個(gè)既會(huì)畫畫又會(huì)寫字的藝術(shù)家,他用來創(chuàng)作文字的技能也能幫助他更好地創(chuàng)作繪畫作品。

為了充分利用這些中間層的表示能力,研究團(tuán)隊(duì)采用了注意力池化技術(shù),而不是簡(jiǎn)單的平均池化。原因在于,在自回歸模型中,序列中較晚位置的符號(hào)能夠"看到"更多前面的信息,就像站在山頂?shù)娜吮日驹谏窖娜丝吹酶h(yuǎn)一樣。注意力池化允許模型動(dòng)態(tài)地給予這些"視野更廣"的位置更多權(quán)重。

實(shí)驗(yàn)證明,注意力池化比平均池化的效果好7.9個(gè)百分點(diǎn),這個(gè)提升相當(dāng)可觀。這種方法學(xué)習(xí)兩個(gè)權(quán)重矩陣和一個(gè)查詢向量,通過交叉注意力機(jī)制將所有位置的信息整合成單一的表示向量。雖然這增加了一些計(jì)算成本,但顯著提升了下游任務(wù)的性能。

四、從理論到實(shí)踐:全面驗(yàn)證AI的視覺理解能力

研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的測(cè)試來驗(yàn)證Toto模型的實(shí)際能力,這些測(cè)試覆蓋了從基礎(chǔ)圖像識(shí)別到復(fù)雜視頻理解的各個(gè)方面。每個(gè)測(cè)試都像是給AI學(xué)生出的不同類型的"期末考試",檢驗(yàn)它在不同領(lǐng)域的學(xué)習(xí)成果。

在圖像識(shí)別這個(gè)最基礎(chǔ)的測(cè)試中,Toto在ImageNet數(shù)據(jù)集上的表現(xiàn)令人矚目?;A(chǔ)版本達(dá)到64.7%的準(zhǔn)確率,大型版本提升到71.1%,而10億參數(shù)的版本更是達(dá)到了75.3%。雖然這個(gè)成績(jī)還無法與專門設(shè)計(jì)用于判別任務(wù)的模型相比(比如DINO的80.1%),但在生成式模型中已經(jīng)是相當(dāng)優(yōu)秀的表現(xiàn)。

更重要的是,當(dāng)我們將Toto與同樣采用自回歸方式訓(xùn)練的iGPT模型對(duì)比時(shí),優(yōu)勢(shì)就很明顯了。在相似的10億參數(shù)規(guī)模下,Toto達(dá)到75.3%的準(zhǔn)確率,而iGPT-XL只有72%。這個(gè)4個(gè)百分點(diǎn)的提升證明了Toto在模型設(shè)計(jì)和訓(xùn)練策略上的優(yōu)勢(shì)。特別值得一提的是,Toto用1.1萬億視覺符號(hào)的訓(xùn)練數(shù)據(jù)就達(dá)到了與iGPT用更多數(shù)據(jù)訓(xùn)練的相當(dāng)性能。

在視頻理解方面,Toto展現(xiàn)出了更加令人印象深刻的能力。在Kinetics-400動(dòng)作識(shí)別數(shù)據(jù)集上,基礎(chǔ)版本達(dá)到59.3%,大型版本提升到65.3%,10億參數(shù)版本更是達(dá)到74.4%。這個(gè)成績(jī)已經(jīng)接近專門設(shè)計(jì)的視頻理解模型,比如VideoMAE的79.8%。考慮到Toto是一個(gè)通用模型,這個(gè)表現(xiàn)相當(dāng)不錯(cuò)。

視頻預(yù)測(cè)任務(wù)更能體現(xiàn)Toto對(duì)時(shí)間序列的理解能力。在Ego4D短期動(dòng)作預(yù)測(cè)任務(wù)中,模型需要觀看一個(gè)人的動(dòng)作,然后預(yù)測(cè)他接下來可能與什么物體交互、進(jìn)行什么操作,以及這個(gè)交互何時(shí)發(fā)生。Toto-large模型在這個(gè)任務(wù)上達(dá)到2.70的平均精度,超過了專門設(shè)計(jì)的StillFast模型的2.48分。

物體跟蹤是另一個(gè)重要的測(cè)試項(xiàng)目。在這個(gè)任務(wù)中,模型需要在視頻序列中持續(xù)跟蹤特定目標(biāo),即使目標(biāo)被其他物體遮擋或部分消失也要保持跟蹤。Toto在DAVIS數(shù)據(jù)集上的表現(xiàn)相當(dāng)出色,特別是在512×512高分辨率下達(dá)到62.4的J&F分?jǐn)?shù),超過了DINO等專門模型。

最令人興奮的可能是機(jī)器人應(yīng)用測(cè)試。研究團(tuán)隊(duì)在模擬環(huán)境中測(cè)試了四個(gè)不同的機(jī)器人操作任務(wù):Franka機(jī)械臂抓取、Kuka機(jī)械臂抓取、Franka機(jī)械臂開柜門和Kuka機(jī)械臂開柜門。在所有四個(gè)任務(wù)中,使用Toto預(yù)訓(xùn)練特征的機(jī)器人都比使用傳統(tǒng)MAE預(yù)訓(xùn)練特征的機(jī)器人學(xué)習(xí)得更快,達(dá)到目標(biāo)性能所需的訓(xùn)練步數(shù)更少。

真實(shí)世界的機(jī)器人測(cè)試更加嚴(yán)格。研究團(tuán)隊(duì)使用7自由度Franka機(jī)械臂進(jìn)行立方體抓取任務(wù),Toto-base模型達(dá)到了63%的成功率,雖然略低于專門為機(jī)器人設(shè)計(jì)的MVP模型的75%,但考慮到Toto并非專門為機(jī)器人應(yīng)用設(shè)計(jì),這個(gè)成績(jī)已經(jīng)相當(dāng)不錯(cuò)。

五、意想不到的發(fā)現(xiàn):AI也有"物體永恒性"概念

在所有測(cè)試中,最有趣的發(fā)現(xiàn)之一是Toto在物體永恒性理解方面的能力。物體永恒性是心理學(xué)中的一個(gè)重要概念,指的是即使物體暫時(shí)從視野中消失,我們也知道它仍然存在。這是人類智力發(fā)展的一個(gè)重要里程碑,通常在嬰兒8-12個(gè)月時(shí)開始顯現(xiàn)。

研究團(tuán)隊(duì)使用CATER數(shù)據(jù)集來測(cè)試這種能力。在這個(gè)任務(wù)中,一個(gè)小球在場(chǎng)景中移動(dòng),但會(huì)被其他物體遮擋或隱藏。模型需要在看不到球的情況下,推測(cè)球的最終位置。這就像玩杯中球游戲,需要在杯子不斷移動(dòng)的過程中記住球在哪個(gè)杯子下面。

Toto-large模型在這個(gè)任務(wù)上表現(xiàn)出色,在16幀測(cè)試中達(dá)到62.8%的準(zhǔn)確率,在32幀測(cè)試中達(dá)到72.9%的準(zhǔn)確率。這個(gè)成績(jī)超過了專門設(shè)計(jì)用于這類任務(wù)的V3D和TFC-V3D模型。更有趣的是,更長(zhǎng)的視頻序列(32幀vs16幀)帶來了更好的性能,說明模型確實(shí)學(xué)會(huì)了利用時(shí)間信息來推理被遮擋物體的位置。

這種能力的出現(xiàn)是自然涌現(xiàn)的結(jié)果,并非研究團(tuán)隊(duì)特意設(shè)計(jì)。Toto通過觀看大量視頻自然學(xué)會(huì)了物體在空間中的連續(xù)性概念,理解了即使暫時(shí)看不到物體,它們依然遵循物理定律繼續(xù)存在和移動(dòng)。這種理解對(duì)于真實(shí)世界的應(yīng)用至關(guān)重要,比如自動(dòng)駕駛汽車需要記住被其他車輛暫時(shí)遮擋的行人位置。

除了基本的物體永恒性,Toto還展現(xiàn)出了更復(fù)雜的時(shí)空推理能力。在處理視頻時(shí),模型學(xué)會(huì)了預(yù)測(cè)物體的運(yùn)動(dòng)軌跡,理解不同物體之間的交互關(guān)系,甚至能夠推斷出某些因果關(guān)系。這些能力都不是通過明確的規(guī)則編程實(shí)現(xiàn)的,而是通過大量觀看視頻數(shù)據(jù)自然涌現(xiàn)的。

六、規(guī)模的力量:視覺AI的成長(zhǎng)規(guī)律

就像生物學(xué)家發(fā)現(xiàn)動(dòng)物的大腦大小與智力水平之間存在某種關(guān)系一樣,研究團(tuán)隊(duì)發(fā)現(xiàn)了AI模型規(guī)模與性能之間的數(shù)學(xué)關(guān)系。這種關(guān)系被稱為"縮放定律",它揭示了增加計(jì)算資源和模型參數(shù)如何轉(zhuǎn)化為性能提升。

通過訓(xùn)練六個(gè)不同規(guī)模的模型(參數(shù)量從1480萬到19億),研究團(tuán)隊(duì)發(fā)現(xiàn)Toto遵循著明確的冪律關(guān)系:L(C) = 7.32 × C^(-0.0378)。這個(gè)公式告訴我們,當(dāng)計(jì)算資源增加時(shí),模型的損失(可以理解為"錯(cuò)誤率")會(huì)按照特定比例下降。簡(jiǎn)單來說,投入更多計(jì)算資源確實(shí)能夠帶來更好的性能,而且這種提升是可預(yù)測(cè)的。

有趣的是,這個(gè)縮放規(guī)律與大型語言模型的縮放規(guī)律既相似又不同。GPT-3的縮放公式是L(C) = 2.57 × C^(-0.048),指數(shù)部分-0.048比Toto的-0.0378更大,意味著語言模型對(duì)計(jì)算資源的利用效率更高。換句話說,同樣增加一倍的計(jì)算資源,語言模型的性能提升會(huì)比視覺模型更明顯。

這種差異可能源于視頻數(shù)據(jù)的特殊性質(zhì)。視頻幀之間存在大量冗余信息,相鄰幀往往非常相似,這使得"預(yù)測(cè)下一幀"這個(gè)任務(wù)比"預(yù)測(cè)下一個(gè)詞"相對(duì)容易一些。研究團(tuán)隊(duì)通過分析發(fā)現(xiàn),在16幀視頻序列中,第一幀的預(yù)測(cè)損失最高,后續(xù)幀的預(yù)測(cè)損失逐漸降低并趨于穩(wěn)定。這說明模型很快學(xué)會(huì)了利用時(shí)間冗余來簡(jiǎn)化預(yù)測(cè)任務(wù)。

盡管視覺模型的縮放效率略低于語言模型,但這種可預(yù)測(cè)的縮放關(guān)系依然具有重要價(jià)值。它為研究團(tuán)隊(duì)和工程師提供了明確的指導(dǎo):如果想要達(dá)到特定的性能目標(biāo),需要投入多少計(jì)算資源;如果預(yù)算有限,能夠期望達(dá)到什么樣的性能水平。

為了找到最優(yōu)的縮放策略,研究團(tuán)隊(duì)使用了μ參數(shù)化技術(shù)。這種技術(shù)確保了不同規(guī)模的模型都能使用相同的學(xué)習(xí)率(2^(-7) = 0.0078125),簡(jiǎn)化了訓(xùn)練過程。通過系統(tǒng)性的實(shí)驗(yàn),他們證明了線性增加模型寬度和深度是一種有效的縮放策略。

七、突破與局限:誠實(shí)面對(duì)研究的邊界

每項(xiàng)研究都有其光輝的成就和誠實(shí)的局限,這項(xiàng)工作也不例外。在取得令人矚目成果的同時(shí),研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前方法的不足之處和未來需要改進(jìn)的方向。

最明顯的局限來自于訓(xùn)練數(shù)據(jù)的質(zhì)量。由于使用了大量來自互聯(lián)網(wǎng)的視頻數(shù)據(jù),不可避免地包含了質(zhì)量參差不齊的內(nèi)容。與精心策劃的數(shù)據(jù)集相比,這種"野生"數(shù)據(jù)包含噪聲、模糊片段、甚至錯(cuò)誤標(biāo)注的內(nèi)容。這種數(shù)據(jù)質(zhì)量的不一致性會(huì)影響模型的最終性能,特別是在需要精確理解的任務(wù)中。

另一個(gè)重要局限是對(duì)分詞器的依賴。目前的方法需要先將連續(xù)的視頻畫面轉(zhuǎn)換成離散的符號(hào),然后再進(jìn)行訓(xùn)練。這種轉(zhuǎn)換過程不可避免地會(huì)丟失一些信息,就像將高清照片壓縮成低分辨率圖像一樣。更關(guān)鍵的是,模型的表現(xiàn)上限受到分詞器質(zhì)量的制約。即使后續(xù)的AI學(xué)習(xí)過程再完美,也無法超越分詞器本身的信息提取能力。

視頻數(shù)據(jù)的冗余性也帶來了挑戰(zhàn)。相鄰視頻幀之間的高度相似性雖然降低了預(yù)測(cè)難度,但也可能阻礙模型學(xué)習(xí)更深層的時(shí)間模式。模型可能過度依賴簡(jiǎn)單的時(shí)間插值,而沒有真正理解復(fù)雜的動(dòng)態(tài)過程。這就像一個(gè)學(xué)生通過記憶相似題目的答案來應(yīng)付考試,而沒有真正掌握解題的原理。

在任務(wù)覆蓋范圍方面,當(dāng)前的評(píng)估主要集中在分類、識(shí)別和跟蹤等相對(duì)基礎(chǔ)的任務(wù)上。對(duì)于更復(fù)雜的密集預(yù)測(cè)任務(wù)(如語義分割、深度估計(jì))、細(xì)粒度識(shí)別(如區(qū)分不同品種的鳥類),以及長(zhǎng)時(shí)間跨度的時(shí)間理解,模型的能力還沒有得到充分驗(yàn)證。

研究團(tuán)隊(duì)的設(shè)計(jì)選擇評(píng)估也主要基于ImageNet分類任務(wù)的表現(xiàn)。雖然這個(gè)任務(wù)具有一定代表性,但可能不是所有應(yīng)用場(chǎng)景的最優(yōu)配置。不同任務(wù)可能需要不同的架構(gòu)設(shè)計(jì)、訓(xùn)練策略和數(shù)據(jù)配比,這些都需要進(jìn)一步的研究和優(yōu)化。

八、未來展望:視覺AI的無限可能

盡管存在這些局限,這項(xiàng)研究為視覺AI的發(fā)展開辟了一條充滿希望的道路。它證明了簡(jiǎn)單的"看前猜后"策略能夠讓AI獲得豐富的視覺理解能力,為構(gòu)建更加通用的視覺智能系統(tǒng)提供了重要啟發(fā)。

從技術(shù)發(fā)展角度來看,這項(xiàng)工作最重要的貢獻(xiàn)是證明了視覺領(lǐng)域也存在類似語言模型的縮放規(guī)律。這意味著隨著計(jì)算能力的提升和數(shù)據(jù)規(guī)模的擴(kuò)大,視覺AI的能力將繼續(xù)按照可預(yù)測(cè)的方式增長(zhǎng)。這為未來的研究投資和技術(shù)規(guī)劃提供了科學(xué)依據(jù)。

在實(shí)際應(yīng)用方面,Toto展現(xiàn)出的多任務(wù)能力特別有價(jià)值。一個(gè)模型能夠同時(shí)處理圖像分類、視頻理解、物體跟蹤和機(jī)器人控制等不同任務(wù),這大大降低了系統(tǒng)的復(fù)雜性和維護(hù)成本。未來,我們可能看到更多基于這種通用視覺模型的應(yīng)用,從智能監(jiān)控到自動(dòng)駕駛,從醫(yī)療影像分析到增強(qiáng)現(xiàn)實(shí)。

對(duì)于機(jī)器人領(lǐng)域來說,這項(xiàng)研究特別具有啟發(fā)意義。傳統(tǒng)的機(jī)器人視覺系統(tǒng)往往需要針對(duì)特定任務(wù)進(jìn)行精心設(shè)計(jì)和調(diào)優(yōu),而Toto展現(xiàn)的通用視覺能力可能讓機(jī)器人更容易適應(yīng)新環(huán)境和新任務(wù)。一個(gè)經(jīng)過大規(guī)模視頻預(yù)訓(xùn)練的機(jī)器人可能只需要少量特定任務(wù)的訓(xùn)練就能勝任復(fù)雜的操作。

在創(chuàng)意應(yīng)用方面,具備時(shí)間理解能力的AI模型開辟了全新的可能性。從自動(dòng)視頻編輯、智能內(nèi)容推薦,到沉浸式虛擬現(xiàn)實(shí)體驗(yàn),這些應(yīng)用都需要AI深刻理解視頻內(nèi)容的時(shí)空結(jié)構(gòu)。Toto在這些方向上展現(xiàn)的潛力令人期待。

說到底,這項(xiàng)研究最重要的價(jià)值在于它的哲學(xué)啟示:智能不一定需要復(fù)雜的規(guī)則和精巧的設(shè)計(jì),有時(shí)候最簡(jiǎn)單的學(xué)習(xí)原理就能產(chǎn)生最強(qiáng)大的能力。就像人類嬰兒通過觀察世界就能自然發(fā)展出豐富的認(rèn)知能力一樣,AI也能通過"觀看"大量視頻數(shù)據(jù)自然涌現(xiàn)出各種智能行為。這種發(fā)現(xiàn)讓我們對(duì)構(gòu)建真正通用的人工智能系統(tǒng)更加樂觀。

當(dāng)然,距離創(chuàng)建能夠像人類一樣理解和互動(dòng)世界的AI系統(tǒng),我們還有很長(zhǎng)的路要走。但這項(xiàng)研究無疑是朝著正確方向邁出的重要一步。它不僅推動(dòng)了技術(shù)邊界,更重要的是為整個(gè)領(lǐng)域提供了新的思考框架和研究范式。在AI快速發(fā)展的今天,這樣的基礎(chǔ)性探索具有不可估量的價(jià)值。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過搜索"An Empirical Study of Autoregressive Pre-training from Videos"在學(xué)術(shù)平臺(tái)上找到完整論文,其中包含了詳細(xì)的實(shí)驗(yàn)設(shè)計(jì)、數(shù)學(xué)推導(dǎo)和補(bǔ)充分析。

Q&A

Q1:Toto模型是如何學(xué)習(xí)理解視頻的?

A:Toto采用"看前猜后"的訓(xùn)練方式,就像教孩子看連環(huán)畫一樣。它觀看了超過十萬小時(shí)的各種視頻內(nèi)容,包括日常生活、運(yùn)動(dòng)場(chǎng)景等,通過不斷預(yù)測(cè)下一個(gè)畫面來學(xué)習(xí)理解視覺世界的規(guī)律。這種方法被稱為自回歸預(yù)訓(xùn)練,讓AI自然獲得了圖像識(shí)別、動(dòng)作理解和物體跟蹤等多種能力。

Q2:為什么視覺AI的縮放效率比語言模型低?

A:主要因?yàn)橐曨l數(shù)據(jù)的冗余性更高。相鄰的視頻幀往往非常相似,這使得"預(yù)測(cè)下一幀"比"預(yù)測(cè)下一個(gè)詞"相對(duì)容易一些。研究發(fā)現(xiàn)第一幀預(yù)測(cè)最難,后續(xù)幀預(yù)測(cè)逐漸變?nèi)菀祝f明模型很快學(xué)會(huì)利用時(shí)間冗余。因此同樣增加計(jì)算資源,視覺模型的性能提升沒有語言模型那么明顯。

Q3:Toto在實(shí)際應(yīng)用中表現(xiàn)如何?

A:Toto在多個(gè)任務(wù)中都表現(xiàn)出色。在圖像分類上達(dá)到75.3%準(zhǔn)確率,在視頻理解任務(wù)中達(dá)到74.4%,在物體跟蹤和機(jī)器人操作中也超越了多個(gè)專門模型。特別值得一提的是,它展現(xiàn)出了"物體永恒性"理解能力,能夠跟蹤被遮擋的物體,這種能力是通過觀看視頻自然涌現(xiàn)的,并非特意設(shè)計(jì)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-