av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 Google DeepMind重磅發(fā)現(xiàn):視頻AI不僅會"看",還會"推理"

Google DeepMind重磅發(fā)現(xiàn):視頻AI不僅會"看",還會"推理"

2025-10-15 01:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-15 01:09 ? 科技行者

這項由Google DeepMind的Thaddäus Wiedemer、Yuxuan Li、Paul Vicol等多位研究者共同完成的研究發(fā)表于2025年9月,論文編號為arXiv:2509.20328v2。有興趣深入了解的讀者可以通過該編號查詢完整論文。這項研究首次系統(tǒng)性地證明了視頻生成模型具備了令人驚訝的零樣本學(xué)習(xí)和推理能力。

想象一下,如果有一天你的電腦不僅能看懂圖片,還能像人類一樣思考和推理,那會是什么樣子?Google DeepMind的研究團(tuán)隊最近就發(fā)現(xiàn)了這樣一個令人興奮的現(xiàn)象。他們發(fā)現(xiàn),原本只是用來生成視頻的AI模型,竟然在沒有經(jīng)過專門訓(xùn)練的情況下,展現(xiàn)出了驚人的視覺理解和推理能力。

這就像是你買了一臺本來只用來播放音樂的設(shè)備,結(jié)果發(fā)現(xiàn)它還能自動識別歌曲類型、分析音樂情感,甚至能根據(jù)你的心情推薦合適的歌單。研究團(tuán)隊使用的是Google的Veo 3視頻生成模型,這個模型原本的"工作"是根據(jù)文字描述生成相應(yīng)的視頻。但是當(dāng)研究者們開始用它做各種視覺任務(wù)測試時,他們驚訝地發(fā)現(xiàn),這個模型竟然能夠完成從圖像分割、邊緣檢測到解決迷宮、理解物理定律等各種復(fù)雜任務(wù)。

這個發(fā)現(xiàn)的重要性在于,它預(yù)示著計算機(jī)視覺領(lǐng)域可能即將迎來一個重大轉(zhuǎn)折點。就像幾年前大語言模型徹底改變了自然語言處理領(lǐng)域一樣,視頻模型也可能成為計算機(jī)視覺的"萬能工具"。研究團(tuán)隊通過對18,384個生成視頻的分析,涵蓋了62個定性任務(wù)和7個定量任務(wù),系統(tǒng)性地驗證了這一發(fā)現(xiàn)。

一、從"看圖說話"到"深度理解":視頻AI的感知能力

傳統(tǒng)上,計算機(jī)要完成不同的視覺任務(wù)需要不同的專門工具,就像修理工需要螺絲刀修螺絲、扳手?jǐn)Q螺母一樣。但是Veo 3就像一把瑞士軍刀,一個工具就能完成多種任務(wù)。

在最基礎(chǔ)的感知層面,Veo 3展現(xiàn)出了令人印象深刻的能力。比如說,當(dāng)你給它一張模糊的照片時,它能夠自動將圖片變清晰,這就像是給近視眼戴上了眼鏡。更神奇的是,它還能從嘈雜的圖片中提取出清晰的信息,就像在嘈雜的餐廳里準(zhǔn)確聽出朋友的聲音一樣。

研究團(tuán)隊發(fā)現(xiàn),Veo 3能夠準(zhǔn)確地檢測圖像中的邊緣輪廓。在標(biāo)準(zhǔn)的邊緣檢測測試中,雖然它的表現(xiàn)還沒有達(dá)到專門設(shè)計的邊緣檢測算法的水平,但考慮到它從未接受過這方面的專門訓(xùn)練,這個結(jié)果已經(jīng)相當(dāng)令人驚訝了。更有趣的是,Veo 3生成的邊緣圖往往比標(biāo)準(zhǔn)答案更加詳細(xì),它會勾勒出樹葉的紋理和輪胎的花紋,這些細(xì)節(jié)在標(biāo)準(zhǔn)答案中通常被忽略了。

在圖像分割任務(wù)中,Veo 3需要將圖片中的不同物體用不同顏色標(biāo)記出來,就像給拼圖的每一塊涂上不同的顏色。研究結(jié)果顯示,Veo 3在這項任務(wù)上的表現(xiàn)可以與專門的圖像編輯工具相媲美。特別有趣的是,研究者們發(fā)現(xiàn)提示詞的選擇對結(jié)果有很大影響,使用綠色背景比白色背景的效果更好,這可能是因為綠幕在視頻制作中的廣泛應(yīng)用。

除了這些基礎(chǔ)能力,Veo 3還能處理一些更加復(fù)雜的視覺任務(wù)。比如它能夠理解著名的"斑點狗錯覺"圖片,這是一張看起來像是隨機(jī)黑白斑點的圖片,但仔細(xì)觀察會發(fā)現(xiàn)其中隱藏著一只狗的輪廓。這種能力表明Veo 3不僅能看到表面的像素,還能理解圖像的深層含義。

二、物理世界的"直覺":AI開始理解現(xiàn)實規(guī)律

更讓人驚訝的是,Veo 3似乎對物理世界有著某種"直覺"。這就像是一個從未接觸過物理課本的學(xué)生,卻能憑直覺判斷哪個球會先落地、哪個物體會浮在水面上。

在浮力測試中,研究者給Veo 3展示了一只手拿著不同物體的圖片,然后要求它預(yù)測松手后會發(fā)生什么。結(jié)果顯示,當(dāng)手中拿著石頭時,Veo 3正確預(yù)測石頭會沉入水中的成功率達(dá)到83%,而對于瓶蓋這樣的輕質(zhì)物體,它預(yù)測其會浮起來的準(zhǔn)確率也有58%。這種對浮力的理解并不是通過死記硬背物理公式獲得的,而是通過觀察大量視頻數(shù)據(jù)中的物理現(xiàn)象自然習(xí)得的。

Veo 3對重力和空氣阻力也有一定的理解。當(dāng)要求它模擬物體在地球和月球上的下落過程時,它能夠顯示出不同的下落速度,體現(xiàn)了對不同重力環(huán)境的理解。雖然準(zhǔn)確率只有50%,但考慮到這是零樣本學(xué)習(xí)的結(jié)果,這個表現(xiàn)已經(jīng)相當(dāng)不錯了。

在材料屬性方面,Veo 3展現(xiàn)出了對光學(xué)現(xiàn)象的理解。當(dāng)一個玻璃球在房間中滾動時,它能夠正確顯示透過玻璃球看到的倒立圖像,這需要對光的折射原理有基本的理解。同樣,當(dāng)鏡面球體滾動時,它也能正確顯示反射圖像,而且知道反射圖像不會倒立。

顏色混合是另一個有趣的測試領(lǐng)域。Veo 3能夠區(qū)分加法混色(如燈光混合)和減法混色(如顏料混合)的不同規(guī)律。當(dāng)紅色和綠色的聚光燈照射在同一區(qū)域時,它知道會產(chǎn)生黃色光,這遵循的是加法混色原理。而當(dāng)紅色和綠色顏料混合時,它知道會產(chǎn)生棕色,這符合減法混色的規(guī)律。

三、創(chuàng)造與改造:AI的圖像編輯天賦

除了理解現(xiàn)有的圖像,Veo 3還展現(xiàn)出了強(qiáng)大的圖像編輯和創(chuàng)造能力。這就像是擁有了一個永遠(yuǎn)不知疲倦、技藝精湛的數(shù)字藝術(shù)家。

在背景移除任務(wù)中,Veo 3能夠準(zhǔn)確識別圖像中的主體對象,并將背景替換為純色。這個過程就像是用魔法橡皮擦,能夠精確地擦除不需要的部分,同時保持主體的完整性。研究顯示,這項任務(wù)的成功率達(dá)到了83%,這對于一個沒有接受過專門訓(xùn)練的模型來說是相當(dāng)不錯的表現(xiàn)。

更令人印象深刻的是Veo 3的風(fēng)格轉(zhuǎn)換能力。它能夠?qū)⒁粡埰胀ǖ恼掌D(zhuǎn)換成不同的藝術(shù)風(fēng)格,就像是請不同流派的畫家重新繪制同一個場景。這種能力不僅僅是簡單的濾鏡效果,而是對圖像內(nèi)容的深度理解和重新詮釋。

在圖像修復(fù)方面,Veo 3展現(xiàn)出了"無中生有"的能力。當(dāng)給它一張有缺失部分的圖片時,它能夠根據(jù)周圍的內(nèi)容合理地填補空白區(qū)域。這就像是一個考古學(xué)家,能夠根據(jù)發(fā)現(xiàn)的碎片推測出完整文物的樣子。

三維空間理解是Veo 3的另一個強(qiáng)項。它能夠生成同一物體的不同視角,就像是擁有了一個虛擬的攝影棚,可以從任意角度拍攝物體。這種能力對于產(chǎn)品展示、建筑設(shè)計等領(lǐng)域具有重要的應(yīng)用價值。

在物體操作模擬方面,Veo 3能夠展示復(fù)雜的手部動作,比如如何打開罐子、如何投擲物體等。雖然這只是視覺模擬而不是真實的機(jī)器人操作,但它為機(jī)器人學(xué)習(xí)提供了新的思路。通過觀察這些模擬,機(jī)器人可能能夠更好地理解如何執(zhí)行類似的任務(wù)。

四、邏輯推理的萌芽:從"看"到"想"

最令人興奮的發(fā)現(xiàn)是,Veo 3開始展現(xiàn)出視覺推理的能力。這就像是從簡單的"看圖說話"進(jìn)化到了"看圖思考"。

在迷宮求解任務(wù)中,Veo 3需要找到從起點到終點的正確路徑。這不僅需要理解迷宮的結(jié)構(gòu),還需要進(jìn)行路徑規(guī)劃。研究結(jié)果顯示,在5×5的簡單迷宮中,Veo 3的成功率可以達(dá)到78%,這比它的前一代版本Veo 2的14%有了顯著提升。更有趣的是,Veo 3在不規(guī)則形狀的迷宮中也能找到正確路徑,這表明它的推理能力不僅限于規(guī)則的網(wǎng)格結(jié)構(gòu)。

視覺對稱性測試是另一個有趣的推理任務(wù)。給定一個圖案的一半,Veo 3需要補全另一半使整個圖案對稱。這就像是完成一個視覺拼圖,需要理解對稱的概念并將其應(yīng)用到具體的圖形中。研究顯示,Veo 3在這個任務(wù)上的表現(xiàn)遠(yuǎn)超其前代版本和其他圖像編輯工具。

在視覺類比推理中,Veo 3需要理解"A之于B,正如C之于?"這樣的關(guān)系。比如,如果給出一個紅色圓形變成藍(lán)色圓形的例子,然后給出一個紅色方形,它需要推斷出答案應(yīng)該是藍(lán)色方形。雖然Veo 3在顏色和大小變換方面表現(xiàn)不錯,但在旋轉(zhuǎn)和翻轉(zhuǎn)等空間變換方面還有待改進(jìn)。

數(shù)字排序是一個更加抽象的推理任務(wù)。Veo 3需要將隨機(jī)排列的數(shù)字按照大小順序重新排列。這個任務(wù)需要同時理解數(shù)字的含義和大小關(guān)系,然后在視覺空間中重新組織這些元素。雖然成功率還不是很高,但能夠完成這樣的任務(wù)本身就說明了模型具備了一定的抽象推理能力。

研究團(tuán)隊將這種逐幀推理的過程稱為"幀鏈思維"(Chain-of-Frames),這與大語言模型中的"思維鏈"(Chain-of-Thought)相對應(yīng)。就像語言模型通過逐步推理來解決復(fù)雜問題一樣,視頻模型通過逐幀生成來完成復(fù)雜的視覺推理任務(wù)。

五、從實驗室到現(xiàn)實:技術(shù)進(jìn)步的軌跡

研究團(tuán)隊通過對比Veo 2和Veo 3的性能,發(fā)現(xiàn)了一個令人鼓舞的趨勢:視頻模型的能力正在快速提升。這兩個版本發(fā)布時間相隔僅約半年,但在各項任務(wù)上的性能差異卻相當(dāng)顯著。

在邊緣檢測任務(wù)中,Veo 3的最佳表現(xiàn)達(dá)到了0.77的OIS分?jǐn)?shù),而Veo 2只有0.57。在圖像分割任務(wù)中,Veo 3達(dá)到了0.74的mIoU分?jǐn)?shù),Veo 2則為0.52。這種快速的性能提升表明,視頻模型正在沿著一條陡峭的學(xué)習(xí)曲線快速發(fā)展。

特別值得注意的是,研究團(tuán)隊發(fā)現(xiàn)增加嘗試次數(shù)能夠顯著提高成功率。這就像是給學(xué)生更多的考試機(jī)會,總能找到一次發(fā)揮最好的。在大多數(shù)任務(wù)中,嘗試10次的最佳結(jié)果都明顯好于只嘗試1次的結(jié)果,這為實際應(yīng)用提供了一個重要的策略:通過多次生成并選擇最佳結(jié)果來提高任務(wù)完成質(zhì)量。

然而,研究也發(fā)現(xiàn)了一些有趣的現(xiàn)象。Veo 3有一個"不安分"的特性,即使任務(wù)已經(jīng)完成,它也傾向于繼續(xù)生成動畫效果。這就像是一個停不下來的表演者,即使觀眾已經(jīng)鼓掌,還要繼續(xù)加演幾個節(jié)目。這種特性有時會影響最終幀的質(zhì)量,因為模型可能會在任務(wù)完成后繼續(xù)修改結(jié)果。

成本是另一個需要考慮的因素。目前,生成視頻的成本比運行專門的視覺任務(wù)模型要高得多。但是,正如研究團(tuán)隊指出的,這種情況在歷史上并不罕見。早期的大語言模型也曾被認(rèn)為成本過高而難以實用,但隨著技術(shù)的發(fā)展和規(guī)模的擴(kuò)大,成本迅速下降。據(jù)估算,大語言模型的推理成本每年下降9到900倍,視頻模型很可能也會遵循類似的趨勢。

六、未來展望:通用視覺智能的曙光

這項研究的意義遠(yuǎn)不止于展示一個模型的能力,它更像是為我們打開了一扇通往未來的窗戶。正如幾年前大語言模型的出現(xiàn)徹底改變了自然語言處理領(lǐng)域一樣,視頻模型可能即將引發(fā)計算機(jī)視覺領(lǐng)域的類似革命。

研究團(tuán)隊認(rèn)為,我們正處于計算機(jī)視覺的"GPT-3時刻"的邊緣。GPT-3的發(fā)布標(biāo)志著自然語言處理從任務(wù)特定模型向通用模型的轉(zhuǎn)變,而Veo 3的表現(xiàn)暗示著計算機(jī)視覺可能也即將經(jīng)歷類似的轉(zhuǎn)變。這種轉(zhuǎn)變的核心在于,單一的模型將能夠處理各種不同的視覺任務(wù),而不需要為每個任務(wù)單獨訓(xùn)練專門的模型。

當(dāng)然,目前的視頻模型還遠(yuǎn)未達(dá)到完美。在許多任務(wù)上,專門設(shè)計的模型仍然表現(xiàn)更好。但是,正如研究團(tuán)隊指出的,早期的大語言模型在許多任務(wù)上的表現(xiàn)也不如專門的模型,這并沒有阻止它們最終成為主流。關(guān)鍵在于通用性帶來的便利性和成本效益往往能夠彌補性能上的不足。

研究還揭示了一個重要的技術(shù)細(xì)節(jié):提示工程的重要性。就像與人交流需要選擇合適的詞語和表達(dá)方式一樣,與視頻模型交流也需要精心設(shè)計的提示。研究團(tuán)隊發(fā)現(xiàn),不同的提示方式可能導(dǎo)致40到64個百分點的性能差異,這強(qiáng)調(diào)了人機(jī)交互設(shè)計在未來AI系統(tǒng)中的重要地位。

從更廣闊的視角來看,這項研究為我們展示了一種新的AI發(fā)展模式。傳統(tǒng)上,我們?yōu)椴煌娜蝿?wù)開發(fā)不同的AI系統(tǒng),就像為不同的工作雇傭不同的專家。但是視頻模型展示了另一種可能性:通過大規(guī)模的數(shù)據(jù)訓(xùn)練,單一的模型可以獲得多種能力,就像培養(yǎng)一個多才多藝的通才。

這種發(fā)展模式的優(yōu)勢是顯而易見的。對于用戶來說,他們不需要學(xué)習(xí)使用多種不同的工具,一個界面就能完成各種任務(wù)。對于開發(fā)者來說,他們可以專注于改進(jìn)一個核心模型,而不是維護(hù)多個專門系統(tǒng)。對于整個行業(yè)來說,這種模式可能會大大降低AI技術(shù)的使用門檻,讓更多的人和組織能夠受益于AI的能力。

說到底,這項研究最重要的貢獻(xiàn)可能不是證明了Veo 3能做什么,而是為我們展示了AI發(fā)展的一個新方向。它告訴我們,通過適當(dāng)?shù)挠?xùn)練和足夠的數(shù)據(jù),AI系統(tǒng)可能會自然而然地獲得我們從未明確教授給它們的能力。這種"涌現(xiàn)"現(xiàn)象不僅在技術(shù)上令人興奮,也為我們理解智能本身提供了新的視角。

歸根結(jié)底,雖然我們還不能確定視頻模型是否真的會成為計算機(jī)視覺的未來,但這項研究無疑為這種可能性提供了強(qiáng)有力的證據(jù)。就像當(dāng)年第一次看到計算機(jī)下棋獲勝時的震撼一樣,看到AI能夠在沒有專門訓(xùn)練的情況下解決各種視覺問題,我們不禁要問:AI的邊界究竟在哪里?而這個問題的答案,可能會在不久的將來逐漸揭曉。對于那些想要深入了解這項研究技術(shù)細(xì)節(jié)的讀者,可以通過論文編號arXiv:2509.20328v2查詢完整的研究報告。

Q&A

Q1:Veo 3是什么?它和普通的視頻生成AI有什么不同?
A:Veo 3是Google DeepMind開發(fā)的視頻生成模型,最初設(shè)計用于根據(jù)文字描述生成視頻。但研究發(fā)現(xiàn)它具有驚人的零樣本學(xué)習(xí)能力,能夠在沒有專門訓(xùn)練的情況下完成圖像分割、邊緣檢測、迷宮求解等各種視覺任務(wù),這使它不僅僅是一個視頻生成工具,更像是一個通用的視覺智能系統(tǒng)。

Q2:視頻AI模型會完全取代現(xiàn)有的專門視覺工具嗎?
A:目前不會完全取代。在許多具體任務(wù)上,專門設(shè)計的模型仍然表現(xiàn)更好。但就像大語言模型逐漸取代了許多專門的自然語言處理工具一樣,視頻模型的通用性和便利性可能會讓它們在未來成為主流選擇,特別是當(dāng)成本下降和性能提升后。

Q3:普通用戶如何體驗這種視頻AI的能力?使用成本高嗎?
A:目前可以通過Google Cloud的Vertex AI API使用Veo模型,但成本相對較高。不過研究團(tuán)隊指出,AI推理成本歷史上都會快速下降,大語言模型的推理成本每年下降9到900倍,視頻模型很可能也會遵循類似趨勢,未來普通用戶使用這類技術(shù)的門檻會大大降低。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-