av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 Meta FAIR實(shí)驗(yàn)室發(fā)布視覺語言世界模型VLWM:AI智能體終于學(xué)會(huì)"想象"和"推理"來制定計(jì)劃

Meta FAIR實(shí)驗(yàn)室發(fā)布視覺語言世界模型VLWM:AI智能體終于學(xué)會(huì)"想象"和"推理"來制定計(jì)劃

2025-09-22 10:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-22 10:26 ? 科技行者

這項(xiàng)由Meta FAIR實(shí)驗(yàn)室的陳德龍(Delong Chen)、Théo Moutakanni等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年9月,研究論文可通過arXiv:2509.02722v2訪問。有興趣深入了解的讀者可以關(guān)注這一突破性的人工智能規(guī)劃技術(shù)進(jìn)展。

想象一下你正在廚房里準(zhǔn)備做一道番茄炒蛋。在動(dòng)手之前,你的大腦會(huì)自動(dòng)"預(yù)演"整個(gè)過程:先預(yù)熱平底鍋,然后打散雞蛋,接著下鍋炒制,最后加入番茄調(diào)味。這種在腦海中模擬未來行動(dòng)的能力,正是人類智能的核心特征之一。而現(xiàn)在,Meta FAIR的研究團(tuán)隊(duì)成功讓AI也具備了這種"想象未來"的能力。

傳統(tǒng)的AI系統(tǒng)就像一個(gè)只會(huì)照著菜譜按部就班操作的新手廚師,它們只能根據(jù)既定的指令執(zhí)行任務(wù),缺乏靈活性和前瞻性。一旦遇到意外情況或需要做出復(fù)雜決策時(shí),這些系統(tǒng)往往表現(xiàn)得束手無策。Meta FAIR的研究團(tuán)隊(duì)意識(shí)到,要讓AI真正智能化,就必須賦予它們類似人類的"世界模型"能力——也就是在內(nèi)心構(gòu)建一個(gè)虛擬世界,在這個(gè)世界中預(yù)演不同的行動(dòng)方案,然后選擇最優(yōu)的執(zhí)行路徑。

研究團(tuán)隊(duì)開發(fā)的視覺語言世界模型(Vision Language World Model,簡(jiǎn)稱VLWM)就像是給AI裝上了一個(gè)"想象力引擎"。這個(gè)引擎可以觀看視頻,理解當(dāng)前的環(huán)境狀態(tài),然后在"腦海"中模擬出執(zhí)行不同行動(dòng)后可能產(chǎn)生的結(jié)果。更重要的是,VLWM不是用復(fù)雜的數(shù)學(xué)公式來表示這些想象,而是用自然語言來描述,就像人類在心中自言自語一樣。

這項(xiàng)研究的創(chuàng)新之處在于提出了兩種不同的規(guī)劃模式。第一種叫做"系統(tǒng)-1規(guī)劃",就像是一個(gè)經(jīng)驗(yàn)豐富的廚師,憑借直覺和經(jīng)驗(yàn)快速做出反應(yīng)。當(dāng)遇到熟悉的情況時(shí),AI可以立即生成行動(dòng)計(jì)劃,效率極高。第二種叫做"系統(tǒng)-2規(guī)劃",則更像是一個(gè)深思熟慮的戰(zhàn)略家,會(huì)在腦海中反復(fù)權(quán)衡不同方案的利弊,最終選擇成本最低、效果最好的行動(dòng)路徑。

為了訓(xùn)練這個(gè)系統(tǒng),研究團(tuán)隊(duì)可謂下了"血本"。他們收集了超過18萬個(gè)視頻,涵蓋800多天的錄像內(nèi)容,這些視頻包括YouTube上的教學(xué)視頻、專業(yè)烹飪節(jié)目,以及從第一人稱視角拍攝的日?;顒?dòng)記錄。研究團(tuán)隊(duì)將這些視頻轉(zhuǎn)換成了一種叫做"標(biāo)題樹"的結(jié)構(gòu)化文本表示,總共生成了2100萬個(gè)詳細(xì)的視頻說明,包含超過2.7萬億個(gè)詞匯。

在處理這些海量數(shù)據(jù)時(shí),研究團(tuán)隊(duì)面臨了一個(gè)技術(shù)難題:如何在有限的計(jì)算資源下同時(shí)保證高清畫質(zhì)、長(zhǎng)時(shí)間跨度和復(fù)雜理解能力?他們的解決方案相當(dāng)巧妙,采用了兩階段策略。首先,將原始視頻壓縮成分層的文本描述,大大減少了數(shù)據(jù)量;然后,使用大型語言模型對(duì)這些文本進(jìn)行精細(xì)化處理,提取出結(jié)構(gòu)化的目標(biāo)-計(jì)劃表示。

VLWM的工作原理可以用一個(gè)生動(dòng)的比喻來解釋。假設(shè)你要教一個(gè)機(jī)器人做菜,傳統(tǒng)方法是給它一本詳細(xì)的食譜,告訴它每一步該做什么。而VLWM的方法則是讓機(jī)器人觀看大量的烹飪視頻,學(xué)會(huì)理解"預(yù)熱鍋?zhàn)訒?huì)讓食物不粘鍋"、"先炒雞蛋再加番茄會(huì)保持雞蛋的嫩滑"等因果關(guān)系。當(dāng)需要做一道新菜時(shí),機(jī)器人可以在"腦海"中模擬不同的操作順序,預(yù)測(cè)每種做法的結(jié)果,然后選擇最佳方案。

系統(tǒng)-2規(guī)劃模式的核心是一個(gè)"評(píng)價(jià)員"模塊,就像是一個(gè)苛刻的美食評(píng)委,專門負(fù)責(zé)給不同的行動(dòng)方案打分。這個(gè)評(píng)價(jià)員通過自監(jiān)督學(xué)習(xí)獲得了辨別好壞的能力。研究團(tuán)隊(duì)設(shè)計(jì)了多種訓(xùn)練策略:讓評(píng)價(jià)員學(xué)會(huì)區(qū)分有意義的進(jìn)展和無關(guān)的干擾動(dòng)作,識(shí)別正確的操作順序和錯(cuò)誤的步驟排列。通過這種訓(xùn)練,評(píng)價(jià)員能夠準(zhǔn)確衡量每個(gè)候選計(jì)劃與目標(biāo)狀態(tài)的接近程度。

研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試中驗(yàn)證了VLWM的效果。在視覺規(guī)劃輔助(VPA)基準(zhǔn)測(cè)試中,VLWM在成功率、準(zhǔn)確性和覆蓋度等關(guān)鍵指標(biāo)上都取得了顯著提升。更令人印象深刻的是,在他們專門設(shè)計(jì)的"規(guī)劃師競(jìng)技場(chǎng)"人類評(píng)估中,VLWM系統(tǒng)-2模式生成的計(jì)劃獲得了人類評(píng)估者的廣泛認(rèn)可,Elo評(píng)分達(dá)到1261分,遠(yuǎn)超其他對(duì)比模型。

特別值得關(guān)注的是,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)集的標(biāo)準(zhǔn)答案質(zhì)量普遍不高。在某些情況下,VLWM生成的計(jì)劃甚至比數(shù)據(jù)集提供的"標(biāo)準(zhǔn)答案"更受人類評(píng)估者青睞。這一發(fā)現(xiàn)揭示了當(dāng)前AI研究中一個(gè)重要問題:我們用來評(píng)估AI性能的基準(zhǔn)數(shù)據(jù)可能本身就存在質(zhì)量問題。

VLWM在機(jī)器人問答(RoboVQA)基準(zhǔn)測(cè)試中也表現(xiàn)出色,在BLEU-1評(píng)分中達(dá)到74.2分,超越了多個(gè)專門針對(duì)機(jī)器人任務(wù)設(shè)計(jì)的強(qiáng)基線模型。這證明了VLWM不僅能夠進(jìn)行抽象規(guī)劃,還能在具體的機(jī)器人應(yīng)用場(chǎng)景中發(fā)揮作用。

研究團(tuán)隊(duì)還對(duì)評(píng)價(jià)員模塊進(jìn)行了深入分析。在目標(biāo)達(dá)成檢測(cè)任務(wù)中,VLWM的評(píng)價(jià)員在各種測(cè)試場(chǎng)景中都表現(xiàn)出了出色的判斷能力,能夠準(zhǔn)確識(shí)別何時(shí)任務(wù)目標(biāo)已經(jīng)完成。即使在面對(duì)從未見過的任務(wù)類型時(shí),評(píng)價(jià)員仍能保持較高的準(zhǔn)確率,展現(xiàn)了良好的泛化能力。

從技術(shù)角度來看,VLWM采用了聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)的設(shè)計(jì)理念,但將預(yù)測(cè)目標(biāo)從像素級(jí)圖像改為了語言描述。這種設(shè)計(jì)既保持了預(yù)測(cè)的準(zhǔn)確性,又大大提高了計(jì)算效率。相比于生成式模型需要預(yù)測(cè)每個(gè)像素的顏色值,語言描述只需要捕捉任務(wù)相關(guān)的關(guān)鍵信息,避免了不必要的計(jì)算開銷。

在實(shí)際應(yīng)用中,VLWM展現(xiàn)了強(qiáng)大的適應(yīng)性。無論是簡(jiǎn)單的日常任務(wù)如煮飯、整理房間,還是復(fù)雜的專業(yè)操作如設(shè)備維修、實(shí)驗(yàn)流程,VLWM都能生成合理的行動(dòng)計(jì)劃。系統(tǒng)能夠根據(jù)不同的情境自動(dòng)調(diào)整策略:對(duì)于簡(jiǎn)單熟悉的任務(wù)使用快速的系統(tǒng)-1模式,對(duì)于復(fù)雜困難的任務(wù)則啟用深度思考的系統(tǒng)-2模式。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)了VLWM在可解釋性方面的優(yōu)勢(shì)。傳統(tǒng)的AI規(guī)劃系統(tǒng)往往像是一個(gè)"黑盒子",我們只能看到輸入和輸出,卻無法理解中間的決策過程。而VLWM使用自然語言來表示世界狀態(tài)和推理過程,使得其決策過程完全透明可理解。當(dāng)VLWM建議"先預(yù)熱平底鍋再打蛋"時(shí),它會(huì)明確解釋:"預(yù)熱可以防止雞蛋粘鍋,確??诟心刍?,讓用戶完全明白推理邏輯。

為了確保研究結(jié)果的可重現(xiàn)性,研究團(tuán)隊(duì)承諾將開源VLWM的模型和數(shù)據(jù)。這意味著全球的研究者都能在此基礎(chǔ)上進(jìn)一步改進(jìn)和擴(kuò)展,加速整個(gè)領(lǐng)域的發(fā)展進(jìn)步。開源策略也體現(xiàn)了Meta FAIR一貫的研究理念:通過開放合作推動(dòng)人工智能技術(shù)的民主化發(fā)展。

值得注意的是,VLWM的訓(xùn)練數(shù)據(jù)涵蓋了多種文化背景和操作習(xí)慣,這使得系統(tǒng)具備了一定的文化適應(yīng)性。無論是西式烹飪還是中式炒菜,無論是歐洲的家居整理方式還是亞洲的收納習(xí)慣,VLWM都能理解并生成相應(yīng)的行動(dòng)計(jì)劃。這種文化包容性對(duì)于AI系統(tǒng)的全球化應(yīng)用至關(guān)重要。

從計(jì)算資源的角度來看,VLWM的設(shè)計(jì)相當(dāng)高效。8B參數(shù)的主模型配合1B參數(shù)的評(píng)價(jià)員模塊,整體規(guī)模適中,能夠在普通的高性能服務(wù)器上運(yùn)行。相比于某些需要數(shù)百億參數(shù)的大型模型,VLWM在保持高性能的同時(shí)顯著降低了部署成本,為實(shí)際應(yīng)用鋪平了道路。

研究團(tuán)隊(duì)還探討了VLWM的局限性和未來改進(jìn)方向。目前系統(tǒng)主要在相對(duì)可控的環(huán)境中表現(xiàn)出色,對(duì)于高度動(dòng)態(tài)變化的復(fù)雜場(chǎng)景仍有改進(jìn)空間。此外,雖然VLWM在規(guī)劃方面表現(xiàn)優(yōu)異,但將計(jì)劃轉(zhuǎn)化為具體的機(jī)器人動(dòng)作控制仍需要額外的技術(shù)支持。

歸根結(jié)底,VLWM代表了人工智能發(fā)展的一個(gè)重要里程碑。它不僅僅是一個(gè)技術(shù)突破,更是向通用人工智能邁出的堅(jiān)實(shí)一步。通過賦予AI系統(tǒng)"想象未來"和"深度思考"的能力,我們正在創(chuàng)造真正智能的機(jī)器伙伴。這些AI助手將不再是簡(jiǎn)單的工具執(zhí)行者,而是能夠主動(dòng)理解需求、制定策略、適應(yīng)變化的智能協(xié)作者。在不久的將來,無論是家庭日常管理、工作流程優(yōu)化,還是復(fù)雜的科學(xué)研究,VLWM這樣的智能系統(tǒng)都將發(fā)揮越來越重要的作用,真正實(shí)現(xiàn)人機(jī)協(xié)作的理想愿景。有興趣的讀者可以通過訪問arXiv:2509.02722v2獲取這篇開創(chuàng)性研究的完整內(nèi)容。

Q&A

Q1:VLWM視覺語言世界模型和普通AI有什么不同?

A:VLWM最大的不同是具備了"想象未來"的能力。普通AI就像只會(huì)照著說明書執(zhí)行的機(jī)器人,而VLWM能在"腦海"中模擬不同行動(dòng)的結(jié)果,選擇最優(yōu)方案。它用自然語言來表示推理過程,完全透明可理解,還有兩種模式:快速直覺反應(yīng)和深度思考規(guī)劃。

Q2:VLWM的系統(tǒng)-1和系統(tǒng)-2規(guī)劃模式分別適用于什么場(chǎng)景?

A:系統(tǒng)-1適合簡(jiǎn)單熟悉的任務(wù),就像經(jīng)驗(yàn)豐富的廚師憑直覺快速做菜一樣,效率很高。系統(tǒng)-2適合復(fù)雜困難的任務(wù),會(huì)像戰(zhàn)略家一樣反復(fù)權(quán)衡不同方案,選擇成本最低效果最好的路徑。系統(tǒng)會(huì)根據(jù)任務(wù)復(fù)雜度自動(dòng)選擇合適的模式。

Q3:VLWM在實(shí)際應(yīng)用中表現(xiàn)如何?能用在哪些領(lǐng)域?

A:VLWM在多項(xiàng)測(cè)試中都表現(xiàn)出色,在人類評(píng)估中獲得1261分Elo評(píng)分,超越了其他AI模型。它可以應(yīng)用于家庭日常管理(如烹飪、整理)、工作流程優(yōu)化、設(shè)備維修指導(dǎo)、甚至復(fù)雜的科學(xué)實(shí)驗(yàn)流程規(guī)劃。由于使用自然語言表示,決策過程完全透明可理解。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-