這項由愛丁堡大學(xué)語言認(rèn)知與計算研究所的邱一夫、劍橋大學(xué)語言技術(shù)實驗室的安娜·科霍寧、以及英偉達的研究團隊共同完成的研究發(fā)表于2025年6月。研究團隊提出了一個頗具創(chuàng)意的想法:能否讓那些擅長理解圖片和文字的人工智能模型,學(xué)會像預(yù)言家一樣預(yù)測現(xiàn)實世界的變化?有興趣深入了解的讀者可以通過論文中提供的GitHub鏈接(https://github.com/yfqiu-nlp/vlm-world-model)訪問完整的研究代碼和模型。
想象一下,你正在看一張照片:一個人站在桌子前,桌上放著一個蘋果。如果有人告訴你"把蘋果拿起來",你能立刻在腦海中想象出執(zhí)行這個動作后的畫面嗎?這正是研究團隊想要教會計算機做的事情。他們希望那些本來只會"看圖說話"的人工智能,也能學(xué)會"根據(jù)指令預(yù)測未來"。
這個看似簡單的任務(wù)實際上蘊含著巨大的挑戰(zhàn)。就像教一個從未離開過房間的孩子想象外面世界的變化一樣,計算機需要真正理解物理世界的運作規(guī)律,才能準(zhǔn)確預(yù)測動作帶來的結(jié)果。研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:雖然現(xiàn)在的視覺語言模型在理解圖片和文字方面表現(xiàn)出色,但在預(yù)測現(xiàn)實世界的變化方面卻顯得力不從心,就像一個博學(xué)的學(xué)者雖然知識淵博,卻無法預(yù)測明天的天氣一樣。
更有趣的是,研究團隊發(fā)現(xiàn)了一個出人意料的規(guī)律:讓模型學(xué)會"反向推理"(也就是看到前后兩張圖片,推測中間發(fā)生了什么動作)要比直接"正向預(yù)測"(根據(jù)當(dāng)前圖片和動作指令預(yù)測結(jié)果)容易得多。這就像教孩子先學(xué)會"看到結(jié)果猜原因",再學(xué)會"根據(jù)原因預(yù)測結(jié)果"一樣?;谶@個發(fā)現(xiàn),他們提出了一套巧妙的"師傅帶徒弟"式的訓(xùn)練方法,讓擅長反向推理的模型來指導(dǎo)正向預(yù)測模型的學(xué)習(xí)。
**一、現(xiàn)有模型的"近視眼"問題**
研究團隊首先想驗證一個基本問題:那些在圖片理解和文字處理方面表現(xiàn)卓越的大型視覺語言模型,是否真的具備了預(yù)測現(xiàn)實世界變化的能力?為了回答這個問題,他們設(shè)計了一個類似"眼力測試"的實驗。
他們選擇了當(dāng)前最優(yōu)秀的開源視覺語言模型之一——Chameleon-7B作為測試對象,這個模型就像一個博學(xué)的學(xué)者,在理解圖片內(nèi)容和處理文字信息方面都有著出色的表現(xiàn)。然后,研究團隊從AURORA-BENCH數(shù)據(jù)集中選取了250個真實的"圖片-動作-結(jié)果圖片"三元組,這些就像是標(biāo)準(zhǔn)答案一樣,告訴模型什么是正確的現(xiàn)實世界變化。
接下來的測試環(huán)節(jié)頗有意思。研究團隊像出謎題一樣,為每個正確的答案精心制作了四種"陷阱選項":有些是完全隨機的錯誤動作,有些是與正確動作完全相反的動作,還有些是把原圖直接復(fù)制作為結(jié)果圖,或者把前后兩張圖片的順序顛倒。如果模型真的理解現(xiàn)實世界的運作規(guī)律,它應(yīng)該能夠明確區(qū)分出哪個是正確答案,哪些是錯誤選項。
然而,測試結(jié)果讓人大跌眼鏡。這個在其他任務(wù)上表現(xiàn)出色的模型,在區(qū)分真實軌跡和錯誤軌跡時表現(xiàn)得就像一個近視的人在沒有眼鏡的情況下辨認(rèn)遠(yuǎn)處的物體一樣模糊不清。更令人驚訝的是,當(dāng)要求模型根據(jù)當(dāng)前圖片和動作指令預(yù)測下一張圖片時,它的表現(xiàn)甚至比隨機猜測好不了多少。唯一的例外是當(dāng)錯誤選項是直接復(fù)制原圖時,模型能夠識別出這明顯不對勁,但這更像是發(fā)現(xiàn)了"這兩張圖片一模一樣"這個明顯的線索,而不是真正理解了動作的含義。
這個發(fā)現(xiàn)就像發(fā)現(xiàn)一個看似聰明的學(xué)生實際上只是在死記硬背,而沒有真正理解知識的本質(zhì)一樣令人深思。研究團隊意識到,僅僅擁有強大的圖片理解和文字處理能力,并不等于具備了預(yù)測現(xiàn)實世界變化的能力。這兩種能力之間存在著一道看不見的鴻溝。
**二、意外發(fā)現(xiàn):反向推理比正向預(yù)測更容易**
就在研究團隊為主要目標(biāo)模型的"近視"表現(xiàn)感到困惑時,他們意外發(fā)現(xiàn)了一個有趣的現(xiàn)象。當(dāng)他們把任務(wù)反過來——讓模型看兩張前后對比的圖片,然后推測中間發(fā)生了什么動作時,同樣的模型突然變得"聰明"了許多。這就像一個學(xué)生在解正向的數(shù)學(xué)題時磕磕絆絆,但在解逆向題目時卻游刃有余一樣神奇。
為了驗證這個發(fā)現(xiàn),研究團隊對模型進行了專門的訓(xùn)練,讓它專注于學(xué)習(xí)"動態(tài)模型"的技能——也就是根據(jù)前后兩張圖片推測中間的動作。他們使用了來自AURORA數(shù)據(jù)集和EPIC-Kitchen數(shù)據(jù)集的高質(zhì)量樣本進行訓(xùn)練。EPIC-Kitchen數(shù)據(jù)集特別有意思,它包含了大量從個人視角拍攝的廚房活動視頻,就像戴著攝像頭的廚師記錄下的烹飪過程一樣真實自然。
訓(xùn)練結(jié)果令人欣喜。經(jīng)過專門訓(xùn)練的動態(tài)模型(他們稱之為CDM,即Chameleon Dynamics Model)在動作預(yù)測任務(wù)上的表現(xiàn)有了顯著提升,在多個文本相似度指標(biāo)上都達到了與其他先進模型相當(dāng)甚至更好的水平。更重要的是,當(dāng)研究團隊再次進行"眼力測試"時,這個動態(tài)模型顯示出了明顯更強的辨別能力,能夠在73.2%的情況下正確識別真實軌跡與隨機動作的區(qū)別,在72.2%的情況下區(qū)分真實軌跡與相反動作。
這個發(fā)現(xiàn)就像發(fā)現(xiàn)了學(xué)習(xí)的新路徑一樣振奮人心。研究團隊意識到,雖然直接教模型預(yù)測未來很困難,但教它理解"因果關(guān)系"相對容易。這為他們接下來的研究指明了方向:既然動態(tài)模型能夠很好地理解動作與變化之間的關(guān)系,那么能否讓它來"指導(dǎo)"世界模型的學(xué)習(xí)呢?
**三、師傅帶徒弟:兩種巧妙的指導(dǎo)策略**
基于這個關(guān)鍵發(fā)現(xiàn),研究團隊設(shè)計了兩套巧妙的"師傅帶徒弟"式訓(xùn)練策略,讓擅長反向推理的動態(tài)模型來幫助世界模型學(xué)會正向預(yù)測。
第一種策略可以比作"制造習(xí)題集"的方法。研究團隊收集了大約45小時的未標(biāo)注視頻,這些視頻來自三個不同的數(shù)據(jù)集:Moments-in-Time、Kinetics-700和UCF-101,就像從不同的生活場景中收集素材一樣豐富多樣。然后,他們讓訓(xùn)練好的動態(tài)模型充當(dāng)"老師"的角色,為這些視頻中的關(guān)鍵幀對自動生成動作描述。
這個過程就像讓一個經(jīng)驗豐富的導(dǎo)演觀看無聲電影片段,然后為每個場景轉(zhuǎn)換寫出劇本說明一樣。動態(tài)模型會分析視頻中前后兩幀的變化,然后生成相應(yīng)的動作描述,比如"把書從桌子上拿起來"或"將杯子向左移動"。為了確保質(zhì)量,研究團隊還設(shè)計了一套篩選機制,只保留那些動態(tài)模型認(rèn)為最有把握的標(biāo)注結(jié)果,就像老師只把最有信心的答案教給學(xué)生一樣。
第二種策略更像是"考試時的多選題技巧"。在模型需要預(yù)測結(jié)果時,研究團隊不讓它只生成一個答案,而是讓它生成多個候選答案,然后請動態(tài)模型充當(dāng)"評委",為每個候選答案打分。最終選擇得分最高的那個作為最終預(yù)測結(jié)果。這就像讓一個有經(jīng)驗的老師在學(xué)生的多個答案中挑選最合理的一個一樣。
為了讓第一種策略更加有效,研究團隊還創(chuàng)新性地提出了"重點關(guān)注"的訓(xùn)練方法。他們意識到,在預(yù)測圖片變化時,不是圖片的每個部分都同樣重要。比如,如果動作是"拿起蘋果",那么蘋果及其周圍區(qū)域的變化就比遠(yuǎn)處的背景墻更重要。因此,他們設(shè)計了一個"重要性權(quán)重"系統(tǒng),讓模型在學(xué)習(xí)時把更多注意力放在那些真正發(fā)生變化的關(guān)鍵區(qū)域上,而不是平均對待整張圖片的每個像素。
這種方法就像教學(xué)生寫作文時強調(diào)"突出重點"一樣,讓模型學(xué)會分辨什么是重要的,什么是次要的。通過這種方式訓(xùn)練出來的世界模型,不僅學(xué)會了預(yù)測變化,更學(xué)會了關(guān)注變化的關(guān)鍵部分。
**四、實戰(zhàn)檢驗:在真實場景中的表現(xiàn)**
研究團隊在AURORA-BENCH這個權(quán)威測試平臺上對他們的方法進行了全面驗證。AURORA-BENCH就像是視覺世界模型的"高考考場",包含了五個不同難度和類型的測試子集:MagicBrush專注于專業(yè)圖像編輯,Action-Genome和Something-Something測試真實世界的動作理解,WhatsUp考察空間推理能力,而Kubric則包含了來自物理引擎的合成樣本。
在這場"考試"中,研究團隊的世界模型(他們稱之為CWM,即Chameleon World Model)表現(xiàn)得相當(dāng)出色。最令人驚喜的是,這個通用的世界模型竟然在多個測試中超越了那些專門為圖像編輯而設(shè)計的先進模型。在Something-Something、Action-Genome和Kubric這三個真實世界動作測試中,CWM分別取得了15%、15%和7%的性能提升,這就像一個全科學(xué)生在幾門專業(yè)課考試中都超越了專業(yè)學(xué)生一樣令人印象深刻。
更有說服力的是人類評估的結(jié)果。研究團隊邀請了14名博士及以上學(xué)歷的評估者,對不同模型的預(yù)測結(jié)果進行盲測評估。評估者需要從三個維度對結(jié)果進行打分:圖片的真實感(紋理和光照是否自然)、指令執(zhí)行能力(是否準(zhǔn)確反映了給定的動作)、以及編輯的適度性(是否只改變了必要的部分)。結(jié)果顯示,人類評估者也更傾向于選擇CWM的預(yù)測結(jié)果,特別是在那些涉及真實世界動作的測試中。
有趣的是,研究團隊還發(fā)現(xiàn)了一個意外的現(xiàn)象:當(dāng)使用第二種"多選題"策略時,即使是原本表現(xiàn)一般的基礎(chǔ)模型,也能通過動態(tài)模型的"指導(dǎo)"達到與專門訓(xùn)練的世界模型相當(dāng)?shù)男阅芩健_@就像一個普通學(xué)生在有經(jīng)驗老師的指導(dǎo)下,也能在考試中取得優(yōu)異成績一樣。
**五、深入探索:每個細(xì)節(jié)都有講究**
研究團隊還進行了大量的細(xì)節(jié)分析,就像醫(yī)生進行全面體檢一樣,確保他們真正理解了方法成功的原因。
首先,他們驗證了合成數(shù)據(jù)的重要性。當(dāng)把那些由動態(tài)模型自動標(biāo)注的45小時視頻數(shù)據(jù)從訓(xùn)練集中移除時,世界模型的性能出現(xiàn)了明顯下降,特別是在Something-Something和Action-Genome這兩個真實世界數(shù)據(jù)集上。這證明了"制造習(xí)題集"策略的確有效,就像學(xué)生做更多練習(xí)題確實能提高成績一樣。
其次,他們分析了"重點關(guān)注"訓(xùn)練方法的作用。通過對比使用和不使用重要性權(quán)重的訓(xùn)練結(jié)果,研究團隊發(fā)現(xiàn)這種方法主要提升了模型的"指令執(zhí)行能力",也就是讓模型更準(zhǔn)確地按照給定動作進行預(yù)測,而不是簡單地復(fù)制原圖。這就像教學(xué)生寫作時強調(diào)"扣題"的重要性一樣,讓模型學(xué)會了關(guān)注真正重要的內(nèi)容。
在"多選題"策略的分析中,研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:這種方法對基礎(chǔ)模型的幫助更大,而對于已經(jīng)通過合成數(shù)據(jù)訓(xùn)練過的世界模型來說,效果相對有限。這是因為經(jīng)過專門訓(xùn)練的模型已經(jīng)內(nèi)化了動態(tài)模型的"智慧",不再需要外部指導(dǎo)就能做出正確預(yù)測。
研究團隊還發(fā)現(xiàn)了一些模型的"偏好"。比如,所有模型在處理那些要求精確空間理解的任務(wù)(如WhatsUp數(shù)據(jù)集)時都表現(xiàn)得相對困難,而在處理合成數(shù)據(jù)(如Kubric)時則表現(xiàn)出色。這就像不同的學(xué)生有不同的強項和弱項一樣自然。
**六、真實應(yīng)用:從實驗室到現(xiàn)實世界**
研究團隊展示了一個令人興奮的應(yīng)用案例,證明他們的世界模型不僅能進行單步預(yù)測,還能進行連續(xù)的多步預(yù)測。在演示中,模型能夠根據(jù)一系列連續(xù)的動作指令,生成一個完整的變化序列。比如,從"切洋蔥"開始,然后"打雞蛋",模型能夠生成一系列連貫的圖片,展示整個烹飪過程的視覺變化。
這種能力就像讓模型具備了"導(dǎo)演"的技能,能夠根據(jù)劇本創(chuàng)作出完整的視覺故事。更重要的是,生成的圖片序列在視覺上保持了很好的一致性,就像真實的連續(xù)拍攝一樣自然流暢。這為未來的應(yīng)用開辟了廣闊的可能性,比如虛擬現(xiàn)實環(huán)境的創(chuàng)建、機器人動作規(guī)劃的可視化預(yù)覽、或者教育培訓(xùn)中的情景模擬等。
研究團隊還注意到了一些有趣的細(xì)節(jié)。比如,模型在處理不同類型的動作時表現(xiàn)出了不同的特點:對于涉及物體移動的動作(如"把杯子向左移動"),模型的預(yù)測相對準(zhǔn)確;而對于涉及細(xì)微變化的動作(如"調(diào)整亮度"),預(yù)測的精確度會有所下降。這就像人類在預(yù)測不同類型變化時也會有不同的準(zhǔn)確率一樣。
**七、局限性與未來展望**
誠然,這項研究還存在一些局限性,研究團隊也坦誠地指出了這些問題。首先,盡管采用了各種訓(xùn)練策略,模型仍然會在某些情況下"偷懶",特別是在面對模糊指令或采用較低生成溫度時,傾向于簡單地復(fù)制輸入圖片而不進行真正的預(yù)測。這就像學(xué)生在不確定答案時選擇保守策略一樣。
其次,雖然模型能夠處理語言形式的動作指令,但對于需要精細(xì)控制的任務(wù)(如空間位置的精確調(diào)整或數(shù)量的準(zhǔn)確變化)仍然面臨挑戰(zhàn)。研究團隊發(fā)現(xiàn),模型在理解"稍微向左"和"大幅向左"這樣的細(xì)微差別時還不夠敏感。
此外,由于研究主要基于Chameleon這一個模型進行,方法在其他視覺語言模型上的表現(xiàn)還需要進一步驗證。研究團隊選擇Chameleon是因為它是目前唯一支持圖像和文本交錯生成的開源模型,但這也限制了研究結(jié)果的普適性。
不過,這些局限性也為未來的研究指明了方向。研究團隊提出了幾個值得探索的方向:首先是擴展到更多類型的視覺語言模型,驗證方法的通用性;其次是提高模型對細(xì)微指令差別的理解能力;最后是探索如何將這種預(yù)測能力與其他人工智能技術(shù)結(jié)合,創(chuàng)造更加實用的應(yīng)用。
說到底,這項研究為我們展示了一個充滿可能性的未來圖景。通過巧妙的"師傅帶徒弟"式訓(xùn)練方法,研究團隊成功地讓視覺語言模型學(xué)會了預(yù)測現(xiàn)實世界的變化,這不僅是技術(shù)上的突破,更是人工智能向著真正理解現(xiàn)實世界邁出的重要一步。雖然目前的模型還不夠完美,但就像所有偉大的發(fā)明一樣,第一步往往是最重要的。
歸根結(jié)底,這項研究告訴我們,讓機器真正理解現(xiàn)實世界是一個復(fù)雜而迷人的挑戰(zhàn)。通過創(chuàng)新的訓(xùn)練策略和深入的分析,研究團隊為這個領(lǐng)域貢獻了新的思路和方法。對于普通人來說,這意味著未來我們可能會看到更加智能的虛擬助手、更真實的游戲體驗、更有效的教育工具,以及許多我們現(xiàn)在還無法想象的應(yīng)用。有興趣深入了解這項研究的讀者,可以通過訪問研究團隊提供的GitHub鏈接獲取更多詳細(xì)信息和代碼資源。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。