這項由斯坦福大學NeuroAI實驗室的研究團隊發(fā)表于2025年9月的研究論文(論文編號arXiv:2509.09737v1),提出了一種名為"概率結(jié)構(gòu)整合"(PSI)的創(chuàng)新系統(tǒng)。有興趣深入了解的讀者可以通過arXiv平臺訪問完整論文。這個系統(tǒng)的核心在于讓計算機通過一個巧妙的三步循環(huán)過程來理解和預(yù)測我們身邊的世界,就像人類學習認知一樣自然而高效。
研究背景可以用一個簡單的例子來說明:當我們看到一個正在滾動的球時,我們不僅能看到它當前的位置,還能預(yù)測它下一秒會到達哪里,甚至能理解它的運動軌跡、深度位置,以及它與其他物體的關(guān)系。這種綜合理解能力正是目前人工智能系統(tǒng)所缺乏的關(guān)鍵能力?,F(xiàn)有的AI模型往往只能執(zhí)行單一任務(wù),比如識別圖像中的物體,或者生成新的圖片,但很難像人類一樣對場景進行全方位的理解和預(yù)測。
斯坦福團隊意識到,要讓機器真正理解世界,需要一種全新的方法。傳統(tǒng)的AI系統(tǒng)就像只會使用一種工具的工匠,而他們想要創(chuàng)造的是一個擁有完整工具箱的多面手。這個系統(tǒng)不僅要能看懂當前發(fā)生的事情,還要能預(yù)測未來可能發(fā)生的情況,更重要的是,要能從這些預(yù)測中學習到更深層的世界運行規(guī)律。
概率結(jié)構(gòu)整合系統(tǒng)的工作原理可以比作一個不斷自我完善的學者。第一步是"概率預(yù)測",就像這個學者首先學會觀察和描述世界上發(fā)生的各種事件,并且能夠預(yù)測在不同條件下可能出現(xiàn)的各種結(jié)果。第二步是"結(jié)構(gòu)提取",學者開始從這些觀察和預(yù)測中發(fā)現(xiàn)更深層的規(guī)律和模式,比如物體是如何運動的、什么東西會一起移動、哪些物體在空間中的前后關(guān)系等。第三步是"整合",學者把這些新發(fā)現(xiàn)的規(guī)律重新融入到自己的知識體系中,使自己變得更加聰明和準確。
這個循環(huán)過程的巧妙之處在于,每一輪循環(huán)都會讓系統(tǒng)變得更加智能。研究團隊使用了1.4萬億個視頻數(shù)據(jù)片段來訓練這個系統(tǒng),相當于給這個"AI學者"提供了海量的學習材料。經(jīng)過訓練后,這個系統(tǒng)不僅能夠準確預(yù)測視頻中接下來會發(fā)生什么,還能提取出光流、深度信息和物體分割等復(fù)雜的視覺特征,這些都是計算機視覺領(lǐng)域的重要技術(shù)指標。
一、智能預(yù)測引擎:讓機器擁有"想象力"
概率結(jié)構(gòu)整合系統(tǒng)的第一步可以比作培養(yǎng)一個擁有豐富想象力的預(yù)言家。傳統(tǒng)的計算機系統(tǒng)在面對不確定情況時往往只能給出一個固定答案,就像一個古板的老師只會說標準答案。而這個新系統(tǒng)則更像一個富有創(chuàng)意的藝術(shù)家,能夠想象出多種可能的未來場景。
這種預(yù)測能力的核心在于一個叫做"局部隨機訪問序列建模"的技術(shù)。聽起來很復(fù)雜,但可以用拼圖游戲來理解。普通的拼圖游戲需要按照固定順序一塊一塊地拼,而這個系統(tǒng)就像一個拼圖高手,能夠從任意位置開始,以任意順序拼接圖片,還能根據(jù)已經(jīng)拼好的部分推測缺失部分應(yīng)該是什么樣子。
更有趣的是,這個系統(tǒng)具有"不確定性管理"能力。當系統(tǒng)對某個預(yù)測不夠確定時,它會誠實地承認這一點,就像一個謙虛的專家會說"這里我不太確定,可能是這樣,也可能是那樣"。這種誠實反而讓系統(tǒng)更加可靠,因為它知道自己什么時候需要更多信息才能做出準確判斷。
在實際應(yīng)用中,這個預(yù)測引擎展現(xiàn)出了令人驚訝的靈活性。給它一張靜止的圖片,它能生成多種合理的動態(tài)發(fā)展可能性。給它視頻的前幾幀,它能預(yù)測出符合物理規(guī)律的后續(xù)發(fā)展。更神奇的是,你還可以通過各種方式來"引導(dǎo)"它的預(yù)測,比如在某個位置放置一些關(guān)鍵信息,系統(tǒng)就會據(jù)此調(diào)整整個預(yù)測結(jié)果。
這種預(yù)測能力的強大之處在于它的統(tǒng)一性。不管是預(yù)測物體運動、生成新視角、還是完成遮擋部分,系統(tǒng)使用的都是同一套基礎(chǔ)機制。這就像一個多才多藝的藝術(shù)家,無論是畫油畫、水彩畫還是素描,使用的都是同樣扎實的基礎(chǔ)技法。
二、智慧提取器:從現(xiàn)象中發(fā)現(xiàn)本質(zhì)規(guī)律
如果說第一步是讓系統(tǒng)學會觀察和預(yù)測,那么第二步就是讓它學會思考和理解。這個過程可以比作一個優(yōu)秀的偵探從表面現(xiàn)象中推理出深層真相的能力。
系統(tǒng)的結(jié)構(gòu)提取功能基于一個關(guān)鍵洞察:世界上很多重要的信息并不能直接看到,而需要通過巧妙的"假設(shè)-驗證"過程來發(fā)現(xiàn)。就像科學家通過設(shè)計實驗來驗證理論一樣,這個系統(tǒng)會創(chuàng)造一些"假設(shè)性場景",然后觀察系統(tǒng)在這些場景下的反應(yīng),從而推斷出隱藏的規(guī)律。
光流提取是這種方法的一個典型例子。光流聽起來很抽象,其實就是物體運動的軌跡信息。系統(tǒng)會在圖像上放置一個微小的"示蹤劑"(就像在水中滴入一滴墨水),然后觀察這個示蹤劑在下一幀中會出現(xiàn)在哪里。通過比較有示蹤劑和沒有示蹤劑的兩種預(yù)測結(jié)果,系統(tǒng)就能精確地計算出每個像素點的運動方向和速度。
物體分割是另一個精彩的應(yīng)用。系統(tǒng)會"假設(shè)性地"移動圖像中的某個小區(qū)域,然后觀察哪些其他區(qū)域會跟著一起移動。那些一起移動的區(qū)域很可能屬于同一個物體,就像移動一張桌子時,桌子上的所有東西都會跟著動一樣。通過這種方法,系統(tǒng)能夠準確地識別出圖像中不同物體的邊界,而且完全不需要人工標注的訓練數(shù)據(jù)。
深度信息的提取則更加巧妙。系統(tǒng)會模擬相機的微小移動,然后觀察圖像中不同區(qū)域的變化程度。距離近的物體變化會很明顯,距離遠的物體變化很小,就像我們坐在行駛的汽車中看窗外風景一樣,近處的樹木飛快掠過,遠處的山峰幾乎靜止不動。
這些提取出的結(jié)構(gòu)信息不僅精確度很高,而且具有很強的實用性。在多個國際標準測試中,這個系統(tǒng)的表現(xiàn)都達到了業(yè)界領(lǐng)先水平。更重要的是,這些信息的獲得完全不需要專門的訓練數(shù)據(jù)或人工標注,都是系統(tǒng)通過自己的"思考"過程發(fā)現(xiàn)的。
三、自我進化機制:將發(fā)現(xiàn)融入智慧體系
第三步是整個系統(tǒng)最具創(chuàng)新性的部分,可以比作一個學者將新發(fā)現(xiàn)的知識融入自己的知識體系,從而變得更加博學和智慧。這個過程看似簡單,實際上解決了人工智能領(lǐng)域一個長期存在的難題:如何讓AI系統(tǒng)真正地從經(jīng)驗中學習和成長。
整合過程采用了一個極其簡潔但有效的策略。系統(tǒng)將第二步提取出的結(jié)構(gòu)信息轉(zhuǎn)換成新的"詞匯",然后將這些新詞匯與原有的圖像信息混合在一起,創(chuàng)造出更加豐富的"語言"。這就像一個作家在掌握基礎(chǔ)詞匯后,又學會了專業(yè)術(shù)語和修辭手法,從而能夠表達更復(fù)雜、更精確的意思。
這種整合帶來的好處是多方面的。首先,系統(tǒng)獲得了更精確的控制能力。原來只能通過移動像素塊來"暗示"物體運動,現(xiàn)在可以直接指定運動向量,就像從手勢比劃升級到了精確的文字指令。這使得系統(tǒng)能夠生成更加符合用戶意圖的結(jié)果。
其次,整合后的系統(tǒng)在提取結(jié)構(gòu)信息時變得更加準確。由于系統(tǒng)現(xiàn)在"懂得"了運動、深度、分割等概念,它在處理這些任務(wù)時不再需要繞彎子,可以直接給出答案。這就像一個熟練的醫(yī)生可以直接診斷病情,而不需要經(jīng)過復(fù)雜的推理過程。
最令人興奮的是,整合過程能夠產(chǎn)生以前不存在的新能力。比如,系統(tǒng)現(xiàn)在可以計算"運動概率"——即判斷靜止畫面中哪些物體最有可能開始運動。這種能力對機器人技術(shù)特別有價值,因為機器人需要在行動前預(yù)判環(huán)境中物體的行為。
整合過程還解決了一個重要的技術(shù)問題:運動塌陷。傳統(tǒng)的視頻預(yù)測系統(tǒng)經(jīng)常會生成靜止不動的畫面,因為"不動"在統(tǒng)計上往往是最安全的預(yù)測。但通過顯式建模運動信息,新系統(tǒng)被"強迫"考慮各種運動可能性,從而生成更加生動和真實的預(yù)測結(jié)果。
四、實際應(yīng)用:從實驗室走向現(xiàn)實世界
這個系統(tǒng)的實際應(yīng)用潛力可以通過幾個具體案例來說明。每個案例都展示了系統(tǒng)如何將復(fù)雜的AI技術(shù)轉(zhuǎn)化為解決實際問題的工具。
在視頻編輯領(lǐng)域,這個系統(tǒng)表現(xiàn)得像一個物理學家和藝術(shù)家的結(jié)合體。當用戶想要編輯一段保齡球視頻時,系統(tǒng)不僅能夠識別球和球瓶的位置,還能理解它們之間的物理關(guān)系。如果用戶稍微調(diào)整球的軌跡,系統(tǒng)會自動重新計算碰撞效果,生成完全符合物理規(guī)律的新場景。這種編輯方式比傳統(tǒng)的逐幀修改要自然得多,因為它操作的是物理概念而不是像素點。
在機器人應(yīng)用方面,系統(tǒng)的"運動概率預(yù)測"功能特別有價值。當機器人面對一個新的環(huán)境時,它可以通過分析單張圖片就判斷出哪些物體可以移動、哪些是固定的。這種能力幫助機器人制定更安全、更有效的操作策略。比如在一個廚房環(huán)境中,系統(tǒng)能夠識別出鍋、盤子、餐具等可移動物體,而忽略灶臺、墻壁等固定設(shè)施。
"視覺疊疊樂"任務(wù)展示了系統(tǒng)的物理推理能力。面對一堆堆疊的物體,系統(tǒng)需要判斷移除哪個物體不會導(dǎo)致整個結(jié)構(gòu)倒塌。這個任務(wù)需要同時理解物體的形狀、重量分布、支撐關(guān)系等復(fù)雜信息。系統(tǒng)通過模擬移除不同物體后的場景變化,成功找出了安全的移除方案。
在新視角生成任務(wù)中,系統(tǒng)展現(xiàn)出了準確的三維理解能力。給定一個場景的單一視角,系統(tǒng)能夠生成從其他角度觀察的合理圖像,包括正確處理遮擋關(guān)系和空間深度。這種能力在虛擬現(xiàn)實、增強現(xiàn)實等領(lǐng)域有廣泛應(yīng)用前景。
五、技術(shù)突破與創(chuàng)新點
這項研究的技術(shù)創(chuàng)新可以從幾個角度來理解。首先是統(tǒng)一性創(chuàng)新。大多數(shù)現(xiàn)有系統(tǒng)需要為不同任務(wù)訓練不同的模型,就像需要不同的專用工具來完成不同工作。而這個系統(tǒng)更像一把瑞士軍刀,用同一套核心機制處理各種不同的視覺任務(wù)。
序列建模的創(chuàng)新是另一個重要突破。傳統(tǒng)的視覺AI系統(tǒng)通常按照固定的順序處理圖像信息,就像必須從左到右、從上到下地閱讀文章。新系統(tǒng)則可以以任意順序處理視覺信息,這種靈活性使得它能夠根據(jù)具體需要調(diào)整處理策略,提高效率和準確性。
概率建模的優(yōu)勢在處理不確定性時特別明顯。當面對模糊或不完整的信息時,系統(tǒng)不會強行給出一個可能錯誤的答案,而是會提供多種可能性及其概率。這種誠實的態(tài)度使得系統(tǒng)在實際應(yīng)用中更加可靠。
零樣本學習能力是系統(tǒng)的另一個突出優(yōu)勢。所謂零樣本,就是不需要專門訓練就能完成新任務(wù)。系統(tǒng)通過巧妙的提示設(shè)計,可以完成許多從未見過的任務(wù),就像一個聰明的學生能夠舉一反三,將學到的原理應(yīng)用到新情況中。
循環(huán)改進機制確保了系統(tǒng)的持續(xù)進步。每一輪循環(huán)都會讓系統(tǒng)變得更加智能,這種自我強化的過程在AI領(lǐng)域并不常見。大多數(shù)系統(tǒng)在訓練完成后就固定不變了,而這個系統(tǒng)卻能夠不斷進化。
六、挑戰(zhàn)與未來展望
盡管這個系統(tǒng)展現(xiàn)出了巨大潛力,但研究團隊也坦誠地承認了一些當前的限制和挑戰(zhàn)。
計算資源需求是一個現(xiàn)實問題。要訓練這樣一個復(fù)雜的系統(tǒng)需要大量的計算資源,普通用戶或小型研究機構(gòu)可能難以負擔。不過,隨著計算硬件的發(fā)展和算法的優(yōu)化,這個問題有望逐步緩解。
結(jié)構(gòu)發(fā)現(xiàn)的自動化程度還有待提高。目前系統(tǒng)能夠提取的結(jié)構(gòu)類型主要是研究人員預(yù)先設(shè)計的,如何讓系統(tǒng)自主發(fā)現(xiàn)新的有用結(jié)構(gòu)是一個有趣的開放問題。這就像教會一個學生學習方法,而不只是傳授具體知識。
長期記憶機制的缺失限制了系統(tǒng)處理長時間序列的能力。目前系統(tǒng)主要處理幾秒鐘的視頻片段,要處理更長的時間跨度還需要引入更復(fù)雜的記憶機制。
語義類別的整合也是一個需要進一步探索的方向。雖然系統(tǒng)在物理層面的理解很強,但在高級語義概念的處理上還有改進空間。如何將"一只正在跑的狗"這樣的語義概念與物理運動信息有機結(jié)合,是一個值得深入研究的問題。
跨域應(yīng)用的潛力巨大但尚未充分開發(fā)。這套方法論不僅適用于視覺數(shù)據(jù),理論上也可以應(yīng)用到音頻、文本、科學數(shù)據(jù)等其他領(lǐng)域。每個新領(lǐng)域都可能帶來獨特的挑戰(zhàn)和機遇。
說到底,概率結(jié)構(gòu)整合系統(tǒng)代表了人工智能發(fā)展的一個重要方向:從單純的模式識別走向真正的世界理解。這個系統(tǒng)不僅能夠"看到"世界,還能"理解"世界的運行規(guī)律,并且能夠不斷地從經(jīng)驗中學習和成長。雖然距離實現(xiàn)真正的通用人工智能還有很長的路要走,但這項研究無疑為我們指明了一個很有前景的方向。
對于普通人來說,這項研究的意義可能在未來幾年內(nèi)逐漸顯現(xiàn)。更智能的視頻編輯軟件、更可靠的自動駕駛系統(tǒng)、更自然的人機交互界面,這些都可能受益于這種新的AI理解方式。更長遠地看,這種讓AI系統(tǒng)自主學習和進化的思路,可能會推動人工智能向著更加接近人類智能的方向發(fā)展。
歸根結(jié)底,這項研究告訴我們,真正的智能不僅僅在于處理信息,更在于理解信息、從中學習、并且不斷自我完善。斯坦福團隊開發(fā)的這個系統(tǒng),雖然目前還主要專注于視覺理解,但它展示的學習和進化機制可能對整個人工智能領(lǐng)域都有深遠影響。就像當年深度學習的突破最終影響了AI的各個分支一樣,這種循環(huán)學習和自我改進的思路也有可能成為下一代AI系統(tǒng)的標準配置。
Q&A
Q1:概率結(jié)構(gòu)整合系統(tǒng)PSI是什么?它能做什么?
A:PSI是斯坦福大學開發(fā)的一種新型AI系統(tǒng),它能像人類一樣理解和預(yù)測世界。系統(tǒng)通過三步循環(huán)過程工作:首先學會預(yù)測各種可能的場景,然后從這些預(yù)測中提取出運動、深度、物體分割等深層規(guī)律,最后將這些規(guī)律整合回系統(tǒng)讓自己變得更聰明。它可以用于視頻預(yù)測、物體識別、新視角生成等多種任務(wù)。
Q2:PSI系統(tǒng)與傳統(tǒng)AI系統(tǒng)相比有什么優(yōu)勢?
A:最大的優(yōu)勢是統(tǒng)一性和自我進化能力。傳統(tǒng)AI系統(tǒng)通常需要為不同任務(wù)訓練不同模型,而PSI用同一套機制處理多種視覺任務(wù)。更重要的是,PSI能夠通過循環(huán)過程不斷自我改進,每一輪循環(huán)都會讓系統(tǒng)變得更智能,這種持續(xù)學習能力在AI領(lǐng)域并不常見。
Q3:普通人什么時候能用上PSI技術(shù)?
A:雖然PSI目前還在實驗階段,但其應(yīng)用前景很廣闊。預(yù)計在未來幾年內(nèi),相關(guān)技術(shù)可能會首先出現(xiàn)在專業(yè)軟件中,比如更智能的視頻編輯工具、更準確的自動駕駛系統(tǒng)等。對于普通消費者,可能需要等到技術(shù)進一步成熟和計算成本降低后才能廣泛使用。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。