想象一下,如果AI能夠像人類一樣在大腦中構(gòu)建一個(gè)完整的虛擬世界,在這個(gè)世界里進(jìn)行各種"思想實(shí)驗(yàn)",預(yù)測(cè)不同行為的后果,然后選擇最佳方案——這聽起來像科幻小說,但卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)正在將其變?yōu)楝F(xiàn)實(shí)。
這項(xiàng)由卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的Eric Xing教授、Mingkai Deng、Jinyu Hou,以及加州大學(xué)圣地亞哥分校的Zhiting Hu教授聯(lián)合完成的研究發(fā)表于2025年7月,論文標(biāo)題為《Critiques of World Models》。研究團(tuán)隊(duì)不僅深入分析了當(dāng)前世界模型的各種問題,更提出了一個(gè)名為PAN(Physical, Agentic, and Nested)的全新架構(gòu)。有興趣深入了解的讀者可以通過arXiv:2507.05169v1訪問完整論文。
研究團(tuán)隊(duì)從科幻經(jīng)典《沙丘》中獲得靈感。在這部小說中,預(yù)言者能夠在腦海中模擬所有可能的未來,從而做出最優(yōu)決策。正如小說中的預(yù)言者能夠"看見"無數(shù)種可能的未來一樣,研究團(tuán)隊(duì)希望讓AI系統(tǒng)也能擁有類似的能力——在內(nèi)部構(gòu)建一個(gè)完整的世界模型,用來進(jìn)行各種假設(shè)性思考和推理。
當(dāng)前的AI系統(tǒng)面臨一個(gè)根本性問題:它們?nèi)狈?duì)世界的整體理解。就像一個(gè)只會(huì)背書的學(xué)生,它們可以回答很多問題,但無法真正理解事物之間的關(guān)系,更無法預(yù)測(cè)自己的行為會(huì)產(chǎn)生什么后果。這就是為什么現(xiàn)在的AI雖然能寫詩、能畫畫,但在需要長(zhǎng)期規(guī)劃或復(fù)雜決策的任務(wù)上表現(xiàn)并不理想。
研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)問題的核心在于現(xiàn)有的"世界模型"存在諸多局限。世界模型就像AI系統(tǒng)的"大腦地圖",它應(yīng)該幫助AI理解世界的運(yùn)行規(guī)律,預(yù)測(cè)行為的后果。但現(xiàn)在大多數(shù)研究都過分專注于生成漂亮的視頻畫面,卻忽略了模型的真正目的——為智能推理服務(wù)。
一、現(xiàn)有世界模型的根本缺陷
想象你正在學(xué)習(xí)駕駛,有兩種不同的學(xué)習(xí)方式。第一種是只看駕駛教學(xué)視頻,關(guān)注畫面是否清晰、色彩是否鮮艷;第二種是真正理解交通規(guī)則、路況變化、以及不同駕駛行為可能帶來的后果。顯然,第二種方式才能培養(yǎng)出真正的駕駛技能。
然而,當(dāng)前的世界模型研究大多采用了第一種方式。研究團(tuán)隊(duì)深入分析了現(xiàn)有的各類世界模型系統(tǒng),發(fā)現(xiàn)它們都存在共同的問題:過分關(guān)注視覺效果,忽略了智能推理的本質(zhì)需求。
以游戲世界模型為例,像Google DeepMind的Genie 2、微軟的Muse以及Decart公司的Oasis等系統(tǒng)確實(shí)能生成看起來很逼真的游戲畫面,甚至能持續(xù)1-2分鐘的連續(xù)游戲內(nèi)容。但這些系統(tǒng)的問題在于它們太過專門化——Genie 2只能處理特定類型的游戲控制輸入,Oasis只適用于類似Minecraft的環(huán)境。更重要的是,它們的"記憶"很短暫,無法進(jìn)行真正的長(zhǎng)期規(guī)劃。就像一個(gè)失憶癥患者,它們只能記住最近幾分鐘發(fā)生的事情,無法制定需要幾小時(shí)甚至幾天才能完成的復(fù)雜策略。
另一類備受關(guān)注的3D場(chǎng)景世界模型,如World Labs的系統(tǒng),雖然能生成視覺上令人印象深刻的三維場(chǎng)景,但本質(zhì)上只是靜態(tài)環(huán)境的展示。它們?nèi)狈?dòng)態(tài)交互、物理因果關(guān)系,以及多智能體行為的模擬能力。這就像擁有一個(gè)精美的電影布景,看起來很真實(shí),但里面的物體都是假的,無法進(jìn)行真正的互動(dòng)。
物理世界模型如Wayve的GAIA-2和NVIDIA的Cosmos在模擬低級(jí)物理控制方面表現(xiàn)出色,能夠很好地處理自動(dòng)駕駛、機(jī)器人操作等任務(wù)。但它們的問題在于過度專門化,只能在特定領(lǐng)域發(fā)揮作用,無法處理跨領(lǐng)域的復(fù)雜情況。
更有趣的是,那些被廣泛關(guān)注的視頻生成模型,如OpenAI的Sora和Google DeepMind的Veo,雖然能生成視覺上令人驚嘆的視頻,但從世界模型的角度來看,它們存在根本性缺陷。這些模型只是在生成固定的視頻序列,無法根據(jù)不同的行為輸入產(chǎn)生相應(yīng)的反應(yīng)。它們?nèi)狈?duì)狀態(tài)、行動(dòng)以及物體級(jí)別表示的明確概念,也無法進(jìn)行反事實(shí)推理。用研究團(tuán)隊(duì)的話說,這些系統(tǒng)更像是"視頻生成工具"而非真正的"決策系統(tǒng)組件"。
二、當(dāng)前主流思路的五大誤區(qū)
研究團(tuán)隊(duì)識(shí)別出了當(dāng)前世界模型研究中的五個(gè)主要誤區(qū),就像診斷一個(gè)復(fù)雜疾病時(shí)需要找出所有癥狀一樣。
第一個(gè)誤區(qū)是對(duì)數(shù)據(jù)類型的錯(cuò)誤認(rèn)知。目前有一種觀點(diǎn)認(rèn)為,感官數(shù)據(jù)(如視頻、音頻)比文本數(shù)據(jù)更重要,因?yàn)?一個(gè)4歲兒童處理的視覺數(shù)據(jù)有1.1×10^14字節(jié),而訓(xùn)練現(xiàn)代大語言模型的所有文本數(shù)據(jù)只有0.9×10^14字節(jié)"。這種觀點(diǎn)看似有道理,但實(shí)際上犯了一個(gè)根本性錯(cuò)誤:混淆了數(shù)據(jù)量和信息密度。
以一本厚厚的字典和一張高清照片為例。從數(shù)據(jù)量來看,高清照片可能占用更多存儲(chǔ)空間,但字典包含的語義信息遠(yuǎn)比單張照片豐富。文本語言是人類經(jīng)過數(shù)千年進(jìn)化形成的經(jīng)驗(yàn)壓縮,它不僅包含物理現(xiàn)實(shí),還包含心理、社會(huì)和反事實(shí)現(xiàn)象的豐富信息。正義、動(dòng)機(jī)、后悔這樣的概念在語言中有豐富的表達(dá),但在純視覺數(shù)據(jù)中卻很難直接觀察到。
更重要的是,語言提供了通向人類集體記憶的接口——包括歷史記錄、科學(xué)發(fā)現(xiàn)、工程經(jīng)驗(yàn)等,這些信息幾乎不可能僅從原始感知輸入中獲得。事實(shí)證明,基于文本訓(xùn)練的模型能夠編寫軟件、解決奧林匹克級(jí)別的數(shù)學(xué)問題,而僅基于視覺和運(yùn)動(dòng)數(shù)據(jù)訓(xùn)練的模型主要適用于物理導(dǎo)航或操作任務(wù)。
第二個(gè)誤區(qū)涉及表示方式的選擇。有觀點(diǎn)認(rèn)為應(yīng)該避免使用離散標(biāo)記(tokens),而應(yīng)該用連續(xù)嵌入來表示世界狀態(tài),以便進(jìn)行基于梯度的優(yōu)化。但這種觀點(diǎn)忽略了人類認(rèn)知的一個(gè)重要特點(diǎn):我們通過將原始感知分類為離散概念來應(yīng)對(duì)變化和噪聲。
基于詞匯的標(biāo)記不是負(fù)擔(dān),而是優(yōu)勢(shì)。它們提供了穩(wěn)定、可組合的媒介來表示各個(gè)抽象層次的概念。這些標(biāo)記構(gòu)成了當(dāng)今語言AI系統(tǒng)的基礎(chǔ),讓大語言模型能夠模擬這個(gè)由自然語言形成的潛在空間中的內(nèi)容??梢哉f,語言空間是人類通過進(jìn)化和學(xué)習(xí)創(chuàng)造的,用來表示可感知和可描述宇宙的人工潛在空間。
研究團(tuán)隊(duì)通過嚴(yán)格的數(shù)學(xué)證明表明,離散表示能夠保持任意精細(xì)的區(qū)分,只要我們適當(dāng)?shù)財(cái)U(kuò)展它們。他們提出了兩種策略:增加詞匯量大小(縱向擴(kuò)展)或增加序列長(zhǎng)度(橫向擴(kuò)展)。理論分析顯示,橫向擴(kuò)展(使用更長(zhǎng)的表達(dá))比縱向擴(kuò)展(使用更大的詞匯)更有效率。這意味著使用增強(qiáng)的大語言模型架構(gòu)能夠提供更靈活、更高效的路徑來捕獲數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)。
第三個(gè)誤區(qū)是對(duì)自回歸生成模型的誤解。有些研究者認(rèn)為應(yīng)該避免使用自回歸模型,因?yàn)樗鼈?注定會(huì)犯錯(cuò),無法建模結(jié)果的不確定性"。但這種觀點(diǎn)忽略了一個(gè)關(guān)鍵事實(shí):許多真實(shí)世界系統(tǒng)本質(zhì)上就是混沌的,微小偏差會(huì)隨時(shí)間指數(shù)級(jí)增長(zhǎng)。
在這種情況下,精確預(yù)測(cè)是不可能的,無論使用什么模型類別。然而,結(jié)構(gòu)良好的自回歸模型仍能學(xué)習(xí)系統(tǒng)的有用抽象屬性,這些屬性往往具有驚人的穩(wěn)定性和可預(yù)測(cè)性。這一見解基于遍歷理論和統(tǒng)計(jì)力學(xué)的深刻洞察。
第四個(gè)誤區(qū)關(guān)于訓(xùn)練目標(biāo)的選擇。目前流行的JEPA(Joint Embedding Predictive Architecture)框架主張放棄概率性數(shù)據(jù)重構(gòu)目標(biāo),而采用基于能量的潛在重構(gòu)目標(biāo),認(rèn)為這樣更易處理。但研究團(tuán)隊(duì)通過嚴(yán)格的數(shù)學(xué)分析證明,這種方法容易導(dǎo)致表示坍塌——模型可能通過將所有觀察映射到常數(shù)向量來輕松最小化損失,從而學(xué)不到任何有用信息。
相比之下,生成重構(gòu)損失通過引入解碼器并直接監(jiān)督預(yù)測(cè)的下一個(gè)觀察,將學(xué)習(xí)目標(biāo)錨定在可觀察數(shù)據(jù)的結(jié)構(gòu)上,從而避免了這種坍塌問題。研究團(tuán)隊(duì)進(jìn)一步證明,潛在重構(gòu)本質(zhì)上只是生成重構(gòu)的一個(gè)上界受限的代理,這意味著最小化潛在損失并不能保證與智能體在世界中實(shí)際觀察到的內(nèi)容保持一致。
第五個(gè)誤區(qū)涉及模型的使用方式。有觀點(diǎn)認(rèn)為應(yīng)該使用模型預(yù)測(cè)控制(MPC)而非強(qiáng)化學(xué)習(xí)(RL),理由是后者需要太多試驗(yàn)。但MPC存在實(shí)際限制:它需要在每個(gè)推理時(shí)間步重復(fù)進(jìn)行潛在軌跡模擬,導(dǎo)致計(jì)算開銷很大,難以在快速變化的環(huán)境中有效響應(yīng)。
而RL是一種通用、靈活、可擴(kuò)展的方法,不會(huì)限制決策方法或搜索范圍。特別是,可以用世界模型替代真實(shí)環(huán)境進(jìn)行探索和學(xué)習(xí)。這種方法將部分計(jì)算成本轉(zhuǎn)移到訓(xùn)練階段,而不是在決策時(shí)從頭開始規(guī)劃,能夠訓(xùn)練出可重用的策略網(wǎng)絡(luò),實(shí)現(xiàn)快速行動(dòng)選擇。
三、PAN架構(gòu):一個(gè)全新的解決方案
基于對(duì)現(xiàn)有方法深入分析后,研究團(tuán)隊(duì)提出了PAN(Physical, Agentic, and Nested)世界模型架構(gòu)。這個(gè)名字很好地概括了其核心特點(diǎn):物理性(Physical)、智能體特性(Agentic)和嵌套性(Nested)。
為了更好地理解PAN的設(shè)計(jì)理念,研究團(tuán)隊(duì)選擇了一個(gè)極具挑戰(zhàn)性的應(yīng)用場(chǎng)景——登山探險(xiǎn)。這個(gè)選擇很有深意,因?yàn)榈巧缴婕傲耸澜缒P托枰幚淼膸缀跛袕?fù)雜性:多模態(tài)感官輸入、多層次決策、長(zhǎng)期規(guī)劃、社交協(xié)調(diào),以及各種不確定性。
在登山過程中,世界模型必須處理來自視覺、聽覺、溫度、運(yùn)動(dòng)甚至疼痛等多種感官信號(hào)。這些信號(hào)對(duì)不同任務(wù)的重要性各不相同,但它們共同構(gòu)成了一個(gè)整體的現(xiàn)實(shí)體驗(yàn)。比如,在做路徑規(guī)劃時(shí),地形的宏觀特征比巖石表面的細(xì)節(jié)更重要;但在決定手腳放置位置時(shí),表面的紋理和摩擦力又變得至關(guān)重要。
PAN的核心創(chuàng)新在于采用了混合表示和多尺度推理原則。它通過感官編碼器處理多模態(tài)輸入,同時(shí)使用離散和連續(xù)路徑來捕獲世界的互補(bǔ)方面。一方面,分詞器將原始信號(hào)分層映射為基于PAN詞匯的離散標(biāo)記,這些標(biāo)記跨越多個(gè)抽象層次,包括通過VQ-VAE風(fēng)格方法學(xué)習(xí)的抽象標(biāo)記,以及來自自然語言的具體詞匯。另一方面,PAN也將低級(jí)細(xì)節(jié)編碼為連續(xù)潛在嵌入,以在必要時(shí)捕獲完整的細(xì)致感知體驗(yàn)。
這些標(biāo)記和嵌入共同形成了世界狀態(tài)的分層估計(jì)。與傳統(tǒng)方法不同,這種表示可以包含靈活數(shù)量的標(biāo)記,以緊湊地反映世界信息的深層結(jié)構(gòu):我在哪里?誰和我在一起?我有什么工具?我的情緒狀態(tài)如何?正如研究團(tuán)隊(duì)在理論分析中所證明的,這種表示形式足以捕獲相關(guān)信息,即使對(duì)于像視頻這樣的連續(xù)數(shù)據(jù)也是如此。
PAN的世界模型骨干采用了增強(qiáng)的大語言模型和基于擴(kuò)散的下一個(gè)潛在嵌入預(yù)測(cè)器的組合。這個(gè)設(shè)計(jì)是對(duì)前面提到的生成潛在預(yù)測(cè)(GLP)架構(gòu)的具體實(shí)現(xiàn)。大語言模型骨干能夠?qū)ψ匀徽Z言標(biāo)記和學(xué)習(xí)的概念詞匯進(jìn)行推理,支持跨領(lǐng)域的廣泛泛化。在訓(xùn)練和推理過程中,模型還可以通過引入新標(biāo)記或合并現(xiàn)有標(biāo)記來動(dòng)態(tài)擴(kuò)展其詞匯,以最大化預(yù)測(cè)質(zhì)量。
與此同時(shí),基于擴(kuò)散的嵌入預(yù)測(cè)器負(fù)責(zé)快速、低級(jí)別,通常是潛意識(shí)的推理,這些推理對(duì)于具身響應(yīng)至關(guān)重要,但又難以用語言表達(dá)。這個(gè)模塊模擬詳細(xì)的感知體驗(yàn),比如腳點(diǎn)是否穩(wěn)固,或者在攀爬時(shí)身體如何調(diào)整重心。學(xué)習(xí)開關(guān)允許PAN通過自適應(yīng)組合這些不同組件來分層預(yù)測(cè)下一個(gè)世界狀態(tài)。
為了監(jiān)督其預(yù)測(cè)并允許訓(xùn)練好的世界模型與可能使用其輸出的外部智能體或人類進(jìn)行交互,PAN使用多模態(tài)解碼器重構(gòu)下一個(gè)觀察,并將其與實(shí)際觀察進(jìn)行比較。關(guān)鍵是,解碼器的輸出不限于視頻,而是包括完整的感官體驗(yàn),可能包括聲音、溫度、運(yùn)動(dòng)、疼痛以及其他具身信號(hào),甚至文本。
這種生成監(jiān)督將預(yù)測(cè)的世界狀態(tài)錨定在感官現(xiàn)實(shí)中,確保表示保留所有可能的信息,同時(shí)允許解碼器吸收剩余變異性。這種方法與在下一個(gè)表示預(yù)測(cè)上訓(xùn)練的模型形成鮮明對(duì)比,后者純粹在潛在空間中監(jiān)督世界模型,最多只是生成目標(biāo)的松散代理,并且容易出現(xiàn)表示坍塌或不可識(shí)別性問題。
四、PAN的訓(xùn)練策略與實(shí)際應(yīng)用
PAN的訓(xùn)練采用分而治之的策略,這種方法既實(shí)用又高效。首先通過自監(jiān)督學(xué)習(xí)獨(dú)立預(yù)訓(xùn)練各個(gè)模塊——比如用文本數(shù)據(jù)預(yù)訓(xùn)練大語言模型,用視頻數(shù)據(jù)預(yù)訓(xùn)練擴(kuò)散模型。然后在后訓(xùn)練階段使用多模態(tài)數(shù)據(jù)、級(jí)聯(lián)嵌入和梯度傳播來對(duì)齊或集成這些模塊。
這種策略的一個(gè)關(guān)鍵優(yōu)勢(shì)是數(shù)據(jù)效率。由于采用了多尺度和分層的世界視圖,PAN在處理高度復(fù)雜可能性時(shí)不需要依賴捕獲所有復(fù)雜性的數(shù)據(jù)。在登山任務(wù)中,當(dāng)進(jìn)行導(dǎo)航和路徑規(guī)劃推理時(shí),世界狀態(tài)不需要包含像素級(jí)的雪或巖石表面細(xì)節(jié);而在決定攀爬時(shí)手腳放置位置時(shí),世界狀態(tài)可以忽略地理背景。
因此,模擬高度復(fù)雜可能性的世界模型不需要依賴一次性捕獲所有復(fù)雜性的數(shù)據(jù),而是可以利用在不同層面提供信息的不同類型數(shù)據(jù)。比如,旅行書籍可以提供路徑指南和地圖閱讀信息,室內(nèi)視頻可以提供攀巖和裝備使用技巧。期望存在全面覆蓋高山攀登所有方面的大型視頻語料庫是不現(xiàn)實(shí)的。許多通用能力(如社交推理、旅行規(guī)劃、寒冷天氣生存)可以從豐富的語言數(shù)據(jù)中學(xué)習(xí)。只有直接的具身技能(如腳步放置、攀巖技巧)需要視頻或本體感覺等物理數(shù)據(jù),這些可以在受控或模擬環(huán)境中獲得。
PAN的預(yù)訓(xùn)練-對(duì)齊/集成策略使感官信息能夠通過大語言模型在更高層次、更豐富的背景中得到基礎(chǔ),從而促進(jìn)跨模態(tài)泛化。同時(shí),嵌入在大語言模型中的抽象知識(shí)可以錨定到具體的具身體驗(yàn),提高系統(tǒng)推理的精確性和現(xiàn)實(shí)感。結(jié)果是一個(gè)像人類一樣從多樣化經(jīng)驗(yàn)中獲得常識(shí)理解的世界模型。因此,它不需要為每個(gè)特定任務(wù)提供詳盡的訓(xùn)練數(shù)據(jù),而是可以從許多領(lǐng)域獲得的概念知識(shí)中進(jìn)行推理。
五、走向智能體推理的新范式
PAN不僅僅是一個(gè)技術(shù)架構(gòu),更代表了一種全新的智能體推理范式。傳統(tǒng)的AI系統(tǒng)要么依賴反應(yīng)式策略(像條件反射一樣立即響應(yīng)),要么依賴模型預(yù)測(cè)控制(在決策時(shí)進(jìn)行昂貴的實(shí)時(shí)模擬)。PAN提出了第三種方式:預(yù)計(jì)算和緩存。
在這種新范式下,PAN智能體會(huì)預(yù)先計(jì)算并緩存各種可能的世界狀態(tài)、這些狀態(tài)中的合理行動(dòng),以及它們的模擬結(jié)果。在決策時(shí),智能體不是僅僅依賴昂貴的實(shí)時(shí)模擬,而是咨詢這個(gè)緩存,并根據(jù)當(dāng)前信念和預(yù)期獎(jiǎng)勵(lì)選擇行動(dòng)。這種模擬與行動(dòng)選擇的解耦使智能體能夠更深思熟慮地、適應(yīng)性地、選擇性地進(jìn)行推理,避免了純反應(yīng)式策略的剛性和持續(xù)前向推演的計(jì)算負(fù)擔(dān)。
這種方法更接近人類認(rèn)知——我們會(huì)提前規(guī)劃,應(yīng)對(duì)不確定性,在想象的未來中進(jìn)行選擇。這樣的智能體可能最終接近人類智能的適應(yīng)性、韌性和自主性特征。
研究團(tuán)隊(duì)認(rèn)為,隨著世界模型越來越多地成為推理、想象和行動(dòng)的基礎(chǔ),像PAN這樣具有經(jīng)驗(yàn)基礎(chǔ)、多層抽象和實(shí)證可擴(kuò)展性的框架,為開發(fā)穩(wěn)健、通用的AI提供了令人信服的基礎(chǔ)。
展望未來,PAN框架開啟了幾個(gè)有前途的方向:從單智能體擴(kuò)展到多智能體模擬(如企業(yè)、社會(huì)的集體行為,公共健康的后果),跨時(shí)間尺度擴(kuò)展(從毫秒到千年),提高跨模態(tài)的模擬保真度,以及使智能體直接通過想象經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。
說到底,這項(xiàng)研究不僅提供了一個(gè)技術(shù)解決方案,更重要的是它重新定義了我們對(duì)"智能"的理解。真正的智能不在于生成漂亮的圖像或回答孤立的問題,而在于能夠在復(fù)雜、動(dòng)態(tài)的世界中進(jìn)行深入的推理和規(guī)劃。PAN架構(gòu)向我們展示了一條通往這種真正智能的可能路徑,雖然距離科幻小說中的場(chǎng)景還很遙遠(yuǎn),但這種基于"思想實(shí)驗(yàn)"的智能范式可能真的是通向更強(qiáng)大AI的關(guān)鍵一步。
歸根結(jié)底,我們正站在一個(gè)轉(zhuǎn)折點(diǎn)上。過去幾年,AI在語言和圖像生成方面取得了驚人進(jìn)展,但要實(shí)現(xiàn)真正的通用人工智能,我們需要的不僅僅是更好的內(nèi)容生成器,而是能夠像人類一樣進(jìn)行復(fù)雜推理和規(guī)劃的系統(tǒng)。PAN提供的不僅是一個(gè)新的技術(shù)架構(gòu),更是一種全新的思維方式——把AI系統(tǒng)從"反應(yīng)器"轉(zhuǎn)變?yōu)檎嬲?思考者"。這種轉(zhuǎn)變可能最終會(huì)讓AI系統(tǒng)具備我們一直夢(mèng)寐以求的那種深度智能和適應(yīng)能力。
感興趣的讀者如果想深入了解這項(xiàng)研究的技術(shù)細(xì)節(jié)和數(shù)學(xué)證明,可以通過論文編號(hào)arXiv:2507.05169v1在相關(guān)學(xué)術(shù)數(shù)據(jù)庫中查找完整論文。
Q&A
Q1:世界模型到底是什么?它和我們常見的AI有什么不同? A:世界模型就像AI的"大腦地圖",它讓AI能夠在內(nèi)部構(gòu)建一個(gè)虛擬世界來進(jìn)行"思想實(shí)驗(yàn)"。和現(xiàn)在的AI不同,世界模型不只是回答問題或生成內(nèi)容,而是能夠預(yù)測(cè)"如果我這樣做會(huì)發(fā)生什么",就像人類在行動(dòng)前會(huì)在腦海中預(yù)演可能的結(jié)果一樣。
Q2:PAN模型會(huì)不會(huì)讓AI變得過于強(qiáng)大而難以控制? A:目前PAN還在研究階段,距離實(shí)際應(yīng)用還有很長(zhǎng)路要走。而且PAN的設(shè)計(jì)理念是讓AI更好地理解世界規(guī)律和行為后果,這實(shí)際上可能讓AI變得更可預(yù)測(cè)、更容易控制,因?yàn)樗臎Q策過程更透明,更接近人類的推理方式。
Q3:普通人什么時(shí)候能用上基于PAN架構(gòu)的AI系統(tǒng)? A:這項(xiàng)研究目前還處于理論框架階段,研究團(tuán)隊(duì)承諾會(huì)在后續(xù)論文中提供具體實(shí)現(xiàn)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果??紤]到技術(shù)開發(fā)和測(cè)試的復(fù)雜性,普通消費(fèi)者可能需要等待數(shù)年才能體驗(yàn)到基于這種架構(gòu)的AI產(chǎn)品。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。