av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 RLVR-World:用強化學習訓練世界模型,突破視覺和語言邊界的突破性研究

RLVR-World:用強化學習訓練世界模型,突破視覺和語言邊界的突破性研究

2025-05-27 11:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 11:07 ? 科技行者

這項由清華大學軟件學院Jialong Wu、Shaofeng Yin、Ningya Feng和Mingsheng Long教授共同完成的研究,于2025年5月20日在arXiv(arXiv:2505.13934v1)上發(fā)表。感興趣的讀者可以通過清華大學機器學習研究團隊(THUML)的項目網站https://thuml.github.io/RLVR-World獲取更多信息。

為什么這項研究如此重要?

想象一下,如果你的智能助手不僅能回答問題,還能預測你的行為會產生什么結果。比如,在你點擊網頁上的某個按鈕前,它能先告訴你"點擊這里會打開一個訂單頁面";或者在機器人執(zhí)行任務前,它能準確預測機器人的動作會導致什么變化。這正是"世界模型"的核心功能——預測在特定行動后,環(huán)境將如何變化。

世界模型就像是智能系統(tǒng)的"想象力",讓它能夠在實際行動前先在"腦海中"模擬可能的結果。這種能力對于自動駕駛汽車、網絡瀏覽助手、機器人等智能系統(tǒng)至關重要。當一個自動駕駛系統(tǒng)能夠預測不同行駛路徑的后果時,它才能做出安全的決策;當一個網絡助手能預測點擊不同按鈕的結果時,它才能有效地幫助用戶導航網頁。

然而,訓練世界模型面臨著一個根本性的挑戰(zhàn):傳統(tǒng)訓練方法與實際應用目標存在脫節(jié)。大多數(shù)世界模型使用"最大似然估計"(MLE)等方法訓練,這些方法擅長讓模型學習數(shù)據的整體分布,但并不直接優(yōu)化用戶真正關心的指標,比如預測的準確性或視覺質量。

清華大學的研究團隊針對這一問題提出了一個名為"RLVR-World"的創(chuàng)新框架。這個框架使用"可驗證獎勵的強化學習"(RLVR)技術,直接優(yōu)化世界模型在實際應用中最關心的指標。簡單來說,這就像是從"學習所有可能的情況"轉變?yōu)?專注學習最重要的情況",使模型的訓練目標與實際應用需求直接對齊。

世界模型的基本概念:理解環(huán)境變化的"超級預測器"

在深入了解RLVR-World之前,我們需要先理解什么是世界模型。想象你在玩一個電子游戲,每次按下控制器上的按鈕,游戲中的角色就會做出相應的動作,環(huán)境也會隨之變化。世界模型就像是一個超級預測器,它觀察當前的游戲畫面和你即將按下的按鈕,然后預測下一個畫面會是什么樣子。

在技術術語中,世界模型試圖學習狀態(tài)轉移函數(shù)p(s'|s,a),其中s是當前狀態(tài),a是行動,s'是下一個狀態(tài)。這個函數(shù)描述了在當前狀態(tài)下采取某個行動后,環(huán)境會如何變化。

傳統(tǒng)上,世界模型通常使用最大似然估計(MLE)等方法訓練。這就像是讓模型不斷預測"按下這個按鈕后,游戲畫面最可能是什么樣子",然后通過比較預測和實際結果來調整模型。這種方法在理論上很合理,但實際上存在問題。

例如,在視頻預測任務中,使用像均方誤差這樣的傳統(tǒng)損失函數(shù)往往會導致模型生成模糊的圖像,因為模型在嘗試平均所有可能的結果。在語言模型中,這種訓練方式可能導致重復或幻覺等問題。簡單來說,傳統(tǒng)方法讓模型學會了"猜測平均情況",而不是"準確預測具體情況"。

RLVR-World:直接優(yōu)化用戶關心的指標

清華大學研究團隊提出的RLVR-World框架采用了一種完全不同的訓練思路。不再專注于讓模型學習數(shù)據的整體分布,而是直接優(yōu)化用戶真正關心的指標,如預測的準確性或視覺質量。

這種方法的關鍵在于使用"可驗證獎勵的強化學習"(RLVR)。強化學習是一種讓模型通過"嘗試和反饋"來學習的方法,就像訓練寵物一樣——當寵物做對事情時給予獎勵,做錯時給予糾正。在RLVR-World中,模型得到的"獎勵"直接基于預測的質量指標,比如文本預測的準確率或視頻預測的視覺質量。

具體來說,RLVR-World的工作流程如下:

首先,研究團隊將不同類型的世界模型(如處理文本、視頻等)統(tǒng)一到一個通用的序列建??蚣苤小o論是文本狀態(tài)、視頻畫面還是機器人的傳感器數(shù)據,都被轉換為一系列的"令牌"(tokens)。

然后,模型使用傳統(tǒng)方法(如MLE)進行初步訓練,學習基本的預測能力。這就像是先教會一個學生基礎知識,為更高級的學習打下基礎。

最后,模型通過RLVR進行"微調"(fine-tuning),直接優(yōu)化用戶關心的指標。模型生成多個可能的預測,然后根據這些預測的質量獲得"獎勵",并據此調整自己的參數(shù)。這就像是讓學生不僅掌握知識,還能針對特定考試類型進行專門訓練。

這種方法的優(yōu)勢在于,它能夠讓模型的訓練目標與實際應用需求直接對齊。例如,如果用戶關心的是視頻預測的視覺質量,模型就會專門優(yōu)化這一指標,而不是盲目地追求統(tǒng)計上的"平均正確"。

RLVR-World在文本世界模型上的應用

研究團隊首先在語言世界模型上測試了RLVR-World框架,特別是在兩個任務上:文字游戲狀態(tài)預測和網頁導航。

在文字游戲狀態(tài)預測任務中,模型需要根據游戲當前狀態(tài)和玩家行動預測游戲的下一個狀態(tài)。例如,如果當前游戲中有一個臟盤子,玩家的行動是"清洗盤子",模型需要預測下一個狀態(tài)中盤子會變干凈。

研究團隊使用DeepSeek-R1-Distill-Qwen-1.5B作為基礎模型,并進行了監(jiān)督微調(SFT)和RLVR微調。結果顯示,與僅使用SFT的模型相比,使用RLVR微調的模型在不變案例(玩家行動不改變游戲狀態(tài))上準確率提高了34.7%,在變化案例(玩家行動改變游戲狀態(tài))上準確率提高了8.9%。使用任務特定獎勵函數(shù)時,性能提升更顯著,不變案例準確率提高44.8%,變化案例準確率提高9.6%。這使得這個相對小型的1.5B參數(shù)模型在總體性能上能夠接近GPT-4,盡管在處理復雜變化案例時仍有差距。

在網頁導航任務中,模型需要預測用戶在網頁上執(zhí)行某個操作(如點擊按鈕)后,網頁狀態(tài)的變化。研究團隊同樣使用DeepSeek-R1-Distill-Qwen-1.5B作為基礎模型,并進行了SFT和RLVR微調。結果顯示,RLVR微調使模型的精確率提高了48.5%,F(xiàn)1分數(shù)提高了30.3%。

更重要的是,這些增強的語言世界模型在實際應用中表現(xiàn)出明顯優(yōu)勢。研究團隊構建了一個使用模型預測控制(MPC)的網頁代理,該代理使用世界模型來預測不同行動的結果,并選擇最佳行動。使用RLVR微調的世界模型使網頁代理的成功率提高了18.4%。

這些結果證明,RLVR不僅在數(shù)學和編碼等推理任務上有效,在世界建模這類涉及狀態(tài)轉換預測的任務上同樣有效。簡單來說,RLVR讓語言模型更好地理解"如果做A,會發(fā)生B"這類因果關系。

RLVR-World在視頻世界模型上的應用

除了文本世界模型,研究團隊還在視頻世界模型上測試了RLVR-World框架,這是一個更具挑戰(zhàn)性的領域。

在機器人操作軌跡預測任務中,模型需要根據當前觀察和未來行動預測機器人操作的視覺結果。研究團隊使用RT-1數(shù)據集,該數(shù)據集包含機器人在桌面環(huán)境中執(zhí)行各種任務的視頻記錄。

他們測試了兩種預測設置:單步預測(預測下一幀)和多步預測(預測未來七幀)。在這兩種設置下,RLVR微調都顯著提高了模型性能。在單步預測中,平均平方誤差(MSE)降低了14.3%,感知質量指標LPIPS提高了6.0%。在多步預測中,MSE降低了26.1%,LPIPS提高了9.2%。

特別值得注意的是,RLVR還有效解決了視頻預測中的重復問題。在多步預測中,基礎模型傾向于簡單地重復前一幀,導致48.6%的重復率。而使用RLVR微調后,重復率大幅降低至9.9%。這表明RLVR能夠鼓勵模型產生更多樣化、更準確的預測。

另一個引人注目的發(fā)現(xiàn)是,RLVR微調只需要幾百個梯度步驟就能實現(xiàn)顯著改進,而傳統(tǒng)的MLE訓練需要數(shù)十萬步。這表明RLVR提供了一種非常高效的訓練方法,特別適合微調預訓練模型。

此外,研究團隊還發(fā)現(xiàn),使用不同視覺指標(如MAE、MSE、PSNR、SSIM、LPIPS)作為獎勵函數(shù)微調的模型,在各自的指標上表現(xiàn)最好。這進一步證明了RLVR能夠直接優(yōu)化用戶關心的特定指標。

實際應用:從模型到現(xiàn)實世界

強化后的視頻世界模型不僅在預測任務上表現(xiàn)優(yōu)異,在實際應用中也展現(xiàn)出價值。研究團隊使用這些模型進行了"Real2Sim策略評估",即在模擬環(huán)境中評估機器人策略的有效性。

在這項任務中,模型需要模擬機器人執(zhí)行特定任務(如打開抽屜)的結果。研究顯示,與手工設計的SIMPLER模擬器相比,視頻世界模型在真實世界和模擬結果之間產生的差異更小,表明它們能夠更準確地模擬現(xiàn)實世界。而使用RLVR微調的世界模型進一步提高了模擬的準確性。

這一發(fā)現(xiàn)具有重要的實際意義。在機器人學習中,真實世界的試驗往往成本高昂且耗時。如果能夠在準確的模擬環(huán)境中評估和改進機器人策略,將大大加速機器人學習過程,降低成本。

研究的局限性與未來方向

盡管RLVR-World展示了令人印象深刻的成果,但研究團隊也坦率地指出了幾個仍需解決的挑戰(zhàn):

首先,如何設計更好的任務對齊獎勵函數(shù)仍是一個開放問題。雖然傳統(tǒng)的視覺指標(如MSE、LPIPS)比MLE更符合世界建模任務,但它們仍未完全捕捉用戶的期望質量。未來的研究可能需要納入物理規(guī)則和時間一致性等約束,設計更復雜的獎勵函數(shù)。

其次,盡管RLVR帶來了顯著改進,但訓練通常在幾百步內就趨于收斂,難以持續(xù)提升。了解模型、數(shù)據和算法中的瓶頸,可能是突破這一限制的關鍵。

第三,模型在分布外(OOD)數(shù)據上的泛化能力仍需探索。特別是在序列決策中,模型對分布外行動的反事實推理能力非常重要。

這些挑戰(zhàn)為未來研究提供了明確的方向,也表明RLVR-World框架雖有突破,但仍有很大的發(fā)展空間。

總結:強化學習開啟世界模型的新時代

歸根結底,清華大學研究團隊提出的RLVR-World框架代表了世界模型訓練的一個重要范式轉變。不再局限于傳統(tǒng)的最大似然估計等方法,而是直接優(yōu)化用戶真正關心的指標,讓模型的訓練目標與實際應用需求直接對齊。

這一框架在語言和視頻世界模型上都取得了顯著成功,在文本游戲狀態(tài)預測、網頁導航和機器人操作軌跡預測等任務上均實現(xiàn)了大幅度的性能提升。特別是,它能夠有效解決傳統(tǒng)方法中的重復和模糊等問題,生成更準確、更清晰的預測。

更重要的是,RLVR-World提供了一種高效的訓練方法,只需幾百個梯度步驟就能顯著改進預訓練模型的性能。這對于實際應用特別有價值,因為它允許研究者和開發(fā)者快速適應特定任務的需求。

隨著人工智能技術向更復雜的實際應用發(fā)展,準確預測環(huán)境變化的能力變得越來越重要。RLVR-World為構建更強大、更實用的世界模型提供了一條有前途的路徑,有望推動自動駕駛、機器人控制、網頁導航等領域的進步。

正如研究團隊所指出的,RLVR不僅適用于世界模型,還可能成為生成模型更廣泛的后訓練范式。它為提升生成模型的實用性提供了一種通用的方法,有望在更多領域產生影響。

對于想深入了解這項研究的讀者,可以訪問項目網站https://thuml.github.io/RLVR-World獲取更多信息,或查閱完整論文了解技術細節(jié)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-