論文詳情與研究團(tuán)隊(duì)
這項(xiàng)由浙江大學(xué)的鄭浩、朱沐之、杜宗澤、黃錚、趙燦宇、劉明玉、王雯、陳浩和沈春華教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì)于2025年5月發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.20256v1),論文標(biāo)題為《Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration》。研究團(tuán)隊(duì)提出了一種針對(duì)全模態(tài)理解的強(qiáng)化學(xué)習(xí)新框架,代碼已在GitHub開源:https://github.com/aim-uofa/Omni-R1。
研究背景:AI理解世界的兩難困境
想象你在觀看一場復(fù)雜的體育比賽。如果你只看低分辨率的全場鏡頭,你能掌握整體戰(zhàn)術(shù)走向,但很難辨認(rèn)出球員的表情或細(xì)節(jié)動(dòng)作。反之,如果你只看高清特寫鏡頭,你能清晰看到每個(gè)表情和動(dòng)作細(xì)節(jié),卻失去了對(duì)整場比賽的全局把握。
人工智能面臨著類似的挑戰(zhàn)。目前的全模態(tài)AI系統(tǒng)(能同時(shí)處理文本、視頻和音頻的系統(tǒng))在兩個(gè)關(guān)鍵能力之間存在根本性的矛盾:
1. 長時(shí)間序列的視頻和音頻理解需要大量幀來覆蓋整體時(shí)間脈絡(luò),但處理大量幀會(huì)導(dǎo)致內(nèi)存和計(jì)算資源不足,迫使模型降低每幀的分辨率。
2. 精細(xì)像素級(jí)別的視覺理解則需要高分辨率輸入來保留細(xì)節(jié),但這又限制了能處理的幀數(shù)。
簡單來說,這就像是你不能同時(shí)擁有望遠(yuǎn)鏡和顯微鏡的優(yōu)勢——要么看得遠(yuǎn)但不精細(xì),要么看得清但視野窄。現(xiàn)有的AI模型難以兼顧這兩種能力,這大大限制了它們?cè)趶?fù)雜現(xiàn)實(shí)世界場景中的應(yīng)用。
浙大團(tuán)隊(duì)的創(chuàng)新解決方案:雙系統(tǒng)協(xié)作架構(gòu)
面對(duì)這一挑戰(zhàn),浙大團(tuán)隊(duì)提出了一個(gè)名為"Omni-R1"的創(chuàng)新框架,采用了類似人類認(rèn)知的"雙系統(tǒng)"協(xié)作架構(gòu):
### 系統(tǒng)1:全局推理系統(tǒng)(Global Reasoning System)
這就像是一位賽事分析師,以低分辨率觀看整場比賽,識(shí)別關(guān)鍵時(shí)刻并理解整體脈絡(luò)。具體來說,系統(tǒng)1處理低分辨率的完整視頻流,負(fù)責(zé): - 從長視頻中選擇最具信息量的關(guān)鍵幀 - 重新表述復(fù)雜任務(wù),將其簡化為只需關(guān)注局部細(xì)節(jié)的子任務(wù)
### 系統(tǒng)2:細(xì)節(jié)理解系統(tǒng)(Detail Understanding System)
這就像是一位細(xì)節(jié)觀察員,只關(guān)注高清特寫鏡頭中的精細(xì)信息。系統(tǒng)2只處理系統(tǒng)1選出的少量高分辨率關(guān)鍵幀,專注于: - 精確定位和理解每一幀中的目標(biāo)對(duì)象 - 執(zhí)行像素級(jí)別的精細(xì)分割和識(shí)別
舉個(gè)例子,假設(shè)AI需要識(shí)別"視頻中最后一個(gè)離開現(xiàn)場的人"。系統(tǒng)1會(huì)先以低分辨率處理整個(gè)視頻,確定哪個(gè)人是最后離開的,然后選擇幾個(gè)包含這個(gè)人的關(guān)鍵片段。系統(tǒng)2接著以高分辨率分析這些關(guān)鍵片段,精確地在像素級(jí)別定位并分割出這個(gè)人的形象。
這種協(xié)作方式巧妙解決了全局理解與細(xì)節(jié)處理之間的矛盾,讓AI能夠既理解長時(shí)間的時(shí)序信息,又能進(jìn)行精細(xì)的視覺理解,而無需對(duì)整個(gè)視頻進(jìn)行高分辨率處理。
突破性創(chuàng)新:用強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)1
研究團(tuán)隊(duì)發(fā)現(xiàn),定義"最優(yōu)"關(guān)鍵幀選擇和任務(wù)重構(gòu)非常困難且高度依賴具體任務(wù),很難通過人工標(biāo)注的監(jiān)督學(xué)習(xí)數(shù)據(jù)來訓(xùn)練。這就像是很難教會(huì)一個(gè)人"哪些是電影中的關(guān)鍵場景"——不同人會(huì)有不同見解,而且標(biāo)準(zhǔn)往往是模糊的。
因此,研究團(tuán)隊(duì)將這一問題重新定義為強(qiáng)化學(xué)習(xí)(RL)任務(wù)。他們基于"群組相對(duì)策略優(yōu)化"(Group Relative Policy Optimization, GRPO)構(gòu)建了端到端強(qiáng)化學(xué)習(xí)框架,讓系統(tǒng)1通過與系統(tǒng)2的實(shí)時(shí)協(xié)作來學(xué)習(xí)如何選擇最佳關(guān)鍵幀和重構(gòu)任務(wù)。
這個(gè)過程類似于兩個(gè)人協(xié)作完成任務(wù)的學(xué)習(xí)過程:
1. 系統(tǒng)1(全局推理系統(tǒng))首先選擇一些關(guān)鍵幀并提出簡化后的任務(wù)描述。 2. 系統(tǒng)2(細(xì)節(jié)理解系統(tǒng))嘗試使用這些高分辨率關(guān)鍵幀和任務(wù)描述來完成目標(biāo)。 3. 根據(jù)最終結(jié)果的好壞,系統(tǒng)1獲得獎(jiǎng)勵(lì)反饋,逐漸調(diào)整和改進(jìn)自己的策略。 4. 隨著訓(xùn)練進(jìn)行,系統(tǒng)1學(xué)會(huì)了選擇最有信息量的關(guān)鍵幀,并以最有效的方式重構(gòu)任務(wù)。
研究團(tuán)隊(duì)設(shè)計(jì)了一套分層獎(jiǎng)勵(lì)函數(shù)來指導(dǎo)系統(tǒng)1的學(xué)習(xí),包括:
1. 關(guān)鍵幀質(zhì)量獎(jiǎng)勵(lì):評(píng)估選擇的關(guān)鍵幀是否具有多樣性、是否覆蓋了目標(biāo)物體的顯著部分等。 2. 幀-指令對(duì)齊獎(jiǎng)勵(lì):評(píng)估本地化指令與相應(yīng)關(guān)鍵幀的匹配程度。 3. 全局時(shí)間一致性獎(jiǎng)勵(lì):評(píng)估最終的分割結(jié)果在整個(gè)視頻中的空間準(zhǔn)確性和時(shí)間一致性。
通過這種強(qiáng)化學(xué)習(xí)方法,系統(tǒng)1不斷改進(jìn)其選擇關(guān)鍵幀和重構(gòu)任務(wù)的能力,從而使整個(gè)系統(tǒng)在處理復(fù)雜的全模態(tài)理解任務(wù)時(shí)更加高效和準(zhǔn)確。
實(shí)驗(yàn)驗(yàn)證:卓越的性能提升
研究團(tuán)隊(duì)在兩個(gè)極具挑戰(zhàn)性的任務(wù)上評(píng)估了Omni-R1的性能:
### 1. 指代音視頻分割任務(wù)(RefAVS)
這項(xiàng)任務(wù)要求AI根據(jù)自然語言指令和音頻信息在視頻中分割出指定的物體。例如,"定位視頻中發(fā)出敲擊聲音的鐵鍋"。
在RefAVS測試集上,Omni-R1僅訓(xùn)練一個(gè)周期就取得了顯著突破: - 在"見過"的數(shù)據(jù)集上:J&F得分提升16.4%(從31.6%到47.2%) - 在"未見過"的數(shù)據(jù)集上:J&F得分提升8.0%(從66.2%到74.2%)
這一結(jié)果不僅大幅超越了基線模型,甚至超越了專門為此任務(wù)設(shè)計(jì)的最先進(jìn)模型EEMC。
### 2. 推理視頻物體分割任務(wù)(REVOS)
這項(xiàng)任務(wù)要求AI基于時(shí)間行為的復(fù)雜描述來分割視頻中的物體。例如,"分割視頻中最后一個(gè)被拿起的物體"。
在REVOS數(shù)據(jù)集上,7B參數(shù)的Omni-R1作為系統(tǒng)1和系統(tǒng)2時(shí),在整體測試集上達(dá)到了47.6%的J&F得分,比基線模型提高了11.0%。
當(dāng)11B參數(shù)的Omni-R1作為系統(tǒng)1與Sa2VA(一個(gè)專業(yè)的分割模型)作為系統(tǒng)2協(xié)作時(shí),性能進(jìn)一步提升至58.9%,超越了專門為分割任務(wù)設(shè)計(jì)的Sa2VA-26B(58.4%)等更大的模型。
特別值得注意的是,Omni-R1在推理子集上取得了53.7%的得分,表明其出色的時(shí)序推理能力。
### 3. 通用全模態(tài)理解能力
除了上述專業(yè)任務(wù)外,研究團(tuán)隊(duì)還評(píng)估了Omni-R1在通用理解基準(zhǔn)上的表現(xiàn):
- OmniBench:得分提升2.0%(從47.3%到49.3%) - VideoMME:得分提升2.7%(從58.3%到60.7%) - MVBench:得分提升3.7%(從66.1%到70.3%)
這些結(jié)果表明,通過針對(duì)視頻分割任務(wù)的強(qiáng)化學(xué)習(xí),Omni-R1不僅提高了特定任務(wù)的性能,還增強(qiáng)了其通用的多模態(tài)理解能力。
消除幻覺問題的意外收獲
在訓(xùn)練過程中,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)意外收獲:Omni-R1顯著減少了多模態(tài)幻覺問題(即AI虛構(gòu)不存在的內(nèi)容)。
在AVHBench的JUDGE子集上,結(jié)合視頻物體分割(VOS)和音視頻分割(AVS)任務(wù)訓(xùn)練的Omni-R1將準(zhǔn)確率從基線模型的58.5%提升到了71.9%,改善了13.4%。這表明多任務(wù)強(qiáng)化學(xué)習(xí)不僅提高了音視頻理解能力,還更有效地減輕了幻覺問題。
研究團(tuán)隊(duì)分析認(rèn)為,這可能是因?yàn)殡p系統(tǒng)架構(gòu)迫使模型更加嚴(yán)謹(jǐn)?shù)靥幚硇畔ⅲ合到y(tǒng)1必須提供準(zhǔn)確的關(guān)鍵幀和任務(wù)描述,系統(tǒng)2才能成功完成任務(wù)。這種協(xié)作機(jī)制自然形成了一種內(nèi)部驗(yàn)證機(jī)制,減少了模型產(chǎn)生幻覺的可能性。
未來展望與局限性
盡管Omni-R1在多項(xiàng)任務(wù)上取得了優(yōu)異成績,研究團(tuán)隊(duì)也坦率指出了當(dāng)前方法的局限性:
系統(tǒng)1和系統(tǒng)2之間的完全功能分離可能在某些需要精細(xì)時(shí)間敏感性的任務(wù)中帶來挑戰(zhàn)。例如,當(dāng)需要檢測和描述特定時(shí)間段內(nèi)的異常行為時(shí),系統(tǒng)2缺乏時(shí)間上下文可能會(huì)影響一致性。
研究團(tuán)隊(duì)建議未來研究可以探索更具交互性的架構(gòu),使系統(tǒng)1和系統(tǒng)2之間能夠雙向交流信息。這將使系統(tǒng)1能夠利用系統(tǒng)2的本地洞察來改進(jìn)其全局推理,同時(shí)使系統(tǒng)2能夠獲得系統(tǒng)1提供的更廣泛的上下文意識(shí)。
研究者們認(rèn)為,將當(dāng)前的單向推理流程轉(zhuǎn)變?yōu)殡p向合作推理結(jié)構(gòu),有望進(jìn)一步提升多模態(tài)時(shí)序理解能力,特別是在更靈活和復(fù)雜的任務(wù)上。
總結(jié):AI理解世界的新范式
歸根結(jié)底,Omni-R1提出的雙系統(tǒng)協(xié)作架構(gòu)代表了AI理解復(fù)雜現(xiàn)實(shí)世界的一種新范式。就像人類在觀察世界時(shí)會(huì)自然地結(jié)合全局掃描和局部聚焦一樣,這種方法讓AI能夠同時(shí)把握時(shí)序脈絡(luò)和捕捉細(xì)節(jié)信息。
通過將關(guān)鍵幀選擇和任務(wù)重構(gòu)形式化為強(qiáng)化學(xué)習(xí)問題,浙大團(tuán)隊(duì)成功地讓AI學(xué)會(huì)了如何在不同任務(wù)中有效地分配注意力資源。這種方法不僅在特定任務(wù)上表現(xiàn)優(yōu)異,還改善了模型的通用理解能力和跨域泛化能力,同時(shí)減少了多模態(tài)幻覺問題。
Omni-R1代表了將強(qiáng)化學(xué)習(xí)應(yīng)用于大規(guī)模全模態(tài)推理的首次成功嘗試,為構(gòu)建真正通用的人工智能基礎(chǔ)模型提供了可擴(kuò)展的路徑。這一研究向我們展示,通過模擬人類認(rèn)知的協(xié)作機(jī)制,AI可以更好地理解和解釋我們這個(gè)豐富多彩的世界。
對(duì)于關(guān)注AI發(fā)展的讀者來說,這項(xiàng)研究意味著未來的AI系統(tǒng)將能夠更全面、更精準(zhǔn)地理解包含視頻、音頻和文本的復(fù)雜場景,無論是輔助視頻內(nèi)容創(chuàng)作、智能監(jiān)控系統(tǒng)、自動(dòng)駕駛感知,還是輔助醫(yī)療診斷等領(lǐng)域,都將因此受益。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。