當(dāng)你在觀看一部兩小時的電影時,你的眼睛并不會平均分配注意力到每一個畫面。相反,你會在關(guān)鍵情節(jié)出現(xiàn)時聚精會神地觀看,在過渡場景時放松注意力。這種"有重點(diǎn)的觀看"能力,正是中山大學(xué)聯(lián)合阿里巴巴通義實(shí)驗(yàn)室研究團(tuán)隊想要賦予人工智能的核心能力。
這項由中山大學(xué)計算機(jī)科學(xué)與工程學(xué)院的傅圣豪、楊啟澤、李袁明等研究者,聯(lián)合阿里巴巴通義實(shí)驗(yàn)室的魏西涵等專家共同完成的研究,發(fā)表于2025年9月的arXiv預(yù)印本平臺(論文編號:arXiv:2509.24786v1)。他們開發(fā)了一個名為LOVE-R1的視頻理解模型,這個模型最大的特點(diǎn)就是能夠像人類一樣,先粗略瀏覽整個視頻內(nèi)容,然后根據(jù)問題需要"放大鏡式"地仔細(xì)觀察特定片段。
傳統(tǒng)的AI視頻理解就像用固定規(guī)格的網(wǎng)篩撈魚——要么網(wǎng)眼太大漏掉小魚,要么網(wǎng)眼太小裝不下太多魚。具體來說,當(dāng)前的大型視頻語言模型面臨著一個根本性的矛盾:要理解長視頻的完整情節(jié),就需要密集采樣更多畫面幀,但這會導(dǎo)致空間細(xì)節(jié)模糊;要保持畫面的清晰度和細(xì)節(jié),就必須減少采樣幀數(shù),這又會丟失時間線上的重要信息。這種"魚與熊掌不可兼得"的困境,讓AI在面對長視頻理解任務(wù)時表現(xiàn)不佳。
研究團(tuán)隊通過分析發(fā)現(xiàn)了一個有趣的現(xiàn)象:在大多數(shù)視頻問答任務(wù)中,真正需要用到的關(guān)鍵幀其實(shí)很少。就像看一部偵探電影,雖然整部影片有兩小時,但破案的關(guān)鍵線索可能只出現(xiàn)在幾個重要場景中。具體的數(shù)據(jù)顯示,超過75%的問題只需要隨機(jī)選擇的32幀畫面就能回答,而90%的注意力權(quán)重都集中在僅僅5%的幀上。
基于這一洞察,LOVE-R1采用了一種"快慢結(jié)合"的視頻處理策略。這就像你用無人機(jī)俯瞰整個城市規(guī)劃路線,然后步行深入感興趣的具體街區(qū)進(jìn)行詳細(xì)探索。模型首先以高幀率但低分辨率的方式快速瀏覽整個視頻,獲得全局時間線的理解。當(dāng)遇到需要更多視覺細(xì)節(jié)的問題時,模型會智能地選擇特定時間段,用高分辨率的方式重新觀察這些片段。
整個推理過程被設(shè)計為一個三步驟的多輪對話。在第一步,模型評估當(dāng)前掌握的視覺信息是否足夠回答問題,這像是學(xué)生在考試時先判斷自己是否已經(jīng)掌握了答題所需的全部知識點(diǎn)。如果信息不夠,模型會進(jìn)入第二步,基于問題內(nèi)容和已有的全局理解,精確定位需要"放大觀察"的時間段。最后在第三步,結(jié)合全局視角和局部細(xì)節(jié),給出最終答案。
為了訓(xùn)練模型具備這種智能的"注意力分配"能力,研究團(tuán)隊設(shè)計了一個三階段的訓(xùn)練方案。第一階段是"模板適應(yīng)訓(xùn)練",讓模型熟悉這種新的視頻處理格式。這就像教會一個人使用新式的顯微鏡,需要先熟悉設(shè)備的操作方式。他們使用了約15.3萬個視頻指令樣本,其中包括FineVideo數(shù)據(jù)集和LLaVA-Video-178k中2-3分鐘的視頻片段,還加入了ET-Instruct數(shù)據(jù)集來增強(qiáng)時間定位能力。
第二階段是"思維鏈冷啟動",團(tuán)隊精心構(gòu)建了3.8萬個高質(zhì)量的思維鏈數(shù)據(jù)。這些數(shù)據(jù)來自兩個經(jīng)過精心篩選的視頻問答數(shù)據(jù)集:NExT-GQA和CG-Bench。每個數(shù)據(jù)樣本都包含了完整的推理過程,就像為學(xué)生提供了詳細(xì)的解題步驟示例。為了確保數(shù)據(jù)質(zhì)量,他們使用了強(qiáng)大的專有推理模型Gemini 2.5 Pro來生成這些思維鏈,并通過嚴(yán)格的清洗和過濾流程確保每個樣本的準(zhǔn)確性。
第三階段最具創(chuàng)新性,被稱為"解耦強(qiáng)化學(xué)習(xí)"。傳統(tǒng)的強(qiáng)化學(xué)習(xí)只看最終答案是否正確,這就像只根據(jù)考試總分來評價學(xué)生,無法了解具體哪道題做得好哪道題做得不好。研究團(tuán)隊將這個多步驟推理過程拆解為獨(dú)立的單步推理,分別優(yōu)化每一步的表現(xiàn)。特別是對于"放大觀察"這一步,他們設(shè)計了專門的獎勵機(jī)制:如果模型選擇的時間段與標(biāo)準(zhǔn)答案有重疊,就給予正向獎勵,否則給予負(fù)向獎勵。這種精細(xì)化的反饋?zhàn)屇P湍軌蚋鼫?zhǔn)確地學(xué)會何時以及在哪里進(jìn)行細(xì)節(jié)觀察。
在具體實(shí)現(xiàn)上,LOVE-R1基于Qwen2.5-VL 7B模型進(jìn)行優(yōu)化。對于"快速瀏覽"模式,模型最多采樣768幀畫面,每幀編碼為32個token(約168×168像素)。對于"放大觀察"模式,每個選定片段最多采樣32幀,每幀編碼為256個token(約448×448像素)。由于內(nèi)存限制,推理過程最多允許3個步驟,總體上下文控制在1.6萬token左右。
在四個主要的長視頻理解基準(zhǔn)測試中,LOVE-R1的表現(xiàn)相當(dāng)出色。在LVBench上得分48.2%,在LongVideoBench上得分60.1%,在VideoMME上得分66.2%,在MLVU上得分67.4%。與基礎(chǔ)模型Qwen2.5-VL相比,平均提升了3.1個百分點(diǎn),其中在LVBench上的提升最為顯著,達(dá)到了6.2個百分點(diǎn)。這些提升看似不大,但在AI視頻理解這個高難度領(lǐng)域,每一個百分點(diǎn)的提升都代表著技術(shù)的顯著進(jìn)步。
研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來驗(yàn)證各個組件的有效性。他們發(fā)現(xiàn),相比于完全不使用"放大觀察"功能的版本,LOVE-R1的整體表現(xiàn)提升了5.3個百分點(diǎn)。當(dāng)他們嘗試隨機(jī)選擇放大片段時,效果明顯不如智能選擇。這證明了模型確實(shí)學(xué)會了根據(jù)問題內(nèi)容來判斷哪些視頻片段最值得仔細(xì)觀察。
在推理步數(shù)的實(shí)驗(yàn)中,研究團(tuán)隊發(fā)現(xiàn)使用2-3個推理步驟時效果最佳。只有1個步驟時,模型只能基于低分辨率的全局信息回答問題,準(zhǔn)確率較低。超過3個步驟后,性能提升趨于飽和,這可能是因?yàn)橛?xùn)練時的上下文長度限制。
為了證明性能提升確實(shí)來自于這種動態(tài)的注意力分配機(jī)制,而非單純的推理能力提升,研究團(tuán)隊還對比了使用固定高分辨率幀和固定低分辨率幀的單步推理模型。結(jié)果顯示,使用128個高分辨率幀的模型在短視頻上表現(xiàn)較好但在長視頻上效果不佳,而使用768個低分辨率幀的模型則恰好相反。LOVE-R1通過動態(tài)平衡這兩種模式,在各種長度的視頻上都取得了最優(yōu)表現(xiàn)。
研究團(tuán)隊還提供了一些精彩的可視化案例。在一個關(guān)于烹飪視頻的問題中,當(dāng)被問及"有多少瓣大蒜被加入到培根油中"時,模型首先基于全局信息判斷需要尋找添加大蒜的場景,然后精確定位到23-25秒的時間段進(jìn)行放大觀察,最終從屏幕文字"GARLIC 4 CLOVES, MINCED"中找到了正確答案。在另一個關(guān)于電影角色的問題中,面對"哪個角色沒有在視頻中出現(xiàn)"的問題,模型分兩步分別定位到不同時間段,找到了Spider-Horse、Spider-Dinosaur和Spider-Cat,最終正確推斷出Spider-kangaroo是沒有出現(xiàn)的角色。
這項研究的技術(shù)創(chuàng)新點(diǎn)不僅僅在于提出了新的視頻處理策略,更重要的是為解決長視頻理解這一核心挑戰(zhàn)提供了一個全新的思路。傳統(tǒng)方法試圖通過更大的模型或更長的上下文來硬性解決問題,而LOVE-R1通過模仿人類的觀看習(xí)慣,用更智能的方式分配計算資源。
當(dāng)然,這項研究也有一些局限性。由于計算資源的限制,模型的推理步數(shù)被限制在3步以內(nèi),上下文長度也控制在1.6萬token。研究團(tuán)隊認(rèn)為,如果能夠擴(kuò)展到更長的上下文和更多的推理步驟,性能還有進(jìn)一步提升的空間。同時,他們也指出,當(dāng)前長視頻理解領(lǐng)域的性能很大程度上受限于訓(xùn)練數(shù)據(jù)的質(zhì)量,開源更多高質(zhì)量的長視頻理解數(shù)據(jù)集將對整個領(lǐng)域產(chǎn)生重要推動作用。
這項研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在實(shí)際應(yīng)用中,這種智能的視頻理解能力可以應(yīng)用于視頻內(nèi)容審核、智能視頻編輯、教育視頻分析、安防監(jiān)控等多個領(lǐng)域。比如在教育場景中,AI可以自動識別課堂視頻中的重點(diǎn)講解片段;在安防領(lǐng)域,系統(tǒng)可以快速瀏覽監(jiān)控錄像并自動標(biāo)記可疑行為發(fā)生的時間段。
從更廣闊的角度來看,LOVE-R1代表了人工智能向更接近人類認(rèn)知方式發(fā)展的重要一步。人類在處理復(fù)雜信息時,天然具備這種"先粗后細(xì)、重點(diǎn)關(guān)注"的能力。這項研究成功地將這種認(rèn)知策略編碼到了AI系統(tǒng)中,為未來開發(fā)更智能、更高效的多模態(tài)AI系統(tǒng)提供了重要啟發(fā)。
說到底,LOVE-R1最大的價值在于證明了一個重要觀點(diǎn):解決AI的復(fù)雜問題,有時候不需要更大的模型或更多的計算資源,而需要更聰明的策略。正如人類通過合理分配注意力來高效處理信息一樣,AI也可以通過學(xué)習(xí)這種智能的資源分配方式來提升性能。這種思路不僅適用于視頻理解,也為其他需要處理大量信息的AI任務(wù)提供了新的解決方案。隨著技術(shù)的進(jìn)一步發(fā)展,我們有理由期待看到更多采用類似策略的AI系統(tǒng),它們將更加智能、更加高效,也更加接近人類的認(rèn)知方式。
Q&A
Q1:LOVE-R1的"放大鏡觀看"機(jī)制具體是怎么工作的?
A:LOVE-R1采用"快慢結(jié)合"的策略,首先用低分辨率高幀率的方式瀏覽整個視頻獲得全局理解,然后根據(jù)問題需要智能選擇特定時間段用高分辨率重新觀察。這個過程分三步:先判斷信息是否夠用,不夠就定位需要放大的片段,最后結(jié)合全局和局部信息給出答案。
Q2:為什么LOVE-R1比傳統(tǒng)視頻理解模型效果更好?
A:傳統(tǒng)模型要么用高分辨率但幀數(shù)少丟失時間信息,要么用低分辨率但幀數(shù)多丟失空間細(xì)節(jié)。LOVE-R1通過動態(tài)分配注意力解決了這個矛盾,在四個長視頻理解基準(zhǔn)上平均提升3.1個百分點(diǎn),其中LVBench提升6.2個百分點(diǎn)。
Q3:LOVE-R1的訓(xùn)練過程有什么特別之處?
A:LOVE-R1采用三階段訓(xùn)練:先適應(yīng)新的視頻處理格式,然后用3.8萬個高質(zhì)量思維鏈數(shù)據(jù)進(jìn)行冷啟動,最后通過"解耦強(qiáng)化學(xué)習(xí)"分別優(yōu)化每個推理步驟。特別是對"放大觀察"步驟設(shè)計了專門的獎勵機(jī)制,讓模型學(xué)會精確選擇觀察時間段。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。