這項由中國人民大學(xué)高瓴人工智能學(xué)院的袁華瑩、斗志成、溫繼榮,以及北京人工智能研究院的劉正、北京郵電大學(xué)的周俊杰共同完成的研究,發(fā)表于2025年6月的國際學(xué)習(xí)表征會議(ICLR 2025)。有興趣深入了解的讀者可以通過論文GitHub倉庫https://github.com/yhy-2000/VideoDeepResearch獲取完整研究資料。
想象一下這樣的場景:你正在看一部三小時的電影,突然有朋友問你"男主角在第45分鐘時穿的是什么顏色的衣服?"如果是人來回答,你可能需要快進(jìn)到那個時間點(diǎn)仔細(xì)查看。但如果是現(xiàn)在的AI系統(tǒng)來處理,就像要求一個人同時記住整部電影的每一個畫面細(xì)節(jié),這幾乎是不可能完成的任務(wù)。
這正是長視頻理解領(lǐng)域面臨的核心挑戰(zhàn)。當(dāng)我們談?wù)?長視頻"時,指的是那些時長超過一小時的視頻內(nèi)容,比如電影、體育比賽直播、教學(xué)視頻或者監(jiān)控錄像。對于人類來說,理解這樣的長視頻內(nèi)容雖然需要時間,但我們有一種天然的能力:可以根據(jù)問題的需要,快速定位到相關(guān)的片段,然后集中精力分析那些重要的部分。
然而,現(xiàn)有的人工智能系統(tǒng)在處理長視頻時就像是一個需要把整本百科全書都背下來才能回答任何問題的學(xué)生。目前最先進(jìn)的多模態(tài)大語言模型(就是那些既能看圖像又能理解文字的AI系統(tǒng)),即使是GPT-4o這樣的頂級模型,也只能同時處理大約1000幀畫面。要知道,一個小時的標(biāo)準(zhǔn)視頻包含大約90000幀畫面,這意味著AI系統(tǒng)只能看到其中很小的一部分內(nèi)容。
面對這個難題,傳統(tǒng)的解決思路是制造更大更強(qiáng)的AI模型,讓它們能夠處理更多的畫面幀數(shù)。這就像是要求那個學(xué)生擁有更強(qiáng)的記憶力,能夠同時記住更多內(nèi)容。但這種方法不僅需要巨大的計算資源,成本極高,而且仍然無法從根本上解決問題。
中國人民大學(xué)的研究團(tuán)隊卻選擇了一條完全不同的道路。他們提出的VideoDeepResearch系統(tǒng),就像是給AI配備了一個聰明的助手團(tuán)隊,而不是讓AI本身變得更加龐大。這個系統(tǒng)的核心思想非常簡單卻充滿智慧:既然無法同時處理所有內(nèi)容,為什么不像人類一樣,根據(jù)具體問題來智能地尋找和分析相關(guān)片段呢?
VideoDeepResearch系統(tǒng)包含兩個主要角色。第一個是"思考大腦",由一個專門擅長推理和規(guī)劃的文本AI模型擔(dān)任,就像是一個經(jīng)驗豐富的偵探,能夠分析問題、制定搜索策略、判斷收集到的信息是否足夠回答問題。第二個是"多功能工具箱",包含了各種專門的視頻分析工具,就像偵探手中的放大鏡、指紋識別器等專業(yè)設(shè)備。
當(dāng)面對一個關(guān)于長視頻的問題時,這個"思考大腦"會首先分析問題的性質(zhì),然后制定一個搜索和分析計劃。比如,如果問題是"這場足球比賽的中場休息時比分是多少?",思考大腦會推理出中場休息通常發(fā)生在比賽的中間時段,然后指揮工具箱中的視頻片段檢索器去尋找那個時間段的相關(guān)畫面。
這套工具箱包含五種不同的專業(yè)工具,每一種都有自己的特長。視頻片段檢索器就像是一個能夠快速瀏覽整個視頻庫的圖書管理員,可以根據(jù)文字描述或者參考圖像找到最相關(guān)的視頻片段。字幕檢索器專門負(fù)責(zé)處理與語音內(nèi)容相關(guān)的問題,當(dāng)你問"那個男人在車?yán)镎f了什么?"時,它能夠快速定位到相關(guān)的字幕內(nèi)容。
視覺感知器是這個工具箱中的"顯微鏡",一旦找到了相關(guān)的短視頻片段,它就能夠進(jìn)行詳細(xì)的視覺分析,回答諸如"畫面中有幾個人?"或者"那個人穿的是什么顏色的衣服?"這樣的具體問題。字幕提取器可以根據(jù)精確的時間戳提取特定時段的字幕內(nèi)容。最后,視頻瀏覽器則像是一個能夠快速翻閱整個相冊的助手,用于回答那些需要整體理解的問題,比如"這個視頻的主題是什么?"
整個工作流程就像是一個優(yōu)秀的研究團(tuán)隊在協(xié)作解決問題。面對每個問題,思考大腦會反復(fù)進(jìn)行推理:"我需要什么信息?哪個工具能幫我找到這些信息?我已經(jīng)收集到的信息足夠回答問題了嗎?"這個過程會持續(xù)進(jìn)行,直到收集到足夠的信息為止。
研究團(tuán)隊在多個權(quán)威測試平臺上驗證了這種方法的效果,結(jié)果令人印象深刻。在MLVU測試集上,VideoDeepResearch比之前的最佳方法提高了9.6%;在LVBench上提高了6.6%;在LongVideoBench上提高了3.9%。更令人驚訝的是,即使是那些被譽(yù)為最強(qiáng)大的商業(yè)AI模型,如GPT-4o和Gemini-1.5-Pro,在長視頻理解任務(wù)上也被VideoDeepResearch超越了。
一、傳統(tǒng)方法的困境:為什么現(xiàn)有AI難以理解長視頻
要理解這項研究的價值,我們首先需要明白傳統(tǒng)方法面臨的困境。想象你要在一本1000頁的小說中找到一個特定的情節(jié)描述,如果你只能同時看10頁內(nèi)容,會發(fā)生什么?你要么隨機(jī)選擇10頁(很可能錯過目標(biāo)內(nèi)容),要么嘗試把1000頁壓縮成10頁的摘要(必然會丟失大量細(xì)節(jié))。
這正是現(xiàn)有AI系統(tǒng)在處理長視頻時面臨的兩難境地。一個小時的視頻包含約90000幀畫面,但即使是最先進(jìn)的AI模型也只能同時處理1000幀左右。面對這種限制,傳統(tǒng)的解決方案主要有兩種:暴力壓縮和檢索增強(qiáng)。
暴力壓縮方法就像是把一本厚書強(qiáng)行壓縮成薄冊子。系統(tǒng)會均勻地從整個視頻中抽取畫面,比如每90幀取1幀,這樣就能把90000幀壓縮到1000幀以內(nèi)。但這種做法的問題顯而易見:如果你要找的關(guān)鍵信息恰好出現(xiàn)在被跳過的89幀中的某一幀,那就徹底錯過了。這就像在尋找小說中某個重要對話時,卻恰好跳過了包含這段對話的頁面。
檢索增強(qiáng)方法試圖更智能一些,它會根據(jù)問題先搜索相關(guān)的視頻片段,然后只分析這些片段。這聽起來很合理,就像是先用目錄找到相關(guān)章節(jié),再仔細(xì)閱讀。但現(xiàn)實中這種方法往往只適用于簡單的問題。當(dāng)面對復(fù)雜的、需要多步推理的問題時,單次檢索很難找到所有必要的信息片段。
比如,如果問題是"那個在開頭戴紅帽子的小男孩最后摔倒時穿的是什么顏色的衣服?"這個問題需要至少兩步推理:首先找到開頭戴紅帽子的小男孩,然后找到這個特定男孩摔倒的場景。傳統(tǒng)的檢索方法很難處理這種需要"接力推理"的復(fù)雜問題。
更令人沮喪的是,即使我們不斷增加AI模型的規(guī)模,讓它們能夠處理更多的畫面幀數(shù),這種擴(kuò)展也是有限的。就像內(nèi)存再大的計算機(jī)也無法同時加載無限大的文件一樣,AI模型的上下文窗口總是有限的。而且,處理更多畫面幀數(shù)需要指數(shù)級增長的計算資源,成本會變得極其昂貴。
研究團(tuán)隊發(fā)現(xiàn),隨著視頻時長的增加,傳統(tǒng)AI模型的性能會顯著下降。在處理長度為10-60秒的短視頻時,這些模型表現(xiàn)尚可;但當(dāng)視頻長度增加到15-60分鐘時,性能開始明顯下滑;而面對1-15小時的超長視頻時,傳統(tǒng)模型幾乎完全失效。這種性能衰減是系統(tǒng)性的,不是簡單增加模型規(guī)模就能解決的問題。
二、突破性思路:讓AI像人類一樣智能搜索
面對傳統(tǒng)方法的困境,研究團(tuán)隊提出了一個根本性的思路轉(zhuǎn)變:與其讓AI成為一個記憶力超強(qiáng)的"超人",不如讓它成為一個會使用工具的"智者"。這種轉(zhuǎn)變的靈感來自于觀察人類是如何處理長視頻內(nèi)容的。
當(dāng)人類面對一個關(guān)于長視頻的問題時,我們不會嘗試把整個視頻的每一幀都記在腦子里。相反,我們會采用一種策略性的方法:首先分析問題,理解它在問什么,然后制定一個搜索計劃,接著有目的地瀏覽視頻,尋找相關(guān)片段,最后基于找到的信息進(jìn)行推理和回答。
VideoDeepResearch系統(tǒng)正是模仿了這種人類的認(rèn)知過程。整個系統(tǒng)的架構(gòu)就像是一個有經(jīng)驗的研究員在使用一套專業(yè)工具來分析視頻內(nèi)容。這個"研究員"是一個專門的推理AI模型,它不需要具備視覺能力,只需要擅長邏輯思考、計劃制定和工具使用。
當(dāng)收到一個問題時,這個AI研究員會首先進(jìn)入"思考模式"。它會分析問題的類型:這是一個需要找到特定細(xì)節(jié)的問題嗎?還是需要理解整個視頻主題的問題?是需要單步搜索就能回答,還是需要多步推理?基于這種分析,它會制定相應(yīng)的搜索和分析策略。
讓我們通過一個具體例子來看看這個過程是如何工作的。假設(shè)問題是"比賽的半場比分是多少?"AI研究員會這樣思考:"這是一個關(guān)于體育比賽的問題,半場通常發(fā)生在比賽的中間時段。對于一場90分鐘的足球比賽,半場應(yīng)該在45分鐘左右。我需要找到那個時間段的畫面,看看是否顯示了比分。"
基于這種推理,AI研究員會指揮視頻片段檢索器搜索45分鐘前后的相關(guān)片段。檢索器會返回幾個可能相關(guān)的視頻片段,比如45分鐘時的一些畫面。然后AI研究員會分析這些片段:"這些畫面顯示的是啦啦隊在跳舞,這通常意味著半場休息剛剛結(jié)束。我需要查看稍早一些的片段來找到實際的比分顯示。"
這種迭代的搜索和推理過程是VideoDeepResearch系統(tǒng)的核心優(yōu)勢。它不是一次性地嘗試找到所有答案,而是通過多輪的假設(shè)-驗證-調(diào)整來逐步逼近正確答案。每一輪搜索都會基于之前的發(fā)現(xiàn)來優(yōu)化下一次的搜索策略。
系統(tǒng)的另一個關(guān)鍵創(chuàng)新是工具的專業(yè)化分工。就像一個專業(yè)的調(diào)研團(tuán)隊會有不同專長的成員一樣,VideoDeepResearch配備了五種不同的專業(yè)工具,每種工具都有自己最擅長的任務(wù)類型。這種專業(yè)化分工不僅提高了效率,也確保了每種類型的問題都能得到最適合的處理方式。
最重要的是,這種方法在理論上可以處理任意長度的視頻。因為它不需要同時加載整個視頻內(nèi)容,而是根據(jù)需要動態(tài)地訪問相關(guān)片段。這就像是一個研究員可以研究任意厚度的書籍,因為他不需要把整本書都記在腦子里,而是可以根據(jù)需要翻到相關(guān)頁面。
三、工具箱詳解:五大專業(yè)工具各顯神通
VideoDeepResearch系統(tǒng)的工具箱就像是一個專業(yè)視頻分析師的全套裝備,每種工具都有自己獨(dú)特的專長和適用場景。這種專業(yè)化的設(shè)計確保了無論面對什么類型的問題,都有最合適的工具來處理。
視頻片段檢索器是這個工具箱中的"搜索引擎"。它的工作原理就像是一個對視頻內(nèi)容了如指掌的圖書管理員。在系統(tǒng)開始工作之前,長視頻會被預(yù)先分割成許多10秒鐘的短片段,每個片段都帶有內(nèi)容描述標(biāo)簽。當(dāng)AI研究員需要找到特定內(nèi)容時,它可以用自然語言描述告訴檢索器:"我要找一個小男孩在讀書的場景",檢索器就會從所有片段中找出最相關(guān)的幾個候選片段。
更有趣的是,這個檢索器還支持"以圖搜圖"的功能。假如AI研究員在視頻前半部分找到了一個特定人物的畫面,它可以把這個畫面作為參考,然后搜索"這個人物后來還出現(xiàn)在哪些場景中"。這種功能對于處理需要跟蹤特定人物或物體的復(fù)雜問題特別有用。
字幕檢索器則專門負(fù)責(zé)處理與語音內(nèi)容相關(guān)的查詢?,F(xiàn)代很多視頻都配有字幕,這些字幕信息往往包含了視頻的重要內(nèi)容。當(dāng)有人問"那個女士在電話里說了什么?"時,字幕檢索器可以快速搜索字幕文本,找到包含電話對話的相關(guān)時間段。由于字幕本身就帶有精確的時間戳,這種搜索既快速又準(zhǔn)確。
視覺感知器是工具箱中的"放大鏡",專門用于對找到的短視頻片段進(jìn)行詳細(xì)分析。一旦其他工具定位到了相關(guān)的視頻片段,視覺感知器就會接手進(jìn)行深度的視覺理解任務(wù)。它可以回答諸如"畫面中有幾個人?"、"那個人穿的是什么顏色的衣服?"、"桌子上放的是什么物品?"等具體的視覺問題。
這個設(shè)計特別巧妙的地方在于,視覺感知器只需要處理很短的視頻片段(通常只有10-30秒),這意味著它可以使用相對較小的AI模型,既保證了分析的準(zhǔn)確性,又控制了計算成本。這就像是用高倍顯微鏡觀察已經(jīng)找到的樣本,而不是用它來掃描整個實驗室。
字幕提取器是一個簡單但實用的工具,專門用于處理那些需要精確時間定位的字幕查詢。當(dāng)AI研究員通過推理確定了某個事件發(fā)生的大概時間,比如"第一分鐘內(nèi)主持人說了什么?",字幕提取器可以精確地提取指定時間段內(nèi)的所有字幕內(nèi)容。這個工具看似簡單,但在處理時間相關(guān)的查詢時非常關(guān)鍵。
視頻瀏覽器則是工具箱中的"總覽員",專門用于處理那些需要整體理解的問題。有些問題不是關(guān)于特定細(xì)節(jié),而是關(guān)于視頻的整體主題、氛圍或者總體特征,比如"這個視頻的主要內(nèi)容是什么?"或者"這是一個什么類型的視頻?"對于這類問題,逐片段的詳細(xì)分析反而可能錯失整體脈絡(luò)。
視頻瀏覽器采用了一種"快速瀏覽"的策略,它會從整個視頻中均勻抽取一些關(guān)鍵幀,形成一個視頻的"縮略圖集合",然后基于這些縮略圖來理解視頻的整體內(nèi)容。這種方法雖然會丟失細(xì)節(jié)信息,但對于理解視頻的主題和大致內(nèi)容是足夠的。
這五種工具的協(xié)作就像是一個專業(yè)調(diào)研團(tuán)隊的分工合作。面對不同的問題,AI研究員會選擇最適合的工具組合。對于簡單的單步問題,可能只需要一兩種工具;對于復(fù)雜的多步推理問題,可能需要多種工具的反復(fù)協(xié)作。這種靈活的工具組合使用,確保了系統(tǒng)既高效又全面。
四、實戰(zhàn)演示:三個典型案例展現(xiàn)推理過程
為了讓讀者更好地理解VideoDeepResearch系統(tǒng)是如何工作的,讓我們通過三個具體的案例來觀察整個推理和搜索過程。這三個案例分別代表了不同難度和類型的長視頻理解任務(wù)。
第一個案例是單步細(xì)節(jié)推理:"比賽的半場比分是多少?"這是一個相對簡單但很典型的問題。當(dāng)AI研究員接收到這個問題時,它首先會進(jìn)入思考模式:"這個問題要求我找到一個具體的數(shù)字信息。由于是關(guān)于比賽半場的問題,我需要定位到比賽進(jìn)行到一半的時間點(diǎn)。假設(shè)這是一場90分鐘的足球比賽,半場應(yīng)該發(fā)生在45分鐘左右。"
基于這個推理,AI研究員指揮視頻片段檢索器搜索"45分鐘"附近的視頻片段。檢索器返回了幾個候選片段,其中一個顯示的是1790-1800秒(大約30分鐘)的畫面。AI研究員通過視覺感知器分析這個片段,發(fā)現(xiàn)畫面中啦啦隊正在跳舞,這通常暗示半場休息時間。
"既然啦啦隊在跳舞,說明半場剛剛開始或者剛剛結(jié)束。我需要查看稍早一些的時間段,看看能否找到實際的比分顯示。"基于這個新的推理,AI研究員繼續(xù)搜索1780-1790秒的片段,最終在那里找到了顯示"34:23"的比分牌。
第二個案例是多步推理:"Mike在遇到Lily之后比之前多消耗了多少卡路里?"這個問題明顯比第一個復(fù)雜得多,因為它涉及多個關(guān)鍵信息點(diǎn):Mike遇到Lily的時間點(diǎn)、Mike在遇到Lily前后的卡路里消耗情況。
AI研究員首先分析問題結(jié)構(gòu):"這個問題涉及兩個關(guān)鍵時刻:Mike遇到Lily的時刻,以及他們分別的時刻。我需要先找到這些時間點(diǎn),然后查看相關(guān)的卡路里信息。"它首先使用視頻片段檢索器搜索"Mike遇到Lily"和"Mike和Lily分別"這兩個事件。
檢索器返回了多個候選片段:240-250秒和250-260秒顯示了疑似相遇的場景,1080-1090秒和1060-1070秒顯示了疑似分別的場景。AI研究員選擇最可能的時間段(240-250秒)進(jìn)行詳細(xì)分析,使用字幕提取器獲取該時段的對話內(nèi)容,同時使用視覺感知器分析畫面內(nèi)容以確認(rèn)卡路里信息。
通過這種多輪的信息收集和驗證,AI研究員最終確定Mike在遇到Lily之前消耗了256卡路里,之后消耗了1000卡路里,因此答案是1000-256=744卡路里。
第三個案例是多跳推理:"開頭那個后來摔倒的小男孩穿的是什么顏色的衣服?"這類問題最具挑戰(zhàn)性,因為它需要建立不同時間段事件之間的聯(lián)系。
AI研究員的推理過程是這樣的:"這個問題涉及兩個不同的時間段:視頻開頭出現(xiàn)的小男孩,以及這個特定男孩后來摔倒的場景。由于視頻中可能有多個小男孩,我需要確保找到的是同一個人。"
它首先搜索視頻開頭部分(0-10秒、10-20秒等),通過視覺感知器逐一分析這些片段。在10-20秒的片段中,它發(fā)現(xiàn)了一個正在吃棉花糖的小男孩,出現(xiàn)在第13秒的位置。"好的,我找到了開頭的小男孩?,F(xiàn)在我需要找到這個特定男孩摔倒的場景。"
接下來,AI研究員使用多模態(tài)視頻檢索器,以第13秒的男孩畫面作為參考,搜索"這個男孩摔倒"的場景。通過這種"以圖搜圖"的方式,它最終找到了對應(yīng)的摔倒場景,并通過視覺感知器確認(rèn)這個男孩穿的是黃色T恤。
這三個案例展示了VideoDeepResearch系統(tǒng)處理不同復(fù)雜度問題的能力。無論是簡單的單步查詢,還是需要多步推理和跨時間段關(guān)聯(lián)的復(fù)雜問題,系統(tǒng)都能夠通過合理的策略規(guī)劃和工具組合來找到正確答案。
五、性能表現(xiàn):全方位超越傳統(tǒng)方法
VideoDeepResearch系統(tǒng)在多個權(quán)威測試平臺上的表現(xiàn)可以用"全面領(lǐng)先"來形容。研究團(tuán)隊選擇了四個業(yè)界公認(rèn)的長視頻理解評測基準(zhǔn):MLVU、LVBench、VideoMME和LongVideoBench,這些測試涵蓋了從幾分鐘到幾小時不等的各種長度視頻,以及從簡單事實查詢到復(fù)雜推理的各種問題類型。
在MLVU測試集上,VideoDeepResearch取得了令人印象深刻的成績。使用Qwen2.5VL-7B作為視覺模塊的版本得分為55.9分,相比基礎(chǔ)模型的47.4分提升了8.5分。更令人驚喜的是,使用Seed1.5VL作為視覺模塊的版本達(dá)到了64.5分,超越了GPT-4o的54.9分和Qwen2.5VL-72B的53.8分。要知道,GPT-4o和Qwen2.5VL-72B都是目前最頂級的商業(yè)AI模型,VideoDeepResearch能夠超越它們,說明了這種方法的巨大潛力。
在LVBench測試中,性能提升同樣顯著。VideoDeepResearch(Seed1.5VL)達(dá)到了55.5分,比之前的最佳成績提高了6.6%。這個提升幅度在AI領(lǐng)域是相當(dāng)可觀的,通常幾個百分點(diǎn)的提升就已經(jīng)是重大突破了。
VideoMME測試的結(jié)果更加令人矚目。VideoDeepResearch(Seed1.5VL)獲得了76.3分的高分,甚至超過了Google的Gemini-1.5-Pro的77.4分??紤]到Gemini-1.5-Pro是目前公認(rèn)的最強(qiáng)多模態(tài)AI之一,這個結(jié)果充分證明了新方法的有效性。
在LongVideoBench上,VideoDeepResearch(Seed1.5VL)得分70.6分,比GPT-4o的66.7分高出了近4分。這個測試特別關(guān)注超長視頻的理解能力,結(jié)果表明VideoDeepResearch在處理真正長時間視頻內(nèi)容時具有明顯優(yōu)勢。
更深入的分析顯示,VideoDeepResearch在不同類型的任務(wù)上都表現(xiàn)出色,但在某些特定類型的任務(wù)上優(yōu)勢尤為明顯。在需要精確定位和細(xì)節(jié)分析的任務(wù)(如NeedleQA)上,系統(tǒng)表現(xiàn)突出,得分78.2分,比最佳對比方法高出5.0%。在需要多步推理的任務(wù)(如Action Count和Action Order)上,優(yōu)勢更加顯著,分別提升了12.2%和28.2%。
這些性能提升并非偶然。研究團(tuán)隊進(jìn)行了詳細(xì)的任務(wù)類型分析,發(fā)現(xiàn)VideoDeepResearch特別擅長處理那些需要"精確搜索+深度分析"的問題。傳統(tǒng)方法由于無法精確定位相關(guān)內(nèi)容,往往在這類任務(wù)上表現(xiàn)不佳。而VideoDeepResearch通過智能搜索機(jī)制,能夠準(zhǔn)確找到相關(guān)片段,然后進(jìn)行深度分析,從而獲得更好的結(jié)果。
然而,研究團(tuán)隊也誠實地報告了系統(tǒng)的局限性。在某些特定類型的任務(wù)上,比如EgoQA(第一人稱視角問答)和SportsQA(體育問答),VideoDeepResearch的表現(xiàn)還有待提升。分析發(fā)現(xiàn),這主要是因為當(dāng)前的檢索模塊在某些特定場景下的定位準(zhǔn)確性還不夠高,導(dǎo)致后續(xù)的推理分析缺乏足夠的信息基礎(chǔ)。
六、效率革命:更少資源,更好效果
VideoDeepResearch系統(tǒng)的另一個重要突破在于計算效率的大幅提升。這種效率優(yōu)勢不僅體現(xiàn)在計算資源的節(jié)省上,更重要的是在保持甚至提升性能的同時實現(xiàn)了成本的顯著降低。
傳統(tǒng)的長視頻理解方法面臨一個根本性的矛盾:為了處理更長的視頻,需要更大的AI模型和更多的計算資源,但這會導(dǎo)致成本指數(shù)級增長。比如,GPT-4o在處理長視頻時需要使用384幀的上下文窗口,Gemini-1.5-Pro甚至需要更多。這些龐大的上下文窗口不僅消耗大量計算資源,處理速度也會顯著下降。
VideoDeepResearch采用了完全不同的策略。系統(tǒng)的視覺感知器只需要處理最多32幀的畫面,這相比傳統(tǒng)方法減少了10倍以上的視覺令牌使用量。研究團(tuán)隊進(jìn)行的效率分析顯示,在處理中等長度視頻(180-600秒)時,VideoDeepResearch只需要48,932個視覺令牌,而GPT-4o需要65,280個令牌,效率提升了25%。
更令人印象深刻的是,隨著視頻長度的增加,這種效率優(yōu)勢會進(jìn)一步擴(kuò)大。在處理超長視頻(900-3600秒)時,VideoDeepResearch只需要53,920個令牌,比GPT-4o和Gemini-1.5-Pro分別節(jié)省了17.4%和更多的計算資源。這種"反常"的現(xiàn)象說明了智能搜索策略的巨大價值:通過只處理相關(guān)內(nèi)容而非全部內(nèi)容,系統(tǒng)可以實現(xiàn)真正的規(guī)?;省?/p>
研究團(tuán)隊還分析了系統(tǒng)在不同視頻長度下的性能表現(xiàn)。傳統(tǒng)AI模型會隨著視頻長度的增加而出現(xiàn)明顯的性能衰減。GPT-4o在處理0-60秒短視頻時表現(xiàn)不錯,但當(dāng)視頻長度增加到900-3600秒時,性能下降了13.2個百分點(diǎn)。Gemini-1.5-Pro也出現(xiàn)了類似的衰減,性能下降了12.7個百分點(diǎn)。
相比之下,VideoDeepResearch展現(xiàn)出了令人驚喜的魯棒性。即使面對超長視頻,性能下降幅度也只有4.9個百分點(diǎn),遠(yuǎn)小于傳統(tǒng)方法。這種魯棒性來自于系統(tǒng)的核心優(yōu)勢:它不需要同時處理整個視頻內(nèi)容,而是根據(jù)問題需要動態(tài)地訪問相關(guān)片段。隨著視頻長度增加,雖然搜索空間變大了,但每次分析的內(nèi)容量保持不變,因此性能衰減很小。
這種效率優(yōu)勢還體現(xiàn)在另一個重要方面:可擴(kuò)展性。傳統(tǒng)方法的處理能力受限于AI模型的最大上下文窗口,一旦視頻長度超過這個限制,就無法處理。而VideoDeepResearch在理論上可以處理任意長度的視頻,因為它永遠(yuǎn)只需要分析相關(guān)的短片段。
從實際應(yīng)用的角度來看,這種效率提升意味著更低的部署成本和更快的響應(yīng)速度。對于需要大規(guī)模處理長視頻內(nèi)容的應(yīng)用場景,比如視頻監(jiān)控分析、在線教育平臺、娛樂內(nèi)容分析等,VideoDeepResearch提供了一個既高效又經(jīng)濟(jì)的解決方案。
研究團(tuán)隊指出,這種效率優(yōu)勢隨著視頻長度的增加會進(jìn)一步放大。當(dāng)處理幾小時甚至更長的視頻內(nèi)容時,傳統(tǒng)方法要么完全無法處理,要么需要消耗巨大的計算資源,而VideoDeepResearch依然可以保持穩(wěn)定的性能和可控的成本。
七、技術(shù)細(xì)節(jié):系統(tǒng)架構(gòu)的精妙設(shè)計
VideoDeepResearch系統(tǒng)的技術(shù)架構(gòu)體現(xiàn)了"簡單而不簡陋"的設(shè)計哲學(xué)。整個系統(tǒng)看似結(jié)構(gòu)清晰,但每個組件的設(shè)計都經(jīng)過了精心優(yōu)化,確保在保持簡潔性的同時實現(xiàn)最佳性能。
系統(tǒng)的核心是一個基于DeepSeek-R1-0528的文本推理模型,這個模型專門擅長邏輯推理和工具使用。選擇文本模型而非多模態(tài)模型作為核心控制器是一個關(guān)鍵設(shè)計決策。文本模型在推理能力、工具使用能力和成本效率方面都有明顯優(yōu)勢,而視覺理解任務(wù)則完全交給專門的工具來處理。這種分工明確的設(shè)計避免了"萬能模型"可能帶來的效率損失。
視頻預(yù)處理是系統(tǒng)工作的第一步。每個輸入視頻都會被自動分割成10秒鐘的短片段,這個時長是經(jīng)過仔細(xì)考慮的。10秒足夠包含一個完整的動作或事件片段,同時又短到可以被視覺感知器高效處理。每個片段都會生成內(nèi)容摘要和特征向量,為后續(xù)的檢索操作做準(zhǔn)備。
視頻檢索系統(tǒng)采用了LanguageBind-large模型,這是一個專門設(shè)計用于跨模態(tài)檢索的模型,參數(shù)量為428M。這個模型能夠理解文本查詢和視頻內(nèi)容之間的語義關(guān)系,支持基于文本描述的視頻片段檢索,也支持基于參考圖像的相似片段搜索。檢索系統(tǒng)采用了向量相似度匹配的方法,能夠在毫秒級別完成對數(shù)千個視頻片段的搜索。
字幕處理系統(tǒng)相對簡單但非常實用。系統(tǒng)會提取視頻的字幕信息(如果有的話),并建立時間戳索引。字幕檢索器可以根據(jù)文本關(guān)鍵詞快速定位相關(guān)時間段,字幕提取器則可以根據(jù)精確的時間范圍提取對應(yīng)的字幕內(nèi)容。這種雙重字幕處理機(jī)制確保了系統(tǒng)能夠充分利用視頻的語音信息。
視覺感知器是系統(tǒng)中最復(fù)雜的組件,研究團(tuán)隊提供了兩個版本:基于Qwen2.5VL-7B的版本和基于Seed1.5VL-Pro的版本。兩個版本都支持最多32幀的輸入,但在處理能力和準(zhǔn)確性上有所差異。Qwen2.5VL-7B版本支持最多24,576個token的輸入,適合處理包含大量文本信息的復(fù)雜查詢。Seed1.5VL-Pro版本則在圖像理解準(zhǔn)確性方面有優(yōu)勢,每幀圖像的分辨率可以達(dá)到748×400像素。
系統(tǒng)的推理過程采用了迭代的思考-行動模式。在每個推理步驟中,文本推理模型會生成思考內(nèi)容和行動計劃。思考內(nèi)容包括對當(dāng)前問題的分析、已獲得信息的評估、下一步行動的規(guī)劃等。行動計劃則指定了需要調(diào)用哪些工具、使用什么參數(shù)、期望獲得什么信息等。
工具調(diào)用的執(zhí)行是并行化的,當(dāng)需要調(diào)用多個工具時,系統(tǒng)會同時執(zhí)行這些調(diào)用以提高效率。每個工具調(diào)用的結(jié)果都會被格式化成統(tǒng)一的文本格式,然后合并到推理模型的上下文中。這種設(shè)計確保了不同工具之間的信息可以無縫整合。
系統(tǒng)的停止條件設(shè)計也很巧妙。推理模型不是簡單地執(zhí)行固定次數(shù)的搜索,而是會動態(tài)評估當(dāng)前已獲得的信息是否足夠回答問題。當(dāng)模型認(rèn)為信息充足時,它會生成最終答案并停止搜索。這種自適應(yīng)的停止機(jī)制既避免了不必要的計算浪費(fèi),也確保了復(fù)雜問題能夠得到充分的信息收集。
從工程實現(xiàn)的角度來看,整個系統(tǒng)設(shè)計考慮了實際部署的需求。所有組件都可以獨(dú)立擴(kuò)展,不同的工具可以根據(jù)需要選擇不同規(guī)模的模型。系統(tǒng)支持分布式部署,可以將計算密集的視覺感知任務(wù)分配到GPU集群上,而文本推理任務(wù)可以在CPU上高效執(zhí)行。
八、應(yīng)用前景:開啟視頻理解新時代
VideoDeepResearch系統(tǒng)的成功不僅僅是一項學(xué)術(shù)突破,更重要的是它為長視頻理解技術(shù)的實際應(yīng)用打開了新的可能性。這種高效、準(zhǔn)確、可擴(kuò)展的解決方案在多個領(lǐng)域都有著廣闊的應(yīng)用前景。
在在線教育領(lǐng)域,VideoDeepResearch可以徹底改變學(xué)習(xí)體驗。想象一下,學(xué)生觀看了一堂兩小時的數(shù)學(xué)課程,在復(fù)習(xí)時可以直接問系統(tǒng):"老師在哪里講解了二次方程的判別式?"或者"關(guān)于這個定理的例題在第幾分鐘?"系統(tǒng)能夠準(zhǔn)確定位到相關(guān)片段,讓學(xué)生快速找到需要復(fù)習(xí)的內(nèi)容。這種精確的內(nèi)容定位能力可以大大提高學(xué)習(xí)效率,特別是對于那些需要反復(fù)觀看特定內(nèi)容片段的學(xué)科。
在娛樂內(nèi)容分析方面,這項技術(shù)可以為視頻平臺提供更智能的內(nèi)容理解和推薦服務(wù)。用戶可以通過自然語言查詢來搜索視頻內(nèi)容,比如"找一些有搞笑小狗的視頻片段"或者"這部電影中主角第一次出現(xiàn)是什么時候?"視頻平臺也可以利用這種技術(shù)來自動生成更準(zhǔn)確的內(nèi)容標(biāo)簽和摘要,提高內(nèi)容發(fā)現(xiàn)的效率。
在安防監(jiān)控領(lǐng)域,VideoDeepResearch的價值更加明顯。傳統(tǒng)的監(jiān)控系統(tǒng)需要人工查看大量錄像來尋找特定事件,這不僅耗時耗力,還容易遺漏重要信息。有了這種技術(shù),安保人員可以直接詢問:"昨天晚上10點(diǎn)到12點(diǎn)之間,停車場有沒有可疑人員出現(xiàn)?"或者"那輛紅色汽車是什么時候離開的?"系統(tǒng)可以快速分析幾小時甚至幾天的監(jiān)控錄像,精確定位相關(guān)事件。
在醫(yī)療培訓(xùn)和手術(shù)分析方面,這項技術(shù)也大有用武之地。醫(yī)學(xué)生可以通過詢問"這個手術(shù)中血管縫合的步驟在哪里?"來快速定位學(xué)習(xí)重點(diǎn)。醫(yī)生們也可以利用這種技術(shù)來分析手術(shù)錄像,比較不同手術(shù)方案的效果,或者為新手醫(yī)生提供精確的操作指導(dǎo)。
在體育分析領(lǐng)域,教練和運(yùn)動員可以使用這種技術(shù)來分析比賽錄像。詢問"我們隊在下半場的防守策略是怎樣的?"或者"對手的第三個進(jìn)球是如何發(fā)生的?"可以幫助團(tuán)隊更好地總結(jié)比賽經(jīng)驗,制定訓(xùn)練計劃。
在法律和司法領(lǐng)域,這種技術(shù)可以協(xié)助處理大量的視頻證據(jù)。律師和調(diào)查人員可以快速在長時間的錄像中找到關(guān)鍵證據(jù),比如"嫌疑人是什么時候出現(xiàn)在現(xiàn)場的?"或者"事故發(fā)生的具體過程是怎樣的?"這種精確的證據(jù)定位能力可以大大提高司法效率。
在新聞和媒體制作方面,記者和編輯可以利用這種技術(shù)快速從大量素材中找到需要的片段。詢問"采訪中關(guān)于環(huán)保政策的討論在哪里?"或者"有沒有顯示現(xiàn)場民眾反應(yīng)的畫面?"可以幫助新聞工作者更高效地制作新聞內(nèi)容。
研究團(tuán)隊特別指出,隨著技術(shù)的進(jìn)一步發(fā)展,這種方法還可以與其他AI技術(shù)結(jié)合,創(chuàng)造更多可能性。比如,結(jié)合語音識別技術(shù),可以實現(xiàn)更準(zhǔn)確的音頻內(nèi)容搜索;結(jié)合情感分析技術(shù),可以理解視頻中人物的情緒變化;結(jié)合3D理解技術(shù),可以分析空間關(guān)系和物體運(yùn)動軌跡。
更重要的是,VideoDeepResearch的開源特性意味著這些應(yīng)用可能會很快成為現(xiàn)實。研究團(tuán)隊已經(jīng)在GitHub上公開了完整的代碼和模型,這將大大降低其他開發(fā)者使用和改進(jìn)這項技術(shù)的門檻。可以預(yù)見,在不久的將來,我們將看到基于這種技術(shù)的各種創(chuàng)新應(yīng)用涌現(xiàn)出來。
說到底,VideoDeepResearch代表的不僅僅是一種新的技術(shù)方法,更是一種新的思維方式:通過智能的策略規(guī)劃和工具協(xié)作,我們可以用更少的資源實現(xiàn)更好的效果。這種思想不僅適用于視頻理解,也為其他復(fù)雜AI任務(wù)的解決提供了新的思路。正如研究團(tuán)隊在論文中所說,這可能會"重新塑造我們處理復(fù)雜多模態(tài)任務(wù)的方式"。
從長遠(yuǎn)來看,這種技術(shù)的普及將使得視頻內(nèi)容變得真正"可搜索"、"可理解",就像今天的文本內(nèi)容一樣。這將開啟一個全新的時代,在這個時代里,海量的視頻信息不再是沉睡的數(shù)據(jù),而是可以被智能地分析、搜索和利用的寶貴資源。這樣的未來值得我們期待,而VideoDeepResearch正是通向這個未來的重要一步。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。