av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

SiLVR：北卡羅來納大學(xué)教堂山分校團(tuán)隊(duì)打造的簡單高效視頻推理框架

視頻理解大語言模型推理多模態(tài)AI

SiLVR：北卡羅來納大學(xué)教堂山分校團(tuán)隊(duì)打造的簡單高效視頻推理框架

作者：科技行者

2025-06-05 10:26

分享至：

這篇博客介紹了北卡羅來納大學(xué)教堂山分校研究團(tuán)隊(duì)開發(fā)的SiLVR框架，這是一個(gè)簡單而高效的視頻推理系統(tǒng)。該框架將視頻理解分為兩個(gè)階段：先將視頻轉(zhuǎn)換為語言描述，再用推理型大語言模型解決復(fù)雜問題。實(shí)驗(yàn)表明，這種無需訓(xùn)練的方法在多個(gè)視頻理解基準(zhǔn)測試中表現(xiàn)優(yōu)異，超過了許多復(fù)雜的專有模型，展示了將強(qiáng)大的語言推理能力應(yīng)用于視頻理解的巨大潛力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 10:26 ? 科技行者

近日，北卡羅來納大學(xué)教堂山分校的Ce Zhang、Yan-Bo Lin、Ziyang Wang、Mohit Bansal和Gedas Bertasius教授團(tuán)隊(duì)提出了一種名為SiLVR（Simple Language-based Video Reasoning）的視頻推理框架。這項(xiàng)研究發(fā)表于2025年5月30日的arXiv預(yù)印本平臺，論文編號為2505.24869v1，有興趣深入了解的讀者可以通過https://sites.google.com/cs.unc.edu/silvr或GitHub倉庫https://github.com/CeeZh/SILVR查看更多詳情。

一、研究背景：當(dāng)大語言模型遇見視頻理解的挑戰(zhàn)

想象一下，你在看一段長達(dá)一小時(shí)的紀(jì)錄片，然后有人問你："影片中行星出現(xiàn)的順序是什么？"或者"視頻中展示的實(shí)驗(yàn)用了哪些材料？"要回答這些問題，你需要記住視頻中的關(guān)鍵內(nèi)容，理解事件發(fā)生的順序，甚至需要推理出畫面背后隱含的意義。對人類來說，這種視頻理解能力似乎很自然，但對人工智能系統(tǒng)來說卻是一項(xiàng)巨大挑戰(zhàn)。

近年來，大語言模型（LLM）在數(shù)學(xué)和編程等領(lǐng)域展現(xiàn)出了驚人的推理能力。例如，通過"測試時(shí)優(yōu)化"技術(shù)，模型可以解決復(fù)雜的數(shù)學(xué)題和編程難題。然而，當(dāng)這些技術(shù)應(yīng)用到視頻理解領(lǐng)域時(shí)，多模態(tài)大語言模型（MLLM）的表現(xiàn)卻遠(yuǎn)遠(yuǎn)落后，尤其是在處理復(fù)雜的視頻-語言任務(wù)時(shí)。

現(xiàn)有的視頻理解模型雖然在視頻問答（VideoQA）、文本-視頻檢索和時(shí)序定位等任務(wù)上取得了不錯(cuò)的進(jìn)展，但在處理需要強(qiáng)大推理能力的復(fù)雜視頻理解任務(wù)時(shí)仍顯得力不從心。這些任務(wù)可能涉及時(shí)序推理（理解事件發(fā)生的先后順序）、因果推理（理解事件之間的因果關(guān)系）、長上下文推理（從冗長的視頻中提取關(guān)鍵信息）以及外部知識獲取（將視頻內(nèi)容與外部知識結(jié)合）等。

雖然一些研究團(tuán)隊(duì)嘗試開發(fā)專門的視頻推理框架，但這些方法通常依賴于高質(zhì)量的"思維鏈"（Chain-of-Thought，CoT）數(shù)據(jù)集（收集成本高昂且耗時(shí)）或特定任務(wù)的獎(jiǎng)勵(lì)設(shè)計(jì)（導(dǎo)致泛化性能差）。此外，基于強(qiáng)化學(xué)習(xí)的多模態(tài)推理方法往往難以優(yōu)化，需要大量計(jì)算資源進(jìn)行訓(xùn)練，而且有時(shí)甚至?xí)?dǎo)致性能下降。

二、SiLVR：一種簡單而高效的視頻推理框架

受到最新大語言模型強(qiáng)大推理能力的啟發(fā)，研究團(tuán)隊(duì)提出了SiLVR——一種簡單、模塊化且無需訓(xùn)練的基于語言的框架，用于解決復(fù)雜的視頻-語言推理任務(wù)。這個(gè)框架的核心思想是將視頻理解分解為兩個(gè)階段：

第一階段：將原始視頻轉(zhuǎn)換為基于語言的表示。想象一下，你正在為一個(gè)盲人朋友描述一段視頻的內(nèi)容。你會盡可能詳細(xì)地描述每一個(gè)場景，包括人物、動(dòng)作、物體和環(huán)境等。SiLVR就是這樣工作的——它從輸入視頻中密集采樣短片段，然后使用預(yù)訓(xùn)練的視覺描述模型（如NVILA）為每個(gè)片段提取描述性文本。同時(shí)，它還使用自動(dòng)語音識別（ASR）工具將視頻中的語音轉(zhuǎn)換為文本描述。這樣，原始視頻就被轉(zhuǎn)換成了一系列語言描述，包含了視頻的視覺內(nèi)容和語音內(nèi)容。

第二階段：將語言描述輸入強(qiáng)大的推理大語言模型。就像你拿到了一份詳盡的視頻文字描述，然后開始分析和回答問題一樣，SiLVR將第一階段生成的豐富語言描述輸入到強(qiáng)大的推理大語言模型（如DeepSeek-R1）中，用于解決復(fù)雜的視頻-語言理解任務(wù)。

對于可能長達(dá)數(shù)小時(shí)的視頻，如何處理大量的文本token是一個(gè)挑戰(zhàn)。研究團(tuán)隊(duì)提出了一種簡單的自適應(yīng)token削減方案，它可以動(dòng)態(tài)確定采樣語音和視頻token的時(shí)間粒度。通俗地說，就像你在總結(jié)一部電影時(shí)，對精彩部分會詳細(xì)描述，而對情節(jié)緩慢的部分則簡要帶過一樣，這種方案能夠顯著減少輸入token的數(shù)量，使其適應(yīng)LLM的上下文長度限制，同時(shí)保持強(qiáng)大的推理性能。

與之前基于多模態(tài)大語言模型的視頻推理框架相比，SiLVR具有幾個(gè)顯著優(yōu)勢：簡單（沒有復(fù)雜的設(shè)計(jì)選擇）、模塊化（易于集成不同組件）、無需訓(xùn)練（避免了耗時(shí)的訓(xùn)練過程）以及高性能（在多個(gè)基準(zhǔn)測試上取得最先進(jìn)的結(jié)果）。

三、實(shí)驗(yàn)結(jié)果：SiLVR展現(xiàn)出色的視頻理解能力

研究團(tuán)隊(duì)在多個(gè)視頻理解基準(zhǔn)測試上評估了SiLVR的性能，包括專注于推理能力的基準(zhǔn)測試（Video-MMMU、Video-MMLU、MMVU、MMWorld）和通用視頻基準(zhǔn)測試（Video-MME、CGBench、EgoLife、CinePile）。

在視頻推理基準(zhǔn)測試中，SiLVR在Video-MMMU（理解）和Video-MMLU上取得了最佳性能。具體來說，在Video-MMMU上，SiLVR以82.7%的準(zhǔn)確率超過了之前最好的方法Kimi-k1.6（76.7%）6個(gè)百分點(diǎn)，并顯著優(yōu)于其他強(qiáng)大的專有模型，如Gemini 1.5 Pro（超過29.2%）和GPT-4o（超過22.7%）。在Video-MMLU上，SiLVR以83.1%的準(zhǔn)確率超過了之前最先進(jìn)的模型Claude 3.5 Sonnet（71.3%）11.8個(gè)百分點(diǎn)。

在通用視頻基準(zhǔn)測試中，SiLVR在Video-MME（長片段，帶字幕）、CGBench和EgoLife上取得了最先進(jìn)的性能。特別是在CGBench上，SiLVR實(shí)現(xiàn)了51.8%的準(zhǔn)確率，超過了之前最好的方法Qwen-2-VL-72B（45.3%）6.5個(gè)百分點(diǎn)。值得注意的是，Video-MME（長片段）、EgoLife和CGBench專門設(shè)計(jì)用于超長視頻理解，平均視頻時(shí)長超過60分鐘，SiLVR在這些長視頻理解任務(wù)上的出色表現(xiàn)展示了其強(qiáng)大的能力。

此外，研究團(tuán)隊(duì)還在知識獲取和時(shí)間定位任務(wù)上評估了SiLVR的性能。在Video-MMMU的知識獲取任務(wù)中，SiLVR實(shí)現(xiàn)了17.2%的知識增益（?knowledge），超過了之前最好的方法GPT-4o（15.6%）。在CGBench的時(shí)間定位任務(wù)中，SiLVR以11.84%的mIoU（平均交并比）顯著超過了當(dāng)前最先進(jìn)的方法VideoMind（7.10%）。這些結(jié)果表明，SiLVR不僅能夠正確回答復(fù)雜問題，還能夠準(zhǔn)確定位視頻中與問題相關(guān)的片段，提高了視頻推理的可解釋性。

四、深入分析：推理型與非推理型LLM的性能對比

研究團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn)，深入分析了SiLVR的視頻推理能力。首先，他們比較了使用推理型LLM（DeepSeek-R1）和非推理型LLM（Llama 4）的性能差異。結(jié)果表明，DeepSeek-R1在所有基準(zhǔn)測試上都優(yōu)于Llama 4，特別是在視頻推理基準(zhǔn)測試上，DeepSeek-R1平均提升了15.7%，而在通用視頻基準(zhǔn)測試上平均提升了6.5%。這種差異表明，強(qiáng)大的推理能力對于解決復(fù)雜的視頻推理任務(wù)至關(guān)重要。

進(jìn)一步分析Video-MME上不同問題類別的性能，研究團(tuán)隊(duì)發(fā)現(xiàn)與Llama 4相比，使用DeepSeek-R1在推理類問題（如時(shí)間推理、空間推理、對象推理和動(dòng)作推理）上的平均提升（11.1%）顯著高于非推理類問題（如動(dòng)作識別、OCR等）的平均提升（4.9%）。這一結(jié)果再次證實(shí)了強(qiáng)大推理能力對于解決復(fù)雜視頻推理任務(wù)的重要性。

五、消融實(shí)驗(yàn)：理解SiLVR的各個(gè)組件

研究團(tuán)隊(duì)還進(jìn)行了一系列消融實(shí)驗(yàn)，以更好地理解SiLVR各個(gè)組件的貢獻(xiàn)。

首先，他們研究了語音和視覺描述token的相對重要性。在Video-MME上的實(shí)驗(yàn)表明，減少50-75%的語音token（保留所有視覺描述token）會導(dǎo)致性能顯著下降（11.4%-20.7%）。相比之下，減少同等比例的視覺描述token（保留所有語音token）導(dǎo)致的性能下降要小得多（7.8%-9.0%）。這表明，在提供的視頻數(shù)據(jù)集中，語音token比視覺描述token提供了更多的信息。

接著，研究團(tuán)隊(duì)分析了自適應(yīng)token削減方案的有效性。與使用固定視頻片段長度的基線相比，自適應(yīng)token削減方案在Video-MME上實(shí)現(xiàn)了最高的整體準(zhǔn)確率，超過了最佳固定長度基線（8秒）2.5個(gè)百分點(diǎn)。這表明自適應(yīng)token削減方案能夠有效減少冗余token，同時(shí)保持強(qiáng)大的性能。

最后，研究團(tuán)隊(duì)研究了不同視覺描述模型和不同LLM的影響。在視覺描述模型方面，Qwen-2.5-VL 72B實(shí)現(xiàn)了最高的整體準(zhǔn)確率，但研究團(tuán)隊(duì)選擇使用NVILA 7B作為默認(rèn)模型，因?yàn)樗峁┝俗罴训臏?zhǔn)確率-成本權(quán)衡。在LLM方面，DeepSeek-R1作為LLM骨干實(shí)現(xiàn)了最高的整體準(zhǔn)確率，超過專有的GPT-4.1 0.8%，超過DeepSeek V3 3.5%。

六、SiLVR的實(shí)際應(yīng)用：從分子結(jié)構(gòu)到行星順序的推理

為了更直觀地展示SiLVR的能力，研究團(tuán)隊(duì)分享了幾個(gè)實(shí)際推理案例。例如，當(dāng)被問及"根據(jù)視頻，藝術(shù)品中沒有使用哪種成分？"時(shí)，SiLVR能夠通過自我糾正過程，正確識別出貝殼是作為裝飾品而非功能性成分使用的。再比如，當(dāng)被問及"視頻中行星出現(xiàn)的順序是什么？"時(shí)，SiLVR能夠準(zhǔn)確識別出正確的行星順序，并通過邏輯推理排除不正確的選項(xiàng)。

這些案例展示了SiLVR能夠整合視覺和語音模態(tài)的信息，執(zhí)行復(fù)雜的視頻推理步驟，包括逐步推理、自我糾正、自我驗(yàn)證，甚至利用LLM的相關(guān)先驗(yàn)知識來回答給定問題。例如，在一個(gè)關(guān)于汽車后觸摸屏顯示尺寸的問題中，盡管視覺描述模塊未能捕捉到觸摸屏的詳細(xì)信息，SiLVR仍然能夠通過識別車輛類型和利用LLM的外部知識推斷出正確答案。在另一個(gè)關(guān)于分子結(jié)構(gòu)的復(fù)雜化學(xué)問題中，SiLVR能夠通過逐步推理，解決問題并驗(yàn)證生成答案的正確性。

七、結(jié)論與未來展望

SiLVR代表了視頻理解領(lǐng)域的一個(gè)簡單但強(qiáng)大的解決方案。它將視頻理解分解為兩個(gè)階段——將原始視頻轉(zhuǎn)換為語言表示，然后使用強(qiáng)大的推理LLM進(jìn)行復(fù)雜推理，這種方法避免了耗時(shí)的訓(xùn)練過程和復(fù)雜的模型設(shè)計(jì)，同時(shí)在多個(gè)基準(zhǔn)測試上取得了最先進(jìn)的性能。

盡管SiLVR基于簡單的設(shè)計(jì)原則，但它的性能令人印象深刻，甚至超過了一些復(fù)雜的專有模型。這表明，有時(shí)簡單的解決方案可能比復(fù)雜的方法更有效。研究團(tuán)隊(duì)希望SiLVR的簡單而有效的設(shè)計(jì)能夠幫助研究社區(qū)建立更強(qiáng)大的視頻-語言推理模型。

不過，SiLVR也存在一些局限性。作為一個(gè)模塊化框架，其性能依賴于各個(gè)組件的質(zhì)量。在視覺感知方面，SiLVR依賴于視覺描述模型，這些模型可能會產(chǎn)生幻覺或缺少精細(xì)的視覺細(xì)節(jié)。然而，由于SiLVR對特定視覺描述模型的使用是不可知的，未來視覺描述模型的進(jìn)步將有助于緩解這個(gè)問題。在推理方面，當(dāng)LLM生成的推理軌跡不正確時(shí)，SiLVR的性能可能會下降。但這是當(dāng)前LLM的一個(gè)更廣泛的限制，未來在長上下文建模和LLM推理方面的進(jìn)展將進(jìn)一步提升SiLVR的性能。

總的來說，SiLVR為復(fù)雜的視頻-語言理解任務(wù)提供了一個(gè)簡單、模塊化、無需訓(xùn)練且高性能的解決方案。它的成功表明，我們可以利用現(xiàn)有LLM的強(qiáng)大推理能力來解決復(fù)雜的視頻理解問題，而無需進(jìn)行昂貴的多模態(tài)訓(xùn)練。隨著LLM和視覺描述模型的不斷進(jìn)步，我們可以期待SiLVR及其后繼者在未來取得更好的性能。

視頻理解大語言模型推理多模態(tài)AI

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn