av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 延慶大學(xué)聯(lián)合多家機(jī)構(gòu)發(fā)布視頻大模型加速新技術(shù):讓AI看視頻快三倍不掉鏈子

延慶大學(xué)聯(lián)合多家機(jī)構(gòu)發(fā)布視頻大模型加速新技術(shù):讓AI看視頻快三倍不掉鏈子

2025-07-21 09:12
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-21 09:12 ? 科技行者

這項(xiàng)由延慶大學(xué)金勝卓教授團(tuán)隊(duì)聯(lián)合卡內(nèi)基梅隆大學(xué)、NAVER Cloud和Adobe研究院共同完成的研究發(fā)表于2025年7月,論文標(biāo)題為"Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs"。有興趣深入了解的讀者可以通過arXiv:2507.07990訪問完整論文。

當(dāng)我們用ChatGPT這樣的AI助手分析一段視頻時(shí),背后發(fā)生了什么?就像一個(gè)人要理解一部電影,需要逐幀觀看每個(gè)畫面一樣,AI也需要把視頻切分成無數(shù)個(gè)小片段來分析。但這里有個(gè)大問題:視頻包含的信息量實(shí)在太龐大了。一個(gè)一小時(shí)的視頻可能需要AI處理數(shù)萬個(gè)"小片段"(專業(yè)術(shù)語叫"token"),這就像讓一個(gè)人同時(shí)記住一萬張照片的所有細(xì)節(jié)一樣困難。

更要命的是,處理這些片段的計(jì)算量會(huì)呈指數(shù)級增長。如果有一千個(gè)片段需要處理,那么計(jì)算量可能達(dá)到一千的平方,也就是一百萬倍的復(fù)雜度。這就好比你要整理一千張照片,不僅要看每張照片,還要把每張照片都和其他所有照片做比較,工作量瞬間爆炸。

現(xiàn)在,研究團(tuán)隊(duì)找到了一個(gè)巧妙的解決方案,他們開發(fā)了一種叫做"多粒度時(shí)空token合并"的技術(shù)。這個(gè)技術(shù)的核心思想就像整理家里的物品一樣:把相似的東西歸類放在一起,沒必要每個(gè)小物件都單獨(dú)占用一個(gè)柜子。

這項(xiàng)技術(shù)的創(chuàng)新之處在于它能夠識別視頻中的冗余信息。想象你在看一部電影,其中有一個(gè)場景是主人公在海邊靜靜地坐著,鏡頭持續(xù)了十秒鐘。在這十秒鐘里,除了海浪輕微的波動(dòng),背景幾乎沒有變化。傳統(tǒng)的AI需要把這十秒鐘的每一幀都當(dāng)作全新的信息來處理,而新技術(shù)能夠識別出這些幀之間的相似性,將它們合并成一個(gè)"超級幀"來處理。

研究團(tuán)隊(duì)采用了一個(gè)分層處理的策略,就像搭積木一樣從粗到細(xì)。首先,他們使用一種叫做"四叉樹"的數(shù)據(jù)結(jié)構(gòu)來分析每一幀畫面。這個(gè)過程就像用放大鏡看一幅畫:先看整體,如果發(fā)現(xiàn)某個(gè)區(qū)域比較單調(diào)(比如一大片藍(lán)天),就用一個(gè)粗糙的描述來代表;如果發(fā)現(xiàn)某個(gè)區(qū)域很復(fù)雜(比如人物的面部表情),就用更精細(xì)的描述來保留細(xì)節(jié)。

在空間維度上,技術(shù)會(huì)智能地決定畫面的哪些部分需要精細(xì)處理,哪些部分可以粗糙處理。就像你在畫素描時(shí),重要的部分會(huì)畫得很細(xì)致,而背景可能只用幾筆帶過。這樣既保證了重要信息不丟失,又大大減少了需要處理的數(shù)據(jù)量。

在時(shí)間維度上,技術(shù)會(huì)比較相鄰幀之間的相似性。如果發(fā)現(xiàn)連續(xù)幾幀的某個(gè)區(qū)域基本沒有變化,就會(huì)將這些信息合并到最早出現(xiàn)的那一幀中。這就像寫日記時(shí),如果連續(xù)幾天都是同樣的天氣,你可能會(huì)寫"這一周都是晴天"而不是每天都重復(fù)寫一遍"今天晴天"。

這種合并策略帶來了顯著的性能提升。在實(shí)驗(yàn)中,當(dāng)AI需要處理的數(shù)據(jù)量減少到原來的一半時(shí),新技術(shù)能夠讓處理速度提升兩倍,而準(zhǔn)確率只下降了0.5%。當(dāng)數(shù)據(jù)量減少到原來的30%時(shí),速度提升了三倍,準(zhǔn)確率也只下降了2%。這就好比你原來需要看一萬張照片來理解一個(gè)故事,現(xiàn)在只需要看三千張就能理解同樣的內(nèi)容,而且理解的準(zhǔn)確度幾乎沒有下降。

更重要的是,這項(xiàng)技術(shù)具有一個(gè)獨(dú)特的優(yōu)勢:它不需要知道用戶要問什么問題就能進(jìn)行優(yōu)化。傳統(tǒng)的方法需要根據(jù)具體的問題來決定保留哪些信息,這就像一個(gè)圖書管理員必須知道讀者要找什么書才能整理書架。而新技術(shù)能夠提前整理好信息,不管用戶問什么問題都能快速響應(yīng)。這種特性使得同一個(gè)視頻的處理結(jié)果可以被重復(fù)使用,大大提高了實(shí)際應(yīng)用中的效率。

研究團(tuán)隊(duì)在六個(gè)不同的視頻問答數(shù)據(jù)集上測試了他們的技術(shù)。這些數(shù)據(jù)集涵蓋了各種類型的視頻:有短視頻(幾分鐘),有長視頻(一小時(shí)以上),還有特殊的"大海撈針"類型視頻。所謂"大海撈針",就是在很長的視頻中隱藏一些微小但重要的信息,測試AI是否能夠準(zhǔn)確找到這些信息。

在短視頻任務(wù)中,新技術(shù)表現(xiàn)出色,能夠準(zhǔn)確理解視頻內(nèi)容并回答相關(guān)問題。在長視頻任務(wù)中,技術(shù)的優(yōu)勢更加明顯,因?yàn)殚L視頻中往往包含更多的冗余信息,為合并提供了更大的空間。最令人印象深刻的是在"大海撈針"任務(wù)中的表現(xiàn):當(dāng)其他方法的準(zhǔn)確率大幅下降時(shí),新技術(shù)仍能保持相對較高的準(zhǔn)確率,這說明它在壓縮數(shù)據(jù)的同時(shí)能夠很好地保留關(guān)鍵信息。

技術(shù)的實(shí)現(xiàn)細(xì)節(jié)也很有趣。在空間合并階段,系統(tǒng)會(huì)計(jì)算圖像塊之間的相似度,如果相似度超過某個(gè)閾值,就會(huì)將它們合并。這個(gè)過程就像玩拼圖游戲,當(dāng)你發(fā)現(xiàn)兩塊拼圖的顏色和紋理非常相似時(shí),就知道它們可能屬于同一個(gè)區(qū)域。

在時(shí)間合并階段,系統(tǒng)會(huì)跨時(shí)間比較相同空間位置的內(nèi)容。如果發(fā)現(xiàn)某個(gè)區(qū)域在連續(xù)幾幀中都很相似,就會(huì)建立一個(gè)"合并鏈",將后面的幀都合并到最早的幀中。這就像追蹤一個(gè)物體的運(yùn)動(dòng)軌跡,當(dāng)發(fā)現(xiàn)物體在某個(gè)時(shí)間段內(nèi)基本靜止時(shí),就用一個(gè)狀態(tài)來描述這整個(gè)時(shí)間段。

研究團(tuán)隊(duì)還解決了一個(gè)技術(shù)難題:如何處理不同精度級別的信息合并。有時(shí)候,某個(gè)區(qū)域在前一幀中用粗糙的描述就夠了,但在后一幀中需要精細(xì)的描述,或者相反。這就像兩個(gè)人在描述同一個(gè)場景,一個(gè)人說"那里有棵樹",另一個(gè)人說"那里有一棵長滿綠葉的大橡樹"。系統(tǒng)需要決定如何將這兩種不同精度的描述合并起來。

為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了一種簡化的策略:當(dāng)出現(xiàn)多個(gè)可能的合并目標(biāo)時(shí),系統(tǒng)會(huì)選擇位置最靠左上角的那個(gè)目標(biāo)。雖然這不是最理想的選擇,但它能夠保證算法的效率,而且在實(shí)際應(yīng)用中效果很好。

這項(xiàng)技術(shù)的另一個(gè)創(chuàng)新點(diǎn)是它不需要重新訓(xùn)練AI模型。傳統(tǒng)的優(yōu)化方法通常需要對整個(gè)AI系統(tǒng)進(jìn)行重新訓(xùn)練,這個(gè)過程既耗時(shí)又昂貴。新技術(shù)是一個(gè)"即插即用"的模塊,可以直接插入現(xiàn)有的AI系統(tǒng)中,就像給電腦安裝一個(gè)新的軟件一樣簡單。

研究團(tuán)隊(duì)還驗(yàn)證了技術(shù)在不同規(guī)模AI模型上的效果。他們測試了從70億參數(shù)到720億參數(shù)的各種模型,發(fā)現(xiàn)新技術(shù)在所有規(guī)模上都能帶來顯著的性能提升。這說明技術(shù)的適用性很廣,不僅適用于小型模型,也適用于大型模型。

在實(shí)際部署方面,這項(xiàng)技術(shù)特別適合視頻聊天機(jī)器人這樣的應(yīng)用場景。當(dāng)用戶上傳一個(gè)視頻并想要進(jìn)行多輪對話時(shí),系統(tǒng)只需要在第一次處理時(shí)進(jìn)行token合并,之后的所有問題都可以基于這個(gè)壓縮后的表示來快速回答。這就像先把一本厚厚的書整理成一個(gè)詳細(xì)的目錄,之后不管讀者問什么問題,都能快速找到相關(guān)章節(jié)。

技術(shù)的可視化效果也很有說服力。研究團(tuán)隊(duì)展示了合并前后的對比圖,可以清楚地看到系統(tǒng)是如何智能地保留重要信息而合并冗余信息的。比如,在一個(gè)視頻畫面中,人物面部被保留了很多細(xì)節(jié),而背景的大片天空被合并成了幾個(gè)大塊。這種選擇性的處理方式體現(xiàn)了技術(shù)的智能性。

從更廣泛的角度來看,這項(xiàng)技術(shù)解決了當(dāng)前視頻AI面臨的一個(gè)關(guān)鍵瓶頸。隨著視頻內(nèi)容的增長和AI應(yīng)用的普及,如何高效處理視頻數(shù)據(jù)成為了一個(gè)越來越重要的問題。這項(xiàng)技術(shù)提供了一個(gè)實(shí)用的解決方案,既能保證處理質(zhì)量,又能顯著提高處理速度。

值得注意的是,這項(xiàng)技術(shù)在不同類型的視頻上表現(xiàn)差異很大。對于內(nèi)容變化較少的視頻(比如新聞播報(bào)),技術(shù)能夠?qū)崿F(xiàn)很高的壓縮比而幾乎不損失準(zhǔn)確性。但對于內(nèi)容變化很快的視頻(比如動(dòng)作片),壓縮比會(huì)相對較低,但仍然能夠帶來顯著的性能提升。

研究團(tuán)隊(duì)還發(fā)現(xiàn),技術(shù)在處理長視頻時(shí)的優(yōu)勢特別明顯。這是因?yàn)殚L視頻中通常包含更多的重復(fù)內(nèi)容和冗余信息,為合并提供了更大的空間。這個(gè)發(fā)現(xiàn)對于未來的視頻AI應(yīng)用具有重要意義,因?yàn)橛脩羯蟼鞯囊曨l往往越來越長。

技術(shù)的另一個(gè)優(yōu)勢是它對不同類型的AI模型都有效。研究團(tuán)隊(duì)測試了多種主流的視頻AI模型,包括LLaVA-Video、LLaVA-OneVision和Qwen2VL等,發(fā)現(xiàn)新技術(shù)在所有這些模型上都能帶來一致的性能提升。這種通用性使得技術(shù)的應(yīng)用前景更加廣闊。

從實(shí)施角度來看,這項(xiàng)技術(shù)的部署相對簡單。它不需要對現(xiàn)有的AI系統(tǒng)進(jìn)行大幅修改,只需要在適當(dāng)?shù)奈恢貌迦牒喜⒛K即可。這種設(shè)計(jì)使得技術(shù)能夠快速被現(xiàn)有的AI服務(wù)提供商采用,加速整個(gè)行業(yè)的發(fā)展。

說到底,這項(xiàng)技術(shù)的本質(zhì)是一種智能的信息壓縮方法。它能夠在保持信息完整性的同時(shí)顯著減少計(jì)算負(fù)擔(dān),這對于視頻AI的實(shí)際應(yīng)用具有重要價(jià)值。隨著視頻內(nèi)容的爆炸式增長和AI應(yīng)用的普及,這類技術(shù)將變得越來越重要。

歸根結(jié)底,這項(xiàng)研究展示了如何通過智能算法設(shè)計(jì)來解決實(shí)際工程問題。它不僅提供了一個(gè)具體的解決方案,還為未來的相關(guān)研究提供了有價(jià)值的思路。對于普通用戶來說,這意味著未來的視頻AI應(yīng)用會(huì)變得更快、更便宜,同時(shí)保持高質(zhì)量的服務(wù)。這種技術(shù)進(jìn)步最終會(huì)惠及每一個(gè)使用AI產(chǎn)品的人,讓我們能夠更好地利用人工智能來理解和處理視頻內(nèi)容。

Q&A

Q1:這個(gè)新技術(shù)具體是怎么讓AI處理視頻變快的? A:就像整理房間一樣,技術(shù)把視頻中相似的畫面和重復(fù)的內(nèi)容"打包"在一起處理,而不是每個(gè)細(xì)節(jié)都單獨(dú)分析。比如一段十秒鐘的海灘靜景,傳統(tǒng)方法要分析300幀畫面,新技術(shù)可能只需要分析幾十幀就夠了,自然就快了。

Q2:這種加速會(huì)不會(huì)影響AI理解視頻的準(zhǔn)確性? A:影響很小。實(shí)驗(yàn)顯示,即使處理速度提升2-3倍,準(zhǔn)確率也只下降0.5-2%。這就像看電影時(shí)跳過一些重復(fù)鏡頭,你仍然能完整理解故事情節(jié)。關(guān)鍵信息都被保留了,只是去掉了冗余內(nèi)容。

Q3:普通人能用到這項(xiàng)技術(shù)嗎?什么時(shí)候能用上? A:這項(xiàng)技術(shù)主要面向AI開發(fā)者和服務(wù)提供商,普通用戶不需要直接使用。但當(dāng)視頻AI應(yīng)用(如視頻聊天機(jī)器人、視頻內(nèi)容分析工具)采用這項(xiàng)技術(shù)后,用戶就能享受到更快的響應(yīng)速度和更低的使用成本。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-