av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 HoPE:視覺語言模型中的混合位置編碼技術(shù)讓AI更懂長視頻

HoPE:視覺語言模型中的混合位置編碼技術(shù)讓AI更懂長視頻

2025-06-03 07:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 07:45 ? 科技行者

當我們使用ChatGPT這類大型語言模型討論一張圖片或視頻時,你是否好奇它如何理解內(nèi)容的時間和空間關(guān)系?比如,當你問"視頻中哪一秒出現(xiàn)了小貓",AI需要準確理解視頻的時間線和畫面中的物體位置。然而,現(xiàn)有的視覺語言模型在處理長視頻時表現(xiàn)不佳,特別是超過其訓(xùn)練范圍的視頻長度。為解決這一問題,卡內(nèi)基梅隆大學(xué)的李浩然和小紅書團隊(秦穎杰、歐保元、徐來、徐瑞文)共同開發(fā)了一種名為"HoPE"的混合位置編碼技術(shù),該研究于2025年5月發(fā)表在預(yù)印本平臺arXiv上(編號:2505.20444v1)。

要理解這項研究的意義,我們先簡單聊聊視覺語言模型(VLMs)如何處理視頻。想象你在看一段3分鐘的視頻,AI需要理解每一幀畫面的內(nèi)容,以及這些內(nèi)容在時間線上如何演變。就像你在看電影時既能理解"現(xiàn)在屏幕上有什么",也能記住"10秒前發(fā)生了什么"。但當前的AI在長視頻上表現(xiàn)不佳,甚至連簡單的物體計數(shù)和時間定位都會出錯。

研究團隊發(fā)現(xiàn),問題的關(guān)鍵在于AI如何在處理信息時記住"位置信息"。在現(xiàn)有的模型中,廣泛使用一種叫做"旋轉(zhuǎn)位置編碼"(RoPE)的技術(shù),它在處理文本時效果很好,但直接應(yīng)用到視頻上卻不理想。為什么呢?因為視頻是三維的(時間、水平和垂直空間),而現(xiàn)有技術(shù)主要針對一維文本設(shè)計。

想象一下,如果你只能用一條直線表示一個立體空間,無論如何排列,總會丟失一些空間關(guān)系。這就是現(xiàn)有技術(shù)的困境。研究團隊通過理論分析和實驗,揭示了現(xiàn)有方法的兩個關(guān)鍵缺陷:一是無法準確捕捉空間-時間的局部性,二是在長視頻中難以保持語義相似性。

基于這些發(fā)現(xiàn),研究團隊提出了HoPE(混合位置編碼)技術(shù),包含兩個創(chuàng)新點:一是混合頻率分配策略,為空間和時間信息分配不同的編碼頻率;二是動態(tài)時間縮放機制,可根據(jù)視頻速度靈活調(diào)整時間編碼。就像一個同時精通空間方位和時間流逝的導(dǎo)游,HoPE能夠更準確地引導(dǎo)AI理解視頻內(nèi)容的時空關(guān)系。

在四個視頻基準測試上的實驗表明,HoPE顯著提升了模型在長視頻理解和檢索任務(wù)上的表現(xiàn),比現(xiàn)有最佳方法分別提高了8.35%和22.23%。這意味著,配備HoPE技術(shù)的AI能更準確地回答"視頻中第幾分鐘出現(xiàn)了小貓"這類問題,為視頻內(nèi)容分析、智能搜索和視頻推薦等應(yīng)用提供了更可靠的技術(shù)支持。

一、視頻理解的時空挑戰(zhàn):現(xiàn)有模型的局限性

想象你正在看一段長達30分鐘的烹飪視頻,需要找出"什么時候廚師加入了鹽"。對人類來說,這是個簡單任務(wù),但對AI卻是個不小的挑戰(zhàn)??▋?nèi)基梅隆大學(xué)的李浩然研究團隊在分析現(xiàn)有視覺語言模型(VLMs)時發(fā)現(xiàn),這些模型在處理超過預(yù)訓(xùn)練長度的視頻時表現(xiàn)顯著下降。

"許多視覺語言模型在面對長視頻時表現(xiàn)得像失憶的觀眾,"研究團隊形象地描述道,"它們甚至難以完成簡單的物體計數(shù)和時間定位任務(wù)。"比如當你問"視頻中總共出現(xiàn)了幾次貓咪?"或"第15分鐘發(fā)生了什么?",模型往往給出錯誤答案。這一問題嚴重限制了VLMs在實際應(yīng)用中的部署,因為現(xiàn)實世界的視頻長度通常遠超模型的預(yù)訓(xùn)練窗口。

造成這一問題的核心原因在于位置編碼技術(shù)。在語言模型中廣泛使用的旋轉(zhuǎn)位置編碼(RoPE)在文本處理中表現(xiàn)出色,但直接應(yīng)用到視頻上卻面臨挑戰(zhàn)。這就像用一維直尺去測量三維物體,無論如何都會有信息丟失。

研究團隊通過理論分析證明,傳統(tǒng)RoPE中的"扁平化"操作會扭曲空間-時間的局部性。想象一下,在現(xiàn)實中相鄰的兩個畫面位置(比如視頻中相鄰的兩幀),經(jīng)過扁平化處理后,它們的"距離"被人為放大了,這導(dǎo)致模型難以識別它們的鄰近關(guān)系。具體來說,當視頻分辨率為H×W時,相鄰兩幀之間的位置差異會被放大到HW,這種失真隨著視頻分辨率的增加而加劇。

此外,研究團隊還發(fā)現(xiàn),現(xiàn)有的多模態(tài)RoPE變體(如M-RoPE和VideoRoPE)雖然嘗試通過不同的頻率分配策略來解決這一問題,但它們在理論上仍無法在長視頻中可靠地捕捉語義相似性。這就像一個聽力不好的人在嘈雜環(huán)境中聽電話,當對話時間延長,他越來越難以分辨重要信息和背景噪音。

最后,團隊指出,現(xiàn)有技術(shù)在處理視頻時間索引時缺乏靈活性。視頻中的信息密度與文本相比有很大差異,不同視頻的播放速度也各不相同。簡單地為所有視頻應(yīng)用固定的時間縮放因子(如VideoRoPE中的做法)是次優(yōu)的,因為它無法適應(yīng)各種視頻速度和信息密度的變化。

正是基于這些深入分析,研究團隊提出了HoPE技術(shù),旨在從根本上解決這些挑戰(zhàn),使視覺語言模型能夠更好地理解和處理長視頻內(nèi)容。

二、HoPE:視頻理解的新鑰匙

想象你是一位精通時間和空間導(dǎo)航的向?qū)?,需要引?dǎo)一位游客穿越一個既有空間維度又有時間維度的迷宮。這正是HoPE(混合位置編碼)技術(shù)的核心任務(wù)——幫助AI更好地在視頻的時空迷宮中導(dǎo)航。研究團隊設(shè)計的HoPE技術(shù)包含兩個關(guān)鍵創(chuàng)新:混合頻率分配策略和動態(tài)時間縮放機制。

混合頻率分配策略就像一張精心設(shè)計的地圖,告訴AI如何同時關(guān)注空間細節(jié)和時間變化。在傳統(tǒng)的位置編碼中,不同維度的信息(如時間、水平位置、垂直位置)會被分配不同的頻率。就像收音機調(diào)頻一樣,不同的頻率承載不同的信息。但研究團隊通過理論分析發(fā)現(xiàn),這些頻率分配策略在長視頻中會失效。

"我們證明,無論采用什么頻率分配策略,當視頻長度超過某個閾值后,都無法可靠地保持語義偏好屬性,"研究者解釋道。這里的"語義偏好屬性"指的是,無論相對位置如何,模型都應(yīng)該優(yōu)先關(guān)注語義相似的內(nèi)容。

為解決這一問題,HoPE采用了一種混合策略:為空間信息(水平和垂直位置)分配高頻,因為高頻對位置差異更敏感,更適合捕捉局部特征;而對時間維度,則直接將最低頻率設(shè)為零(類似NoPE技術(shù)),以實現(xiàn)可靠的長距離語義建模。這就像在地圖上用不同顏色標記不同類型的信息,讓導(dǎo)航更加清晰。

研究團隊證明,這種混合策略在保持語義偏好方面提供了更強的理論保證,特別是在處理超長視頻內(nèi)容時。在數(shù)學(xué)上,這相當于將語義相似度計算中的時間項設(shè)為常數(shù),避免了隨著時間距離增加而產(chǎn)生的波動,從而保證了相似內(nèi)容之間的注意力權(quán)重不會因為時間距離的增加而減弱。

與此同時,HoPE還引入了動態(tài)時間縮放機制,用于調(diào)整視覺輸入的時間步長??紤]到文本和視覺標記的信息密度差異,以及現(xiàn)實世界視頻速度的多樣性,研究團隊設(shè)計了一組縮放因子(如{0.5, 0.75, 1, 1.25, 1.5}),包括拉伸(γ > 1)和壓縮(γ < 1)操作。

在訓(xùn)練過程中,縮放因子γ隨機從集合中選擇并應(yīng)用于每個視頻。這使模型能夠?qū)W習多種時間尺度下的時間關(guān)系,增強了對各種視頻速度的魯棒性。這就像教會導(dǎo)游在不同交通工具(步行、騎車、駕車)下仍能準確估計時間和距離,使導(dǎo)航更加靈活可靠。

"我們的動態(tài)時間縮放不僅增強了模型對各種視頻速度的魯棒性,還提供了在推理階段跨多種上下文長度的靈活縮放能力,"研究者補充道。這意味著,即使面對訓(xùn)練中從未見過的視頻長度和速度,配備HoPE的模型也能進行更可靠的理解和分析。

通過這兩項創(chuàng)新,HoPE有效解決了現(xiàn)有技術(shù)在長視頻理解中的核心挑戰(zhàn),為視覺語言模型提供了更可靠的時空導(dǎo)航能力。

三、實驗驗證:HoPE如何改變長視頻理解

研究團隊將HoPE技術(shù)應(yīng)用到了Qwen2-2B和Qwen2-7B兩種規(guī)模的模型上,并在四個視頻基準測試中進行了全面評估,包括長視頻理解任務(wù)(LongVideoBench、Video-MME和MLVU)和長視頻檢索任務(wù)(V-NIAH)。這些實驗就像是對新導(dǎo)航系統(tǒng)的一系列實地測試,檢驗它在各種復(fù)雜地形中的表現(xiàn)。

在長視頻理解任務(wù)中,HoPE與現(xiàn)有技術(shù)(傳統(tǒng)RoPE、M-RoPE和VideoRoPE)進行了對比。實驗設(shè)置中,所有方法的訓(xùn)練上下文長度均為8k,而評估則在8k、16k、32k和64k上進行,以測試模型的長度泛化能力。就像測試一位導(dǎo)游能否在不熟悉的地區(qū)仍然提供準確指引。

實驗結(jié)果令人振奮。在7B規(guī)模模型和32k上下文長度下,HoPE在MLVU上比傳統(tǒng)RoPE提高了2.82個百分點,在LongVideoBench上提高了4.05個百分點,在Video-MME上提高了1.45個百分點。這意味著,配備HoPE的模型能夠更準確地回答關(guān)于長視頻內(nèi)容的問題,如"視頻第20分鐘發(fā)生了什么"或"視頻中總共有幾個人物"。

研究團隊還觀察到幾個有趣的現(xiàn)象:首先,HoPE的效果會隨著模型規(guī)模的增加而提升。當模型從2B增加到7B時,HoPE在LongVideoBench(32k)上相比傳統(tǒng)RoPE的性能提升從0.66顯著增加到4.05。這表明,較大的模型能夠更好地利用HoPE提供的時空導(dǎo)航能力。

其次,在超長上下文(64k,相當于訓(xùn)練長度的8倍)下,所有方法的性能都有所下降,但HoPE的降幅最小,表現(xiàn)出更強的長度泛化能力。這就像一位優(yōu)秀的導(dǎo)游,即使在從未探索過的地區(qū),仍能保持相對較高的導(dǎo)航準確性。

在長視頻檢索任務(wù)(V-NIAH)中,HoPE的優(yōu)勢更加明顯。V-NIAH要求模型在長視頻中找到特定的"針"幀來回答問題,類似于在干草堆中尋找一根針。如果模型無法準確理解視頻的時空結(jié)構(gòu),這個任務(wù)幾乎不可能完成。

結(jié)果顯示,HoPE比最好的基線(VideoRoPE)提高了驚人的22.23個百分點。這一顯著提升證明了HoPE在處理復(fù)雜的視頻空間-時間關(guān)系方面的卓越能力。這就像一位超級導(dǎo)游不僅能告訴你"這個城市有什么",還能精確指出"那件特定的物品在哪個街區(qū)的哪個商店里"。

研究團隊還進行了詳細的消融研究,分別評估HoPE中各組件的貢獻。結(jié)果表明,3D結(jié)構(gòu)(相比于傳統(tǒng)RoPE的扁平化處理)、混合頻率分配(HFA)和動態(tài)時間縮放(DTS)各自都帶來了性能提升。特別是在Video-MME上,完整的HoPE(包含所有組件)在8k到64k的所有上下文長度上都取得了最佳結(jié)果。

此外,團隊還研究了測試時間縮放因子選擇對性能的影響。他們發(fā)現(xiàn),長視頻檢索任務(wù)通常偏好較小的縮放因子(如0.75),而長視頻理解則在較長上下文下受益于較大的縮放因子(如1.5)。這一發(fā)現(xiàn)為不同任務(wù)提供了實用的指導(dǎo),就像提醒導(dǎo)游在不同類型的旅行中調(diào)整步伐。

總體而言,這些實驗結(jié)果有力地證明了HoPE在長視頻理解和檢索任務(wù)中的有效性,為視覺語言模型處理長視頻內(nèi)容提供了一條有前途的解決方路徑。

四、HoPE的理論基礎(chǔ):為何它能更好地理解長視頻

要深入理解HoPE的成功,我們需要探索其背后的理論基礎(chǔ)。研究團隊不僅提出了實用的技術(shù)解決方案,還通過嚴格的理論分析揭示了為何這些方案能夠有效工作。這就像不僅知道一條路能到達目的地,還理解為什么這條路是最優(yōu)選擇。

研究的第一個理論貢獻是證明了傳統(tǒng)RoPE在處理視頻時的固有缺陷??紤]一個形狀為T×H×W的視頻,其中T是幀數(shù),H和W分別是高度和寬度。在傳統(tǒng)RoPE中,位置(t, x, y)會被扁平化為一維索引f(t, x, y) = tHW + xW + y。

研究團隊證明,這種扁平化操作會導(dǎo)致空間-時間局部性的扭曲。比如,同一幀內(nèi)在空間上相鄰的兩個位置(t, x, y)和(t, x+1, y),它們的索引差異是W;而在時間上相鄰的兩個位置(t, x, y)和(t+1, x, y),它們的索引差異則是HW。這意味著,隨著視頻分辨率的增加,時間上的鄰近關(guān)系被不成比例地放大,導(dǎo)致模型難以正確理解視頻的時空結(jié)構(gòu)。

研究的第二個理論貢獻是引入"語義偏好屬性"的概念,并分析不同頻率分配策略對這一屬性的影響。語義偏好屬性要求,對于任何查詢向量q和語義相似的鍵向量k'(可表示為k' = q + δ,其中δ是零均值擾動),注意力得分應(yīng)滿足:E[qR?t?x?yk'? - qR?t?x?yk?] ≥ 0,其中k是語義無關(guān)的鍵向量。簡單來說,這要求模型在計算注意力時,應(yīng)該更關(guān)注語義相似的內(nèi)容,而不論它們在時空上的相對位置如何。

研究團隊證明,無論選擇何種頻率分配策略(包括為時間維度選擇最高或最低頻率),當上下文長度足夠長時,語義偏好屬性都會被違反。這是因為,隨著上下文長度的增加,即使是最低頻率也會產(chǎn)生任意旋轉(zhuǎn),最終破壞語義相似性的捕捉。

基于這一理論分析,研究團隊提出了混合頻率分配策略,即為空間信息分配高頻,而將時間維度的最低頻率直接設(shè)為零。他們通過數(shù)學(xué)證明,這種策略在保持語義偏好方面提供了更強的理論保證。具體來說,當時間維度的頻率設(shè)為零時,相應(yīng)的注意力計算中的時間項變?yōu)槌?shù),不再隨時間距離的增加而波動,從而保證了語義相似內(nèi)容之間的注意力權(quán)重不會因時間距離的增加而減弱。

研究的第三個理論洞見與時間縮放有關(guān)。研究團隊發(fā)現(xiàn),考慮到文本和視覺標記的信息密度差異,以及視頻速度的多樣性,時間索引縮放是必要的。但與VideoRoPE不同,他們主張時間縮放應(yīng)該是雙向的(既包括壓縮也包括擴展)和動態(tài)的,以適應(yīng)不同視頻的特性。

這種動態(tài)時間縮放機制使模型能夠?qū)W習多種時間尺度下的時間關(guān)系,從而增強了模型對各種視頻速度的適應(yīng)能力。在數(shù)學(xué)上,這相當于為模型提供了一組不同的"時間尺度",使其能夠在推理時靈活選擇最適合特定視頻的尺度。

總的來說,HoPE的理論基礎(chǔ)揭示了現(xiàn)有技術(shù)的固有限制,并提供了解決這些限制的原理性方法。通過結(jié)合混合頻率分配和動態(tài)時間縮放,HoPE為視覺語言模型提供了更可靠的時空導(dǎo)航能力,特別是在處理長視頻內(nèi)容時。

五、HoPE的潛在應(yīng)用與未來展望

隨著視頻內(nèi)容在互聯(lián)網(wǎng)上的爆炸式增長,有效理解和處理長視頻已成為人工智能領(lǐng)域的一個關(guān)鍵挑戰(zhàn)。HoPE技術(shù)的出現(xiàn)為這一挑戰(zhàn)提供了一個有前途的解決方案,其潛在應(yīng)用范圍廣泛而深遠。

首先,在視頻搜索和檢索領(lǐng)域,HoPE可以顯著提升精確度。想象一下,當你想在一部兩小時的電影中找到某個特定場景,或在一系列教學(xué)視頻中定位特定技能的講解部分,配備HoPE的AI系統(tǒng)能夠更準確地理解你的查詢意圖,并精確定位相關(guān)內(nèi)容。這不僅節(jié)省了用戶的時間,還提升了整體用戶體驗。

其次,在視頻內(nèi)容分析和理解方面,HoPE使AI能夠更全面地把握視頻的敘事結(jié)構(gòu)和情節(jié)發(fā)展。例如,在分析電影或電視劇時,AI可以更好地理解角色關(guān)系的演變、情節(jié)的轉(zhuǎn)折點以及故事的整體架構(gòu)。這對于自動生成視頻摘要、情節(jié)分析和內(nèi)容分類等任務(wù)尤為重要。

在視頻監(jiān)控和安防領(lǐng)域,長時間的視頻分析至關(guān)重要。配備HoPE的系統(tǒng)能夠在長時間的監(jiān)控視頻中更可靠地檢測異常行為或特定事件,減少虛假警報,提高安全監(jiān)控的效率和準確性。

教育領(lǐng)域也是HoPE的潛在受益者。隨著在線教育和視頻教學(xué)的普及,AI輔助的內(nèi)容理解和導(dǎo)航變得越來越重要。HoPE可以幫助學(xué)習平臺更準確地索引和組織教學(xué)視頻,為學(xué)生提供更精準的內(nèi)容推薦和學(xué)習路徑規(guī)劃。

在醫(yī)療領(lǐng)域,長視頻理解技術(shù)可用于分析手術(shù)錄像、患者監(jiān)護錄像或醫(yī)療教學(xué)視頻。HoPE的進步使AI能夠更準確地理解這些專業(yè)視頻內(nèi)容,為醫(yī)療培訓(xùn)、診斷輔助和手術(shù)技術(shù)改進提供支持。

除了這些直接應(yīng)用,HoPE的理論貢獻也為多模態(tài)AI研究提供了新的方向。研究團隊在論文中指出:"據(jù)我們所知,我們是首次提供不同頻率分配策略如何影響多模態(tài)RoPE性能的理論分析。這些發(fā)現(xiàn)可以進一步用于未來多模態(tài)RoPE變體的設(shè)計和分析。"

盡管HoPE取得了顯著進步,研究團隊也承認了當前的局限性。由于計算資源限制,他們的實驗主要在2B和7B規(guī)模的模型上進行。雖然結(jié)果顯示性能增益會隨著模型規(guī)模增加而提升,但這一趨勢是否能擴展到更大規(guī)模的模型(如13B或72B)仍需進一步驗證。

展望未來,研究團隊計劃在計算資源允許的情況下,將HoPE技術(shù)擴展到更大規(guī)模的模型中。此外,進一步優(yōu)化HoPE以適應(yīng)更多樣的視頻類型和任務(wù),以及探索將其與其他先進技術(shù)(如多模態(tài)混合專家系統(tǒng))結(jié)合的可能性,也是有價值的研究方向。

總的來說,HoPE技術(shù)為視覺語言模型在處理長視頻內(nèi)容方面帶來了重要突破,不僅在技術(shù)上提供了創(chuàng)新解決方案,也為廣泛的實際應(yīng)用打開了新的可能性。隨著技術(shù)的進一步發(fā)展和應(yīng)用的不斷擴展,我們可以期待AI系統(tǒng)在理解和處理視頻內(nèi)容方面取得更大的進步,為用戶提供更智能、更直觀的視頻交互體驗。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-