這項由香港城市大學(xué)計算機科學(xué)系楊在權(quán)、劉宇豪、Gerhard Hancke和劉潤恒教授領(lǐng)導(dǎo)的研究發(fā)表于2025年9月,論文題為"Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding"。有興趣深入了解的讀者可以通過GitHub代碼庫https://github.com/zaiquanyang/LLaVA_Next_STVG訪問相關(guān)資源。
當(dāng)我們看電影時,能夠輕松地在銀幕上找到某個特定角色,比如"穿紅衣服的女人"或"正在坐下然后轉(zhuǎn)頭的男人"。但對于計算機來說,這種看似簡單的任務(wù)卻異常困難。計算機需要在視頻的茫茫人海中,既要準(zhǔn)確找到目標(biāo)在畫面中的位置,又要精確判斷動作發(fā)生的時間段。這就像是讓一個偵探在監(jiān)控錄像中尋找嫌疑人一樣復(fù)雜。
研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:現(xiàn)在流行的多模態(tài)大語言模型(比如ChatGPT的視覺版本)其實具備著驚人的"偵探直覺"。這些AI模型在處理視頻和文字時,會自動分配一些特殊的"注意力標(biāo)記",就像偵探在案件中標(biāo)注重要線索一樣。這些標(biāo)記能夠精準(zhǔn)地指向視頻中與文字描述相關(guān)的區(qū)域,仿佛擁有了一雙慧眼。
然而,這些AI偵探也有自己的盲點。當(dāng)面對復(fù)雜的案件描述時,它們往往會忽略一些關(guān)鍵信息。比如,當(dāng)要求找"左邊那個穿橙色衣服的男人坐下然后轉(zhuǎn)頭"時,AI可能會專注于"坐下"這個動作,卻忽略了"左邊"和"橙色衣服"這些重要的身份特征,導(dǎo)致找錯了人。
針對這個問題,研究團隊開發(fā)了一套全新的"偵探訓(xùn)練法"。他們將復(fù)雜的線索分解成兩個部分:外貌特征線索(比如"穿紅衣服的女人")和行為線索(比如"走幾步然后轉(zhuǎn)身")。就像訓(xùn)練偵探分別練習(xí)觀察外貌特征和行為模式一樣,這種方法讓AI能夠更全面地分析每一條線索。
一、破解AI視覺偵探的工作機制
為了理解AI是如何進行視頻偵探工作的,研究團隊深入分析了多個知名的AI模型,包括LLaVA-1.5、Qwen-VL等。他們發(fā)現(xiàn)了一個令人驚喜的秘密:這些AI模型在處理任務(wù)時,會自動產(chǎn)生一些特殊的"偵探標(biāo)記"。
這些標(biāo)記就像偵探在現(xiàn)場留下的小紙條,指向最有可能的證據(jù)位置。研究人員通過分析1000個圖像-文字對和1000個視頻-文字對,發(fā)現(xiàn)了一個重要規(guī)律:視覺激活度最高的標(biāo)記往往具有最強的定位能力。簡單說,就是AI越關(guān)注某個標(biāo)記,這個標(biāo)記指向正確目標(biāo)的可能性就越大。
更有趣的是,不同的AI模型使用不同的標(biāo)記策略。有些模型喜歡用"_A"標(biāo)記來標(biāo)注重要對象,有些則偏愛"IST"標(biāo)記。這就像不同的偵探有自己獨特的工作習(xí)慣一樣。研究團隊發(fā)現(xiàn),沒有任何一個固定的標(biāo)記能在所有情況下都表現(xiàn)最佳,這說明AI具有動態(tài)調(diào)整策略的能力。
通過大量實驗,研究人員確認了一個關(guān)鍵發(fā)現(xiàn):當(dāng)AI處理視頻時,注意力最集中的標(biāo)記通常指向最準(zhǔn)確的目標(biāo)位置。這為后續(xù)的方法改進提供了重要的理論基礎(chǔ)。
二、分解復(fù)雜案件的偵探策略
傳統(tǒng)的AI偵探在處理復(fù)雜案件時容易"顧此失彼"。當(dāng)描述變得復(fù)雜時,比如"左邊那個穿橙色衣服的男人坐下然后向左轉(zhuǎn)頭",AI往往會被某一個線索吸引,而忽略其他同樣重要的信息。
研究團隊提出了一個革命性的解決方案:將復(fù)雜案件分解成多個簡單的子案件。他們開發(fā)了一種叫做"分解式時空突出"(DSTH)的策略,就像把一個復(fù)雜的案件分解成"尋找嫌疑人身份特征"和"分析嫌疑人行為模式"兩個獨立的調(diào)查任務(wù)。
具體來說,原始的描述"左邊那個穿橙色衣服的男人坐下然后向左轉(zhuǎn)頭"會被智能分解成兩個子問題:空間子問題"視頻中是否有一個左邊穿橙色衣服的男人?"和時間子問題"是否有人坐下然后向左轉(zhuǎn)頭?"這種分解讓AI能夠分別專注于空間定位和時間定位,大大提高了準(zhǔn)確性。
為了實現(xiàn)這種分解,研究團隊巧妙地利用了大語言模型的上下文理解能力。他們設(shè)計了專門的提示模板,讓AI自動從原始描述中提取屬性信息和動作信息。這個過程就像有經(jīng)驗的偵探能夠快速從案件描述中提取關(guān)鍵線索一樣。
分解完成后,研究團隊又開發(fā)了一個叫做"邏輯引導(dǎo)重注意"(LRA)的模塊。這個模塊的工作原理很巧妙:它會針對每個子問題優(yōu)化AI的注意力分配,確保AI在回答"是否存在某個特征的人"時,真正關(guān)注到相關(guān)的視覺區(qū)域。
三、訓(xùn)練AI偵探的注意力機制
研究團隊發(fā)現(xiàn),僅僅分解問題還不夠,還需要訓(xùn)練AI如何正確分配注意力。他們開發(fā)的邏輯引導(dǎo)重注意模塊就像是給偵探配備了一副特殊的眼鏡,讓他們能夠更清楚地看到重要細節(jié)。
這個訓(xùn)練過程采用了一種對比學(xué)習(xí)的方法。當(dāng)AI被問到"視頻中是否有穿紅衣服的女人"時,系統(tǒng)會同時考慮"是"和"否"兩種回答的可能性。如果AI能夠給出正確的"是"答案,系統(tǒng)就會獎勵當(dāng)前的注意力分配模式;如果答案錯誤,系統(tǒng)就會調(diào)整注意力,讓AI更關(guān)注真正相關(guān)的視覺區(qū)域。
這個過程通過測試時調(diào)優(yōu)來實現(xiàn),不需要額外的訓(xùn)練數(shù)據(jù)。研究團隊設(shè)計了可學(xué)習(xí)的視覺提示變量,這些變量會在推理過程中不斷調(diào)整,直到AI能夠準(zhǔn)確識別目標(biāo)。整個過程就像一個偵探在現(xiàn)場不斷調(diào)整觀察角度,直到找到最佳的觀察位置。
為了進一步提高空間定位的準(zhǔn)確性,研究團隊還開發(fā)了"時間增強組裝"(TAS)策略。這個策略的核心思想是利用時間一致性來驗證空間定位結(jié)果。如果一個人的屬性特征是靜態(tài)的(比如衣服顏色),那么無論視頻幀的順序如何,AI都應(yīng)該能夠在相同的位置找到這個人。
四、突破性實驗結(jié)果與實際應(yīng)用
研究團隊在三個權(quán)威數(shù)據(jù)集上測試了他們的方法:HC-STVGv1、HC-STVGv2和VidSTG。實驗結(jié)果令人振奮,新方法在所有測試中都顯著超越了現(xiàn)有的最先進方法。
在HC-STVGv1數(shù)據(jù)集上,使用LLaVA-OneVision-7B模型時,新方法的平均視頻交并比(m_vIoU)達到了24.8%,比之前的最好結(jié)果19.1%提升了5.7個百分點。這相當(dāng)于在100個案件中,新方法能夠多解決5-6個復(fù)雜案件。
更令人驚喜的是,這種零樣本方法(不需要專門訓(xùn)練)的性能甚至能夠與一些需要大量標(biāo)注數(shù)據(jù)的弱監(jiān)督方法相媲美。在某些指標(biāo)上,新方法甚至超越了需要完整監(jiān)督的傳統(tǒng)方法,這在該領(lǐng)域是一個重大突破。
研究團隊還進行了詳細的組件分析實驗。他們發(fā)現(xiàn),僅僅識別正確的注意力標(biāo)記就能帶來顯著的性能提升。當(dāng)加入分解式時空突出策略后,性能進一步提升。而時間增強組裝策略則為整體性能錦上添花,特別是在處理時間一致性要求較高的任務(wù)時效果顯著。
實驗還揭示了一個有趣的現(xiàn)象:AI模型的基礎(chǔ)能力越強,新方法帶來的提升越明顯。這說明該方法能夠有效地釋放高性能AI模型的潛力,讓它們在視頻理解任務(wù)中發(fā)揮更大的作用。
五、解決技術(shù)挑戰(zhàn)與局限性
盡管取得了顯著成果,研究團隊也誠實地指出了當(dāng)前方法的一些局限性。最主要的挑戰(zhàn)是計算資源消耗。由于多模態(tài)大語言模型本身就需要大量計算資源,而新方法需要在推理過程中進行多次優(yōu)化迭代,這進一步增加了計算負擔(dān)。
對于超長視頻的處理是另一個挑戰(zhàn)。當(dāng)視頻長度超過幾分鐘時,AI需要處理的視覺信息急劇增加,可能導(dǎo)致性能下降或計算超時。研究團隊建議未來的工作可以考慮引入關(guān)鍵幀選擇技術(shù)或視覺標(biāo)記壓縮方法來解決這個問題。
研究團隊還發(fā)現(xiàn),當(dāng)文本描述過于模糊或包含歧義時,即使是改進后的方法也可能出現(xiàn)誤判。比如,"那個人"這樣的描述缺乏足夠的特征信息,AI很難準(zhǔn)確定位。這提醒我們,AI的能力雖然在快速提升,但仍然依賴于清晰、具體的輸入信息。
另外,現(xiàn)有的對象跟蹤技術(shù)的準(zhǔn)確性也會影響最終結(jié)果。研究團隊使用了目前最先進的SAM2跟蹤模型,但當(dāng)視頻中出現(xiàn)嚴重遮擋、快速運動或光線變化時,跟蹤精度的下降會直接影響最終的定位效果。
六、實際應(yīng)用前景與未來發(fā)展
這項研究的應(yīng)用前景非常廣闊,幾乎涉及所有需要視頻分析的領(lǐng)域。在安防監(jiān)控方面,新方法能夠幫助快速定位可疑人員或異常行為。工作人員只需要輸入"穿黑色外套的男人在ATM機前停留超過2分鐘",系統(tǒng)就能自動在海量監(jiān)控錄像中找到相關(guān)片段。
在體育分析領(lǐng)域,教練和分析師可以使用自然語言來查找特定的比賽片段。比如,"10號球員在禁區(qū)內(nèi)接球后轉(zhuǎn)身射門"這樣的描述,系統(tǒng)能夠快速定位到相關(guān)的比賽時刻,大大提高分析效率。
對于內(nèi)容創(chuàng)作者和視頻編輯者來說,這項技術(shù)能夠顯著簡化素材管理工作。當(dāng)需要從大量拍攝素材中找到特定鏡頭時,創(chuàng)作者只需要用自然語言描述想要的內(nèi)容,而不需要手動瀏覽每一個視頻文件。
在教育領(lǐng)域,這項技術(shù)可以用于智能化的視頻課程檢索。學(xué)生可以通過描述想要學(xué)習(xí)的具體內(nèi)容來快速定位到相關(guān)的課程片段,提高學(xué)習(xí)效率。
研究團隊指出,隨著多模態(tài)大語言模型的持續(xù)發(fā)展,這種零樣本視頻理解能力還有很大的提升空間。未來的研究方向包括提高計算效率、增強對長視頻的處理能力,以及改進對模糊描述的理解能力。
更重要的是,這項研究為其他視頻理解任務(wù)提供了新的思路。類似的分解策略和注意力優(yōu)化方法可能也適用于視頻問答、視頻摘要等其他任務(wù),有望推動整個視頻理解領(lǐng)域的發(fā)展。
七、技術(shù)創(chuàng)新的深層意義
這項研究的真正價值不僅在于性能的提升,更在于它揭示了AI理解視頻內(nèi)容的全新可能性。傳統(tǒng)方法通常需要大量的標(biāo)注數(shù)據(jù)來訓(xùn)練專門的模型,而這項研究證明了通用的多模態(tài)大語言模型本身就蘊含著強大的視頻理解能力,關(guān)鍵是如何正確地激發(fā)這些能力。
研究團隊發(fā)現(xiàn)的"動態(tài)注意力標(biāo)記"現(xiàn)象具有重要的理論意義。這表明AI模型在處理多模態(tài)信息時,會自發(fā)地形成一種內(nèi)在的對應(yīng)機制,將文本中的概念映射到視覺區(qū)域。這種機制的存在為我們理解AI的工作原理提供了新的視角。
分解式處理策略也體現(xiàn)了一個重要的認知科學(xué)原理:復(fù)雜任務(wù)可以通過分解為簡單子任務(wù)來更好地解決。這不僅適用于AI系統(tǒng),也為人類學(xué)習(xí)和問題解決提供了啟示。當(dāng)我們面對復(fù)雜問題時,將其分解為更具體、更明確的子問題往往能帶來更好的解決方案。
邏輯引導(dǎo)重注意機制的成功也說明了一個重要道理:AI的能力需要通過恰當(dāng)?shù)囊龑?dǎo)才能充分發(fā)揮。這就像一個有才華的學(xué)生需要好老師的指導(dǎo)才能發(fā)揮潛力一樣。這為未來AI系統(tǒng)的設(shè)計提供了重要思路:不僅要關(guān)注模型的基礎(chǔ)能力,更要關(guān)注如何有效地引導(dǎo)和優(yōu)化這些能力。
結(jié)論部分,這項由香港城市大學(xué)團隊完成的研究為AI視頻理解領(lǐng)域帶來了一次重要突破。他們巧妙地將復(fù)雜的視頻定位問題轉(zhuǎn)化為AI模型能夠更好處理的形式,通過分解、引導(dǎo)和優(yōu)化的策略,讓通用AI模型在專門任務(wù)上展現(xiàn)出了驚人的能力。
說到底,這項研究最大的貢獻是證明了我們不一定需要為每個具體任務(wù)都從頭開始訓(xùn)練專門的AI模型。通過聰明的方法設(shè)計,我們可以讓已有的強大AI模型承擔(dān)更多樣化的工作。這不僅節(jié)省了大量的計算資源和標(biāo)注成本,也為AI技術(shù)的普及應(yīng)用開辟了新的道路。
對于普通人來說,這意味著未來我們與AI交互會變得更加自然和直觀。不再需要學(xué)習(xí)復(fù)雜的操作界面或特殊的命令格式,僅僅通過自然語言描述,AI就能理解我們的需求并完成相應(yīng)的視頻分析任務(wù)。這將讓AI技術(shù)真正走進千家萬戶,成為日常生活的得力助手。
當(dāng)然,技術(shù)的發(fā)展總是伴隨著新的挑戰(zhàn)。如何在保持準(zhǔn)確性的同時提高效率,如何處理更加復(fù)雜和模糊的真實場景,這些都是需要繼續(xù)探索的方向。但毫無疑問,這項研究為我們展示了一個充滿可能性的未來圖景。
有興趣深入了解這項研究技術(shù)細節(jié)的讀者,可以訪問研究團隊在GitHub上開源的代碼庫,親自體驗這種全新的視頻理解技術(shù)。隨著更多研究者的參與和改進,相信這項技術(shù)很快就會在實際應(yīng)用中發(fā)揮重要作用。
Q&A
Q1:什么是零樣本時空視頻定位?它和傳統(tǒng)方法有什么不同?
A:零樣本時空視頻定位是指AI模型不需要專門訓(xùn)練就能在視頻中找到文字描述的目標(biāo)對象和動作時間段。傳統(tǒng)方法需要大量標(biāo)注數(shù)據(jù)來訓(xùn)練專門模型,而零樣本方法直接利用通用AI模型的理解能力,就像讓一個聰明人直接看視頻找人,而不需要事先練習(xí)成千上萬個類似案例。
Q2:這種AI視頻理解技術(shù)現(xiàn)在可以實際使用嗎?
A:目前這項技術(shù)還處于研究階段,研究團隊已經(jīng)在GitHub上開源了相關(guān)代碼,技術(shù)人員可以下載使用。但對于普通用戶來說,還需要等待進一步的產(chǎn)品化開發(fā)。不過研究結(jié)果表明這種方法已經(jīng)達到了實用化的準(zhǔn)確性標(biāo)準(zhǔn)。
Q3:分解式時空突出策略是如何提高AI準(zhǔn)確性的?
A:這個策略將復(fù)雜的視頻描述分解成外貌特征和行為動作兩個部分,讓AI分別處理。比如"穿紅衣服的女人走路"會被分解為"是否有穿紅衣服的女人"和"是否有人在走路"兩個問題。這樣AI就不會因為同時處理多個信息而出錯,類似于讓偵探先確認嫌疑人身份,再分析行為模式。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。