av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) ReFoCUS:KAIST研究團(tuán)隊(duì)開創(chuàng)視頻理解新方法,讓AI更懂你想問什么

ReFoCUS:KAIST研究團(tuán)隊(duì)開創(chuàng)視頻理解新方法,讓AI更懂你想問什么

2025-06-07 08:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 08:28 ? 科技行者

論文與研究團(tuán)隊(duì)介紹

這項(xiàng)名為"ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding"(基于強(qiáng)化學(xué)習(xí)的幀優(yōu)化技術(shù)提升上下文理解)的研究,由韓國(guó)科學(xué)技術(shù)院(KAIST)集成視覺與語言實(shí)驗(yàn)室的Lee Hosu、Kim Junho、Kim Hyunjun和Ro Yong Man教授共同完成。該研究于2025年6月在arXiv上發(fā)表(arXiv:2506.01274v1),目前正處于審核階段。

研究背景:視頻AI面臨的關(guān)鍵挑戰(zhàn)

想象一下,當(dāng)你觀看一部電影時(shí),并不需要盯著每一幀畫面才能理解劇情。你的大腦會(huì)自動(dòng)選擇關(guān)鍵的場(chǎng)景和時(shí)刻,忽略那些重復(fù)或不重要的部分。然而,現(xiàn)今的視頻人工智能系統(tǒng)在這方面卻遠(yuǎn)不如人類靈活。

近年來,大型多模態(tài)模型(LMMs)在處理圖像和文本方面取得了長(zhǎng)足進(jìn)步,但它們?cè)谝曨l理解領(lǐng)域仍面臨著重大挑戰(zhàn)。就像一個(gè)人如果被要求觀看一部長(zhǎng)達(dá)兩小時(shí)的電影,卻只能隨機(jī)挑選32個(gè)畫面來理解整個(gè)故事情節(jié)一樣,這些模型往往采用簡(jiǎn)單的均勻采樣策略,難以捕捉視頻中復(fù)雜的時(shí)空信息。

"大多數(shù)現(xiàn)有的視頻大語言模型(video-LLMs)如Video-LLaVA和ShareGPT4Video等,通常將視頻簡(jiǎn)單地視為圖像幀序列,而且由于語言模型的上下文長(zhǎng)度限制,它們無法確保模態(tài)間的良好對(duì)齊,尤其是在復(fù)雜或長(zhǎng)篇視頻內(nèi)容中,這導(dǎo)致上下文理解能力不佳,"KAIST的研究團(tuán)隊(duì)解釋道。

雖然一些研究嘗試通過輔助檢索模塊或基于記憶增強(qiáng)的策略來選擇性地提取相關(guān)視頻片段,但這些方法通常難以整合多個(gè)部分線索,限制了它們?cè)谛枰邔哟瓮评淼膱?chǎng)景中的有效性。此外,最近的一些研究也提出了無需訓(xùn)練的搜索算法來選擇信息豐富的幀,但這些幀選擇方法與模型的內(nèi)部推理過程仍然脫節(jié),常常無法捕獲與其語義和時(shí)間焦點(diǎn)對(duì)齊的幀。

ReFoCUS:重新思考視頻理解的基本方法

KAIST的研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的問題:如果我們不是讓AI改進(jìn)它的回答,而是讓它學(xué)會(huì)選擇更好的"視覺證據(jù)"來回答問題呢?這就是ReFoCUS(強(qiáng)化學(xué)習(xí)引導(dǎo)的幀優(yōu)化技術(shù)提升上下文理解)的核心思想。

想象一下,給AI看一段視頻并問:"人在視頻中做了什么?"傳統(tǒng)模型可能會(huì)均勻地采樣一些幀,但如果這些關(guān)鍵動(dòng)作只發(fā)生在特定時(shí)刻,模型很可能會(huì)錯(cuò)過重要信息。ReFoCUS通過強(qiáng)化學(xué)習(xí),訓(xùn)練模型選擇那些對(duì)回答特定問題最有幫助的幀,就像教會(huì)一個(gè)孩子知道在觀看一部電影時(shí)應(yīng)該特別注意哪些關(guān)鍵場(chǎng)景。

與現(xiàn)有的偏好優(yōu)化方法不同,ReFoCUS將策略優(yōu)化從文本響應(yīng)轉(zhuǎn)移到幀選擇過程。傳統(tǒng)方法主要專注于根據(jù)人類偏好或由大語言模型生成的獎(jiǎng)勵(lì)信號(hào)優(yōu)化生成的文本響應(yīng),而ReFoCUS使模型能夠通過選擇為給定用戶查詢提供信息先驗(yàn)的幀來內(nèi)部化其自身對(duì)視覺證據(jù)的偏好。這種創(chuàng)新方法不僅減少了輸入冗余,還通過合成對(duì)齊的空間時(shí)間線索,顯著提升了模型的視頻理解能力。

技術(shù)挑戰(zhàn)與創(chuàng)新解決方案

實(shí)現(xiàn)這一目標(biāo)面臨兩大技術(shù)挑戰(zhàn)。首先,收集幀級(jí)偏好數(shù)據(jù)比收集文本信息要困難得多,因?yàn)樵陂L(zhǎng)視頻中存在組合爆炸問題。其次,視頻內(nèi)容的幀選擇涉及的廣泛搜索空間使強(qiáng)化學(xué)習(xí)優(yōu)化變得復(fù)雜。

對(duì)于第一個(gè)挑戰(zhàn),研究團(tuán)隊(duì)創(chuàng)新性地使用了一個(gè)參考大型多模態(tài)模型(LMM)來評(píng)估采樣的幀子集。這使得他們能夠在候選幀之間進(jìn)行組間相對(duì)獎(jiǎng)勵(lì)建模,并通過有效的優(yōu)勢(shì)函數(shù)引導(dǎo)策略模型進(jìn)行策略優(yōu)化。簡(jiǎn)單來說,就是利用現(xiàn)有的強(qiáng)大AI模型來評(píng)判不同幀組合的好壞,從而為學(xué)習(xí)過程提供指導(dǎo)。

針對(duì)第二個(gè)挑戰(zhàn),他們提出了一種基于自回歸(條件)幀選擇機(jī)制的架構(gòu)設(shè)計(jì)。通過逐步識(shí)別相關(guān)幀(基于之前選擇的幀作為條件),該方法顯著減少了幀搜索開銷,同時(shí)確保了選擇過程的連貫性。這就像教會(huì)AI一步步地構(gòu)建線索鏈,而不是盲目地在海量幀中隨機(jī)選擇。

ReFoCUS的技術(shù)實(shí)現(xiàn)細(xì)節(jié)

ReFoCUS的核心是一個(gè)由兩個(gè)主要組件組成的強(qiáng)化學(xué)習(xí)框架:策略模型和獎(jiǎng)勵(lì)模型。

策略模型接收視頻序列和查詢,并學(xué)習(xí)選擇最能支持上下文理解和推理的幀子集。研究團(tuán)隊(duì)采用了基于Mamba架構(gòu)的輕量級(jí)LMM(Video-MA?mba)來處理長(zhǎng)幀序列。與簡(jiǎn)單采樣固定數(shù)量幀(通常是16或32幀)的方法不同,這使得在策略優(yōu)化期間能夠更廣泛、更精細(xì)地探索幀選擇空間。

而獎(jiǎng)勵(lì)模型則充當(dāng)參考評(píng)估器,為每個(gè)候選幀子集提供學(xué)習(xí)信號(hào)。具體來說,研究團(tuán)隊(duì)使用InternVL3作為獎(jiǎng)勵(lì)模型,利用其在答案預(yù)測(cè)中的置信度來計(jì)算獎(jiǎng)勵(lì)。對(duì)于一個(gè)給定的幀子集,獎(jiǎng)勵(lì)被定義為正確答案和最具競(jìng)爭(zhēng)力的錯(cuò)誤選擇之間的歸一化置信度差異。這種基于邊際的獎(jiǎng)勵(lì)有效地反映了模型在相互競(jìng)爭(zhēng)的選擇之間的殘余不確定性,引導(dǎo)策略偏好那些能夠消除答案歧義的幀子集。

在自回歸幀選擇過程中,策略模型以特殊標(biāo)記開始,并讓模型自回歸地生成一系列潛在輸出。在每一步,先前選擇的幀用作查詢,通過縮放點(diǎn)積注意力機(jī)制對(duì)候選幀嵌入池進(jìn)行注意,從而產(chǎn)生下一幀采樣的概率分布。這個(gè)過程按照條件策略重復(fù),直到選擇了足夠數(shù)量的幀。

實(shí)驗(yàn)結(jié)果與驗(yàn)證

研究團(tuán)隊(duì)在多個(gè)視頻問答基準(zhǔn)測(cè)試上評(píng)估了ReFoCUS的性能,包括Video-MME、LongVideoBench、MLVU和Video-MMMU。結(jié)果表明,整合ReFoCUS框架持續(xù)提升了不同基準(zhǔn)測(cè)試和模型規(guī)模(從輕量級(jí)到標(biāo)準(zhǔn)大?。┑男阅?。

例如,在Video-MME基準(zhǔn)測(cè)試上,為InternVL3-8B模型增加ReFoCUS后,整體性能從64.7%提升到66.0%,其中在"中等長(zhǎng)度"和"長(zhǎng)"視頻子集上的提升尤為顯著(分別從64.7%到66.9%和從53.4%到55.9%)。這表明ReFoCUS在處理包含多個(gè)事件的復(fù)雜場(chǎng)景時(shí)特別有效。

在Video-MMMU基準(zhǔn)測(cè)試上,ReFoCUS增強(qiáng)的模型在"適應(yīng)"任務(wù)中表現(xiàn)出色,證明了所學(xué)習(xí)的幀選擇策略可以支持模型處理復(fù)雜和知識(shí)密集型場(chǎng)景。

為了驗(yàn)證ReFoCUS學(xué)習(xí)的選擇分布是否真正捕獲了語義上有意義的幀,研究團(tuán)隊(duì)對(duì)策略模型預(yù)測(cè)的幀似然進(jìn)行了深入分析。結(jié)果表明,預(yù)測(cè)準(zhǔn)確率隨著使用低似然度幀(實(shí)線)的減少而穩(wěn)步下降,而高似然度子集(虛線)通常優(yōu)于其互補(bǔ)的低似然度對(duì)應(yīng)部分,即使在小樣本空間內(nèi)也能超過基線。這種對(duì)稱結(jié)果證實(shí)了從ReFoCUS中學(xué)習(xí)的幀分布足以回答查詢,表明策略模型已經(jīng)內(nèi)化了與模型行為一致的有用評(píng)分模式。

V-NIAH實(shí)驗(yàn):ReFoCUS能否找到關(guān)鍵證據(jù)?

研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)名為V-NIAH(視覺大海撈針)的精細(xì)分析,以檢驗(yàn)ReFoCUS是否能夠準(zhǔn)確定位任務(wù)相關(guān)的視覺證據(jù)。實(shí)驗(yàn)結(jié)果顯示,均勻采樣策略(如InternVL3-8B)無法捕獲時(shí)間上稀疏但至關(guān)重要的信號(hào)(即"針"幀),因?yàn)樗谡麄€(gè)序列中均勻選擇幀,而不考慮內(nèi)容相關(guān)性。相比之下,基于ReFoCUS的選擇在不同時(shí)間位置上對(duì)真正的"針"幀表現(xiàn)出強(qiáng)烈的集中性,這突顯了ReFoCUS精確定位查詢相關(guān)視覺證據(jù)的能力。

為了驗(yàn)證ReFoCUS不僅僅學(xué)習(xí)了時(shí)間偏向的幀選擇策略,研究團(tuán)隊(duì)分析了不同視頻-查詢對(duì)的選擇分布之間的差異。使用分布度量(JS散度、對(duì)稱KL散度和Wasserstein距離)計(jì)算Video-MME中不同視頻-查詢對(duì)之間的幀選擇分布的成對(duì)距離。結(jié)果表明,無論視頻片段長(zhǎng)度如何,該模型在各對(duì)之間都表現(xiàn)出高度多樣性,表明學(xué)習(xí)的策略根據(jù)查詢語義調(diào)整其選擇策略,而不是依賴一致的時(shí)間先驗(yàn)。

ReFoCUS的局限性與未來發(fā)展方向

盡管ReFoCUS開辟了將策略優(yōu)化從輸出級(jí)文本對(duì)齊轉(zhuǎn)向輸入級(jí)視覺基礎(chǔ)的有趣方向,但仍存在一些局限性。與其他強(qiáng)化學(xué)習(xí)過程一樣,訓(xùn)練涉及相當(dāng)大的計(jì)算成本,需要重復(fù)的自回歸采樣和獎(jiǎng)勵(lì)估計(jì)。此外,學(xué)習(xí)的策略在很大程度上依賴于獎(jiǎng)勵(lì)模型的偏好,如果獎(jiǎng)勵(lì)模型存在次優(yōu)偏好,策略可能會(huì)繼承這些偏好。

然而,ReFoCUS展示了建模輸入級(jí)視覺偏好可以產(chǎn)生語義上信息豐富的幀選擇。研究人員認(rèn)為,未來的工作可以探索更多樣化的獎(jiǎng)勵(lì)形式,以及集成多模態(tài)知識(shí)或人類反饋來進(jìn)一步完善策略。此外,擴(kuò)展這種方法到開放式問答和更長(zhǎng)的視頻內(nèi)容也是有價(jià)值的研究方向。

結(jié)論:重新思考AI如何"看"世界

歸根結(jié)底,ReFoCUS代表了視頻大語言模型的一個(gè)范式轉(zhuǎn)變。傳統(tǒng)方法主要關(guān)注如何提高模型的輸出質(zhì)量,而ReFoCUS則從根本上改變了模型獲取視覺信息的方式,讓AI學(xué)會(huì)選擇對(duì)特定問題最相關(guān)的視覺證據(jù)。

就像一個(gè)優(yōu)秀的偵探知道應(yīng)該關(guān)注犯罪現(xiàn)場(chǎng)的哪些細(xì)節(jié)一樣,配備ReFoCUS的視頻AI能夠在視頻的海量信息中精確定位與用戶查詢相關(guān)的關(guān)鍵幀。這種能力不僅提高了模型的準(zhǔn)確性,還減少了處理冗余信息的計(jì)算負(fù)擔(dān)。

這項(xiàng)研究清晰地表明,未來的視頻理解AI不僅需要知道如何"回答"問題,還需要學(xué)會(huì)如何更智能地"觀看"視頻。對(duì)于關(guān)注AI發(fā)展的普通人來說,這意味著未來的視頻助手將能更精準(zhǔn)地理解您的意圖,并從長(zhǎng)視頻中提取出真正重要的信息,為您節(jié)省時(shí)間和精力。

如果您對(duì)這項(xiàng)研究感興趣,可以通過arXiv:2506.01274v1訪問完整論文,了解更多技術(shù)細(xì)節(jié)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-