av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 看懂視頻異常:VAU-R1如何通過強(qiáng)化學(xué)習(xí)提升異常理解

看懂視頻異常:VAU-R1如何通過強(qiáng)化學(xué)習(xí)提升異常理解

2025-06-05 10:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 10:29 ? 科技行者

在智能城市、安全監(jiān)控和災(zāi)害預(yù)警系統(tǒng)中,快速準(zhǔn)確地理解視頻中的異常事件至關(guān)重要。但是,要讓人工智能系統(tǒng)不僅能發(fā)現(xiàn)"什么地方不對(duì)勁",還能解釋"為什么不對(duì)勁",一直是個(gè)難題。2025年5月,澳大利亞國(guó)立大學(xué)和廣灣大學(xué)的研究團(tuán)隊(duì)(作者包括Liyun Zhu、Qixiang Chen、Xi Shen和Xiaodong Cun)在arXiv上發(fā)表了一篇題為《VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning》的論文,提出了一種全新的解決方案。有興趣的讀者可以通過https://github.com/GVCLab/VAU-R1訪問完整代碼。

想象一下,你是一名安保人員,通過監(jiān)控屏幕觀察商場(chǎng)的情況。突然,你注意到兩個(gè)人在爭(zhēng)吵,這可能只是朋友間的小矛盾,也可能是即將升級(jí)的暴力沖突。僅僅知道"有異常"是不夠的,你需要理解事件的性質(zhì)、可能的原因和發(fā)展趨勢(shì),才能做出正確的反應(yīng)。這正是視頻異常理解(Video Anomaly Understanding,簡(jiǎn)稱VAU)技術(shù)要解決的問題。

傳統(tǒng)的視頻異常檢測(cè)系統(tǒng)就像一個(gè)只會(huì)喊"有狼來了"的牧童,只能告訴你"這里有異常",卻無(wú)法解釋為什么異?;虍惓5木唧w性質(zhì)。而新提出的VAU-R1系統(tǒng)更像一位經(jīng)驗(yàn)豐富的偵探,不僅能發(fā)現(xiàn)異常,還能分析事件發(fā)生的時(shí)間、原因,并給出合理的解釋。

這項(xiàng)研究的創(chuàng)新之處在于,研究團(tuán)隊(duì)不僅開發(fā)了一個(gè)新的模型(VAU-R1),還創(chuàng)建了第一個(gè)專門用于視頻異常理解的綜合基準(zhǔn)數(shù)據(jù)集(VAU-Bench)。這個(gè)數(shù)據(jù)集包含了詳細(xì)的問答對(duì)、時(shí)間標(biāo)注和推理鏈,使得模型能夠?qū)W習(xí)如何像人類一樣思考和解釋視頻中的異常事件。

一、視頻異常理解的新方法:強(qiáng)化學(xué)習(xí)來提升推理能力

想象你在教一個(gè)孩子識(shí)別交通事故。傳統(tǒng)方法相當(dāng)于反復(fù)告訴他"這是事故,這不是事故",希望他自己歸納出規(guī)律。而VAU-R1采用的強(qiáng)化學(xué)習(xí)方法則像是在教學(xué)過程中不斷給予具體反饋:"你看對(duì)了,這確實(shí)是事故,因?yàn)檐囕v碰撞了";"你說的部分對(duì),但時(shí)間點(diǎn)不準(zhǔn)確";"你的解釋很有道理,但還可以更詳細(xì)一些"。

研究團(tuán)隊(duì)使用了一種名為"群組相對(duì)策略優(yōu)化"(Group Relative Policy Optimization,簡(jiǎn)稱GRPO)的強(qiáng)化學(xué)習(xí)方法。這聽起來很復(fù)雜,但其實(shí)原理很簡(jiǎn)單:系統(tǒng)每次生成多個(gè)不同的答案,然后根據(jù)這些答案的質(zhì)量計(jì)算出獎(jiǎng)勵(lì)分?jǐn)?shù),并據(jù)此調(diào)整模型,讓它逐漸學(xué)會(huì)生成更好的答案。

具體來說,這個(gè)過程有點(diǎn)像烹飪比賽。想象一個(gè)廚師(模型)在學(xué)習(xí)如何烹飪一道新菜:

1. 廚師先嘗試做出幾個(gè)版本的菜肴(生成多個(gè)答案) 2. 評(píng)委(獎(jiǎng)勵(lì)系統(tǒng))根據(jù)幾個(gè)方面給每個(gè)菜肴打分:是否遵循食譜(格式正確性)、味道是否符合預(yù)期(準(zhǔn)確性)、擺盤是否精確(時(shí)間標(biāo)注的準(zhǔn)確性) 3. 廚師根據(jù)評(píng)分反饋調(diào)整自己的烹飪方法(更新模型參數(shù)) 4. 不斷重復(fù)這個(gè)過程,廚師的烹飪技能會(huì)越來越好(模型表現(xiàn)不斷提升)

VAU-R1設(shè)計(jì)了三種特定的獎(jiǎng)勵(lì)規(guī)則來引導(dǎo)模型的學(xué)習(xí):

首先是"格式獎(jiǎng)勵(lì)",確保模型的回答符合預(yù)設(shè)的格式。就像你要求孩子在作業(yè)本上畫格子,答案必須寫在格子里一樣,這種規(guī)范能讓后續(xù)的評(píng)估更加方便。

其次是"準(zhǔn)確性獎(jiǎng)勵(lì)",用來評(píng)估模型的答案是否正確。這很好理解,就是檢查答案對(duì)不對(duì)。

最后是"時(shí)間交叉比獎(jiǎng)勵(lì)"(Temporal IoU Reward),這是評(píng)估模型對(duì)異常事件發(fā)生時(shí)間段預(yù)測(cè)準(zhǔn)確度的指標(biāo)。想象你在看一段10分鐘的視頻,模型需要指出"異常發(fā)生在第3分鐘到第5分鐘",這個(gè)獎(jiǎng)勵(lì)就是檢查模型預(yù)測(cè)的時(shí)間段與實(shí)際異常發(fā)生的時(shí)間段有多大的重合。

通過這種方式,VAU-R1能夠同時(shí)提升答案的準(zhǔn)確性、時(shí)間定位的精確度和推理的連貫性,最終實(shí)現(xiàn)對(duì)視頻異常的全面理解。

二、VAU-Bench:首個(gè)視頻異常理解的思維鏈基準(zhǔn)數(shù)據(jù)集

有了好的學(xué)習(xí)方法,還需要好的學(xué)習(xí)材料。就像你需要足夠多樣化的例子才能教會(huì)孩子識(shí)別各種交通事故一樣,人工智能系統(tǒng)也需要大量高質(zhì)量的標(biāo)注數(shù)據(jù)才能學(xué)會(huì)視頻異常理解。

研究團(tuán)隊(duì)構(gòu)建了VAU-Bench基準(zhǔn)數(shù)據(jù)集,這是第一個(gè)專門為視頻異常理解而設(shè)計(jì)的思維鏈(Chain-of-Thought)基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集從三個(gè)公開數(shù)據(jù)集(MSAD、UCF-Crime和ECVA)整合而來,包含4,602個(gè)視頻,涵蓋19種主要異常類型,總時(shí)長(zhǎng)達(dá)169.1小時(shí)。每個(gè)視頻都配有詳細(xì)的文本注釋,平均每個(gè)視頻有337個(gè)單詞的描述,包括詳細(xì)解釋、推理理由和多項(xiàng)選擇題。

這個(gè)數(shù)據(jù)集就像一本詳盡的教科書,不僅告訴你"這是什么",還解釋"為什么是這樣"。例如,對(duì)于一個(gè)偷竊場(chǎng)景,數(shù)據(jù)集不僅標(biāo)注了"這是偷竊行為",還提供了詳細(xì)的分析:"兩個(gè)持槍男子在夜間闖入他人住宅,悠閑地在臥室搜尋物品,就像在超市購(gòu)物一樣。整個(gè)過程被監(jiān)控?cái)z像頭記錄下來。在拿走想要的物品后,兩人離開了住宅。"

VAU-Bench將視頻異常理解任務(wù)分解為四個(gè)階段:

第一階段是"感知",模型需要識(shí)別場(chǎng)景和相關(guān)物體,可以通過自由文本描述或引導(dǎo)式多項(xiàng)選擇題來實(shí)現(xiàn)。比如:"視頻中最明顯的異常跡象是什么?A.顧客與收銀員爭(zhēng)吵;B.超市環(huán)境中的突然破壞和混亂;C.入口附近起火;D.員工意外將現(xiàn)金掉在地上。"

第二階段是"定位",模型需要精確定位異常發(fā)生的時(shí)間段。例如,模型需要回答:"視頻中是否有異常?如果有,請(qǐng)回答'異常'并給出精確的異常時(shí)間段。如果沒有,請(qǐng)回答'正常'。"

第三階段是"推理",模型需要通過分析因果因素、時(shí)間動(dòng)態(tài)和上下文線索來解釋事件。比如:"請(qǐng)解釋為什么會(huì)發(fā)生異常。"模型需要生成類似"異常發(fā)生是因?yàn)閵W特曼和怪獸在超市中意外相撞,用混亂、不合時(shí)宜的戰(zhàn)斗行為打擾了正常環(huán)境"這樣的解釋。

第四階段是"結(jié)論",模型需要總結(jié)事件并做出最終判斷,如將事件歸類為特定類別(如打架與搶劫)。例如:"視頻中存在什么類型的異常?如果沒有異常,請(qǐng)回答'正常'。"

通過這四個(gè)階段的分解,VAU-Bench為模型提供了一個(gè)清晰的學(xué)習(xí)框架,使其能夠逐步建立對(duì)視頻異常的全面理解。

三、VAU-R1的優(yōu)越性:比較與實(shí)驗(yàn)結(jié)果

那么,VAU-R1的表現(xiàn)如何呢?研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn),比較了VAU-R1與現(xiàn)有方法在多項(xiàng)任務(wù)上的表現(xiàn)。

在多項(xiàng)選擇題任務(wù)中,VAU-R1在MSAD數(shù)據(jù)集上實(shí)現(xiàn)了87.08%的準(zhǔn)確率(使用思維鏈),比基線模型提高了4.58%。在UCF-Crime數(shù)據(jù)集上,其準(zhǔn)確率達(dá)到91.63%,提高了8.36%。這意味著,當(dāng)面對(duì)"視頻中最明顯的異常跡象是什么?"這類問題時(shí),VAU-R1能夠更準(zhǔn)確地選出正確答案。

在時(shí)間異常定位任務(wù)中,VAU-R1在MSAD數(shù)據(jù)集上將平均交叉比(mIoU)提高到30.70%,在ECVA數(shù)據(jù)集上提高到33.25%。這表明,當(dāng)被問到"異常發(fā)生在什么時(shí)間段?"時(shí),VAU-R1能夠更精確地指出異常事件的開始和結(jié)束時(shí)間。

更重要的是,VAU-R1展示了出色的泛化能力。在跨數(shù)據(jù)集評(píng)估中(例如,在UCF-Crime數(shù)據(jù)集上作為分布外測(cè)試),VAU-R1保持了強(qiáng)大的性能,而傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法表現(xiàn)出有限的泛化能力。這就像一個(gè)在北京學(xué)會(huì)識(shí)別交通事故的系統(tǒng),也能在上海正確識(shí)別交通事故,展示了真正的理解能力而非簡(jiǎn)單記憶。

此外,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為VAU-Eval的評(píng)估指標(biāo),用于評(píng)估模型生成的異常推理質(zhì)量。VAU-Eval使用DeepSeek-V3大型語(yǔ)言模型作為評(píng)判,從五個(gè)維度評(píng)估推理質(zhì)量:分類準(zhǔn)確性、關(guān)鍵概念對(duì)齊、語(yǔ)言流暢性、信息豐富性和事實(shí)一致性。在這一評(píng)估中,VAU-R1在MSAD數(shù)據(jù)集上獲得了33.38分(滿分50分),在UCF-Crime數(shù)據(jù)集上獲得了25.49分,遠(yuǎn)高于傳統(tǒng)方法。

有趣的是,研究還發(fā)現(xiàn),不同任務(wù)之間存在互補(bǔ)效應(yīng)。例如,時(shí)間異常定位(TAG)任務(wù)對(duì)異常分類任務(wù)有顯著幫助,使用TAG訓(xùn)練的模型在思維鏈設(shè)置下實(shí)現(xiàn)了74.14%的二分類準(zhǔn)確率和46.14%的多分類準(zhǔn)確率。這表明,了解"異常發(fā)生在什么時(shí)候"有助于判斷"這是什么類型的異常"。

四、案例研究:VAU-R1的實(shí)際效果

為了更直觀地理解VAU-R1的效果,讓我們看幾個(gè)具體例子。

在多項(xiàng)選擇題任務(wù)中,當(dāng)被問到"視頻中草地上躺著的人最可能的解釋是什么?"時(shí),傳統(tǒng)的監(jiān)督微調(diào)(SFT)模型錯(cuò)誤地選擇了"正?;顒?dòng)"的解釋,基于表面線索。而VAU-R1則正確地推斷出這是一個(gè)人摔倒的異常,通過識(shí)別姿勢(shì)和行為不規(guī)則性。這就像一個(gè)經(jīng)驗(yàn)豐富的保安能看出一個(gè)人是在草地上休息,還是因?yàn)橥话l(fā)疾病倒下需要幫助。

在時(shí)間異常定位任務(wù)中,當(dāng)被要求指出視頻中異常的時(shí)間段時(shí),SFT模型只能輸出一個(gè)粗略的時(shí)間范圍(0.0-30.0秒),沒有提供理由。而VAU-R1不僅能更精確地定位異常(0.0-13.6秒),還提供了可解釋的因果鏈:"涉及一個(gè)高大的圓柱形結(jié)構(gòu)...處于各種倒塌或破壞狀態(tài)...從視頻開始直到結(jié)構(gòu)完全倒塌。"這就像一個(gè)專業(yè)調(diào)查員不僅能告訴你事故發(fā)生的確切時(shí)間,還能解釋事故的整個(gè)過程。

在異常推理任務(wù)中,當(dāng)被要求解釋視頻中是否發(fā)生異常時(shí),SFT模型錯(cuò)誤地將場(chǎng)景描述為"政治爭(zhēng)論",而實(shí)際上是自動(dòng)扶梯故障。它也未能提及任何關(guān)鍵視覺證據(jù)或相關(guān)位置。相比之下,VAU-R1生成了更符合上下文的回答,識(shí)別出地鐵站中的緊急情況,包括受傷人員和緊急車輛。盡管回答更多關(guān)注表面級(jí)別的緊急情況而非根本原因,但它展示了更好的流暢性和相關(guān)性。

這些例子清晰地展示了VAU-R1的優(yōu)勢(shì):它能夠進(jìn)行更深入的推理,提供更準(zhǔn)確的時(shí)間定位,并生成更合理、更連貫的解釋。

五、VAU-R1的局限性與未來方向

盡管VAU-R1取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了其局限性。

首先,當(dāng)前研究主要關(guān)注了多項(xiàng)選擇題回答、時(shí)間定位、異常推理和異常分類四項(xiàng)任務(wù),雖然這些任務(wù)為視頻異常理解奠定了堅(jiān)實(shí)基礎(chǔ),但仍有擴(kuò)展空間。未來工作可以納入空間定位等額外任務(wù),實(shí)現(xiàn)更精細(xì)的事件理解。例如,不僅知道"什么時(shí)候發(fā)生了搶劫",還能準(zhǔn)確指出"誰(shuí)是搶劫者,他站在哪里,拿走了什么物品"。

其次,當(dāng)前的方法專注于視覺信息,但在實(shí)際應(yīng)用中,音頻等其他模態(tài)可能提供補(bǔ)充線索。想象一下,在一個(gè)搶劫場(chǎng)景中,尖叫聲或破碎聲可能是重要的異常指標(biāo)。未來的研究可以整合這些多模態(tài)信號(hào),構(gòu)建更全面的異常理解框架。

研究團(tuán)隊(duì)還發(fā)現(xiàn),思維鏈(Chain-of-Thought)推理并不總是能提高視覺理解任務(wù)的性能。與數(shù)學(xué)或邏輯任務(wù)不同,視覺理解涉及固有多樣化的推理路徑。因此,設(shè)計(jì)更簡(jiǎn)單的子任務(wù)和明確定義的獎(jiǎng)勵(lì)信號(hào)來有效引導(dǎo)推理仍有待探索。直接應(yīng)用復(fù)雜任務(wù)(如多分類異常分類)而不進(jìn)行任務(wù)協(xié)同訓(xùn)練往往會(huì)導(dǎo)致次優(yōu)結(jié)果。

總的來說,VAU-R1開創(chuàng)了視頻異常理解的新篇章,但要實(shí)現(xiàn)真正的人類水平理解,還有很長(zhǎng)的路要走。

六、研究的潛在影響與應(yīng)用

VAU-R1的研究不僅推進(jìn)了學(xué)術(shù)前沿,還有廣泛的實(shí)際應(yīng)用前景。

在智能城市和公共安全領(lǐng)域,準(zhǔn)確、可解釋的異常理解系統(tǒng)可以協(xié)助監(jiān)控人員更快地識(shí)別潛在威脅,減少誤報(bào),提高響應(yīng)效率。例如,在擁擠的火車站,系統(tǒng)可以區(qū)分正常的人群擁擠和可能導(dǎo)致踩踏事故的異常擁擠,并解釋其判斷依據(jù)。

在醫(yī)療監(jiān)護(hù)領(lǐng)域,VAU-R1類似的系統(tǒng)可以監(jiān)測(cè)病人的異常行為,如摔倒或癲癇發(fā)作,并提供詳細(xì)的事件描述,幫助醫(yī)護(hù)人員做出更準(zhǔn)確的診斷和治療決策。

在自動(dòng)駕駛領(lǐng)域,理解道路上的異常事件(如交通事故、道路阻塞)對(duì)于安全導(dǎo)航至關(guān)重要。VAU-R1的方法可以幫助自動(dòng)駕駛系統(tǒng)不僅檢測(cè)到異常,還能理解其性質(zhì)和潛在風(fēng)險(xiǎn)。

在災(zāi)害預(yù)警系統(tǒng)中,能夠理解和解釋異常事件(如火災(zāi)、洪水)的系統(tǒng)可以提供更有價(jià)值的預(yù)警信息,幫助相關(guān)部門做出更有效的應(yīng)對(duì)措施。

最重要的是,VAU-R1的可解釋性使其成為人類-AI協(xié)作的理想工具。與其僅僅告訴人類操作員"檢測(cè)到異常",VAU-R1類似的系統(tǒng)可以提供詳細(xì)的解釋:"在超市的第三走道檢測(cè)到搶劫行為,因?yàn)橐粋€(gè)戴口罩的人正在威脅收銀員,可能持有武器,時(shí)間是13:45到13:47。"這種詳細(xì)信息使人類能夠做出更明智的決策。

七、總結(jié)與展望

"看得見"和"看得懂"是兩個(gè)截然不同的能力層次。VAU-R1研究團(tuán)隊(duì)通過結(jié)合強(qiáng)化學(xué)習(xí)和多模態(tài)大型語(yǔ)言模型,成功地將視頻異常檢測(cè)提升到了理解的層次。

通過引入VAU-R1框架和VAU-Bench基準(zhǔn)數(shù)據(jù)集,研究團(tuán)隊(duì)為視頻異常理解領(lǐng)域提供了堅(jiān)實(shí)的基礎(chǔ)。VAU-R1在準(zhǔn)確率、時(shí)間定位和推理連貫性方面的表現(xiàn)都明顯優(yōu)于傳統(tǒng)方法,特別是在跨數(shù)據(jù)集泛化能力上展現(xiàn)出色表現(xiàn)。

未來的研究方向包括整合更多模態(tài)信息、擴(kuò)展到更復(fù)雜的任務(wù)、設(shè)計(jì)更有效的推理獎(jiǎng)勵(lì)信號(hào),以及探索更強(qiáng)大的多步推理框架。隨著這些進(jìn)展,我們有理由期待未來的視頻監(jiān)控系統(tǒng)不僅能告訴我們"發(fā)生了什么",還能解釋"為什么發(fā)生"以及"可能會(huì)怎樣發(fā)展"。

對(duì)于普通人來說,這項(xiàng)研究意味著未來的安全系統(tǒng)將變得更加智能和人性化。它們不僅能夠檢測(cè)潛在威脅,還能提供清晰的解釋,幫助我們更好地理解和應(yīng)對(duì)復(fù)雜的安全情境。在一個(gè)越來越依賴自動(dòng)化系統(tǒng)的世界里,像VAU-R1這樣兼具高性能和可解釋性的技術(shù),將成為連接人工智能和人類理解的重要橋梁。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-