av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 清華大學(xué)發(fā)現(xiàn):當(dāng)前頂級(jí)AI視頻模型連"跳躍"都看不懂!MotionBench揭示視頻理解盲區(qū)

清華大學(xué)發(fā)現(xiàn):當(dāng)前頂級(jí)AI視頻模型連"跳躍"都看不懂!MotionBench揭示視頻理解盲區(qū)

2025-09-16 10:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-16 10:31 ? 科技行者

這項(xiàng)由清華大學(xué)洪文軼、程燁安等研究者與智譜AI團(tuán)隊(duì)合作完成的研究,發(fā)表于2025年1月6日的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2501.02955v1),有興趣深入了解的讀者可以通過(guò)論文標(biāo)題"MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models"搜索獲取完整論文。

你是否曾經(jīng)好奇,那些能夠描述視頻內(nèi)容、回答視頻問(wèn)題的AI模型,究竟能多準(zhǔn)確地"看懂"視頻?當(dāng)我們看到一個(gè)人跳躍、兩個(gè)棒球運(yùn)動(dòng)員在空中相撞慶祝時(shí),這些看似簡(jiǎn)單的動(dòng)作,對(duì)于目前最先進(jìn)的AI視頻理解模型來(lái)說(shuō),居然是極大的挑戰(zhàn)。清華大學(xué)的研究團(tuán)隊(duì)通過(guò)一項(xiàng)突破性研究發(fā)現(xiàn),即使是GPT-4o、Qwen2-VL這樣的頂級(jí)模型,在理解視頻中的精細(xì)動(dòng)作時(shí),準(zhǔn)確率竟然連60%都達(dá)不到。

這個(gè)發(fā)現(xiàn)讓人意外,因?yàn)槲覀兤綍r(shí)看到的AI視頻分析似乎已經(jīng)相當(dāng)出色。研究團(tuán)隊(duì)深入分析后發(fā)現(xiàn),現(xiàn)有的視頻理解評(píng)估體系存在一個(gè)巨大的盲區(qū)——幾乎所有現(xiàn)存的視頻評(píng)估基準(zhǔn)都專注于故事情節(jié)理解和事件識(shí)別,卻忽略了最基礎(chǔ)的動(dòng)作層面理解。就像我們?cè)u(píng)估一個(gè)人的閱讀能力時(shí),只測(cè)試他能否理解整本書(shū)的主題思想,卻從未測(cè)試過(guò)他是否認(rèn)識(shí)每個(gè)字一樣。

為了填補(bǔ)這個(gè)關(guān)鍵空白,研究團(tuán)隊(duì)開(kāi)發(fā)了MotionBench——一個(gè)專門測(cè)試AI模型精細(xì)動(dòng)作理解能力的全新評(píng)估體系。這套評(píng)估系統(tǒng)包含了8052個(gè)精心設(shè)計(jì)的問(wèn)答對(duì),覆蓋5385個(gè)視頻片段,這些視頻來(lái)源極其豐富:從網(wǎng)絡(luò)平臺(tái)Pexels和Panda-70M數(shù)據(jù)集收集的日常生活視頻、從MedVid醫(yī)學(xué)視頻數(shù)據(jù)庫(kù)獲取的醫(yī)療教學(xué)片段、從SportsSloMo獲得的體育慢鏡頭、從Ha-ViD收集的工業(yè)場(chǎng)景視頻,甚至包括研究團(tuán)隊(duì)使用Unity引擎專門制作的虛擬場(chǎng)景視頻。

MotionBench的評(píng)估維度設(shè)計(jì)得極其精巧,涵蓋了六個(gè)關(guān)鍵的動(dòng)作理解類別。第一類是動(dòng)作識(shí)別,測(cè)試模型能否準(zhǔn)確識(shí)別視頻中出現(xiàn)的具體動(dòng)作類型。第二類是位置相關(guān)動(dòng)作,檢驗(yàn)?zāi)P褪欠衲芾斫馕矬w或人物在空間中的移動(dòng)軌跡和位置變化。第三類是動(dòng)作順序,評(píng)估模型能否正確理解復(fù)雜動(dòng)作的先后順序。第四類是重復(fù)計(jì)數(shù),這可能是最困難的一類,要求模型準(zhǔn)確計(jì)算某個(gè)動(dòng)作重復(fù)了多少次。第五類是動(dòng)作相關(guān)物體,測(cè)試模型能否識(shí)別參與動(dòng)作的小物件。第六類是攝像機(jī)運(yùn)動(dòng),評(píng)估模型對(duì)鏡頭移動(dòng)的理解能力。

當(dāng)研究團(tuán)隊(duì)用這套評(píng)估體系測(cè)試當(dāng)前最先進(jìn)的視頻理解模型時(shí),結(jié)果令人震驚。即使是業(yè)界公認(rèn)表現(xiàn)最好的Qwen2-VL-72B模型,在MotionBench上的綜合表現(xiàn)也僅達(dá)到58%的準(zhǔn)確率。更令人擔(dān)憂的是,在重復(fù)計(jì)數(shù)這個(gè)類別中,幾乎所有模型的表現(xiàn)都接近隨機(jī)猜測(cè)的水平,準(zhǔn)確率徘徊在25%左右。這意味著當(dāng)你問(wèn)一個(gè)AI"視頻中的人跳了幾次"時(shí),它的回答可能還不如拋硬幣來(lái)得準(zhǔn)確。

為了深入理解這個(gè)問(wèn)題的根源,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)分析。他們發(fā)現(xiàn),精細(xì)動(dòng)作理解的困難主要來(lái)自兩個(gè)方面。首先是技術(shù)限制:要準(zhǔn)確捕捉動(dòng)作細(xì)節(jié)需要高幀率的視頻輸入,但高幀率意味著巨大的計(jì)算成本。目前的視頻理解模型受限于計(jì)算資源,只能處理非常有限的幀數(shù)。以Intern-VL2為例,它只能處理16到64幀,這意味著對(duì)于一個(gè)5分鐘的視頻,它只能以0.2幀每秒的極低采樣率進(jìn)行處理——相當(dāng)于每5秒鐘只看一張圖片,想要理解其中的精細(xì)動(dòng)作變化幾乎是不可能的。

第二個(gè)根本原因是現(xiàn)有模型缺乏精細(xì)動(dòng)作理解的基礎(chǔ)能力。研究發(fā)現(xiàn),即使提供更高的幀率輸入,模型的表現(xiàn)提升也相當(dāng)有限,這表明問(wèn)題不僅僅在于"看得不夠多",更在于"看了也不懂"。

針對(duì)這些發(fā)現(xiàn)的問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案——通過(guò)編碼器融合技術(shù)(Through-Encoder Fusion,簡(jiǎn)稱TE Fusion)。傳統(tǒng)的視頻壓縮方法就像是先把每張圖片分別理解,然后再試圖找出它們之間的聯(lián)系,這種"淺層融合"的方式很難捕捉到動(dòng)作的連續(xù)性和細(xì)節(jié)變化。TE Fusion則采用了一種"深度融合"的策略,讓相鄰的視頻幀在處理的整個(gè)過(guò)程中都保持緊密的信息交流,就像一個(gè)團(tuán)隊(duì)在協(xié)作完成任務(wù)時(shí)保持實(shí)時(shí)溝通一樣。

具體來(lái)說(shuō),TE Fusion將相鄰的k幀視頻組成一個(gè)群組,在視覺(jué)編碼的整個(gè)過(guò)程中,這些幀之間會(huì)進(jìn)行群組級(jí)別的自注意力計(jì)算,使得模型能夠在更深層次上理解幀間的時(shí)間依賴關(guān)系。這種方法的優(yōu)勢(shì)在于能夠在相同的計(jì)算資源約束下,實(shí)現(xiàn)更好的視頻特征表示,特別是在高壓縮比的場(chǎng)景下表現(xiàn)尤為突出。

實(shí)驗(yàn)結(jié)果證明了TE Fusion的有效性。在MotionBench上,使用TE Fusion的模型達(dá)到了58%的準(zhǔn)確率,不僅在所有六個(gè)動(dòng)作理解類別中都有顯著提升,而且在其他視頻理解基準(zhǔn)測(cè)試(如MVBench、LVBench、VideoMME)中也表現(xiàn)出色。特別值得注意的是,TE Fusion在處理高壓縮比視頻時(shí)的優(yōu)勢(shì)最為明顯,當(dāng)壓縮比達(dá)到16倍時(shí),其性能下降幅度遠(yuǎn)小于其他方法。

為了進(jìn)一步推動(dòng)這個(gè)領(lǐng)域的發(fā)展,研究團(tuán)隊(duì)還發(fā)布了一個(gè)包含5000個(gè)視頻的精細(xì)動(dòng)作描述數(shù)據(jù)集。這些視頻都經(jīng)過(guò)了人工標(biāo)注,提供了詳細(xì)的動(dòng)作信息描述,標(biāo)注密度達(dá)到每秒12.63個(gè)單詞,為研究者提供了寶貴的訓(xùn)練資源。

研究團(tuán)隊(duì)對(duì)所有測(cè)試失敗的案例進(jìn)行了深入分析,發(fā)現(xiàn)了一些有趣的模式。在動(dòng)作識(shí)別方面,失敗案例中最大的比例涉及精細(xì)動(dòng)作的區(qū)分,說(shuō)明某些動(dòng)作及其相關(guān)描述在訓(xùn)練數(shù)據(jù)中可能存在不足。從視頻時(shí)長(zhǎng)的角度分析,即使是0到4秒的短視頻,所有模型都答錯(cuò)的問(wèn)題仍占11%到14%,這突顯了模型在區(qū)分某些動(dòng)作時(shí)的固有困難。隨著視頻時(shí)長(zhǎng)的增加,失敗率顯著上升,18秒以上的視頻失敗率達(dá)到18%。

一個(gè)典型的失敗案例很好地說(shuō)明了問(wèn)題所在:在一個(gè)視頻中,一只手從汽車頂部移動(dòng)到左下方,但大多數(shù)模型都認(rèn)為這是"輕拍汽車表面"的動(dòng)作。從單幀圖像的角度看,這種判斷似乎合理,但在視頻時(shí)序中,手實(shí)際上是滑過(guò)汽車表面而不是拍打,這個(gè)例子完美展示了單幀預(yù)測(cè)與時(shí)序理解之間的差異,也說(shuō)明了創(chuàng)建專注于動(dòng)作層面評(píng)估基準(zhǔn)的價(jià)值。

這項(xiàng)研究的意義遠(yuǎn)不止于揭示現(xiàn)有模型的不足。在實(shí)際應(yīng)用中,精細(xì)動(dòng)作理解對(duì)于異常檢測(cè)、開(kāi)放域動(dòng)作分析、詳細(xì)視頻字幕生成等任務(wù)都至關(guān)重要。在醫(yī)療教學(xué)中,準(zhǔn)確理解手術(shù)動(dòng)作的細(xì)節(jié)關(guān)系到醫(yī)學(xué)生的學(xué)習(xí)效果;在體育分析中,對(duì)運(yùn)動(dòng)員技術(shù)動(dòng)作的精確識(shí)別影響著訓(xùn)練效果的評(píng)估;在工業(yè)安全監(jiān)控中,對(duì)危險(xiǎn)動(dòng)作的及時(shí)識(shí)別可能關(guān)系到工人的生命安全。

研究團(tuán)隊(duì)也坦誠(chéng)地指出了這項(xiàng)工作的局限性。首先,盡管他們努力包含了多樣化的視頻內(nèi)容,但數(shù)據(jù)集可能仍然存在地理、文化和情境方面的偏見(jiàn),這可能限制了研究結(jié)果在不同環(huán)境下的普適性。其次,雖然進(jìn)行了大規(guī)模的標(biāo)注工作,但由于人工標(biāo)注和自動(dòng)化工具的限制,偶爾的不準(zhǔn)確或不一致在所難免。

從更廣闊的視角來(lái)看,這項(xiàng)研究為視頻理解領(lǐng)域指明了一個(gè)重要的發(fā)展方向。當(dāng)前的AI視頻理解研究大多關(guān)注于高層次的語(yǔ)義理解,而忽略了基礎(chǔ)的動(dòng)作感知能力。就像建造高樓大廈需要堅(jiān)實(shí)的地基一樣,要實(shí)現(xiàn)真正智能的視頻理解,我們必須首先解決最基礎(chǔ)的動(dòng)作理解問(wèn)題。

MotionBench的發(fā)布為這個(gè)領(lǐng)域提供了一個(gè)重要的評(píng)估工具和研究起點(diǎn)。通過(guò)這個(gè)基準(zhǔn)測(cè)試,研究者們可以更準(zhǔn)確地評(píng)估和改進(jìn)自己的模型,推動(dòng)整個(gè)領(lǐng)域向更加精細(xì)、更加準(zhǔn)確的方向發(fā)展。同時(shí),TE Fusion技術(shù)的提出也為解決視頻理解中的計(jì)算效率和準(zhǔn)確性平衡問(wèn)題提供了新的思路。

歸根結(jié)底,這項(xiàng)研究告訴我們,在AI視頻理解的道路上,我們還有很長(zhǎng)的路要走。雖然現(xiàn)有的模型在某些高層次任務(wù)上表現(xiàn)出色,但在最基礎(chǔ)的動(dòng)作理解方面仍然存在巨大的改進(jìn)空間。這個(gè)發(fā)現(xiàn)不僅讓我們更清楚地認(rèn)識(shí)到當(dāng)前技術(shù)的局限,也為未來(lái)的研究指明了方向。隨著MotionBench這樣的專業(yè)評(píng)估工具的出現(xiàn),以及TE Fusion這樣創(chuàng)新技術(shù)的發(fā)展,我們有理由相信,AI模型在精細(xì)動(dòng)作理解方面的能力將會(huì)得到顯著提升,最終實(shí)現(xiàn)真正智能的視頻理解。

Q&A

Q1:MotionBench是什么?它和其他視頻評(píng)估有什么不同?

A:MotionBench是清華大學(xué)開(kāi)發(fā)的專門測(cè)試AI模型精細(xì)動(dòng)作理解能力的評(píng)估體系,包含8052個(gè)問(wèn)答對(duì)和5385個(gè)視頻。與其他主要關(guān)注故事情節(jié)和事件理解的視頻評(píng)估不同,MotionBench專注于最基礎(chǔ)的動(dòng)作層面理解,就像測(cè)試AI是否真的"看懂"了人跳躍、物體移動(dòng)這些基本動(dòng)作。

Q2:為什么頂級(jí)AI模型在MotionBench上表現(xiàn)這么差?

A:主要有兩個(gè)原因。首先是技術(shù)限制:理解精細(xì)動(dòng)作需要高幀率輸入,但現(xiàn)有模型受計(jì)算資源限制只能處理很少幀數(shù),相當(dāng)于每5秒只看一張圖片。其次是基礎(chǔ)能力缺失:即使提供更多幀數(shù),模型的表現(xiàn)提升也有限,說(shuō)明它們?nèi)狈斫鈩?dòng)作連續(xù)性和細(xì)節(jié)變化的根本能力。

Q3:通過(guò)編碼器融合技術(shù)TE Fusion是如何改進(jìn)視頻理解的?

A:TE Fusion采用"深度融合"策略,讓相鄰視頻幀在整個(gè)處理過(guò)程中保持緊密信息交流,而不是傳統(tǒng)的先分別理解再尋找聯(lián)系的"淺層融合"。這就像團(tuán)隊(duì)協(xié)作時(shí)保持實(shí)時(shí)溝通一樣,能更好地捕捉動(dòng)作的連續(xù)性,特別在高壓縮比場(chǎng)景下優(yōu)勢(shì)明顯。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-