av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 視頻AI出現(xiàn)了"幻覺癥"?SenseTime研究揭示長視頻理解的隱秘缺陷

視頻AI出現(xiàn)了"幻覺癥"?SenseTime研究揭示長視頻理解的隱秘缺陷

2025-09-24 10:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-24 10:26 ? 科技行者

這是一個關(guān)于AI視頻理解能力的令人震驚的發(fā)現(xiàn)。當(dāng)我們以為AI已經(jīng)能夠完美理解視頻內(nèi)容時,SenseTime研究院的科學(xué)家們卻發(fā)現(xiàn)了一個隱秘而重要的問題:AI在觀看長視頻時會產(chǎn)生一種特殊的"幻覺"現(xiàn)象。

這項由SenseTime研究院的陸?zhàn)⑼跫魏?、張耀倫、王若暉、鄭軒宇、唐葉鵬、林大華和盧樂偉等研究者完成的研究發(fā)表于2025年9月,論文標(biāo)題為"ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding"。有興趣深入了解的讀者可以通過https://github.com/hlsv02/ELV-Halluc訪問相關(guān)資源和代碼。

要理解這個問題,我們可以把AI理解視頻比作一個學(xué)生在看電視新聞。當(dāng)新聞只有幾十秒時,學(xué)生通常能準(zhǔn)確記住發(fā)生了什么。但當(dāng)新聞變成一個小時的節(jié)目,包含多個不同的新聞片段時,學(xué)生就容易把不同新聞中的信息混淆。比如,第一條新聞中主持人手里拿著一份文件,第三條新聞提到了星巴克,學(xué)生可能會錯誤地記成"主持人拿著星巴克杯子播報第一條新聞"。

這就是研究團隊發(fā)現(xiàn)的"語義聚合幻覺"現(xiàn)象。AI雖然能正確識別視頻中的每個畫面內(nèi)容,但在把這些信息組織成完整理解時,會錯誤地將屬于不同事件的信息混合在一起。這種現(xiàn)象在短視頻中很少出現(xiàn),但在長視頻中變得越來越明顯和嚴(yán)重。

研究團隊意識到這個問題的重要性后,創(chuàng)建了全球首個專門針對長視頻幻覺現(xiàn)象的測試基準(zhǔn)——ELV-Halluc。這個基準(zhǔn)就像是給AI設(shè)計的一套"視力測試表",專門檢查AI在理解長視頻時是否會出現(xiàn)信息混淆的問題。

一、揭開長視頻理解的神秘面紗

當(dāng)我們談?wù)揂I理解視頻時,大多數(shù)人想到的可能是那些能識別貓狗、判斷動作的聰明程序。但實際情況要復(fù)雜得多,特別是當(dāng)視頻變得很長時。

以往的研究主要關(guān)注短視頻,就像只在實驗室的理想條件下測試汽車性能。研究者們發(fā)現(xiàn),當(dāng)AI處理幾十秒的短視頻時,表現(xiàn)相當(dāng)不錯。但現(xiàn)實世界中,我們經(jīng)常需要處理的是幾分鐘甚至幾小時的長視頻,比如新聞廣播、教學(xué)視頻、會議記錄等。

研究團隊通過大量實驗發(fā)現(xiàn),現(xiàn)有的視頻AI在處理長視頻時存在三種主要的錯誤類型。第一種是"視覺錯誤",就像近視眼看不清楚畫面細(xì)節(jié)。第二種是"語言偏見錯誤",AI過分依賴已有的知識模式,忽視了實際看到的內(nèi)容。第三種就是他們新發(fā)現(xiàn)的"語義聚合幻覺",這是最隱蔽也最危險的一種。

語義聚合幻覺的特殊之處在于,AI對每個畫面的理解都是正確的,問題出現(xiàn)在將這些正確的信息組合成完整故事的過程中。這就像一個人記憶力很好,能準(zhǔn)確記住每個細(xì)節(jié),但在講述整個故事時卻把時間順序和事件歸屬搞混了。

研究團隊發(fā)現(xiàn),這種現(xiàn)象隨著視頻復(fù)雜度的增加而加劇。當(dāng)視頻包含更多獨立的事件段落時,AI就更容易出現(xiàn)信息混淆。而且,變化快速的視覺細(xì)節(jié)比較慢變化的整體內(nèi)容更容易引發(fā)這種錯誤。

二、創(chuàng)建史上首個長視頻"體檢中心"

為了系統(tǒng)研究這個問題,研究團隊需要一個專門的測試工具。他們創(chuàng)建的ELV-Halluc基準(zhǔn)就像是專門為AI設(shè)計的綜合體檢中心。

這個體檢中心的設(shè)計理念很巧妙。研究者們選擇了一種特殊類型的視頻——"事件接事件"視頻。這種視頻就像電視新聞節(jié)目,包含多個清晰分離但主題相關(guān)的段落。比如一檔體育新聞可能包含籃球比賽、足球比賽、網(wǎng)球比賽等多個獨立片段,每個片段都有完整的敘述,但整體屬于同一個節(jié)目。

選擇這種視頻類型有多個優(yōu)勢。首先,每個事件段落都有明確的邊界,便于精確測試。其次,這種結(jié)構(gòu)最容易誘發(fā)語義聚合幻覺,因為不同事件中的元素可以重新組合形成看似合理但實際錯誤的描述。第三,事件數(shù)量可以作為視頻復(fù)雜度的直觀指標(biāo)。

研究團隊從YouTube收集了500個視頻,然后進行了嚴(yán)格篩選。他們雇請專業(yè)標(biāo)注人員,確保每個視頻包含2到10個清晰可辨的事件段落,總時長平均超過11分鐘。這些視頻涵蓋了體育、新聞、教育、生活等多個類別,確保測試的全面性。

為了確保標(biāo)注質(zhì)量,研究團隊采用了一種半自動的標(biāo)注流程。他們首先使用谷歌的Gemini 2.5 Flash模型生成初始的視頻描述,然后由專業(yè)人員進行仔細(xì)檢查和修正。這種方法既保證了效率,又確保了準(zhǔn)確性。最終,他們獲得了348個高質(zhì)量的標(biāo)注視頻。

三、設(shè)計巧妙的"陷阱題"測試系統(tǒng)

有了測試素材后,研究團隊需要設(shè)計巧妙的測試方法來檢測語義聚合幻覺。他們的解決方案就像設(shè)計一套專門的"陷阱題"。

這套測試系統(tǒng)的核心思想是對比測試。對于每個視頻片段的正確描述,研究團隊會創(chuàng)造兩個版本的錯誤描述。第一個版本叫"視頻內(nèi)幻覺",是把當(dāng)前片段中的某些元素替換成同一視頻其他片段中出現(xiàn)的元素。第二個版本叫"視頻外幻覺",是把元素替換成完全不在這個視頻中出現(xiàn)的內(nèi)容。

這種設(shè)計的巧妙之處在于,如果AI被第一種錯誤描述誤導(dǎo),說明它確實出現(xiàn)了語義聚合幻覺——把正確的信息放到了錯誤的時間和地點。如果它被第二種錯誤描述誤導(dǎo),則說明它出現(xiàn)了其他類型的理解錯誤。通過比較這兩種錯誤的發(fā)生率,研究者就能精確測量語義聚合幻覺的嚴(yán)重程度。

測試內(nèi)容分為四個方面:視覺細(xì)節(jié)、物體識別、動作理解和描述性內(nèi)容。視覺細(xì)節(jié)包括顏色、形狀、文字等具體特征。物體識別涉及人物和物品的準(zhǔn)確辨認(rèn)。動作理解關(guān)注行為和運動的識別。描述性內(nèi)容則涉及對情況的整體判斷和結(jié)論。

研究團隊發(fā)現(xiàn),不同類型的內(nèi)容出現(xiàn)語義聚合幻覺的頻率不同。變化最快的視覺細(xì)節(jié)最容易出錯,其次是動作,然后是物體,最不容易出錯的是描述性內(nèi)容。這符合直覺,因為快速變化的內(nèi)容更容易在記憶和整合過程中發(fā)生錯位。

四、震撼的發(fā)現(xiàn):AI的"記憶混亂"有多嚴(yán)重

當(dāng)研究團隊用ELV-Halluc測試了16個主流的視頻AI模型后,結(jié)果令人震驚。幾乎所有的模型都存在不同程度的語義聚合幻覺問題,而且這個問題的嚴(yán)重程度超出了研究者的預(yù)期。

測試結(jié)果顯示,當(dāng)視頻包含更多事件段落時,語義聚合幻覺現(xiàn)象會顯著加重。這就像一個人同時處理的任務(wù)越多,越容易出現(xiàn)混淆。有趣的是,這種現(xiàn)象與視頻的總長度沒有直接關(guān)系,關(guān)鍵在于視頻的復(fù)雜程度——即包含多少個獨立的事件。

研究團隊還發(fā)現(xiàn)了一個令人驚訝的現(xiàn)象:語義聚合幻覺的程度與模型的整體性能并不完全相關(guān)。也就是說,一個在整體視頻理解測試中表現(xiàn)優(yōu)異的AI模型,仍然可能在語義聚合方面存在嚴(yán)重問題。這說明這是一個獨立的、需要專門關(guān)注的問題。

當(dāng)研究者增加輸入視頻的幀數(shù)時,大多數(shù)模型的整體理解能力有所提升,但語義聚合幻覺反而加重了。這個現(xiàn)象很有趣:更多的信息幫助了整體理解,但也增加了信息混淆的風(fēng)險。

不同大小的模型表現(xiàn)也有差異。較大的模型通常在整體理解上表現(xiàn)更好,但在語義聚合幻覺方面并沒有顯著改善。這表明簡單地擴大模型規(guī)模并不能解決這個根本問題。

五、尋找解決方案的探索之路

發(fā)現(xiàn)問題后,研究團隊開始探索可能的解決方案。他們從兩個角度著手:改進模型的位置編碼機制和使用偏好優(yōu)化訓(xùn)練。

位置編碼就像給視頻中的每一幀貼上時間標(biāo)簽,幫助AI理解"什么時候發(fā)生了什么"。研究團隊測試了多種位置編碼策略,發(fā)現(xiàn)專門為視頻設(shè)計的VideoRoPE編碼方法能夠顯著減少語義聚合幻覺。這就像給AI配了一塊更精確的手表,幫助它更好地記住事件的時間順序。

第二個解決方案是使用直接偏好優(yōu)化(DPO)訓(xùn)練方法。這種方法就像給AI進行專門的"糾錯訓(xùn)練"。研究團隊創(chuàng)建了8000對正確和錯誤的視頻描述樣本,然后訓(xùn)練AI明確區(qū)分哪些描述是正確的,哪些是混淆的。

訓(xùn)練過程分為三種設(shè)置:只使用視頻內(nèi)錯誤樣本訓(xùn)練、只使用視頻外錯誤樣本訓(xùn)練,以及兩種樣本混合訓(xùn)練。結(jié)果顯示,使用視頻內(nèi)錯誤樣本訓(xùn)練效果最好,能夠?qū)⒄Z義聚合幻覺的發(fā)生率降低27.7%。這證明了針對性訓(xùn)練的重要性。

更令人興奮的是,這種專門的訓(xùn)練不僅改善了語義聚合幻覺問題,還提升了模型在其他視頻理解任務(wù)上的整體性能。這說明解決語義聚合幻覺不是單純的修補,而是對模型理解能力的整體提升。

六、深入機制:AI大腦的"注意力重新分配"

為了理解訓(xùn)練為什么有效,研究團隊深入分析了AI在訓(xùn)練前后的"注意力"變化。他們發(fā)現(xiàn),經(jīng)過專門訓(xùn)練的模型會顯著減少對錯誤信息的關(guān)注,同時增加對相關(guān)正確信息的關(guān)注。

這個發(fā)現(xiàn)通過注意力可視化圖清晰地展現(xiàn)出來。在訓(xùn)練前,當(dāng)AI遇到混淆性信息時,它的"注意力"會被錯誤信息吸引。訓(xùn)練后,AI學(xué)會了忽略這些干擾信息,專注于真正相關(guān)的內(nèi)容。這就像一個學(xué)生學(xué)會了在嘈雜環(huán)境中專心聽課的技能。

這種注意力的重新分配不是簡單的抑制,而是更智能的選擇。AI學(xué)會了根據(jù)時間和上下文信息,判斷哪些信息真正屬于當(dāng)前討論的事件,哪些是來自其他時間段的干擾。

七、研究的局限性與未來展望

盡管這項研究取得了重要突破,但研究團隊也誠實地指出了一些局限性。

首先,由于使用Gemini模型生成初始標(biāo)注,可能對Gemini的測試結(jié)果產(chǎn)生了偏向性影響。不過,這種影響主要體現(xiàn)在對該模型性能的評估上,對其他模型和整體研究結(jié)論的影響有限。

其次,雖然"事件接事件"的視頻結(jié)構(gòu)有利于研究,但與現(xiàn)實世界中更加多樣化的長視頻相比,仍有一定局限性。真實世界的視頻可能有更復(fù)雜的結(jié)構(gòu)和更微妙的語義關(guān)系。

第三,由于標(biāo)注成本較高,數(shù)據(jù)集的規(guī)模相對有限。擴大數(shù)據(jù)集規(guī)??赡軙砀娴陌l(fā)現(xiàn)和更穩(wěn)定的結(jié)論。

盡管存在這些局限性,這項研究為長視頻理解領(lǐng)域開辟了一個全新的研究方向。它不僅識別了一個重要的技術(shù)問題,還提供了檢測和改善這個問題的有效方法。

研究團隊在論文中提到,語義聚合幻覺可能在其他多模態(tài)AI應(yīng)用中也存在類似問題,比如長文檔理解、多圖像分析等。這為未來的研究提供了豐富的探索方向。

這項研究的意義超越了技術(shù)本身。隨著AI越來越多地應(yīng)用于需要處理長內(nèi)容的場景——比如會議記錄、教育視頻分析、安防監(jiān)控等——確保AI能夠準(zhǔn)確理解和表達(dá)復(fù)雜信息變得至關(guān)重要。語義聚合幻覺問題的解決,將直接提升這些應(yīng)用的可靠性和實用性。

歸根結(jié)底,這項研究告訴我們一個重要道理:AI技術(shù)的進步不僅需要追求更高的整體性能指標(biāo),還需要深入識別和解決特定的、隱蔽的問題。只有這樣,我們才能構(gòu)建真正可靠、值得信任的AI系統(tǒng)。SenseTime研究團隊的這項工作為整個AI社區(qū)提供了寶貴的研究工具和解決思路,必將推動長視頻理解技術(shù)向更加成熟和實用的方向發(fā)展。

Q&A

Q1:什么是語義聚合幻覺?它和普通的AI錯誤有什么區(qū)別?

A:語義聚合幻覺是AI在理解長視頻時出現(xiàn)的一種特殊錯誤現(xiàn)象。與普通錯誤不同,AI能正確識別視頻中的每個畫面內(nèi)容,但會錯誤地將屬于不同時間段或事件的信息混合在一起。就像一個人看新聞時,把第一條新聞中的主持人和第三條新聞中提到的星巴克錯誤地組合成"主持人拿著星巴克杯子播報第一條新聞"。這種錯誤特別隱蔽,因為所有元素都是視頻中真實存在的,只是時間和歸屬關(guān)系搞混了。

Q2:ELV-Halluc基準(zhǔn)是如何檢測語義聚合幻覺的?

A:ELV-Halluc采用巧妙的對比測試方法。對每個正確的視頻描述,研究團隊創(chuàng)建兩個錯誤版本:一個是"視頻內(nèi)幻覺"(用同一視頻其他片段的元素替換),另一個是"視頻外幻覺"(用完全不存在的元素替換)。如果AI被第一種錯誤誤導(dǎo)但能識別第二種錯誤,就說明出現(xiàn)了語義聚合幻覺。通過比較這兩種錯誤的發(fā)生率,可以精確測量語義聚合幻覺的嚴(yán)重程度。

Q3:如何解決AI的語義聚合幻覺問題?

A:研究團隊發(fā)現(xiàn)了兩個有效方法。首先是改進位置編碼機制,特別是使用VideoRoPE編碼,就像給AI配備更精確的時間標(biāo)簽,幫助它記住"什么時候發(fā)生了什么"。其次是使用直接偏好優(yōu)化訓(xùn)練,創(chuàng)建8000對正確和錯誤的樣本來訓(xùn)練AI區(qū)分正確描述和混淆描述。這種針對性訓(xùn)練能將語義聚合幻覺發(fā)生率降低27.7%,同時提升模型整體性能。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-