說到人工智能看視頻,你可能覺得這是個(gè)很神奇的能力——機(jī)器竟然能像人一樣理解視頻內(nèi)容,回答各種問題。但你知道嗎?就像人有時(shí)會看錯(cuò)東西一樣,AI在看視頻時(shí)也會出現(xiàn)"幻覺",明明視頻里是一只貓,它卻堅(jiān)持說是一只狗。
這項(xiàng)由中國科學(xué)院大學(xué)洪成高、曲佳樹、唐靖怡等研究人員組成的團(tuán)隊(duì)完成的研究,發(fā)表于2025年3月25日的arXiv預(yù)印本平臺(論文編號:arXiv:2503.19622v1),首次系統(tǒng)性地揭示了大型多模態(tài)模型在視頻理解中的"幻覺"問題。有興趣深入了解的讀者可以通過https://github.com/Hongcheng-Gao/HAVEN訪問完整的研究數(shù)據(jù)和代碼。
這個(gè)問題遠(yuǎn)比想象中復(fù)雜。當(dāng)AI模型處理靜態(tài)圖片時(shí),它們已經(jīng)會出現(xiàn)各種錯(cuò)誤理解,比如把不存在的物體說成存在,或者張冠李戴地描述圖片內(nèi)容。但視頻比圖片復(fù)雜得多——它不僅包含空間信息,還有時(shí)間維度,物體會移動,場景會變化,故事會發(fā)展。這就像讓一個(gè)人不僅要看懂一幅畫,還要理解一部電影的劇情發(fā)展,難度顯然大大增加。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的研究主要關(guān)注AI在圖片理解中的問題,但對視頻理解中的"幻覺"現(xiàn)象研究很少。這就好比我們知道一個(gè)人看照片可能會看錯(cuò),但不知道他看電影時(shí)會犯什么樣的錯(cuò)誤。為了填補(bǔ)這個(gè)空白,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為HAVEN的全新評估體系,專門用來檢測AI模型在視頻理解中的各種錯(cuò)誤。
更重要的是,他們不僅發(fā)現(xiàn)了問題,還提出了解決方案。受到最新思維模型如OpenAI o1的啟發(fā),研究團(tuán)隊(duì)開發(fā)了一種"視頻思維模型",通過讓AI進(jìn)行更深層的推理來減少這些幻覺現(xiàn)象。結(jié)果顯示,這種方法將模型的準(zhǔn)確率提升了7.65%,同時(shí)將偏差降低了4.5%。
一、當(dāng)AI遇到視頻:比看圖片復(fù)雜千萬倍的挑戰(zhàn)
要理解AI看視頻時(shí)為什么會出錯(cuò),我們先得明白視頻和圖片的根本區(qū)別。如果說理解一張圖片就像看一幅靜態(tài)的油畫,那么理解視頻就像要讀懂一本動態(tài)的連環(huán)畫冊,每一頁都在講述故事的不同片段,而且這些片段之間還有復(fù)雜的因果關(guān)系。
當(dāng)AI模型看一張圖片時(shí),它需要識別圖片中的物體、理解物體之間的關(guān)系、推斷場景的背景信息。但當(dāng)它面對視頻時(shí),除了這些基礎(chǔ)任務(wù),還需要追蹤物體在時(shí)間軸上的運(yùn)動軌跡、理解動作的先后順序、把握場景的變化節(jié)奏,甚至推斷視頻背后的故事邏輯。這就像讓一個(gè)人不僅要認(rèn)識舞臺上的每個(gè)演員,還要理解整出戲的劇情發(fā)展。
研究團(tuán)隊(duì)通過對16個(gè)不同的大型多模態(tài)模型進(jìn)行測試,發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:即使是表現(xiàn)最好的模型,在處理視頻時(shí)也會出現(xiàn)各種意想不到的錯(cuò)誤。比如,一個(gè)模型可能正確識別出視頻中有一只貓,但卻錯(cuò)誤地認(rèn)為這只貓?jiān)谧鲆粋€(gè)它根本沒有做的動作。
這些錯(cuò)誤并不是隨機(jī)出現(xiàn)的,而是有規(guī)律可循的。研究團(tuán)隊(duì)發(fā)現(xiàn),AI模型在處理視頻時(shí)的錯(cuò)誤主要表現(xiàn)在三個(gè)方面:對物體的誤解、對場景的誤判,以及對事件的錯(cuò)誤理解。這就像一個(gè)人看電影時(shí),可能會認(rèn)錯(cuò)主角(物體錯(cuò)誤),搞錯(cuò)故事發(fā)生的地點(diǎn)(場景錯(cuò)誤),或者誤解劇情的發(fā)展(事件錯(cuò)誤)。
更讓人意外的是,視頻的長度也會影響AI的表現(xiàn)。研究發(fā)現(xiàn),當(dāng)視頻太短時(shí),AI獲得的信息不夠充分,容易產(chǎn)生誤解。但當(dāng)視頻太長時(shí),AI又可能被過多的信息所干擾,反而表現(xiàn)更差。這就像讓人看電影,如果只看幾秒鐘的片段,很難理解完整劇情;但如果電影太長,人的注意力也會分散,可能錯(cuò)過重要細(xì)節(jié)。
二、解剖AI的"視頻幻覺":三大根源和九種表現(xiàn)
要治療疾病,首先得準(zhǔn)確診斷病因。研究團(tuán)隊(duì)像醫(yī)生診斷病人一樣,仔細(xì)分析了AI在視頻理解中出現(xiàn)幻覺的根本原因,發(fā)現(xiàn)主要有三大根源。
第一大根源是"知識沖突"。這就像一個(gè)人帶著固有偏見去看新事物一樣。AI模型在訓(xùn)練過程中學(xué)到了大量的常識知識,比如"狗通常是四條腿的動物"、"汽車通常在路上行駛"等等。但當(dāng)視頻中出現(xiàn)與這些常識不符的內(nèi)容時(shí),模型就可能固執(zhí)地按照既有知識來理解,而忽視視頻中的真實(shí)情況。比如,如果視頻中出現(xiàn)一只用兩條腿走路的狗,模型可能會因?yàn)榕c常識沖突而產(chǎn)生困惑。
第二大根源是"語境沖突"。有時(shí)候,視頻內(nèi)容與問題本身存在矛盾,或者問題的設(shè)計(jì)就有問題。這就像有人指著一張?zhí)O果的圖片問你"這個(gè)橙子是什么顏色的"一樣讓人困惑。在這種情況下,合理的回答應(yīng)該是"我不知道"或"問題有誤",但AI模型往往會強(qiáng)行給出一個(gè)答案,導(dǎo)致產(chǎn)生幻覺。
第三大根源是"能力缺陷"。這是最容易理解的一種情況——AI模型本身的能力還不夠強(qiáng),特別是在數(shù)學(xué)計(jì)算和精確計(jì)數(shù)方面。比如,當(dāng)需要數(shù)視頻中有幾個(gè)人或幾輛車時(shí),模型經(jīng)常會數(shù)錯(cuò)。這就像讓一個(gè)視力不好的人在遠(yuǎn)處數(shù)星星,出錯(cuò)是很自然的事情。
基于這三大根源,研究團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn)AI的視頻幻覺主要表現(xiàn)在九個(gè)方面。在物體理解方面,AI可能會看錯(cuò)物體是否存在、搞混物體之間的關(guān)系,或者誤判物體的屬性。在場景理解方面,AI可能會搞錯(cuò)視頻的拍攝地點(diǎn)、弄混季節(jié)時(shí)間,或者誤解整體環(huán)境。在事件理解方面,AI可能會看錯(cuò)動作的執(zhí)行者、搞混事件的先后順序,或者完全誤解故事的發(fā)展。
為了系統(tǒng)性地研究這些問題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含6497個(gè)問題的大型測試數(shù)據(jù)集。這些問題就像是專門設(shè)計(jì)的"陷阱",用來檢驗(yàn)AI模型是否會在特定情況下產(chǎn)生幻覺。數(shù)據(jù)集中的視頻來源豐富,包括日?;顒?、體育運(yùn)動等各種場景,時(shí)長從幾秒到幾分鐘不等。
三、大規(guī)模實(shí)驗(yàn)揭示的驚人發(fā)現(xiàn):AI看視頻的七大規(guī)律
研究團(tuán)隊(duì)對16個(gè)不同的AI模型進(jìn)行了全面測試,這些模型的參數(shù)規(guī)模從30億到340億不等,就像是測試了從小學(xué)生到博士生不同"智力水平"的AI。測試結(jié)果揭示了許多令人意外的規(guī)律。
首先是關(guān)于模型大小的發(fā)現(xiàn)。就像我們直覺上認(rèn)為的那樣,更大的模型通常表現(xiàn)更好,出現(xiàn)幻覺的頻率更低。但這種關(guān)系并不是簡單的線性關(guān)系。研究發(fā)現(xiàn),當(dāng)模型規(guī)模從70億參數(shù)增加到130億參數(shù)時(shí),性能提升最為顯著,但繼續(xù)增大到340億參數(shù)時(shí),提升就變得相對緩慢了。這就像學(xué)習(xí)一樣,從小學(xué)到中學(xué)階段進(jìn)步最快,但到了高等教育階段,每一步提升都需要更多的努力。
關(guān)于視頻長度的發(fā)現(xiàn)更加有趣。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)類似倒U形的關(guān)系曲線:當(dāng)視頻太短(少于5秒)時(shí),AI因?yàn)樾畔⒉蛔愣菀壮鲥e(cuò);當(dāng)視頻長度適中(5-20秒)時(shí),AI表現(xiàn)最好;但當(dāng)視頻過長(超過30秒)時(shí),AI的表現(xiàn)反而開始下降。這就像讓人記住一個(gè)電話號碼,太短的號碼容易記混,太長的號碼又超出了記憶容量,只有適中長度的號碼最容易準(zhǔn)確記住。
在視頻幀數(shù)的處理上,研究發(fā)現(xiàn)了另一個(gè)有趣的規(guī)律。AI模型通常會從視頻中抽取一定數(shù)量的關(guān)鍵幀來進(jìn)行分析,就像看電影時(shí)只看幾張劇照來理解劇情一樣。測試發(fā)現(xiàn),當(dāng)抽取的幀數(shù)太少時(shí),AI缺乏足夠的信息;但當(dāng)幀數(shù)過多時(shí),AI又可能被冗余信息所干擾。最佳的幀數(shù)通常在8-16幀之間,這個(gè)范圍正好平衡了信息完整性和處理效率。
問題復(fù)雜度也顯著影響AI的表現(xiàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),簡單的是非題(比如"視頻中有沒有貓?")相對容易回答,AI的準(zhǔn)確率較高。但涉及復(fù)雜推理的開放性問題(比如"這個(gè)人為什么這樣做?")就困難得多,AI經(jīng)常會給出不著邊際的答案。這就像考試一樣,選擇題比作文題更容易得分。
最令人驚訝的發(fā)現(xiàn)是關(guān)于"鏈?zhǔn)剿季S推理"的效果。當(dāng)研究團(tuán)隊(duì)讓AI模型在回答問題前先進(jìn)行step-by-step的分析思考時(shí),所有測試的模型都顯示出了明顯的性能提升。這就像讓學(xué)生在回答問題前先列出解題步驟一樣,雖然過程更復(fù)雜,但結(jié)果更準(zhǔn)確。這個(gè)發(fā)現(xiàn)為后續(xù)的解決方案提供了重要啟發(fā)。
在不同類型的錯(cuò)誤中,研究發(fā)現(xiàn)"語境沖突"類型的錯(cuò)誤最難處理。當(dāng)視頻內(nèi)容與問題存在邏輯矛盾時(shí),AI很難像人類一樣說出"這個(gè)問題有問題",而是會強(qiáng)行給出一個(gè)答案。這反映了當(dāng)前AI模型在元認(rèn)知能力(對自己知識邊界的認(rèn)知)方面還存在顯著不足。
四、突破性解決方案:讓AI學(xué)會"思考"再回答
面對AI視頻理解中的幻覺問題,研究團(tuán)隊(duì)沒有停留在發(fā)現(xiàn)問題的層面,而是提出了一個(gè)創(chuàng)新的解決方案。他們的核心思路很簡單:既然讓AI進(jìn)行step-by-step思考能提升性能,那么能否訓(xùn)練出一個(gè)專門擅長"思考"的AI模型呢?
這個(gè)想法的靈感來自于最近備受關(guān)注的OpenAI o1模型。o1模型的一個(gè)重要特點(diǎn)是會在給出最終答案前進(jìn)行詳細(xì)的內(nèi)部推理,就像一個(gè)學(xué)生在考試時(shí)會先在草稿紙上列出解題步驟,然后再寫出最終答案。研究團(tuán)隊(duì)決定將這種"思維模式"引入到視頻理解任務(wù)中。
他們的解決方案分為兩個(gè)步驟,就像訓(xùn)練一個(gè)學(xué)生首先學(xué)會思考方法,然后學(xué)會避免常見錯(cuò)誤。
第一步叫做"監(jiān)督推理微調(diào)"。由于現(xiàn)有的思維模型主要處理文本或單張圖片,無法直接處理視頻,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的方法。他們使用現(xiàn)有的圖像思維模型對靜態(tài)圖片進(jìn)行詳細(xì)的推理分析,然后將這些圖片復(fù)制成靜態(tài)視頻,配合原有的推理過程創(chuàng)建訓(xùn)練數(shù)據(jù)。這就像讓一個(gè)擅長分析照片的專家來訓(xùn)練一個(gè)視頻分析新手,雖然視頻是靜態(tài)的,但推理的思路和方法是可以遷移的。
通過這種方法,他們生成了大約5000個(gè)包含詳細(xì)推理過程的訓(xùn)練樣本。每個(gè)樣本都包含一個(gè)視頻、一個(gè)問題,以及一個(gè)詳細(xì)的step-by-step分析過程。AI模型通過學(xué)習(xí)這些樣本,逐漸掌握了在回答視頻問題前進(jìn)行系統(tǒng)性思考的能力。
第二步叫做"基于思維的直接偏好優(yōu)化"。即使AI學(xué)會了思考,它的思考過程中仍然可能包含錯(cuò)誤信息或幻覺內(nèi)容。這就像一個(gè)學(xué)生雖然學(xué)會了解題步驟,但在具體計(jì)算中仍可能出錯(cuò)。為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一種精細(xì)化的糾錯(cuò)方法。
他們讓訓(xùn)練好的模型對測試問題進(jìn)行詳細(xì)推理,然后人工檢查推理過程中的每一個(gè)步驟,發(fā)現(xiàn)并標(biāo)記出包含幻覺或錯(cuò)誤的部分。接著,他們手動修正這些錯(cuò)誤,創(chuàng)建出"正確版本"的推理過程。這樣,對于同一個(gè)問題,他們就有了兩個(gè)版本:一個(gè)包含錯(cuò)誤的原始版本,一個(gè)經(jīng)過修正的正確版本。
關(guān)鍵的創(chuàng)新在于,他們沒有簡單地告訴AI"這個(gè)答案是錯(cuò)的,那個(gè)答案是對的",而是在推理過程的每個(gè)細(xì)節(jié)層面進(jìn)行精細(xì)化反饋。比如,如果AI在推理過程中說"視頻中的貓是黑色的",而實(shí)際上貓是白色的,系統(tǒng)就會對這個(gè)具體的錯(cuò)誤給予更強(qiáng)的負(fù)面反饋。這種方法就像一個(gè)細(xì)心的老師不僅會指出學(xué)生的最終答案錯(cuò)了,還會具體指出錯(cuò)在哪個(gè)計(jì)算步驟上。
五、實(shí)驗(yàn)驗(yàn)證:思維訓(xùn)練帶來的顯著提升
為了驗(yàn)證這個(gè)解決方案的效果,研究團(tuán)隊(duì)選擇了LLaVA-NeXT-Video-DPO-7B模型作為基礎(chǔ),對其進(jìn)行了思維能力訓(xùn)練。實(shí)驗(yàn)結(jié)果令人振奮。
經(jīng)過訓(xùn)練的"思維版本"模型在幻覺評估中的準(zhǔn)確率達(dá)到了52.90%,比原始模型的45.25%提升了7.65個(gè)百分點(diǎn)。更重要的是,在一致性評估中,新模型的偏差得分降低到了41.02%,比原始模型的45.52%降低了4.5個(gè)百分點(diǎn)。這意味著訓(xùn)練后的模型不僅更準(zhǔn)確,而且更穩(wěn)定可靠。
這種提升在各個(gè)細(xì)分領(lǐng)域都有體現(xiàn)。在物體識別方面,新模型的準(zhǔn)確率從51.48%提升到58.28%。在場景理解方面,從62.24%提升到69.97%。在事件理解方面,從48.27%提升到53.37%??梢哉f,思維訓(xùn)練帶來了全方位的性能提升。
特別值得注意的是,經(jīng)過訓(xùn)練的模型在處理復(fù)雜推理問題時(shí)表現(xiàn)尤其出色。研究團(tuán)隊(duì)展示了兩個(gè)典型案例。在第一個(gè)案例中,當(dāng)被問及"誰在視頻中使用捕鼠器"時(shí),原始模型可能會給出簡短而模糊的答案,而思維模型會詳細(xì)分析視頻中的每個(gè)元素:首先識別出視頻中有一只貓和一個(gè)捕鼠器,然后觀察貓的行為,最后基于這些觀察得出結(jié)論。整個(gè)推理過程清晰透明,就像一個(gè)人在向你解釋他的思考過程。
在第二個(gè)案例中,面對"男孩用什么來實(shí)現(xiàn)飛行"的問題,思維模型會先分析視頻的背景(哈利波特電影場景),然后逐一評估各個(gè)選項(xiàng)的可能性,最終得出正確答案。這種詳細(xì)的推理過程不僅提高了準(zhǔn)確率,還增強(qiáng)了答案的可解釋性。
六、深層洞察:AI視頻理解的未來方向
通過這項(xiàng)研究,團(tuán)隊(duì)不僅解決了當(dāng)前的問題,還為未來的發(fā)展方向提供了重要洞察。
首先,研究證實(shí)了"慢思考"對于復(fù)雜AI任務(wù)的重要性。就像人類在面對復(fù)雜問題時(shí)需要仔細(xì)思考一樣,AI模型也可以通過引入顯式的推理過程來提升性能。這與當(dāng)前AI發(fā)展的一個(gè)重要趨勢相吻合——從追求更快的反應(yīng)速度轉(zhuǎn)向追求更深層的理解能力。
其次,研究揭示了多模態(tài)AI系統(tǒng)中存在的一個(gè)普遍問題:不同模態(tài)信息之間的協(xié)調(diào)困難。視頻包含了視覺、時(shí)間、空間等多個(gè)維度的信息,如何讓AI模型有效整合這些信息仍然是一個(gè)挑戰(zhàn)。研究團(tuán)隊(duì)的方法提供了一種可能的解決思路,但顯然還有很大的改進(jìn)空間。
研究還發(fā)現(xiàn),當(dāng)前的AI模型在元認(rèn)知能力方面還相當(dāng)薄弱。當(dāng)面對超出自己能力范圍的問題時(shí),AI很難像人類一樣承認(rèn)"我不知道",而是傾向于給出一個(gè)聽起來合理但實(shí)際錯(cuò)誤的答案。這個(gè)問題不僅存在于視頻理解中,在AI的其他應(yīng)用領(lǐng)域也普遍存在。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究也指出了幾個(gè)重要的發(fā)展方向。一是需要開發(fā)更好的視頻表示方法,能夠更有效地捕捉時(shí)空信息。二是需要改進(jìn)AI模型的推理架構(gòu),使其能夠進(jìn)行更復(fù)雜的多步推理。三是需要建立更好的評估體系,能夠更準(zhǔn)確地衡量AI模型的真實(shí)能力和局限性。
七、現(xiàn)實(shí)影響:從實(shí)驗(yàn)室到日常生活的轉(zhuǎn)化
這項(xiàng)研究的意義不僅限于學(xué)術(shù)層面,它對我們?nèi)粘I钪薪佑|到的AI應(yīng)用也有重要影響。
在視頻內(nèi)容審核方面,社交媒體平臺每天需要處理數(shù)十億個(gè)視頻,依靠AI進(jìn)行自動審核。但如果AI會產(chǎn)生幻覺,可能會錯(cuò)誤地刪除正常內(nèi)容或者放過違規(guī)內(nèi)容。通過改進(jìn)AI的視頻理解能力,可以讓內(nèi)容審核更加準(zhǔn)確公正。
在智能監(jiān)控系統(tǒng)中,AI需要準(zhǔn)確識別監(jiān)控視頻中的異常行為。如果AI產(chǎn)生幻覺,可能會誤報(bào)正常行為為異常,或者錯(cuò)過真正的安全威脅。提升AI的視頻理解準(zhǔn)確性直接關(guān)系到公共安全。
在教育領(lǐng)域,越來越多的在線教育平臺開始使用AI來分析學(xué)生的學(xué)習(xí)視頻,評估學(xué)習(xí)效果。如果AI對視頻內(nèi)容的理解存在偏差,可能會給出錯(cuò)誤的學(xué)習(xí)建議,影響教育質(zhì)量。
在醫(yī)療領(lǐng)域,AI輔助診斷系統(tǒng)需要分析醫(yī)學(xué)影像視頻,如超聲檢查、內(nèi)鏡檢查等。AI的幻覺問題在這里可能導(dǎo)致誤診,直接關(guān)系到患者的健康和生命安全。
研究團(tuán)隊(duì)開發(fā)的思維訓(xùn)練方法為解決這些現(xiàn)實(shí)問題提供了新的思路。通過讓AI進(jìn)行更細(xì)致的推理,可以顯著提升其在各種應(yīng)用場景中的可靠性和準(zhǔn)確性。
八、技術(shù)細(xì)節(jié):從理論到實(shí)踐的完整鏈條
雖然前面用比較通俗的語言介紹了研究的主要內(nèi)容,但這項(xiàng)研究在技術(shù)實(shí)現(xiàn)上也有許多值得關(guān)注的創(chuàng)新點(diǎn)。
在數(shù)據(jù)構(gòu)建方面,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三維分類體系來系統(tǒng)性地覆蓋各種可能的幻覺情況。他們不是隨機(jī)收集測試樣本,而是根據(jù)理論分析有針對性地設(shè)計(jì)測試場景。這就像設(shè)計(jì)一套全面的體檢項(xiàng)目,確保能夠發(fā)現(xiàn)各種可能的健康問題。
在評估方法上,研究團(tuán)隊(duì)沒有簡單地依賴人工評估,而是開發(fā)了一套基于GPT-4o-mini的自動評估系統(tǒng)。這個(gè)系統(tǒng)能夠理解AI模型的復(fù)雜推理過程,判斷最終答案的正確性。同時(shí),為了確保評估的公正性,他們還設(shè)計(jì)了特殊的問題變體來檢測AI模型的一致性。
在訓(xùn)練方法上,研究團(tuán)隊(duì)巧妙地結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢。監(jiān)督學(xué)習(xí)部分讓模型學(xué)會了基本的推理模式,而強(qiáng)化學(xué)習(xí)部分則通過精細(xì)化的反饋幫助模型減少幻覺內(nèi)容。這種組合式的訓(xùn)練方法比單純使用其中一種方法效果更好。
特別值得一提的是,研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計(jì)上考慮了許多實(shí)際應(yīng)用中的因素。比如,他們測試了不同長度視頻對模型性能的影響,不同采樣幀數(shù)的效果,以及不同類型問題的難度差異。這些細(xì)致的分析為實(shí)際部署這類系統(tǒng)提供了重要的參考依據(jù)。
研究團(tuán)隊(duì)還建立了一個(gè)開放的代碼和數(shù)據(jù)平臺,讓其他研究者可以復(fù)現(xiàn)他們的實(shí)驗(yàn)結(jié)果,并在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)。這種開放共享的精神對于整個(gè)AI研究社區(qū)的發(fā)展具有重要意義。
總的來說,這項(xiàng)研究展現(xiàn)了從問題發(fā)現(xiàn)、理論分析、方法設(shè)計(jì)、實(shí)驗(yàn)驗(yàn)證到開放共享的完整研究鏈條,為相關(guān)領(lǐng)域的后續(xù)研究奠定了堅(jiān)實(shí)的基礎(chǔ)。相信隨著更多研究者的參與和改進(jìn),AI的視頻理解能力將會得到持續(xù)提升,最終讓我們在日常生活中享受到更可靠、更智能的AI服務(wù)。
Q&A
Q1:什么是AI的"視頻幻覺"?這和人看錯(cuò)東西有什么區(qū)別? A:AI的"視頻幻覺"是指AI模型在分析視頻時(shí)給出看似合理但實(shí)際錯(cuò)誤的答案,比如說視頻中有狗實(shí)際上是貓。與人看錯(cuò)東西不同,AI的錯(cuò)誤更加系統(tǒng)性和可預(yù)測,主要源于訓(xùn)練數(shù)據(jù)的局限性和模型架構(gòu)的不足,而人的錯(cuò)誤多是由于注意力分散或視覺錯(cuò)覺。
Q2:這種"思維訓(xùn)練"方法能完全解決AI看視頻出錯(cuò)的問題嗎? A:目前還不能完全解決,但已經(jīng)帶來了顯著改善。研究顯示準(zhǔn)確率提升了7.65%,偏差降低了4.5%。這就像讓學(xué)生學(xué)會了解題步驟,雖然不能保證100%正確,但明顯比之前更可靠。完全解決這個(gè)問題還需要在數(shù)據(jù)質(zhì)量、模型架構(gòu)等多個(gè)方面繼續(xù)改進(jìn)。
Q3:普通人現(xiàn)在能體驗(yàn)到這種改進(jìn)后的AI視頻理解技術(shù)嗎? A:目前這項(xiàng)研究還處于學(xué)術(shù)階段,普通用戶暫時(shí)無法直接體驗(yàn)。但研究團(tuán)隊(duì)已經(jīng)開源了代碼和數(shù)據(jù)(https://github.com/Hongcheng-Gao/HAVEN),相信不久的將來會有科技公司將這些技術(shù)集成到實(shí)際產(chǎn)品中,比如視頻搜索、內(nèi)容審核、智能監(jiān)控等應(yīng)用中。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。