av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<var id="o3aug"><strike id="o3aug"></strike></var>

<table id="o3aug"></table>

<ruby id="o3aug"><optgroup id="o3aug"></optgroup></ruby>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

分叉-合并解碼：提升音視頻大語言模型的多模態(tài)理解能力

多模態(tài)AI解碼技術(shù)音視頻理解

分叉-合并解碼：提升音視頻大語言模型的多模態(tài)理解能力

作者：科技行者

2025-06-04 17:53

分享至：

韓國科學(xué)技術(shù)院研究團(tuán)隊(duì)提出"分叉-合并解碼"方法，無需額外訓(xùn)練即可改善音視頻大語言模型的多模態(tài)理解能力。通過先獨(dú)立處理音頻和視頻（分叉階段），再融合結(jié)果（合并階段），該方法有效緩解了模型過度依賴單一模態(tài)的問題，在AVQA、MUSIC-AVQA和AVHBench三個(gè)基準(zhǔn)測(cè)試中均取得顯著性能提升，特別是在需要平衡音視頻理解的任務(wù)上表現(xiàn)突出。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-04 17:53 ? 科技行者

你是否曾有過這樣的經(jīng)歷：你想向AI描述一段視頻，但AI的回答完全忽略了背景音樂或?qū)υ挘炕蛘逜I對(duì)畫面的描述不夠準(zhǔn)確，卻能完美地捕捉到音頻內(nèi)容？這種"偏心"現(xiàn)象在AI世界中被稱為"模態(tài)偏差"，簡(jiǎn)單來說，就是AI在處理多種信息時(shí)（如視頻和音頻）傾向于過度依賴一種信息源，而忽略另一種。

近日，來自韓國科學(xué)技術(shù)院（KAIST）的研究團(tuán)隊(duì)，由Chaeyoung Jung、Youngjoon Jang（兩位為共同第一作者）、Jongmin Choi和Joon Son Chung共同撰寫的研究論文《Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models》，提出了一種巧妙的解決方案，讓AI能夠更平衡地理解視頻和音頻內(nèi)容。這項(xiàng)研究發(fā)表于2025年5月27日的arXiv預(yù)印本平臺(tái)（arXiv:2505.20873v1）。

想象一下，當(dāng)你同時(shí)看電視和聽音樂時(shí)，你的大腦會(huì)自然地區(qū)分這兩種信息，然后再把它們結(jié)合起來形成完整的理解。但目前的音視頻大語言模型（AV-LLMs）卻沒有這么聰明——它們往往會(huì)一股腦地同時(shí)處理所有信息，結(jié)果常常偏心于其中一種。

研究團(tuán)隊(duì)發(fā)現(xiàn)，目前的音視頻大語言模型在處理時(shí)往往會(huì)偏向視覺信息，而忽略音頻內(nèi)容。他們分析了VideoLLaMA2模型在AVHBench數(shù)據(jù)集上的表現(xiàn)，發(fā)現(xiàn)模型的注意力機(jī)制明顯更偏向于視頻輸入而非音頻。這就像一個(gè)人看電影時(shí)，全神貫注于畫面而忽略了對(duì)情節(jié)至關(guān)重要的對(duì)話和背景音樂。

為解決這個(gè)問題，研究團(tuán)隊(duì)提出了一種名為"分叉-合并解碼"（Fork-Merge Decoding，簡(jiǎn)稱FMD）的方法。這個(gè)方法不需要重新訓(xùn)練模型或修改模型結(jié)構(gòu)，只需在推理階段稍作調(diào)整。它的工作原理如下：

首先，在"分叉階段"，模型會(huì)分別處理"只有音頻"和"只有視頻"的輸入。這就像讓AI先單獨(dú)看一遍無聲視頻，再單獨(dú)聽一遍沒有畫面的音頻，強(qiáng)制它認(rèn)真對(duì)待每種信息。

然后，在"合并階段"，模型會(huì)將這兩次獨(dú)立處理的結(jié)果融合起來，綜合考慮音頻和視頻信息，形成最終的理解和回答。這就像你先分別理解電影的畫面和對(duì)話，然后把這些理解結(jié)合起來，獲得對(duì)整個(gè)電影的全面理解。

研究團(tuán)隊(duì)在VideoLLaMA2和video-SALMONN兩個(gè)代表性音視頻大語言模型上測(cè)試了這種方法，結(jié)果表明，F(xiàn)MD顯著提高了模型對(duì)音頻、視頻以及音視頻結(jié)合內(nèi)容的理解能力。最有趣的是，F(xiàn)MD特別擅長改善模型在需要重點(diǎn)關(guān)注音頻的任務(wù)上的表現(xiàn)，這正好彌補(bǔ)了當(dāng)前模型過度依賴視覺信息的短板。

在技術(shù)實(shí)現(xiàn)上，F(xiàn)MD方法首先通過將原始的多模態(tài)輸入分成兩個(gè)單模態(tài)分支來實(shí)現(xiàn)"分叉"：一個(gè)只包含視頻信息（音頻被屏蔽），另一個(gè)只包含音頻信息（視頻被屏蔽）。每個(gè)分支獨(dú)立地經(jīng)過模型的前幾層處理，生成模態(tài)特定的隱藏表示。然后在"合并"階段，這些表示被融合并通過剩余的解碼器層處理，產(chǎn)生最終的預(yù)測(cè)結(jié)果。

研究者們特別設(shè)計(jì)了一種基于注意力的融合策略，根據(jù)模型對(duì)不同模態(tài)內(nèi)容的關(guān)注程度動(dòng)態(tài)調(diào)整它們的權(quán)重。這就像一個(gè)平衡器，確保即使模型原本更"喜歡"看視頻，也能被"說服"去認(rèn)真傾聽音頻內(nèi)容。

實(shí)驗(yàn)結(jié)果顯示，在三個(gè)廣泛使用的音視頻基準(zhǔn)測(cè)試集（AVQA、MUSIC-AVQA和AVHBench）上，F(xiàn)MD方法都取得了一致的性能提升。特別是在那些需要模型理解音頻內(nèi)容或需要平衡音視頻理解的任務(wù)上，F(xiàn)MD的表現(xiàn)更為突出。

這項(xiàng)研究的意義不僅在于提出了一種簡(jiǎn)單有效的方法來改善音視頻AI的表現(xiàn)，更在于它揭示了一個(gè)重要的洞見：有時(shí)候，讓AI分開處理不同類型的信息，然后再把這些信息整合起來，比一開始就混合處理所有信息更有效。這有點(diǎn)像學(xué)習(xí)時(shí)的"分而治之"策略，先掌握各個(gè)部分，再理解整體。

對(duì)于普通用戶來說，這項(xiàng)研究意味著未來的AI助手可能會(huì)更好地理解包含音頻和視頻的內(nèi)容，比如更準(zhǔn)確地描述視頻中發(fā)生的事情，同時(shí)不忽略背景音樂或?qū)υ挼闹匾浴＿@將使AI在視頻內(nèi)容分析、多媒體搜索、輔助技術(shù)等領(lǐng)域的應(yīng)用更加強(qiáng)大和實(shí)用。

讓我們以一個(gè)具體例子來理解FMD的優(yōu)勢(shì)：假設(shè)你向AI展示一段婚禮視頻，視頻中新娘正在走紅毯，背景播放著婚禮進(jìn)行曲。使用傳統(tǒng)方法的AI可能會(huì)告訴你："視頻中有一位穿白色婚紗的女士在走紅毯"，完全忽略了音樂元素。而經(jīng)過FMD增強(qiáng)的AI則可能回答："視頻中有一位穿白色婚紗的女士在走紅毯，背景播放著經(jīng)典的婚禮進(jìn)行曲，營造出莊重而喜悅的氛圍。"這種全面的理解對(duì)于真正有用的AI助手來說至關(guān)重要。

總的來說，這項(xiàng)研究為改善音視頻大語言模型的多模態(tài)理解能力提供了一種簡(jiǎn)單、高效且無需額外訓(xùn)練的方法，為未來AI更好地理解和處理復(fù)雜的多媒體內(nèi)容鋪平了道路。

多模態(tài)AI解碼技術(shù)音視頻理解

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn