近年來(lái),視頻內(nèi)容的創(chuàng)作與消費(fèi)顯著增長(zhǎng),這讓我們不禁思考:一段引人入勝的視頻到底需要什么?在這篇來(lái)自羅切斯特大學(xué)的Chao Huang、馬里蘭大學(xué)帕克分校的Ruohan Gao、Meta Reality Labs Research的J. M. F. Tsang、Jan Kurcius、Cagdas Bilen、羅切斯特大學(xué)的Chenliang Xu以及Meta Reality Labs Research的Anurag Kumar和Sanjeel Parekh聯(lián)合發(fā)表于2025年5月17日arXiv預(yù)印本(arXiv:2505.12154v1)的研究中,研究團(tuán)隊(duì)提出了一個(gè)全新的任務(wù):視覺(jué)引導(dǎo)的聲音高亮(visually-guided acoustic highlighting)。這項(xiàng)研究旨在讓視頻的聲音與畫(huà)面更加和諧統(tǒng)一,讓觀眾獲得更好的視聽(tīng)體驗(yàn)。
想象一下,你正在看一段海邊人物對(duì)話的視頻。畫(huà)面中既有人物也有海浪,但聲音卻很混亂——海浪聲蓋過(guò)了人物的說(shuō)話聲,讓你聽(tīng)不清內(nèi)容。在現(xiàn)實(shí)生活中,我們的視覺(jué)常常能夠"自動(dòng)聚焦"到重要的物體上,但音頻卻往往缺乏這種選擇性,特別是當(dāng)你使用普通攝像設(shè)備錄制時(shí),麥克風(fēng)會(huì)無(wú)差別地捕捉所有聲音。
這就是為什么研究團(tuán)隊(duì)提出"視覺(jué)引導(dǎo)的聲音高亮"這一任務(wù)——利用視頻的視覺(jué)信息來(lái)指導(dǎo)音頻的處理,使音頻中的重要元素(如對(duì)話中的人聲)在適當(dāng)?shù)臅r(shí)刻被"高亮"出來(lái),而背景音(如海浪聲)則在適當(dāng)時(shí)候被突出或弱化,從而創(chuàng)造出更協(xié)調(diào)的視聽(tīng)體驗(yàn)。
研究團(tuán)隊(duì)的核心發(fā)現(xiàn)是:電影中的音頻已經(jīng)經(jīng)過(guò)精心調(diào)配,可以作為"免費(fèi)的監(jiān)督信號(hào)"來(lái)訓(xùn)練模型。也就是說(shuō),專(zhuān)業(yè)電影制作人已經(jīng)在電影中創(chuàng)造了完美的視聽(tīng)體驗(yàn),我們可以從中學(xué)習(xí)如何高亮音頻?;谶@一洞察,研究團(tuán)隊(duì)創(chuàng)建了名為"THE MUDDY MIX DATASET"(混亂混音數(shù)據(jù)集)的新數(shù)據(jù)集,并提出了一種名為VisAH(Visually-guided Acoustic Highlighting,視覺(jué)引導(dǎo)的聲音高亮)的模型。
一、問(wèn)題背景:視聽(tīng)體驗(yàn)的不平衡
在視頻內(nèi)容創(chuàng)作中,視覺(jué)元素和聽(tīng)覺(jué)元素同樣重要。然而,與視覺(jué)處理相比,音頻處理技術(shù)相對(duì)落后。想一想,在攝影或視頻拍攝中,我們有各種技術(shù)來(lái)強(qiáng)調(diào)畫(huà)面中的重要元素——景深控制、焦點(diǎn)選擇、后期編輯等。但對(duì)于聲音,我們卻缺乏類(lèi)似的精細(xì)控制手段。
這種不平衡導(dǎo)致了一個(gè)常見(jiàn)問(wèn)題:即使視頻畫(huà)面很出色,音頻卻可能很混亂。就像我們前面提到的海邊場(chǎng)景,當(dāng)人物在海邊說(shuō)話時(shí),海浪聲可能掩蓋了人的聲音,使觀眾無(wú)法清晰聽(tīng)到對(duì)話內(nèi)容?;蛘咴谝粋€(gè)嘈雜的派對(duì)場(chǎng)景中,背景音樂(lè)可能太大聲,使人物對(duì)話難以聽(tīng)清。
傳統(tǒng)上,解決這個(gè)問(wèn)題的方法是先將混合的聲音分離成不同的來(lái)源(如人聲、背景音樂(lè)、環(huán)境音效),然后調(diào)整每個(gè)來(lái)源的音量,最后重新混合。但這種方法存在兩個(gè)主要缺點(diǎn):首先,聲音分離往往不完美,可能會(huì)導(dǎo)致不想要的聲音被錯(cuò)誤地突出;其次,手動(dòng)確保聲音與視頻的正確時(shí)間同步是一項(xiàng)繁瑣的工作。
在這項(xiàng)研究中,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的方法:不是簡(jiǎn)單地分離和重新混合聲音,而是學(xué)習(xí)如何根據(jù)視頻內(nèi)容來(lái)調(diào)整音頻,使聲音的高亮效果與視頻中的視覺(jué)重點(diǎn)保持一致。
二、研究方法:從電影中學(xué)習(xí)聲音高亮
研究團(tuán)隊(duì)的核心方法論基于一個(gè)巧妙的觀察:在專(zhuān)業(yè)制作的電影中,音頻已經(jīng)經(jīng)過(guò)精心調(diào)配,與視頻完美匹配。這意味著我們可以使用電影作為"教師",學(xué)習(xí)如何根據(jù)視頻內(nèi)容來(lái)高亮音頻。
具體來(lái)說(shuō),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三步流程來(lái)創(chuàng)建訓(xùn)練數(shù)據(jù):
首先是分離(Separation)。研究團(tuán)隊(duì)使用先進(jìn)的音頻分離技術(shù),將電影原聲分離成三個(gè)主要組成部分:人聲、音樂(lè)和音效。這個(gè)步驟模擬了現(xiàn)實(shí)世界中的音頻處理過(guò)程,但故意保留了一些分離的不完美性,以模擬真實(shí)情況。
接下來(lái)是調(diào)整(Adjustment)。研究團(tuán)隊(duì)有意地改變這些分離出來(lái)的音軌的相對(duì)音量。例如,他們可能會(huì)降低人聲的音量而提高背景音樂(lè)的音量,創(chuàng)造出一種"不平衡"的混音效果,這就像是一個(gè)錄制得不好的視頻中的音頻。
最后是重混(Remixing)。調(diào)整后的各個(gè)音軌被重新組合在一起,形成一個(gè)"混亂混音"的音頻,這將作為模型的輸入。而電影的原始音頻則作為"地面真實(shí)"(ground truth),也就是模型應(yīng)該輸出的理想音頻。
通過(guò)這種方式,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)包含約19,000個(gè)視頻片段的數(shù)據(jù)集,每個(gè)片段長(zhǎng)約10秒,來(lái)自各種類(lèi)型的電影。這個(gè)數(shù)據(jù)集為訓(xùn)練人工智能模型提供了豐富的學(xué)習(xí)材料。
三、技術(shù)創(chuàng)新:VisAH模型架構(gòu)
為了實(shí)現(xiàn)視覺(jué)引導(dǎo)的聲音高亮,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為VisAH的模型。這個(gè)模型的設(shè)計(jì)非常精巧,可以看作是一個(gè)"音頻翻譯器",它將混亂的音頻轉(zhuǎn)化為高亮的音頻,同時(shí)參考視頻內(nèi)容作為指導(dǎo)。
VisAH模型的架構(gòu)主要分為兩部分:音頻骨干網(wǎng)絡(luò)和上下文感知模塊。
音頻骨干網(wǎng)絡(luò)基于U-Net架構(gòu),采用雙編碼器設(shè)計(jì)。具體來(lái)說(shuō),它包含兩個(gè)分支:一個(gè)處理頻域信息(頻譜圖),另一個(gè)處理時(shí)域信息(波形)。這種雙路設(shè)計(jì)允許模型同時(shí)捕捉音頻的頻率特性和時(shí)間特性,從而更全面地理解音頻內(nèi)容。
在頻譜圖分支中,輸入的音頻首先通過(guò)短時(shí)傅里葉變換(STFT)轉(zhuǎn)換為頻譜圖,然后通過(guò)一系列卷積層進(jìn)行處理。在波形分支中,原始音頻波形直接通過(guò)一系列一維卷積層進(jìn)行處理。這兩個(gè)分支的輸出最終被合并,形成一個(gè)統(tǒng)一的音頻表示。
上下文感知模塊則負(fù)責(zé)整合視頻信息。研究團(tuán)隊(duì)使用了一個(gè)基于Transformer的設(shè)計(jì),包括兩個(gè)主要部分:上下文編碼器和音頻解碼器。
上下文編碼器使用CLIP ViT-L/14模型提取視頻的每一幀的視覺(jué)特征,形成一個(gè)視覺(jué)表示序列。此外,研究團(tuán)隊(duì)還探索了使用文本描述作為額外的上下文信息,使用InternVL2-8B模型為每一幀生成文本描述,并使用T5-XXL編碼器將這些描述編碼為文本表示。
音頻解碼器則是一個(gè)Transformer解碼器,它通過(guò)自注意力機(jī)制處理音頻特征,并通過(guò)交叉注意力機(jī)制將視頻上下文整合到音頻處理中。這使得模型能夠根據(jù)視頻內(nèi)容來(lái)調(diào)整音頻的高亮效果。
最終,模型輸出一個(gè)預(yù)測(cè)的高亮音頻,這個(gè)音頻與輸入音頻具有相同的內(nèi)容,但聲音的平衡和突出度根據(jù)視頻內(nèi)容進(jìn)行了優(yōu)化。
四、實(shí)驗(yàn)結(jié)果:模型表現(xiàn)與效果
研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn)來(lái)評(píng)估VisAH模型的性能。他們使用了多種客觀指標(biāo),包括波形距離(如MAG和ENV)、語(yǔ)義對(duì)齊(如KLD和?IB)以及時(shí)間對(duì)齊(如W-dis)。此外,他們還進(jìn)行了主觀評(píng)估,讓真實(shí)用戶比較不同方法生成的音頻質(zhì)量。
實(shí)驗(yàn)結(jié)果表明,VisAH模型在所有指標(biāo)上都顯著優(yōu)于基線方法。與輸入的混亂混音相比,VisAH模型在MAG指標(biāo)上改進(jìn)了56%,在ENV指標(biāo)上改進(jìn)了46%,在KLD指標(biāo)上改進(jìn)了47%,在?IB指標(biāo)上改進(jìn)了47%,在W-dis指標(biāo)上改進(jìn)了59%。這些結(jié)果表明VisAH模型能夠有效地根據(jù)視頻內(nèi)容來(lái)調(diào)整音頻的高亮效果。
主觀評(píng)估的結(jié)果也支持這一結(jié)論。在一項(xiàng)涉及九名參與者的用戶研究中,VisAH模型生成的音頻獲得了77%的前兩名排名率,遠(yuǎn)高于基線方法和輸入音頻。有趣的是,有34%的情況下,VisAH模型生成的音頻甚至被認(rèn)為比電影原聲更好,這表明該模型在某些情況下能夠產(chǎn)生超過(guò)專(zhuān)業(yè)混音效果的結(jié)果。
研究團(tuán)隊(duì)還進(jìn)行了多項(xiàng)消融實(shí)驗(yàn),以了解不同設(shè)計(jì)選擇對(duì)模型性能的影響。他們發(fā)現(xiàn):
使用上下文信息(如視頻幀或文本描述)對(duì)模型性能有顯著影響。不使用任何上下文信息的基線模型性能明顯較差。
時(shí)間上下文(即使用視頻的多個(gè)幀或連續(xù)的文本描述)比單一語(yǔ)義上下文(即僅使用單個(gè)幀或描述)更有效。這表明時(shí)間信息對(duì)于音頻高亮非常重要。
Transformer編碼器的層數(shù)對(duì)模型性能有影響,但這種影響在視覺(jué)和文本模態(tài)之間存在差異。對(duì)于視覺(jué)上下文,較少的編碼器層(3層)效果最好,而對(duì)于文本上下文,更多的編碼器層(6層)效果更佳。
數(shù)據(jù)集的難度級(jí)別對(duì)模型性能也有影響。研究團(tuán)隊(duì)創(chuàng)建了三個(gè)難度級(jí)別的測(cè)試集(低、中、高),發(fā)現(xiàn)隨著難度的降低,模型性能逐漸提高。這支持了數(shù)據(jù)集設(shè)計(jì)和指標(biāo)的有效性,同時(shí)也表明模型在各種難度級(jí)別上都能夠有效工作。
五、應(yīng)用案例:從電影到生活
這項(xiàng)研究的潛在應(yīng)用非常廣泛。最直接的應(yīng)用是改善日常視頻錄制的音頻質(zhì)量。想象一下,你用手機(jī)錄制了一段家庭聚會(huì)的視頻,但背景噪音太大,使得人物對(duì)話難以聽(tīng)清。使用VisAH模型,你可以自動(dòng)調(diào)整音頻,使對(duì)話聲更加清晰,同時(shí)保持適當(dāng)?shù)谋尘耙?,?chuàng)造更好的視聽(tīng)體驗(yàn)。
另一個(gè)有趣的應(yīng)用是改進(jìn)視頻到音頻生成的質(zhì)量。近年來(lái),人工智能生成視頻配音的技術(shù)取得了顯著進(jìn)展,但這些方法主要關(guān)注音頻與視頻的時(shí)間對(duì)齊,往往忽略了不同音源之間的微妙差異。研究團(tuán)隊(duì)展示了VisAH模型可以作為一種后處理方法,增強(qiáng)這些生成音頻的質(zhì)量,使其更符合電影般的視聽(tīng)體驗(yàn)。
此外,這項(xiàng)技術(shù)還可以應(yīng)用于網(wǎng)絡(luò)視頻的改進(jìn)。與電影不同,網(wǎng)絡(luò)視頻通常是在不太受控的環(huán)境中錄制的,這可能導(dǎo)致不理想的音頻效果。例如,在第一人稱(chēng)視角的視頻中,個(gè)人聲音可能過(guò)于強(qiáng)烈,或者由于距離或背景噪音,觀眾可能會(huì)被分散注意力。VisAH模型可以調(diào)整這些網(wǎng)絡(luò)視頻的音頻,提供更加電影般的視聽(tīng)體驗(yàn)。
六、局限性與未來(lái)方向
盡管VisAH模型在實(shí)驗(yàn)中表現(xiàn)出色,但它仍然存在一些局限性。研究團(tuán)隊(duì)識(shí)別了兩種常見(jiàn)的失敗情況:
當(dāng)一種聲音(如瀑布聲)壓倒性地主導(dǎo)音頻時(shí),模型可能難以適當(dāng)?shù)赝怀銎渌曇簦ㄈ缛寺暎?。這表明模型在處理極端不平衡的音頻時(shí)可能面臨挑戰(zhàn)。
在某些情況下,模型可能會(huì)根據(jù)視頻內(nèi)容突出某些聲音,但這種突出可能與電影原聲不一致。例如,在一個(gè)呼吸聲的例子中,模型根據(jù)視頻中的特寫(xiě)鏡頭突出了呼吸聲,但在電影原聲中,這個(gè)呼吸聲并沒(méi)有被強(qiáng)調(diào)。這說(shuō)明模型的判斷可能有時(shí)與專(zhuān)業(yè)音頻設(shè)計(jì)師的藝術(shù)決策不同。
研究團(tuán)隊(duì)還提出了幾個(gè)有前途的未來(lái)研究方向:
多模態(tài)條件融合:目前的模型使用視頻或其對(duì)應(yīng)的文本描述作為指導(dǎo),但如何更有效地整合這兩種模態(tài)仍是一個(gè)開(kāi)放性問(wèn)題。文本描述可以推斷電影的情感,補(bǔ)充視頻流。設(shè)計(jì)更復(fù)雜的策略來(lái)融合這些模態(tài)可能會(huì)提高性能。
數(shù)據(jù)集生成策略改進(jìn):研究團(tuán)隊(duì)提出的三步數(shù)據(jù)生成過(guò)程(分離、調(diào)整、重混)雖然有效,但每一步都可以進(jìn)一步改進(jìn)。例如,使用具有不同粒度級(jí)別的多個(gè)分離器可能會(huì)提供更大的靈活性和控制力。此外,用連續(xù)采樣替換離散的音量類(lèi)別可能會(huì)引入更多的變化性并挑戰(zhàn)模型。
總的來(lái)說(shuō),這項(xiàng)研究開(kāi)辟了一個(gè)新的研究方向,為創(chuàng)建更加和諧的視聽(tīng)體驗(yàn)提供了一個(gè)有前途的方法。隨著技術(shù)的進(jìn)一步發(fā)展,我們可以期待未來(lái)的視頻內(nèi)容創(chuàng)作工具能夠自動(dòng)調(diào)整音頻,使其與視頻內(nèi)容更加協(xié)調(diào),從而為觀眾提供更加沉浸式的視聽(tīng)體驗(yàn)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。