這項(xiàng)由羅切斯特大學(xué)的Susan Liang與Meta公司Codec Avatars實(shí)驗(yàn)室的Dejan Markovic、Israel D. Gebru、Steven Krenn、Todd Keebler、Jacob Sandakly、Frank Yu、Samuel Hassel、Chenliang Xu和Alexander Richard共同完成的研究,發(fā)表于2025年5月的第42屆國際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025)。有興趣深入了解的讀者可通過文中項(xiàng)目頁面https://liangsusan-git.github.io/project/binauralflow/訪問更多演示視頻。
一、聲音也能"身臨其境"?認(rèn)識(shí)雙耳空間音頻
想象這樣一個(gè)場(chǎng)景:你戴著耳機(jī),閉上眼睛。突然,你聽到有人在你左邊說話,聲音從遠(yuǎn)到近;接著,腳步聲從你背后繞到右邊,仿佛真有人在你周圍移動(dòng)。這種能讓聲音在三維空間中精確定位的技術(shù),就是我們今天要講的"雙耳空間音頻"(也稱為"雙耳聲音"或"3D音頻")。
與普通的單聲道音頻(只有內(nèi)容,沒有空間感)不同,雙耳空間音頻通過兩個(gè)音頻通道(對(duì)應(yīng)你的左右耳),創(chuàng)造出聲音來自不同方向和距離的感覺。這種技術(shù)對(duì)提升沉浸感和用戶體驗(yàn)至關(guān)重要,被廣泛應(yīng)用于電影、游戲,以及虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)和混合現(xiàn)實(shí)(MR)等快速發(fā)展的領(lǐng)域。
雖然研究人員在這個(gè)領(lǐng)域已經(jīng)做了大量工作,但現(xiàn)有的雙耳音頻合成方法仍面臨兩大挑戰(zhàn):一是渲染質(zhì)量不夠高,無法達(dá)到與真實(shí)錄音無法區(qū)分的程度;二是無法實(shí)現(xiàn)因果性和流式推理,也就是說,無法實(shí)時(shí)連續(xù)地生成高質(zhì)量的空間音頻。
Meta和羅切斯特大學(xué)的研究團(tuán)隊(duì)提出了一種名為"BinauralFlow"的全新解決方案,這是一種基于流匹配模型(Flow Matching Models)的雙耳語音合成框架,不僅能生成高質(zhì)量的雙耳音頻,還支持流式推理,讓音頻合成過程能夠?qū)崟r(shí)連續(xù)進(jìn)行。
二、傳統(tǒng)方法難以逾越的障礙
為什么生成真正逼真的雙耳音頻如此之難?要回答這個(gè)問題,我們需要理解聲音在現(xiàn)實(shí)世界中的傳播特性。
想象你站在一個(gè)房間里,有人在說話。這個(gè)聲音到達(dá)你耳朵的過程中會(huì)發(fā)生很多事情:聲源與聽者之間的距離會(huì)影響聲音的整體音量(越遠(yuǎn)音量越?。?;它們的相對(duì)方向會(huì)影響你感知到的聲音方向(例如,時(shí)間差和音量差);聲音會(huì)在房間內(nèi)的墻壁、地板、天花板和物體上反射,產(chǎn)生回聲和混響;房間內(nèi)還會(huì)有各種背景噪音,如空調(diào)聲、電子設(shè)備的嗡鳴等。
現(xiàn)有的方法大致可分為兩類:數(shù)字音頻渲染和神經(jīng)音頻渲染。
數(shù)字音頻渲染方法使用數(shù)字信號(hào)處理技術(shù),通過一系列線性時(shí)不變系統(tǒng)來估計(jì)雙耳音頻,包括房間沖激響應(yīng)、頭部相關(guān)傳遞函數(shù)和疊加環(huán)境噪聲。但由于簡(jiǎn)化的幾何模擬、非個(gè)性化的頭部相關(guān)傳遞函數(shù)和假設(shè)的靜態(tài)噪聲,真實(shí)錄音和生成聲音之間存在明顯的質(zhì)量差距。
神經(jīng)音頻渲染方法則利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大擬合能力。比如,Gao和Grauman開發(fā)了一種視覺引導(dǎo)的雙耳化網(wǎng)絡(luò),根據(jù)視頻幀生成雙耳音頻;Richard等人設(shè)計(jì)了一個(gè)神經(jīng)變形網(wǎng)絡(luò),根據(jù)時(shí)間延遲和聽者位置來變形單聲道音頻。雖然這些方法能夠產(chǎn)生合理的語音結(jié)果,但它們的回歸機(jī)制限制了生成能力,無法生成輸入數(shù)據(jù)中缺失的精確房間聲學(xué)和環(huán)境噪聲。
此外,大多數(shù)先進(jìn)的神經(jīng)渲染方法不支持連續(xù)合成,這是因?yàn)樗鼈兪褂梅且蚬P图軜?gòu)和低效的多步推理程序。
三、BinauralFlow:重新思考音頻生成
為了解決上述問題,研究團(tuán)隊(duì)提出了BinauralFlow,這是一個(gè)流匹配的流式雙耳語音生成框架。這個(gè)方法的核心是將雙耳渲染問題視為一個(gè)生成任務(wù),而不是傳統(tǒng)的回歸任務(wù)。
### 1. 條件流匹配模型:雙耳音頻的魔法烹飪
傳統(tǒng)方法嘗試用回歸方式預(yù)測(cè)混響效果和背景噪聲是很困難的,因?yàn)檫@些特征在輸入音頻信號(hào)中不存在,而且它們表現(xiàn)出隨機(jī)行為。BinauralFlow將這個(gè)問題重新定義為一個(gè)生成任務(wù)。
想象流匹配模型就像一位廚師,開始時(shí)有一堆原料(噪聲),通過精確控制的烹飪過程(去噪過程),最終做出一道美味佳肴(雙耳音頻)。這個(gè)"烹飪"過程需要遵循一個(gè)"食譜"(向量場(chǎng)),告訴廚師每一步如何處理食材。
具體來說,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)條件流匹配模型,通過增強(qiáng)感知真實(shí)性來渲染逼真的聲學(xué)效果和動(dòng)態(tài)環(huán)境噪聲。為了增強(qiáng)渲染的雙耳語音與精確的雙耳提示,他們將模型條件設(shè)置為聲源和接收者的姿態(tài),以指導(dǎo)語音渲染。
在技術(shù)層面,這個(gè)過程首先將單聲道音頻和雙耳音頻從時(shí)間域轉(zhuǎn)換到時(shí)頻域,使用短時(shí)傅里葉變換(STFT)。然后,模型采樣一個(gè)隨機(jī)噪聲,中心在單聲道輸入周圍。流匹配模型的目標(biāo)是設(shè)計(jì)一個(gè)流,將源數(shù)據(jù)(噪聲)移動(dòng)到目標(biāo)數(shù)據(jù)(雙耳音頻)。
研究團(tuán)隊(duì)使用了最優(yōu)傳輸公式來定義流函數(shù),它在時(shí)間步t是源和目標(biāo)之間的線性插值。當(dāng)t=0時(shí),分布圍繞單聲道音頻;當(dāng)t逐漸增加,分布的均值線性地從單聲道移向雙耳音頻,同時(shí)標(biāo)準(zhǔn)差減小。t=1時(shí),分布收縮到雙耳音頻。
通過這種方式,定義的流將圍繞輸入音頻中心的樣本移動(dòng)到雙耳音頻,方差逐漸減小。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)深度神經(jīng)網(wǎng)絡(luò)來匹配向量場(chǎng),使用條件流匹配L1損失函數(shù),同時(shí)將模型預(yù)測(cè)條件設(shè)置為說話者和聽者的姿態(tài),以精確建模雙耳線索。
### 2. 因果U-Net架構(gòu):時(shí)間只向前流動(dòng)
現(xiàn)有的流匹配模型通常無法支持連續(xù)推理,這是因?yàn)榉且蚬P图軜?gòu)和多步推理要求。流行的生成框架通常使用由卷積和注意力塊組成的非因果U-Net作為骨干網(wǎng)絡(luò)。非因果卷積核和全局感知的注意力計(jì)算機(jī)制在渲染過程中破壞了時(shí)間因果性。
為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了一種因果U-Net架構(gòu),通過精心設(shè)計(jì)因果2D卷積塊,使下一個(gè)音頻塊的預(yù)測(cè)僅依賴于過去的塊。
想象這就像是一本書的連載,作者只能根據(jù)已經(jīng)寫下的章節(jié)來創(chuàng)作新章節(jié),而不能基于還未寫出的未來情節(jié)。同樣,因果U-Net架構(gòu)確保音頻生成過程只依賴于已經(jīng)處理過的歷史信息。
具體來說,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)因果U-Net,它有一個(gè)收縮部分和一個(gè)擴(kuò)展部分,中間有跳躍連接。每個(gè)部分由幾個(gè)因果2D CNN塊組成。每個(gè)塊包含規(guī)范化和激活層、因果卷積層和可選的因果下采樣/上采樣層。
在規(guī)范化和激活層中,他們使用組歸一化來穩(wěn)定訓(xùn)練,但將計(jì)算限制在每個(gè)單獨(dú)幀上,而不是所有幀,以確保因果性。他們使用Sigmoid線性單元作為激活函數(shù)。因果卷積層是具有1的步長(zhǎng)和2的單側(cè)填充的3x3卷積層。單側(cè)填充將卷積核的感受野限制在歷史信息中。
由于U-Net需要在每個(gè)塊中減少或增加特征維度,他們?cè)O(shè)計(jì)了一個(gè)因果下采樣/上采樣層。因果下采樣層包含一個(gè)步長(zhǎng)為2的4x4卷積函數(shù),它將特征維度減半。因果上采樣層包含一個(gè)4x4轉(zhuǎn)置卷積函數(shù),它使特征維度加倍。
### 3. 連續(xù)推理管道:無縫流式音頻的秘密
僅有因果骨干網(wǎng)絡(luò)還不足以進(jìn)行流式推理,因?yàn)樯赡P托枰亩嗖缴蛇^程。生成性擴(kuò)散和流匹配模型依賴于一個(gè)迭代去噪過程,需要幾個(gè)步驟來完成生成過程。
為了實(shí)現(xiàn)連續(xù)生成,需要確保所有推理步驟的時(shí)間因果性。為此,研究團(tuán)隊(duì)構(gòu)建了一個(gè)連續(xù)推理管道,包括流式STFT/ISTFT操作、緩沖區(qū)庫、中點(diǎn)求解器和早期跳過計(jì)劃。
這就像是一條高效的裝配線,原材料(單聲道音頻塊)進(jìn)入后,經(jīng)過一系列精確協(xié)調(diào)的工作站處理,最終連續(xù)不斷地輸出成品(雙耳音頻)。即使新的原材料不斷到達(dá),整個(gè)過程也能無縫運(yùn)行,不會(huì)出現(xiàn)中斷或不連續(xù)。
具體來說,流式STFT/ISTFT通過添加緩沖區(qū)和調(diào)整填充方式來適應(yīng)流式處理。在因果U-Net中,他們?yōu)槊總€(gè)因果卷積層引入緩沖區(qū),存儲(chǔ)當(dāng)前音頻塊的隱藏特征。這些緩沖區(qū)用于填充下一個(gè)音頻塊。
由于去噪過程涉及多個(gè)推理步驟,在所有步驟中重用同一緩沖區(qū)會(huì)覆蓋歷史信息。為解決這個(gè)問題,他們構(gòu)建了一個(gè)基于字典的緩沖區(qū)庫,存儲(chǔ)所有時(shí)間步驟t的網(wǎng)絡(luò)緩沖區(qū)。
對(duì)于求解常微分方程,他們選擇中點(diǎn)求解器,因?yàn)樗苡行p少函數(shù)評(píng)估次數(shù),同時(shí)保持性能。此外,為進(jìn)一步減少函數(shù)評(píng)估次數(shù),他們提出了一個(gè)早期跳過計(jì)劃。
標(biāo)準(zhǔn)時(shí)間計(jì)劃將0到1的區(qū)間分成相等的段,并從0到1順序移動(dòng)。他們?cè)O(shè)計(jì)了兩個(gè)新計(jì)劃:跳過前半段的早期跳過計(jì)劃和避免后半段的晚期跳過計(jì)劃。他們發(fā)現(xiàn)使用早期跳過計(jì)劃不會(huì)影響渲染質(zhì)量,而晚期跳過會(huì)降低性能,背景噪聲建模更差。他們推測(cè)流匹配可能能夠在推理的后半部分糾正前半部分的錯(cuò)誤,所以即使進(jìn)行早期跳過,也不會(huì)明顯影響性能。因此,他們使用早期跳過策略將推理步驟減少到6步。相比之下,SGMSE模型需要30步才能生成可比結(jié)果。
四、實(shí)驗(yàn)驗(yàn)證:BinauralFlow的驚人表現(xiàn)
為了評(píng)估BinauralFlow的效果,研究團(tuán)隊(duì)收集了一個(gè)新的高質(zhì)量雙耳數(shù)據(jù)集。他們?cè)跊]有顯著隔音或吸音材料的標(biāo)準(zhǔn)房間中錄制了10小時(shí)的配對(duì)單聲道和雙耳數(shù)據(jù),以及說話者和聽者的頭部姿勢(shì)。為了匹配真實(shí)世界場(chǎng)景,他們收集了來自多個(gè)空調(diào)通風(fēng)口和電子設(shè)備的背景噪聲。此外,他們沒有使用雙耳人體模型和揚(yáng)聲器,而是讓真實(shí)參與者擔(dān)任說話者和聽者。在錄制過程中,說話者可以在房間內(nèi)自由移動(dòng),聽者可以坐在椅子上自由轉(zhuǎn)動(dòng)頭部。
他們將數(shù)據(jù)集分為訓(xùn)練/驗(yàn)證/測(cè)試子集,分別為8.47/0.86/1.33小時(shí)。測(cè)試子集包含兩名在訓(xùn)練期間未見過的額外說話者,一男一女。
研究團(tuán)隊(duì)將他們的方法與數(shù)字音頻渲染和更先進(jìn)的神經(jīng)音頻渲染方法進(jìn)行了比較。他們選擇SoundSpaces 2.0作為DSP基線,使用2.5D Visual Sound、WaveNet和WarpNet作為基于回歸的基線,并使用BinauralGrad和SGMSE作為生成性基線。BinauralGrad是雙耳語音合成任務(wù)的最先進(jìn)方法,是一個(gè)兩階段擴(kuò)散模型。
量化評(píng)估結(jié)果顯示,BinauralFlow在所有指標(biāo)上都大幅超過現(xiàn)有基線。與先前的最佳模型相比,BinauralFlow在波形L2誤差上降低了35.5%,在幅度L2誤差上降低了6.6%。此外,BinauralFlow的推理速度比其他生成模型快得多,達(dá)到了更有利的性能和推理速度之間的平衡。
質(zhì)量比較也直觀地展示了BinauralFlow的優(yōu)勢(shì)。SoundSpaces方法估計(jì)了傳輸單聲道音頻和接收雙耳音頻之間的不準(zhǔn)確時(shí)間延遲。BinauralGrad和SGMSE預(yù)測(cè)了準(zhǔn)確的時(shí)間延遲,但它們的振幅不匹配。相比之下,BinauralFlow模型正確預(yù)測(cè)了時(shí)間延遲和音頻振幅。
最重要的是,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)全面的感知評(píng)估,以評(píng)估渲染輸出的質(zhì)量和真實(shí)性。他們招募了23名參與者,請(qǐng)他們完成ABX測(cè)試、A-B測(cè)試和MUSHRA評(píng)估。ABX測(cè)試測(cè)量生成聲音和錄制聲音(基準(zhǔn)真實(shí))之間是否有可感知的差異。A-B測(cè)試測(cè)量用戶是否能可靠地識(shí)別生成聲音與真實(shí)聲音。MUSHRA評(píng)估讓受試者根據(jù)環(huán)境(環(huán)境噪聲和混響)和空間化(聲源位置)的相似性對(duì)參考(基準(zhǔn)真實(shí))和生成樣本進(jìn)行評(píng)分。
感知評(píng)估結(jié)果顯示,BinauralFlow在所有任務(wù)中都明顯優(yōu)于其他方法。特別是在A-B測(cè)試中,他們實(shí)現(xiàn)了42%的混淆率(上限是50%),表明用戶幾乎無法區(qū)分他們生成的聲音和錄制的樣本。這一結(jié)果證明了BinauralFlow在渲染真實(shí)性方面的卓越表現(xiàn)。
五、深入分析與未來方向
研究團(tuán)隊(duì)還分析了不同設(shè)計(jì)選擇對(duì)他們的雙耳語音合成框架的影響。
首先,他們比較了提出的流匹配模型和簡(jiǎn)化流匹配框架的性能。他們的方法在L2、Mag和Phase誤差上都取得了更好的結(jié)果,證明了其條件流匹配方法的有效性。
其次,他們比較了連續(xù)推理管道和非流式推理管道,并展示了生成的譜圖。給定一系列音頻塊,非流式管道單獨(dú)雙耳化每個(gè)塊,導(dǎo)致相鄰塊之間出現(xiàn)明顯的偽影。相比之下,他們的管道合成無縫平滑的譜圖。
他們還計(jì)算了不同函數(shù)評(píng)估數(shù)量下模型的實(shí)時(shí)因子。當(dāng)NFE設(shè)置為6時(shí),實(shí)時(shí)因子為0.239。如果犧牲一些性能以實(shí)現(xiàn)更快的推理,將NFE設(shè)置為1會(huì)導(dǎo)致RTF為0.04。這表明他們的模型有實(shí)時(shí)流式生成的潛力。
最后,由于在真實(shí)世界場(chǎng)景中錄制10小時(shí)數(shù)據(jù)的成本高昂且費(fèi)力,研究團(tuán)隊(duì)開發(fā)了一種大規(guī)模預(yù)訓(xùn)練策略。他們使用揚(yáng)聲器和人工雙耳頭代替真實(shí)個(gè)體,收集了一個(gè)包含超過7,700小時(shí)雙耳音頻數(shù)據(jù)的大規(guī)模數(shù)據(jù)集,涵蓋了來自英語多說話者VCTK語料庫的97個(gè)說話者身份。實(shí)驗(yàn)結(jié)果表明,這種預(yù)訓(xùn)練策略顯著提高了性能,預(yù)訓(xùn)練模型的零樣本性能與僅使用1%或5%真實(shí)數(shù)據(jù)從頭開始訓(xùn)練的模型相當(dāng)或超過它。這證明了他們模型的強(qiáng)大泛化能力及其在各種應(yīng)用中的潛力。
六、總結(jié):聲音也能有"3D效果"
歸根結(jié)底,BinauralFlow代表了雙耳音頻合成領(lǐng)域的一個(gè)重大突破。通過將雙耳渲染問題重新定義為一個(gè)生成任務(wù),而不是傳統(tǒng)的回歸任務(wù),研究團(tuán)隊(duì)創(chuàng)造了一個(gè)能夠產(chǎn)生高度逼真空間音頻的系統(tǒng),這些音頻幾乎無法與真實(shí)世界錄音區(qū)分開來。
更重要的是,通過精心設(shè)計(jì)的因果U-Net架構(gòu)和連續(xù)推理管道,BinauralFlow實(shí)現(xiàn)了流式推理能力,使其非常適合需要實(shí)時(shí)音頻生成的應(yīng)用,如實(shí)時(shí)語音合成、交互式游戲或增強(qiáng)現(xiàn)實(shí)系統(tǒng)。
這項(xiàng)技術(shù)的潛在應(yīng)用非常廣泛:從創(chuàng)造更身臨其境的虛擬現(xiàn)實(shí)體驗(yàn),到改善視頻會(huì)議中的音頻質(zhì)量,再到為聽力受損者開發(fā)更好的輔助設(shè)備。想象一下,未來的AR眼鏡可能能夠?qū)崟r(shí)將周圍環(huán)境的聲音轉(zhuǎn)換為高度個(gè)性化的空間音頻,大大提升用戶體驗(yàn)。
如果你對(duì)這項(xiàng)技術(shù)感興趣,可以訪問研究團(tuán)隊(duì)的項(xiàng)目頁面(https://liangsusan-git.github.io/project/binauralflow/)查看演示視頻,親身體驗(yàn)BinauralFlow的神奇效果。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。