這項(xiàng)由卡內(nèi)基梅隆大學(xué)的Shikhar Bharadwaj、Samuele Cornell、Kwanghee Choi等研究者與日本產(chǎn)業(yè)技術(shù)綜合研究所合作完成的研究,發(fā)表于2025年7月的arXiv預(yù)印本平臺,有興趣深入了解的讀者可以通過論文編號arXiv:2507.14129v1訪問完整論文。
當(dāng)我們談到人工智能時,大多數(shù)人首先想到的是能聊天的ChatGPT或能畫畫的AI。但你有沒有想過,電腦如何才能真正"聽懂"這個世界?不僅僅是識別人類說話,而是理解鳥鳴、音樂、環(huán)境聲音,甚至回答關(guān)于聲音的問題?這正是卡內(nèi)基梅隆大學(xué)研究團(tuán)隊(duì)要解決的問題。他們開發(fā)了一個名為OpenBEATs的系統(tǒng),就像給電腦裝上了一雙無所不能的"耳朵"。
在人工智能的世界里,有一種神奇的學(xué)習(xí)方法叫做"掩碼預(yù)測"。你可以把它理解成一種特殊的猜謎游戲:給電腦展示一張圖片,但故意遮住其中一部分,讓它猜被遮住的內(nèi)容是什么。這種方法在文字處理和圖像識別方面已經(jīng)取得了巨大成功。但在音頻領(lǐng)域,這種技術(shù)的應(yīng)用還很有限。之前有一個叫BEATs的系統(tǒng)嘗試過,但它就像一個藏在深宮里的寶貝,研究代碼從未公開,讓其他研究者無法在此基礎(chǔ)上繼續(xù)改進(jìn)。
更重要的是,現(xiàn)有的音頻AI系統(tǒng)都有一個致命弱點(diǎn):它們就像只精通某一門手藝的專家,要么擅長識別環(huán)境聲音,要么精通音樂分析,要么專攻動物聲音,但很難做到樣樣精通。這就好比你請了三個不同的翻譯,一個只會翻譯文學(xué)作品,一個只會翻譯科技文檔,一個只會翻譯商務(wù)合同。每當(dāng)遇到跨領(lǐng)域的內(nèi)容時,它們就顯得力不從心。
OpenBEATs的出現(xiàn)就是要打破這種局面。研究團(tuán)隊(duì)不僅完全開放了訓(xùn)練代碼,讓全世界的研究者都能使用和改進(jìn),更重要的是,他們訓(xùn)練了一個真正的"全能選手"。這個AI系統(tǒng)能同時處理音樂、環(huán)境聲音和生物聲音,就像一個精通多國語言的超級翻譯官。
研究團(tuán)隊(duì)面臨的第一個挑戰(zhàn)是數(shù)據(jù)問題。原始的BEATs系統(tǒng)只在一個叫AudioSet的數(shù)據(jù)集上訓(xùn)練,這就像讓一個學(xué)生只讀一本教科書就要參加全科考試。OpenBEATs團(tuán)隊(duì)收集了來自多個領(lǐng)域的海量音頻數(shù)據(jù),總共20000小時,相當(dāng)于一個人不眠不休地聽兩年多。這些數(shù)據(jù)包括了從古典音樂到流行歌曲,從城市噪音到森林鳥鳴,從家庭寵物到野生動物的各種聲音。
但僅有數(shù)據(jù)還不夠,就像僅有食材不能自動變成美味佳肴一樣。研究團(tuán)隊(duì)還需要一個更強(qiáng)大的"大腦"來處理這些信息。他們將模型的參數(shù)從9000萬增加到3億,這就像把一臺普通電腦升級成超級計算機(jī)。參數(shù)的增加意味著模型能記住和處理更多的音頻特征,就像一個人的記憶力和理解力同時得到了大幅提升。
OpenBEATs采用的核心技術(shù)叫做"掩碼音頻建模",這個過程就像訓(xùn)練一個音頻偵探。系統(tǒng)會聽到一段音頻,但其中的某些片段被故意"靜音"了。AI需要根據(jù)能聽到的部分,推測出被靜音部分的內(nèi)容。這種訓(xùn)練方法迫使AI深入理解音頻的內(nèi)在規(guī)律和模式,而不是簡單地記住固定的音頻片段。
整個訓(xùn)練過程分為兩個相互配合的階段,就像培養(yǎng)一名優(yōu)秀的音樂家需要同時訓(xùn)練聽力和演奏技巧。第一階段是訓(xùn)練"編碼器",它負(fù)責(zé)理解音頻的含義;第二階段是訓(xùn)練"分詞器",它負(fù)責(zé)將連續(xù)的音頻信號轉(zhuǎn)換成計算機(jī)能處理的離散符號。這兩個組件相互促進(jìn),逐步提升整個系統(tǒng)的性能。
在編碼器訓(xùn)練階段,系統(tǒng)會收到被部分遮蔽的音頻,然后嘗試預(yù)測被遮蔽部分的內(nèi)容。這就像給你播放一首歌曲,但故意跳過某些片段,讓你猜測被跳過的部分是什么旋律。通過反復(fù)練習(xí)這種"完形填空"游戲,AI逐漸學(xué)會了理解音頻的深層結(jié)構(gòu)和語義信息。
分詞器的訓(xùn)練更像是教AI學(xué)會一種新的"音頻語言"。它需要將連續(xù)的音頻波形轉(zhuǎn)換成一系列離散的"詞匯",就像將流淌的河水裝進(jìn)一個個標(biāo)準(zhǔn)的水桶里。這個過程使用了一種叫做"知識蒸餾"的技術(shù),讓新的分詞器向已經(jīng)訓(xùn)練好的編碼器學(xué)習(xí),確保兩者能夠完美配合。
為了驗(yàn)證OpenBEATs的實(shí)際效果,研究團(tuán)隊(duì)設(shè)計了一套極其全面的測試方案。他們不僅測試了傳統(tǒng)的音頻分類任務(wù),還引入了更具挑戰(zhàn)性的音頻推理任務(wù),比如音頻問答、音頻蘊(yùn)含推理和音頻描述生成。這就像不僅要求學(xué)生能識別不同的樂器,還要能分析樂曲的情感表達(dá),甚至用文字描述音樂給人的感受。
在傳統(tǒng)的環(huán)境聲音識別任務(wù)中,OpenBEATs展現(xiàn)出了卓越的性能。在一個叫做DESED的數(shù)據(jù)集上,它在只有3億參數(shù)的情況下,性能超過了擁有12億參數(shù)的競爭對手Dasheng。這就像一個輕量級拳擊手擊敗了重量級對手,充分證明了良好架構(gòu)設(shè)計的重要性。
在生物聲學(xué)領(lǐng)域,OpenBEATs更是表現(xiàn)驚艷。在BEANS基準(zhǔn)測試的10個數(shù)據(jù)集中,它在6個數(shù)據(jù)集上獲得了最佳成績。無論是識別鳥類叫聲、分析蝙蝠聲納,還是檢測海洋哺乳動物的聲音,OpenBEATs都能游刃有余。這對于生態(tài)保護(hù)和生物研究具有重大意義,研究者可以用它來監(jiān)測瀕危動物的活動,分析生態(tài)系統(tǒng)的健康狀況。
在音頻推理任務(wù)方面,OpenBEATs展現(xiàn)出了真正的"智能"特征。當(dāng)給它播放一段音頻并提出問題時,它不僅能準(zhǔn)確識別音頻中的聲音類型,還能理解聲音之間的邏輯關(guān)系,甚至生成描述性的文字。比如,播放一段有雨聲和鳥鳴的音頻,它能理解這是"雨后清晨鳥兒在歌唱"這樣的復(fù)雜場景。
音樂理解方面,OpenBEATs同樣表現(xiàn)不俗。在GTZAN音樂類型分類任務(wù)中,它的準(zhǔn)確率達(dá)到89.1%,在NSynth樂器識別任務(wù)中準(zhǔn)確率為81.7%。這意味著它不僅能區(qū)分古典音樂和流行音樂,還能識別出音樂中使用的具體樂器,為音樂信息檢索和推薦系統(tǒng)提供了強(qiáng)大的技術(shù)支撐。
特別值得一提的是,OpenBEATs在處理跨域任務(wù)時展現(xiàn)出的泛化能力。當(dāng)它在一個領(lǐng)域訓(xùn)練后,能很好地適應(yīng)其他相關(guān)領(lǐng)域的任務(wù)。這就像一個學(xué)會了多種語言的人,在學(xué)習(xí)新語言時會比只會一種語言的人更容易上手。這種跨域遷移能力對于實(shí)際應(yīng)用具有重要價值,因?yàn)楝F(xiàn)實(shí)世界中的音頻環(huán)境往往是復(fù)雜多樣的。
研究團(tuán)隊(duì)還特別關(guān)注了模型的可擴(kuò)展性。他們發(fā)現(xiàn),隨著訓(xùn)練數(shù)據(jù)量和模型參數(shù)的增加,性能會持續(xù)提升,但這種提升遵循一定的規(guī)律。當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模后,繼續(xù)增加數(shù)據(jù)的收益會遞減,這時就需要增加模型的容量。這個發(fā)現(xiàn)為未來的研究指明了方向:如何在計算資源和性能之間找到最佳平衡點(diǎn)。
在實(shí)際應(yīng)用前景方面,OpenBEATs的潛力巨大。在環(huán)境監(jiān)測領(lǐng)域,它可以用來自動識別和分析城市噪音污染,幫助城市規(guī)劃者制定更好的降噪策略。在生態(tài)保護(hù)方面,它能夠自動監(jiān)測森林中的動物活動,為保護(hù)瀕危物種提供數(shù)據(jù)支持。在娛樂產(chǎn)業(yè)中,它可以用于音樂推薦、聲音設(shè)計和音頻內(nèi)容創(chuàng)作。在醫(yī)療健康領(lǐng)域,它甚至可能用于分析咳嗽聲來輔助疾病診斷。
說到底,OpenBEATs的出現(xiàn)標(biāo)志著我們在構(gòu)建真正通用的音頻理解系統(tǒng)方面邁出了重要一步。它不僅僅是一個技術(shù)工具,更像是給機(jī)器裝上了一雙敏銳的耳朵,讓機(jī)器能夠理解這個充滿聲音的世界。雖然目前它還不是完美的,在某些特定任務(wù)上仍有改進(jìn)空間,但它已經(jīng)展現(xiàn)出了成為真正"音頻通才"的潛力。
更重要的是,研究團(tuán)隊(duì)將所有的訓(xùn)練代碼、預(yù)訓(xùn)練模型和評估工具完全開源,這意味著全世界的研究者都可以在此基礎(chǔ)上繼續(xù)改進(jìn)和創(chuàng)新。這種開放的態(tài)度將大大加速整個領(lǐng)域的發(fā)展,讓更多有創(chuàng)意的應(yīng)用成為可能。
歸根結(jié)底,OpenBEATs代表了人工智能在音頻理解方面的一個重要里程碑。它證明了跨域訓(xùn)練和掩碼預(yù)測技術(shù)在音頻領(lǐng)域的巨大潛力,也為未來更先進(jìn)的音頻AI系統(tǒng)奠定了堅實(shí)基礎(chǔ)。隨著這項(xiàng)技術(shù)的不斷完善和普及,我們有理由期待一個機(jī)器能夠真正理解聲音世界的時代即將到來。
對于普通人來說,這意味著未來我們可能擁有更智能的語音助手,它們不僅能聽懂我們說話,還能理解周圍環(huán)境的聲音,提供更貼心的服務(wù)。也許不久的將來,你的手機(jī)就能告訴你窗外那只鳥的種類,或者根據(jù)環(huán)境聲音自動調(diào)節(jié)播放的背景音樂。這樣的未來,正在一步步變?yōu)楝F(xiàn)實(shí)。
Q&A
Q1:OpenBEATs是什么?它和普通的語音識別有什么區(qū)別? A:OpenBEATs是一個通用音頻理解系統(tǒng),不僅能識別人類語音,還能理解音樂、動物聲音、環(huán)境噪音等各種音頻。它就像給電腦裝了一雙萬能的耳朵,能聽懂整個聲音世界,而普通語音識別只能處理人類說話。
Q2:這項(xiàng)技術(shù)會不會很快應(yīng)用到我們的日常生活中? A:目前OpenBEATs還主要用于科研,但它的開源特性會加速實(shí)際應(yīng)用的開發(fā)。未來可能出現(xiàn)在智能音箱、環(huán)境監(jiān)測、音樂推薦等領(lǐng)域,讓我們的設(shè)備更好地理解周圍的聲音環(huán)境。
Q3:為什么說OpenBEATs比以前的系統(tǒng)更厲害? A:主要有三個優(yōu)勢:首先它是完全開源的,任何人都能使用和改進(jìn);其次它能同時處理多種類型的音頻,不像以前的系統(tǒng)只擅長某一領(lǐng)域;最后它還能進(jìn)行音頻推理,不僅識別聲音還能理解聲音的含義和關(guān)系。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。