這項(xiàng)由斯坦福大學(xué)電氣工程系的Prateek Verma和Mert Pilanci教授領(lǐng)導(dǎo)的研究發(fā)表于2025年9月,論文編號(hào)為arXiv:2509.19676v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整論文。
當(dāng)你在廚房里聽(tīng)到一個(gè)聲音時(shí),大腦會(huì)做什么?它不會(huì)立即下結(jié)論,而是像個(gè)經(jīng)驗(yàn)豐富的偵探一樣,先收集線索,然后逐步推理。如果只聽(tīng)到很短的"咔嚓"聲,你可能猜測(cè)是有東西掉了。但如果接著聽(tīng)到水流聲和金屬碰撞聲,你就會(huì)修正判斷——原來(lái)是有人在洗碗。這種"邊聽(tīng)邊思考"的能力正是人類大腦的獨(dú)特之處,而現(xiàn)在,斯坦福大學(xué)的研究團(tuán)隊(duì)首次讓人工智能學(xué)會(huì)了這種技能。
傳統(tǒng)的人工智能音頻識(shí)別系統(tǒng)就像一個(gè)只看最后一幕的觀眾——它們只在聽(tīng)完整段音頻后才給出一個(gè)答案,無(wú)法體驗(yàn)到人類那種逐步分析、不斷修正判斷的思考過(guò)程。這就好比讓一個(gè)人蒙著眼睛摸大象,只有在摸完整頭大象后才能說(shuō)"這是大象",而無(wú)法在摸到象鼻時(shí)就開(kāi)始形成初步印象。
斯坦福團(tuán)隊(duì)的創(chuàng)新在于讓人工智能能夠像人類一樣"邊聽(tīng)邊想"。他們的系統(tǒng)會(huì)把音頻切成很多小段,每段只有半秒鐘,然后對(duì)每一小段都進(jìn)行分析和猜測(cè)。更巧妙的是,系統(tǒng)不會(huì)只給出一個(gè)答案,而是會(huì)產(chǎn)生多個(gè)可能的猜測(cè),就像一個(gè)偵探在案發(fā)現(xiàn)場(chǎng)會(huì)考慮多種可能性一樣。
整個(gè)過(guò)程就像在拼拼圖。當(dāng)人工智能聽(tīng)到第一個(gè)半秒的聲音片段時(shí),它可能會(huì)猜測(cè)"這可能是鳥(niǎo)叫聲"、"也可能是小孩的聲音"或"還可能是某種樂(lè)器"。然后當(dāng)它聽(tīng)到第二個(gè)片段時(shí),會(huì)結(jié)合之前的信息重新評(píng)估:"結(jié)合剛才的聲音,這更像是鳥(niǎo)叫聲了。"隨著聽(tīng)到的片段越來(lái)越多,系統(tǒng)的判斷也越來(lái)越準(zhǔn)確,就像拼圖逐漸顯現(xiàn)出完整圖案一樣。
研究團(tuán)隊(duì)巧妙地利用了大型語(yǔ)言模型來(lái)充當(dāng)"推理大腦"。這些語(yǔ)言模型就像經(jīng)驗(yàn)豐富的偵探頭腦,能夠分析系統(tǒng)收集到的所有"證據(jù)"(每個(gè)音頻片段的猜測(cè)結(jié)果),然后綜合這些信息得出最終結(jié)論。有趣的是,研究人員發(fā)現(xiàn),即使是相對(duì)較小的語(yǔ)言模型,只要經(jīng)過(guò)適當(dāng)?shù)挠?xùn)練,也能勝過(guò)那些參數(shù)量達(dá)到數(shù)百億的大型模型。
這種方法帶來(lái)了顯著的性能提升。在ESC-50這個(gè)包含50種日常聲音的標(biāo)準(zhǔn)測(cè)試集上,系統(tǒng)的準(zhǔn)確率從原來(lái)的84%提升到了88.3%,幾乎達(dá)到了那些經(jīng)過(guò)完整訓(xùn)練的專業(yè)模型的水平。更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn),讓系統(tǒng)"思考"得越久(產(chǎn)生更多的推理步驟),準(zhǔn)確率就越高,這正符合"三思而后行"的道理。
研究的技術(shù)實(shí)現(xiàn)過(guò)程就像教會(huì)一個(gè)學(xué)生如何做閱讀理解。首先,系統(tǒng)需要學(xué)會(huì)把長(zhǎng)音頻分解成可管理的小段,這就像把一篇長(zhǎng)文章分成段落。然后,對(duì)每個(gè)小段都要進(jìn)行多次"思考",產(chǎn)生不同的可能解釋,這如同學(xué)生在閱讀每個(gè)段落時(shí)都會(huì)在心中產(chǎn)生多種理解。最后,所有這些局部理解會(huì)被送到一個(gè)"總結(jié)大腦"中,這個(gè)大腦會(huì)綜合所有信息,得出對(duì)整段音頻的最終判斷。
在實(shí)際應(yīng)用中,這種技術(shù)可能會(huì)徹底改變我們與聲音相關(guān)的各種應(yīng)用。比如,智能家居系統(tǒng)可以更準(zhǔn)確地識(shí)別是門(mén)鈴聲還是電話鈴聲,語(yǔ)音助手可以更好地理解復(fù)雜的語(yǔ)音指令,醫(yī)療設(shè)備可以更精確地分析心跳或呼吸聲的異常。甚至在工業(yè)環(huán)境中,這種技術(shù)可以幫助檢測(cè)機(jī)器設(shè)備的運(yùn)行狀態(tài),通過(guò)"傾聽(tīng)"設(shè)備的聲音來(lái)預(yù)測(cè)可能的故障。
研究團(tuán)隊(duì)還探索了不同規(guī)模語(yǔ)言模型的表現(xiàn)。他們測(cè)試了包括GPT-OSS-20B和Qwen3-14B在內(nèi)的多個(gè)開(kāi)源推理模型,發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:有時(shí)候,一個(gè)較小但經(jīng)過(guò)精心訓(xùn)練的模型(比如GPT-2)在特定任務(wù)上的表現(xiàn)可能超過(guò)那些參數(shù)量更大的模型。這就好比一個(gè)專業(yè)的廚師可能比一個(gè)博學(xué)的教授更善于識(shí)別食物的味道,專業(yè)性往往比通用性更重要。
這項(xiàng)研究的意義遠(yuǎn)不止于提高音頻識(shí)別的準(zhǔn)確率。它代表了人工智能發(fā)展的一個(gè)重要方向:從簡(jiǎn)單的輸入輸出模式轉(zhuǎn)向更像人類的思考模式。傳統(tǒng)的人工智能就像一個(gè)只會(huì)背標(biāo)準(zhǔn)答案的學(xué)生,而這種新方法培養(yǎng)的是一個(gè)會(huì)分析、會(huì)推理、會(huì)逐步完善判斷的學(xué)生。
研究團(tuán)隊(duì)在兩個(gè)主要數(shù)據(jù)集上驗(yàn)證了他們的方法。ESC-50數(shù)據(jù)集包含了2000個(gè)日常環(huán)境聲音樣本,每個(gè)樣本5秒鐘,涵蓋50種不同類型的聲音,從動(dòng)物叫聲到機(jī)械噪音應(yīng)有盡有。另一個(gè)數(shù)據(jù)集FSD-50K則更加復(fù)雜,包含了來(lái)自1秒音頻片段的200個(gè)類別,而且一個(gè)音頻片段可能同時(shí)包含多種聲音,這就像要求系統(tǒng)在一個(gè)嘈雜的市場(chǎng)中同時(shí)識(shí)別出叫賣聲、汽車聲和音樂(lè)聲。
在技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)采用了一種叫做"測(cè)試時(shí)擴(kuò)展"的策略。這個(gè)概念聽(tīng)起來(lái)復(fù)雜,但實(shí)際上很簡(jiǎn)單:就是在做決定之前讓系統(tǒng)多想幾遍。就像我們?cè)谧鲋匾獩Q定時(shí)會(huì)反復(fù)思考一樣,系統(tǒng)也會(huì)對(duì)同一段音頻進(jìn)行多次分析,每次都可能產(chǎn)生不同的理解,然后綜合這些理解得出最終答案。實(shí)驗(yàn)證明,思考次數(shù)越多,準(zhǔn)確率越高,這驗(yàn)證了"慎重考慮"的價(jià)值。
值得一提的是,這種方法不需要重新訓(xùn)練整個(gè)神經(jīng)網(wǎng)絡(luò),而是可以直接應(yīng)用到現(xiàn)有的預(yù)訓(xùn)練模型上。這就像給一個(gè)已經(jīng)很聰明的學(xué)生配了一個(gè)優(yōu)秀的思維導(dǎo)師,學(xué)生本身的知識(shí)不需要改變,但思考問(wèn)題的方式得到了顯著改善。這種設(shè)計(jì)讓技術(shù)的實(shí)際應(yīng)用變得更加可行,因?yàn)椴恍枰獜牧汩_(kāi)始訓(xùn)練昂貴的大型模型。
研究中一個(gè)特別有趣的發(fā)現(xiàn)是,即使是很短的音頻片段也能提供有價(jià)值的信息。當(dāng)系統(tǒng)只聽(tīng)到前500毫秒的聲音時(shí),雖然準(zhǔn)確率不高,但已經(jīng)能夠捕捉到一些有用的線索。這就像偵探在案發(fā)現(xiàn)場(chǎng)看到的第一個(gè)證據(jù),雖然不足以破案,但已經(jīng)為后續(xù)推理提供了方向。隨著聽(tīng)到的內(nèi)容越來(lái)越多,系統(tǒng)的判斷也越來(lái)越精確,這完美模擬了人類認(rèn)知的漸進(jìn)式理解過(guò)程。
在多標(biāo)簽分類任務(wù)中,這種方法同樣表現(xiàn)出色。多標(biāo)簽分類就是要求系統(tǒng)能夠同時(shí)識(shí)別一段音頻中的多種聲音,就像在一個(gè)繁忙的咖啡店里同時(shí)聽(tīng)出背景音樂(lè)、咖啡機(jī)聲音、人們的交談聲和椅子移動(dòng)的聲音。傳統(tǒng)方法在這種復(fù)雜場(chǎng)景下往往力不從心,而新方法通過(guò)逐步分析和推理,能夠更好地處理這種聲音的"多重奏"。
研究團(tuán)隊(duì)還發(fā)現(xiàn),調(diào)整系統(tǒng)的"創(chuàng)造性思維"程度(在技術(shù)上叫做溫度參數(shù))會(huì)影響性能。就像人在不同狀態(tài)下的思考方式不同,當(dāng)系統(tǒng)思維更加"開(kāi)放"時(shí),它會(huì)產(chǎn)生更多樣化的猜測(cè),但準(zhǔn)確性可能會(huì)有所下降。而當(dāng)思維更加"專注"時(shí),猜測(cè)會(huì)更加保守但通常更準(zhǔn)確。找到這個(gè)平衡點(diǎn)是優(yōu)化系統(tǒng)性能的關(guān)鍵。
從更廣泛的角度來(lái)看,這項(xiàng)研究體現(xiàn)了人工智能領(lǐng)域的一個(gè)重要趨勢(shì):從追求更大的模型轉(zhuǎn)向更智能的推理方式。過(guò)去幾年,人工智能的進(jìn)步主要依靠不斷增加模型的參數(shù)量,就像通過(guò)增加大腦的體積來(lái)提高智力。但這種方法成本高昂,而且收益遞減?,F(xiàn)在的研究表明,通過(guò)改進(jìn)思考方式,即使是較小的模型也能實(shí)現(xiàn)顯著的性能提升,這為人工智能的發(fā)展開(kāi)辟了一條更可持續(xù)的道路。
這種"邊聽(tīng)邊想"的技術(shù)還可能對(duì)其他感知任務(wù)產(chǎn)生啟發(fā)。比如,在圖像識(shí)別中,系統(tǒng)可以逐個(gè)分析圖像的不同區(qū)域,然后綜合這些局部信息形成對(duì)整體的理解。在文本理解中,系統(tǒng)可以逐句分析,建立起對(duì)整個(gè)文檔的漸進(jìn)式理解。這種方法的核心思想——將復(fù)雜任務(wù)分解為一系列簡(jiǎn)單的推理步驟——具有廣泛的適用性。
說(shuō)到底,這項(xiàng)研究最讓人興奮的地方在于它讓人工智能更像人類了。不是因?yàn)樗兊酶斆?,而是因?yàn)樗鼘W(xué)會(huì)了人類式的思考過(guò)程:觀察、假設(shè)、驗(yàn)證、修正,然后得出結(jié)論。這種方法不僅提高了準(zhǔn)確性,也讓人工智能的決策過(guò)程變得更加透明和可理解。當(dāng)系統(tǒng)告訴我們"這是鳥(niǎo)叫聲"時(shí),我們可以看到它是如何一步步得出這個(gè)結(jié)論的,就像跟隨偵探的推理過(guò)程一樣。
這種透明性對(duì)于人工智能的實(shí)際應(yīng)用至關(guān)重要,特別是在醫(yī)療、安全等對(duì)準(zhǔn)確性要求極高的領(lǐng)域。當(dāng)醫(yī)生使用人工智能來(lái)分析心音時(shí),能夠了解系統(tǒng)的推理過(guò)程會(huì)大大增加醫(yī)生對(duì)結(jié)果的信任度。當(dāng)安防系統(tǒng)檢測(cè)到異常聲音時(shí),保安人員可以查看系統(tǒng)的分析過(guò)程來(lái)驗(yàn)證警報(bào)的可靠性。
研究團(tuán)隊(duì)的工作還展示了開(kāi)源模型的潛力。雖然商業(yè)公司的大型模型往往備受關(guān)注,但這項(xiàng)研究證明,精心設(shè)計(jì)的開(kāi)源模型在特定任務(wù)上可以達(dá)到甚至超過(guò)大型商業(yè)模型的性能。這為更多研究者和開(kāi)發(fā)者參與人工智能的發(fā)展提供了可能,也有助于技術(shù)的民主化普及。
未來(lái),這種技術(shù)可能會(huì)成為各種智能設(shè)備的標(biāo)準(zhǔn)配置。手機(jī)可能會(huì)更好地理解我們的語(yǔ)音指令,智能汽車可能會(huì)更準(zhǔn)確地識(shí)別道路上的各種聲音信號(hào),智能家居系統(tǒng)可能會(huì)更精確地響應(yīng)我們的需求。更重要的是,隨著這種"思考"能力的普及,人工智能系統(tǒng)將變得更加可靠和值得信賴,這對(duì)于人工智能技術(shù)的廣泛應(yīng)用具有深遠(yuǎn)意義。
Q&A
Q1:什么是"邊聽(tīng)邊想"的音頻識(shí)別技術(shù)?
A:"邊聽(tīng)邊想"是斯坦福大學(xué)開(kāi)發(fā)的新型音頻識(shí)別方法,讓人工智能像人類一樣逐步分析聲音。系統(tǒng)會(huì)把音頻切成半秒的小段,對(duì)每段進(jìn)行多次猜測(cè),然后用語(yǔ)言模型綜合所有信息得出最終結(jié)論,而不是聽(tīng)完整段音頻才給答案。
Q2:這種技術(shù)比傳統(tǒng)音頻識(shí)別方法好在哪里?
A:傳統(tǒng)方法只在聽(tīng)完整段音頻后給出一個(gè)答案,而新方法可以漸進(jìn)式理解,越聽(tīng)越準(zhǔn)確。在ESC-50測(cè)試中,準(zhǔn)確率從84%提升到88.3%。更重要的是,這種方法讓AI的決策過(guò)程更透明,我們可以看到它是如何一步步得出結(jié)論的。
Q3:這種音頻識(shí)別技術(shù)有什么實(shí)際應(yīng)用?
A:這種技術(shù)可以應(yīng)用于智能家居(更準(zhǔn)確識(shí)別門(mén)鈴聲和電話聲)、語(yǔ)音助手(更好理解復(fù)雜指令)、醫(yī)療設(shè)備(分析心跳呼吸聲異常)、工業(yè)監(jiān)測(cè)(通過(guò)設(shè)備聲音預(yù)測(cè)故障)等多個(gè)領(lǐng)域,讓各種智能設(shè)備變得更可靠。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。