
這篇由小米公司Horizon團(tuán)隊和MiLM Plus聯(lián)合發(fā)表的研究論文,于2025年8月發(fā)表在arXiv預(yù)印本平臺(論文編號:arXiv:2508.03983v1),感興趣的讀者可以通過https://arxiv.org/abs/2508.03983訪問完整論文。這項研究介紹了一個名為MiDashengLM的創(chuàng)新音頻理解模型,它能像人類一樣同時理解語音、音樂和環(huán)境聲音,并用自然語言描述聽到的內(nèi)容。
想象一下,如果你有一個超級聰明的助手,不僅能聽懂你說話,還能識別背景音樂的類型,甚至能描述房間里的回音效果,那會是什么樣的體驗?小米的研究團(tuán)隊正是開發(fā)出了這樣一個"全能聽覺助手"。這個被稱為MiDashengLM的系統(tǒng),就像是給計算機(jī)裝上了一對極其敏銳的耳朵,不僅能聽懂人話,還能欣賞音樂,識別各種環(huán)境聲音。
傳統(tǒng)的音頻理解系統(tǒng)就像是專門的工匠,有的只會轉(zhuǎn)錄語音,有的只會分析音樂,有的只會識別環(huán)境聲音。但MiDashengLM更像是一個多才多藝的藝術(shù)家,能夠同時掌握這三種技能,并且將它們?nèi)诤显谝黄穑瑒?chuàng)造出前所未有的音頻理解體驗。更令人興奮的是,這個系統(tǒng)完全基于公開可獲得的數(shù)據(jù)訓(xùn)練,意味著任何研究者都可以復(fù)現(xiàn)這項工作,推動整個行業(yè)的發(fā)展。
一、顛覆傳統(tǒng):為什么現(xiàn)有方法不夠好用
現(xiàn)在的音頻理解系統(tǒng)就像是只會一門手藝的師傅。大部分系統(tǒng)主要專注于語音識別,把人說的話轉(zhuǎn)換成文字,這就好比有個書記員只負(fù)責(zé)記錄會議內(nèi)容,但對于會議室里播放的背景音樂、空調(diào)的嗡嗡聲、或者參會者敲擊桌子的聲音完全視而不聞。
這種局限性在現(xiàn)實應(yīng)用中造成了很大問題。當(dāng)你對著手機(jī)說"播放那首有小提琴伴奏的輕音樂,不要太吵,我在安靜的圖書館里"時,傳統(tǒng)系統(tǒng)只能理解"播放輕音樂"這部分語音內(nèi)容,但完全無法理解你提到的音樂特征或環(huán)境要求。它們就像是戴著有色眼鏡的聽眾,只能看到音頻世界的一個側(cè)面。
小米團(tuán)隊發(fā)現(xiàn),這些傳統(tǒng)方法還有另一個致命缺陷:訓(xùn)練效率低下?,F(xiàn)有系統(tǒng)訓(xùn)練時需要將不同長度的音頻都填充到固定長度(比如30秒),這就像是強(qiáng)迫所有人都穿同一尺碼的衣服。如果你只說了5秒鐘的話,系統(tǒng)卻要處理30秒的數(shù)據(jù),其中25秒都是無意義的靜音,這種浪費(fèi)讓訓(xùn)練和使用都變得緩慢而昂貴。
更糟糕的是,傳統(tǒng)的語音轉(zhuǎn)錄訓(xùn)練目標(biāo)過于簡單。研究團(tuán)隊發(fā)現(xiàn),即使是處理90種不同語言的語音,這些系統(tǒng)的訓(xùn)練損失都很低,這表明模型實際上沒有學(xué)到太多有用的東西。這就像是給學(xué)生出的考試題目太簡單,學(xué)生輕松就能答對,但實際上并沒有真正掌握知識的精髓。傳統(tǒng)系統(tǒng)只是在做簡單的音素匹配,缺乏對音頻內(nèi)容的深層理解。
二、全新思路:用"通用描述"代替"分門別類"
面對這些問題,小米團(tuán)隊提出了一個revolutionary的解決方案:與其讓系統(tǒng)分別學(xué)習(xí)語音轉(zhuǎn)錄、音樂分類和環(huán)境聲音識別,不如教會它用一種統(tǒng)一的方式來描述所有聽到的內(nèi)容。這就像是培養(yǎng)一個全能的音頻解說員,無論聽到什么都能用生動的語言描述出來。
這種"通用音頻描述"方法的核心思想是將語音內(nèi)容、音樂特征和環(huán)境信息融合成一個完整的文字描述。比如,當(dāng)系統(tǒng)聽到一段音頻時,傳統(tǒng)方法可能會分別輸出"有人在說話"、"背景有鋼琴聲"、"環(huán)境很安靜"三個獨(dú)立的標(biāo)簽。而MiDashengLM會生成這樣的描述:"一位女性用略帶激動的語調(diào)講述著一個關(guān)于1966年籃球比賽的歷史故事,背景伴隨著輕柔的鋼琴旋律,錄音環(huán)境相當(dāng)安靜,偶爾能聽到輕微的回音效果。"
這種方法帶來了三個重要優(yōu)勢。首先是數(shù)據(jù)利用效率大大提高,因為任何音頻片段都可以被描述,不會因為"太吵"或"太雜"而被丟棄。其次是訓(xùn)練目標(biāo)更加復(fù)雜和有意義,模型需要真正理解音頻內(nèi)容才能生成準(zhǔn)確的描述,而不是簡單地做音素匹配。最后是實際應(yīng)用更加靈活,用戶可以用自然語言查詢?nèi)魏晤愋偷囊纛l內(nèi)容。
為了實現(xiàn)這個想法,研究團(tuán)隊開發(fā)了一個名為ACAVCaps的大規(guī)模數(shù)據(jù)集。他們從ACAV100M這個包含10萬小時多樣化音頻內(nèi)容的數(shù)據(jù)集開始,使用多個專門的AI模型來分析每個音頻片段的不同方面:語音識別模型提取說話內(nèi)容,音樂分析模型識別樂器和節(jié)奏,聲學(xué)分析模型評估錄音質(zhì)量和環(huán)境特征,說話人分析模型判斷性別、年齡和情緒狀態(tài)。然后,他們使用一個大語言模型將這些分散的信息整合成流暢、自然的音頻描述。
三、技術(shù)架構(gòu):讓機(jī)器擁有"全能耳朵"
MiDashengLM的技術(shù)架構(gòu)就像是構(gòu)建一個復(fù)雜的聽覺處理系統(tǒng),包含了三個核心組件,每個組件都有其獨(dú)特的功能,協(xié)同工作來實現(xiàn)強(qiáng)大的音頻理解能力。
系統(tǒng)的"耳朵"是一個名為Dasheng的音頻編碼器,這個編碼器就像是人類的內(nèi)耳,負(fù)責(zé)將聲波轉(zhuǎn)換成大腦能夠理解的信號。與傳統(tǒng)的Whisper編碼器不同,Dasheng專門為處理各種類型的音頻而設(shè)計。它能夠處理可變長度的音頻輸入,就像人的耳朵能夠自然地處理不同長度的聲音一樣。更重要的是,Dasheng將音頻信息壓縮到了極低的頻率(每秒5次采樣),這大大提高了處理速度,就像是用更高效的方式傳輸聽覺信息。
系統(tǒng)的"大腦"是一個基于Qwen2.5-Omni-3B的大語言模型,這相當(dāng)于人類的語言理解和生成中心。這個模型負(fù)責(zé)將從音頻編碼器獲得的聽覺信息轉(zhuǎn)換成自然流暢的文字描述。為了提高訓(xùn)練效率,研究團(tuán)隊使用了LoRA(低秩適應(yīng))技術(shù),這就像是給大腦安裝了一個高效的學(xué)習(xí)適配器,能夠在不改變核心結(jié)構(gòu)的情況下快速學(xué)會新技能。
連接"耳朵"和"大腦"的是一個多層感知機(jī)(MLP),就像是聽覺神經(jīng),負(fù)責(zé)將音頻編碼器產(chǎn)生的信號轉(zhuǎn)換成語言模型能夠理解的格式。這個組件看似簡單,但卻是整個系統(tǒng)能夠正常工作的關(guān)鍵橋梁。
整個系統(tǒng)的訓(xùn)練過程分為三個階段,就像是培養(yǎng)一個音頻專家的三個學(xué)習(xí)階段。第一階段是"音頻-文本對齊",系統(tǒng)學(xué)會將聽到的聲音與相應(yīng)的文字描述關(guān)聯(lián)起來,這就像是教會一個人將聽到的聲音與語言表達(dá)聯(lián)系起來。第二階段是"大規(guī)模預(yù)訓(xùn)練",系統(tǒng)在包含110萬小時音頻數(shù)據(jù)的龐大數(shù)據(jù)集上進(jìn)行訓(xùn)練,學(xué)習(xí)處理各種各樣的音頻內(nèi)容,這相當(dāng)于讓系統(tǒng)"博聞強(qiáng)識",接觸盡可能多的音頻場景。第三階段是"監(jiān)督微調(diào)",系統(tǒng)在精心篩選的35.2萬小時高質(zhì)量數(shù)據(jù)上進(jìn)行精細(xì)調(diào)整,就像是對一個已經(jīng)有基礎(chǔ)的學(xué)生進(jìn)行專門輔導(dǎo),讓其在特定任務(wù)上表現(xiàn)得更加出色。
四、數(shù)據(jù)創(chuàng)新:構(gòu)建史上最豐富的音頻理解數(shù)據(jù)集
創(chuàng)建一個真正理解音頻的AI系統(tǒng),需要的不僅僅是大量數(shù)據(jù),更需要高質(zhì)量、多樣化的訓(xùn)練素材。小米團(tuán)隊在數(shù)據(jù)構(gòu)建方面的創(chuàng)新可以說是這項研究的另一個重要貢獻(xiàn)。他們構(gòu)建的數(shù)據(jù)集就像是為AI準(zhǔn)備的一個包羅萬象的"音頻圖書館"。
傳統(tǒng)的音頻數(shù)據(jù)集存在明顯的局限性?,F(xiàn)有的音頻字幕數(shù)據(jù)集主要來源于Audioset、VGGSound和FSD50k等幾個相同的源頭,這就像是幾個不同出版社都在重復(fù)出版同一本書的不同版本,看似內(nèi)容豐富,實際上缺乏真正的多樣性。更嚴(yán)重的是,這些數(shù)據(jù)集往往忽略了語音內(nèi)容,即使音頻中有人在說話,描述也經(jīng)常簡化為"有人在說話",完全忽略了說話的具體內(nèi)容。
為了解決這些問題,研究團(tuán)隊開發(fā)了一個創(chuàng)新的數(shù)據(jù)處理流水線。他們從ACAV100M數(shù)據(jù)集開始,這個數(shù)據(jù)集包含了來自YouTube的大量多樣化音頻內(nèi)容,涵蓋了多種語言、音樂類型和環(huán)境場景。然后,他們使用了一套復(fù)雜的自動化分析系統(tǒng)來為每個音頻片段生成詳細(xì)的元信息。
這套分析系統(tǒng)就像是一個由多個專家組成的音頻分析團(tuán)隊。語音分析專家使用Whisper模型提取語音轉(zhuǎn)錄,同時識別說話人的語言、情緒狀態(tài)、性別和年齡特征,甚至能夠進(jìn)行說話人分離。音樂分析專家識別樂器類型、音樂流派、節(jié)拍和情緒特征,還能檢測是否有人聲演唱。環(huán)境聲學(xué)專家評估錄音質(zhì)量、混響程度、背景噪音水平和聲學(xué)場景類型。
所有這些分散的信息最終都被輸入到一個推理能力強(qiáng)大的大語言模型(DeepSeek-R1)中,這個模型就像是一個經(jīng)驗豐富的音頻制作人,能夠?qū)⒓夹g(shù)分析結(jié)果轉(zhuǎn)換成生動、自然的文字描述。比如,面對一段包含西班牙語語音和背景音樂的音頻,系統(tǒng)可能會生成這樣的描述:"一個合成的西班牙語聲音正在敘述一個緊張的僵尸對抗場景,說道'Repentinamente... golpe varias veces'(突然間...打擊了幾次),聲音帶著機(jī)械化的平淡語調(diào),背景伴隨著可變的混響效果和環(huán)境噪聲。"
通過這種方法,研究團(tuán)隊創(chuàng)建了一個包含64萬多個獨(dú)特詞匯的豐富數(shù)據(jù)集,相比之下,現(xiàn)有的最大音頻字幕數(shù)據(jù)集LAION-Audio-300M只有45萬個詞匯。這種詞匯豐富度的提升主要來自兩個方面:第一,他們的描述包含了語音的具體內(nèi)容而不是簡單的"有人說話";第二,數(shù)據(jù)集的多語言特性使得許多非英語詞匯也被保留在描述中,增加了整體的語言多樣性。
五、性能突破:全面超越現(xiàn)有頂尖系統(tǒng)
當(dāng)MiDashengLM接受各種測試時,它展現(xiàn)出的性能表現(xiàn)就像是一個在多個領(lǐng)域都有專業(yè)水準(zhǔn)的全才,不僅在單項測試中表現(xiàn)優(yōu)秀,在綜合能力測試中更是大放異彩。
在音頻編碼器的基礎(chǔ)能力測試中,研究團(tuán)隊使用了X-Ares基準(zhǔn)測試,這個測試就像是音頻理解領(lǐng)域的"托福考試",涵蓋了語音、音樂和環(huán)境聲音三大類共22個不同任務(wù)。結(jié)果顯示,雖然在4個純語音任務(wù)上Whisper-Large v3還略有優(yōu)勢(主要是自動語音識別、說話人計數(shù)、語言識別和關(guān)鍵詞識別),但MiDashengLM在其余18個任務(wù)上都表現(xiàn)得更好,特別是在環(huán)境聲音和音樂相關(guān)任務(wù)上優(yōu)勢明顯。
最令人印象深刻的是在說話人識別任務(wù)上,MiDashengLM的準(zhǔn)確率達(dá)到了73.3%,而Whisper只有24.8%,相當(dāng)于提升了195%。在家庭環(huán)境聲音事件檢測任務(wù)上,MiDashengLM的表現(xiàn)比Whisper好了137%。在音頻-文本檢索任務(wù)上,提升幅度達(dá)到了87%。這些巨大的性能提升表明,通過通用音頻字幕訓(xùn)練的編碼器在理解非語音音頻內(nèi)容方面具有顯著優(yōu)勢。
在音頻字幕生成任務(wù)上,MiDashengLM同樣表現(xiàn)出色。研究團(tuán)隊使用FENSE評分系統(tǒng)對模型生成的字幕質(zhì)量進(jìn)行評估,這個評分系統(tǒng)就像是評判作文質(zhì)量的標(biāo)準(zhǔn)化工具。在MusicCaps音樂字幕數(shù)據(jù)集上,MiDashengLM得分59.71,大幅超過Qwen2.5-Omni的43.71和Kimi-Audio-Instruct的35.43。在AutoACD音頻字幕數(shù)據(jù)集上,性能優(yōu)勢更加明顯,MiDashengLM得分66.52,比最強(qiáng)的競爭對手高出近11分。
特別值得關(guān)注的是,研究團(tuán)隊還推出了自己的MECAT評估基準(zhǔn),這個基準(zhǔn)就像是專門為測試綜合音頻理解能力而設(shè)計的"奧林匹克競賽"。MECAT將音頻分為純語音、純聲音、純音樂、混合語音、混合聲音、混合音樂和環(huán)境等九個不同類別,要求模型針對不同類別生成相應(yīng)風(fēng)格的字幕。在這個更具挑戰(zhàn)性的測試中,MiDashengLM的綜合得分達(dá)到57.53,相比之下Qwen2.5-Omni只有43.80,Kimi-Audio-Instruct僅有36.32。
在問答任務(wù)上,MiDashengLM也展現(xiàn)了強(qiáng)勁實力。在MuChoMusic音樂理解問答測試中,模型準(zhǔn)確率達(dá)到71.35%,在MMAU多模態(tài)音頻理解測試中平均準(zhǔn)確率為66.30%。這些結(jié)果表明,MiDashengLM不僅能夠描述音頻內(nèi)容,還能夠基于聽到的內(nèi)容回答各種復(fù)雜問題,展現(xiàn)出真正的音頻理解能力。
更令人興奮的是系統(tǒng)的運(yùn)行效率。由于Dasheng編碼器支持可變長度輸入處理,并且音頻特征提取頻率只有5Hz(相比Qwen2.5-Omni的25Hz),MiDashengLM在推理速度上有顯著優(yōu)勢。在首次響應(yīng)時間(TTFT)測試中,MiDashengLM比Qwen2.5-Omni快了4倍,在吞吐量測試中,最高可達(dá)到20倍的性能提升。這種效率優(yōu)勢在實際應(yīng)用中意味著用戶可以獲得更快的響應(yīng)速度和更低的計算成本。
六、開放科學(xué):讓所有人都能受益的研究成果
在當(dāng)今AI研究領(lǐng)域,許多突破性成果都被鎖在企業(yè)的保險柜里,普通研究者和開發(fā)者難以接觸到核心技術(shù)。但小米團(tuán)隊在MiDashengLM項目上采取了完全相反的策略,他們選擇了開放科學(xué)的道路,這種做法就像是把珍貴的知識寶庫向全世界敞開大門。
研究團(tuán)隊承諾,MiDashengLM使用的所有訓(xùn)練數(shù)據(jù)都來自公開可獲得的源頭。這意味著任何研究機(jī)構(gòu)或個人開發(fā)者都可以復(fù)現(xiàn)這項工作,驗證研究結(jié)果,甚至在此基礎(chǔ)上進(jìn)行改進(jìn)。這種透明度在當(dāng)前的AI研究環(huán)境中顯得尤為珍貴,因為很多商業(yè)公司的研究都依賴于私有數(shù)據(jù)集,使得外界研究者無法真正理解或改進(jìn)這些技術(shù)。
不僅數(shù)據(jù)公開,模型的訓(xùn)練代碼和權(quán)重也將向研究社區(qū)開放。這就像是不僅公開了菜譜,還提供了詳細(xì)的烹飪步驟和最終制作好的菜品供人品嘗。研究團(tuán)隊在論文中詳細(xì)列出了他們使用的所有數(shù)據(jù)源,從LibriSpeech的960小時英語語音數(shù)據(jù),到包含10萬小時內(nèi)容的WeNetSpeech中文語音數(shù)據(jù),再到各種音樂和環(huán)境聲音數(shù)據(jù)集,總計超過110萬小時的訓(xùn)練數(shù)據(jù),全部都有明確的來源和獲取方式。
這種開放策略的價值不僅在于促進(jìn)科學(xué)研究的透明度,更在于為整個行業(yè)建立了一個新的標(biāo)準(zhǔn)。當(dāng)研究成果完全開放時,其他研究者可以更容易地在此基礎(chǔ)上進(jìn)行創(chuàng)新,形成良性的技術(shù)發(fā)展循環(huán)。小型研究機(jī)構(gòu)和創(chuàng)業(yè)公司也能夠利用這些開放資源開發(fā)自己的應(yīng)用,而不必從零開始構(gòu)建基礎(chǔ)技術(shù)。
MECAT評估基準(zhǔn)的公開發(fā)布也是這種開放精神的體現(xiàn)。這個基準(zhǔn)包含了精心設(shè)計的音頻樣本和對應(yīng)的問答對,為音頻理解領(lǐng)域提供了一個標(biāo)準(zhǔn)化的評估工具。就像學(xué)術(shù)界的標(biāo)準(zhǔn)化考試一樣,MECAT為不同研究團(tuán)隊提供了公平比較各自方法效果的平臺,推動整個領(lǐng)域的健康發(fā)展。
研究團(tuán)隊還承諾將持續(xù)維護(hù)和更新這些開放資源。他們計劃根據(jù)社區(qū)反饋不斷完善數(shù)據(jù)集質(zhì)量,擴(kuò)展支持的語言和音頻類型,并且會及時修復(fù)發(fā)現(xiàn)的問題。這種長期承諾對開源社區(qū)的發(fā)展至關(guān)重要,因為很多開源項目都因為缺乏持續(xù)維護(hù)而逐漸衰落。
七、實際應(yīng)用:改變我們與數(shù)字世界的互動方式
MiDashengLM的出現(xiàn)不僅僅是技術(shù)上的突破,更重要的是它為我們?nèi)粘I钪信c數(shù)字設(shè)備的交互方式開辟了全新的可能性。這個系統(tǒng)就像是給我們的數(shù)字助手裝上了一雙真正理解音頻世界的"耳朵",能夠感知和理解我們周圍復(fù)雜的聲音環(huán)境。
在智能家居場景中,MiDashengLM可以成為一個真正智能的環(huán)境管家。當(dāng)你在家里說"播放一些輕松的音樂,不要太吵,因為孩子在睡覺"時,系統(tǒng)不僅能理解你要聽音樂,還能理解你對音量和音樂類型的具體要求,以及背后的原因。更進(jìn)一步,系統(tǒng)還能監(jiān)聽環(huán)境聲音,當(dāng)檢測到孩子哭聲時自動調(diào)整音響音量,或者在門鈴響起時暫停播放,這種環(huán)境感知能力遠(yuǎn)超現(xiàn)有的語音助手。
在無障礙技術(shù)應(yīng)用方面,MiDashengLM的潛力更加巨大。對于視覺障礙人士,這個系統(tǒng)可以充當(dāng)一個全方位的"音頻向?qū)?,不僅描述周圍的對話內(nèi)容,還能識別和解釋各種環(huán)境聲音。比如,系統(tǒng)可以告訴用戶"前方有汽車經(jīng)過,發(fā)動機(jī)聲音表明是一輛小轎車,速度不快,應(yīng)該是安全的",或者"背景傳來咖啡機(jī)的聲音,說明你現(xiàn)在在咖啡店里,右側(cè)似乎有人在討論工作"。
在內(nèi)容創(chuàng)作和媒體制作領(lǐng)域,MiDashengLM能夠大大提升工作效率。視頻制作者可以使用這個系統(tǒng)自動生成詳細(xì)的音頻描述,為無障礙觀看提供支持。音樂制作人可以利用系統(tǒng)分析和描述音樂作品的特征,快速找到需要的音頻素材。播客制作者可以使用系統(tǒng)生成詳細(xì)的節(jié)目內(nèi)容摘要,包括背景音樂的情緒變化和說話人的語調(diào)特點(diǎn)。
在教育應(yīng)用方面,這個系統(tǒng)為語言學(xué)習(xí)提供了全新的工具。學(xué)習(xí)外語的人可以利用系統(tǒng)獲得更豐富的語音材料分析,不僅了解說話內(nèi)容,還能學(xué)習(xí)到語調(diào)、情緒表達(dá)和文化背景等深層信息。音樂教育也能從中受益,學(xué)生可以通過系統(tǒng)的描述更好地理解音樂作品的結(jié)構(gòu)和表現(xiàn)力。
在商業(yè)應(yīng)用中,MiDashengLM的多語言能力特別有價值。系統(tǒng)支持90多種語言的語音識別,這為跨國企業(yè)的客戶服務(wù)提供了強(qiáng)大支持??头行目梢允褂眠@個系統(tǒng)實時分析客戶通話內(nèi)容,不僅轉(zhuǎn)錄對話內(nèi)容,還能分析客戶的情緒狀態(tài)和滿意度,為服務(wù)質(zhì)量評估提供更全面的數(shù)據(jù)。
安全監(jiān)控領(lǐng)域也是一個重要應(yīng)用方向。傳統(tǒng)的監(jiān)控系統(tǒng)主要依賴圖像,但很多安全事件首先通過聲音表現(xiàn)出來。MiDashengLM可以分析監(jiān)控音頻,識別異常聲音模式,比如玻璃破碎聲、呼救聲、或者設(shè)備故障聲音,并且能夠準(zhǔn)確描述聲音的特征和可能的原因,為安保人員提供更準(zhǔn)確的信息。
研究團(tuán)隊特別強(qiáng)調(diào),這些應(yīng)用的實現(xiàn)不需要重新訓(xùn)練模型,因為MiDashengLM的通用音頻理解能力使得它可以直接應(yīng)用于各種場景。這種即插即用的特性大大降低了技術(shù)應(yīng)用的門檻,讓更多開發(fā)者和企業(yè)能夠快速集成這種先進(jìn)的音頻理解能力。
說到底,MiDashengLM代表的不僅僅是技術(shù)的進(jìn)步,更是我們對AI系統(tǒng)理解能力認(rèn)知的一次重大升級。以往我們習(xí)慣于讓AI系統(tǒng)處理單一類型的信息,比如只處理文本或只處理圖像。但真實世界是多模態(tài)的,人類的感知和理解也是多模態(tài)的。MiDashengLM向我們展示了AI系統(tǒng)也可以像人類一樣,同時處理和理解多種類型的音頻信息,并且將它們整合成一個連貫、完整的理解。
這項研究的開放性質(zhì)意味著,我們很可能會在不久的將來看到各種基于這種技術(shù)的創(chuàng)新應(yīng)用涌現(xiàn)。小型創(chuàng)業(yè)公司可以利用開源的模型和數(shù)據(jù)集開發(fā)專門的音頻應(yīng)用,大型科技公司可以將這種技術(shù)集成到現(xiàn)有產(chǎn)品中,研究機(jī)構(gòu)可以在此基礎(chǔ)上探索更高級的多模態(tài)理解技術(shù)。這種開放式的技術(shù)發(fā)展模式,最終受益的將是我們每一個普通用戶,因為我們將擁有更智能、更體貼、更懂得我們需求的數(shù)字助手。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過論文鏈接https://arxiv.org/abs/2508.03983獲取完整的研究內(nèi)容,小米團(tuán)隊承諾將很快公開模型權(quán)重和訓(xùn)練代碼,讓更多人能夠參與到這項激動人心的技術(shù)發(fā)展中來。
Q&A
Q1:MiDashengLM和普通語音助手有什么區(qū)別?
A:MiDashengLM就像是一個全能的音頻專家,不僅能聽懂語音內(nèi)容,還能同時理解背景音樂、環(huán)境聲音,甚至分析說話者的情緒和錄音質(zhì)量。而普通語音助手主要只能處理語音轉(zhuǎn)錄,對其他音頻信息基本忽略。比如你說"播放輕音樂,我在安靜房間",MiDashengLM能理解音樂要求和環(huán)境背景,普通助手只能識別"播放輕音樂"。
Q2:這個技術(shù)什么時候能在手機(jī)或其他設(shè)備上使用?
A:小米團(tuán)隊已經(jīng)承諾將公開模型權(quán)重和訓(xùn)練代碼,這意味著任何開發(fā)者都可以集成這項技術(shù)。不過要在手機(jī)等移動設(shè)備上流暢運(yùn)行,還需要進(jìn)行模型壓縮和優(yōu)化??紤]到小米是硬件制造商,我們很可能會先在小米的設(shè)備上看到這種技術(shù)的實際應(yīng)用,然后逐步普及到其他平臺。
Q3:MiDashengLM支持哪些語言,準(zhǔn)確率如何?
A:系統(tǒng)支持90多種語言的語音識別,包括中文、英語、西班牙語、法語、韓語、葡萄牙語、德語、印尼語、越南語、泰語等。在英語語音識別方面,雖然比專門的語音識別系統(tǒng)稍弱,但在多語言環(huán)境和復(fù)雜音頻場景下表現(xiàn)更好。特別是在音頻描述和問答任務(wù)上,準(zhǔn)確率達(dá)到60-70%,大幅超過現(xiàn)有競爭對手。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。