這項(xiàng)由加州大學(xué)圣地亞哥分校的Gagan Mundada、Yash Vishe、Amit Namburi、Xin Xu、Zachary Novack、Julian McAuley和Junda Wu領(lǐng)導(dǎo)的研究發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái),有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2509.04744v1訪問(wèn)完整論文。
你有沒(méi)有過(guò)這樣的經(jīng)歷:看著一張樂(lè)譜,明明上面的音符、節(jié)拍記號(hào)都清清楚楚,但就是不知道它到底想表達(dá)什么音樂(lè)情感?現(xiàn)在的人工智能也遇到了同樣的困擾。最近,加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)就發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:那些在回答問(wèn)題、理解圖片方面表現(xiàn)出色的AI大模型,在面對(duì)音樂(lè)樂(lè)譜時(shí)卻常常"抓瞎"。
這就好比一個(gè)博學(xué)的學(xué)者,能夠流利地討論文學(xué)、歷史、科學(xué),但一拿到樂(lè)譜就變成了"文盲"。研究團(tuán)隊(duì)為了搞清楚這到底是怎么回事,創(chuàng)建了一個(gè)名為"WildScore"的測(cè)試平臺(tái),專(zhuān)門(mén)用來(lái)檢驗(yàn)AI模型理解樂(lè)譜的能力。
這個(gè)測(cè)試平臺(tái)的創(chuàng)新之處在于,它不是那種死板的學(xué)院派考試,而是從真實(shí)的音樂(lè)愛(ài)好者社區(qū)收集問(wèn)題。研究團(tuán)隊(duì)翻遍了Reddit音樂(lè)理論版塊十年來(lái)的討論帖子,挑選出那些配有樂(lè)譜圖片的真實(shí)問(wèn)題。這些問(wèn)題不是教科書(shū)上的標(biāo)準(zhǔn)答案題,而是音樂(lè)愛(ài)好者在實(shí)際演奏和學(xué)習(xí)中遇到的困惑,充滿了生活氣息和實(shí)用性。
想象一下,你在學(xué)習(xí)彈奏金屬樂(lè)隊(duì)的《Fade to Black》時(shí),面對(duì)復(fù)雜的三連音節(jié)拍感到困惑,于是在網(wǎng)上求助?;蛘吣阍诜治瞿氐?7號(hào)鋼琴協(xié)奏曲時(shí),對(duì)某個(gè)特殊音符的作用感到疑惑。這些都是WildScore測(cè)試集中包含的真實(shí)場(chǎng)景。
研究團(tuán)隊(duì)將這些音樂(lè)問(wèn)題按照難度和類(lèi)型進(jìn)行了系統(tǒng)分類(lèi),就像整理一個(gè)巨大的音樂(lè)問(wèn)題圖書(shū)館。他們把問(wèn)題分成五大類(lèi):和聲與調(diào)性(相當(dāng)于音樂(lè)的"語(yǔ)法規(guī)則")、節(jié)奏與節(jié)拍(音樂(lè)的"時(shí)間感")、織體(不同聲部如何配合)、表情與演奏(如何讓音樂(lè)有感情)、以及曲式(音樂(lè)的整體結(jié)構(gòu))。每個(gè)大類(lèi)下面又細(xì)分出許多小類(lèi),總共形成了12個(gè)具體的音樂(lè)知識(shí)領(lǐng)域。
為了讓測(cè)試結(jié)果更加客觀可比,研究團(tuán)隊(duì)將所有問(wèn)題都改編成了選擇題格式。這樣做的好處是避免了開(kāi)放式問(wèn)答中的主觀判斷問(wèn)題,讓不同AI模型的表現(xiàn)能夠直接對(duì)比。每個(gè)問(wèn)題都配有一張樂(lè)譜圖片和幾個(gè)選項(xiàng),AI需要根據(jù)圖片內(nèi)容選擇正確答案。
當(dāng)研究團(tuán)隊(duì)用這個(gè)測(cè)試平臺(tái)檢驗(yàn)?zāi)壳白钕冗M(jìn)的AI模型時(shí),結(jié)果頗為出人意料。即使是表現(xiàn)最好的GPT-4.1-mini模型,準(zhǔn)確率也只有68.31%,而且這還是在同時(shí)提供樂(lè)譜圖片和文字問(wèn)題的情況下。如果只給文字問(wèn)題不給圖片,準(zhǔn)確率還會(huì)下降到65.76%。這意味著AI雖然能從樂(lè)譜圖片中獲得一些幫助,但這種幫助相當(dāng)有限。
更令人驚訝的是,不同類(lèi)型的音樂(lè)問(wèn)題對(duì)AI來(lái)說(shuō)難度差別巨大。在表情演奏和和聲調(diào)性方面,AI表現(xiàn)相對(duì)較好,準(zhǔn)確率能達(dá)到70%以上。但在節(jié)奏節(jié)拍和音樂(lè)織體方面,AI就顯得力不從心,準(zhǔn)確率只有60%多一點(diǎn)。這就好比一個(gè)學(xué)生,在理解音樂(lè)的情感表達(dá)方面還算不錯(cuò),但在數(shù)拍子和分析多聲部配合方面就完全搞不清楚了。
為了深入了解AI的"視力"問(wèn)題到底出在哪里,研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)額外的診斷測(cè)試。第一個(gè)測(cè)試專(zhuān)門(mén)檢查AI能否準(zhǔn)確識(shí)別樂(lè)譜上的基本符號(hào),比如是什么調(diào)、有幾個(gè)音符等最簡(jiǎn)單的視覺(jué)識(shí)別任務(wù)。結(jié)果顯示,即使是最好的GPT-4.1-mini也只能達(dá)到52%的正確率,而其他較小的模型表現(xiàn)更差,有些甚至只有26%的準(zhǔn)確率。這就像給一個(gè)人驗(yàn)視力,發(fā)現(xiàn)他連最大的字母都看不清楚。
第二個(gè)診斷測(cè)試更加直接:讓AI直接將樂(lè)譜轉(zhuǎn)換成計(jì)算機(jī)能理解的音樂(lè)代碼。結(jié)果顯示,大多數(shù)AI模型都無(wú)法完成這個(gè)任務(wù),經(jīng)常生成一些無(wú)意義的重復(fù)內(nèi)容或者干脆給出錯(cuò)誤的結(jié)果。只有GPT-4.1-mini能夠處理一些簡(jiǎn)單的單聲部樂(lè)譜,但面對(duì)復(fù)雜的多聲部作品時(shí)也會(huì)出現(xiàn)遺漏和重復(fù)的問(wèn)題。
這些發(fā)現(xiàn)揭示了一個(gè)重要問(wèn)題:目前的AI模型在視覺(jué)理解方面仍然存在明顯的局限性,特別是當(dāng)面對(duì)像樂(lè)譜這樣高度符號(hào)化和結(jié)構(gòu)化的圖像時(shí)。樂(lè)譜不同于日常照片,它是一個(gè)復(fù)雜的視覺(jué)符號(hào)系統(tǒng),包含了音高、時(shí)值、表情記號(hào)等多層次信息,需要模型不僅能識(shí)別符號(hào),還要理解符號(hào)之間的關(guān)系和音樂(lè)語(yǔ)法規(guī)則。
研究團(tuán)隊(duì)發(fā)現(xiàn),不同AI模型在處理樂(lè)譜圖像時(shí)的表現(xiàn)差異很大,這主要與它們的訓(xùn)練方式有關(guān)。那些在多模態(tài)訓(xùn)練中接觸過(guò)更多結(jié)構(gòu)化圖像的模型,在樂(lè)譜理解方面表現(xiàn)相對(duì)更好。而主要在自然圖像上訓(xùn)練的模型,往往在面對(duì)樂(lè)譜時(shí)顯得無(wú)所適從。
有趣的是,研究還發(fā)現(xiàn)了一個(gè)看似矛盾的現(xiàn)象:對(duì)于某些問(wèn)題,AI在不看樂(lè)譜圖片的情況下反而表現(xiàn)更好。這說(shuō)明這些問(wèn)題可能更多依賴(lài)音樂(lè)理論知識(shí)而不是視覺(jué)識(shí)別能力。但對(duì)于真正需要分析樂(lè)譜細(xì)節(jié)的問(wèn)題,圖像信息確實(shí)能夠提供重要幫助,只是現(xiàn)有的AI模型還無(wú)法充分利用這些視覺(jué)信息。
為了驗(yàn)證測(cè)試的可靠性,研究團(tuán)隊(duì)還邀請(qǐng)了一位音樂(lè)專(zhuān)業(yè)的人類(lèi)專(zhuān)家參與測(cè)試。這位專(zhuān)家在100道題目上達(dá)到了72%的準(zhǔn)確率,明顯超過(guò)了所有AI模型的表現(xiàn)。不過(guò),這個(gè)結(jié)果也表明,即使對(duì)于受過(guò)專(zhuān)業(yè)訓(xùn)練的人類(lèi)來(lái)說(shuō),這些來(lái)自真實(shí)音樂(lè)社區(qū)的問(wèn)題也具有相當(dāng)?shù)奶魬?zhàn)性。
這項(xiàng)研究的意義不僅在于揭示了AI的不足,更重要的是為未來(lái)的改進(jìn)指明了方向。研究團(tuán)隊(duì)建議,要提高AI的樂(lè)譜理解能力,需要在以下幾個(gè)方面下功夫:首先是在模型訓(xùn)練階段增加更多結(jié)構(gòu)化圖像的訓(xùn)練數(shù)據(jù),特別是各種類(lèi)型的樂(lè)譜;其次是改進(jìn)視覺(jué)-語(yǔ)言對(duì)齊機(jī)制,讓模型更好地理解符號(hào)與意義之間的對(duì)應(yīng)關(guān)系;最后是開(kāi)發(fā)專(zhuān)門(mén)針對(duì)音樂(lè)符號(hào)的編碼器,能夠更好地處理樂(lè)譜的層次化結(jié)構(gòu)。
從更廣闊的視角來(lái)看,這項(xiàng)研究反映了當(dāng)前AI發(fā)展中的一個(gè)重要問(wèn)題:雖然AI在很多任務(wù)上已經(jīng)接近或超過(guò)人類(lèi)水平,但在一些需要深度專(zhuān)業(yè)知識(shí)和復(fù)雜符號(hào)理解的領(lǐng)域,仍然存在明顯的能力邊界。樂(lè)譜理解只是其中一個(gè)例子,類(lèi)似的挑戰(zhàn)可能還存在于數(shù)學(xué)公式、工程圖紙、化學(xué)結(jié)構(gòu)式等其他專(zhuān)業(yè)符號(hào)系統(tǒng)中。
研究團(tuán)隊(duì)特別強(qiáng)調(diào),WildScore測(cè)試集的價(jià)值在于它的"野生"特性——這些問(wèn)題來(lái)自真實(shí)的音樂(lè)學(xué)習(xí)和創(chuàng)作場(chǎng)景,而不是人工設(shè)計(jì)的標(biāo)準(zhǔn)化題目。這種測(cè)試方式更能反映AI在實(shí)際應(yīng)用中的表現(xiàn),對(duì)于評(píng)估AI系統(tǒng)的實(shí)用性具有重要意義。
值得注意的是,這項(xiàng)研究也為音樂(lè)教育和音樂(lè)技術(shù)的結(jié)合提供了新的思路。隨著AI技術(shù)在音樂(lè)領(lǐng)域的應(yīng)用越來(lái)越廣泛,了解AI的能力邊界和局限性,對(duì)于開(kāi)發(fā)更好的音樂(lè)學(xué)習(xí)工具和創(chuàng)作輔助系統(tǒng)至關(guān)重要。
研究的數(shù)據(jù)收集過(guò)程本身也很有趣。團(tuán)隊(duì)從2012年到2022年十年間的Reddit音樂(lè)理論版塊收集了大量討論帖,最終篩選出807個(gè)高質(zhì)量的問(wèn)題實(shí)例。這個(gè)過(guò)程不僅需要技術(shù)手段,還需要對(duì)音樂(lè)內(nèi)容的深入理解和人工審核,確保問(wèn)題的準(zhǔn)確性和代表性。
在數(shù)據(jù)處理方面,研究團(tuán)隊(duì)采用了一個(gè)創(chuàng)新的方法來(lái)確定正確答案:主要依據(jù)Reddit社區(qū)的投票機(jī)制,選擇獲得最高評(píng)分的回答作為標(biāo)準(zhǔn)答案。當(dāng)出現(xiàn)平票時(shí),才使用語(yǔ)言模型進(jìn)行輔助判斷。這種方法體現(xiàn)了對(duì)真實(shí)用戶(hù)智慧的尊重,也保證了答案的實(shí)用性和可信度。
研究結(jié)果還揭示了一個(gè)值得深思的現(xiàn)象:即使是最先進(jìn)的AI模型,在面對(duì)需要多步推理和上下文理解的音樂(lè)問(wèn)題時(shí),仍然表現(xiàn)不佳。這些問(wèn)題往往需要綜合考慮和聲進(jìn)行、節(jié)奏模式、演奏技巧等多個(gè)因素,正是人類(lèi)音樂(lè)理解的精髓所在。
從技術(shù)實(shí)現(xiàn)角度來(lái)看,這項(xiàng)研究為多模態(tài)AI的發(fā)展提供了一個(gè)很好的基準(zhǔn)測(cè)試。不同于以往主要關(guān)注自然圖像和日常對(duì)話的測(cè)試集,WildScore專(zhuān)注于一個(gè)高度專(zhuān)業(yè)化的領(lǐng)域,這對(duì)于推動(dòng)AI技術(shù)在垂直領(lǐng)域的應(yīng)用具有重要價(jià)值。
研究團(tuán)隊(duì)在論文中也坦誠(chéng)地討論了研究的局限性。比如,Reddit社區(qū)的討論可能存在一定的偏見(jiàn),傾向于討論主流音樂(lè)風(fēng)格而忽略一些小眾音樂(lè)類(lèi)型。此外,網(wǎng)絡(luò)討論的質(zhì)量參差不齊,雖然經(jīng)過(guò)篩選,但仍可能包含一些不夠嚴(yán)謹(jǐn)?shù)膬?nèi)容。
盡管存在這些局限性,WildScore作為第一個(gè)專(zhuān)門(mén)針對(duì)樂(lè)譜理解的多模態(tài)AI基準(zhǔn)測(cè)試,其價(jià)值是不可否認(rèn)的。它不僅為當(dāng)前AI能力提供了客觀評(píng)估,也為未來(lái)的研究指明了明確方向。隨著這個(gè)測(cè)試集的公開(kāi)發(fā)布,相信會(huì)有更多研究團(tuán)隊(duì)投入到音樂(lè)AI的改進(jìn)工作中。
說(shuō)到底,這項(xiàng)研究讓我們看到了AI發(fā)展的一個(gè)有趣側(cè)面:在某些看似簡(jiǎn)單的任務(wù)上,AI可能比我們預(yù)期的要困難得多。讀懂一張樂(lè)譜,對(duì)于受過(guò)一定音樂(lè)訓(xùn)練的人來(lái)說(shuō)可能并不太難,但對(duì)AI來(lái)說(shuō)卻是一個(gè)復(fù)雜的多模態(tài)理解挑戰(zhàn)。這提醒我們,AI的發(fā)展道路并非一帆風(fēng)順,在通往真正的人工智能的路上,還有許多看似不起眼但實(shí)際很重要的技術(shù)難題需要解決。這項(xiàng)研究為音樂(lè)AI領(lǐng)域提供了重要的基礎(chǔ)工具,也讓我們對(duì)AI在專(zhuān)業(yè)領(lǐng)域的應(yīng)用有了更清醒的認(rèn)識(shí)。
Q&A
Q1:WildScore是什么?它有什么特別之處?
A:WildScore是加州大學(xué)圣地亞哥分校開(kāi)發(fā)的AI樂(lè)譜理解測(cè)試平臺(tái)。它的特別之處在于測(cè)試題目都來(lái)自Reddit音樂(lè)社區(qū)的真實(shí)討論,而不是教科書(shū)式的標(biāo)準(zhǔn)題目,能更準(zhǔn)確反映AI在實(shí)際音樂(lè)場(chǎng)景中的表現(xiàn)能力。
Q2:現(xiàn)在的AI模型在讀樂(lè)譜方面表現(xiàn)如何?
A:表現(xiàn)并不理想。即使是最好的GPT-4.1-mini模型準(zhǔn)確率也只有68.31%,而且在不同音樂(lè)領(lǐng)域差異很大。AI在理解音樂(lè)情感表達(dá)方面相對(duì)較好,但在節(jié)拍識(shí)別和多聲部分析方面就比較困難。
Q3:為什么AI讀樂(lè)譜這么困難?
A:主要原因是樂(lè)譜是一個(gè)復(fù)雜的符號(hào)系統(tǒng),不僅要識(shí)別各種音樂(lè)符號(hào),還要理解符號(hào)間的關(guān)系和音樂(lè)語(yǔ)法規(guī)則。目前AI模型主要在自然圖像上訓(xùn)練,缺乏對(duì)這種高度結(jié)構(gòu)化圖像的理解能力。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。