av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 看音樂(lè)譜竟然這么難?加州大學(xué)圣地亞哥分校發(fā)現(xiàn)AI在讀樂(lè)譜上的"視力"問(wèn)題

看音樂(lè)譜竟然這么難?加州大學(xué)圣地亞哥分校發(fā)現(xiàn)AI在讀樂(lè)譜上的"視力"問(wèn)題

2025-09-19 11:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-19 11:07 ? 科技行者

這項(xiàng)由加州大學(xué)圣地亞哥分校的Gagan Mundada、Yash Vishe、Amit Namburi、Xin Xu、Zachary Novack、Julian McAuley和Junda Wu領(lǐng)導(dǎo)的研究發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái),有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2509.04744v1訪問(wèn)完整論文。

你有沒(méi)有過(guò)這樣的經(jīng)歷:看著一張樂(lè)譜,明明上面的音符、節(jié)拍記號(hào)都清清楚楚,但就是不知道它到底想表達(dá)什么音樂(lè)情感?現(xiàn)在的人工智能也遇到了同樣的困擾。最近,加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)就發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:那些在回答問(wèn)題、理解圖片方面表現(xiàn)出色的AI大模型,在面對(duì)音樂(lè)樂(lè)譜時(shí)卻常常"抓瞎"。

這就好比一個(gè)博學(xué)的學(xué)者,能夠流利地討論文學(xué)、歷史、科學(xué),但一拿到樂(lè)譜就變成了"文盲"。研究團(tuán)隊(duì)為了搞清楚這到底是怎么回事,創(chuàng)建了一個(gè)名為"WildScore"的測(cè)試平臺(tái),專(zhuān)門(mén)用來(lái)檢驗(yàn)AI模型理解樂(lè)譜的能力。

這個(gè)測(cè)試平臺(tái)的創(chuàng)新之處在于,它不是那種死板的學(xué)院派考試,而是從真實(shí)的音樂(lè)愛(ài)好者社區(qū)收集問(wèn)題。研究團(tuán)隊(duì)翻遍了Reddit音樂(lè)理論版塊十年來(lái)的討論帖子,挑選出那些配有樂(lè)譜圖片的真實(shí)問(wèn)題。這些問(wèn)題不是教科書(shū)上的標(biāo)準(zhǔn)答案題,而是音樂(lè)愛(ài)好者在實(shí)際演奏和學(xué)習(xí)中遇到的困惑,充滿了生活氣息和實(shí)用性。

想象一下,你在學(xué)習(xí)彈奏金屬樂(lè)隊(duì)的《Fade to Black》時(shí),面對(duì)復(fù)雜的三連音節(jié)拍感到困惑,于是在網(wǎng)上求助?;蛘吣阍诜治瞿氐?7號(hào)鋼琴協(xié)奏曲時(shí),對(duì)某個(gè)特殊音符的作用感到疑惑。這些都是WildScore測(cè)試集中包含的真實(shí)場(chǎng)景。

研究團(tuán)隊(duì)將這些音樂(lè)問(wèn)題按照難度和類(lèi)型進(jìn)行了系統(tǒng)分類(lèi),就像整理一個(gè)巨大的音樂(lè)問(wèn)題圖書(shū)館。他們把問(wèn)題分成五大類(lèi):和聲與調(diào)性(相當(dāng)于音樂(lè)的"語(yǔ)法規(guī)則")、節(jié)奏與節(jié)拍(音樂(lè)的"時(shí)間感")、織體(不同聲部如何配合)、表情與演奏(如何讓音樂(lè)有感情)、以及曲式(音樂(lè)的整體結(jié)構(gòu))。每個(gè)大類(lèi)下面又細(xì)分出許多小類(lèi),總共形成了12個(gè)具體的音樂(lè)知識(shí)領(lǐng)域。

為了讓測(cè)試結(jié)果更加客觀可比,研究團(tuán)隊(duì)將所有問(wèn)題都改編成了選擇題格式。這樣做的好處是避免了開(kāi)放式問(wèn)答中的主觀判斷問(wèn)題,讓不同AI模型的表現(xiàn)能夠直接對(duì)比。每個(gè)問(wèn)題都配有一張樂(lè)譜圖片和幾個(gè)選項(xiàng),AI需要根據(jù)圖片內(nèi)容選擇正確答案。

當(dāng)研究團(tuán)隊(duì)用這個(gè)測(cè)試平臺(tái)檢驗(yàn)?zāi)壳白钕冗M(jìn)的AI模型時(shí),結(jié)果頗為出人意料。即使是表現(xiàn)最好的GPT-4.1-mini模型,準(zhǔn)確率也只有68.31%,而且這還是在同時(shí)提供樂(lè)譜圖片和文字問(wèn)題的情況下。如果只給文字問(wèn)題不給圖片,準(zhǔn)確率還會(huì)下降到65.76%。這意味著AI雖然能從樂(lè)譜圖片中獲得一些幫助,但這種幫助相當(dāng)有限。

更令人驚訝的是,不同類(lèi)型的音樂(lè)問(wèn)題對(duì)AI來(lái)說(shuō)難度差別巨大。在表情演奏和和聲調(diào)性方面,AI表現(xiàn)相對(duì)較好,準(zhǔn)確率能達(dá)到70%以上。但在節(jié)奏節(jié)拍和音樂(lè)織體方面,AI就顯得力不從心,準(zhǔn)確率只有60%多一點(diǎn)。這就好比一個(gè)學(xué)生,在理解音樂(lè)的情感表達(dá)方面還算不錯(cuò),但在數(shù)拍子和分析多聲部配合方面就完全搞不清楚了。

為了深入了解AI的"視力"問(wèn)題到底出在哪里,研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)額外的診斷測(cè)試。第一個(gè)測(cè)試專(zhuān)門(mén)檢查AI能否準(zhǔn)確識(shí)別樂(lè)譜上的基本符號(hào),比如是什么調(diào)、有幾個(gè)音符等最簡(jiǎn)單的視覺(jué)識(shí)別任務(wù)。結(jié)果顯示,即使是最好的GPT-4.1-mini也只能達(dá)到52%的正確率,而其他較小的模型表現(xiàn)更差,有些甚至只有26%的準(zhǔn)確率。這就像給一個(gè)人驗(yàn)視力,發(fā)現(xiàn)他連最大的字母都看不清楚。

第二個(gè)診斷測(cè)試更加直接:讓AI直接將樂(lè)譜轉(zhuǎn)換成計(jì)算機(jī)能理解的音樂(lè)代碼。結(jié)果顯示,大多數(shù)AI模型都無(wú)法完成這個(gè)任務(wù),經(jīng)常生成一些無(wú)意義的重復(fù)內(nèi)容或者干脆給出錯(cuò)誤的結(jié)果。只有GPT-4.1-mini能夠處理一些簡(jiǎn)單的單聲部樂(lè)譜,但面對(duì)復(fù)雜的多聲部作品時(shí)也會(huì)出現(xiàn)遺漏和重復(fù)的問(wèn)題。

這些發(fā)現(xiàn)揭示了一個(gè)重要問(wèn)題:目前的AI模型在視覺(jué)理解方面仍然存在明顯的局限性,特別是當(dāng)面對(duì)像樂(lè)譜這樣高度符號(hào)化和結(jié)構(gòu)化的圖像時(shí)。樂(lè)譜不同于日常照片,它是一個(gè)復(fù)雜的視覺(jué)符號(hào)系統(tǒng),包含了音高、時(shí)值、表情記號(hào)等多層次信息,需要模型不僅能識(shí)別符號(hào),還要理解符號(hào)之間的關(guān)系和音樂(lè)語(yǔ)法規(guī)則。

研究團(tuán)隊(duì)發(fā)現(xiàn),不同AI模型在處理樂(lè)譜圖像時(shí)的表現(xiàn)差異很大,這主要與它們的訓(xùn)練方式有關(guān)。那些在多模態(tài)訓(xùn)練中接觸過(guò)更多結(jié)構(gòu)化圖像的模型,在樂(lè)譜理解方面表現(xiàn)相對(duì)更好。而主要在自然圖像上訓(xùn)練的模型,往往在面對(duì)樂(lè)譜時(shí)顯得無(wú)所適從。

有趣的是,研究還發(fā)現(xiàn)了一個(gè)看似矛盾的現(xiàn)象:對(duì)于某些問(wèn)題,AI在不看樂(lè)譜圖片的情況下反而表現(xiàn)更好。這說(shuō)明這些問(wèn)題可能更多依賴(lài)音樂(lè)理論知識(shí)而不是視覺(jué)識(shí)別能力。但對(duì)于真正需要分析樂(lè)譜細(xì)節(jié)的問(wèn)題,圖像信息確實(shí)能夠提供重要幫助,只是現(xiàn)有的AI模型還無(wú)法充分利用這些視覺(jué)信息。

為了驗(yàn)證測(cè)試的可靠性,研究團(tuán)隊(duì)還邀請(qǐng)了一位音樂(lè)專(zhuān)業(yè)的人類(lèi)專(zhuān)家參與測(cè)試。這位專(zhuān)家在100道題目上達(dá)到了72%的準(zhǔn)確率,明顯超過(guò)了所有AI模型的表現(xiàn)。不過(guò),這個(gè)結(jié)果也表明,即使對(duì)于受過(guò)專(zhuān)業(yè)訓(xùn)練的人類(lèi)來(lái)說(shuō),這些來(lái)自真實(shí)音樂(lè)社區(qū)的問(wèn)題也具有相當(dāng)?shù)奶魬?zhàn)性。

這項(xiàng)研究的意義不僅在于揭示了AI的不足,更重要的是為未來(lái)的改進(jìn)指明了方向。研究團(tuán)隊(duì)建議,要提高AI的樂(lè)譜理解能力,需要在以下幾個(gè)方面下功夫:首先是在模型訓(xùn)練階段增加更多結(jié)構(gòu)化圖像的訓(xùn)練數(shù)據(jù),特別是各種類(lèi)型的樂(lè)譜;其次是改進(jìn)視覺(jué)-語(yǔ)言對(duì)齊機(jī)制,讓模型更好地理解符號(hào)與意義之間的對(duì)應(yīng)關(guān)系;最后是開(kāi)發(fā)專(zhuān)門(mén)針對(duì)音樂(lè)符號(hào)的編碼器,能夠更好地處理樂(lè)譜的層次化結(jié)構(gòu)。

從更廣闊的視角來(lái)看,這項(xiàng)研究反映了當(dāng)前AI發(fā)展中的一個(gè)重要問(wèn)題:雖然AI在很多任務(wù)上已經(jīng)接近或超過(guò)人類(lèi)水平,但在一些需要深度專(zhuān)業(yè)知識(shí)和復(fù)雜符號(hào)理解的領(lǐng)域,仍然存在明顯的能力邊界。樂(lè)譜理解只是其中一個(gè)例子,類(lèi)似的挑戰(zhàn)可能還存在于數(shù)學(xué)公式、工程圖紙、化學(xué)結(jié)構(gòu)式等其他專(zhuān)業(yè)符號(hào)系統(tǒng)中。

研究團(tuán)隊(duì)特別強(qiáng)調(diào),WildScore測(cè)試集的價(jià)值在于它的"野生"特性——這些問(wèn)題來(lái)自真實(shí)的音樂(lè)學(xué)習(xí)和創(chuàng)作場(chǎng)景,而不是人工設(shè)計(jì)的標(biāo)準(zhǔn)化題目。這種測(cè)試方式更能反映AI在實(shí)際應(yīng)用中的表現(xiàn),對(duì)于評(píng)估AI系統(tǒng)的實(shí)用性具有重要意義。

值得注意的是,這項(xiàng)研究也為音樂(lè)教育和音樂(lè)技術(shù)的結(jié)合提供了新的思路。隨著AI技術(shù)在音樂(lè)領(lǐng)域的應(yīng)用越來(lái)越廣泛,了解AI的能力邊界和局限性,對(duì)于開(kāi)發(fā)更好的音樂(lè)學(xué)習(xí)工具和創(chuàng)作輔助系統(tǒng)至關(guān)重要。

研究的數(shù)據(jù)收集過(guò)程本身也很有趣。團(tuán)隊(duì)從2012年到2022年十年間的Reddit音樂(lè)理論版塊收集了大量討論帖,最終篩選出807個(gè)高質(zhì)量的問(wèn)題實(shí)例。這個(gè)過(guò)程不僅需要技術(shù)手段,還需要對(duì)音樂(lè)內(nèi)容的深入理解和人工審核,確保問(wèn)題的準(zhǔn)確性和代表性。

在數(shù)據(jù)處理方面,研究團(tuán)隊(duì)采用了一個(gè)創(chuàng)新的方法來(lái)確定正確答案:主要依據(jù)Reddit社區(qū)的投票機(jī)制,選擇獲得最高評(píng)分的回答作為標(biāo)準(zhǔn)答案。當(dāng)出現(xiàn)平票時(shí),才使用語(yǔ)言模型進(jìn)行輔助判斷。這種方法體現(xiàn)了對(duì)真實(shí)用戶(hù)智慧的尊重,也保證了答案的實(shí)用性和可信度。

研究結(jié)果還揭示了一個(gè)值得深思的現(xiàn)象:即使是最先進(jìn)的AI模型,在面對(duì)需要多步推理和上下文理解的音樂(lè)問(wèn)題時(shí),仍然表現(xiàn)不佳。這些問(wèn)題往往需要綜合考慮和聲進(jìn)行、節(jié)奏模式、演奏技巧等多個(gè)因素,正是人類(lèi)音樂(lè)理解的精髓所在。

從技術(shù)實(shí)現(xiàn)角度來(lái)看,這項(xiàng)研究為多模態(tài)AI的發(fā)展提供了一個(gè)很好的基準(zhǔn)測(cè)試。不同于以往主要關(guān)注自然圖像和日常對(duì)話的測(cè)試集,WildScore專(zhuān)注于一個(gè)高度專(zhuān)業(yè)化的領(lǐng)域,這對(duì)于推動(dòng)AI技術(shù)在垂直領(lǐng)域的應(yīng)用具有重要價(jià)值。

研究團(tuán)隊(duì)在論文中也坦誠(chéng)地討論了研究的局限性。比如,Reddit社區(qū)的討論可能存在一定的偏見(jiàn),傾向于討論主流音樂(lè)風(fēng)格而忽略一些小眾音樂(lè)類(lèi)型。此外,網(wǎng)絡(luò)討論的質(zhì)量參差不齊,雖然經(jīng)過(guò)篩選,但仍可能包含一些不夠嚴(yán)謹(jǐn)?shù)膬?nèi)容。

盡管存在這些局限性,WildScore作為第一個(gè)專(zhuān)門(mén)針對(duì)樂(lè)譜理解的多模態(tài)AI基準(zhǔn)測(cè)試,其價(jià)值是不可否認(rèn)的。它不僅為當(dāng)前AI能力提供了客觀評(píng)估,也為未來(lái)的研究指明了明確方向。隨著這個(gè)測(cè)試集的公開(kāi)發(fā)布,相信會(huì)有更多研究團(tuán)隊(duì)投入到音樂(lè)AI的改進(jìn)工作中。

說(shuō)到底,這項(xiàng)研究讓我們看到了AI發(fā)展的一個(gè)有趣側(cè)面:在某些看似簡(jiǎn)單的任務(wù)上,AI可能比我們預(yù)期的要困難得多。讀懂一張樂(lè)譜,對(duì)于受過(guò)一定音樂(lè)訓(xùn)練的人來(lái)說(shuō)可能并不太難,但對(duì)AI來(lái)說(shuō)卻是一個(gè)復(fù)雜的多模態(tài)理解挑戰(zhàn)。這提醒我們,AI的發(fā)展道路并非一帆風(fēng)順,在通往真正的人工智能的路上,還有許多看似不起眼但實(shí)際很重要的技術(shù)難題需要解決。這項(xiàng)研究為音樂(lè)AI領(lǐng)域提供了重要的基礎(chǔ)工具,也讓我們對(duì)AI在專(zhuān)業(yè)領(lǐng)域的應(yīng)用有了更清醒的認(rèn)識(shí)。

Q&A

Q1:WildScore是什么?它有什么特別之處?

A:WildScore是加州大學(xué)圣地亞哥分校開(kāi)發(fā)的AI樂(lè)譜理解測(cè)試平臺(tái)。它的特別之處在于測(cè)試題目都來(lái)自Reddit音樂(lè)社區(qū)的真實(shí)討論,而不是教科書(shū)式的標(biāo)準(zhǔn)題目,能更準(zhǔn)確反映AI在實(shí)際音樂(lè)場(chǎng)景中的表現(xiàn)能力。

Q2:現(xiàn)在的AI模型在讀樂(lè)譜方面表現(xiàn)如何?

A:表現(xiàn)并不理想。即使是最好的GPT-4.1-mini模型準(zhǔn)確率也只有68.31%,而且在不同音樂(lè)領(lǐng)域差異很大。AI在理解音樂(lè)情感表達(dá)方面相對(duì)較好,但在節(jié)拍識(shí)別和多聲部分析方面就比較困難。

Q3:為什么AI讀樂(lè)譜這么困難?

A:主要原因是樂(lè)譜是一個(gè)復(fù)雜的符號(hào)系統(tǒng),不僅要識(shí)別各種音樂(lè)符號(hào),還要理解符號(hào)間的關(guān)系和音樂(lè)語(yǔ)法規(guī)則。目前AI模型主要在自然圖像上訓(xùn)練,缺乏對(duì)這種高度結(jié)構(gòu)化圖像的理解能力。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-