這項由亞馬遜公司西雅圖貝爾維尤分部的首席科學家Mandip Goswami獨立完成的研究發(fā)表于2025年9月23日,研究成果以數據集的形式發(fā)布在Zenodo平臺,DOI編號為10.5281/zenodo.17172015。有興趣深入了解的讀者可以通過該DOI編號查詢完整的數據集和相關代碼。
當你每天早上被手機鬧鐘叫醒,或者收到微信消息提示音時,你可能從未想過這些看似簡單的"嗶嗶"聲背后其實隱藏著一門復雜的科學。這些電子提示音在學術界被稱為"earcon"(聽覺圖標),就像視覺界面中的圖標一樣,它們用聲音來傳達信息。但研究這些聲音效果一直面臨著一個讓人頭疼的問題:缺乏一個標準化的"積木盒"。
想象一下,如果你想研究不同顏色對人情緒的影響,但市面上找不到標準的色卡,每個研究者都自己調配顏色,那么不同研究之間就很難比較和驗證。電子音效研究領域正是面臨這樣的困境。研究者們要么使用工業(yè)產品中的真實提示音(但這涉及版權問題),要么自己從頭制作音效(但制作標準不統(tǒng)一),導致研究結果難以重現和比較。
Goswami博士敏銳地察覺到了這個問題,并像一個貼心的工具制造者一樣,為整個研究社區(qū)打造了一套標準化的"聲音積木"。這套名為BeepBank-500的數據集包含了300到500個精心設計的合成音效片段,每一個都像樂高積木一樣有著明確的參數標記,研究者們可以像搭積木一樣輕松組合使用。
更令人欣喜的是,這些"聲音積木"完全免費開放,任何人都可以自由使用而不用擔心版權問題。音頻文件采用了CC0-1.0許可證(相當于完全放棄版權),而生成代碼則使用MIT許可證,這意味著無論是學術研究還是商業(yè)應用都可以暢通無阻地使用這些資源。
一、為什么我們需要這樣一套"聲音積木"
在我們的日常生活中,電子提示音無處不在。從智能手機的通知聲、汽車的倒車雷達音,到醫(yī)療設備的報警聲,這些看似簡單的"嗶嗶"聲實際上承載著重要的信息傳遞功能。它們就像聲音世界的"交通標志",用不同的音調、節(jié)奏和音色來告訴我們發(fā)生了什么。
但要科學地研究這些聲音效果并不容易。傳統(tǒng)上,研究者面臨著幾個令人困擾的問題。首先是版權問題,就像你不能隨意使用別人的照片一樣,大多數電子產品中的提示音都有版權保護,研究者無法自由使用和分享。其次是標準化問題,不同研究者制作的音效往往差異很大,就像每個廚師都有自己的調料配方,很難比較誰的菜更好吃。
第三個問題是可重現性。在科學研究中,其他研究者應該能夠重復你的實驗并得到相同的結果,但如果每個人使用的音效都不一樣,就像用不同品牌的面粉烤面包,很難確定最終結果的差異是來自配方還是材料。
Goswami博士設計BeepBank-500時,就像一個貼心的圖書管理員在整理書籍一樣,制定了三個明確的設計目標。第一個目標是"小而美",不追求數量的龐大,而是確保每一個音效都有其獨特的價值和明確的用途。第二個目標是"完全可重現",就像一份詳細的烹飪食譜,任何人按照相同的步驟都能制作出完全相同的音效。第三個目標是"零摩擦使用",消除所有可能的使用障礙,讓研究者能夠專注于研究本身而不是被技術細節(jié)所困擾。
這套數據集特別適合那些需要快速驗證想法的研究場景。比如,一個研究團隊想要測試不同的音效分類算法,或者探索聲音的"粗糙度"如何影響人們的緊急感知,又或者研究簡單的房間回音效果對音效識別的影響。在這些情況下,研究者不需要花費大量時間去制作和收集音效,而可以直接使用這套標準化的"積木"來搭建自己的實驗。
當然,這套數據集也有其明確的邊界。它不包含語音或音樂內容,不提供情感標注,也不適用于醫(yī)療或安全關鍵的應用場景。就像一套專門的樂高積木套裝,雖然功能專一,但在其專業(yè)領域內卻異常強大。
二、這些"聲音積木"是如何制造出來的
制造這些聲音積木的過程就像一條精密的工廠流水線,每一個步驟都經過精心設計和嚴格控制。整個制作過程可以想象成一個"聲音工廠",原材料是最基本的數學波形,經過一系列加工步驟,最終產出各具特色的成品音效。
這條流水線的第一個工作站是"波形發(fā)生器"。就像紡織廠有不同的紗線材料一樣,這里提供了五種基本的"聲音紗線"。最基礎的是正弦波,它產生的聲音最純凈,就像一個標準的音叉發(fā)出的聲音。方波則產生更加銳利的聲音,類似老式電子游戲的音效。三角波介于兩者之間,聲音相對柔和但仍帶有一定的銳度。
更有趣的是兩種調頻變體,它們就像給基礎音調"加料"一樣,產生更復雜的音色。fm_2to1和fm_3to2這兩種變體使用不同的頻率比例來調制基礎音調,創(chuàng)造出帶有輕微不和諧感的聲音,這種不和諧感在警報音中很常見,能夠有效抓住人們的注意力。
流水線的第二個工作站負責確定音調高低。研究團隊選擇了四個代表性的基礎頻率:350赫茲、500赫茲、750赫茲和1000赫茲。這個選擇就像鋼琴上選擇幾個關鍵音符一樣,覆蓋了從相對低沉到中高音的范圍,正好是電子提示音最常使用的音域。這些頻率就像標準的"音高模板",確保所有音效都在人耳最敏感的范圍內。
第三個工作站處理聲音的時間特性,包括持續(xù)時間和音量包絡。持續(xù)時間有三個選擇:100毫秒、250毫秒和500毫秒,分別對應快速提示、標準提示和較長提示的需求。音量包絡則更加精細,有三種預設模式。"adsr_fast"模式就像一個快速的敲擊聲,聲音迅速出現又迅速消失。"adsr_med"模式更加平緩,聲音有一個較為舒緩的出現和消失過程。"percussive"模式則模擬打擊樂器的特點,聲音突然出現然后逐漸衰減。
第四個工作站添加"顫抖效果",這在技術上稱為幅度調制。就像你用手快速搖動一個正在響鈴的鈴鐺,聲音會產生顫抖的效果。這種效果有三種速度設置:0赫茲(無顫抖)、8赫茲(輕微顫抖)和30赫茲(明顯顫抖),以及三種強度設置:0.0(無效果)、0.3(輕微)和0.5(中等)。這種顫抖效果在緊急警報中很常見,因為它能產生緊迫感和引起注意。
第五個工作站處理和聲結構。大部分音效是單音調的,但也有一些采用簡單的三和弦結構,包括大三和弦(聽起來明亮愉快)和小三和弦(聽起來相對暗淡)。這就像在基礎音調上疊加了和諧的伴奏,讓聲音更加豐富立體。
第六個工作站是"音響環(huán)境模擬器",它模擬不同的空間音響效果。有三種設置:完全干燥(無任何回音)、小房間效果(約0.3秒的輕微回音)和中等房間效果(約0.6秒的明顯回音)。這就像在不同大小的房間里播放同一段音樂,聲音的空間感會有明顯差異。這種處理使用了施羅德式混響技術,雖然比不上專業(yè)錄音棚的復雜設備,但已足夠模擬基本的空間聲學效果。
流水線的最后一個工作站負責"質量控制"。所有音效都會被標準化到相同的響度水平(約-20分貝FS),就像工廠確保每個產品都符合統(tǒng)一標準一樣。同時設置了絕對音量上限(-1分貝FS),防止聲音過大造成失真或聽力損傷。
整個制作過程完全使用Python和NumPy等開源工具實現,所有代碼都公開透明,任何人都可以檢查和驗證制作過程。這種透明度就像開源的烹飪食譜,不僅告訴你最終的菜品是什么樣子,還詳細展示了每一個制作步驟。
三、如何科學地管理這些"聲音積木"
管理這套聲音積木就像經營一個精心分類的圖書館,每個音效文件都有詳細的"身份證明"和完整的"履歷檔案"。研究團隊為每個音效創(chuàng)建了一個包含22個不同信息字段的詳細檔案,就像給每本書都配備了一張詳盡的圖書卡片。
這些"身份證明"包含了最基礎的技術信息。每個音效文件都是單聲道(而非立體聲),采樣率為48千赫茲,16位深度的PCM WAV格式。這種選擇就像選擇標準尺寸的紙張一樣,確保所有文件都有統(tǒng)一的技術規(guī)格,便于后續(xù)處理和比較。
除了基礎技術參數,每個音效的檔案還記錄了詳細的生成參數。這包括使用的波形類型(比如正弦波或方波)、基礎頻率、持續(xù)時間、音量包絡類型、調制參數、和弦結構和混響設置等。這就像記錄一道菜的完整配方,包括每種食材的用量、烹飪時間和制作步驟,確保任何人都能重現完全相同的結果。
更有價值的是,檔案中還包含了豐富的分析特征。研究團隊計算了每個音效的頻譜重心(反映音色的明亮度)、頻譜帶寬(反映音色的豐富程度)和過零率(反映聲音的粗糙程度)等基礎聲學特征。雖然這些特征被明確標注為"代理指標"而非精確測量,但它們?yōu)榭焖俸Y選和初步分析提供了有用的參考。
檔案系統(tǒng)還包含了一些巧妙的設計細節(jié)。比如,"不和諧度代理"這個字段通過簡單的0和1來標記音效是單音還是和弦,為研究和諧性提供了便捷的分類標準。"粗糙度代理"則直接使用調制深度值,為研究聲音的粗糙感知提供了量化指標。
為了確保研究的可重現性,每個音效的生成過程都使用了固定的隨機數種子,并將這個種子記錄在檔案中。這就像在烹飪食譜中記錄每次攪拌的確切次數和時間,確保每次制作都能得到完全相同的結果。
數據集的版本管理也非常嚴謹。當前的1.0.0版本包含400個音效文件,按照80/10/10的比例分為訓練集、驗證集和測試集。這種分割通過對文件名進行哈希計算實現,確保即使重新生成數據集,同一個音效也總是被分配到相同的子集中。這種方法就像圖書館的固定分類系統(tǒng),無論何時重新整理,同類書籍總是被放在相同的書架上。
所有這些檔案信息都整理在一個名為metadata.csv的表格文件中,就像一個詳細的圖書目錄。研究者可以輕松地篩選特定類型的音效,比如"找出所有使用方波、持續(xù)時間為250毫秒、帶有中等調制的音效",或者"篩選所有在小房間環(huán)境中的大三和弦音效"。
這種精細的分類和記錄系統(tǒng)使得BeepBank-500不僅僅是一個音效集合,更是一個強大的研究工具。研究者可以根據自己的需要精確地選擇音效子集,或者系統(tǒng)地比較不同參數對實驗結果的影響。這就像擁有一個智能化的實驗材料倉庫,你可以根據任何需要快速找到最合適的"實驗材料"。
四、用這些"積木"能搭建出什么
為了驗證這套聲音積木的實用性,研究團隊就像產品測試員一樣,設計了兩個簡單但富有代表性的實驗任務。這些實驗不是為了創(chuàng)造突破性的科學發(fā)現,而是為了證明數據集的質量和多樣性,同時為其他研究者提供起步的參考點。
第一個實驗任務是"聲音家族識別",就像訓練一個人工智能來區(qū)分不同樂器的聲音一樣。實驗的目標是讓計算機學會識別音效使用的是哪種基礎波形:是純凈的正弦波、銳利的方波、柔和的三角波,還是復雜的調頻變體。這聽起來簡單,但實際上是一個很好的音色分析基礎任務。
實驗采用了相對簡單的方法。首先,將每個音效轉換為對數梅爾頻譜圖,這就像給聲音拍攝一張"音色照片",顯示不同頻率成分的強度分布。然后使用全局平均和方差池化來提取特征,最后用邏輯回歸模型進行分類。這種方法雖然算不上最先進,但勝在簡單可靠,容易理解和重現。
實驗結果顯示,在測試集上的分類準確率達到了81.1%。這個結果表明數據集中的不同波形確實具有可區(qū)分的特征,同時也說明任務有一定的挑戰(zhàn)性。完美的100%準確率可能意味著任務過于簡單,而太低的準確率則可能表明數據質量有問題或者任務設計不當。81.1%這個結果處在一個合理的區(qū)間內,既證明了數據集的有效性,又為未來的算法改進留下了空間。
第二個實驗任務是"音調高度檢測",這更像是測試一個"電子調音器"的準確性。任務是從音效中準確估計出基礎頻率,也就是音調的高低。這個任務看似簡單,但在有調制、混響和和弦的情況下會變得相當具有挑戰(zhàn)性。
實驗使用了YIN算法,這是一個無需訓練的經典基頻檢測方法,通過分析音頻信號的自相關特性來估計基頻。算法對每個音效逐幀分析,然后取中位數作為最終結果。這種方法的優(yōu)點是不需要大量訓練數據,可以直接應用到新的音效上。
實驗結果呈現出典型的"重尾分布"特征,這在基頻檢測任務中很常見。平均絕對誤差為63.66赫茲,但中位數絕對誤差只有0.22赫茲。這意味著大多數音效的檢測都非常準確,但少數情況下會出現較大誤差,通常是八度音或次諧波的混淆。這種現象在調頻音效和帶有混響的音效中更為明顯,符合預期。
更有意義的是"音樂容差"指標,即檢測結果在真實值的正負一個半音范圍內的比例,達到了80.2%。這個指標對實際應用更有參考價值,因為一個半音的誤差在很多應用場景下是可以接受的。
這兩個基準實驗就像產品的"出廠測試",不僅驗證了數據集的質量,也為后續(xù)研究者提供了可比較的起始點。研究者可以使用相同的任務和方法來測試自己的算法,或者在此基礎上設計更復雜的實驗。所有實驗的代碼、配置和結果都以JSON格式保存,便于在學術論文中引用和比較。
這些基準實驗還展示了數據集的多樣性和挑戰(zhàn)性。不同的參數組合(調制、混響、和弦等)確實會影響算法的表現,這為研究算法的魯棒性提供了很好的測試平臺。研究者可以系統(tǒng)地分析哪些因素對算法性能影響最大,從而有針對性地改進算法設計。
五、負責任的開源:權限與邊界
在當今這個知識產權備受關注的時代,Goswami博士在數據集的授權方面表現出了令人敬佩的開放態(tài)度和負責任的考量。他就像一個慷慨的園丁,不僅愿意免費分享自己精心培育的花園,還詳細標明了每株植物的特性和適用場景。
在許可證選擇上,研究團隊采用了最寬松的CC0-1.0許可證來發(fā)布所有音頻文件。這種許可證本質上是"版權的完全放棄",就像把作品完全奉獻給公共領域。這意味著任何人都可以自由使用、修改、分發(fā)這些音效,無論是學術研究、商業(yè)應用還是個人項目,都不需要征得許可或支付費用。相比之下,生成這些音效的代碼則使用MIT許可證,這同樣是一個非常寬松的開源許可證,允許幾乎所有形式的使用,只要保留原始的版權聲明即可。
這種雙重許可策略體現了研究團隊的深思熟慮。音頻內容使用最開放的許可證,鼓勵最廣泛的應用和創(chuàng)新;而代碼使用稍微保守一點的許可證,既保持開放性又維護基本的歸屬權。這就像開放一個公共圖書館,書籍可以自由閱讀和復制,但圖書館的管理系統(tǒng)仍然標明設計者。
研究團隊明確界定了數據集的適用范圍。它特別適合那些需要快速原型驗證的研究場景,比如測試新的音效分類算法、探索音色相似性、研究基礎的魯棒性問題,或者作為教學和比較研究的標準工具。這就像一套通用的實驗器材,雖然不能解決所有問題,但在其專業(yè)領域內非常好用。
同樣重要的是,研究團隊也明確劃定了不適用的邊界。這套數據集明確不適用于安全關鍵的警報系統(tǒng)或臨床醫(yī)療應用。這種自我限制體現了科研工作者的責任感,就像一個醫(yī)生會明確告訴病人某種藥物的適應癥和禁忌癥一樣。合成音效雖然在參數控制和實驗重現性方面有優(yōu)勢,但確實可能無法捕捉到人工設計音效的某些感知細微差別。
研究團隊還誠實地承認了技術局限性。數據集中的混響效果是簡化的施羅德式模擬,雖然足夠用于基礎研究,但無法替代真實房間的復雜聲學環(huán)境。心理聲學測量被明確標注為"代理指標",提醒使用者不要過度解讀這些簡化的量化指標。這種誠實的自我評估就像一個工匠會坦率地告訴客戶自己產品的優(yōu)勢和局限一樣。
在倫理考量方面,研究團隊確認數據集不包含任何私人或敏感信息,因為所有音效都是從數學公式直接生成的合成產品。這消除了數據隱私方面的顧慮,使得研究者可以放心地使用和分享這些數據。
版本管理和持續(xù)更新策略也體現了長期維護的承諾。研究團隊承諾,如果未來版本添加了第三方素材,將會在LICENSES.md文件中詳細記錄所有必要的歸屬信息,確保整個項目始終保持合規(guī)狀態(tài)。這種前瞻性的規(guī)劃就像為一個可能不斷擴展的項目預先制定了管理規(guī)范。
這種負責任的開源態(tài)度不僅保護了使用者的利益,也為整個研究社區(qū)樹立了良好的榜樣。它展示了如何在促進科學開放和保護合法權益之間找到平衡,為其他研究者提供了可參考的最佳實踐模式。
六、未來的想象空間
雖然BeepBank-500在當前版本中已經是一個功能完備的研究工具,但Goswami博士和他的團隊顯然沒有停下創(chuàng)新的腳步。他們就像建筑師在完成一棟建筑的基礎結構后,已經開始規(guī)劃未來的擴建方案。
團隊設想的第一個重要擴展方向是三維空間音效。目前的音效都是簡單的單聲道信號,但現實中的聽覺體驗往往是三維的。想象一下,當你在使用虛擬現實設備時,來自不同方向的提示音能夠幫助你更好地理解虛擬環(huán)境中的信息。為了實現這個目標,未來版本可能會引入基于頭相關傳遞函數的空間化技術,讓每個音效都能精確地定位在三維空間中的任意位置。
第二個擴展方向是豐富音效的表現力。當前版本使用的音量包絡和調頻參數雖然已經覆蓋了基礎需求,但在某些應用場景下可能還不夠豐富。未來版本計劃增加更多種類的音量包絡設計,以及更精細的調頻參數控制,讓音效能夠表達更復雜的情感色彩和信息內容。這就像擴展一個畫家的調色板,提供更多顏色選擇來創(chuàng)作更豐富的作品。
第三個有趣的方向是引入真實聲學環(huán)境的模擬。目前使用的施羅德式混響雖然簡單有效,但與真實房間的聲學特性還有差距。團隊考慮在未來版本中加入實際測量的房間沖激響應,讓研究者能夠測試音效在真實聲學環(huán)境中的表現。這就像從使用合成背景轉向使用真實場景拍攝,能夠更準確地模擬實際應用條件。
更具前瞻性的是,團隊還考慮加入主觀偏好數據的收集。雖然當前的數據集主要關注技術參數和客觀測量,但音效的最終目的是為人類服務,因此人們的主觀感受同樣重要。未來可能會通過用戶研究來收集人們對不同音效的偏好評價,為音效設計提供更貼近人類感知的指導。
在音調覆蓋方面,團隊也有擴展計劃。當前版本使用的四個基礎頻率雖然覆蓋了電子提示音的主要范圍,但對于某些特殊應用場景可能還不夠全面。未來版本可能會包含更多的基礎頻率選擇,以及允許在同一基礎頻率上進行微小變化的功能,為研究音高感知的細微差別提供工具。
這些擴展計劃體現了研究團隊對未來應用場景的深入思考。隨著人機交互技術的不斷發(fā)展,音效在虛擬現實、增強現實、物聯(lián)網設備等新興領域中的作用越來越重要。一個不斷進化的標準化音效庫將為這些新技術的用戶體驗設計提供重要支撐。
同時,這些規(guī)劃也保持了項目的開放性和可持續(xù)性。每個新功能的添加都會遵循相同的透明度原則,確保所有擴展都是可重現和開源的。這種漸進式的發(fā)展策略既保證了項目的穩(wěn)定性,又為未來的創(chuàng)新留下了充分的空間。
歸根結底,BeepBank-500不僅僅是一個靜態(tài)的數據集,更是一個不斷演進的研究平臺。它就像一粒種子,已經生根發(fā)芽,未來有望成長為一棵支撐整個聽覺界面研究領域的大樹。隨著更多研究者的使用和貢獻,這個項目很可能會發(fā)展出超越最初設想的新功能和應用方向。
說到底,Goswami博士創(chuàng)造的這套BeepBank-500數據集解決了一個看似簡單但實際上很重要的問題:如何為科學研究提供標準化、高質量、免費可用的實驗材料。它就像搭建了一座橋梁,連接了學術研究的嚴謹性和實際應用的便利性。
這個項目的價值不僅在于它提供了什么,更在于它代表了一種研究文化和共享精神。在一個知識產權日益重要的時代,選擇將研究成果完全開放給公眾,這需要相當的勇氣和遠見。這種做法不僅能夠加速科學發(fā)現的步伐,還能降低研究的門檻,讓更多人有機會參與到聲音科學的探索中來。
對于那些剛剛進入聽覺界面研究領域的新手來說,BeepBank-500提供了一個完美的起點。他們不需要從零開始學習如何制作音效,也不用擔心版權或技術兼容性問題,可以直接專注于自己的研究問題。對于經驗豐富的研究者來說,這套標準化的數據集則提供了一個公共的比較基準,讓不同研究之間的結果更容易比較和驗證。
更廣泛地說,這個項目展示了現代科學研究應該具備的特質:開放、透明、可重現、負責任。它證明了一個相對簡單的工具,如果設計得當并且得到合適的推廣,可以對整個研究領域產生深遠的影響。
最重要的是,BeepBank-500提醒我們,科學研究中的許多突破往往來自于基礎工具的改進,而不僅僅是復雜理論的創(chuàng)新。有時候,最有價值的貢獻就是為其他人的工作鋪平道路,讓他們能夠站在更高的起點上開始自己的探索之旅。有興趣深入了解這個項目的讀者可以通過DOI編號10.5281/zenodo.17172015查詢完整的數據集,或訪問GitHub倉庫mandip42/earcons-mini-500獲取相關代碼。
Q&A
Q1:BeepBank-500數據集包含什么內容?
A:BeepBank-500是一個包含300-500個合成電子音效的數據集,每個音效都有詳細的參數標記。它包含不同波形類型(正弦波、方波、三角波等)、音調高度、持續(xù)時間、音量包絡和混響效果的組合,專門為聽覺界面和心理聲學研究設計。
Q2:這個數據集可以免費使用嗎?有什么限制?
A:完全免費且無使用限制。音頻文件采用CC0-1.0許可證(相當于放棄版權),代碼使用MIT許可證,任何人都可以自由用于學術研究或商業(yè)應用。但明確不適用于安全關鍵的警報系統(tǒng)或醫(yī)療應用。
Q3:研究者如何使用BeepBank-500進行實驗?
A:研究者可以通過Zenodo平臺下載完整數據集,使用提供的Python代碼生成音效或直接使用預生成的音頻文件。數據集提供了詳細的元數據表格,可以根據需要篩選特定參數的音效子集,還包含了分類和音調檢測的基準實驗代碼作為起點。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。