在2025年5月29日,波森AI(Boson AI)的研究團(tuán)隊(duì)向?qū)W術(shù)界發(fā)布了一項(xiàng)開創(chuàng)性研究。這項(xiàng)名為"EmergentTTS-Eval"的工作由Ruskin Raj Manku、Yuzhi Tang、Xingjian Shi、Mu Li和Alex Smola共同完成,發(fā)表于arXiv預(yù)印本平臺(tái)(arXiv:2505.23009v1)。這項(xiàng)研究針對(duì)當(dāng)前文本轉(zhuǎn)語(yǔ)音(TTS)系統(tǒng)在面對(duì)復(fù)雜語(yǔ)言挑戰(zhàn)時(shí)的評(píng)估方法提出了全新解決方案,同時(shí)引入了"模型即評(píng)判者"的創(chuàng)新評(píng)估框架。
一、研究背景:為什么我們需要更好的語(yǔ)音合成評(píng)估方法?
想象一下,你正在使用一個(gè)語(yǔ)音助手朗讀你最喜歡的小說(shuō)。當(dāng)故事進(jìn)行到緊張的對(duì)白部分,你希望助手能用激動(dòng)的語(yǔ)氣朗讀;當(dāng)遇到外語(yǔ)短語(yǔ)時(shí),你期待它能發(fā)音準(zhǔn)確;當(dāng)角色驚訝地說(shuō)"哇哦!真是太——驚——人——了!"時(shí),你希望它能表現(xiàn)出適當(dāng)?shù)捏@訝和語(yǔ)調(diào)變化。但現(xiàn)實(shí)中,大多數(shù)語(yǔ)音助手在處理這些復(fù)雜場(chǎng)景時(shí)往往顯得生硬、單調(diào),甚至出錯(cuò)。
這正是波森AI研究團(tuán)隊(duì)關(guān)注的問(wèn)題。他們發(fā)現(xiàn),雖然現(xiàn)代文本轉(zhuǎn)語(yǔ)音(TTS)技術(shù)在處理標(biāo)準(zhǔn)、格式良好的文本時(shí)已經(jīng)取得了顯著進(jìn)步,展現(xiàn)出接近人類的自然度和質(zhì)量,但當(dāng)面對(duì)更復(fù)雜、多樣化的文本提示時(shí),系統(tǒng)性能往往大打折扣。例如,在處理代碼切換(在同一段話中混合使用多種語(yǔ)言)或復(fù)雜技術(shù)字符序列時(shí),現(xiàn)有TTS系統(tǒng)的表現(xiàn)仍有明顯不足。
更令人擔(dān)憂的是,現(xiàn)有的TTS評(píng)估方法遠(yuǎn)遠(yuǎn)落后于實(shí)際應(yīng)用場(chǎng)景的復(fù)雜性。當(dāng)前的評(píng)估基準(zhǔn)通常存在幾個(gè)明顯缺陷:它們往往使用受限的文本領(lǐng)域,缺乏語(yǔ)言現(xiàn)象的多樣性,并依賴成本高昂、難以復(fù)制的人工評(píng)估,這些評(píng)估在不同聽眾群體之間可能存在顯著差異。更糟的是,多語(yǔ)言代碼切換的評(píng)估需要極其精通多語(yǔ)言的評(píng)估者(或許多專業(yè)評(píng)估者)。因此,出于實(shí)用性考慮,許多評(píng)估僅關(guān)注語(yǔ)音克隆這一單一方面。
二、EmergentTTS-Eval:一個(gè)全面的評(píng)估框架
為了解決這些問(wèn)題,波森AI團(tuán)隊(duì)提出了EmergentTTS-Eval,這是一個(gè)專門設(shè)計(jì)用于評(píng)估TTS系統(tǒng)在復(fù)雜場(chǎng)景下表現(xiàn)的綜合基準(zhǔn)。想象它就像一個(gè)嚴(yán)格的駕駛考試,不僅要求你能在平坦道路上行駛,還要測(cè)試你在急轉(zhuǎn)彎、坡道、惡劣天氣等各種復(fù)雜條件下的駕駛能力。
EmergentTTS-Eval涵蓋了六個(gè)關(guān)鍵維度的挑戰(zhàn)場(chǎng)景:
首先是情感表達(dá)(Emotions)。就像演員需要表達(dá)各種情緒一樣,TTS系統(tǒng)需要準(zhǔn)確反映人類情感和聲音。例如,在朗讀奇幻或兒童文學(xué)作品時(shí),系統(tǒng)必須真實(shí)地處理引用對(duì)話和非語(yǔ)言線索,以保持聽眾的參與感。
其次是非語(yǔ)言線索(Paralinguistics)。這類似于我們?cè)谡f(shuō)話時(shí)使用的各種聲音修飾,如"嗯..."表示思考,"哇!"表示驚訝,或者通過(guò)拉長(zhǎng)某些音節(jié)"真——棒——啊"來(lái)強(qiáng)調(diào)情感。
第三是語(yǔ)法復(fù)雜性(Syntactic Complexity)。這就像閱讀法律文本或文學(xué)作品中那些結(jié)構(gòu)復(fù)雜的長(zhǎng)句子,需要系統(tǒng)正確理解句子結(jié)構(gòu)并通過(guò)適當(dāng)?shù)耐nD和語(yǔ)調(diào)引導(dǎo)聽眾理解。
第四是問(wèn)題表達(dá)(Questions)。TTS系統(tǒng)需要適當(dāng)?shù)靥幚硪蓡?wèn)句,用合適的語(yǔ)調(diào)結(jié)束問(wèn)句,這在對(duì)話場(chǎng)景中尤為重要。
第五是外語(yǔ)詞匯(Foreign Words)。在全球化世界中,文本常常包含多語(yǔ)言內(nèi)容,TTS系統(tǒng)需要準(zhǔn)確發(fā)音這些外語(yǔ)詞匯。
最后是復(fù)雜發(fā)音(Complex Pronunciation)。這包括特殊字符、數(shù)字以及科學(xué)和學(xué)術(shù)文本中的方程式等難以發(fā)音的內(nèi)容。
EmergentTTS-Eval的獨(dú)特之處在于其測(cè)試用例生成和評(píng)估的自動(dòng)化框架。研究團(tuán)隊(duì)從一小組人工編寫的種子提示開始,使用大型語(yǔ)言模型(LLM)迭代擴(kuò)展這些提示,針對(duì)特定的結(jié)構(gòu)、語(yǔ)音和韻律挑戰(zhàn),最終產(chǎn)生了1,645個(gè)多樣化的測(cè)試用例。
三、模型即評(píng)判者:人工智能如何評(píng)估語(yǔ)音質(zhì)量?
傳統(tǒng)上,評(píng)估TTS系統(tǒng)的質(zhì)量需要人類評(píng)估者聆聽語(yǔ)音樣本并給出主觀評(píng)分。這種方法不僅成本高昂,而且難以大規(guī)模實(shí)施,更不用說(shuō)其中可能存在的主觀偏差。
波森AI團(tuán)隊(duì)提出了一種創(chuàng)新方法:使用大型音頻語(yǔ)言模型(LALM)作為評(píng)判者。想象一下,這就像請(qǐng)一位音樂(lè)評(píng)論家評(píng)價(jià)一場(chǎng)音樂(lè)會(huì)的表現(xiàn)。這位"評(píng)論家"是一個(gè)經(jīng)過(guò)特殊訓(xùn)練的AI模型,能夠理解語(yǔ)音、文本和它們之間的關(guān)系。
具體來(lái)說(shuō),研究團(tuán)隊(duì)使用了Gemini 2.5 Pro作為主要評(píng)判模型,這是因?yàn)樗谝呀⒌囊纛l推理基準(zhǔn)測(cè)試(如MMAU)上表現(xiàn)出色。在評(píng)估過(guò)程中,對(duì)于每個(gè)評(píng)估實(shí)例,兩個(gè)TTS系統(tǒng)會(huì)針對(duì)相同的輸入生成語(yǔ)音,并隨機(jī)指定為T1和T2以避免位置偏差。LALM評(píng)判者會(huì)收到原始文本、相關(guān)類別標(biāo)簽以及結(jié)構(gòu)化評(píng)估提示,包括目標(biāo)評(píng)估維度(例如,韻律、情感)、評(píng)分標(biāo)準(zhǔn)和詳細(xì)的類別特定推理指南。
評(píng)判模型會(huì)返回包含每個(gè)系統(tǒng)表現(xiàn)的自然語(yǔ)言解釋、比較分析、突出關(guān)鍵差異(標(biāo)記為微妙或顯著)、每個(gè)系統(tǒng)0-3范圍內(nèi)的標(biāo)量分?jǐn)?shù),以及最終的獲勝者標(biāo)簽:0表示平局,1表示T1優(yōu)勝,2表示T2優(yōu)勝。整個(gè)評(píng)估過(guò)程被設(shè)計(jì)為引出基于時(shí)間戳的鏈?zhǔn)剿伎纪评?,并鼓?lì)模型通過(guò)闡述細(xì)微差別來(lái)解決邊界情況,預(yù)測(cè)基于人類的偏好。
研究團(tuán)隊(duì)采用基于勝率的指標(biāo)來(lái)總結(jié)性能。如果一個(gè)系統(tǒng)Ti相對(duì)于基線Tj的勝率為W(Ti),計(jì)算方法是:獲勝次數(shù)加上0.5乘以平局次數(shù),然后除以總比較次數(shù)。0.5的分?jǐn)?shù)反映了與基線相當(dāng)?shù)谋憩F(xiàn),而偏離則表示相對(duì)優(yōu)勢(shì)或劣勢(shì)。
這種評(píng)估方法實(shí)現(xiàn)了穩(wěn)健、可解釋且可重現(xiàn)的TTS比較,而且規(guī)模可擴(kuò)展。與人類評(píng)估者不同,LALM評(píng)判者可以在多語(yǔ)言和韻律豐富的語(yǔ)音上提供一致的判斷,其輸出包括基于時(shí)間戳的理由,支持細(xì)粒度的診斷分析。
四、研究發(fā)現(xiàn):誰(shuí)是語(yǔ)音合成的佼佼者?
研究團(tuán)隊(duì)使用EmergentTTS-Eval評(píng)估了多個(gè)最先進(jìn)的開源和專有TTS系統(tǒng),包括11Labs、Deepgram和OpenAI的4o-mini-TTS。結(jié)果展示了這些系統(tǒng)在面對(duì)各種挑戰(zhàn)時(shí)的細(xì)粒度性能差異。
總體來(lái)看,GPT-4o-Audio(Ballad語(yǔ)音)取得了最高的整體性能,勝率達(dá)到65.17%。它在情感表達(dá)(88.84%)和非語(yǔ)言線索(82.14%)這些注重表現(xiàn)力的類別中表現(xiàn)特別強(qiáng)勁。值得注意的是,只有采用強(qiáng)提示的GPT-4o-mini-tts在"復(fù)雜發(fā)音"類別中超過(guò)了50%的勝率,這表明OpenAI可能針對(duì)這一能力進(jìn)行了專門優(yōu)化。
HumeAI排名為第二佳的閉源系統(tǒng),性能優(yōu)于Deepgram的Aura-2(Thalia)和ElevenLabs的Multilingual v2(Brian)。Aura-2在多語(yǔ)言設(shè)置中表現(xiàn)不佳,這與其缺乏顯式多語(yǔ)言支持一致;當(dāng)排除"外語(yǔ)詞匯"類別時(shí),其勝率上升到約35%,略高于ElevenLabs。
在開源模型中,Orpheus-TTS表現(xiàn)最佳,Qwen 2.5 Omni緊隨其后。相比之下,Bark和Sesame1B展現(xiàn)出顯著的性能缺陷,特別是在"情感"類別中。所有開源模型在"復(fù)雜發(fā)音"類別中表現(xiàn)都很差。
研究團(tuán)隊(duì)還觀察到,強(qiáng)提示(即提供類別特定的指導(dǎo))一致地提高了所有可用提示和未提示評(píng)估的模型的性能。例如,在強(qiáng)提示下,GPT-4o-mini-tts達(dá)到了56%的勝率,顯示出相對(duì)于其基線配置的明顯改進(jìn)。GPT-4o-audio-preview也觀察到了類似的提升。
勝率和MOS(平均意見得分)衡量的是語(yǔ)音質(zhì)量的不同方面。例如,雖然Deepgram獲得了最高的MOS得分,但幾個(gè)MOS得分較低的模型卻有更高的勝率。同樣,Bark在MOS上優(yōu)于一些開源模型,但在勝率上明顯表現(xiàn)不佳。
五、深度分析:性能趨勢(shì)與系統(tǒng)失效模式
研究團(tuán)隊(duì)對(duì)每個(gè)類別在不同精煉深度上的模型勝率進(jìn)行了深入分析。模型自然地聚集為高性能(平均勝率>50%)和低性能組。雖然我們可能預(yù)期更深層次的語(yǔ)句會(huì)擴(kuò)大這一性能差距——強(qiáng)模型表現(xiàn)更出色而弱模型表現(xiàn)更差——但研究發(fā)現(xiàn)顯示出更微妙的模式。
在更高復(fù)雜度層次上,兩種模型可能都會(huì)遇到困難,增加平局的可能性。此外,強(qiáng)模型有時(shí)會(huì)在面對(duì)更大復(fù)雜性時(shí)顯示出系統(tǒng)性弱點(diǎn),而表現(xiàn)較差的模型有時(shí)通過(guò)避免特定失效模式匹配或超過(guò)基線。盡管如此,六個(gè)類別中的四個(gè)展示出明顯的深度敏感性能趨勢(shì)。例外是"問(wèn)題"和"語(yǔ)法復(fù)雜性",其中更微妙的韻律期望導(dǎo)致跨深度的差異化不那么明顯。
深度分析還揭示了一致的失效模式,并證明了評(píng)判者對(duì)韻律、語(yǔ)音和語(yǔ)義不匹配的敏感性。大多數(shù)開源模型能夠適當(dāng)處理"問(wèn)題"和"語(yǔ)法復(fù)雜性",Sesame1B是明顯的例外,因?yàn)槠淦教沟恼Z(yǔ)調(diào)和較差的停頓。Sesame1B在"情感"方面尤其掙扎,經(jīng)常插入隨機(jī)的插入語(yǔ)或產(chǎn)生單調(diào)的語(yǔ)音。所有開源模型在"復(fù)雜發(fā)音"上表現(xiàn)不佳,錯(cuò)誤讀取小數(shù)點(diǎn),丟棄數(shù)字,并在更高復(fù)雜度下崩潰,MiniCPM和Tortoise-TTS甚至在深度0處就完全失敗。
對(duì)于"外語(yǔ)詞匯",Sesame用不相關(guān)的內(nèi)容替代非英語(yǔ)標(biāo)記,而Orpheus將發(fā)音英語(yǔ)化到在語(yǔ)音上不正確的程度。
商業(yè)模型展示了不同的局限性:ElevenLabs在"復(fù)雜發(fā)音"方面表現(xiàn)不佳,而Deepgram Aura-2在處理較長(zhǎng)語(yǔ)句時(shí)性能下降,并在表達(dá)豐富的非語(yǔ)言線索時(shí)掙扎。OpenAI模型在情感和多語(yǔ)言內(nèi)容方面表現(xiàn)出色,但仍然偶爾出現(xiàn)細(xì)微問(wèn)題——偶爾的發(fā)音錯(cuò)誤、丟失日期和合成崩潰——這些都被評(píng)判者成功識(shí)別。
評(píng)判者能夠有效區(qū)分強(qiáng)調(diào)表現(xiàn),識(shí)別同形異義詞歧義消除,并獎(jiǎng)勵(lì)適當(dāng)?shù)捻嵚桑M管微妙的非語(yǔ)言線索和情感轉(zhuǎn)變?nèi)匀皇峭昝涝u(píng)估的挑戰(zhàn)。
六、文本標(biāo)準(zhǔn)化的影響與人類評(píng)估的一致性
在復(fù)雜發(fā)音類別的主要挑戰(zhàn)在于解析不常見字符及其組合,這可以通過(guò)在將文本發(fā)送到TTS模型之前使用文本標(biāo)準(zhǔn)化(TN)技術(shù)來(lái)簡(jiǎn)化。研究團(tuán)隊(duì)測(cè)量了各種TN技術(shù)對(duì)勝率變化的影響,并增加了使用LLM(GPT-4.1-mini)作為TN的數(shù)據(jù)點(diǎn)。
結(jié)果表明,基本的TN技術(shù)并不總是提高模型在基準(zhǔn)測(cè)試上的性能,有時(shí)甚至可能使其變差。例如,WeText將"$1,890.125375"轉(zhuǎn)換為"one thousand eight hundred and ninety point one dollars twenty five thousand three hundred and seventy five",這對(duì)TTS質(zhì)量有害。同樣,"0"有時(shí)被標(biāo)準(zhǔn)化為非正式的"oh",這在正式或小數(shù)上下文中并不理想。"SQL"被正確地標(biāo)準(zhǔn)化為"S Q L",但基線的發(fā)音"Sequel"是首選。使用LLM進(jìn)行TN解決了許多這些問(wèn)題并顯著提高了勝率,盡管使用的基本提示仍存在一些錯(cuò)誤。
為了測(cè)量模型評(píng)判者的偏好與人類偏好的相關(guān)性,研究團(tuán)隊(duì)進(jìn)行了人類評(píng)估研究。他們創(chuàng)建了一個(gè)在線調(diào)查,讓人類評(píng)判者呈現(xiàn)由基線TTS和比較TTS生成的音頻片段對(duì),并指示評(píng)價(jià)哪個(gè)更好(或平局)。為確保評(píng)估的一致性,參與者根據(jù)改編自模型評(píng)判者使用的提示的指示和評(píng)估標(biāo)準(zhǔn)進(jìn)行指導(dǎo)。
研究團(tuán)隊(duì)計(jì)算了基于人類評(píng)分的比較模型排名(相對(duì)于基線)與每個(gè)模型評(píng)判者導(dǎo)出的排名之間的Spearman相關(guān)性。如表3b所示,所有評(píng)判者都獲得了高相關(guān)性分?jǐn)?shù),表明模型評(píng)判者與人類在確定哪個(gè)TTS系統(tǒng)表現(xiàn)更好方面密切鏡像人類偏好。
七、研究局限性與未來(lái)方向
研究團(tuán)隊(duì)指出了與數(shù)據(jù)集創(chuàng)建和LALM-as-judge范式相關(guān)的兩個(gè)主要限制。首先,LALM具有可能在合成數(shù)據(jù)集中表現(xiàn)出的內(nèi)在偏見,如偏好文學(xué)語(yǔ)言和形式措辭模式。對(duì)于"外語(yǔ)詞匯"和"語(yǔ)法復(fù)雜性"等類別,深度=3的精煉級(jí)別產(chǎn)生了語(yǔ)法正確但在自然交流中很少出現(xiàn)的有些人工化的語(yǔ)句,不過(guò)這些仍然可以作為TTS系統(tǒng)的可靠壓力測(cè)試。此外,他們的多語(yǔ)言評(píng)估側(cè)重于拉丁文轉(zhuǎn)寫而非本地字符集,這并不能完全捕捉真正多語(yǔ)言TTS的挑戰(zhàn)。
關(guān)于評(píng)估,使用Gemini 2.5 Pro會(huì)產(chǎn)生相當(dāng)大的成本——每次完整的TTS系統(tǒng)評(píng)估約50美元。然而,不同評(píng)判模型之間觀察到的強(qiáng)烈排名一致性表明,在不顯著損失質(zhì)量的情況下,有機(jī)會(huì)使用更經(jīng)濟(jì)的替代方案。研究團(tuán)隊(duì)還觀察到,評(píng)估情感、韻律和語(yǔ)調(diào)等主觀方面有時(shí)會(huì)導(dǎo)致LALM幻覺(jué),評(píng)判者錯(cuò)誤地識(shí)別發(fā)音問(wèn)題。
盡管存在這些考慮因素,EmergentTTS-Eval代表了TTS評(píng)估方法的重大進(jìn)步,通過(guò)解決現(xiàn)有基準(zhǔn)中的關(guān)鍵差距。該方法系統(tǒng)地挑戰(zhàn)了TTS系統(tǒng)在傳統(tǒng)指標(biāo)忽視的維度上的表現(xiàn),同時(shí)提供了資源密集型人類評(píng)估的可擴(kuò)展替代方案。評(píng)判者與人類偏好之間的強(qiáng)相關(guān)性驗(yàn)證了該方法,而基準(zhǔn)測(cè)試揭示細(xì)粒度性能差異的能力證明了其在推動(dòng)創(chuàng)建更人性化合成語(yǔ)音方面的實(shí)用價(jià)值。
八、結(jié)語(yǔ):語(yǔ)音合成評(píng)估的新時(shí)代
在數(shù)字助手、有聲讀物和無(wú)障礙工具日益普及的時(shí)代,能夠生成自然、表達(dá)豐富的語(yǔ)音的TTS系統(tǒng)變得越來(lái)越重要。波森AI團(tuán)隊(duì)的EmergentTTS-Eval代表了評(píng)估這些系統(tǒng)的一種新方法,超越了簡(jiǎn)單的質(zhì)量度量,深入研究了真實(shí)世界應(yīng)用中TTS系統(tǒng)面臨的復(fù)雜挑戰(zhàn)。
這項(xiàng)研究的重要性不僅在于它提供了一個(gè)更全面的TTS評(píng)估框架,還在于它引入了使用人工智能評(píng)估人工智能的創(chuàng)新方法。通過(guò)將大型音頻語(yǔ)言模型作為評(píng)判者,研究團(tuán)隊(duì)能夠大規(guī)模進(jìn)行細(xì)粒度的評(píng)估,而這在傳統(tǒng)上需要大量人力和專業(yè)知識(shí)。
或許最令人興奮的是,該團(tuán)隊(duì)已經(jīng)開源了評(píng)估代碼和數(shù)據(jù)集,這意味著研究社區(qū)和行業(yè)可以建立在這項(xiàng)工作的基礎(chǔ)上,進(jìn)一步推進(jìn)TTS技術(shù)的發(fā)展。隨著語(yǔ)音合成繼續(xù)融入我們的日常生活,像EmergentTTS-Eval這樣的工具將幫助確保這些系統(tǒng)不僅能說(shuō)話,還能以人類能夠理解和欣賞的方式說(shuō)話。
感興趣的讀者可以通過(guò)訪問(wèn)GitHub(https://github.com/boson-ai/EmergentTTS-Eval-public)和Hugging Face(https://huggingface.co/datasets/bosonai/EmergentTTS-Eval)獲取完整的評(píng)估代碼和數(shù)據(jù)集。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。