在紛繁復(fù)雜的聲音環(huán)境中,人類有著驚人的能力可以專注于特定講話者的聲音,這種能力被稱為"雞尾酒會(huì)效應(yīng)"。想象一下,在嘈雜的咖啡廳里,即使周圍有各種背景噪音和多人同時(shí)說話,你仍能集中注意力聽清好友的聲音。這項(xiàng)由約翰霍普金斯大學(xué)的Helin Wang及其研究團(tuán)隊(duì)開發(fā)的新技術(shù),名為"SoloSpeech",就是為了讓機(jī)器也能擁有這種人類聽覺系統(tǒng)的"超能力"。這項(xiàng)研究發(fā)表于2025年5月25日的arXiv預(yù)印本平臺(tái),論文編號為2505.19314v1。
目標(biāo)語音提取(Target Speech Extraction,簡稱TSE)是一項(xiàng)旨在從多個(gè)說話者的混合語音中分離出特定目標(biāo)說話者聲音的技術(shù)。傳統(tǒng)上,研究人員主要采用判別式模型(Discriminative Models)來解決這個(gè)問題。這些模型直接將混合信號映射為目標(biāo)信號,雖然能提供高感知質(zhì)量,但往往會(huì)引入不必要的音頻瑕疵,降低自然度,并且對訓(xùn)練和測試環(huán)境之間的差異非常敏感。
想象一下,這就像是你在使用一臺(tái)老式收音機(jī)調(diào)頻道。傳統(tǒng)方法雖然能讓你聽到想聽的電臺(tái),但可能會(huì)有雜音、聲音失真,或者當(dāng)你換個(gè)地方就收不到信號了。而生成式模型(Generative Models)雖然理論上可以解決這些問題,但目前在感知質(zhì)量和清晰度上仍然落后于判別式模型。
為了解決這些挑戰(zhàn),Wang團(tuán)隊(duì)提出了SoloSpeech,這是一種新型級聯(lián)生成式管道,整合了壓縮、提取、重建和校正過程。通俗地說,這就像是一條精心設(shè)計(jì)的聲音處理流水線:首先將復(fù)雜的聲音信號壓縮成更易處理的形式,然后精確提取出目標(biāo)說話者的聲音,接著重建這個(gè)聲音,最后進(jìn)行微調(diào)和校正,確保最終的聲音自然、清晰。
SoloSpeech的一個(gè)重要?jiǎng)?chuàng)新點(diǎn)在于它的目標(biāo)提取器采用了無需說話者嵌入(speaker-embedding-free)的設(shè)計(jì)。簡單來說,傳統(tǒng)方法需要事先"記住"每個(gè)說話者的聲音特征,就像你需要記住朋友的臉才能在人群中認(rèn)出他們一樣。而SoloSpeech采用了一種更靈活的方法,它直接利用提示音頻(cue audio,即目標(biāo)說話者的參考音頻)的潛在空間信息,將其與混合音頻的潛在空間對齊,從而避免可能的不匹配問題。
研究團(tuán)隊(duì)在廣泛使用的Libri2Mix數(shù)據(jù)集上評估了SoloSpeech,結(jié)果顯示該系統(tǒng)在目標(biāo)語音提取和語音分離任務(wù)中都達(dá)到了新的最先進(jìn)水平,展現(xiàn)出卓越的清晰度和質(zhì)量。更重要的是,SoloSpeech在面對領(lǐng)域外數(shù)據(jù)和真實(shí)世界場景時(shí)表現(xiàn)出色,證明了其強(qiáng)大的泛化能力。
讓我們深入了解SoloSpeech的工作原理和具體表現(xiàn)。
一、SoloSpeech的整體架構(gòu)
SoloSpeech的設(shè)計(jì)理念可以比作一條精心設(shè)計(jì)的四段式聲音處理流水線,每個(gè)環(huán)節(jié)都有其特定的任務(wù)和功能:
首先是"音頻壓縮器"(Audio compressor)。它就像是一位熟練的文本編輯,能夠?qū)⑷唛L的文章壓縮成關(guān)鍵要點(diǎn),而不丟失重要信息。在這里,音頻壓縮器將原始的聲波信號轉(zhuǎn)換為更緊湊的潛在表示,大大減少了后續(xù)處理所需的計(jì)算資源。
其次是"目標(biāo)提取器"(Target Extractor)。這一組件就像是一位精明的偵探,它的任務(wù)是從混亂的聲音"現(xiàn)場"中找出"目標(biāo)嫌疑人"——也就是我們想要的特定說話者的聲音。它使用了條件信息,就像偵探根據(jù)目擊者的描述來鎖定嫌疑人一樣,利用提示音頻的信息來識別和提取目標(biāo)聲音。
第三個(gè)環(huán)節(jié)是"解壓縮器"(Decompressor),它就像是將壓縮文件恢復(fù)成原始文檔的過程。解壓縮器將經(jīng)過提取的潛在表示轉(zhuǎn)換回可聽的音頻信號。
最后一環(huán)是"校正器"(Corrector),它扮演的角色像是一位精細(xì)的音頻工程師,負(fù)責(zé)微調(diào)和修復(fù)聲音中的各種小瑕疵,確保最終輸出的聲音既清晰又自然。
這四個(gè)組件緊密協(xié)作,形成了一個(gè)完整的聲音處理系統(tǒng)?;旌险Z音和提示語音首先通過壓縮器轉(zhuǎn)化為潛在表示,然后目標(biāo)提取器從混合語音的潛在表示中提取出目標(biāo)語音的潛在表示,接著解壓縮器將其轉(zhuǎn)換回可聽的音頻,最后校正器對這一音頻進(jìn)行優(yōu)化,得到最終的高質(zhì)量目標(biāo)語音。
二、技術(shù)核心:音頻壓縮器
SoloSpeech的音頻壓縮器在整個(gè)系統(tǒng)中扮演著關(guān)鍵角色,它的主要任務(wù)是將原始音頻波形壓縮成更緊湊的潛在表示。想象一下,如果原始音頻是一本厚重的百科全書,那么壓縮器就是將其精煉成一本薄薄的摘要手冊,保留了所有關(guān)鍵信息但體積大大減小。
與當(dāng)前先進(jìn)的音頻壓縮器不同,SoloSpeech采用了一種新穎的時(shí)頻域變分自編碼器(T-F domain VAE)。傳統(tǒng)的音頻壓縮器主要在時(shí)域工作,就像是按時(shí)間順序記錄聲音的強(qiáng)度變化。而時(shí)頻域壓縮則同時(shí)考慮了時(shí)間和頻率兩個(gè)維度,就像是不僅記錄聲音的變化時(shí)間,還記錄了聲音的高低音變化,提供了更全面的音頻特征表示。
在具體實(shí)現(xiàn)上,編碼器首先使用短時(shí)傅立葉變換(STFT)將輸入音頻信號轉(zhuǎn)換為復(fù)雜頻譜,這就像是將一段音樂分解成不同音高的音符及其持續(xù)時(shí)間。然后,通過幾個(gè)TF-GridNet塊處理這些頻譜信息,最終輸出一個(gè)潛在表示,包含均值和方差兩部分。解碼器則執(zhí)行相反的過程,將潛在表示重建回原始音頻波形。
整個(gè)VAE模型以生成式和對抗式的方式進(jìn)行訓(xùn)練,使用了多種損失函數(shù)來確保重建的音頻質(zhì)量,包括感知加權(quán)的多分辨率STFT重建損失、對抗損失以及KL散度損失等。通過這種復(fù)雜的訓(xùn)練方式,音頻壓縮器能夠?qū)W習(xí)到音頻的高效表示,為后續(xù)的目標(biāo)提取奠定基礎(chǔ)。
三、創(chuàng)新亮點(diǎn):目標(biāo)提取器
SoloSpeech的目標(biāo)提取器是系統(tǒng)的核心創(chuàng)新點(diǎn),它的任務(wù)是從混合語音的潛在表示中提取出目標(biāo)說話者的潛在表示。這個(gè)過程可以比作從一張混亂的照片中精確識別并提取出特定人物的形象。
目標(biāo)提取器采用了一種基于擴(kuò)散模型的架構(gòu),具體來說是使用了修改后的擴(kuò)散調(diào)度器和速度預(yù)測方法。擴(kuò)散模型的工作原理可以想象為一個(gè)逐漸恢復(fù)圖像的過程:首先從一片模糊開始,然后逐步清晰,最終呈現(xiàn)出完整的圖像。在語音處理中,這個(gè)過程就是從隨機(jī)噪聲開始,逐步恢復(fù)出目標(biāo)說話者的聲音特征。
目標(biāo)提取器的主要網(wǎng)絡(luò)采用了一種帶有長跳躍連接的擴(kuò)散變換器(uDiT),這些跳躍連接就像是在深層神經(jīng)網(wǎng)絡(luò)中建立的捷徑,讓淺層和深層特征能夠直接交流,從而創(chuàng)造出更精細(xì)、更準(zhǔn)確的輸出結(jié)果。
與之前的工作不同,SoloSpeech沒有引入額外的說話者嵌入作為條件信息,而是聯(lián)合訓(xùn)練了一個(gè)條件變換器,從提示語音的潛在表示中提取條件特征。這些特征隨后通過交叉注意力機(jī)制被擴(kuò)散變換器所利用。這種方法有幾個(gè)明顯的優(yōu)勢:
首先,它無需額外的數(shù)據(jù)或標(biāo)簽來訓(xùn)練說話者嵌入網(wǎng)絡(luò)。就像你不需要事先知道一個(gè)人的名字或背景,只需要聽過他的聲音,就能在人群中認(rèn)出他說話一樣。
其次,它保留了條件特征的序列信息,如局部動(dòng)態(tài)和時(shí)間結(jié)構(gòu)。傳統(tǒng)的說話者嵌入往往會(huì)將一段語音壓縮成一個(gè)固定長度的向量,這就像是將一個(gè)人的所有特征壓縮成一個(gè)標(biāo)簽,而SoloSpeech則保留了更豐富的細(xì)節(jié)信息。
最后,它避免了潛在表示和其他類型特征之間的潛在不匹配問題。由于條件特征和混合特征都在同一個(gè)潛在空間中,它們天然就是"說同一種語言"的,不需要額外的轉(zhuǎn)換或適應(yīng)過程。
通過擴(kuò)散模型的反向過程,目標(biāo)提取器能夠從隨機(jī)高斯噪聲開始,逐步重建出目標(biāo)語音的潛在表示,然后使用音頻壓縮器的解碼器將其轉(zhuǎn)換為實(shí)際的語音信號。
四、優(yōu)化亮點(diǎn):校正器
盡管擴(kuò)散模型在生成高質(zhì)量音頻方面表現(xiàn)出色,但它們在參考基準(zhǔn)指標(biāo)上的表現(xiàn)往往不如判別式模型,特別是對于潛在擴(kuò)散模型來說,VAE重建質(zhì)量決定了音頻質(zhì)量的上限。此外,擴(kuò)散模型在不良條件下可能產(chǎn)生發(fā)聲和呼吸偽音。
為了解決這些問題,研究團(tuán)隊(duì)提出了一種基于時(shí)頻域擴(kuò)散模型的校正器。這個(gè)校正器就像是一位精細(xì)的音頻工程師,它的任務(wù)是:
首先,減少前端模型引起的偽音。就像修復(fù)照片中的瑕疵一樣,校正器能夠識別并平滑處理語音中的不自然聲音。
其次,通過結(jié)合信號質(zhì)量優(yōu)化目標(biāo),提升音頻壓縮器輸出的信號質(zhì)量。這就像是在原有的照片基礎(chǔ)上增強(qiáng)色彩和清晰度。
最后,糾正目標(biāo)提取器引入的錯(cuò)誤,如說話者混淆和發(fā)音錯(cuò)誤,從而提高整體的可懂度。想象一下,這就像是校對一篇文章,糾正其中的拼寫和語法錯(cuò)誤,使內(nèi)容更加準(zhǔn)確和易懂。
具體實(shí)現(xiàn)上,校正器基于Fast-GeCo方法,采用單步擴(kuò)散模型,允許直接優(yōu)化信號質(zhì)量。研究團(tuán)隊(duì)發(fā)現(xiàn),簡單地從多步模型蒸餾到單步模型并不能顯著提高性能,而是單步模型中引入的信號質(zhì)量損失才是性能提升的主要來源。
更重要的是,SoloSpeech采用了一種創(chuàng)新的參考信號掩碼增強(qiáng)方法。在訓(xùn)練階段,校正器會(huì)隨機(jī)掩蔽參考信號的一部分,迫使模型學(xué)會(huì)從混合信號中恢復(fù)完整的目標(biāo)信號。這就像是在訓(xùn)練中故意遮住部分線索,強(qiáng)制偵探學(xué)會(huì)從其他可用信息中推斷出完整的事實(shí)。
這種方法使校正器不僅僅是一個(gè)簡單的語音增強(qiáng)工具,而是真正理解并利用混合信號中的信息來提取和優(yōu)化目標(biāo)語音,顯著提高了系統(tǒng)的整體性能。
五、實(shí)驗(yàn)結(jié)果與性能評估
研究團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上對SoloSpeech進(jìn)行了全面評估,包括領(lǐng)域內(nèi)的Libri2Mix數(shù)據(jù)集、領(lǐng)域外的WHAM!、MUSAN和DEMAND數(shù)據(jù)集,以及真實(shí)世界的CHiME-5和RealSEP數(shù)據(jù)集。
在Libri2Mix數(shù)據(jù)集上的目標(biāo)語音提取任務(wù)中,SoloSpeech在所有評估指標(biāo)上都顯著優(yōu)于現(xiàn)有方法。具體來說,它在感知質(zhì)量評分(PESQ)上達(dá)到了1.89,擴(kuò)展短時(shí)客觀可懂度(ESTOI)達(dá)到了0.78,尺度不變信噪比(SISNR)達(dá)到了11.12 dB,這些指標(biāo)均超過了之前的最先進(jìn)水平。尤其是DNSMOS(深度降噪平均意見得分)達(dá)到了3.76,遠(yuǎn)高于判別式模型,證明了其產(chǎn)生自然高質(zhì)量音頻的能力。此外,SoloSpeech的詞錯(cuò)誤率(WER)僅為0.16,說話者相似度(SIM)達(dá)到0.96,這些都證明了它在可懂度和說話者保持方面的優(yōu)越性。
在領(lǐng)域外數(shù)據(jù)集上,SoloSpeech同樣表現(xiàn)出色。例如,在WHAM!數(shù)據(jù)集上,SoloSpeech的SISNR比最先進(jìn)的判別式方法USEF-TSE高出16.7%;在MUSAN和DEMAND數(shù)據(jù)集上,分別高出16.1%和17.6%。這充分證明了SoloSpeech在面對未見條件時(shí)的強(qiáng)大泛化能力。
更令人印象深刻的是,SoloSpeech在真實(shí)世界數(shù)據(jù)集上也取得了優(yōu)異的表現(xiàn)。在CHiME-5和RealSEP這兩個(gè)充滿挑戰(zhàn)的數(shù)據(jù)集上,SoloSpeech的平均意見得分(MOS)分別達(dá)到了2.93和2.70,遠(yuǎn)高于對比方法。這些數(shù)據(jù)集包含了多達(dá)4個(gè)重疊說話者、表情豐富的語音、非語言發(fā)聲(如笑聲、嘆息)、混響和背景音效等復(fù)雜因素,證明了SoloSpeech在真實(shí)世界應(yīng)用中的潛力。
除了目標(biāo)語音提取,研究團(tuán)隊(duì)還評估了SoloSpeech在語音分離任務(wù)上的表現(xiàn)。盡管SoloSpeech主要被訓(xùn)練用于提取單個(gè)說話者的聲音,但通過訓(xùn)練另一個(gè)模型來移除目標(biāo)說話者并提取其他說話者的聲音,研究團(tuán)隊(duì)實(shí)現(xiàn)了完整的語音分離功能。在Libri2Mix數(shù)據(jù)集上,SoloSpeech在語音分離任務(wù)中也優(yōu)于所有最先進(jìn)方法,SISNR提升達(dá)到13.92 dB,比之前最好的模型Fast-GeCo高出0.94 dB。
六、技術(shù)選擇與消融實(shí)驗(yàn)
研究團(tuán)隊(duì)通過一系列消融實(shí)驗(yàn)分析了SoloSpeech各組件的貢獻(xiàn)和不同設(shè)計(jì)選擇的影響。
首先,在音頻壓縮器的比較中,研究團(tuán)隊(duì)發(fā)現(xiàn)所提出的時(shí)頻域音頻VAE在TSE任務(wù)中顯著優(yōu)于目前最先進(jìn)的Stable Audio VAE。具體來說,時(shí)頻域音頻VAE在SISNR上達(dá)到了8.10 dB,而Stable Audio VAE僅為7.37 dB。
在說話者條件方面,研究團(tuán)隊(duì)比較了多種方法,包括基于說話者嵌入的方法(固定和微調(diào)的配置)、基于SSL的說話者網(wǎng)絡(luò)、時(shí)域說話者網(wǎng)絡(luò),以及所提出的VAE潛在域說話者網(wǎng)絡(luò)。結(jié)果表明,SoloSpeech的潛在空間融合方法不僅不需要額外的數(shù)據(jù)來訓(xùn)練說話者嵌入,而且在所有方法中取得了最佳性能。這歸功于該方法能夠保留條件特征的序列信息,并防止VAE潛在表示與其他類型特征之間的潛在不匹配。
在校正器的影響方面,研究表明所提出的校正器顯著優(yōu)于之前的工作Fast-GeCo,大幅提升了感知質(zhì)量和可懂度。更有趣的是,當(dāng)將提出的校正器應(yīng)用于之前的基線方法時(shí),如USEF-TSE(一種判別式方法)和SoloAudio(一種生成式方法),它們的性能也得到了一致的提升。特別是,SoloSpeech即使在應(yīng)用了校正器的情況下,仍然優(yōu)于帶校正器的USEF-TSE,尤其是在DNSMOS評分上,這突顯了生成式模型在產(chǎn)生更自然語音方面的優(yōu)勢。
研究團(tuán)隊(duì)還探索了掩蔽比例對校正器性能的影響。他們發(fā)現(xiàn),隨著掩蔽比例的增加,整體性能先提高后降低,最佳比例為30%。這一發(fā)現(xiàn)反映了掩蔽比例如何決定校正器的學(xué)習(xí)動(dòng)態(tài):較小的比例導(dǎo)致模型更多地關(guān)注參考音頻,而較高的比例則使模型更多地考慮混合音頻。在這兩個(gè)因素之間取得平衡,能夠產(chǎn)生最佳的感知質(zhì)量和可懂度。
在音頻時(shí)長方面,SoloSpeech被訓(xùn)練處理不同長度的音頻片段,范圍從3秒到10秒。得益于Transformer主干網(wǎng)絡(luò)中的旋轉(zhuǎn)位置嵌入(RoPE),模型還支持更長的輸入。在Libri2Mix、CHiME-5和RealSEP上的實(shí)驗(yàn)中,輸入片段長度從3秒到20秒不等,且隨著輸入長度的增加,性能沒有明顯下降,證明了SoloSpeech對音頻持續(xù)時(shí)間變化的魯棒性。
最后,研究團(tuán)隊(duì)還比較了目標(biāo)提取器不同模型大小的影響。從小型(50.6M參數(shù))到大型(474.1M參數(shù))模型,性能隨著模型大小的增加而提升,證明了更大模型的潛力,但同時(shí)也顯示了即使是小型模型也能達(dá)到不錯(cuò)的性能,為資源受限的場景提供了選擇。
七、計(jì)算成本和實(shí)際應(yīng)用考量
研究團(tuán)隊(duì)比較了SoloSpeech與最先進(jìn)的判別式模型(USEF-TSE)和生成式模型(SoloAudio)的計(jì)算成本。結(jié)果顯示,SoloSpeech和SoloAudio由于在潛在空間處理,需要的訓(xùn)練時(shí)間比USEF-TSE少得多,這使得大規(guī)模訓(xùn)練更加實(shí)際。雖然SoloSpeech的實(shí)時(shí)因子(RTF)略高,但仍然適合離線或服務(wù)器端部署。
考慮到這項(xiàng)工作的主要?jiǎng)訖C(jī)是在質(zhì)量和可懂度方面實(shí)現(xiàn)一致的改進(jìn),特別是在泛化能力上,研究團(tuán)隊(duì)認(rèn)為推理時(shí)間的適度增加是一個(gè)合理的權(quán)衡。此外,SoloSpeech的模塊化架構(gòu)(壓縮器、提取器、校正器)支持用更輕量級的替代方案替換每個(gè)組件,這是未來工作的一個(gè)方向。
八、未來展望與局限性
雖然SoloSpeech在多個(gè)測試中表現(xiàn)出色,但研究團(tuán)隊(duì)指出,強(qiáng)烈的混響和移動(dòng)聲源,如RealSEP數(shù)據(jù)集中的情況,仍然具有挑戰(zhàn)性。這些問題被留給未來的工作解決。此外,研究團(tuán)隊(duì)計(jì)劃探索每個(gè)組件更高效的主干架構(gòu),以進(jìn)一步提高系統(tǒng)的性能和效率。
值得一提的是,TSE技術(shù)可能帶來隱私和安全風(fēng)險(xiǎn),如未經(jīng)授權(quán)的監(jiān)控、語音欺騙和創(chuàng)建誤導(dǎo)性音頻。為了減輕這些風(fēng)險(xiǎn),研究團(tuán)隊(duì)已經(jīng)在限制性非商業(yè)許可下發(fā)布了源代碼和模型檢查點(diǎn)。這項(xiàng)工作也為將水印技術(shù)整合到提取的輸出中以實(shí)現(xiàn)可追溯性,以及開發(fā)深度偽造檢測工具以標(biāo)記操縱或合成的音頻,提供了新的機(jī)會(huì)和挑戰(zhàn)。
總的來說,SoloSpeech代表了目標(biāo)語音提取和語音分離領(lǐng)域的重要進(jìn)步,通過其創(chuàng)新的級聯(lián)生成式管道,成功地提高了提取語音的清晰度和質(zhì)量,并展示了出色的泛化能力。這為未來的語音處理技術(shù)開辟了新的研究方向,也為實(shí)際應(yīng)用提供了有價(jià)值的解決方案。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。