在全球化快速發(fā)展的今天,人工智能正在成為連接不同語言和文化的重要橋梁。然而,現(xiàn)有的AI系統(tǒng)往往存在一個(gè)令人困擾的問題:它們在英語世界表現(xiàn)出色,但一旦面對其他語言,特別是那些資源相對稀缺的語言時(shí),就顯得力不從心。這項(xiàng)由微軟公司的Pranjal A. Chitale領(lǐng)導(dǎo)的國際研究團(tuán)隊(duì)最新完成的研究,為解決這一挑戰(zhàn)提供了全新的思路。該研究發(fā)表于2025年9月,論文編號為arXiv:2509.21294v1,有興趣深入了解的讀者可以通過此編號查詢完整論文。
研究團(tuán)隊(duì)包括來自微軟公司、南洋理工大學(xué)、東北大學(xué)的多位專家,他們共同探索了一個(gè)至關(guān)重要的問題:如何讓AI系統(tǒng)不僅能夠處理多種語言,更能深度理解不同文化背景下的語言表達(dá)。這個(gè)問題的重要性不言而喻。當(dāng)我們使用翻譯軟件時(shí),經(jīng)常會發(fā)現(xiàn)翻譯結(jié)果雖然語法正確,但總感覺缺少了什么——那就是文化的味道。就像一道地道的川菜,如果只是簡單地把食材和調(diào)料混合在一起,而不理解其中的火候掌控和文化內(nèi)涵,做出來的菜可能營養(yǎng)相同,但味道卻相去甚遠(yuǎn)。
這項(xiàng)研究的創(chuàng)新之處在于,它不再滿足于簡單的語言翻譯,而是致力于創(chuàng)建一個(gè)能夠真正理解多語言、多文化背景的AI系統(tǒng)。研究團(tuán)隊(duì)以印度的13種不同語言為研究對象,這些語言不僅在表達(dá)方式上存在差異,更重要的是,它們承載著豐富而獨(dú)特的文化內(nèi)涵。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為UPDESH的大規(guī)模合成數(shù)據(jù)集,包含950萬個(gè)數(shù)據(jù)點(diǎn),這個(gè)數(shù)據(jù)集的特別之處在于,它不是簡單地將英語內(nèi)容翻譯成其他語言,而是深度挖掘每種語言背后的文化土壤,讓AI能夠理解不同文化背景下的思維方式和表達(dá)習(xí)慣。
**一、傳統(tǒng)方法的局限性與新思路的誕生**
在探討這項(xiàng)研究的突破性貢獻(xiàn)之前,我們需要先理解傳統(tǒng)方法面臨的困境。目前大多數(shù)多語言AI系統(tǒng)采用的是一種相對簡單粗暴的方法:先用英語訓(xùn)練一個(gè)強(qiáng)大的AI模型,然后將英語內(nèi)容翻譯成目標(biāo)語言,再用這些翻譯內(nèi)容來訓(xùn)練多語言版本。這種方法就像是先學(xué)會了如何用英語思考,然后試圖用其他語言的詞匯來表達(dá)英語思維。
這種做法的問題顯而易見。每種語言都有其獨(dú)特的表達(dá)邏輯和文化背景。比如,中文里的"意思意思"這個(gè)表達(dá),如果直譯成英語"meaning meaning",外國人根本無法理解其中蘊(yùn)含的微妙含義。同樣,印度語言中有許多體現(xiàn)當(dāng)?shù)匚幕厣谋磉_(dá)方式,如果只是簡單地從英語翻譯過來,就會失去原有的文化韻味。
研究團(tuán)隊(duì)深刻認(rèn)識到這個(gè)問題,提出了一種全新的"自下而上"生成策略。與傳統(tǒng)的"自上而下"翻譯方法不同,這種新方法直接從目標(biāo)語言的文化土壤中生長出內(nèi)容。具體來說,他們使用了一種非常巧妙的方法:讓大型語言模型基于每種語言的維基百科內(nèi)容來生成訓(xùn)練數(shù)據(jù)。
這個(gè)方法的妙處在于,維基百科是由母語使用者編寫的,包含了大量反映當(dāng)?shù)匚幕?、歷史、傳統(tǒng)的內(nèi)容。當(dāng)AI模型基于這些內(nèi)容生成訓(xùn)練數(shù)據(jù)時(shí),自然就會帶上濃厚的文化色彩。這就像是讓AI不再做一個(gè)蹩腳的翻譯官,而是真正成為一個(gè)在當(dāng)?shù)匚幕谐砷L起來的本地人。
**二、UPDESH數(shù)據(jù)集的精心構(gòu)建**
UPDESH數(shù)據(jù)集的構(gòu)建過程可以說是這項(xiàng)研究的核心亮點(diǎn)。這個(gè)數(shù)據(jù)集并非簡單的數(shù)據(jù)堆砌,而是一個(gè)經(jīng)過精心設(shè)計(jì)的多層次、多維度的知識體系。整個(gè)數(shù)據(jù)集包含950萬個(gè)數(shù)據(jù)點(diǎn),覆蓋13種印度語言,但更重要的是,它在設(shè)計(jì)時(shí)就充分考慮了語言的多樣性和文化的復(fù)雜性。
數(shù)據(jù)集分為兩個(gè)主要部分:推理數(shù)據(jù)和開放域生成數(shù)據(jù)。推理數(shù)據(jù)部分主要處理那些相對普遍的邏輯思維能力,比如數(shù)學(xué)計(jì)算、邏輯推理等。這些能力在很大程度上是跨文化的,一個(gè)數(shù)學(xué)公式在任何文化背景下都應(yīng)該得出相同的結(jié)果。因此,對于這部分內(nèi)容,研究團(tuán)隊(duì)采用了翻譯的方法,將高質(zhì)量的英語推理訓(xùn)練數(shù)據(jù)翻譯成目標(biāo)語言。
更具挑戰(zhàn)性的是開放域生成數(shù)據(jù)部分。這部分內(nèi)容需要展現(xiàn)語言的文化特色,體現(xiàn)不同文化背景下的思維方式和表達(dá)習(xí)慣。為了解決這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)采用了創(chuàng)新的文化內(nèi)容挖掘策略。他們系統(tǒng)性地遍歷了維基百科的文化分類體系,特別關(guān)注"印度文化"和"各邦聯(lián)邦屬地文化"等類別,深入挖掘2-3個(gè)層次的文化內(nèi)容。
這種挖掘過程產(chǎn)生了兩個(gè)互補(bǔ)的數(shù)據(jù)集:一個(gè)是涵蓋54個(gè)類別、包含19143個(gè)文化要素的泛印度文化集合,另一個(gè)是針對28個(gè)邦和8個(gè)聯(lián)邦屬地、包含37227個(gè)文化要素的地區(qū)特色文化集合。從這個(gè)龐大的文化資源庫中,研究團(tuán)隊(duì)精選了26800個(gè)文化要素,用于生成具有深度文化內(nèi)涵的多跳問答數(shù)據(jù)。
在具體的數(shù)據(jù)生成過程中,研究團(tuán)隊(duì)設(shè)計(jì)了八種不同的生成任務(wù)類型,每種類型都有其特定的文化意義和技術(shù)挑戰(zhàn)。比如邏輯推理任務(wù)要求AI從文本段落中生成隱含的推理,多跳問答任務(wù)需要AI綜合多個(gè)文本片段的信息來回答問題,創(chuàng)意寫作任務(wù)則要求AI將事實(shí)性內(nèi)容轉(zhuǎn)化為引人入勝的敘述,多輪對話任務(wù)通過3-5輪的角色扮演對話來展現(xiàn)文化交流的復(fù)雜性。
**三、質(zhì)量控制的嚴(yán)格標(biāo)準(zhǔn)**
任何大規(guī)模數(shù)據(jù)集的價(jià)值都取決于其質(zhì)量,UPDESH數(shù)據(jù)集在這方面設(shè)立了極其嚴(yán)格的標(biāo)準(zhǔn)。研究團(tuán)隊(duì)建立了一套多層次的質(zhì)量控制體系,這套體系不僅關(guān)注語言的正確性,更重視文化的適宜性。
首先是基礎(chǔ)的語言識別和質(zhì)量檢測。研究團(tuán)隊(duì)使用了專門針對印度語言開發(fā)的IndicLID語言識別系統(tǒng),設(shè)置了0.75的置信度閾值來確保生成的內(nèi)容確實(shí)屬于目標(biāo)語言。同時(shí),他們設(shè)置了單詞重復(fù)率不超過0.75的標(biāo)準(zhǔn),以避免低質(zhì)量的重復(fù)性生成。這些自動化檢測幫助篩選出了絕大多數(shù)的低質(zhì)量內(nèi)容,整體的數(shù)據(jù)丟棄率控制在2%以下,顯示了生成質(zhì)量的可靠性。
更重要的是人工質(zhì)量評估。研究團(tuán)隊(duì)招募了15名母語使用者,這些評估者分布在印度的8個(gè)不同州,年齡跨越21-50歲,教育背景從本科到研究生不等,性別比例為女性11人、男性4人。這種多樣化的評估團(tuán)隊(duì)確保了評估結(jié)果的代表性和公正性。
評估過程采用了細(xì)致的多維度標(biāo)準(zhǔn)。對于創(chuàng)意寫作任務(wù),評估者需要檢查指令遵循程度、語言流暢性、敘述連貫性等多個(gè)方面。對于推理任務(wù),則重點(diǎn)關(guān)注答案充分性、上下文遵循性、指令符合度、流暢性和可讀性,以及是否存在問題內(nèi)容和文化相關(guān)性。多輪對話任務(wù)的評估更加復(fù)雜,需要檢查角色一致性、話題連貫性、語言可信度、重復(fù)性檢測、毒性篩查和指令遵循等多個(gè)維度。
評估結(jié)果令人鼓舞。在總計(jì)10000個(gè)個(gè)體指標(biāo)評估中,人工評估者只給出了27個(gè)零分評價(jià),占比僅為0.27%,這表明絕大多數(shù)生成內(nèi)容都達(dá)到了可接受的質(zhì)量標(biāo)準(zhǔn)。研究團(tuán)隊(duì)還進(jìn)行了AI評估與人工評估的對比分析,發(fā)現(xiàn)兩者在客觀指標(biāo)(如毒性檢測、問題內(nèi)容識別)上的一致性很高,但在需要文化敏感性和語言微妙性判斷的指標(biāo)上存在顯著差異,這進(jìn)一步證明了人工評估的必要性。
**四、下游任務(wù)的全面驗(yàn)證**
為了驗(yàn)證UPDESH數(shù)據(jù)集的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了全面的下游任務(wù)評估。他們選擇了兩個(gè)具有代表性的基礎(chǔ)模型:LLAMA-3.1-8B和PHI4-14B,并與三個(gè)高質(zhì)量的開源指令微調(diào)數(shù)據(jù)集進(jìn)行對比,包括AYA-COLLECTION、INDICALIGN和BACTRIAN-X數(shù)據(jù)集。
評估框架包含三個(gè)主要任務(wù)類別,每個(gè)類別都有其特定的評估目標(biāo)和挑戰(zhàn)。自然語言理解任務(wù)使用多項(xiàng)選擇問題來測量理解和推理能力,通過基于似然性的評分方法來評估模型在不同語言背景下的理解能力。自然語言生成任務(wù)包括翻譯和摘要等,評估模型生成連貫且符合文化背景的內(nèi)容的能力。指令遵循評估則通過翻譯建立的基準(zhǔn)測試來評估跨語言指令遵循能力和本地語言指令遵循能力。
在自然語言理解任務(wù)上,使用UPDESH訓(xùn)練的模型表現(xiàn)出了明顯的優(yōu)勢。特別是PHI4-UPDESH配置在多個(gè)基準(zhǔn)測試中都取得了最佳成績,包括MMLU-I、MILU、BoolQ-I、BeleBele、INCL和GlobalMMLU等。這表明UPDESH數(shù)據(jù)集在培養(yǎng)模型的語言理解能力方面非常有效。
更加令人興奮的是在自然語言生成任務(wù)上的表現(xiàn)。LLAMA-UPDESH在所有生成任務(wù)中都取得了最高分?jǐn)?shù),顯示出顯著的優(yōu)勢。這種優(yōu)勢不僅體現(xiàn)在翻譯任務(wù)上,在摘要任務(wù)和長文本對話翻譯任務(wù)上同樣表現(xiàn)出色。這說明UPDESH數(shù)據(jù)集中的長文本生成訓(xùn)練數(shù)據(jù)為生成任務(wù)提供了顯著的益處。
特別值得注意的是語言資源分類的影響。研究團(tuán)隊(duì)按照J(rèn)oshi等人提出的語言資源分類法對結(jié)果進(jìn)行了分析,發(fā)現(xiàn)UPDESH訓(xùn)練的模型在低資源和中等資源語言上的相對改進(jìn)最為顯著,有效縮小了這些語言與高資源語言之間的性能差距。這一發(fā)現(xiàn)具有重要的實(shí)際意義,因?yàn)樗砻鞲哔|(zhì)量的多語言數(shù)據(jù)集確實(shí)能夠幫助弱勢語言獲得更好的AI支持。
**五、技術(shù)創(chuàng)新與方法論突破**
這項(xiàng)研究在技術(shù)方法上的創(chuàng)新值得深入探討。研究團(tuán)隊(duì)提出了一個(gè)完整的多語言、多文化合成數(shù)據(jù)生成框架,這個(gè)框架不僅適用于當(dāng)前的研究,也為未來的相關(guān)工作提供了可復(fù)制的方法論。
在基礎(chǔ)模型選擇方面,研究團(tuán)隊(duì)進(jìn)行了細(xì)致的能力評估。對于推理數(shù)據(jù)的翻譯,他們選擇了LLAMA-3.1-405B-INSTRUCT模型,這個(gè)選擇基于該模型在印度語言上的強(qiáng)大覆蓋能力和指令遵循能力。對于開放域生成數(shù)據(jù),他們選擇了QWEN3-235B-A22B模型,通過對比分析發(fā)現(xiàn)這個(gè)模型在生成任務(wù)上表現(xiàn)更優(yōu),特別是在復(fù)雜指令遵循方面展現(xiàn)出更強(qiáng)的推理能力。
在數(shù)據(jù)生成策略上,研究團(tuán)隊(duì)采用了"指令回譯"技術(shù)的啟發(fā),但做了重要改進(jìn)。傳統(tǒng)的指令回譯從無標(biāo)簽內(nèi)容開始構(gòu)建問題,然后由大語言模型生成答案。而UPDESH的方法論從一開始就將文化背景融入其中,通過利用特定語言的維基百科頁面作為知識庫,確保生成內(nèi)容的文化相關(guān)性和事實(shí)準(zhǔn)確性。
質(zhì)量評估方法的創(chuàng)新也值得關(guān)注。研究團(tuán)隊(duì)建立了專門針對多語言、多文化內(nèi)容的評估指標(biāo)體系,這些指標(biāo)不僅包括傳統(tǒng)的語言正確性、流暢性等,還包括文化適宜性、偏見和安全性、文化相關(guān)性等更深層次的評估維度。這種多維度評估方法為多語言AI系統(tǒng)的質(zhì)量控制提供了新的標(biāo)準(zhǔn)。
**六、實(shí)驗(yàn)設(shè)計(jì)的科學(xué)性與嚴(yán)謹(jǐn)性**
整個(gè)研究的實(shí)驗(yàn)設(shè)計(jì)體現(xiàn)了高度的科學(xué)性和嚴(yán)謹(jǐn)性。研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計(jì)中充分考慮了各種可能影響結(jié)果的因素,采用了多重對照和交叉驗(yàn)證的方法來確保結(jié)果的可靠性。
在基線對比方面,研究團(tuán)隊(duì)選擇了當(dāng)前最具代表性的三個(gè)開源多語言指令微調(diào)數(shù)據(jù)集作為對比基準(zhǔn)。AYA-COLLECTION數(shù)據(jù)集覆蓋了研究中除旁遮普語外的所有目標(biāo)語言,INDICALIGN數(shù)據(jù)集專門針對印度語言設(shè)計(jì),BACTRIAN-X數(shù)據(jù)集提供了10種目標(biāo)語言的訓(xùn)練樣本。為了確保對比的公平性,研究團(tuán)隊(duì)對這些數(shù)據(jù)集進(jìn)行了適當(dāng)?shù)牟蓸雍推胶馓幚?,使得?xùn)練數(shù)據(jù)規(guī)模相當(dāng)。
在評估基準(zhǔn)的選擇上,研究團(tuán)隊(duì)采用了覆蓋多個(gè)語言和多種任務(wù)類型的評估體系。自然語言理解任務(wù)包括MMLU、MMLU-I、MILU、ARC-I、BoolQ-I、TVQA-I、BeleBele、INCL、GlobalMMLU等多個(gè)基準(zhǔn),確保了評估的全面性。自然語言生成任務(wù)包括XSum摘要、Flores翻譯、IN22-Conv長文本對話翻譯等,覆蓋了生成任務(wù)的主要類型。
特別值得一提的是,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的錯(cuò)誤分析和性能分解。他們發(fā)現(xiàn),不同類型的任務(wù)對訓(xùn)練數(shù)據(jù)的要求存在差異。多項(xiàng)選擇式的自然語言理解任務(wù)更多依賴于基礎(chǔ)的語言知識和推理能力,而開放式的自然語言生成任務(wù)則更需要對語言的深度理解和文化敏感性。這一發(fā)現(xiàn)為未來的多語言AI訓(xùn)練提供了重要指導(dǎo)。
**七、研究意義與未來展望**
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的突破。它為構(gòu)建真正包容性的AI系統(tǒng)提供了一個(gè)可行的路徑,這種包容性不僅體現(xiàn)在語言覆蓋的廣度上,更體現(xiàn)在文化理解的深度上。
從技術(shù)發(fā)展的角度看,這項(xiàng)研究證明了"自下而上"的數(shù)據(jù)生成策略的有效性。相比于傳統(tǒng)的翻譯方法,這種策略能夠更好地保持語言的原生特色和文化內(nèi)涵。這為其他語言和文化背景的AI系統(tǒng)開發(fā)提供了重要參考。
從社會影響的角度看,這項(xiàng)研究有助于縮小數(shù)字鴻溝,讓更多使用低資源語言的人群能夠享受到高質(zhì)量的AI服務(wù)。研究結(jié)果顯示,UPDESH訓(xùn)練的模型在低資源和中等資源語言上的改進(jìn)最為顯著,這意味著那些在數(shù)字時(shí)代被邊緣化的語言群體有望獲得更好的技術(shù)支持。
研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前工作的局限性和未來的改進(jìn)方向。他們發(fā)現(xiàn),AI評估者在處理文化微妙性和語言地道性方面仍然存在不足,這表明我們需要開發(fā)更加文化敏感的自動評估方法。同時(shí),當(dāng)前的研究主要集中在印度語言上,未來需要將這種方法擴(kuò)展到更多的語言和文化背景。
這項(xiàng)研究還開啟了多個(gè)新的研究方向。比如,如何在保持文化特色的同時(shí)確??缥幕涣鞯挠行?,如何處理文化價(jià)值觀之間的沖突,如何在全球化背景下平衡標(biāo)準(zhǔn)化和個(gè)性化的需求等。這些問題的解決將進(jìn)一步推動多語言、多文化AI技術(shù)的發(fā)展。
說到底,這項(xiàng)研究最重要的貢獻(xiàn)在于它改變了我們對多語言AI的理解。它告訴我們,真正的多語言AI不應(yīng)該只是一個(gè)會說多種語言的翻譯機(jī)器,而應(yīng)該是一個(gè)能夠理解和尊重不同文化背景的智能伙伴。在全球化日益深入的今天,這樣的AI系統(tǒng)不僅具有技術(shù)價(jià)值,更具有重要的社會價(jià)值和人文意義。
研究團(tuán)隊(duì)承諾將公開UPDESH數(shù)據(jù)集、評估協(xié)議和詳細(xì)分析結(jié)果,以支持學(xué)術(shù)界的進(jìn)一步研究。這種開放的態(tài)度體現(xiàn)了科學(xué)研究的協(xié)作精神,也為整個(gè)多語言AI領(lǐng)域的發(fā)展注入了新的活力。歸根結(jié)底,這項(xiàng)研究為我們描繪了一個(gè)更加包容、更加多元的AI未來,在這個(gè)未來里,技術(shù)不再是文化同質(zhì)化的推手,而是文化多樣性的守護(hù)者和傳播者。
Q&A
Q1:UPDESH數(shù)據(jù)集和傳統(tǒng)的多語言AI訓(xùn)練數(shù)據(jù)有什么不同?
A:UPDESH數(shù)據(jù)集最大的不同在于它不是簡單翻譯英語內(nèi)容,而是從每種語言的文化土壤中直接生長出訓(xùn)練內(nèi)容。研究團(tuán)隊(duì)基于各語言的維基百科內(nèi)容生成數(shù)據(jù),這樣AI就能學(xué)到真正的文化表達(dá)方式,而不是英式思維的其他語言版本。就像學(xué)做地道川菜,不是把西餐食譜翻譯成中文,而是直接跟四川師傅學(xué)正宗做法。
Q2:這項(xiàng)研究對普通人使用多語言AI有什么實(shí)際幫助?
A:最直接的幫助是AI會變得更加"本土化"和文化敏感。比如當(dāng)你用母語與AI交流時(shí),它不僅能理解你的話,還能理解你話中的文化含義,回答也會更符合你的文化背景和表達(dá)習(xí)慣。特別是對于使用相對小眾語言的人群,這項(xiàng)技術(shù)能顯著改善AI服務(wù)質(zhì)量。
Q3:微軟這項(xiàng)研究的技術(shù)方法能應(yīng)用到其他語言嗎?
A:完全可以。研究團(tuán)隊(duì)專門設(shè)計(jì)了一套可復(fù)制的方法框架,理論上可以應(yīng)用到任何有足夠網(wǎng)絡(luò)內(nèi)容的語言。關(guān)鍵是要有該語言的維基百科或類似的文化知識庫作為基礎(chǔ),然后按照同樣的"自下而上"策略生成訓(xùn)練數(shù)據(jù),讓AI從文化源頭學(xué)習(xí)而不是從翻譯中學(xué)習(xí)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。