當(dāng)我們?cè)谑褂酶鞣NAI聊天機(jī)器人時(shí),你是否曾想過(guò),為什么有些話題AI會(huì)拒絕回答,有些內(nèi)容AI會(huì)主動(dòng)避開(kāi)?這背后其實(shí)有一群"AI守門(mén)員"在默默工作,它們被稱為守護(hù)模型。這項(xiàng)由馬里蘭大學(xué)的Monte Hoover領(lǐng)導(dǎo)的研究發(fā)表于2025年2月,提出了一個(gè)革命性的解決方案DynaGuard,有興趣深入了解的讀者可以通過(guò)GitHub代碼庫(kù)github.com/montehoover/DynaGuard或者Huggingface Collection訪問(wèn)完整資源。
要理解這項(xiàng)研究的意義,我們先來(lái)看一個(gè)真實(shí)發(fā)生的故事。2024年,加拿大航空公司因?yàn)槠淞奶鞕C(jī)器人錯(cuò)誤地向客戶承諾退款而被法院要求承擔(dān)責(zé)任。這個(gè)事件完美詮釋了當(dāng)前AI守護(hù)系統(tǒng)的局限性:現(xiàn)有的守護(hù)模型就像一個(gè)只會(huì)按固定條款執(zhí)行的保安,它們只能識(shí)別一些通用的有害內(nèi)容,比如暴力、武器、毒品等預(yù)設(shè)類別,卻無(wú)法理解各個(gè)企業(yè)或組織的具體業(yè)務(wù)規(guī)則。
現(xiàn)在的AI守護(hù)模型就好比一個(gè)只學(xué)會(huì)了基本交通規(guī)則的司機(jī),知道紅燈停綠燈行,但到了具體的社區(qū)或私人場(chǎng)所,面對(duì)"此路段限速20公里"、"會(huì)員車輛可通行"這樣的特殊規(guī)則時(shí)就束手無(wú)策了。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)面對(duì)這些個(gè)性化規(guī)則時(shí),即使是聲稱能處理用戶自定義規(guī)則的LlamaGuard3模型,準(zhǔn)確率也只有可憐的13.1%。
DynaGuard的出現(xiàn)就像是培訓(xùn)了一位既懂通用法規(guī)又能快速學(xué)習(xí)特殊條款的超級(jí)保安。與傳統(tǒng)守護(hù)模型不同,DynaGuard不是基于固定的傷害類別工作,而是能夠理解用戶用自然語(yǔ)言寫(xiě)出的任何規(guī)則。更重要的是,當(dāng)它發(fā)現(xiàn)違規(guī)行為時(shí),不只是簡(jiǎn)單地說(shuō)"不行",而是會(huì)詳細(xì)解釋為什么不行,甚至能幫助AI系統(tǒng)自我糾正。
一、為什么我們需要會(huì)讀規(guī)章制度的AI守門(mén)員
在現(xiàn)實(shí)世界中,不同場(chǎng)景下的"安全"標(biāo)準(zhǔn)千差萬(wàn)別。就像在醫(yī)院里討論人體解剖是正常的醫(yī)學(xué)交流,但在兒童游樂(lè)場(chǎng)就不合適一樣,AI在不同環(huán)境下需要遵守截然不同的規(guī)則。
傳統(tǒng)的守護(hù)模型就像一本死板的規(guī)則手冊(cè),只包含了幾個(gè)大類:暴力、武器、管制藥物、自殘、犯罪計(jì)劃等。這些分類在Meta的LlamaGuard等流行開(kāi)源模型中被廣泛使用。然而現(xiàn)實(shí)情況要復(fù)雜得多。一家航空公司可能需要AI絕對(duì)不能承諾退款,即使面對(duì)顧客的同情訴求也不行。一家醫(yī)療機(jī)構(gòu)可能需要AI在討論性相關(guān)內(nèi)容時(shí)保持克制,但不能完全回避涉及人體解剖的正當(dāng)醫(yī)學(xué)討論。一個(gè)新聞機(jī)構(gòu)的AI可能需要能夠討論暴力新聞內(nèi)容,但絕不能教人如何實(shí)施暴力。
這種復(fù)雜性就像每個(gè)社區(qū)都有自己的物業(yè)管理規(guī)則一樣。有些小區(qū)不允許養(yǎng)寵物,有些小區(qū)規(guī)定晚上10點(diǎn)后不能裝修,有些小區(qū)要求訪客必須登記。一個(gè)只知道"不能偷盜、不能傷人"這些基本法律的保安,顯然無(wú)法勝任具體社區(qū)的管理工作。
更關(guān)鍵的問(wèn)題是,當(dāng)AI違反了這些特殊規(guī)則時(shí),傳統(tǒng)守護(hù)模型只能說(shuō)"違規(guī)了",卻不能解釋具體違反了哪條規(guī)則,也不能幫助AI改正錯(cuò)誤繼續(xù)完成任務(wù)。這就像一個(gè)只會(huì)說(shuō)"不行"卻不解釋原因的嚴(yán)厲老師,既不利于學(xué)習(xí)也不利于改進(jìn)。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的系統(tǒng)在面對(duì)這些挑戰(zhàn)時(shí)表現(xiàn)極差。即使是最新的LlamaGuard3模型,雖然聲稱能處理用戶定義的規(guī)則,但在研究團(tuán)隊(duì)構(gòu)建的測(cè)試集上只能達(dá)到13.1%的準(zhǔn)確率。這意味著每10次判斷中有將近9次是錯(cuò)誤的,這樣的守護(hù)系統(tǒng)顯然不能滿足實(shí)際應(yīng)用的需求。
二、DynaBench數(shù)據(jù)集:給AI守門(mén)員出的40000道考試題
為了訓(xùn)練出真正能理解各種規(guī)則的AI守護(hù)模型,研究團(tuán)隊(duì)首先需要?jiǎng)?chuàng)建一個(gè)全面的訓(xùn)練數(shù)據(jù)集,就像給學(xué)生準(zhǔn)備各種類型的練習(xí)題一樣。他們構(gòu)建了一個(gè)名為DynaBench的大規(guī)模數(shù)據(jù)集,包含40000個(gè)獨(dú)特的政策場(chǎng)景,每個(gè)場(chǎng)景都包含詳細(xì)的規(guī)則、多輪對(duì)話和準(zhǔn)確的標(biāo)注。
創(chuàng)建這個(gè)數(shù)據(jù)集的過(guò)程就像編寫(xiě)一本涵蓋各行各業(yè)規(guī)章制度的百科全書(shū)。研究團(tuán)隊(duì)先手工編寫(xiě)了大約500條詳細(xì)規(guī)則,涵蓋各種主題。然后他們使用GPT-4o、Gemini-2.0-Flash和Claude Sonnet 3.5等先進(jìn)AI模型,通過(guò)交互式對(duì)話將這個(gè)規(guī)則庫(kù)擴(kuò)展到5000條獨(dú)特規(guī)則。這個(gè)過(guò)程就像讓不同的專家從各自的角度來(lái)豐富和完善規(guī)則集合。
為了確保質(zhì)量,研究團(tuán)隊(duì)對(duì)擴(kuò)展后的規(guī)則進(jìn)行了人工審查,剔除了模糊或表述不清的規(guī)則。他們的策略是創(chuàng)建那些對(duì)于是否違規(guī)幾乎沒(méi)有主觀判斷空間的規(guī)則,雖然一定程度的主觀性在建?,F(xiàn)實(shí)世界復(fù)雜性時(shí)是不可避免且有益的,但這種策略有助于減少標(biāo)注噪音。
一個(gè)政策通常由一個(gè)或多個(gè)規(guī)則組成,代表AI必須遵循的完整指導(dǎo)原則。研究團(tuán)隊(duì)通過(guò)主題采樣從規(guī)則庫(kù)中組合規(guī)則來(lái)創(chuàng)建獨(dú)特的政策,既包括只能在特定政策類型中出現(xiàn)的領(lǐng)域特定規(guī)則,也包括可以出現(xiàn)在任何政策中的通用規(guī)則。每個(gè)政策包含的規(guī)則數(shù)量遵循指數(shù)分布,中位數(shù)為3條規(guī)則,最多可達(dá)86條規(guī)則。然后使用語(yǔ)言模型對(duì)政策中的規(guī)則進(jìn)行改寫(xiě),確保沒(méi)有規(guī)則以完全相同的形式出現(xiàn)超過(guò)一次。
為了增加數(shù)據(jù)集的多樣性,研究團(tuán)隊(duì)為每個(gè)對(duì)話場(chǎng)景創(chuàng)建了豐富的背景設(shè)置。AI助手的身份被設(shè)定為虛構(gòu)組織中的各種角色,比如客服代表、日程管理助手、內(nèi)容創(chuàng)作者等,每個(gè)身份都有詳細(xì)的背景描述,包括公司名稱、地理位置、行業(yè)類型等。用戶角色同樣多樣化,包含不同的年齡、職業(yè)、地理位置、興趣愛(ài)好和性格特征。這種設(shè)計(jì)就像在不同的舞臺(tái)上安排不同的角色演出各種劇情。
對(duì)話本身也經(jīng)過(guò)精心設(shè)計(jì),長(zhǎng)度呈指數(shù)分布,中位數(shù)為2輪對(duì)話,最多可達(dá)30輪。有些對(duì)話中用戶會(huì)嘗試說(shuō)服或強(qiáng)迫AI違反規(guī)則,有些對(duì)話則完全是無(wú)害的正常交互。這種多樣性確保了訓(xùn)練數(shù)據(jù)能夠涵蓋現(xiàn)實(shí)世界中可能遇到的各種情況。
三、讓AI守門(mén)員學(xué)會(huì)推理的秘密武器
DynaGuard的核心創(chuàng)新在于它不僅能判斷對(duì)錯(cuò),還能解釋原因。這就像培養(yǎng)一個(gè)不僅知道交通規(guī)則,還能向違規(guī)司機(jī)清楚解釋為什么某個(gè)行為違規(guī)的交警。
在技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)選擇了Qwen3系列指令模型作為微調(diào)的基礎(chǔ)模型。他們?cè)O(shè)計(jì)了一個(gè)巧妙的訓(xùn)練策略:輸入包含需要遵循的規(guī)則和需要審查的對(duì)話,輸出則是合規(guī)性分類結(jié)果。為了實(shí)現(xiàn)雙模式能力(既能快速判斷又能詳細(xì)推理),他們?cè)?/3的訓(xùn)練樣本中使用了思維鏈推理軌跡。
在這些包含推理軌跡的訓(xùn)練樣本中,系統(tǒng)會(huì)先進(jìn)行推理思考,這部分內(nèi)容被包裝在XML標(biāo)簽中,然后再給出分類結(jié)果,同樣用XML標(biāo)簽包裝。剩下的2/3訓(xùn)練樣本則采用另一種格式:先給出答案標(biāo)簽,然后提供簡(jiǎn)化的解釋,這些解釋專門(mén)設(shè)計(jì)用于多智能體系統(tǒng)中的可操作反饋。
這種設(shè)計(jì)讓DynaGuard具備了兩種工作模式:快速推理模式和詳細(xì)推理模式。在快速模式下,系統(tǒng)可以迅速給出合規(guī)性判斷,滿足對(duì)響應(yīng)時(shí)間有嚴(yán)格要求的應(yīng)用場(chǎng)景。在詳細(xì)推理模式下,系統(tǒng)會(huì)提供完整的推理過(guò)程,解釋為什么某個(gè)對(duì)話違反了特定規(guī)則,這對(duì)于AI系統(tǒng)的自我糾錯(cuò)和人類理解系統(tǒng)決策都非常有價(jià)值。
研究團(tuán)隊(duì)采用了監(jiān)督微調(diào)加上GRPO(Group Relative Policy Optimization)的訓(xùn)練策略。訓(xùn)練數(shù)據(jù)混合了40000個(gè)DynaBench樣本和40000個(gè)來(lái)自四個(gè)安全數(shù)據(jù)集的樣本,確保模型既能處理新型的合規(guī)性任務(wù),又保持在傳統(tǒng)安全任務(wù)上的性能。監(jiān)督微調(diào)進(jìn)行1個(gè)輪次后,使用11000個(gè)樣本進(jìn)行GRPO訓(xùn)練,通過(guò)網(wǎng)格搜索確定最優(yōu)的學(xué)習(xí)率、批量大小和GRPO rollouts參數(shù)。
四、AI守門(mén)員的實(shí)戰(zhàn)表現(xiàn)如何
當(dāng)DynaGuard正式"上崗"后,它的表現(xiàn)令人印象深刻。在傳統(tǒng)安全基準(zhǔn)測(cè)試中,DynaGuard-8B模型在所有任務(wù)的平均表現(xiàn)上超越了包括GPT-4o-mini在內(nèi)的所有現(xiàn)有模型,同時(shí)在專門(mén)的DynaBench測(cè)試集上也取得了最佳性能。
更重要的是,DynaGuard實(shí)現(xiàn)了研究團(tuán)隊(duì)設(shè)想的多項(xiàng)關(guān)鍵能力。在動(dòng)態(tài)政策處理方面,它能夠準(zhǔn)確理解用戶用自然語(yǔ)言編寫(xiě)的各種規(guī)則,不再局限于預(yù)設(shè)的傷害類別。在保持傳統(tǒng)安全能力的同時(shí),它在處理業(yè)務(wù)特定規(guī)則方面的準(zhǔn)確率比現(xiàn)有模型有了顯著提升。
在可解釋性方面,DynaGuard不僅能判斷違規(guī),還能提供詳細(xì)的自然語(yǔ)言解釋。這種解釋不是簡(jiǎn)單的模板回復(fù),而是針對(duì)具體情況的分析,能夠指出具體違反了哪條規(guī)則,違反的具體表現(xiàn)是什么。這樣的反饋對(duì)于AI系統(tǒng)的自我糾錯(cuò)極其有價(jià)值。
研究團(tuán)隊(duì)通過(guò)一個(gè)生動(dòng)的案例展示了這種能力的實(shí)際應(yīng)用效果。在這個(gè)案例中,系統(tǒng)提示包含一套用戶希望AI遵循的規(guī)則,一個(gè)用戶查詢和GPT-4.1-mini的初始回應(yīng)。DynaGuard識(shí)別出初始回應(yīng)的第一句話違反了政策,生成了詳細(xì)的推理軌跡解釋違規(guī)原因,然后利用這個(gè)解釋讓GPT-4.1-mini成功生成了符合政策要求的修正回應(yīng)。
在快速推理能力測(cè)試中,DynaGuard的非推理模式性能僅比完整推理模式低1.3%,這意味著在需要快速響應(yīng)的場(chǎng)景下,系統(tǒng)可以犧牲很少的準(zhǔn)確性來(lái)?yè)Q取顯著的速度提升。這種靈活性使得DynaGuard能夠適應(yīng)不同應(yīng)用場(chǎng)景的需求。
五、從實(shí)驗(yàn)室到現(xiàn)實(shí)世界的橋梁
為了驗(yàn)證DynaGuard的實(shí)際應(yīng)用價(jià)值,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn):讓DynaGuard為另一個(gè)AI模型提供指導(dǎo),幫助它完成指令遵循任務(wù)。他們使用了IFEval基準(zhǔn)測(cè)試,這是一個(gè)專門(mén)測(cè)試AI模型遵循具體指令能力的測(cè)試集。
實(shí)驗(yàn)設(shè)置就像讓一個(gè)經(jīng)驗(yàn)豐富的老師指導(dǎo)學(xué)生修改作業(yè)。Ministral-8B模型作為"學(xué)生"嘗試完成IFEval中的任務(wù),DynaGuard作為"老師"檢查回答是否符合指令要求。當(dāng)發(fā)現(xiàn)違規(guī)時(shí),DynaGuard會(huì)提供詳細(xì)的解釋,然后讓Ministral-8B根據(jù)反饋重新生成回答。
結(jié)果令人振奮:在DynaGuard的指導(dǎo)下,Ministral-8B的IFEval準(zhǔn)確率從57.3%提升到63.8%,這是一個(gè)顯著的改進(jìn)。更重要的是,其他現(xiàn)有的守護(hù)模型在這個(gè)任務(wù)上幾乎沒(méi)有帶來(lái)任何改進(jìn),有些甚至略有下降。這充分證明了只有DynaGuard真正具備了處理未見(jiàn)過(guò)政策的能力。
這個(gè)實(shí)驗(yàn)的意義不僅在于性能提升,更在于展示了一種全新的AI系統(tǒng)協(xié)作模式。DynaGuard不是簡(jiǎn)單地拒絕不合規(guī)的輸出,而是提供建設(shè)性的反饋,幫助其他AI系統(tǒng)學(xué)習(xí)和改進(jìn)。這種協(xié)作模式為構(gòu)建更加智能和可靠的AI系統(tǒng)生態(tài)提供了新的思路。
研究團(tuán)隊(duì)還發(fā)現(xiàn),DynaGuard的訓(xùn)練配方(監(jiān)督微調(diào)加GRPO)在多個(gè)模型家族中都表現(xiàn)出了良好的泛化能力。在Qwen3、Qwen2.5和Llama3.2等不同的模型家族上,這種訓(xùn)練方法都能帶來(lái)顯著的性能提升,表明了方法的通用性和穩(wěn)健性。
六、AI守門(mén)員的未來(lái)展望與挑戰(zhàn)
DynaGuard的成功不僅代表了AI安全技術(shù)的一次重要進(jìn)步,也為整個(gè)行業(yè)指明了發(fā)展方向。隨著AI系統(tǒng)越來(lái)越多地部署在各種專業(yè)領(lǐng)域和特定場(chǎng)景中,能夠理解和執(zhí)行定制化規(guī)則的守護(hù)系統(tǒng)將變得越來(lái)越重要。
當(dāng)前的AI守護(hù)系統(tǒng)就像早期的防病毒軟件,只能識(shí)別已知的威脅特征。而DynaGuard則更像現(xiàn)代的智能安全系統(tǒng),能夠理解上下文,適應(yīng)不同環(huán)境,并提供有意義的反饋。這種進(jìn)步對(duì)于AI技術(shù)的廣泛應(yīng)用具有重要意義。
然而,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前的局限性。DynaGuard的一個(gè)主要焦點(diǎn)是提供違規(guī)解釋,但如何最好地將這些解釋整合到多智能體恢復(fù)策略中,或者它們?nèi)绾斡绊懡换ナ交蜉o助設(shè)置中的人類信任和可用性,還需要進(jìn)一步研究。
模型在某些類型的違規(guī)檢測(cè)上仍有改進(jìn)空間。例如,在涉及事實(shí)知識(shí)的政策上,DynaGuard的錯(cuò)誤率高達(dá)73.4%,在多條款規(guī)則政策上的錯(cuò)誤率也達(dá)到60.7%。這表明在處理需要外部知識(shí)或復(fù)雜邏輯推理的規(guī)則時(shí),系統(tǒng)仍有提升的必要。
另一個(gè)挑戰(zhàn)是模型能夠處理的對(duì)話長(zhǎng)度和政策復(fù)雜度。雖然DynaGuard相比基礎(chǔ)模型有了顯著改進(jìn),但在處理超長(zhǎng)對(duì)話或包含大量規(guī)則的復(fù)雜政策時(shí),準(zhǔn)確率仍會(huì)下降。這在一定程度上限制了系統(tǒng)在某些高復(fù)雜度場(chǎng)景中的應(yīng)用。
盡管存在這些挑戰(zhàn),DynaGuard代表了AI守護(hù)技術(shù)發(fā)展的重要里程碑。它不僅提供了一個(gè)實(shí)用的解決方案,更重要的是為這一領(lǐng)域的未來(lái)發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。隨著技術(shù)的不斷完善和數(shù)據(jù)集的進(jìn)一步擴(kuò)展,我們有理由相信,更加智能和可靠的AI守護(hù)系統(tǒng)將為AI技術(shù)的安全、負(fù)責(zé)任應(yīng)用提供強(qiáng)有力的保障。
研究團(tuán)隊(duì)已經(jīng)將DynaGuard的模型和數(shù)據(jù)集開(kāi)源,這意味著全世界的研究者和開(kāi)發(fā)者都可以在此基礎(chǔ)上繼續(xù)改進(jìn)和創(chuàng)新。這種開(kāi)放態(tài)度不僅加速了技術(shù)進(jìn)步,也確保了這項(xiàng)重要技術(shù)能夠惠及更廣泛的應(yīng)用場(chǎng)景和用戶群體。正如研究團(tuán)隊(duì)所說(shuō),他們希望DynaGuard帶來(lái)的新能力將推動(dòng)AI安全領(lǐng)域更多智能體范式的采用,讓AI系統(tǒng)變得更加安全、可靠和有用。
Q&A
Q1:DynaGuard和傳統(tǒng)AI守護(hù)模型有什么不同?
A:傳統(tǒng)守護(hù)模型只能識(shí)別預(yù)設(shè)的固定類別,比如暴力、武器等,就像只會(huì)基本交通規(guī)則的司機(jī)。而DynaGuard能理解用戶自然語(yǔ)言編寫(xiě)的任何規(guī)則,還能詳細(xì)解釋違規(guī)原因并幫助AI自我糾正,就像既懂通用法規(guī)又能快速學(xué)習(xí)特殊條款的超級(jí)保安。
Q2:DynaGuard的準(zhǔn)確率表現(xiàn)如何?
A:在傳統(tǒng)安全基準(zhǔn)測(cè)試中,DynaGuard-8B超越了包括GPT-4o-mini在內(nèi)的所有現(xiàn)有模型。在處理用戶自定義規(guī)則方面表現(xiàn)尤其突出,而現(xiàn)有的LlamaGuard3模型在類似任務(wù)上只有13.1%的準(zhǔn)確率。DynaGuard還能在保持高準(zhǔn)確率的同時(shí)提供快速推理模式。
Q3:普通企業(yè)如何使用DynaGuard?
A:DynaGuard已經(jīng)開(kāi)源,企業(yè)可以通過(guò)GitHub代碼庫(kù)或Huggingface Collection訪問(wèn)。它特別適合需要定制化AI規(guī)則的場(chǎng)景,比如客服系統(tǒng)需要遵循特定退款政策,醫(yī)療機(jī)構(gòu)需要在討論敏感話題時(shí)保持專業(yè)性,或者內(nèi)容平臺(tái)需要執(zhí)行特定的社區(qū)準(zhǔn)則。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。