這項(xiàng)由東京大學(xué)的Atsuyuki Miyai、Zaiying Zhao、Kazuki Egashira、Atsuki Sato、Tatsumi Sunada、Shota Onohara、Hiromasa Yamanishi、Mashiro Toyooka、Kunato Nishina、Ryoma Maeda以及Kiyoharu Aizawa和Toshihiko Yamasaki教授共同完成的研究,于2025年6月2日以預(yù)印本形式發(fā)布在arXiv平臺(tái)(arXiv:2506.01952v1 [cs.CL]),研究成果及相關(guān)資源可通過https://webchorearena.github.io/獲取。
一、網(wǎng)頁代理:人工智能的新使者
想象一下,當(dāng)你面對一堆繁瑣的網(wǎng)頁任務(wù)時(shí),比如整理訂單數(shù)據(jù)、計(jì)算多個(gè)產(chǎn)品的評(píng)分,或者在社交媒體上查找特定內(nèi)容,通常需要耗費(fèi)大量時(shí)間和精力。如果有一個(gè)"數(shù)字助手"能替你完成這些工作,是不是會(huì)讓生活輕松許多?這正是"網(wǎng)頁代理"(web browsing agent)的目標(biāo)。
網(wǎng)頁代理是由大型語言模型(LLM)驅(qū)動(dòng)的人工智能系統(tǒng),它們能像人類一樣操作網(wǎng)頁瀏覽器,點(diǎn)擊按鈕、填寫表單、閱讀內(nèi)容并作出決策。與普通編程方式相比,網(wǎng)頁代理的優(yōu)勢在于它能直接與任何網(wǎng)頁界面交互,不需要專門的API(應(yīng)用程序接口),而且整個(gè)操作過程對人類來說非常透明,容易理解和監(jiān)督。
隨著科技的發(fā)展,這些網(wǎng)頁代理變得越來越聰明,能夠順利完成常規(guī)的網(wǎng)頁瀏覽任務(wù)。但這引發(fā)了一個(gè)關(guān)鍵問題:它們能否超越基礎(chǔ)瀏覽,處理那些更復(fù)雜、更繁瑣,甚至是人類自己都不愿做的"網(wǎng)頁雜務(wù)"呢?
二、從WebArena到WebChoreArena:挑戰(zhàn)升級(jí)
在網(wǎng)頁代理的評(píng)估領(lǐng)域,WebArena已經(jīng)成為了一個(gè)公認(rèn)的標(biāo)準(zhǔn)測試平臺(tái)。它提供了四個(gè)模擬網(wǎng)站:電子商務(wù)平臺(tái)(OneStopShop)、社交論壇(Reddit)、協(xié)作軟件開發(fā)平臺(tái)(GitLab)和在線數(shù)據(jù)管理系統(tǒng)(在線商店管理)。許多研究者和公司都用它來測試自己開發(fā)的網(wǎng)頁代理。
然而,隨著大型語言模型的進(jìn)步,WebArena暴露出兩個(gè)主要局限性:
首先,它的任務(wù)主要集中在普通的網(wǎng)頁瀏覽上。當(dāng)AI模型變得更強(qiáng)大時(shí),這些基礎(chǔ)任務(wù)已經(jīng)不足以準(zhǔn)確測量它們的能力極限。
其次,WebArena中的一些任務(wù)存在模糊的指令或評(píng)估錯(cuò)誤。當(dāng)代理性能較低時(shí),這些問題影響不大,但隨著代理能力的提高,這些缺陷限制了測試平臺(tái)能夠準(zhǔn)確評(píng)估的上限。
為了解決這些問題,東京大學(xué)的研究團(tuán)隊(duì)開發(fā)了WebChoreArena,一個(gè)基于WebArena但更具挑戰(zhàn)性的測試平臺(tái)。想象一下,WebArena就像是駕駛考試中的基礎(chǔ)路考,而WebChoreArena則相當(dāng)于高級(jí)路考,包含了更復(fù)雜的路況和駕駛技巧測試。
三、WebChoreArena的核心設(shè)計(jì):模擬真實(shí)世界的繁瑣任務(wù)
WebChoreArena包含532個(gè)精心設(shè)計(jì)的任務(wù),這些任務(wù)可以分為四大類:
**海量記憶任務(wù)**:這類任務(wù)要求代理能夠準(zhǔn)確記住大量的觀察信息。想象你走進(jìn)一個(gè)裝滿商品的倉庫,需要記住每個(gè)商品的位置、價(jià)格和庫存數(shù)量,然后根據(jù)這些信息回答問題。例如,代理需要從產(chǎn)品分類頁面收集所有評(píng)論分?jǐn)?shù),這需要它能夠提取和保留頁面上的全部必要信息。
**計(jì)算任務(wù)**:這類任務(wù)需要代理基于之前觀察到的內(nèi)容進(jìn)行數(shù)學(xué)推理。就像你需要計(jì)算購物清單上所有商品的總價(jià)一樣。在一個(gè)具體例子中,代理需要追蹤并求和論壇中前40個(gè)帖子的評(píng)論數(shù)量,這考驗(yàn)了它執(zhí)行算術(shù)運(yùn)算的能力。
**長期記憶任務(wù)**:這類任務(wù)要求代理能夠在多個(gè)網(wǎng)頁之間保持長期記憶和推理。就像你需要先查看菜譜,了解所需食材,然后去超市購物,回家后還能記得所有步驟一樣。例如,代理需要先從一個(gè)頁面檢索定價(jià)規(guī)則,然后在與訂單頁面交互時(shí)應(yīng)用這些規(guī)則,這測試了它在多次導(dǎo)航后記憶和正確使用先前信息的能力。
**其他特殊任務(wù)**:這類任務(wù)涉及不常見或特定于某些網(wǎng)站的操作,比如在GitLab中分配標(biāo)簽。這些問題測試代理處理不常見UI元素或操作的能力。
這些任務(wù)跨越了四個(gè)網(wǎng)站:購物平臺(tái)(Shopping)、購物管理系統(tǒng)(Shopping Admin)、社交論壇(Reddit)和協(xié)作開發(fā)平臺(tái)(GitLab),還包括需要在多個(gè)網(wǎng)站之間導(dǎo)航的跨站任務(wù)。每個(gè)任務(wù)都經(jīng)過了精心設(shè)計(jì),以確保它們既有現(xiàn)實(shí)意義,又具有適當(dāng)?shù)奶魬?zhàn)性。
四、精心打造的測評(píng)系統(tǒng)
為了確保測評(píng)的公平性和有效性,研究團(tuán)隊(duì)投入了大量精力來構(gòu)建和完善WebChoreArena:
研究團(tuán)隊(duì)為每個(gè)模擬網(wǎng)站分配了三名注釋員(從作者中選擇),其中一名注釋員被分配到所有四個(gè)網(wǎng)站,以確保不同網(wǎng)站之間任務(wù)質(zhì)量的一致性??偣灿惺⑨寙T參與了任務(wù)創(chuàng)建過程。
注釋員首先會(huì)探索網(wǎng)站,熟悉內(nèi)容和功能,然后根據(jù)特定標(biāo)準(zhǔn)制定任務(wù)。他們特別強(qiáng)調(diào)了以下幾點(diǎn):
首先是專注于記憶密集型分析任務(wù)?,F(xiàn)實(shí)世界中常見但在現(xiàn)有基準(zhǔn)測試中未得到充分代表的任務(wù)類型。為避免過于簡單的任務(wù),團(tuán)隊(duì)使用基于Claude的代理對早期任務(wù)進(jìn)行了評(píng)估,以識(shí)別模型的局限性并完善任務(wù)設(shè)計(jì)。
其次是減少任務(wù)規(guī)范和評(píng)估中的歧義。雖然處理模糊指令對于現(xiàn)實(shí)世界中的代理很重要,但為了可靠的評(píng)估,團(tuán)隊(duì)優(yōu)先考慮了明確的可評(píng)估性。在WebArena中,模糊的指令常常導(dǎo)致代理產(chǎn)生的合理答案被錯(cuò)誤地標(biāo)記為失敗。
第三是基于模板的任務(wù)構(gòu)建和擴(kuò)展。注釋員創(chuàng)建任務(wù)模板并將其擴(kuò)展為多個(gè)任務(wù)實(shí)例,每個(gè)變量都有多個(gè)實(shí)例化。這種設(shè)計(jì)使得評(píng)估更加穩(wěn)健和系統(tǒng)化。
總共創(chuàng)建了117個(gè)任務(wù)模板:購物網(wǎng)站25個(gè),購物管理29個(gè),Reddit 20個(gè),GitLab 28個(gè),跨站任務(wù)15個(gè)。平均每個(gè)模板產(chǎn)生了約4.5個(gè)任務(wù)實(shí)例。
為確保每個(gè)任務(wù)的質(zhì)量和正確性,團(tuán)隊(duì)進(jìn)行了交叉檢查,每個(gè)網(wǎng)站有三名注釋員參與。由于許多歧義只有在實(shí)際任務(wù)執(zhí)行過程中才會(huì)顯現(xiàn),團(tuán)隊(duì)進(jìn)行了多輪推理、錯(cuò)誤分析和修訂。這個(gè)注釋過程既細(xì)致又耗時(shí),總共花費(fèi)了300多小時(shí)的精心完善。
五、評(píng)估方法:如何判斷AI的表現(xiàn)
評(píng)估網(wǎng)頁代理的表現(xiàn)不是一件簡單的事情。想象一下,如果讓不同的老師用不同的標(biāo)準(zhǔn)來評(píng)判學(xué)生的答案,結(jié)果很可能會(huì)不一致。為了確保評(píng)估的一致性和公平性,WebChoreArena采用了三種主要的評(píng)估指標(biāo):
**文本匹配(string_match)**:這種方法用于評(píng)估代理輸出的文本是否符合預(yù)期。它又分為三類: - 精確匹配(exact_match):只有當(dāng)輸出與標(biāo)準(zhǔn)答案完全一致時(shí),才算成功。 - 必須包含(must_include):只要標(biāo)準(zhǔn)答案包含在輸出中的任何位置,就算成功。 - 模糊匹配(fuzzy_match):利用語言模型(在實(shí)現(xiàn)中使用GPT-4o)來評(píng)估輸出是否在語義上等同于標(biāo)準(zhǔn)答案。
**網(wǎng)頁交互評(píng)估(program_html)**:這種方法驗(yàn)證代理的操作是否在網(wǎng)頁上產(chǎn)生了預(yù)期的狀態(tài)變化。具體來說,會(huì)從代理操作后的網(wǎng)頁上指定元素中提取信息,并與標(biāo)準(zhǔn)答案進(jìn)行比較,以確定功能上的正確性。
通過這些評(píng)估方法,研究人員可以全面評(píng)估網(wǎng)頁代理在不同類型任務(wù)上的表現(xiàn),從而更準(zhǔn)確地了解它們的能力和局限性。
六、實(shí)驗(yàn)設(shè)置:各路AI選手的較量
為了全面評(píng)估不同語言模型在WebChoreArena上的表現(xiàn),研究團(tuán)隊(duì)選擇了三個(gè)代表性的大型語言模型(LLM):
**GPT-4o**:這是學(xué)術(shù)研究中常用的代表性語言模型,由OpenAI開發(fā)。
**Claude 3.7 Sonnet**:這是Anthropic公司開發(fā)的一款先進(jìn)的大容量語言模型。
**Gemini 2.5 Pro**:這是Google開發(fā)的最新一代大型語言模型,擁有強(qiáng)大的推理能力。
這些語言模型被用于兩個(gè)先進(jìn)的網(wǎng)頁代理系統(tǒng)中進(jìn)行測試:
**AgentOccam**:這是一個(gè)專為WebArena基準(zhǔn)測試設(shè)計(jì)的代理,它采用了經(jīng)過優(yōu)化的觀察和行動(dòng)空間,以更好地與語言模型的預(yù)訓(xùn)練數(shù)據(jù)保持一致。此外,它還采用了支持分支和剪枝的規(guī)劃策略,允許代理生成替代計(jì)劃,并根據(jù)中間結(jié)果消除次優(yōu)計(jì)劃,從而實(shí)現(xiàn)更高效、更適應(yīng)性強(qiáng)的決策過程。
**BrowserGym**:這是一個(gè)統(tǒng)一、可擴(kuò)展的環(huán)境,用于在各種基準(zhǔn)測試中開發(fā)和評(píng)估網(wǎng)頁代理,具有標(biāo)準(zhǔn)化的觀察和行動(dòng)空間。
這些不同組合的測試讓研究人員能夠全面了解各種模型和代理系統(tǒng)在復(fù)雜網(wǎng)頁任務(wù)上的能力差異。
七、實(shí)驗(yàn)結(jié)果:新舊基準(zhǔn)下的AI表現(xiàn)對比
實(shí)驗(yàn)結(jié)果展示了令人深思的發(fā)現(xiàn)。首先,讓我們看看各個(gè)模型在WebArena和WebChoreArena上的整體表現(xiàn):
在WebArena上,使用AgentOccam代理時(shí),GPT-4o達(dá)到了42.8%的準(zhǔn)確率,Claude 3.7 Sonnet達(dá)到了52.0%,而Gemini 2.5 Pro達(dá)到了54.8%。使用BrowserGym代理時(shí),GPT-4o達(dá)到了36.4%,Claude 3.7 Sonnet達(dá)到了51.5%,Gemini 2.5 Pro達(dá)到了59.2%。
相比之下,在更具挑戰(zhàn)性的WebChoreArena上,所有模型的表現(xiàn)都有顯著下降:
使用AgentOccam代理時(shí),GPT-4o的準(zhǔn)確率僅為6.8%(相比WebArena下降了36.0個(gè)百分點(diǎn)),Claude 3.7 Sonnet為23.5%(下降28.5個(gè)百分點(diǎn)),Gemini 2.5 Pro為37.8%(下降17.0個(gè)百分點(diǎn))。
使用BrowserGym代理時(shí),GPT-4o的準(zhǔn)確率僅為2.6%(下降33.8個(gè)百分點(diǎn)),Claude 3.7 Sonnet為23.1%(下降28.4個(gè)百分點(diǎn)),Gemini 2.5 Pro為44.9%(下降14.3個(gè)百分點(diǎn))。
這些結(jié)果帶來了幾個(gè)關(guān)鍵發(fā)現(xiàn):
**GPT-4o在WebChoreArena上表現(xiàn)掙扎**:雖然GPT-4o在WebArena上表現(xiàn)尚可,但在更具挑戰(zhàn)性的WebChoreArena上表現(xiàn)顯著下降,這表明WebChoreArena確實(shí)提供了更嚴(yán)峻的挑戰(zhàn),需要更先進(jìn)的語言模型才能應(yīng)對。
**最新的語言模型雖有進(jìn)步但仍有很大提升空間**:隨著語言模型的演進(jìn),如Claude 3.7 Sonnet和Gemini 2.5 Pro,在WebChoreArena上的表現(xiàn)有所提高,但即使是最先進(jìn)的Gemini 2.5 Pro,相比于WebArena,在WebChoreArena上仍有顯著的性能下降,這表明即使是最先進(jìn)的模型在處理更復(fù)雜的網(wǎng)頁任務(wù)時(shí)仍有很大的提升空間。
**WebChoreArena能更清晰地測量模型性能差異**:與WebArena相比,WebChoreArena能夠更清晰地展示不同模型之間的性能差異。在WebArena上,BrowserGym的性能范圍從GPT-4o的36.4%到Gemini 2.5 Pro的59.2%,而在WebChoreArena上,這一范圍從GPT-4o的2.6%擴(kuò)大到Gemini 2.5 Pro的44.9%,提供了更廣闊的評(píng)估譜系,有助于模型開發(fā)者和評(píng)估者更清晰地了解各個(gè)模型的優(yōu)勢和劣勢。
**WebChoreArena能進(jìn)行細(xì)粒度的任務(wù)類型分析**:通過對不同任務(wù)類型的性能分析,研究發(fā)現(xiàn)代理架構(gòu)(不僅僅是語言模型的類型)對不同類型任務(wù)的性能有顯著影響。例如,Gemini 2.5 Pro在BrowserGym中對海量記憶任務(wù)表現(xiàn)最佳,而AgentOccam在這一類別中表現(xiàn)最差。這種差異可歸因于它們在記憶管理策略上的根本差異。
八、深入分析:不同模態(tài)和工具的影響
研究團(tuán)隊(duì)還進(jìn)行了一系列額外的分析,以更深入地了解不同因素對代理性能的影響:
**輸入模態(tài)的影響**:研究者調(diào)查了輸入數(shù)據(jù)模態(tài)(即文本和圖像)對代理性能的影響。主要實(shí)驗(yàn)主要使用基于文本的輸入(即可訪問性樹),以減輕視覺幻覺,只有三個(gè)模板需要圖像輸入。然而,分析如何在加入圖像輸入時(shí)性能變化提供了重要見解。
研究發(fā)現(xiàn),加入圖像輸入通常會(huì)導(dǎo)致整體性能下降。特別是購物等某些網(wǎng)站類別在包含視覺信息時(shí)表現(xiàn)出顯著的性能變化。進(jìn)一步的分析表明,對于需要僅文本信息的任務(wù)(即視覺和文本信息之間存在差距的情況),特別是對于Gemini這樣的模型,表現(xiàn)出明顯的性能下降。因此,探索如何在減輕幻覺的同時(shí)利用視覺信息代表了未來研究的一個(gè)關(guān)鍵方向。
**工具使用的影響**:研究者還調(diào)查了使用外部工具,特別是計(jì)算器,是否能增強(qiáng)代理性能。為此,他們使用了WebArena團(tuán)隊(duì)開發(fā)的基于網(wǎng)絡(luò)的計(jì)算器,該計(jì)算器提供了基于GUI的界面,允許代理無縫執(zhí)行算術(shù)運(yùn)算。他們明確給代理以下指令:"如果你需要進(jìn)行一些計(jì)算,可以使用位于<計(jì)算器URL>的計(jì)算器。"
從WebChoreArena中提取了215個(gè)特定于計(jì)算的任務(wù)來評(píng)估工具使用的有效性。結(jié)果顯示,整體性能基本保持不變。主要原因是模型很少嘗試使用工具。在215個(gè)任務(wù)中,使用工具的任務(wù)數(shù)量不到總數(shù)的28%。代理似乎更喜歡直接解決問題,因?yàn)楫?dāng)它們認(rèn)為問題可以自行解決時(shí),直接解決比使用工具更高效。因此,研究發(fā)現(xiàn)僅僅使用計(jì)算器工具并不一定能提高WebChoreArena的性能。
九、錯(cuò)誤分析:AI的常見失誤
為了更好地理解現(xiàn)有系統(tǒng)的局限性,研究團(tuán)隊(duì)詳細(xì)分析了Gemini 2.5 Pro(與BrowserGym結(jié)合)的失敗案例,并識(shí)別了幾種常見的錯(cuò)誤類型:
**計(jì)數(shù)錯(cuò)誤**:在海量記憶任務(wù)中,雖然代理能夠準(zhǔn)確計(jì)數(shù)單個(gè)網(wǎng)頁內(nèi)的項(xiàng)目,但當(dāng)任務(wù)需要在多個(gè)頁面之間導(dǎo)航和匯總信息時(shí),它們常常遇到困難并犯下計(jì)數(shù)錯(cuò)誤。
**計(jì)算錯(cuò)誤**:研究沒有觀察到在簡單的加法或乘法任務(wù)中的錯(cuò)誤。然而,當(dāng)Gemini 2.5 Pro需要加或乘十五個(gè)以上的數(shù)字時(shí),明顯開始更頻繁地出現(xiàn)計(jì)算錯(cuò)誤。
**忽略指令**:研究觀察到幾個(gè)指令被忽視的實(shí)例。例如,代理有時(shí)會(huì)忽略只選擇"超過5條評(píng)論"的產(chǎn)品的指令,或未能遵循指定的輸出格式。
**操作錯(cuò)誤**:還觀察到一些操作錯(cuò)誤。例如,代理有時(shí)無法記住其先前的操作。在一個(gè)案例中,它成功到達(dá)第二頁,但錯(cuò)誤地認(rèn)為自己仍在第一頁,導(dǎo)致它不必要地導(dǎo)航到另一頁。
**其他錯(cuò)誤**:其他錯(cuò)誤包括列出不存在的產(chǎn)品,過早結(jié)束搜索而不檢查所有頁面,以及在中途退出復(fù)雜搜索以嘗試更快的方法,但迷失方向無法完成任務(wù)。
這些分析為未來改進(jìn)網(wǎng)頁代理提供了寶貴的見解,指出了需要重點(diǎn)關(guān)注的幾個(gè)關(guān)鍵領(lǐng)域。
十、總結(jié)與展望:測評(píng)平臺(tái)的意義與限制
WebChoreArena作為一個(gè)全新的基準(zhǔn)測試平臺(tái),為評(píng)估網(wǎng)頁代理在復(fù)雜、繁瑣任務(wù)上的能力提供了更加嚴(yán)峻的挑戰(zhàn)。這項(xiàng)研究不僅展示了現(xiàn)有技術(shù)的進(jìn)步,也揭示了未來研究的方向。
**研究的局限性**: 首先,這項(xiàng)工作主要貢獻(xiàn)在于構(gòu)建基準(zhǔn)測試,并沒有專注于開發(fā)新方法?;谘芯堪l(fā)現(xiàn)設(shè)計(jì)新方法是未來研究的關(guān)鍵方向。
其次,實(shí)驗(yàn)是在模擬的網(wǎng)絡(luò)環(huán)境中進(jìn)行的,雖然這確保了完全的可重復(fù)性,同時(shí)也接近真實(shí)網(wǎng)站,但仍可能存在一定差距。開發(fā)WebChoreArena的在線擴(kuò)展是進(jìn)一步與真實(shí)環(huán)境對齊同時(shí)保持可重復(fù)性的重要下一步。
**未來展望**: WebChoreArena提供了一個(gè)更具挑戰(zhàn)性的測試平臺(tái),可以幫助研究人員更準(zhǔn)確地評(píng)估和改進(jìn)網(wǎng)頁代理的能力。隨著語言模型和代理技術(shù)的不斷發(fā)展,我們可以期待看到能夠更好地處理復(fù)雜網(wǎng)頁任務(wù)的系統(tǒng)出現(xiàn)。
這項(xiàng)研究不僅對學(xué)術(shù)界有重要意義,對普通用戶也有潛在的影響。隨著網(wǎng)頁代理能力的提升,未來我們可能會(huì)看到更多能夠自動(dòng)化處理網(wǎng)絡(luò)雜務(wù)的工具出現(xiàn),這將為用戶節(jié)省大量時(shí)間和精力。
總之,WebChoreArena代表了網(wǎng)頁代理評(píng)估領(lǐng)域的一個(gè)重要進(jìn)步,它將幫助推動(dòng)這一領(lǐng)域的研究向更實(shí)用、更強(qiáng)大的方向發(fā)展。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對培養(yǎng)AI空間智能的重要價(jià)值。