這項(xiàng)由新加坡南洋理工大學(xué)劉舜宇團(tuán)隊(duì)與2077AI、浙江大學(xué)等多個(gè)機(jī)構(gòu)合作的研究于2025年8月發(fā)表在了arXiv平臺(tái)上。有興趣深入了解的讀者可以通過(guò)https://github.com/VeriGUI-Team/VeriGUI或https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI訪問(wèn)完整數(shù)據(jù)集和論文詳情。
近年來(lái),我們經(jīng)常聽(tīng)到AI能夠下棋、寫(xiě)文章、畫(huà)畫(huà),但有沒(méi)有想過(guò)讓AI直接操控你的電腦,幫你完成復(fù)雜的工作呢?比如說(shuō),讓AI幫你搜集研究資料、制作表格、處理文檔,就像一個(gè)真正的數(shù)字助理一樣。這個(gè)想法聽(tīng)起來(lái)很美好,但現(xiàn)實(shí)卻充滿挑戰(zhàn)。
目前的AI智能體雖然能夠執(zhí)行一些簡(jiǎn)單的電腦操作,比如點(diǎn)擊某個(gè)按鈕或輸入一段文字,但遇到需要多個(gè)步驟、跨越不同應(yīng)用程序的復(fù)雜任務(wù)時(shí),它們往往表現(xiàn)得像剛學(xué)會(huì)用電腦的小朋友——雖然知道怎么點(diǎn)擊鼠標(biāo),但不知道該按什么順序完成整個(gè)任務(wù)。更糟糕的是,現(xiàn)有的訓(xùn)練數(shù)據(jù)大多只關(guān)注任務(wù)的最終結(jié)果,就像只告訴學(xué)生考試答案,卻不教他們解題步驟一樣。
研究團(tuán)隊(duì)面臨的核心問(wèn)題是:如何讓AI學(xué)會(huì)真正的"長(zhǎng)程規(guī)劃"——也就是將一個(gè)復(fù)雜任務(wù)分解成多個(gè)相互關(guān)聯(lián)的子步驟,并能夠在執(zhí)行過(guò)程中根據(jù)情況調(diào)整策略。這就像教會(huì)AI成為一個(gè)優(yōu)秀的項(xiàng)目經(jīng)理,不僅要知道最終目標(biāo),還要明白每個(gè)階段的具體目標(biāo)和驗(yàn)證標(biāo)準(zhǔn)。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為VeriGUI的創(chuàng)新數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的特殊之處在于,它不僅記錄了完整的任務(wù)操作流程,還為每個(gè)子任務(wù)設(shè)定了可以獨(dú)立驗(yàn)證的目標(biāo)。這樣一來(lái),AI就能夠在訓(xùn)練過(guò)程中獲得更細(xì)致的指導(dǎo),就像有一位耐心的老師在每個(gè)學(xué)習(xí)階段都給予及時(shí)的反饋和糾正。
VeriGUI數(shù)據(jù)集涵蓋了網(wǎng)頁(yè)操作和桌面應(yīng)用兩大類任務(wù)。網(wǎng)頁(yè)任務(wù)主要聚焦于深度研究場(chǎng)景,包括科學(xué)學(xué)術(shù)研究、金融經(jīng)濟(jì)、技術(shù)創(chuàng)新、藝術(shù)娛樂(lè)以及社會(huì)政策可持續(xù)發(fā)展五個(gè)主題領(lǐng)域。桌面任務(wù)則涵蓋了辦公生產(chǎn)力軟件、系統(tǒng)工具和專業(yè)應(yīng)用三個(gè)方面。每個(gè)任務(wù)都被精心分解為4到8個(gè)相互依賴的子任務(wù),總共需要執(zhí)行數(shù)百個(gè)GUI操作步驟,平均每個(gè)任務(wù)包含214.4個(gè)操作步驟。
這種設(shè)計(jì)理念可以用烹飪來(lái)類比。傳統(tǒng)的AI訓(xùn)練數(shù)據(jù)就像只告訴廚師"做一道紅燒肉",然后直接展示最終成品。而VeriGUI就像一本詳細(xì)的烹飪教程,不僅告訴你最終要做出什么菜,還詳細(xì)記錄了每個(gè)步驟:先準(zhǔn)備食材、然后腌制、接著炒糖色、再加調(diào)料燉煮等等。更重要的是,每個(gè)步驟都有明確的驗(yàn)證標(biāo)準(zhǔn),比如"肉色變金黃"、"湯汁濃稠"等,這樣即使中途出現(xiàn)偏差,也能及時(shí)調(diào)整。
在數(shù)據(jù)收集方面,研究團(tuán)隊(duì)采用了兩階段流程。第一階段是任務(wù)指令構(gòu)建,結(jié)合了語(yǔ)言模型生成和人工篩選。他們首先為每個(gè)主題領(lǐng)域手工選擇少量種子指令,然后讓語(yǔ)言模型基于這些種子生成大量候選任務(wù)。人工專家對(duì)這些候選任務(wù)進(jìn)行審核,只保留那些語(yǔ)法清晰、語(yǔ)義合理、實(shí)際可行的任務(wù)。一旦建立了經(jīng)過(guò)驗(yàn)證的主任務(wù)池,語(yǔ)言模型就會(huì)被提示進(jìn)行子任務(wù)分解,獲得包含詳細(xì)子指令的完整任務(wù)指令。
第二階段是人工演示收集。人工標(biāo)注員根據(jù)給定的最終指令手動(dòng)執(zhí)行每個(gè)任務(wù),并記錄完整的軌跡演示。在執(zhí)行前,標(biāo)注員會(huì)完善子任務(wù)序列以確??尚行院土鲿巢僮?,在交互過(guò)程中允許根據(jù)需要進(jìn)行調(diào)整。演示使用屏幕捕獲工具記錄,包含詳細(xì)的動(dòng)作日志、觀察日志和子任務(wù)級(jí)目標(biāo)。
為了確保高質(zhì)量的監(jiān)督和準(zhǔn)確的基準(zhǔn)測(cè)試,所有軌跡演示都要經(jīng)過(guò)嚴(yán)格的質(zhì)量控制。這包括自動(dòng)檢查和人工審核,驗(yàn)證子任務(wù)結(jié)果的正確性、動(dòng)作序列的連貫性以及觀察的完整性。只有滿足所有標(biāo)準(zhǔn)的演示才會(huì)被保留。
研究團(tuán)隊(duì)用這個(gè)數(shù)據(jù)集測(cè)試了多種不同類型的AI智能體,包括具有內(nèi)置搜索功能的深度研究智能體(如OpenAI Deep Research和Gemini Deep Research)、結(jié)合開(kāi)源搜索工具的搜索引擎智能體、使用Browser-Use框架的瀏覽器使用智能體,以及多智能體系統(tǒng)。
測(cè)試結(jié)果令人深思。在所有智能體類型和基礎(chǔ)模型中,沒(méi)有任何配置的平均成功率超過(guò)10%,完成率也沒(méi)有超過(guò)30%。這種持續(xù)的低性能表現(xiàn)突出了VeriGUI任務(wù)的挑戰(zhàn)性,這些任務(wù)需要長(zhǎng)期規(guī)劃、多步推理以及在多樣化網(wǎng)絡(luò)場(chǎng)景下的復(fù)雜決策能力。
具體來(lái)看,在深度研究智能體設(shè)置中,OpenAI-o3和Gemini-2.5-Pro實(shí)現(xiàn)了最高的平均成功率8.5%,完成率分別為28.8%和28.1%。這些結(jié)果表明,這兩個(gè)模型具有相對(duì)更強(qiáng)的推理能力和跨任務(wù)的更好泛化性。相比之下,OpenAI-o4-mini在這種設(shè)置下表現(xiàn)最差,表明盡管是推理模型,但在處理復(fù)雜網(wǎng)絡(luò)任務(wù)方面存在局限性。
在搜索引擎和瀏覽器使用設(shè)置中,研究團(tuán)隊(duì)觀察到類似的模型級(jí)別趨勢(shì)。OpenAI-o3、Claude-3.7-Sonnet和Claude-4.0-Sonnet在這兩種設(shè)置中都表現(xiàn)出更強(qiáng)的完成率。GPT-4o在兩種設(shè)置中都顯示出一致的低成功率(0.8-1.5%)和完成率(5.2-7.0%),表明在處理復(fù)雜多步任務(wù)方面存在局限性。
交互范式的設(shè)計(jì)對(duì)智能體性能有重大影響。使用搜索引擎范式的智能體在成功率和完成率指標(biāo)上都取得了最弱的結(jié)果。這種設(shè)置下的大多數(shù)模型平均成功率在0.8-5.4%之間,完成率低于18.3%。這很可能是因?yàn)樗鼈円蕾嚤粍?dòng)的基于文本的檢索,無(wú)法直接與網(wǎng)頁(yè)結(jié)構(gòu)交互。
相比之下,使用瀏覽器使用范式的智能體通常獲得稍高的分?jǐn)?shù)。雖然成功率的改進(jìn)往往很小,但幾個(gè)模型的平均完成率更高。例如,Claude-4.0-Sonnet從搜索引擎設(shè)置中的14.4%完成率提高到瀏覽器設(shè)置中的18.5%,Gemini-2.5-Pro從13.3%提高到15.5%。這些提升表明,能夠訪問(wèn)頁(yè)面級(jí)結(jié)構(gòu)和模擬用戶操作的能力可以提供有意義的優(yōu)勢(shì),特別是對(duì)于涉及動(dòng)態(tài)界面或多個(gè)步驟的任務(wù)。
在不同領(lǐng)域的表現(xiàn)方面,藝術(shù)娛樂(lè)類任務(wù)通常獲得了最高的成功率和完成率,這可能是由于更結(jié)構(gòu)化和可預(yù)測(cè)的數(shù)據(jù)格式,如列表或摘要。例如,使用Claude-4.0-Sonnet的瀏覽器使用智能體在該領(lǐng)域達(dá)到19.4%的成功率和45.8%的完成率。相比之下,金融經(jīng)濟(jì)和社會(huì)政策可持續(xù)發(fā)展等領(lǐng)域證明更具挑戰(zhàn)性,通常要求智能體從不夠標(biāo)準(zhǔn)化的內(nèi)容中提取碎片化、抽象的信息。大多數(shù)模型在這些領(lǐng)域顯示接近0%的成功率和低于20%的完成率。
為了更好地理解VeriGUI基準(zhǔn)中任務(wù)的內(nèi)在難度,研究團(tuán)隊(duì)對(duì)所有任務(wù)的成功率和完成率分布進(jìn)行了細(xì)致的統(tǒng)計(jì)分析。分布曲線顯示,對(duì)于兩種智能體類型,大多數(shù)任務(wù)都產(chǎn)生較低的成功率和完成率值,并伴有接近零成功的長(zhǎng)尾,突出了VeriGUI多步推理要求帶來(lái)的挑戰(zhàn)。
研究團(tuán)隊(duì)還系統(tǒng)地將任務(wù)難度分為五個(gè)級(jí)別。第一級(jí)包括成功率高于0%的任務(wù),表明它們對(duì)當(dāng)前智能體來(lái)說(shuō)相對(duì)容易處理。第二級(jí)包括成功率為零但完成率高于20%的任務(wù)。第三級(jí)包括成功率為零但完成率在5%到20%之間的任務(wù)。第四級(jí)包括成功率為零但完成率在0%到5%之間的任務(wù)。第五級(jí)包括成功率和完成率都為零的任務(wù),表明沒(méi)有模型能夠取得進(jìn)展。
結(jié)果顯示,VeriGUI任務(wù)的大部分落在成功率為零的第二到五級(jí),突出了高復(fù)雜性、部分可實(shí)現(xiàn)任務(wù)的普遍性。只有一小部分任務(wù)落入第一級(jí),表明對(duì)當(dāng)前智能體來(lái)說(shuō)很少有任務(wù)是直接的。這種分類為未來(lái)的基準(zhǔn)測(cè)試和GUI智能體訓(xùn)練中的課程設(shè)計(jì)提供了一個(gè)實(shí)用框架。
通過(guò)具體的案例研究,研究團(tuán)隊(duì)展示了不同類型智能體在長(zhǎng)期GUI推理任務(wù)中的行為和局限性。這些例子說(shuō)明了檢索保真度、多步推理質(zhì)量以及四種定義錯(cuò)誤類型的典型失敗模式:錯(cuò)誤信息、不完整結(jié)果、檢索失敗和無(wú)關(guān)結(jié)果。
在一個(gè)關(guān)于流媒體服務(wù)訂閱增長(zhǎng)的任務(wù)中,深度研究智能體(OpenAI-o3)取得了相對(duì)較高的完成率,正確識(shí)別了Netflix、《怪奇物語(yǔ)》和大部分相關(guān)元數(shù)據(jù)。然而,它表現(xiàn)出兩個(gè)關(guān)鍵錯(cuò)誤。首先,它犯了錯(cuò)誤信息錯(cuò)誤,報(bào)告了大約3900萬(wàn)的近似訂戶增長(zhǎng),而不是確切的3864萬(wàn),這是由于被媒體報(bào)告誤導(dǎo)并錯(cuò)誤地記錄2023年第四季度為2.608億而不是官方的2.6028億。其次,它展示了不完整結(jié)果,只提到了一家VFX公司,而遺漏了其他六家有重要貢獻(xiàn)的公司。
在另一個(gè)關(guān)于世界首個(gè)擁堵收費(fèi)城市的任務(wù)中,瀏覽器使用智能體(GPT-4o)正確識(shí)別了新加坡和實(shí)施年份1975年,但在其他方面失敗了。它遇到檢索失敗,沒(méi)有提供擁堵收費(fèi)的任何具體價(jià)值,而是返回模糊的描述。此外,它提供了無(wú)關(guān)結(jié)果,討論平均交通速度而不是報(bào)告第一年所需的交通減少百分比。這些問(wèn)題表明,盡管基于瀏覽器的智能體可以導(dǎo)航網(wǎng)頁(yè),但它們?nèi)匀辉诰_數(shù)據(jù)提取和生成結(jié)構(gòu)化、目標(biāo)導(dǎo)向的輸出方面存在困難,導(dǎo)致較低的完成率。
除了個(gè)別例子,研究團(tuán)隊(duì)的實(shí)驗(yàn)還揭示了幾個(gè)系統(tǒng)性局限。首先,許多基于聊天的智能體展示了淺層搜索行為:它們?cè)诿黠@需要更深入調(diào)查的任務(wù)中,只調(diào)用幾次工具就過(guò)早終止輸出。這限制了它們?cè)趶?fù)雜GUI環(huán)境中執(zhí)行全面、多跳檢索的能力。其次,瀏覽器智能體經(jīng)常使用完整的自然語(yǔ)言句子而不是提煉的關(guān)鍵詞來(lái)制定網(wǎng)絡(luò)查詢。雖然句子級(jí)輸入可能看起來(lái)更自然,但它們經(jīng)常導(dǎo)致次優(yōu)搜索結(jié)果,降低了檢索完成任務(wù)所需確切信息的可能性。
當(dāng)前的實(shí)驗(yàn)結(jié)果基于有限的130個(gè)網(wǎng)絡(luò)任務(wù)子集,其中大部分專注于信息尋求場(chǎng)景。有趣的是,研究團(tuán)隊(duì)觀察到深度研究智能體在這種設(shè)置下通常優(yōu)于瀏覽器使用智能體。這提出了一個(gè)重要問(wèn)題:我們應(yīng)該優(yōu)先發(fā)展深度研究智能體,還是GUI智能體范式仍然具有更廣泛和更強(qiáng)大的通用能力前景?
研究團(tuán)隊(duì)認(rèn)為后者仍然非常有吸引力,這種觀察應(yīng)該從幾個(gè)角度來(lái)解釋。任務(wù)的性質(zhì)強(qiáng)烈影響性能。VeriGUI中當(dāng)前的大部分網(wǎng)絡(luò)任務(wù)強(qiáng)調(diào)多跳信息檢索和事實(shí)綜合,這與深度研究智能體的優(yōu)勢(shì)密切相關(guān)。然而,對(duì)于許多涉及界面操作的實(shí)際任務(wù),如上傳文件和登錄賬戶,深度研究智能體基本上是有限的。這些智能體缺乏與界面視覺(jué)布局交互的能力,這對(duì)完成此類任務(wù)至關(guān)重要。相比之下,GUI智能體構(gòu)建為在環(huán)境的視覺(jué)和結(jié)構(gòu)組件上操作,使它們能夠處理超越被動(dòng)信息提取的交互式工作流程。
另外,GUI智能體的性能被低估了。大多數(shù)現(xiàn)有的基于瀏覽器的GUI智能體依賴于通用多模態(tài)模型和相對(duì)基本的執(zhí)行框架。它們還沒(méi)有受益于支持深度研究系統(tǒng)的相同程度的領(lǐng)域特定優(yōu)化或工具集成。隨著該領(lǐng)域的進(jìn)步,研究團(tuán)隊(duì)預(yù)期環(huán)境建模、長(zhǎng)期規(guī)劃、多模態(tài)理解以及使用VeriGUI提供的細(xì)粒度子任務(wù)監(jiān)督進(jìn)行訓(xùn)練的進(jìn)步將顯著改善GUI智能體的推理、魯棒性和決策能力。今天看到的性能差距不應(yīng)被視為根本限制,而是反映了這一有前景技術(shù)的早期階段。
GUI智能體最令人興奮的前景之一是它們作為開(kāi)發(fā)更通用AI系統(tǒng)的基礎(chǔ)工具的潛力。雖然深度研究智能體目前專注于基于網(wǎng)絡(luò)的任務(wù),但GUI智能體具有跨多個(gè)計(jì)算環(huán)境(包括網(wǎng)絡(luò)和桌面平臺(tái))進(jìn)行泛化的固有能力。它們與圖形界面交互的能力使它們變得多才多藝,能夠執(zhí)行諸如瀏覽、文檔編輯、系統(tǒng)配置和數(shù)據(jù)輸入等任務(wù),所有這些都不需要領(lǐng)域特定的規(guī)則或管道。這種可擴(kuò)展性和靈活性為構(gòu)建真正通用的交互式智能體提供了一條有希望的道路。
值得注意的是,當(dāng)前評(píng)估僅反映了VeriGUI旨在捕獲的一部分內(nèi)容。研究團(tuán)隊(duì)正在積極擴(kuò)展數(shù)據(jù)集,以包括更多具有交互要求的網(wǎng)絡(luò)任務(wù),以及涉及復(fù)雜軟件操作的大量桌面任務(wù)。未來(lái)對(duì)這一擴(kuò)展數(shù)據(jù)的實(shí)驗(yàn)將能夠更平衡和完整地了解跨任務(wù)類型和環(huán)境的GUI智能體能力。
說(shuō)到底,VeriGUI這項(xiàng)研究就像給AI智能體制作了一本詳細(xì)的"電腦操作指南"。它不僅告訴AI要完成什么任務(wù),還詳細(xì)記錄了每一個(gè)步驟應(yīng)該怎么做、做到什么程度算合格。這種精細(xì)化的指導(dǎo)方式讓AI能夠?qū)W會(huì)真正的"長(zhǎng)程思維",就像培養(yǎng)一個(gè)優(yōu)秀的項(xiàng)目經(jīng)理一樣。
雖然目前的測(cè)試結(jié)果顯示,即便是最先進(jìn)的AI智能體在面對(duì)復(fù)雜的電腦操作任務(wù)時(shí)仍然表現(xiàn)得像個(gè)初學(xué)者,但這恰恰證明了這個(gè)數(shù)據(jù)集的價(jià)值——它為我們提供了一個(gè)真實(shí)而嚴(yán)格的測(cè)試標(biāo)準(zhǔn)。正如學(xué)會(huì)騎自行車需要在摔倒中不斷練習(xí)一樣,AI智能體也需要通過(guò)這樣的挑戰(zhàn)性訓(xùn)練才能真正掌握復(fù)雜的電腦操作技能。
隨著這個(gè)數(shù)據(jù)集的不斷完善和擴(kuò)充,我們有理由相信,在不遠(yuǎn)的將來(lái),AI智能體將能夠像熟練的辦公助理一樣,幫我們處理各種復(fù)雜的電腦工作。到那時(shí),我們只需要對(duì)AI說(shuō)"幫我整理一份關(guān)于某個(gè)主題的研究報(bào)告",它就能自動(dòng)搜索資料、整理信息、制作表格、生成文檔,真正成為我們數(shù)字生活中不可或缺的智能伙伴。
Q&A
Q1:VeriGUI數(shù)據(jù)集有什么特別之處,為什么比現(xiàn)有的訓(xùn)練數(shù)據(jù)更有效?
A:VeriGUI的特別之處在于它提供了"分步驟驗(yàn)證"的訓(xùn)練方式。現(xiàn)有的訓(xùn)練數(shù)據(jù)就像只告訴學(xué)生考試答案,而VeriGUI像一本詳細(xì)教程,不僅記錄完整操作流程,還為每個(gè)子任務(wù)設(shè)定可獨(dú)立驗(yàn)證的目標(biāo)。每個(gè)任務(wù)被分解為4-8個(gè)相互依賴的子任務(wù),總共需要數(shù)百個(gè)操作步驟,讓AI能獲得更細(xì)致的指導(dǎo)和及時(shí)反饋。
Q2:目前AI智能體在VeriGUI測(cè)試中的表現(xiàn)如何,達(dá)到了什么水平?
A:測(cè)試結(jié)果顯示現(xiàn)有AI智能體的表現(xiàn)還比較有限。在所有智能體類型和基礎(chǔ)模型中,沒(méi)有任何配置的平均成功率超過(guò)10%,完成率也沒(méi)有超過(guò)30%。即使是表現(xiàn)最好的OpenAI-o3和Gemini-2.5-Pro,成功率也只有8.5%左右。這說(shuō)明復(fù)雜的電腦操作任務(wù)對(duì)AI來(lái)說(shuō)仍然是很大的挑戰(zhàn)。
Q3:VeriGUI數(shù)據(jù)集包含哪些類型的任務(wù),這些任務(wù)有多復(fù)雜?
A:VeriGUI包含網(wǎng)頁(yè)操作和桌面應(yīng)用兩大類任務(wù)。網(wǎng)頁(yè)任務(wù)涵蓋科學(xué)學(xué)術(shù)研究、金融經(jīng)濟(jì)、技術(shù)創(chuàng)新、藝術(shù)娛樂(lè)、社會(huì)政策可持續(xù)發(fā)展五個(gè)領(lǐng)域,主要是深度研究場(chǎng)景。桌面任務(wù)包括辦公軟件、系統(tǒng)工具和專業(yè)應(yīng)用操作。每個(gè)任務(wù)平均包含214.4個(gè)操作步驟,需要跨越多個(gè)應(yīng)用程序完成復(fù)雜的多步驟工作流程。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。