這項(xiàng)由Meta超級智能實(shí)驗(yàn)室團(tuán)隊(duì)完成的研究發(fā)表于2025年9月,論文編號為arXiv:2509.17158v1,有興趣深入了解的讀者可以通過該編號查詢完整論文。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為ARE(Meta智能體研究環(huán)境)的全新平臺,并基于此創(chuàng)建了Gaia2基準(zhǔn)測試,這項(xiàng)工作為人工智能領(lǐng)域帶來了重要突破。
想象一下,如果你要訓(xùn)練一個(gè)AI助手幫你處理日常事務(wù),比如回復(fù)郵件、安排會議、訂外賣,你會希望它在一個(gè)什么樣的環(huán)境中學(xué)習(xí)呢?傳統(tǒng)的做法就像讓學(xué)生只在教室里背書,卻從不讓他們走出校門面對真實(shí)世界的復(fù)雜情況。而Meta的研究團(tuán)隊(duì)意識到了這個(gè)問題:現(xiàn)有的AI訓(xùn)練環(huán)境太過簡化,無法真正反映現(xiàn)實(shí)世界的復(fù)雜性。
現(xiàn)實(shí)生活中,當(dāng)你讓AI助手幫你安排一個(gè)會議時(shí),可能會遇到各種突發(fā)情況:會議室突然被占用、參會者臨時(shí)有事、系統(tǒng)出現(xiàn)故障等等。但目前大多數(shù)AI訓(xùn)練環(huán)境都是"理想化"的,就像一個(gè)永遠(yuǎn)不會出現(xiàn)意外的完美世界。這種環(huán)境下訓(xùn)練出來的AI,一旦面對真實(shí)世界的不確定性,往往會表現(xiàn)得手足無措。
正是基于這樣的思考,Meta的研究團(tuán)隊(duì)開發(fā)了ARE平臺。這個(gè)平臺最大的特點(diǎn)就是"真實(shí)"——它創(chuàng)造了一個(gè)幾乎和真實(shí)世界一樣復(fù)雜多變的虛擬環(huán)境。在這個(gè)環(huán)境中,AI智能體需要像真人一樣處理各種突發(fā)情況,學(xué)會在不確定性中做出正確決策。
ARE平臺就像是為AI智能體建造的一個(gè)超級逼真的"虛擬城市"。在這個(gè)城市里,時(shí)間會流逝,事件會發(fā)生,環(huán)境會變化,就像真實(shí)世界一樣。不同于以往那些靜態(tài)的訓(xùn)練環(huán)境,ARE中的一切都是動態(tài)的、異步的。
傳統(tǒng)的AI訓(xùn)練環(huán)境就像一個(gè)暫停的游戲世界——只有當(dāng)AI做出行動時(shí),世界才會響應(yīng),其他時(shí)候一切都靜止不動。但在ARE中,即使AI在"思考",世界也在繼續(xù)運(yùn)轉(zhuǎn)。朋友可能會發(fā)來消息,會議時(shí)間可能會更改,新的郵件可能會到達(dá)。這種設(shè)計(jì)讓AI必須學(xué)會在動態(tài)變化的環(huán)境中保持敏銳的反應(yīng)能力。
ARE平臺的核心理念是"一切都是事件"。在這個(gè)系統(tǒng)中,無論是用戶發(fā)送一條消息,還是AI執(zhí)行一個(gè)操作,甚至是系統(tǒng)自動更新某個(gè)狀態(tài),都被視為一個(gè)"事件"。這些事件按照時(shí)間順序排列,形成了一個(gè)完整的事件鏈。這種設(shè)計(jì)讓研究人員可以精確地追蹤和分析AI的每一個(gè)決策過程,就像觀看一部慢鏡頭回放的電影一樣。
平臺中包含了各種"應(yīng)用程序",比如郵件、消息、日歷、聯(lián)系人等,就像真實(shí)手機(jī)中的各種App一樣。每個(gè)應(yīng)用都有自己的狀態(tài)和數(shù)據(jù),AI可以通過調(diào)用不同的"工具"來與這些應(yīng)用交互。比如,AI可以調(diào)用"發(fā)送郵件"工具來回復(fù)郵件,或者調(diào)用"查看日歷"工具來檢查日程安排。
更有趣的是,ARE還支持"通知系統(tǒng)"。就像你的手機(jī)會在收到新消息時(shí)推送通知一樣,ARE中的AI也會收到各種通知。但這里有個(gè)巧妙的設(shè)計(jì):研究人員可以調(diào)節(jié)通知的"噪音水平"。在低噪音模式下,AI只會收到最重要的通知;在高噪音模式下,AI會收到大量各種各樣的通知,包括一些不相關(guān)的信息。這樣的設(shè)計(jì)讓AI必須學(xué)會在信息洪流中篩選出真正重要的內(nèi)容。
基于ARE平臺,研究團(tuán)隊(duì)創(chuàng)建了第一個(gè)具體的訓(xùn)練環(huán)境——Mobile。顧名思義,這是一個(gè)模擬手機(jī)使用場景的虛擬環(huán)境。為什么選擇手機(jī)環(huán)境呢?因?yàn)楝F(xiàn)代人的大部分?jǐn)?shù)字生活都發(fā)生在手機(jī)上,從發(fā)消息聊天到處理工作郵件,從網(wǎng)上購物到叫車出行,手機(jī)幾乎承載了我們?nèi)粘I畹姆椒矫婷妗?/p>
Mobile環(huán)境包含了12個(gè)不同的應(yīng)用,涵蓋了現(xiàn)代人手機(jī)使用的主要場景。有用于溝通的消息和郵件應(yīng)用,有用于時(shí)間管理的日歷應(yīng)用,有用于社交的聯(lián)系人應(yīng)用,還有用于生活服務(wù)的打車、購物、租房等應(yīng)用。每個(gè)應(yīng)用都有完整的功能和真實(shí)的數(shù)據(jù)。
為了讓這個(gè)虛擬世界更加逼真,研究團(tuán)隊(duì)為每個(gè)環(huán)境創(chuàng)造了完整的"人物設(shè)定"和"背景故事"。比如,一個(gè)環(huán)境可能圍繞一位退休的法國物理教授展開,另一個(gè)環(huán)境可能以一位中國職業(yè)運(yùn)動員為主角。每個(gè)環(huán)境都有大約40萬個(gè)詞匯的原始內(nèi)容,包括聯(lián)系人信息、歷史消息記錄、郵件往來、日程安排等等。這些內(nèi)容不是隨機(jī)生成的,而是經(jīng)過精心設(shè)計(jì),確保各個(gè)應(yīng)用之間的數(shù)據(jù)是相互關(guān)聯(lián)、邏輯一致的。
在Mobile環(huán)境中,AI需要處理的不再是簡單的單輪對話,而是復(fù)雜的多輪交互場景。比如,用戶可能先讓AI幫忙安排一個(gè)會議,然后在會議安排好后又要求修改時(shí)間,接著可能還會要求邀請額外的參會者。在這個(gè)過程中,環(huán)境中的其他"角色"也會有自己的行為,比如被邀請的人可能會回復(fù)說時(shí)間不合適,或者會議室可能突然被其他人預(yù)訂了。
基于ARE平臺和Mobile環(huán)境,研究團(tuán)隊(duì)開發(fā)了Gaia2基準(zhǔn)測試。這個(gè)測試包含了1120個(gè)精心設(shè)計(jì)的場景,每個(gè)場景都是一個(gè)完整的"小故事",需要AI智能體運(yùn)用多種能力來完成任務(wù)。
Gaia2的設(shè)計(jì)理念是評估AI在真實(shí)世界中需要具備的核心能力。研究團(tuán)隊(duì)識別出了七個(gè)關(guān)鍵能力領(lǐng)域,每個(gè)領(lǐng)域都對應(yīng)著現(xiàn)實(shí)生活中的實(shí)際需求。
搜索能力測試AI是否能夠從多個(gè)信息源中收集和整合信息。比如,系統(tǒng)可能會問"我的朋友們大多住在哪個(gè)城市?"這個(gè)看似簡單的問題實(shí)際上需要AI查看聯(lián)系人信息,檢查聊天記錄來確定誰是真正的朋友,然后統(tǒng)計(jì)不同城市的人數(shù)。這就像讓AI成為一個(gè)細(xì)心的調(diào)查員,需要從各種線索中拼湊出完整的答案。
執(zhí)行能力測試AI是否能夠正確地執(zhí)行一系列操作。比如,"將所有24歲及以下的聯(lián)系人年齡增加一歲"。這個(gè)任務(wù)需要AI先篩選出符合條件的聯(lián)系人,然后逐一更新他們的信息。這考驗(yàn)的是AI的操作精確性和邏輯執(zhí)行能力。
適應(yīng)能力是Gaia2的一個(gè)重要?jiǎng)?chuàng)新點(diǎn)。在這類測試中,環(huán)境會在AI執(zhí)行任務(wù)的過程中發(fā)生變化,AI需要根據(jù)新情況調(diào)整自己的策略。比如,AI正在幫用戶安排看房,但朋友突然回復(fù)說想看另一套房子,AI就需要靈活調(diào)整計(jì)劃。這就像在做菜過程中發(fā)現(xiàn)某個(gè)食材用完了,需要臨時(shí)調(diào)整菜譜一樣。
時(shí)間管理能力測試AI是否能夠處理與時(shí)間相關(guān)的任務(wù)。比如,"給今天要見面的同事發(fā)消息詢問誰負(fù)責(zé)叫車,如果3分鐘內(nèi)沒有回復(fù)就自動叫車"。這種任務(wù)需要AI不僅要理解時(shí)間概念,還要能夠在特定時(shí)間點(diǎn)主動采取行動。
處理歧義的能力測試AI面對不明確或矛盾指令時(shí)的反應(yīng)。比如,用戶要求"每天下午6點(diǎn)安排瑜伽課,從10月16日到21日",但AI發(fā)現(xiàn)其中某些時(shí)間段已經(jīng)有其他安排。一個(gè)聰明的AI應(yīng)該主動詢問用戶如何處理沖突,而不是盲目執(zhí)行可能錯(cuò)誤的操作。
智能體協(xié)作能力是Gaia2的另一個(gè)亮點(diǎn)。在這類測試中,某些應(yīng)用被替換成了獨(dú)立的AI智能體,主要的AI需要與這些"同事"協(xié)作完成任務(wù)。這就像在一個(gè)團(tuán)隊(duì)中工作,每個(gè)人都有自己的專長,需要通過溝通協(xié)調(diào)來完成共同目標(biāo)。
抗干擾能力測試AI在嘈雜環(huán)境中的表現(xiàn)。系統(tǒng)會故意引入各種干擾,比如工具偶爾失效、收到無關(guān)的消息等等。這模擬了現(xiàn)實(shí)世界中經(jīng)常遇到的各種意外情況。
為了確保測試結(jié)果的可靠性,研究團(tuán)隊(duì)開發(fā)了一套精密的驗(yàn)證系統(tǒng)。這個(gè)系統(tǒng)的工作原理就像一個(gè)嚴(yán)格的考官,不僅要檢查AI的最終答案是否正確,還要檢查AI的整個(gè)解題過程是否合理。
驗(yàn)證系統(tǒng)采用了"標(biāo)準(zhǔn)答案對比"的方法。對于每個(gè)測試場景,人類專家會事先標(biāo)注出完成任務(wù)所需的標(biāo)準(zhǔn)操作序列。然后,系統(tǒng)會將AI的實(shí)際操作與這個(gè)標(biāo)準(zhǔn)序列進(jìn)行詳細(xì)比較。這種比較不是簡單的文本匹配,而是智能的語義理解。
比如,如果標(biāo)準(zhǔn)答案要求發(fā)送一封內(nèi)容為"會議改到明天下午3點(diǎn)"的郵件,而AI發(fā)送的是"明天下午3點(diǎn)開會",驗(yàn)證系統(tǒng)會識別出這兩個(gè)表達(dá)在語義上是等價(jià)的,因此會判定為正確。但如果AI發(fā)送的是"明天上午3點(diǎn)開會",系統(tǒng)就會發(fā)現(xiàn)時(shí)間不對,判定為錯(cuò)誤。
驗(yàn)證系統(tǒng)還會檢查操作的時(shí)序關(guān)系。比如,如果任務(wù)要求先查看日歷再安排會議,而AI卻反過來操作了,即使最終結(jié)果正確,系統(tǒng)也會指出流程上的問題。這種嚴(yán)格的驗(yàn)證確保了AI不僅要做對事情,還要用對方法。
為了驗(yàn)證這套驗(yàn)證系統(tǒng)本身的準(zhǔn)確性,研究團(tuán)隊(duì)讓人類專家手動標(biāo)注了450個(gè)AI執(zhí)行軌跡,然后比較人類判斷和自動驗(yàn)證系統(tǒng)的判斷結(jié)果。結(jié)果顯示,自動驗(yàn)證系統(tǒng)的準(zhǔn)確率達(dá)到了98%,遠(yuǎn)高于簡單的基線方法。
研究團(tuán)隊(duì)使用Gaia2對當(dāng)前最先進(jìn)的AI模型進(jìn)行了全面測試,結(jié)果既令人鼓舞又發(fā)人深省。
在整體表現(xiàn)上,最強(qiáng)的模型GPT-5(高推理模式)達(dá)到了42.1%的成功率,這意味著它能夠正確完成大約四成的任務(wù)。Claude-4 Sonnet緊隨其后,達(dá)到34.8%。這些結(jié)果表明,即使是最先進(jìn)的AI模型,在面對復(fù)雜的現(xiàn)實(shí)世界任務(wù)時(shí)仍然有很大的提升空間。
更有趣的是不同能力維度的表現(xiàn)差異。在搜索和執(zhí)行這兩個(gè)相對基礎(chǔ)的能力上,多數(shù)先進(jìn)模型都表現(xiàn)不錯(cuò),成功率普遍超過50%。這說明當(dāng)前的AI已經(jīng)比較擅長信息檢索和基本操作執(zhí)行。
但在更高級的能力上,AI的表現(xiàn)就顯得力不從心了。在處理歧義的任務(wù)中,即使是最強(qiáng)的GPT-5也只有51.9%的成功率,其他模型更是大多低于30%。這反映了一個(gè)重要問題:當(dāng)前的AI往往傾向于"想當(dāng)然"地執(zhí)行任務(wù),而不是在遇到不確定情況時(shí)主動尋求澄清。
時(shí)間管理能力是所有模型的普遍弱項(xiàng)。大多數(shù)模型在這個(gè)維度上的成功率都接近于零,只有少數(shù)幾個(gè)模型能達(dá)到5-8%的成功率。這說明讓AI理解和處理時(shí)間相關(guān)的任務(wù)仍然是一個(gè)巨大的挑戰(zhàn)。
在智能體協(xié)作方面,有一個(gè)有趣的發(fā)現(xiàn):相對較弱的模型在協(xié)作環(huán)境中的表現(xiàn)提升更明顯。這可能是因?yàn)閰f(xié)作可以讓不同的AI發(fā)揮各自的優(yōu)勢,弱模型通過與其他智能體的交流能夠獲得額外的信息和指導(dǎo)。
成本效益分析顯示了不同模型之間的權(quán)衡關(guān)系。GPT-5的高推理模式雖然性能最好,但成本也最高,執(zhí)行時(shí)間也最長。相比之下,一些模型雖然性能略低,但在成本和速度上有明顯優(yōu)勢。這為實(shí)際應(yīng)用提供了重要的參考:根據(jù)具體需求選擇合適的模型,而不是一味追求最高性能。
研究還發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:隨著預(yù)算增加,所有模型的性能提升都會逐漸放緩,最終趨于平穩(wěn)。這表明僅僅增加計(jì)算資源并不能無限提升AI的能力,需要在模型架構(gòu)和訓(xùn)練方法上尋求突破。
ARE平臺最重要的技術(shù)創(chuàng)新之一是引入了異步交互機(jī)制。在傳統(tǒng)的AI測試環(huán)境中,AI和環(huán)境之間的交互是同步的——AI執(zhí)行一個(gè)動作,環(huán)境響應(yīng),然后等待AI的下一個(gè)動作。這種模式雖然簡單,但與現(xiàn)實(shí)世界的交互方式相去甚遠(yuǎn)。
在現(xiàn)實(shí)生活中,世界不會因?yàn)槟阍谒伎季屯O聛淼饶?。?dāng)你在考慮如何回復(fù)一封重要郵件時(shí),可能會有新的郵件到達(dá),朋友可能會發(fā)來緊急消息,會議時(shí)間可能會發(fā)生變更。ARE平臺通過異步機(jī)制模擬了這種現(xiàn)實(shí)情況。
這種異步設(shè)計(jì)帶來了全新的挑戰(zhàn)。AI不僅要能夠處理當(dāng)前的任務(wù),還要能夠同時(shí)監(jiān)控環(huán)境變化,在必要時(shí)調(diào)整策略。比如,AI正在幫用戶查找某個(gè)信息,但突然收到一條緊急消息,AI就需要判斷是否應(yīng)該暫停當(dāng)前任務(wù)去處理緊急情況。
異步交互還讓"主動性"成為了AI的一個(gè)重要能力。在同步環(huán)境中,AI只需要被動響應(yīng);但在異步環(huán)境中,AI有時(shí)需要主動采取行動。比如,在時(shí)間管理任務(wù)中,AI需要在特定時(shí)間點(diǎn)主動發(fā)送提醒或執(zhí)行預(yù)定操作,而不是等待用戶的指示。
Gaia2中的智能體協(xié)作測試開創(chuàng)了一個(gè)全新的評估維度。在這種模式下,原本由單一AI直接調(diào)用的應(yīng)用工具被替換成了獨(dú)立的AI智能體。主要的AI不能直接操作這些應(yīng)用,而必須通過與專門的"應(yīng)用智能體"溝通來完成任務(wù)。
這種設(shè)計(jì)反映了未來AI生態(tài)系統(tǒng)的一個(gè)重要趨勢:不是由一個(gè)超級AI處理所有事情,而是由多個(gè)專門化的AI協(xié)作完成復(fù)雜任務(wù)。每個(gè)AI都有自己的專長領(lǐng)域,通過相互配合來實(shí)現(xiàn)更好的整體效果。
在協(xié)作過程中,AI需要學(xué)會很多新技能。首先是任務(wù)分解能力——如何將復(fù)雜任務(wù)拆分成可以分配給不同智能體的子任務(wù)。其次是溝通協(xié)調(diào)能力——如何清晰地向其他智能體傳達(dá)需求,如何理解其他智能體的反饋。最后是整合能力——如何將來自不同智能體的信息整合成完整的解決方案。
實(shí)驗(yàn)結(jié)果顯示,協(xié)作模式對不同能力水平的AI產(chǎn)生了不同的影響。對于能力相對較弱的AI,協(xié)作往往能帶來顯著的性能提升,因?yàn)樗鼈兛梢詮钠渌悄荏w那里獲得幫助和指導(dǎo)。但對于能力已經(jīng)很強(qiáng)的AI,協(xié)作的收益就相對有限,有時(shí)甚至可能因?yàn)閰f(xié)調(diào)成本而降低效率。
現(xiàn)實(shí)世界充滿了各種不確定性和干擾,Gaia2通過"噪音"測試來評估AI在這種環(huán)境中的魯棒性。這些噪音包括工具偶爾失效、收到無關(guān)信息、環(huán)境狀態(tài)隨機(jī)變化等等。
工具失效是最直接的一種干擾。在現(xiàn)實(shí)中,網(wǎng)絡(luò)可能會斷開,服務(wù)器可能會宕機(jī),應(yīng)用可能會崩潰。Gaia2通過設(shè)置10%的工具失效概率來模擬這種情況。當(dāng)AI調(diào)用某個(gè)工具時(shí),有一定概率會收到錯(cuò)誤信息或無響應(yīng)。這要求AI具備錯(cuò)誤處理和重試機(jī)制。
信息噪音是另一種重要的干擾形式。在執(zhí)行任務(wù)過程中,AI會收到各種無關(guān)的通知和消息,就像現(xiàn)實(shí)生活中我們經(jīng)常被各種推送打斷一樣。AI需要學(xué)會從這些噪音中篩選出真正重要的信息,保持對主要任務(wù)的專注。
環(huán)境動態(tài)變化增加了任務(wù)的復(fù)雜性。比如,AI正在幫用戶預(yù)訂餐廳,但餐廳的可預(yù)訂時(shí)間突然發(fā)生了變化;或者AI正在安排會議,但會議室突然被其他人占用了。這些變化要求AI具備實(shí)時(shí)適應(yīng)能力。
實(shí)驗(yàn)結(jié)果顯示,噪音對所有模型的性能都產(chǎn)生了顯著影響。即使是最強(qiáng)的模型,在噪音環(huán)境中的成功率也會下降10-20個(gè)百分點(diǎn)。這說明當(dāng)前的AI在處理不確定性方面還有很大的改進(jìn)空間。
除了性能評估,研究團(tuán)隊(duì)還特別關(guān)注了不同模型的成本效益比。畢竟,在實(shí)際應(yīng)用中,性能并不是唯一的考量因素,成本和效率同樣重要。
研究發(fā)現(xiàn),不同模型在成本、性能和速度之間存在著復(fù)雜的權(quán)衡關(guān)系。GPT-5的高推理模式雖然性能最佳,但單次任務(wù)的成本可能是其他模型的數(shù)倍,執(zhí)行時(shí)間也相對較長。對于那些對實(shí)時(shí)性要求較高的應(yīng)用場景,這種模式可能并不適用。
相比之下,一些中等性能的模型在成本效益上表現(xiàn)更優(yōu)。它們雖然在復(fù)雜任務(wù)上的成功率略低,但在簡單任務(wù)上的表現(xiàn)足夠好,而且成本低廉、響應(yīng)迅速。對于大規(guī)模部署的應(yīng)用來說,這種模型可能是更好的選擇。
研究還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:增加計(jì)算預(yù)算對性能的提升效果會逐漸遞減。當(dāng)預(yù)算從0.01美元增加到0.1美元時(shí),大多數(shù)模型的性能都有明顯提升;但當(dāng)預(yù)算進(jìn)一步增加到1美元或10美元時(shí),性能提升就變得很有限了。這說明簡單地投入更多計(jì)算資源并不能無限提升AI的能力。
Gaia2的實(shí)驗(yàn)結(jié)果揭示了當(dāng)前AI技術(shù)的現(xiàn)狀:在某些方面已經(jīng)相當(dāng)出色,但在其他方面仍有巨大的提升空間。這為未來的研究方向提供了重要指引。
首先,時(shí)間理解和管理能力是一個(gè)亟需突破的領(lǐng)域。當(dāng)前幾乎所有模型在這方面的表現(xiàn)都很差,但時(shí)間管理卻是現(xiàn)實(shí)應(yīng)用中的基本需求。未來的AI系統(tǒng)需要更好地理解時(shí)間概念,學(xué)會在時(shí)間約束下做出決策。
其次,處理歧義和不確定性的能力需要大幅提升。現(xiàn)實(shí)世界充滿了模糊和矛盾的信息,AI需要學(xué)會在這種情況下尋求澄清,而不是盲目執(zhí)行可能錯(cuò)誤的操作。這可能需要在訓(xùn)練過程中引入更多的交互式學(xué)習(xí)機(jī)制。
第三,多智能體協(xié)作將成為未來AI系統(tǒng)的重要特征。隨著AI能力的不斷提升,我們很可能會看到由多個(gè)專門化AI組成的協(xié)作網(wǎng)絡(luò),而不是單一的超級AI。這要求我們開發(fā)更好的協(xié)調(diào)機(jī)制和通信協(xié)議。
第四,魯棒性和抗干擾能力需要持續(xù)改進(jìn)。現(xiàn)實(shí)世界的不確定性永遠(yuǎn)存在,AI系統(tǒng)必須學(xué)會在這種環(huán)境中穩(wěn)定運(yùn)行。這可能需要在訓(xùn)練數(shù)據(jù)中引入更多的噪音和變化。
ARE平臺的開源發(fā)布為整個(gè)AI研究社區(qū)提供了一個(gè)強(qiáng)大的工具。研究人員可以基于這個(gè)平臺創(chuàng)建新的測試環(huán)境,探索不同的AI能力,推動整個(gè)領(lǐng)域的發(fā)展。這種開放合作的模式對于解決AI面臨的復(fù)雜挑戰(zhàn)至關(guān)重要。
說到底,Gaia2不僅僅是一個(gè)測試基準(zhǔn),更是一面鏡子,讓我們看清了當(dāng)前AI技術(shù)的真實(shí)水平。它告訴我們,雖然AI在某些方面已經(jīng)超越了人類,但要真正實(shí)現(xiàn)通用人工智能,我們還有很長的路要走。但正是這種清醒的認(rèn)識,為我們指明了前進(jìn)的方向。
通過ARE平臺和Gaia2基準(zhǔn)測試,我們不僅能夠更準(zhǔn)確地評估AI的能力,還能夠發(fā)現(xiàn)其局限性,從而推動技術(shù)的持續(xù)改進(jìn)。這項(xiàng)研究為AI領(lǐng)域提供了寶貴的工具和洞察,相信會對未來的AI發(fā)展產(chǎn)生深遠(yuǎn)影響。對于那些希望深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以通過論文編號arXiv:2509.17158v1查詢完整的研究報(bào)告。
Q&A
Q1:ARE平臺和傳統(tǒng)AI訓(xùn)練環(huán)境有什么區(qū)別?
A:ARE平臺最大的區(qū)別是引入了異步交互機(jī)制。傳統(tǒng)環(huán)境中AI執(zhí)行動作時(shí)世界會暫停等待,而ARE中時(shí)間會持續(xù)流逝,環(huán)境會不斷變化,就像真實(shí)世界一樣。這讓AI必須學(xué)會在動態(tài)變化的環(huán)境中保持敏銳反應(yīng),處理突發(fā)情況。
Q2:Gaia2基準(zhǔn)測試主要評估AI的哪些能力?
A:Gaia2評估七個(gè)核心能力:搜索能力(信息收集整合)、執(zhí)行能力(操作精確性)、適應(yīng)能力(應(yīng)對環(huán)境變化)、時(shí)間管理能力、處理歧義能力、智能體協(xié)作能力和抗干擾能力。這些能力都是AI在現(xiàn)實(shí)世界應(yīng)用中必需的基本技能。
Q3:目前最先進(jìn)的AI模型在Gaia2上表現(xiàn)如何?
A:最強(qiáng)的GPT-5高推理模式成功率為42.1%,Claude-4 Sonnet為34.8%。雖然在搜索和執(zhí)行等基礎(chǔ)能力上表現(xiàn)不錯(cuò),但在時(shí)間管理、處理歧義等高級能力上普遍表現(xiàn)較差,說明當(dāng)前AI距離真正的通用智能還有很大差距。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。