這項(xiàng)由OPPO AI Agent Team開發(fā)的革命性研究于2025年8月發(fā)表,論文編號為arXiv:2508.13167v1,為人工智能領(lǐng)域帶來了一個(gè)重大突破。傳統(tǒng)的AI智能體系統(tǒng)就像一個(gè)需要多人協(xié)作的復(fù)雜工程項(xiàng)目,每個(gè)專家負(fù)責(zé)不同的任務(wù),但他們之間的溝通協(xié)調(diào)往往效率低下,成本高昂。OPPO的研究團(tuán)隊(duì)提出了一個(gè)全新的解決方案:Chain-of-Agents(智能體鏈),這就像是把所有專家的技能都融合到一個(gè)超級專家身上,讓他能夠獨(dú)自完成原本需要團(tuán)隊(duì)協(xié)作的復(fù)雜任務(wù)。
當(dāng)前的多智能體系統(tǒng)雖然功能強(qiáng)大,但面臨著四個(gè)根本性問題。首先,它們需要大量的計(jì)算資源,就像維持一個(gè)龐大的專家團(tuán)隊(duì)需要支付高昂的薪水一樣。其次,這些系統(tǒng)很難適應(yīng)新的任務(wù)領(lǐng)域,每次遇到新問題都需要重新設(shè)計(jì)和調(diào)整,就像每次換工作都要重新組建團(tuán)隊(duì)。第三,它們無法通過數(shù)據(jù)學(xué)習(xí)來改進(jìn)自己,就像一個(gè)無法從經(jīng)驗(yàn)中成長的團(tuán)隊(duì)。最后,這些系統(tǒng)底層的大語言模型并不是專門為多智能體協(xié)作而訓(xùn)練的,而是通過復(fù)雜的提示工程勉強(qiáng)實(shí)現(xiàn)協(xié)作功能。
傳統(tǒng)的工具集成推理方法雖然有所改進(jìn),但仍然局限于簡單的"思考-行動-觀察"模式,就像一個(gè)只會按固定流程工作的機(jī)器人。而真正的多智能體系統(tǒng)展現(xiàn)出的協(xié)作能力遠(yuǎn)超這種簡單模式,但卻無法實(shí)現(xiàn)端到端的訓(xùn)練優(yōu)化。OPPO的研究團(tuán)隊(duì)敏銳地發(fā)現(xiàn)了這個(gè)gap,并提出了Chain-of-Agents這個(gè)突破性概念。
Chain-of-Agents的核心思想是讓一個(gè)大語言模型內(nèi)在地模擬多智能體系統(tǒng)的協(xié)作過程。這就像是培養(yǎng)一個(gè)全才,讓他能夠在需要時(shí)切換不同的專業(yè)角色,而不是真的雇傭多個(gè)專家。在這個(gè)系統(tǒng)中,模型會動態(tài)激活不同的"智能體角色",包括負(fù)責(zé)高層推理的思考智能體、負(fù)責(zé)任務(wù)分解的規(guī)劃智能體、負(fù)責(zé)自我反省的反思智能體,以及各種工具智能體如搜索智能體和代碼生成智能體。這種設(shè)計(jì)既保留了多智能體協(xié)作的優(yōu)勢,又避免了傳統(tǒng)系統(tǒng)的效率問題。
為了訓(xùn)練這樣的模型,研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的訓(xùn)練框架。首先,他們使用多智能體蒸餾技術(shù),這就像是讓新手通過觀察專家團(tuán)隊(duì)的工作流程來學(xué)習(xí)協(xié)作技能。他們記錄了先進(jìn)多智能體系統(tǒng)OAgents的執(zhí)行過程,將其轉(zhuǎn)換為適合單模型學(xué)習(xí)的Chain-of-Agents軌跡。這個(gè)過程包含了嚴(yán)格的質(zhì)量篩選機(jī)制,確保只有高質(zhì)量、非平凡的樣本被用于訓(xùn)練。
在有監(jiān)督微調(diào)的基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步使用了智能體強(qiáng)化學(xué)習(xí)來優(yōu)化模型性能。他們設(shè)計(jì)了巧妙的數(shù)據(jù)采樣策略,專門選擇那些真正需要工具協(xié)作才能解決的困難問題進(jìn)行訓(xùn)練。對于網(wǎng)絡(luò)智能體任務(wù),他們使用了基于大語言模型判斷的獎勵函數(shù);對于代碼智能體任務(wù),則采用了結(jié)合答案正確性和格式規(guī)范性的復(fù)合獎勵函數(shù)。
研究團(tuán)隊(duì)將訓(xùn)練出的模型稱為Agent Foundation Models(AFM),并在近20個(gè)不同的智能體基準(zhǔn)測試中進(jìn)行了全面評估。結(jié)果顯示,AFM在各個(gè)領(lǐng)域都建立了新的技術(shù)水準(zhǔn)。在網(wǎng)絡(luò)智能體任務(wù)中,32B參數(shù)的AFM在GAIA基準(zhǔn)上達(dá)到了55.3%的成功率,在BrowseComp上達(dá)到11.1%,在HLE上達(dá)到18.0%。在代碼生成任務(wù)中,AFM在LiveCodeBench v5上達(dá)到47.9%,在CodeContests上達(dá)到32.7%。在數(shù)學(xué)推理方面,AFM在挑戰(zhàn)性的AIME2025基準(zhǔn)上達(dá)到59.8%的解題率,比之前最好的工具集成推理方法提升了超過10.5%。
更令人印象深刻的是,AFM在保持競爭性能的同時(shí),將推理成本降低了84.6%。這就像是用一個(gè)超級專家替代了一整個(gè)專家團(tuán)隊(duì),不僅效果不差,成本還大幅降低。研究還發(fā)現(xiàn),AFM具有出色的泛化能力,即使在訓(xùn)練時(shí)沒有見過某些工具,也能在推理時(shí)正確使用它們,這展現(xiàn)了真正的智能體推理能力。
在測試時(shí)擴(kuò)展實(shí)驗(yàn)中,AFM展現(xiàn)了優(yōu)秀的可擴(kuò)展性。通過簡單的"三選一最佳"策略,AFM在GAIA上的性能從55.3%提升到69.9%,在HLE上從18.0%提升到33.2%。這種提升幅度遠(yuǎn)超其他模型,說明AFM的核心架構(gòu)更好地支持了測試時(shí)的性能優(yōu)化。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破。它為AI智能體的發(fā)展指出了一條全新道路:與其不斷增加系統(tǒng)復(fù)雜度,不如從根本上改變模型的訓(xùn)練方式,讓單個(gè)模型具備多智能體協(xié)作的內(nèi)在能力。這種方法不僅更加高效,也為未來的智能體應(yīng)用開辟了更廣闊的可能性。
更重要的是,OPPO團(tuán)隊(duì)將所有研究成果完全開源,包括模型權(quán)重、訓(xùn)練代碼、評估代碼和訓(xùn)練數(shù)據(jù)。這種開放的態(tài)度為整個(gè)AI社區(qū)的發(fā)展做出了重要貢獻(xiàn),為未來在智能體模型和智能體強(qiáng)化學(xué)習(xí)方面的研究提供了堅(jiān)實(shí)的起點(diǎn)。
對于普通用戶而言,這項(xiàng)研究意味著未來的AI助手將變得更加智能和高效。無論是幫助處理復(fù)雜的信息搜索任務(wù),還是協(xié)助解決編程和數(shù)學(xué)問題,這種新型的智能體模型都能提供更好的用戶體驗(yàn)。而對于開發(fā)者來說,Chain-of-Agents范式提供了一種全新的構(gòu)建智能應(yīng)用的方法,既保持了強(qiáng)大的功能,又大大降低了部署成本。
Q&A
Q1:Chain-of-Agents和傳統(tǒng)多智能體系統(tǒng)有什么區(qū)別?
A:Chain-of-Agents是在單個(gè)大語言模型內(nèi)部模擬多智能體協(xié)作,而傳統(tǒng)多智能體系統(tǒng)需要多個(gè)獨(dú)立的模型相互通信。這就像一個(gè)全才演員扮演多個(gè)角色,而不是真的雇傭多個(gè)演員。Chain-of-Agents效率更高,成本更低,還能通過訓(xùn)練不斷改進(jìn)。
Q2:Agent Foundation Models在實(shí)際應(yīng)用中表現(xiàn)如何?
A:AFM在多個(gè)基準(zhǔn)測試中都創(chuàng)造了新紀(jì)錄。在網(wǎng)絡(luò)搜索任務(wù)上,32B參數(shù)的AFM在GAIA基準(zhǔn)達(dá)到55.3%成功率,在數(shù)學(xué)推理的AIME2025基準(zhǔn)上達(dá)到59.8%解題率,比之前最好方法提升了10.5%以上,同時(shí)推理成本降低了84.6%。
Q3:這項(xiàng)研究對普通用戶和開發(fā)者有什么意義?
A:對普通用戶來說,未來的AI助手將更智能高效,能更好地處理復(fù)雜任務(wù)如信息搜索、編程協(xié)助等。對開發(fā)者而言,Chain-of-Agents提供了構(gòu)建智能應(yīng)用的新方法,既保持強(qiáng)大功能又大幅降低部署成本。而且OPPO團(tuán)隊(duì)完全開源了所有成果,為AI社區(qū)發(fā)展做出重要貢獻(xiàn)。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。