av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 OPPO研究團(tuán)隊(duì)重新定義AI智能體:一個(gè)模型完成多智能體協(xié)作的Chain-of-Agents革命

OPPO研究團(tuán)隊(duì)重新定義AI智能體:一個(gè)模型完成多智能體協(xié)作的Chain-of-Agents革命

2025-10-10 09:39
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-10 09:39 ? 科技行者

這項(xiàng)由OPPO AI Agent Team開發(fā)的革命性研究于2025年8月發(fā)表,論文編號為arXiv:2508.13167v1,為人工智能領(lǐng)域帶來了一個(gè)重大突破。傳統(tǒng)的AI智能體系統(tǒng)就像一個(gè)需要多人協(xié)作的復(fù)雜工程項(xiàng)目,每個(gè)專家負(fù)責(zé)不同的任務(wù),但他們之間的溝通協(xié)調(diào)往往效率低下,成本高昂。OPPO的研究團(tuán)隊(duì)提出了一個(gè)全新的解決方案:Chain-of-Agents(智能體鏈),這就像是把所有專家的技能都融合到一個(gè)超級專家身上,讓他能夠獨(dú)自完成原本需要團(tuán)隊(duì)協(xié)作的復(fù)雜任務(wù)。

當(dāng)前的多智能體系統(tǒng)雖然功能強(qiáng)大,但面臨著四個(gè)根本性問題。首先,它們需要大量的計(jì)算資源,就像維持一個(gè)龐大的專家團(tuán)隊(duì)需要支付高昂的薪水一樣。其次,這些系統(tǒng)很難適應(yīng)新的任務(wù)領(lǐng)域,每次遇到新問題都需要重新設(shè)計(jì)和調(diào)整,就像每次換工作都要重新組建團(tuán)隊(duì)。第三,它們無法通過數(shù)據(jù)學(xué)習(xí)來改進(jìn)自己,就像一個(gè)無法從經(jīng)驗(yàn)中成長的團(tuán)隊(duì)。最后,這些系統(tǒng)底層的大語言模型并不是專門為多智能體協(xié)作而訓(xùn)練的,而是通過復(fù)雜的提示工程勉強(qiáng)實(shí)現(xiàn)協(xié)作功能。

傳統(tǒng)的工具集成推理方法雖然有所改進(jìn),但仍然局限于簡單的"思考-行動-觀察"模式,就像一個(gè)只會按固定流程工作的機(jī)器人。而真正的多智能體系統(tǒng)展現(xiàn)出的協(xié)作能力遠(yuǎn)超這種簡單模式,但卻無法實(shí)現(xiàn)端到端的訓(xùn)練優(yōu)化。OPPO的研究團(tuán)隊(duì)敏銳地發(fā)現(xiàn)了這個(gè)gap,并提出了Chain-of-Agents這個(gè)突破性概念。

Chain-of-Agents的核心思想是讓一個(gè)大語言模型內(nèi)在地模擬多智能體系統(tǒng)的協(xié)作過程。這就像是培養(yǎng)一個(gè)全才,讓他能夠在需要時(shí)切換不同的專業(yè)角色,而不是真的雇傭多個(gè)專家。在這個(gè)系統(tǒng)中,模型會動態(tài)激活不同的"智能體角色",包括負(fù)責(zé)高層推理的思考智能體、負(fù)責(zé)任務(wù)分解的規(guī)劃智能體、負(fù)責(zé)自我反省的反思智能體,以及各種工具智能體如搜索智能體和代碼生成智能體。這種設(shè)計(jì)既保留了多智能體協(xié)作的優(yōu)勢,又避免了傳統(tǒng)系統(tǒng)的效率問題。

為了訓(xùn)練這樣的模型,研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的訓(xùn)練框架。首先,他們使用多智能體蒸餾技術(shù),這就像是讓新手通過觀察專家團(tuán)隊(duì)的工作流程來學(xué)習(xí)協(xié)作技能。他們記錄了先進(jìn)多智能體系統(tǒng)OAgents的執(zhí)行過程,將其轉(zhuǎn)換為適合單模型學(xué)習(xí)的Chain-of-Agents軌跡。這個(gè)過程包含了嚴(yán)格的質(zhì)量篩選機(jī)制,確保只有高質(zhì)量、非平凡的樣本被用于訓(xùn)練。

在有監(jiān)督微調(diào)的基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步使用了智能體強(qiáng)化學(xué)習(xí)來優(yōu)化模型性能。他們設(shè)計(jì)了巧妙的數(shù)據(jù)采樣策略,專門選擇那些真正需要工具協(xié)作才能解決的困難問題進(jìn)行訓(xùn)練。對于網(wǎng)絡(luò)智能體任務(wù),他們使用了基于大語言模型判斷的獎勵函數(shù);對于代碼智能體任務(wù),則采用了結(jié)合答案正確性和格式規(guī)范性的復(fù)合獎勵函數(shù)。

研究團(tuán)隊(duì)將訓(xùn)練出的模型稱為Agent Foundation Models(AFM),并在近20個(gè)不同的智能體基準(zhǔn)測試中進(jìn)行了全面評估。結(jié)果顯示,AFM在各個(gè)領(lǐng)域都建立了新的技術(shù)水準(zhǔn)。在網(wǎng)絡(luò)智能體任務(wù)中,32B參數(shù)的AFM在GAIA基準(zhǔn)上達(dá)到了55.3%的成功率,在BrowseComp上達(dá)到11.1%,在HLE上達(dá)到18.0%。在代碼生成任務(wù)中,AFM在LiveCodeBench v5上達(dá)到47.9%,在CodeContests上達(dá)到32.7%。在數(shù)學(xué)推理方面,AFM在挑戰(zhàn)性的AIME2025基準(zhǔn)上達(dá)到59.8%的解題率,比之前最好的工具集成推理方法提升了超過10.5%。

更令人印象深刻的是,AFM在保持競爭性能的同時(shí),將推理成本降低了84.6%。這就像是用一個(gè)超級專家替代了一整個(gè)專家團(tuán)隊(duì),不僅效果不差,成本還大幅降低。研究還發(fā)現(xiàn),AFM具有出色的泛化能力,即使在訓(xùn)練時(shí)沒有見過某些工具,也能在推理時(shí)正確使用它們,這展現(xiàn)了真正的智能體推理能力。

在測試時(shí)擴(kuò)展實(shí)驗(yàn)中,AFM展現(xiàn)了優(yōu)秀的可擴(kuò)展性。通過簡單的"三選一最佳"策略,AFM在GAIA上的性能從55.3%提升到69.9%,在HLE上從18.0%提升到33.2%。這種提升幅度遠(yuǎn)超其他模型,說明AFM的核心架構(gòu)更好地支持了測試時(shí)的性能優(yōu)化。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破。它為AI智能體的發(fā)展指出了一條全新道路:與其不斷增加系統(tǒng)復(fù)雜度,不如從根本上改變模型的訓(xùn)練方式,讓單個(gè)模型具備多智能體協(xié)作的內(nèi)在能力。這種方法不僅更加高效,也為未來的智能體應(yīng)用開辟了更廣闊的可能性。

更重要的是,OPPO團(tuán)隊(duì)將所有研究成果完全開源,包括模型權(quán)重、訓(xùn)練代碼、評估代碼和訓(xùn)練數(shù)據(jù)。這種開放的態(tài)度為整個(gè)AI社區(qū)的發(fā)展做出了重要貢獻(xiàn),為未來在智能體模型和智能體強(qiáng)化學(xué)習(xí)方面的研究提供了堅(jiān)實(shí)的起點(diǎn)。

對于普通用戶而言,這項(xiàng)研究意味著未來的AI助手將變得更加智能和高效。無論是幫助處理復(fù)雜的信息搜索任務(wù),還是協(xié)助解決編程和數(shù)學(xué)問題,這種新型的智能體模型都能提供更好的用戶體驗(yàn)。而對于開發(fā)者來說,Chain-of-Agents范式提供了一種全新的構(gòu)建智能應(yīng)用的方法,既保持了強(qiáng)大的功能,又大大降低了部署成本。

Q&A

Q1:Chain-of-Agents和傳統(tǒng)多智能體系統(tǒng)有什么區(qū)別?

A:Chain-of-Agents是在單個(gè)大語言模型內(nèi)部模擬多智能體協(xié)作,而傳統(tǒng)多智能體系統(tǒng)需要多個(gè)獨(dú)立的模型相互通信。這就像一個(gè)全才演員扮演多個(gè)角色,而不是真的雇傭多個(gè)演員。Chain-of-Agents效率更高,成本更低,還能通過訓(xùn)練不斷改進(jìn)。

Q2:Agent Foundation Models在實(shí)際應(yīng)用中表現(xiàn)如何?

A:AFM在多個(gè)基準(zhǔn)測試中都創(chuàng)造了新紀(jì)錄。在網(wǎng)絡(luò)搜索任務(wù)上,32B參數(shù)的AFM在GAIA基準(zhǔn)達(dá)到55.3%成功率,在數(shù)學(xué)推理的AIME2025基準(zhǔn)上達(dá)到59.8%解題率,比之前最好方法提升了10.5%以上,同時(shí)推理成本降低了84.6%。

Q3:這項(xiàng)研究對普通用戶和開發(fā)者有什么意義?

A:對普通用戶來說,未來的AI助手將更智能高效,能更好地處理復(fù)雜任務(wù)如信息搜索、編程協(xié)助等。對開發(fā)者而言,Chain-of-Agents提供了構(gòu)建智能應(yīng)用的新方法,既保持強(qiáng)大功能又大幅降低部署成本。而且OPPO團(tuán)隊(duì)完全開源了所有成果,為AI社區(qū)發(fā)展做出重要貢獻(xiàn)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-