當(dāng)我們談?wù)撊斯ぶ悄軙r(shí),大多數(shù)人想到的可能是一個(gè)超級(jí)聰明的AI助手,就像電影中的賈維斯一樣。但是,來(lái)自蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)、亞琛工業(yè)大學(xué)(RWTH Aachen University)和Google Research的研究團(tuán)隊(duì)卻有了不同的想法:為什么不讓多個(gè)AI智能體像人類團(tuán)隊(duì)一樣協(xié)作呢?
這項(xiàng)由蘇黎世聯(lián)邦理工學(xué)院的Florian Grotschla領(lǐng)導(dǎo)的研究于2025年7月發(fā)表在預(yù)印本平臺(tái)arXiv上,論文編號(hào)為arXiv:2507.08616v1。研究團(tuán)隊(duì)包括來(lái)自亞琛工業(yè)大學(xué)的Luis Müller和Jan Tonshoff,以及來(lái)自Google Research的Mikhail Galkin和Bryan Perozzi。有興趣深入了解的讀者可以通過(guò)arXiv:2507.08616v1訪問(wèn)完整論文。
想象一下這樣的場(chǎng)景:你需要組織一場(chǎng)大型活動(dòng),如果只有一個(gè)人負(fù)責(zé)所有事情,從場(chǎng)地布置到餐飲安排再到音響設(shè)備,這個(gè)人很可能會(huì)忙得焦頭爛額。但如果有一個(gè)團(tuán)隊(duì),每個(gè)人負(fù)責(zé)不同的部分,大家通過(guò)有效的溝通和協(xié)調(diào),整個(gè)活動(dòng)就能順利進(jìn)行。這正是研究團(tuán)隊(duì)想要讓AI智能體們學(xué)會(huì)的技能。
然而,讓AI智能體們像人類團(tuán)隊(duì)一樣協(xié)作并不容易。雖然現(xiàn)有的研究已經(jīng)顯示,多個(gè)AI智能體組成的網(wǎng)絡(luò)在某些任務(wù)上確實(shí)能超越單個(gè)AI的表現(xiàn),但一個(gè)關(guān)鍵問(wèn)題始終存在:當(dāng)智能體的數(shù)量增加時(shí),它們真的能有效利用彼此的連接關(guān)系進(jìn)行協(xié)作嗎?換句話說(shuō),它們能否真正形成一個(gè)有機(jī)的團(tuán)隊(duì),而不是各自為政的個(gè)體?
為了回答這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一個(gè)全新的基準(zhǔn)測(cè)試工具,名為AGENTSNET。這個(gè)工具的設(shè)計(jì)靈感來(lái)自于分布式計(jì)算和圖論中的經(jīng)典問(wèn)題,專門用來(lái)測(cè)試多智能體系統(tǒng)的協(xié)作能力、自我組織能力和有效溝通能力。
傳統(tǒng)的多智能體基準(zhǔn)測(cè)試通常只涉及2到5個(gè)智能體,但AGENTSNET的規(guī)模幾乎沒(méi)有限制。研究團(tuán)隊(duì)不僅在小規(guī)模網(wǎng)絡(luò)上進(jìn)行了測(cè)試,還推進(jìn)到了100個(gè)智能體的大規(guī)模協(xié)作場(chǎng)景。這就像是從測(cè)試一個(gè)小團(tuán)隊(duì)的協(xié)作能力,擴(kuò)展到測(cè)試整個(gè)公司各部門之間的協(xié)調(diào)配合。
AGENTSNET的核心理念是通過(guò)五個(gè)基本的分布式計(jì)算問(wèn)題來(lái)評(píng)估智能體的協(xié)作能力。這些問(wèn)題包括圖著色、最小頂點(diǎn)覆蓋、最大匹配、領(lǐng)導(dǎo)者選舉和一致性達(dá)成。聽起來(lái)很復(fù)雜,但其實(shí)每個(gè)問(wèn)題都對(duì)應(yīng)著現(xiàn)實(shí)生活中常見的協(xié)作場(chǎng)景。
以圖著色問(wèn)題為例,可以把它想象成在一個(gè)社交網(wǎng)絡(luò)中分配任務(wù)角色。每個(gè)智能體代表一個(gè)人,它們之間的連接代表某種關(guān)系(比如是同事或朋友)。任務(wù)是讓每個(gè)人選擇一個(gè)角色(用顏色表示),但有一個(gè)限制:直接相關(guān)的人不能選擇同樣的角色。這就像在一個(gè)項(xiàng)目團(tuán)隊(duì)中,直接合作的同事不能都擔(dān)任項(xiàng)目經(jīng)理的角色,必須有人負(fù)責(zé)設(shè)計(jì),有人負(fù)責(zé)開發(fā),有人負(fù)責(zé)測(cè)試。
領(lǐng)導(dǎo)者選舉問(wèn)題則更加直觀,就像在一個(gè)沒(méi)有預(yù)設(shè)層級(jí)的團(tuán)隊(duì)中,大家需要通過(guò)討論和協(xié)商選出一個(gè)領(lǐng)導(dǎo)者。這個(gè)過(guò)程考驗(yàn)的是智能體們能否在沒(méi)有中央控制的情況下達(dá)成一致,選出一個(gè)大家都認(rèn)可的領(lǐng)導(dǎo)者。
一致性達(dá)成問(wèn)題類似于團(tuán)隊(duì)投票,所有成員必須就某個(gè)二選一的問(wèn)題達(dá)成統(tǒng)一意見。比如,團(tuán)隊(duì)需要決定是在周三還是周四開會(huì),所有人必須選擇同一個(gè)答案。這看似簡(jiǎn)單,但當(dāng)智能體們分布在不同的網(wǎng)絡(luò)節(jié)點(diǎn)上,只能通過(guò)有限的通信渠道交換信息時(shí),達(dá)成一致就變得相當(dāng)有挑戰(zhàn)性。
為了讓這些測(cè)試更加真實(shí),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于消息傳遞的通信協(xié)議。這個(gè)協(xié)議模擬了現(xiàn)實(shí)世界中的通信限制:每個(gè)智能體只能與其直接鄰居交流,就像在一個(gè)大型組織中,你只能直接與你的直接同事或上下級(jí)溝通,而不能隨意與任何部門的任何人交流。
通信過(guò)程是同步進(jìn)行的,就像開會(huì)時(shí)大家輪流發(fā)言一樣。在每一輪中,所有智能體同時(shí)接收來(lái)自鄰居的消息,然后同時(shí)發(fā)送回復(fù)。這種同步機(jī)制確保了公平性,也增加了協(xié)作的難度,因?yàn)橹悄荏w們需要在有限的信息基礎(chǔ)上做出決策。
研究團(tuán)隊(duì)在三種不同類型的網(wǎng)絡(luò)拓?fù)渖线M(jìn)行了測(cè)試:小世界網(wǎng)絡(luò)、無(wú)標(biāo)度網(wǎng)絡(luò)和幾何圖網(wǎng)絡(luò)。這些網(wǎng)絡(luò)類型反映了現(xiàn)實(shí)世界中不同的組織結(jié)構(gòu)和社交關(guān)系。小世界網(wǎng)絡(luò)具有短的平均路徑長(zhǎng)度和高的聚集系數(shù),類似于社交網(wǎng)絡(luò)中的"六度分隔"現(xiàn)象。無(wú)標(biāo)度網(wǎng)絡(luò)則包含一些高度連接的樞紐節(jié)點(diǎn),就像組織中的關(guān)鍵人物或意見領(lǐng)袖。幾何圖網(wǎng)絡(luò)則強(qiáng)調(diào)空間proximity,適合模擬地理分布的團(tuán)隊(duì)協(xié)作。
在測(cè)試結(jié)果方面,研究團(tuán)隊(duì)評(píng)估了多種前沿的大型語(yǔ)言模型,包括Claude 3.5 Haiku、Claude 3.7 Sonnet、GPT-4.1 mini、Gemini 2.0 Flash、Gemini 2.5 Flash及其推理版本、Llama 4的不同版本,以及最新的推理模型o4-mini。
結(jié)果顯示,即使是最先進(jìn)的模型在面對(duì)協(xié)作挑戰(zhàn)時(shí)也表現(xiàn)出明顯的局限性。在4個(gè)節(jié)點(diǎn)的小規(guī)模網(wǎng)絡(luò)中,沒(méi)有任何模型能在所有任務(wù)上都表現(xiàn)出色。表現(xiàn)最好的模型是Claude 3.7 Sonnet、Gemini 2.5 Pro和Gemini 2.5 Flash,但即使是它們,在某些任務(wù)上的成功率也不高。
特別值得注意的是,一致性達(dá)成任務(wù)對(duì)大多數(shù)模型來(lái)說(shuō)相對(duì)容易,而頂點(diǎn)覆蓋任務(wù)則普遍困難,尤其是在8個(gè)和16個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)中。這種差異反映了不同協(xié)作任務(wù)的內(nèi)在復(fù)雜性差異。
更令人關(guān)注的是,隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,所有模型的表現(xiàn)都出現(xiàn)了顯著下降。當(dāng)網(wǎng)絡(luò)擴(kuò)展到100個(gè)智能體時(shí),幾乎所有任務(wù)的成功率都接近于零。這就像是一個(gè)小團(tuán)隊(duì)運(yùn)作良好,但當(dāng)團(tuán)隊(duì)規(guī)模擴(kuò)大到整個(gè)公司時(shí),協(xié)調(diào)就變得極其困難。
通過(guò)深入分析智能體之間的對(duì)話記錄,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾個(gè)有趣的現(xiàn)象。首先,策略協(xié)調(diào)是一個(gè)關(guān)鍵挑戰(zhàn)。智能體們經(jīng)常無(wú)法在有限的通信輪次中就共同策略達(dá)成一致。有時(shí)候,它們會(huì)在后期才同意某個(gè)策略,但此時(shí)已經(jīng)沒(méi)有足夠的時(shí)間來(lái)實(shí)施這個(gè)策略。
其次,智能體們通常會(huì)接受鄰居發(fā)送的信息,包括關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)的信息、建議的策略或候選解決方案。雖然這種信任通常有助于有效協(xié)調(diào),但智能體們有時(shí)無(wú)法質(zhì)疑錯(cuò)誤信息,導(dǎo)致錯(cuò)誤的解決方案。
第三,智能體們會(huì)主動(dòng)幫助鄰居解決候選解決方案中的不一致問(wèn)題。研究團(tuán)隊(duì)觀察到多個(gè)例子,其中智能體檢測(cè)到其他智能體之間的沖突,并協(xié)助解決這些沖突。
在一個(gè)特別有趣的例子中,一個(gè)名為Henry的智能體決定實(shí)施一個(gè)經(jīng)典的分布式算法來(lái)解決圖著色問(wèn)題。它給自己分配了一個(gè)優(yōu)先級(jí)數(shù)字42,并要求所有鄰居回復(fù)它們的優(yōu)先級(jí)數(shù)字。盡管Henry沒(méi)有詳細(xì)解釋這個(gè)策略,但鄰居智能體們能夠推斷出這是一個(gè)基于優(yōu)先級(jí)的協(xié)調(diào)機(jī)制。
這種行為表明,先進(jìn)的語(yǔ)言模型確實(shí)具備了一定的分布式算法直覺,能夠在協(xié)作場(chǎng)景中應(yīng)用這些概念。但同時(shí)也暴露了一個(gè)問(wèn)題:策略協(xié)調(diào)在實(shí)際執(zhí)行中往往比理論設(shè)計(jì)更加困難。
研究團(tuán)隊(duì)還注意到,智能體們有時(shí)會(huì)明確討論同步消息傳遞帶來(lái)的挑戰(zhàn)。在一個(gè)圖著色問(wèn)題的例子中,兩個(gè)智能體交換了關(guān)于"消息延遲令人困惑"的評(píng)論,認(rèn)識(shí)到同步消息交換可能導(dǎo)致信息不一致。這種對(duì)通信協(xié)議本身的反思顯示了智能體們的某種元認(rèn)知能力。
從成本效益的角度來(lái)看,研究團(tuán)隊(duì)發(fā)現(xiàn)Gemini 2.5 Flash在性能和成本之間取得了良好的平衡。它的表現(xiàn)與更昂貴的Claude 3.7 Sonnet相當(dāng),但成本大約只有后者的二十分之一。這對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)是一個(gè)重要的考量因素。
當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,AGENTSNET基于同步消息傳遞的LOCAL計(jì)算模型,雖然這與分布式算法理論一致,但可能限制了其生態(tài)有效性。真實(shí)世界的多智能體系統(tǒng)往往在異步或動(dòng)態(tài)通信約束下運(yùn)行。
其次,評(píng)估協(xié)議只考慮滿足嚴(yán)格任務(wù)正確性標(biāo)準(zhǔn)的實(shí)例為已解決。這種二元度量提供了協(xié)調(diào)成功的清晰信號(hào),但可能掩蓋了部分進(jìn)展,特別是在那些接近正確解決方案仍然展示出大量推理能力的任務(wù)中。
此外,雖然任務(wù)在多樣化的圖拓?fù)渲袑?shí)例化,但每個(gè)實(shí)驗(yàn)中的智能體本身是同質(zhì)的,共享架構(gòu)、能力和提示風(fēng)格。這種同質(zhì)性簡(jiǎn)化了分析,但沒(méi)有捕捉到異質(zhì)智能體設(shè)置,而這在現(xiàn)實(shí)世界部署中是常見的,并且會(huì)帶來(lái)額外的協(xié)調(diào)挑戰(zhàn)。
最后,雖然基準(zhǔn)測(cè)試在理論上可以實(shí)例化多達(dá)100個(gè)智能體,但由于大型語(yǔ)言模型推理的計(jì)算成本,實(shí)際可擴(kuò)展性受到限制。在小網(wǎng)絡(luò)規(guī)模之外,性能顯著下降,這表明當(dāng)前的大型語(yǔ)言模型還無(wú)法在增加的通信和內(nèi)存需求下維持連貫的全局策略。
盡管存在這些局限性,AGENTSNET為多智能體協(xié)作研究提供了一個(gè)重要的基準(zhǔn)測(cè)試工具。它不僅揭示了當(dāng)前大型語(yǔ)言模型在多智能體協(xié)作方面的能力和局限性,還為未來(lái)的研究指明了方向。
這項(xiàng)研究的意義遠(yuǎn)超出了學(xué)術(shù)界。隨著AI技術(shù)的不斷發(fā)展,我們可以預(yù)見在不久的將來(lái),多智能體系統(tǒng)將在各種實(shí)際應(yīng)用中發(fā)揮重要作用。從智能制造系統(tǒng)中的多機(jī)器人協(xié)作,到智慧城市中的交通管理,再到大規(guī)模的商業(yè)決策支持,多智能體協(xié)作都將成為關(guān)鍵技術(shù)。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究預(yù)示著未來(lái)AI助手可能不再是單打獨(dú)斗的個(gè)體,而是能夠相互協(xié)作的團(tuán)隊(duì)成員。設(shè)想一下,當(dāng)你需要規(guī)劃一次復(fù)雜的旅行時(shí),可能會(huì)有一個(gè)AI負(fù)責(zé)機(jī)票預(yù)訂,另一個(gè)負(fù)責(zé)酒店安排,還有一個(gè)負(fù)責(zé)當(dāng)?shù)鼗顒?dòng)推薦,它們能夠相互溝通協(xié)調(diào),為你提供最優(yōu)的整體方案。
研究團(tuán)隊(duì)已經(jīng)將AGENTSNET的代碼開源,并在Hugging Face上提供了數(shù)據(jù)集,這意味著其他研究者可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和擴(kuò)展。這種開放的研究態(tài)度將有助于推動(dòng)整個(gè)多智能體協(xié)作領(lǐng)域的發(fā)展。
說(shuō)到底,雖然讓AI智能體們學(xué)會(huì)像人類團(tuán)隊(duì)一樣協(xié)作仍然是一個(gè)充滿挑戰(zhàn)的任務(wù),但這項(xiàng)研究已經(jīng)為我們指明了前進(jìn)的方向。隨著技術(shù)的不斷進(jìn)步和研究的深入,我們有理由相信,未來(lái)的AI系統(tǒng)將能夠更好地理解協(xié)作的本質(zhì),在復(fù)雜的多智能體環(huán)境中展現(xiàn)出更強(qiáng)的集體智慧。
歸根結(jié)底,這項(xiàng)研究不僅僅是關(guān)于技術(shù)的突破,更是關(guān)于我們?nèi)绾沃匦露x智能本身。在一個(gè)越來(lái)越互聯(lián)的世界里,單個(gè)智能體的能力或許重要,但更重要的是它們協(xié)作的能力。正如人類社會(huì)的發(fā)展依賴于合作與協(xié)調(diào)一樣,AI的未來(lái)也將取決于它們能否學(xué)會(huì)真正的團(tuán)隊(duì)合作。
對(duì)于那些對(duì)這一領(lǐng)域感興趣的讀者,可以通過(guò)arXiv:2507.08616v1獲取完整的研究論文,深入了解技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。隨著研究的不斷深入,我們期待看到更多關(guān)于多智能體協(xié)作的突破性進(jìn)展。
Q&A
Q1:AGENTSNET是什么?它能測(cè)試什么? A:AGENTSNET是一個(gè)專門測(cè)試多個(gè)AI智能體協(xié)作能力的基準(zhǔn)測(cè)試工具,由ETH和Google聯(lián)合開發(fā)。它通過(guò)五個(gè)分布式計(jì)算問(wèn)題(圖著色、領(lǐng)導(dǎo)者選舉、一致性達(dá)成等)來(lái)評(píng)估AI智能體們能否像人類團(tuán)隊(duì)一樣有效協(xié)作、自我組織和溝通。與傳統(tǒng)只測(cè)試2-5個(gè)智能體的工具不同,AGENTSNET可以擴(kuò)展到100個(gè)智能體的大規(guī)模協(xié)作場(chǎng)景。
Q2:目前的AI模型在團(tuán)隊(duì)協(xié)作方面表現(xiàn)如何? A:研究結(jié)果顯示,即使是最先進(jìn)的AI模型在協(xié)作方面也存在明顯局限性。在4個(gè)智能體的小規(guī)模網(wǎng)絡(luò)中,沒(méi)有任何模型能在所有任務(wù)上都表現(xiàn)出色。表現(xiàn)最好的是Claude 3.7 Sonnet和Gemini 2.5 Pro,但隨著網(wǎng)絡(luò)規(guī)模擴(kuò)大到100個(gè)智能體時(shí),幾乎所有任務(wù)的成功率都接近于零。這說(shuō)明當(dāng)前AI在大規(guī)模協(xié)作方面還有很大改進(jìn)空間。
Q3:這項(xiàng)研究對(duì)普通人有什么實(shí)際意義? A:這項(xiàng)研究預(yù)示著未來(lái)AI助手將不再是單打獨(dú)斗的個(gè)體,而是能夠相互協(xié)作的團(tuán)隊(duì)成員。比如在規(guī)劃復(fù)雜旅行時(shí),可能會(huì)有多個(gè)AI分別負(fù)責(zé)機(jī)票、酒店、活動(dòng)推薦等不同方面,它們能夠相互溝通協(xié)調(diào),提供最優(yōu)的整體方案。這種多智能體協(xié)作技術(shù)還將應(yīng)用于智能制造、智慧城市交通管理、商業(yè)決策支持等領(lǐng)域,讓AI系統(tǒng)更好地服務(wù)于人類社會(huì)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。