**清華大學(xué)和中國科學(xué)技術(shù)大學(xué)的研究團隊帶來突破性多模態(tài)基準測試**
在人工智能研究領(lǐng)域的最新進展中,清華大學(xué)和中國科學(xué)技術(shù)大學(xué)的研究團隊聯(lián)合開發(fā)了一項名為VS-BENCH(Visual Strategic Bench)的多模態(tài)基準測試,專門用于評估視覺語言模型在多智能體環(huán)境中的戰(zhàn)略推理和決策能力。這項研究由Zelai Xu、Zhexuan Xu、Xiangmin Yi等人完成,于2025年6月3日發(fā)布在arXiv預(yù)印本平臺上,論文編號為arXiv:2506.02387v1。有興趣深入了解的讀者可以通過https://vs-bench.github.io訪問完整代碼和數(shù)據(jù)。
一、為什么我們需要多智能體環(huán)境中的視覺語言模型評估?
想象一下,當(dāng)你玩一場棋牌游戲時,你不僅需要理解游戲規(guī)則,還需要揣摩對手的心理,預(yù)測他們的下一步行動,并據(jù)此調(diào)整自己的策略。在現(xiàn)實世界中,大多數(shù)情境都不是一個人單打獨斗,而是涉及多方互動和協(xié)作。
近年來,視覺語言模型(VLMs)在識別圖像內(nèi)容、理解視覺信息和解決交互問題方面取得了驚人的進步。我們已經(jīng)看到它們能夠編寫代碼、操作電腦界面,甚至在各種游戲環(huán)境中表現(xiàn)出色。然而,現(xiàn)有的評估基準主要集中在單智能體環(huán)境上,即只有一個AI在獨自工作的場景。
這與現(xiàn)實世界形成了鮮明對比。在現(xiàn)實中,大多數(shù)情境都涉及多方參與者之間的互動——無論是合作完成任務(wù),還是競爭爭取資源,或者兩者兼而有之的混合動機情境。這些多智能體環(huán)境帶來了三個關(guān)鍵挑戰(zhàn):
首先,一個智能體的結(jié)果不僅取決于自己的行動,還取決于其他智能體的行動。這需要"戰(zhàn)略推理"能力——理解他人的意圖并預(yù)測他們未來的行動。
其次,當(dāng)所有智能體同時學(xué)習(xí)和適應(yīng)時,環(huán)境動態(tài)變得不穩(wěn)定,要求智能體能夠在不確定性條件下進行"決策",并為長期目標進行優(yōu)化。
第三,合作與競爭的并存導(dǎo)致"社會困境",智能體必須在追求自身利益和集體福利之間取得戰(zhàn)略平衡。
雖然之前有研究評估了大型語言模型(LLMs)在多智能體環(huán)境中的表現(xiàn),但這些評估局限于純文本環(huán)境,無法評估智能體在包含視覺信息的場景中的能力。然而,許多戰(zhàn)略互動本質(zhì)上依賴于視覺觀察,如棋盤格局、卡牌面值或游戲畫面。將這些視覺觀察簡化為文本符號不可避免地會丟失關(guān)鍵的空間信息。
因此,清華大學(xué)和中國科學(xué)技術(shù)大學(xué)的研究團隊開發(fā)了VS-BENCH,這是首個專門評估視覺語言模型在多智能體環(huán)境中戰(zhàn)略推理和決策能力的多模態(tài)基準測試。
二、VS-BENCH如何評估視覺語言模型的多智能體能力?
VS-BENCH就像一個全面的考試系統(tǒng),設(shè)計了八個以視覺為基礎(chǔ)的環(huán)境,覆蓋了三種基本類型的多智能體互動,并從兩個關(guān)鍵維度評估模型表現(xiàn)。
首先,讓我們了解這八個環(huán)境,它們就像不同的考試科目,各自測試不同的能力:
**合作型游戲**:在這類游戲中,所有智能體共享同一個目標。想象兩個人一起完成一個拼圖,成功與否取決于雙方的協(xié)作。VS-BENCH包含兩個合作型游戲:
1. **花火(Hanabi)**:一種部分可觀察的卡牌游戲,玩家能看到他人的牌但看不到自己的牌。每張牌有顏色和等級,玩家必須協(xié)調(diào)配合,按照顏色的等級順序打出牌。這個游戲測試智能體理解隊友意圖、零樣本協(xié)調(diào)和臨時組隊能力。
2. **胡鬧廚房(Overcooked)**:一款流行的視頻游戲,兩位廚師在廚房里合作烹飪和上菜。每道菜需要多步操作,如導(dǎo)航、切菜、烹飪等,即使對人類玩家來說也很難協(xié)調(diào)。這個游戲是零樣本協(xié)調(diào)和人機互動研究的經(jīng)典環(huán)境。
**競爭型游戲**:在這類游戲中,每個智能體的目標與其他智能體的目標直接沖突。就像兩個棋手對弈,一方的勝利意味著另一方的失敗。VS-BENCH包含三個競爭型游戲:
1. **突破棋(Breakthrough)**:一種類似國際象棋的棋盤游戲,但規(guī)則簡化且棋子相同。兩位玩家爭相將自己的棋子推進到對手的底線。這個游戲雖然表面簡單,但展現(xiàn)出深度的組合復(fù)雜性和攻防節(jié)奏不平衡,適合研究多步前瞻和對抗性決策。
2. **庫恩撲克(Kuhn Poker)**:一個簡化版的德州撲克,設(shè)計用于研究不完全信息的游戲理論分析。它使用三張牌的牌組和單輪下注,是研究反事實推理和不完全信息決策的經(jīng)典環(huán)境。
3. **雅達利乒乓(Atari Pong)**:一款經(jīng)典街機游戲,兩名玩家控制擋板擊球。這個游戲要求時空推理和戰(zhàn)略博弈,是街機學(xué)習(xí)環(huán)境的標準測試場景。
**混合動機游戲**:在這類游戲中,智能體的目標部分一致、部分沖突。想象兩個商業(yè)伙伴,既要共同壯大企業(yè),又要為自己爭取更多利潤。VS-BENCH包含三個混合動機游戲:
1. **硬幣困境(Coin Dilemma)**:一個受囚徒困境啟發(fā)的網(wǎng)格世界游戲。紅色和藍色玩家在5×5網(wǎng)格中收集硬幣。收集任何硬幣都能得1分,但如果紅色玩家收集藍色硬幣,藍色玩家會被扣2分,反之亦然。這創(chuàng)造了互惠和自利之間的張力:雙方都收集自己顏色的硬幣會產(chǎn)生雙贏,但單方面背叛收集所有硬幣會最大化自身收益而損害對方。
2. **怪物獵人(Monster Hunt)**:一個受獵鹿博弈啟發(fā)的網(wǎng)格世界游戲。兩個玩家可以各自吃蘋果得2分,或者聯(lián)手擊敗怪物各得5分。但單獨面對怪物會被扣2分。這導(dǎo)致多個納什均衡——玩家可以安全地單獨吃蘋果,或冒險合作獲取更高回報。
3. **顏色之戰(zhàn)(Battle of the Colors)**:一個受性別之戰(zhàn)博弈啟發(fā)的網(wǎng)格世界游戲。紅色和藍色玩家在有紅色塊和藍色塊的5×5網(wǎng)格中移動。如果雙方都在紅色塊上,紅色玩家得2分,藍色玩家得1分,反之亦然。如果玩家在不同顏色的塊上,雙方都得0分。因此,盡管協(xié)調(diào)對雙方都有利,但每個玩家都嚴格偏好選擇自己顏色的塊,產(chǎn)生兩個收益不對稱的納什均衡和一個混合均衡。
VS-BENCH從兩個互補維度評估視覺語言模型:
**戰(zhàn)略推理**(離線評估):這測試模型的"心智理論"能力——推斷他人的隱藏信念、欲望和意圖。研究團隊為每個環(huán)境構(gòu)建了一個離線數(shù)據(jù)集,通過模型預(yù)測其他智能體下一步行動的準確率來評估其表現(xiàn)。這就像測試你能否預(yù)測棋手的下一步棋,或者撲克玩家的下一步行動。
**決策能力**(在線評估):這測試模型在非靜態(tài)動態(tài)環(huán)境中為長期目標優(yōu)化的能力。研究團隊讓視覺語言模型在每個環(huán)境中與自身或傳統(tǒng)智能體進行完整回合的互動,并通過標準化的回合回報評估其表現(xiàn)。這就像測量你在實際比賽中的得分表現(xiàn)。
通過同時分析這兩個視角,VS-BENCH提供了對視覺語言模型在多智能體環(huán)境中能力的全面評估。
三、研究發(fā)現(xiàn):當(dāng)今頂尖視覺語言模型表現(xiàn)如何?
研究團隊評估了十四個領(lǐng)先的視覺語言模型,包括五個商業(yè)推理模型(如o4-mini、gemini-2.5-flash)、六個商業(yè)聊天模型(如gpt-4.1、doubao-1-5-vision-pro)和三個開源模型(如Llama-3.2-90B-Vision-Ins.)。
實驗結(jié)果揭示了當(dāng)前模型與最優(yōu)表現(xiàn)之間存在顯著差距。在戰(zhàn)略推理方面,雖然這些模型通過超越隨機猜測展示了初步能力,但表現(xiàn)最好的模型o4-mini也只達到了47.8%的整體預(yù)測準確率,遠低于100%的完美準確率。具體來看:
- 在合作游戲中,表現(xiàn)最好的模型在花火游戲中達到58.3%的準確率,但在胡鬧廚房中僅達到31.8%。 - 在競爭游戲中,最高準確率出現(xiàn)在庫恩撲克(65.5%)和突破棋(26.8%)中。 - 在混合動機游戲中,硬幣困境的最高準確率為62.8%,怪物獵人為50.3%,顏色之戰(zhàn)為52.5%。
更值得注意的是,在決策能力評估中,現(xiàn)有模型表現(xiàn)更為欠佳。即使是表現(xiàn)最好的模型o4-mini,其平均標準化回報也僅為24.3%,遠低于最優(yōu)智能體的表現(xiàn)。六個模型的整體表現(xiàn)甚至不如隨機智能體,表明它們在非靜態(tài)、相互依賴的多智能體動態(tài)環(huán)境中優(yōu)化長期回報的能力不足。
研究團隊發(fā)現(xiàn)了幾個有趣的現(xiàn)象:
1. **推理模型普遍優(yōu)于聊天模型**:商業(yè)推理模型在大多數(shù)環(huán)境中取得了更好的結(jié)果,平均標準化回報為17.0%,而聊天模型平均為-0.4%。
2. **開源模型在某些社會困境中表現(xiàn)出色**:令人驚訝的是,一些開源模型在特定混合動機游戲中達到了與推理模型相當(dāng)?shù)谋憩F(xiàn)。例如,Qwen2.5-VL-72B-Ins.在硬幣困境中和InternVL3-78B在怪物獵人中表現(xiàn)不俗。
3. **視覺游戲帶來挑戰(zhàn)**:模型在視頻游戲環(huán)境(如胡鬧廚房、雅達利乒乓和硬幣困境)中表現(xiàn)普遍較差,突顯了多模態(tài)感知和戰(zhàn)略決策的雙重難度。
四、深入分析:視覺語言模型在多智能體環(huán)境中的優(yōu)勢與短板
為了更深入理解視覺語言模型在多智能體環(huán)境中的表現(xiàn),研究團隊對多模態(tài)觀察、測試時擴展、社會行為和失敗案例進行了詳細分析。
**多模態(tài)觀察**:理論上,結(jié)合圖像和文本的多模態(tài)觀察應(yīng)該提供更豐富的信息,帶來更好的結(jié)果。然而,評估卻顯示,在固有視覺狀態(tài)的環(huán)境中,視覺語言模型面臨特別的挑戰(zhàn)。研究團隊選取了一個棋盤游戲、一個卡牌游戲和一個視頻游戲,評估推理視覺語言模型在多模態(tài)和純文本觀察下的決策表現(xiàn)。
結(jié)果令人驚訝:在所有三個環(huán)境中,多模態(tài)觀察導(dǎo)致平均表現(xiàn)比純文本輸入更差。這表明現(xiàn)有視覺語言模型在從視覺輸入中提取信息以進行有效推理和決策方面存在不足。這就像給一個人提供了照片和文字描述,但他反而從單純的文字描述中理解得更好。
**測試時擴展**:研究發(fā)現(xiàn),使用思維鏈(CoT)提示等測試時擴展方法可以顯著提升聊天模型在多智能體環(huán)境中的表現(xiàn)。例如,在花火游戲中,使用CoT提示的gpt-4.1模型達到了49.8%的準確率,比標準輸入輸出提示的40.0%有明顯提升。這表明測試時擴展方法可以實質(zhì)性地改善視覺語言模型的表現(xiàn)。
**社會行為**:在混合動機社會困境游戲中,研究團隊分析了不同模型的行為模式。例如,在硬幣困境中,推理模型更善于收集硬幣,但它們也更自私,特別是o4-mini,收集對方硬幣的次數(shù)比收集自己硬幣的次數(shù)更多,導(dǎo)致比隨機結(jié)果更差的結(jié)果。相比之下,雖然InternVL3-78B在收集硬幣方面不那么熟練,但它展示了強烈的合作偏好,更傾向于收集自己的硬幣而非對方的硬幣,創(chuàng)造了雙贏局面。
這就像兩個人在分享一盤食物:有些模型會盡可能多地拿取食物,無論是否屬于自己的那份;而其他模型則主要拿取自己那份的食物,尊重對方的份額,最終創(chuàng)造更和諧的用餐體驗。
**失敗案例**:研究團隊分析了視覺語言模型在多智能體環(huán)境中表現(xiàn)不佳的原因。在戰(zhàn)略推理中,常見的失敗案例包括忽略歷史和私人信息。例如,在花火游戲中,玩家可以看到其他人的牌但看不到自己的牌。視覺語言模型往往忽視這種信息不對稱,錯誤地使用自己的私人信息來預(yù)測其他人的下一步行動。
在決策中,另一個常見失敗案例是過度關(guān)注自己的行動而忽視他人。例如,在突破棋中,視覺語言模型傾向于不斷推進自己的棋子,卻未能識別需要立即防御干預(yù)的情況,最終導(dǎo)致輸棋。
這就像一個象棋新手,只關(guān)注自己的進攻策略,卻沒有注意到對手正在設(shè)置將軍,最終被對手將死。
五、VS-BENCH的意義與展望
VS-BENCH為研究界帶來了幾個關(guān)鍵貢獻:
首先,它是首個專門評估視覺語言模型在多智能體環(huán)境中戰(zhàn)略推理和決策能力的多模態(tài)基準測試。通過引入八個以視覺為基礎(chǔ)的環(huán)境,覆蓋合作、競爭和混合動機互動,它為研究人員提供了一個全面的測試平臺。
其次,它考慮了兩個互補的評估維度:通過下一步行動預(yù)測準確率評估戰(zhàn)略推理能力,通過標準化回合回報評估決策能力。這種雙重評估提供了對視覺語言模型能力的更全面了解。
第三,它通過對十四個領(lǐng)先視覺語言模型的廣泛實驗,揭示了當(dāng)前模型與最優(yōu)表現(xiàn)之間的顯著差距,突顯了它們在多模態(tài)觀察、測試時擴展、社會行為和失敗案例方面的局限性。
研究團隊希望,通過發(fā)布VS-BENCH作為開放平臺,能夠促進在以視覺為基礎(chǔ)的多智能體環(huán)境中表現(xiàn)出色的戰(zhàn)略多模態(tài)智能體的研究。這一基準測試不僅揭示了現(xiàn)有模型的局限性,也為未來研究指明了方向。
對普通人來說,這項研究的意義在于,它幫助我們了解當(dāng)前AI系統(tǒng)在理解和參與多方互動方面的能力和局限。正如人類社會由無數(shù)個體之間的互動組成,真正智能的AI系統(tǒng)也需要能夠在多智能體環(huán)境中進行有效的推理和決策。VS-BENCH為評估和改進這些能力提供了一個重要工具。
未來,隨著視覺語言模型的不斷發(fā)展,我們可能會看到它們在這些基準測試中的表現(xiàn)顯著提升,最終發(fā)展出能夠在復(fù)雜的多智能體環(huán)境中與人類進行高效合作和互動的AI系統(tǒng)。這將為人機協(xié)作、自動化游戲智能體,甚至社會計算等領(lǐng)域帶來革命性變化。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。