這項由新加坡國家大學胡曉斌教授領導的跨國研究團隊發(fā)表于2025年8月的arXiv預印本論文,展示了一種名為MACT的多智能體協作框架。研究團隊成員來自清華大學、中科大、南洋理工大學、慕尼黑工業(yè)大學、浙江大學和復旦大學等知名學府。有興趣深入了解的讀者可以通過論文鏈接https://github.com/YU-deep/MACT.git訪問完整研究成果。
當你面對一份復雜的法律合同、醫(yī)學報告或者學術論文時,你可能需要先理解文檔結構,然后仔細分析內容,接著判斷信息的準確性,最后得出結論?,F在,研究人員讓AI也學會了這種"團隊協作"的方式來處理復雜文檔。他們開發(fā)的MACT系統就像一個專業(yè)團隊,其中有四個不同角色的AI"專家":一個負責制定計劃的"策略師",一個負責執(zhí)行任務的"執(zhí)行者",一個負責檢查質量的"質檢員",還有一個負責總結答案的"總結員"。
令人驚喜的是,這個由相對較小的AI模型組成的團隊,在處理文檔理解和問答任務上的表現,竟然超過了許多參數規(guī)模更大的單個AI模型。這就好比四個各有專長的普通人組成的團隊,在解決復雜問題時能夠勝過一個能力更強但孤軍奮戰(zhàn)的專家。
一、現有AI處理文檔時遇到的三大難題
目前的視覺語言模型,無論是通用型還是專門針對文檔設計的,都面臨著三個主要挑戰(zhàn)。首先是規(guī)模限制問題,就像一個人的大腦容量有限一樣,參數較少的AI模型在處理復雜文檔時往往力不從心。研究團隊發(fā)現,大模型和小模型在文檔理解能力上存在顯著差距,而小模型的潛力往往沒有得到充分發(fā)揮。
其次是自我糾錯能力不足的問題。人類在解決復雜問題時,會自然地進行自我檢查和修正,但現有的AI模型缺乏這種robust的自我糾錯機制。即使有些系統試圖加入糾錯功能,效果也往往不夠理想,就像一個人既要當裁判又要當運動員一樣,很難做到真正客觀公正的判斷。
第三個問題是在處理長篇文檔和復雜推理時表現不佳。當面對幾十頁的報告或需要跨頁面信息整合的任務時,現有模型就像近視眼看遠處的景物一樣,往往抓不住關鍵信息,推理能力也會明顯下降。這些問題導致現有系統在處理基于文檔的任務時表現不夠理想。
二、MACT系統的"四人小組"工作模式
為了解決這些問題,研究團隊設計了一個巧妙的解決方案:讓四個專門化的AI智能體像一個高效團隊一樣協作工作。這就好比組建一個專業(yè)的咨詢團隊,每個成員都有明確的職責分工。
規(guī)劃智能體扮演"策略師"的角色,專門負責分析原始問題并制定高層次的執(zhí)行計劃。當接到一個復雜的文檔問答任務時,它會首先生成一些相關的示例問題和對應的解決方案,然后參考這些示例為當前問題制定具體的執(zhí)行計劃。這個過程就像經驗豐富的項目經理在接到新任務時,會先回顧類似項目的處理方式,然后制定針對性的工作計劃。
執(zhí)行智能體擔任"執(zhí)行者"的角色,負責將規(guī)劃智能體制定的計劃逐步落實。它會把總體計劃分解為具體的執(zhí)行單元,然后依次完成每個步驟。在執(zhí)行過程中,它可以調用各種工具和資源,就像工程師根據設計圖紙選擇合適的工具來完成具體工作一樣。執(zhí)行完成后,它會將整個執(zhí)行過程和結果整理好,傳遞給下一個智能體。
判斷智能體發(fā)揮"質檢員"的作用,這是整個系統中最具創(chuàng)新性的設計。與傳統的糾錯機制不同,這個智能體專門負責檢查前面生成的執(zhí)行計劃和執(zhí)行過程是否正確,但它并不直接進行修改。當發(fā)現問題時,它會指出具體的錯誤位置和錯誤類型,然后將任務重新分配給相應的前序智能體進行修正。這種設計就像專業(yè)的質量檢查員,只負責發(fā)現問題并報告,具體的修正工作由原來的負責人來完成,這樣既保證了檢查的客觀性,又避免了修正過程中可能出現的不一致問題。
答案智能體承擔"總結員"的職責,負責根據正確的執(zhí)行過程生成最終答案。有趣的是,它不僅會考慮正確的執(zhí)行結果,還會參考之前出現過的錯誤片段,這樣可以更好地關注那些容易出錯的細節(jié),確保最終答案的準確性和完整性。
三、創(chuàng)新的獎勵機制讓團隊協作更默契
為了讓這四個智能體更好地協作,研究團隊設計了一套混合獎勵建模系統。這就像在一個公司里,既要考核每個員工的個人業(yè)績,也要評估整個團隊的協作效果。
對于規(guī)劃和執(zhí)行智能體,系統采用逐步獎勵的方式,對它們產出的每個步驟都進行評分。這種細致的評估方式就像老師批改作業(yè)時不僅看最終答案,還會檢查解題的每個步驟,這樣可以及時發(fā)現問題并給出針對性的指導。
對于判斷和答案智能體,系統則對它們的整體輸出進行評估,因為這兩個智能體的工作本質上是對前面工作的整體性評判和總結。
除了這些針對性的獎勵外,系統還引入了全局獎勵機制,基于整個團隊協作產生的最終結果來評估所有智能體的表現。這種設計可以避免各個智能體只關注自己的局部任務而忽視整體目標的問題,就像團隊獎金能夠促進成員之間更好的協作一樣。
四、量身定制的"加班"策略提升處理能力
研究團隊還為每個智能體設計了個性化的測試時計算擴展策略,這就像根據每個團隊成員的特長來分配不同強度的工作任務。
對于規(guī)劃智能體,系統采用并行擴展的方式。由于這個智能體本身就需要生成多個相關示例來輔助制定計劃,研究團隊進一步擴展了這個功能,讓它可以同時生成更多的參考計劃,從而增加找到最佳解決方案的可能性。這就像讓策略師同時考慮更多的備選方案,然后從中選擇最合適的。
執(zhí)行智能體采用的是逐步篩選的策略。對于執(zhí)行過程中的每個步驟,系統會生成多個候選執(zhí)行方案,然后使用預訓練的獎勵模型對這些方案進行評分,選擇得分最高的方案作為該步驟的執(zhí)行結果,再以此為基礎進行下一步操作。這種方式就像在每個關鍵決策點都進行充分的對比分析,確保每一步都走在最優(yōu)路徑上。
判斷智能體使用的是預算強制擴展策略,這種方法會強制要求智能體進行更充分的思考。當智能體的思考過程不夠深入時,系統會要求它繼續(xù)思考,直到達到預設的思考量標準。這就像要求質檢員必須花足夠的時間仔細檢查每個細節(jié),不能草率了事。
答案智能體由于主要負責信息整合和總結,其工作相對簡單,因此研究團隊沒有為它設計專門的擴展策略,以避免不必要的計算開銷。
五、訓練過程分為兩個階段循序漸進
整個系統的訓練采用了兩階段的方式,就像培養(yǎng)一個專業(yè)團隊需要先進行基礎培訓,再進行實戰(zhàn)演練一樣。
第一階段是監(jiān)督微調階段,研究團隊首先選擇了三組不同的基礎模型作為起點。對于需要處理視覺信息的規(guī)劃和執(zhí)行智能體,他們選用視覺語言模型;對于主要處理文本信息的判斷和答案智能體,則選用語言模型。在這個階段,團隊使用精心收集的文檔理解和問答數據集對這些基礎模型進行專門訓練,提升它們的視覺理解和推理能力。
接著,他們使用GPT-4o和基于規(guī)則的驗證方法生成判斷標簽,訓練判斷智能體的錯誤識別能力。同時,他們還訓練答案智能體學會整合前面智能體的輸出并生成高質量的最終答案。
第二階段是強化學習階段,這時四個智能體開始真正的團隊協作訓練。系統使用預訓練的獎勵模型來生成獎勵信號,通過GRPO算法對整個協作框架進行優(yōu)化。在這個過程中,規(guī)劃和執(zhí)行智能體會收到逐步的過程獎勵反饋,而判斷和答案智能體則收到整體的結果獎勵。全局獎勵則基于整個團隊協作產生的最終答案質量來計算,這樣可以確保各個智能體不僅要做好自己的工作,還要考慮與其他成員的協作效果。
六、在十五個基準測試中表現卓越
為了全面評估MACT系統的性能,研究團隊在15個不同的基準測試數據集上進行了詳細的實驗。這些數據集涵蓋了四種主要的文檔類型和兩種非文檔類型的任務。
在文檔理解方面,團隊測試了基于文本的文檔(如DocVQA、DUDE、SlideVQA、MMLongBench-Doc),基于網頁的文檔(如VisualMRC、InfographicVQA),基于圖表的文檔(如ChartQA、CharXiv),以及基于表格的文檔(如TableVQA-Bench、TableBench)。
為了確保系統沒有過度專門化而失去通用能力,他們還在一般性任務(ScienceQA、RealWorldQA)和數學推理任務(MathVista、Math-Vision、MathVerse)上進行了測試。
實驗結果非常令人鼓舞。MACT系統的三個變體在平均得分上分別取得了前三名的成績,在15個基準測試中有13個獲得了最佳表現。特別值得注意的是,在需要處理長視覺上下文的MMLongBench-Doc測試中,以及在三個數學推理基準測試中,MACT-MiMo-VL-Series-28B變體的表現分別超過了第二名7.1%、10.6%、5.9%和8.7%。
更令人印象深刻的是,MACT系統雖然參數總數不到30B,但其性能不僅超過了所有參數在100B以下的比較方法,甚至還優(yōu)于一些閉源的大規(guī)模模型。與基礎模型相比,MACT的三個變體平均性能提升了10.3%、9.9%和11.5%。
七、深入分析驗證設計的有效性
研究團隊進行了詳細的消融實驗來驗證各個組件的貢獻。他們發(fā)現,多智能體協作框架是性能提升的最主要因素,相比單智能體系統帶來了8.6%的平均性能提升。有趣的是,如果簡單地將所有功能集成到一個智能體中,性能甚至會比基礎模型更差,這說明了專門化分工的重要性。
混合獎勵建模策略貢獻了3.4%的性能提升,而智能體級混合測試時擴展策略則帶來了3.7%的改善。在復雜任務上,后者的改善效果更加明顯,這驗證了為不同智能體定制不同擴展策略的合理性。
關于判斷智能體的設計,實驗證明了研究團隊的創(chuàng)新方法確實優(yōu)于傳統的糾錯機制。相比于內部糾錯機制,獨立判斷智能體的方法在平均性能上提升了2.6%,同時需要的糾錯次數還更少。這種"專人專職"的設計避免了傳統方法中可能出現的主觀偏見問題,也避免了不同功能模塊之間可能產生的沖突。
八、各種參數設置的影響分析
研究團隊還詳細分析了各種參數設置對系統性能的影響。他們發(fā)現,增加相關計劃的生成數量Np和執(zhí)行候選方案的數量Ne都能提升系統性能,但收益會逐漸遞減。當Np和Ne都設置為16時,系統達到了性能和計算成本的最佳平衡點。
在糾錯次數的設置上,研究團隊發(fā)現將最大糾錯次數設置為3次能夠獲得最佳效果。過少的糾錯次數無法充分發(fā)揮質量控制的作用,而過多的糾錯次數反而可能讓智能體陷入混亂,影響最終的答案質量。
實驗還顯示,全局獎勵雖然單獨貢獻有限,但它能夠有效避免智能體過于關注局部目標而忽視整體協作效果的問題,對于復雜任務的處理特別有價值。個性化的測試時擴展策略比統一的擴展策略效果更好,這證明了根據每個智能體的特點進行定制化設計的重要性。
說到底,這項研究展示了一個非常有趣的現象:有時候"團隊協作"確實比"單打獨斗"更有效。通過讓多個相對較小的AI模型各司其職、協同工作,MACT系統在文檔理解和問答任務上取得了令人矚目的成果。這種方法不僅在技術上具有創(chuàng)新性,在實用性上也很有前景,特別是對那些計算資源有限但又需要處理復雜文檔任務的應用場景。
研究團隊的工作為多智能體系統在視覺語言理解領域的應用開辟了新的方向,也為如何更好地設計和訓練協作型AI系統提供了寶貴的經驗。隨著這種技術的進一步發(fā)展和優(yōu)化,我們可能會看到更多能夠像人類團隊一樣高效協作的AI系統出現,為解決現實世界中的復雜問題提供新的可能性。有興趣深入了解技術細節(jié)的讀者,可以通過研究團隊提供的開源代碼庫https://github.com/YU-deep/MACT.git獲取更多信息。
Q&A
Q1:MACT系統是什么?它是如何工作的?
A:MACT是一個多智能體協作框架,由四個專門的AI"專家"組成:規(guī)劃智能體負責制定解決方案,執(zhí)行智能體負責具體實施,判斷智能體負責質量檢查,答案智能體負責最終總結。它們像一個專業(yè)團隊一樣分工協作,處理復雜的文檔理解和問答任務。
Q2:為什么MACT系統比單個大模型表現更好?
A:MACT系統通過專門化分工和協作機制,讓每個智能體專注于自己擅長的任務,避免了單個模型需要同時處理多種復雜任務時可能出現的能力稀釋。同時,獨立的判斷智能體提供了更客觀的質量控制,混合獎勵機制確保了個體表現和團隊協作的平衡。
Q3:MACT系統主要解決了現有AI模型的哪些問題?
A:MACT主要解決了三個關鍵問題:參數規(guī)模限制導致的性能不足,缺乏有效的自我糾錯機制,以及在處理長篇文檔和復雜推理任務時表現不佳的問題。通過多智能體協作和創(chuàng)新的糾錯設計,系統在這些方面都有顯著改善。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。