這項由西安交通大學(xué)的張健、王志遠等研究者與新加坡國立大學(xué)、南洋理工大學(xué)合作完成的研究發(fā)表于2025年3月的arXiv預(yù)印本平臺,論文編號為arXiv:2503.16905v1。有興趣深入了解的讀者可以通過GitHub項目頁面https://github.com/exoskeletonzj/MAPS獲取完整代碼和實驗數(shù)據(jù)。
當我們面對一道復(fù)雜的物理題時,通常會怎么做?可能先仔細觀察圖表,理解題目描述,回憶相關(guān)公式,最后計算得出答案。這個過程看似簡單,但實際上涉及多種不同的認知能力?,F(xiàn)在,研究團隊將這種人類解題的智慧運用到了人工智能領(lǐng)域,創(chuàng)造出了一個名為MAPS的系統(tǒng)。
MAPS的全稱是"基于大七人格理論和蘇格拉底式指導(dǎo)的多智能體框架",就像是為AI組建了一個專家團隊。每個AI專家都有自己獨特的"性格"和專長,它們相互配合,共同解決那些需要同時理解文字和圖像的復(fù)雜科學(xué)問題。這種問題在學(xué)術(shù)界被稱為"多模態(tài)科學(xué)問題",簡單說就是那些既有文字描述又有圖表示意的題目,比如物理實驗圖配上問題描述,或者化學(xué)分子結(jié)構(gòu)圖配上計算要求。
研究團隊發(fā)現(xiàn),傳統(tǒng)的AI系統(tǒng)在處理這類問題時就像是一個人試圖同時扮演所有角色——既要當觀察員看懂圖表,又要當翻譯員理解文字,還要當學(xué)者回憶知識,最后還要當計算員得出答案。這種"一人分飾多角"的方式效果并不理想,經(jīng)常會在某個環(huán)節(jié)出現(xiàn)失誤,就像一個廚師試圖同時炒菜、調(diào)味、擺盤,結(jié)果每樣都做不好。
為了解決這個問題,研究團隊從心理學(xué)的"大七人格理論"中獲得啟發(fā)。這個理論認為人的性格可以分為七個主要維度:盡責性、宜人性、外向性、神經(jīng)質(zhì)、開放性、自尊和敏感性。研究團隊巧妙地將這七種性格特質(zhì)分配給七個不同的AI智能體,讓它們各司其職,形成一個高效的協(xié)作團隊。
在這個AI團隊中,代表"盡責性"的Manager智能體就像是項目經(jīng)理,負責制定整體計劃和協(xié)調(diào)各個成員的工作。代表"宜人性"的UserProxy智能體則像是客服代表,專門負責接收用戶輸入的問題并確保信息傳達準確。代表"外向性"的Interpreter智能體性格活潑,善于觀察,專門負責"看圖說話"——將復(fù)雜的圖表轉(zhuǎn)換成詳細的文字描述。
代表"神經(jīng)質(zhì)"的Aligner智能體雖然聽起來有些消極,但它的"謹慎"特質(zhì)正是團隊所需要的,它專門負責檢查和對齊不同信息源,確保圖表描述、題目文字和問題選項之間保持一致,避免出現(xiàn)理解偏差。代表"開放性"的Scholar智能體就像是圖書管理員,擁有淵博的知識,當遇到專業(yè)概念時,它會主動查找和補充相關(guān)的科學(xué)知識。
代表"自尊"的Solver智能體充滿自信,它收集前面所有智能體提供的信息,進行最終的推理和計算,得出問題的答案。最后,代表"敏感性"的Critic智能體扮演著質(zhì)量監(jiān)督員的角色,它會仔細檢查每個步驟的工作質(zhì)量,發(fā)現(xiàn)問題就及時提出改進建議。
這個系統(tǒng)的工作流程就像是一個高效的診療團隊。當一個復(fù)雜的科學(xué)問題進入系統(tǒng)后,首先由Manager制定解決方案,UserProxy接收并整理問題信息。接著進入四個核心步驟:Interpreter仔細觀察圖表并生成詳細描述,就像放射科醫(yī)生解讀X光片;Aligner將圖表描述與題目文字進行對照檢查,就像護士核對病歷信息;Scholar查找相關(guān)的科學(xué)知識進行補充,就像??漆t(yī)生提供專業(yè)意見;最后Solver綜合所有信息得出最終答案,就像主治醫(yī)生做出診斷。
整個過程中,Critic智能體始終在旁邊觀察,運用蘇格拉底式的提問方法對每個步驟進行評估。蘇格拉底式提問是古希臘哲學(xué)家蘇格拉底創(chuàng)立的一種啟發(fā)式教學(xué)方法,通過不斷提問來引導(dǎo)思考和發(fā)現(xiàn)問題。Critic會問一些關(guān)鍵問題,比如"你的觀察依據(jù)是什么?""這個推理邏輯合理嗎?""有沒有考慮其他可能性?"如果發(fā)現(xiàn)某個步驟存在問題,它就會要求相關(guān)智能體重新思考和改進,確保最終答案的準確性。
為了驗證這個系統(tǒng)的效果,研究團隊在三個重要的科學(xué)問題數(shù)據(jù)集上進行了大規(guī)模測試。這三個數(shù)據(jù)集分別是MathVista(包含數(shù)學(xué)和一般科學(xué)問題)、OlympiadBench(包含奧林匹克級別的數(shù)學(xué)和物理題)和EMMA(涵蓋數(shù)學(xué)、物理、化學(xué)三個學(xué)科)。這些數(shù)據(jù)集就像是不同難度的考試,從基礎(chǔ)題目到奧賽級別的超難題目都有覆蓋。
測試結(jié)果讓人印象深刻。MAPS系統(tǒng)在所有任務(wù)上的平均表現(xiàn)比目前最好的AI系統(tǒng)提升了15.84%,這在AI領(lǐng)域是一個相當顯著的進步。更令人驚訝的是,MAPS甚至在整體表現(xiàn)上超越了人類專家3.58%,這意味著在某些類型的科學(xué)問題解決上,這個AI團隊已經(jīng)達到甚至超越了人類專家的水平。
具體來看各個學(xué)科的表現(xiàn),在MathVista數(shù)據(jù)集上,MAPS達到了79.80%的準確率,比之前最好的系統(tǒng)提升了5個百分點。在更具挑戰(zhàn)性的OlympiadBench數(shù)據(jù)集上,MAPS在數(shù)學(xué)問題上達到了58.00%的準確率,在物理問題上達到了31.14%的準確率,這些都大幅超越了以往的記錄。在EMMA數(shù)據(jù)集上,MAPS在數(shù)學(xué)、物理、化學(xué)三個學(xué)科上都取得了顯著進步,其中數(shù)學(xué)達到了71.00%,物理達到了51.00%,化學(xué)達到了58.00%的準確率。
為了更深入地理解系統(tǒng)的工作機制,研究團隊還做了詳細的分析實驗。他們發(fā)現(xiàn),在不同的數(shù)據(jù)集上,各個智能體承擔的工作量和出錯頻率是不同的。在相對簡單的MathVista數(shù)據(jù)集上,系統(tǒng)很少需要重復(fù)修正,大部分問題都能一次性解決。但在更具挑戰(zhàn)性的EMMA和OlympiadBench數(shù)據(jù)集上,Solver智能體(負責最終推理計算的那個)需要接受最多的反饋和修正,這說明復(fù)雜問題的最終推理步驟確實是最容易出錯的環(huán)節(jié)。
研究團隊還進行了"移除實驗",就像拆掉團隊中的某個成員,看看會對整體表現(xiàn)產(chǎn)生什么影響。結(jié)果發(fā)現(xiàn),如果移除Interpreter智能體(負責看圖說話的那個),系統(tǒng)性能下降最為嚴重,平均下降了16.09%。這說明在多模態(tài)科學(xué)問題中,準確理解圖表信息是最關(guān)鍵的步驟。相比之下,移除Critic智能體的影響相對較小,性能下降7.05%,但這個數(shù)字仍然證明了質(zhì)量監(jiān)督的重要性。
令人欣慰的是,MAPS系統(tǒng)表現(xiàn)出了良好的通用性。研究團隊用不同的基礎(chǔ)AI模型(包括GPT-4o、Gemini 2.0 Flash、Qwen2.5-VL-72B等)作為底層支撐,發(fā)現(xiàn)MAPS框架都能帶來顯著改進。這就像是一個好的管理制度,無論員工是誰,都能讓團隊發(fā)揮出更好的效果。
在處理效率方面,MAPS系統(tǒng)也展現(xiàn)出了有趣的特點。選擇題類型的問題解決得最快,因為答案選項提供了額外的提示信息。需要填寫整數(shù)答案的問題效率也很高,可能因為這類問題通常計算過程相對簡單。相反,開放式問題需要更多的思考時間,因為需要從零開始構(gòu)建完整的解答。隨著問題難度的增加,解決時間也會相應(yīng)延長,這符合人類解題的一般規(guī)律。
這項研究的意義遠不止于提高AI的解題能力。它為人工智能的發(fā)展提供了一個全新的思路:與其追求單一模型的全能,不如讓多個專門化的AI智能體協(xié)作配合。這種思路在很多實際應(yīng)用場景中都有重要價值,比如醫(yī)療診斷中需要影像科醫(yī)生、化驗科醫(yī)生、臨床醫(yī)生等多個專業(yè)人員的協(xié)作,金融分析中需要數(shù)據(jù)分析師、風險評估師、投資顧問等不同角色的配合。
研究團隊認為,這種多智能體協(xié)作的方式更符合人類認知的自然規(guī)律。當我們面對復(fù)雜問題時,大腦中不同的區(qū)域會分工合作:視覺皮層負責處理圖像信息,語言區(qū)域負責理解文字,記憶區(qū)域負責提取相關(guān)知識,執(zhí)行控制區(qū)域負責整合信息并做出決策。MAPS系統(tǒng)正是模擬了這種認知分工的模式。
當然,這個系統(tǒng)也存在一些限制。首先,多個智能體之間的協(xié)調(diào)需要更多的計算資源和時間成本。其次,系統(tǒng)的性能很大程度上依賴于每個智能體的質(zhì)量,如果某個環(huán)節(jié)出現(xiàn)系統(tǒng)性錯誤,可能會影響整體表現(xiàn)。此外,不同類型的問題可能需要不同的協(xié)作策略,如何動態(tài)調(diào)整智能體間的協(xié)作模式還有待進一步研究。
從更廣闊的視角來看,MAPS代表了人工智能發(fā)展的一個重要趨勢:從單一的大型模型轉(zhuǎn)向多個專門化模型的協(xié)作。這種方式不僅能夠提高性能,還能增強系統(tǒng)的可解釋性和可控性。每個智能體的職責明確,出現(xiàn)問題時更容易定位和修復(fù)。同時,這種模塊化的設(shè)計也使得系統(tǒng)更容易升級和擴展,可以根據(jù)需要添加新的專門智能體或替換現(xiàn)有的組件。
說到底,MAPS系統(tǒng)的成功證明了一個樸素的道理:團隊合作的力量往往超過個人英雄主義。正如現(xiàn)實生活中復(fù)雜的項目需要不同專業(yè)背景的人員協(xié)作完成一樣,復(fù)雜的AI任務(wù)也需要不同專長的智能體共同努力。這個研究不僅在技術(shù)上取得了突破,更為AI系統(tǒng)的設(shè)計提供了新的哲學(xué)思考:與其追求無所不能的超級AI,也許我們更應(yīng)該關(guān)注如何讓不同的AI更好地協(xié)作,發(fā)揮各自的專長。
對于普通人來說,MAPS系統(tǒng)的應(yīng)用前景值得期待。未來,這種多智能體協(xié)作的模式可能會出現(xiàn)在在線教育平臺上,幫助學(xué)生解決復(fù)雜的科學(xué)問題;可能會集成到專業(yè)軟件中,協(xié)助工程師和科研人員進行復(fù)雜的分析和設(shè)計;也可能會成為智能助手的核心技術(shù),讓AI能夠更好地理解和回應(yīng)我們的復(fù)雜需求。隨著技術(shù)的不斷完善,我們有理由相信,這種"AI團隊"將在更多領(lǐng)域發(fā)揮重要作用,成為人類智慧的得力助手。
Q&A
Q1:MAPS是什么?它是如何工作的? A:MAPS是一個由7個不同"性格"的AI智能體組成的協(xié)作系統(tǒng),專門用于解決包含圖表和文字的復(fù)雜科學(xué)問題。它的工作方式就像專家團隊:一個智能體負責看圖,一個負責理解文字,一個負責查找知識,一個負責最終計算,還有一個負責質(zhì)量監(jiān)督,通過分工協(xié)作來提高解題準確率。
Q2:MAPS會不會比人類專家更厲害? A:在特定的科學(xué)問題解決任務(wù)上,MAPS已經(jīng)超越了人類專家平均水平3.58%。但這并不意味著它在所有方面都比人類強,它主要是在處理標準化科學(xué)題目方面表現(xiàn)優(yōu)異,而人類在創(chuàng)造性思維、直覺判斷等方面仍有優(yōu)勢。
Q3:普通人能用到MAPS技術(shù)嗎? A:目前MAPS還是研究階段的技術(shù),代碼已在GitHub開源。未來這種多智能體協(xié)作的理念可能會應(yīng)用到在線教育、智能輔導(dǎo)、專業(yè)分析軟件等場景中,幫助學(xué)生解決復(fù)雜科學(xué)問題或協(xié)助專業(yè)人員進行復(fù)雜分析工作。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。