這項由人大高瓴人工智能學(xué)院的金嘉杰、李小汐、董冠廷等研究團隊完成的創(chuàng)新研究發(fā)表于2025年7月,論文題為《Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search》。有興趣深入了解的讀者可以通過GitHub代碼庫https://github.com/ignorejjj/HiRA訪問相關(guān)資源。
當我們在網(wǎng)上搜索復(fù)雜問題時,往往需要查閱多個網(wǎng)頁、對比不同信息、甚至進行計算驗證,這個過程需要大量的思考和決策?,F(xiàn)在的AI助理雖然聰明,但面對這類復(fù)雜任務(wù)時就像一個全能選手試圖同時處理太多事情,結(jié)果往往顧此失彼。人大團隊的這項研究提出了一個全新的解決方案:讓AI像現(xiàn)實中的工作團隊一樣分工合作,有人負責(zé)制定總體計劃,有人負責(zé)具體執(zhí)行,各司其職卻又協(xié)調(diào)配合。
傳統(tǒng)的AI搜索就像一個人既要當導(dǎo)演又要當演員,還要兼任攝影師和剪輯師。這種"一人身兼數(shù)職"的模式雖然看似高效,但實際上會因為任務(wù)過多而導(dǎo)致思路混亂,最終影響工作質(zhì)量。研究團隊發(fā)現(xiàn),當AI系統(tǒng)試圖在推理過程中直接調(diào)用搜索工具、處理圖片或執(zhí)行代碼時,這些具體操作的細節(jié)會干擾其高層次的邏輯思考,就像一個指揮家在指揮交響樂時突然被要求去調(diào)試音響設(shè)備一樣。
為了解決這個問題,研究團隊開發(fā)了名為HiRA(Hierarchical ReAsoning)的框架,這個系統(tǒng)就像一個高效的企業(yè)組織架構(gòu)。在這個"企業(yè)"中,有一個負責(zé)戰(zhàn)略規(guī)劃的"總經(jīng)理"(元推理規(guī)劃器),一個負責(zé)任務(wù)分配和協(xié)調(diào)的"項目經(jīng)理"(自適應(yīng)推理協(xié)調(diào)器),還有多個各有專長的"部門主管"(領(lǐng)域?qū)iT執(zhí)行器)。每個角色都專注于自己最擅長的工作,通過有序的溝通和協(xié)作來完成復(fù)雜任務(wù)。
這種分工協(xié)作的理念源于一個簡單卻深刻的觀察:在現(xiàn)實生活中,最優(yōu)秀的團隊往往不是由全能型人才組成的,而是由專業(yè)分工明確、協(xié)作高效的專家團隊構(gòu)成的。一家成功的餐廳不會讓主廚同時兼任服務(wù)員和收銀員,同樣,AI系統(tǒng)也不應(yīng)該讓同一個模型既做抽象規(guī)劃又處理具體執(zhí)行細節(jié)。
HiRA系統(tǒng)的核心創(chuàng)新在于建立了三層清晰的分工體系。最上層是元推理規(guī)劃器,它就像一個經(jīng)驗豐富的項目經(jīng)理,負責(zé)理解用戶的復(fù)雜需求,將其分解為一系列具體可執(zhí)行的子任務(wù)。這個規(guī)劃器不需要關(guān)心具體如何搜索網(wǎng)頁或處理圖片,它只需要用自然語言描述"需要搜索ASEAN國家列表"或"需要計算兩個城市之間的距離"這樣的子任務(wù)。
中間層是自適應(yīng)推理協(xié)調(diào)器,扮演著"項目經(jīng)理"的角色。它接收來自上層的子任務(wù)描述,分析每個任務(wù)的特點和難度,然后決定派遣哪個專門團隊來處理。如果任務(wù)需要深度網(wǎng)絡(luò)搜索,它會選擇搜索專家;如果需要處理圖片或視頻,它會指派多模態(tài)專家;如果需要編程計算,它會安排代碼專家。更重要的是,這個協(xié)調(diào)器還負責(zé)將專家的工作成果轉(zhuǎn)化為易懂的形式,反饋給上層規(guī)劃器。
最底層是各個領(lǐng)域的專門執(zhí)行器,它們就像不同部門的技術(shù)專家。搜索專家擅長在網(wǎng)絡(luò)上查找信息,既能進行快速的事實查詢,也能進行深度的多輪探索;多模態(tài)專家能夠理解和分析圖片、視頻、音頻等不同類型的媒體內(nèi)容;計算推理專家則能夠編寫和執(zhí)行代碼,處理需要精確計算的任務(wù)。每個專家都專注于自己的專長領(lǐng)域,通過多輪思考和工具調(diào)用來完成分配的任務(wù)。
為了確保這個"團隊"能夠高效協(xié)作,研究團隊還設(shè)計了一套雙通道記憶機制,就像公司的知識管理系統(tǒng)。這套系統(tǒng)包含兩種類型的記憶:事實記憶和資源記憶。事實記憶存儲各個專家在工作過程中發(fā)現(xiàn)的重要信息和結(jié)論,并記錄這些信息的來源,確??勺匪菪?。資源記憶則保存有用的信息資源路徑,如網(wǎng)頁鏈接、文件位置等,為后續(xù)任務(wù)提供參考。這樣,當處理相關(guān)任務(wù)時,新的專家可以利用之前的發(fā)現(xiàn),避免重復(fù)勞動。
這種分工協(xié)作的設(shè)計帶來了顯著的優(yōu)勢。首先是思路更加清晰,上層規(guī)劃器不再被具體操作的細節(jié)所干擾,能夠?qū)W⒂谶壿嬐评砗筒呗灾贫āF浯问菆?zhí)行更加高效,每個專家都能在自己擅長的領(lǐng)域發(fā)揮最大效能。再次是擴展性更強,當需要增加新的能力時,只需要添加相應(yīng)的專家模塊,而不需要重新訓(xùn)練整個系統(tǒng)。
為了驗證這套系統(tǒng)的效果,研究團隊在四個具有挑戰(zhàn)性的深度搜索任務(wù)上進行了全面測試。這些任務(wù)涵蓋了不同的難度等級和應(yīng)用場景,包括需要多步推理的通用AI助理任務(wù)、需要網(wǎng)頁導(dǎo)航的信息檢索任務(wù)、需要事實核查的簡單問答,以及需要復(fù)雜推理的學(xué)術(shù)問題。
在通用AI助理測試中,HiRA系統(tǒng)的表現(xiàn)最為出色。這類任務(wù)通常需要綜合運用多種能力,比如搜索信息、處理文件、進行計算等。傳統(tǒng)的單一模型方法在這種復(fù)雜任務(wù)上往往力不從心,而HiRA系統(tǒng)通過合理的任務(wù)分解和專家協(xié)作,能夠系統(tǒng)性地處理各個環(huán)節(jié)。實驗結(jié)果顯示,HiRA在最困難的任務(wù)級別上達到了15.8%的準確率,而傳統(tǒng)方法只有0-5.2%的表現(xiàn)。
網(wǎng)頁導(dǎo)航任務(wù)的測試結(jié)果同樣令人鼓舞。這類任務(wù)要求AI系統(tǒng)能夠在多個網(wǎng)頁之間跳轉(zhuǎn),提取和整合信息。HiRA系統(tǒng)在不同難度級別上都表現(xiàn)出了穩(wěn)定的優(yōu)勢,特別是在需要深度探索的困難任務(wù)上,其54.2%的準確率明顯超過了其他方法的31.3-53.0%。
在事實核查任務(wù)上,HiRA系統(tǒng)展現(xiàn)了其在處理大量信息時的優(yōu)勢。雖然這類任務(wù)相對簡單,但需要快速準確地從海量信息中提取相關(guān)事實。HiRA的81.5%準確率證明了其在信息檢索和驗證方面的可靠性。
最有挑戰(zhàn)性的學(xué)術(shù)問題測試進一步證實了分工協(xié)作的價值。這些問題通常涉及數(shù)學(xué)、物理、計算機科學(xué)等多個領(lǐng)域,需要深度的推理和計算。雖然所有系統(tǒng)在這類任務(wù)上的整體表現(xiàn)都不算很高,但HiRA的14.2%準確率仍然顯示出其在處理復(fù)雜推理任務(wù)時的潛力。
為了更深入地理解系統(tǒng)各個組件的作用,研究團隊還進行了詳細的消融實驗。這些實驗就像拆解一臺精密機器,逐個移除不同部件來觀察性能變化。結(jié)果發(fā)現(xiàn),協(xié)調(diào)器的推理轉(zhuǎn)移機制最為關(guān)鍵,當移除這個功能時,系統(tǒng)性能出現(xiàn)了顯著下降。這說明合理的任務(wù)分配和專家選擇對整體效果至關(guān)重要。
記憶機制的重要性也得到了驗證,特別是在涉及文件處理的任務(wù)中。當移除記憶功能時,系統(tǒng)需要重復(fù)獲取已經(jīng)處理過的信息,導(dǎo)致效率降低。這就像團隊成員沒有共享的工作記錄,總是在重復(fù)別人已經(jīng)做過的工作。
在執(zhí)行層面,不同類型專家的貢獻各有不同。搜索專家的作用最為明顯,移除后系統(tǒng)在所有任務(wù)上都出現(xiàn)大幅性能下降,這不難理解,因為深度搜索任務(wù)本質(zhì)上都需要從網(wǎng)絡(luò)獲取信息。代碼專家的重要性在多功能任務(wù)中表現(xiàn)突出,而多模態(tài)專家雖然影響相對較小,但在涉及圖片、視頻處理的特定任務(wù)中仍然不可或缺。
效率分析結(jié)果也很有啟發(fā)性。相比于直接將所有工具集成到單一模型中的方法,HiRA系統(tǒng)實際上使用了更少的推理步驟和環(huán)境交互次數(shù)。這看似矛盾的結(jié)果實際上反映了分工協(xié)作的效率優(yōu)勢:每個專家在自己的領(lǐng)域內(nèi)能夠更快地找到解決方案,避免了單一模型在多個工具之間反復(fù)嘗試的低效模式。
研究團隊通過一個具體案例生動地展示了HiRA系統(tǒng)的工作流程。這個案例要求找出ASEAN國家中首都地理距離最遠的兩個國家。系統(tǒng)首先通過元推理規(guī)劃器分析任務(wù),認識到需要先獲取ASEAN國家列表,然后計算各首都之間的距離。隨后,協(xié)調(diào)器將信息搜索任務(wù)分配給搜索專家,將距離計算任務(wù)分配給代碼專家。
在執(zhí)行過程中,系統(tǒng)還展現(xiàn)了自我糾錯的能力。當代碼專家在處理緬甸首都名稱時遇到拼寫問題導(dǎo)致搜索失敗,協(xié)調(diào)器能夠識別這個問題,重新分配任務(wù)確認正確的拼寫,然后讓代碼專家用正確信息重新計算。這種自適應(yīng)調(diào)整能力是傳統(tǒng)單一模型方法難以實現(xiàn)的。
這項研究的意義遠超出了技術(shù)本身的創(chuàng)新。它為AI系統(tǒng)的設(shè)計提供了一個新的思路:不是追求單一模型的全能性,而是通過合理的分工協(xié)作來實現(xiàn)復(fù)雜任務(wù)的高效處理。這種理念在其他AI應(yīng)用領(lǐng)域也有廣闊的應(yīng)用前景,比如自動化軟件開發(fā)、科學(xué)研究輔助、教育個性化等場景。
從實用角度來看,HiRA系統(tǒng)的模塊化設(shè)計使其具有很強的擴展性和適應(yīng)性。當需要處理新類型的任務(wù)時,只需要開發(fā)相應(yīng)的專家模塊并接入?yún)f(xié)調(diào)框架,而不需要重新設(shè)計整個系統(tǒng)。這種設(shè)計理念對于實際部署具有重要價值,特別是在需要快速適應(yīng)新需求的商業(yè)環(huán)境中。
當然,這項研究也面臨一些挑戰(zhàn)和限制。多模型協(xié)作必然帶來額外的計算開銷和復(fù)雜性,如何在性能提升和資源消耗之間找到平衡點是一個需要持續(xù)優(yōu)化的問題。此外,不同專家之間的協(xié)調(diào)機制還有進一步完善的空間,特別是在處理更加復(fù)雜和開放性的任務(wù)時。
展望未來,這種分工協(xié)作的AI系統(tǒng)設(shè)計理念可能會催生更多創(chuàng)新應(yīng)用。我們可能會看到專門處理不同學(xué)科問題的AI專家團隊,或者能夠模擬不同角色視角的創(chuàng)意工作助手。更進一步,這種理念甚至可能影響整個AI行業(yè)的發(fā)展方向,從追求通用人工智能的單一模型轉(zhuǎn)向構(gòu)建高效協(xié)作的AI生態(tài)系統(tǒng)。
說到底,HiRA系統(tǒng)的核心價值在于證明了一個簡單而深刻的道理:有時候,最好的解決方案不是讓一個人做所有事情,而是讓合適的人做合適的事情。在AI快速發(fā)展的今天,這種"術(shù)業(yè)有專攻"的設(shè)計理念可能為我們開啟了一扇通往更智能、更高效AI系統(tǒng)的大門。對于普通用戶而言,這意味著未來的AI助理將能夠更好地理解和處理復(fù)雜需求,提供更準確、更有用的幫助。
Q&A
Q1:HiRA系統(tǒng)和傳統(tǒng)AI搜索有什么區(qū)別? A:傳統(tǒng)AI搜索像一個人既當導(dǎo)演又當演員,容易顧此失彼。HiRA系統(tǒng)則像一個專業(yè)團隊,有負責(zé)規(guī)劃的"總經(jīng)理"、負責(zé)協(xié)調(diào)的"項目經(jīng)理"和各有專長的"部門專家",通過分工協(xié)作來處理復(fù)雜任務(wù),效率更高、結(jié)果更準確。
Q2:這種分工協(xié)作的方式會不會讓AI變得更復(fù)雜難用? A:恰恰相反,對用戶來說使用會更簡單。用戶只需要向系統(tǒng)提出問題,系統(tǒng)內(nèi)部會自動進行任務(wù)分解和專家協(xié)調(diào),用戶不需要了解具體的執(zhí)行過程。就像去餐廳吃飯,你只需要點菜,不需要管廚房里是怎么分工的。
Q3:HiRA系統(tǒng)能處理哪些類型的任務(wù)? A:HiRA系統(tǒng)特別擅長需要綜合多種能力的復(fù)雜搜索任務(wù),比如需要搜索網(wǎng)頁、處理圖片視頻、進行計算驗證的問題。實驗顯示它在通用AI助理任務(wù)、網(wǎng)頁導(dǎo)航、事實核查和學(xué)術(shù)問題等方面都有顯著提升,準確率比傳統(tǒng)方法高出很多。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。