阿里巴巴集團與同義實驗室(Tongyi Lab)的研究團隊在2025年5月推出了一項令人矚目的研究成果:MASKSEARCH預訓練框架。這項由吳威琦、關(guān)鑫(共同第一作者)、黃申、姜勇、謝鵬軍、黃飛、曹久新、趙海和周井然共同完成的研究,于2025年5月27日在arXiv預印本平臺上發(fā)布(arXiv:2505.20285v2),代碼已在GitHub上開源(https://github.com/Alibaba-NLP/MaskSearch)。這篇文章探討了如何讓大型語言模型(LLMs)更智能地使用搜索工具,就像我們?nèi)祟愑龅讲欢膯栴}時會打開搜索引擎一樣自然。
想象一下,當你在寫一篇關(guān)于某個歷史人物的報告,但突然忘記了他的出生年份或重要成就。你會怎么做?大多數(shù)人會立即打開搜索引擎,查找所需信息,然后繼續(xù)你的工作。而傳統(tǒng)的AI語言模型則像一個閉門造車的學者,只能依靠自己"腦子里"已有的知識回答問題,這就是為什么它們常常會"胡說八道"(在AI領域稱為"幻覺")。
MASKSEARCH提出了一個巧妙的想法:通過特殊的預訓練方式,讓AI學會像人類一樣,在需要時主動去搜索信息。這個過程就像教一個小孩子學習解決問題:不是要求他記住所有答案,而是教他如何在需要時找到答案。研究團隊設計了一種名為"檢索增強掩碼預測"(RAMP)的任務,讓AI模型學習填補文本中被掩蓋的關(guān)鍵信息,但不是靠猜,而是通過主動搜索和推理來找到答案。
這項研究的意義不僅在于讓AI變得更"聰明",更在于讓它成為一個會思考、會使用工具的"智能助手",能夠處理更復雜、更開放的問題,并提供更可靠的答案。無論是幫助醫(yī)生查詢最新醫(yī)學研究,還是協(xié)助學生進行復雜的知識探索,MASKSEARCH都展示了AI如何在人類與知識之間搭建更智能的橋梁。
一、傳統(tǒng)檢索增強模型的局限性
想象一下你有一位非常博學的朋友,他記憶力驚人,知識面廣泛。然而,當你問他一個超出他知識范圍的問題時,他會怎么做?一個真正聰明的人會說:"我不確定,讓我查一下",然后去找相關(guān)資料。而不那么聰明的人可能會硬著頭皮猜測,結(jié)果往往不準確。
在AI世界中,大型語言模型(LLMs)就像那些博學的朋友,它們在訓練過程中吸收了海量知識,但面臨同樣的局限性:它們不可能知道所有事情,特別是最新發(fā)生的事件或非常專業(yè)的領域知識。
傳統(tǒng)的檢索增強語言模型(RALMs)試圖解決這個問題,方法是在AI系統(tǒng)中添加一個專門的"檢索模塊",就像給AI配備了一個搜索引擎助手。這確實提高了模型回答問題的準確性,但存在一個關(guān)鍵問題:檢索(搜索)和生成(回答)是分開的,AI不能像人類那樣主動決定何時需要搜索、搜索什么、以及如何利用搜索結(jié)果進一步推理。
阿里巴巴的研究團隊指出,這種分離限制了模型的適應性,使其無法在多步驟任務中主動獲取所需信息。比如,回答"哪位導演執(zhí)導了《理性與感性》,他在哪所大學完成本科學業(yè)?"這樣的問題,需要先查找導演是誰,再查找這位導演的教育背景,這就是一個多步驟的搜索推理過程。
近年來,Agent(代理)技術(shù)的發(fā)展讓大型語言模型能夠自主使用工具進行檢索、規(guī)劃和推理。雖然基于提示的工作流(prompt-based workflows)已被廣泛使用,但它們效率低下且缺乏靈活性。而訓練基于LLM的搜索代理提供了更有前途的解決方案,但當前方法主要依賴特定任務的數(shù)據(jù),這限制了它們在更廣泛任務范圍內(nèi)的泛化能力。
二、MASKSEARCH:一種全新的預訓練框架
研究團隊受到了一個簡單而有力的想法啟發(fā):通過預訓練,讓語言模型學會"什么時候該搜索"以及"如何搜索和利用信息"。就像我們教孩子學習時,不僅教他們知識,還教他們?nèi)绾尾檎液屠觅Y源。
MASKSEARCH框架的核心是一個名為"檢索增強掩碼預測"(RAMP)的預訓練任務。這聽起來很復雜,但其實非常直觀。想象一本書中有些關(guān)鍵詞被涂黑了,你需要通過查閱其他資料來填補這些空缺。這就是RAMP任務的本質(zhì):模型需要填補文本中被掩蓋的關(guān)鍵信息,但不是靠猜,而是通過主動搜索外部知識來找到答案。
具體來說,研究團隊從維基百科文章中提取段落,然后識別并掩蓋其中的"顯著片段"(如人名、地點、日期、數(shù)字等),創(chuàng)建了大量訓練樣本。然后,模型被訓練來填補這些被掩蓋的信息,方法是通過搜索工具查找相關(guān)信息,并利用這些信息進行推理和回答。
這個過程培養(yǎng)了模型的多種能力: 1. 任務分解能力:理解問題并將其分解為可管理的子任務 2. 搜索工具使用能力:知道何時需要搜索,以及如何構(gòu)建有效的搜索查詢 3. 基于觀察的推理能力:分析搜索結(jié)果并從中提取相關(guān)信息 4. 綜合能力:將多個信息源整合起來回答原始問題
重要的是,這些能力是高度可遷移的,這意味著在RAMP任務上訓練過的模型能夠更好地處理各種需要外部知識的下游任務,如開放域問答等。
三、訓練策略:讓AI學會思考和搜索
MASKSEARCH框架采用了兩階段訓練方法:首先是RAMP預訓練,然后是下游任務的微調(diào)。在RAMP預訓練階段,研究團隊采用了兩種主要的訓練方法:監(jiān)督微調(diào)(SFT)和強化學習(RL)。
### 監(jiān)督微調(diào):教會AI正確的思考和搜索步驟
想象你在教一個學生解決數(shù)學問題。你不僅告訴他答案是什么,還展示解題的每一個步驟。監(jiān)督微調(diào)就是這樣工作的:為AI提供詳細的"思考鏈"(Chain-of-Thought,CoT)軌跡,展示如何一步步思考和搜索,直到找到答案。
研究團隊創(chuàng)新性地結(jié)合了基于代理的方法和基于蒸餾的方法來構(gòu)建CoT數(shù)據(jù):
首先,他們設計了一個多代理系統(tǒng),包括: - 規(guī)劃代理(Planner Agent):分析任務并將其分解為子任務,生成初始搜索查詢 - 重寫代理(Rewriter Agent):優(yōu)化生成的查詢以提高知識檢索質(zhì)量,并調(diào)用搜索工具 - 觀察代理(Observer Agent):審查搜索結(jié)果和已采取的步驟,確定任務是否可以解決或是否需要額外步驟
這些代理協(xié)同工作,產(chǎn)生高質(zhì)量的推理軌跡。每個生成的軌跡都由"LLM作為評判"進行評估,只有正確填補所有掩碼的軌跡才會被收錄到訓練數(shù)據(jù)集中。
然后,為了快速擴展數(shù)據(jù)集同時保持高數(shù)據(jù)質(zhì)量,研究團隊采用了迭代生成策略。他們使用已訓練的教師模型代替多代理方法。在第j次迭代中,當前數(shù)據(jù)集Dj用于微調(diào)模型πθj-1,得到更新的策略πθj。這個更新的策略融合了從Dj學到的推理軌跡和搜索策略,然后作為新的教師模型πtj+1用于合成下一輪數(shù)據(jù)集Dj+1。
這種迭代方法確保模型不斷從越來越復雜和多樣化的推理軌跡中學習,每一輪迭代都建立在前一輪能力的基礎上。通過這種方式,研究團隊構(gòu)建了一個包含1000萬個CoT樣本(140億個標記)的大規(guī)模數(shù)據(jù)集,驗證了MASKSEARCH作為預訓練框架的可擴展性。
### 強化學習:通過實踐和反饋不斷改進
監(jiān)督微調(diào)有點像按照食譜學習烹飪,而強化學習則更像是實際下廚并根據(jù)味道調(diào)整做法。在強化學習中,模型通過嘗試和錯誤學習,根據(jù)其行為的結(jié)果(獎勵)來改進其策略。
研究團隊采用了動態(tài)采樣策略優(yōu)化(DAPO)算法進行強化學習訓練,并設計了一個混合獎勵系統(tǒng),包括: - 格式獎勵:評估模型響應是否符合指定的答案格式 - 答案獎勵:評估模型生成的答案與標準答案的一致性
答案獎勵有三種變體: 1. 基于標記級別召回率的獎勵:使用標記級別召回率作為獎勵指標 2. 帶答案長度懲罰的標記級別召回率獎勵:引入對答案長度的懲罰以防止獎勵黑客行為 3. 基于模型的獎勵:使用Qwen2.5-72B-Instruct模型作為評判,評估生成答案與標準答案的一致性
實驗表明,基于模型的獎勵能夠有效解決獎勵黑客問題,并在RL訓練中表現(xiàn)出顯著的穩(wěn)定性和有效性。
### 課程學習:循序漸進,從簡單到復雜
課程學習是一種根據(jù)難度對訓練樣本進行排序,并以遞增方式向模型呈現(xiàn)的訓練策略。在RAMP任務中,被掩蓋的片段數(shù)量k被用作難度的主要指標。
與隨機抽樣不同,課程學習方法首先從包含較少掩碼片段的簡單任務開始,然后逐步引入具有更多掩碼片段的復雜任務。這種方法使模型能夠首先學習基本推理技能,然后逐步建立處理更具挑戰(zhàn)性場景的能力。
實驗證明,這種課程學習方法能夠幫助模型更好地適應任務的遞增復雜性,從而提高性能和培養(yǎng)更強大的推理能力。
四、實驗結(jié)果:MASKSEARCH的強大性能
研究團隊在多個開放域問答數(shù)據(jù)集上評估了MASKSEARCH框架的性能,包括HotpotQA、FanoutQA、Musique、2WikiMultiHopQA、Bamboogle和FreshQA。他們使用了兩個系列的基礎模型:QWEN2.5(1.5B、3B和7B)和LLAMA3(1B、3B和8B)。
實驗結(jié)果令人印象深刻,主要發(fā)現(xiàn)包括:
### RAMP預訓練顯著提升了搜索代理的性能
將RAMP作為預訓練任務顯著增強了模型在多個開放域問答數(shù)據(jù)集上的表現(xiàn)。在領域內(nèi)數(shù)據(jù)集(如HotpotQA)上,RAMP提供了穩(wěn)定的模型召回率改進。在領域外數(shù)據(jù)集上,改進更為顯著。例如,在Bamboogle數(shù)據(jù)集上,Qwen2.15-1.5B模型與僅進行下游任務訓練相比,實現(xiàn)了11.78的大幅提升,而LLAMA模型則獲得了令人印象深刻的15.12增益。
此外,較小的模型(如Qwen2.5-1.5B)能夠在各種任務上表現(xiàn)出與更大模型相當?shù)男阅?。這證明RAMP作為一個可擴展的學習信號,可以幫助模型更好地增強其分解問題和與搜索工具交互的能力。
### 強化學習在RAMP上展現(xiàn)出比監(jiān)督微調(diào)更高的性能提升
盡管監(jiān)督微調(diào)(SFT)被證明能有效提高搜索代理性能,但強化學習(RL)展示了在應用于RAMP任務時實現(xiàn)更高上限的潛力。RL與RAMP的結(jié)合在下游任務上比單獨使用SFT顯示出更好的收益,特別是在領域內(nèi)數(shù)據(jù)集HotpotQA上,在不同規(guī)模的模型上實現(xiàn)了3到5個點的改進。
這一發(fā)現(xiàn)突顯了探索強化學習等高級訓練技術(shù)的重要性,以充分利用RAMP在增強RALM性能方面的優(yōu)勢。
### 可擴展性表現(xiàn)優(yōu)異
為驗證MASKSEARCH作為預訓練任務的擴展?jié)摿?,研究團隊進行了實驗,使用在第一階段訓練不同步數(shù)的模型,并評估它們在隨后的下游任務微調(diào)后的性能。
實驗表明,小型模型(1B、1.5B)在經(jīng)過預訓練階段后表現(xiàn)出顯著的性能提升。這表明RAMP任務有效增強了模型的代理搜索能力。對于更大的模型,擴大數(shù)據(jù)集規(guī)模也是有效的,但性能增益不如小型模型那么顯著。
這可能是因為用于訓練7B模型的數(shù)據(jù)是通過自我進化過程生成的,相比于其自身的預測可能缺乏多樣性和復雜性。因此,訓練數(shù)據(jù)的質(zhì)量和多樣性是決定模型在SFT期間性能上限的關(guān)鍵因素。
### 課程學習的有效性
研究深入探討了課程學習在RAMP和下游任務訓練中的有效性。從RAMP數(shù)據(jù)中每個掩碼數(shù)量抽樣10K數(shù)據(jù),從HotpotQA抽樣6K數(shù)據(jù),以保持預訓練和下游任務之間的適當比例。此外,從剩余RAMP數(shù)據(jù)中抽樣500個QA對作為驗證集,每個掩碼數(shù)量100個數(shù)據(jù)點。
研究發(fā)現(xiàn),增加掩碼跨度數(shù)量會導致驗證集上的性能顯著改善。盡管初始性能落后,但課程學習方法最終優(yōu)于混合訓練策略(默認方法是將所有數(shù)據(jù)混合在一起)。在驗證集中觀察到的優(yōu)勢有潛力在微調(diào)后延續(xù)到下游任務。
五、MASKSEARCH的創(chuàng)新之處
MASKSEARCH框架引入了幾項關(guān)鍵創(chuàng)新,使其在檢索增強語言模型和搜索增強推理模型領域中脫穎而出:
### 與傳統(tǒng)RALMs的根本區(qū)別
相比傳統(tǒng)的檢索增強語言模型(RALMs),MASKSEARCH有幾個關(guān)鍵優(yōu)勢:
首先,在檢索標記數(shù)量方面,MASKSEARCH操作的檢索空間實際上是無限的,這與傳統(tǒng)模型受限于預定義檢索語料庫大小的情況形成鮮明對比。
其次,MASKSEARCH采用單模型架構(gòu),而不是傳統(tǒng)RALMs的雙模型設置。這種簡化不僅減少了計算開銷,還增強了推理過程的連貫性和一致性。
通過以代理方式與搜索引擎交互,MASKSEARCH支持多步推理,這是處理復雜查詢的關(guān)鍵能力,這些復雜查詢需要整合來自多個來源的信息,而不能在單個步驟中解決。
### 與Search-R1的比較與區(qū)別
與MASKSEARCH最相似的工作是Search-R1,但兩者之間存在幾個關(guān)鍵區(qū)別:
雖然兩個模型都在有效無限的檢索空間中運行并支持多步推理,但MASKSEARCH采用兩階段端到端訓練過程,可以適應SFT和RL。這與Search-R1形成對比,后者使用單階段強化學習方法訓練其檢索器。
MASKSEARCH中的兩階段端到端訓練允許更一般地優(yōu)化代理能力,從而更好地與LLM集成并提高性能。
六、掩碼策略與獎勵設計的深入探討
### 掩碼策略的影響
研究團隊深入研究了掩碼方法對RAMP任務的影響。除了顯著跨度掩碼外,許多先前研究還調(diào)查了在掩碼語言建模(MLM)中選擇更具挑戰(zhàn)性掩碼的效果,包括使用點互信息(PMI)和困惑度(PPL)來評估掩碼跨度的難度。
對于自回歸模型,研究團隊探索了基于PPL的掩碼策略。他們通過計算困惑度(即在原始上下文中恢復掩碼跨度時的損失)來衡量掩碼跨度對模型的難度。具體來說,他們貪婪地選擇所有未掩碼顯著跨度中PPL最高的跨度,直到滿足所需的掩碼數(shù)量。
為了驗證這種策略相對于原始隨機掩碼策略的有效性,研究團隊使用基于代理的軌跡構(gòu)建方法準備了一個40K RAMP數(shù)據(jù)集用于SFT,并抽樣了6K HotPotQA軌跡用于第二階段訓練。
實驗結(jié)果表明,基于PPL的掩碼策略在FanoutQA數(shù)據(jù)集上帶來了性能提升,突顯了選擇更具挑戰(zhàn)性掩碼的有效性。然而,HotpotQA和Bamboogle數(shù)據(jù)集上的實驗結(jié)果表明,僅僅增加掩碼跨度的難度可能會導致性能下降。這表明模型可能沒有真正掌握任務,因為難度增加了。另一方面,課程學習(逐步增加訓練任務的復雜性)被證明是有益的。在第二階段訓練后,模型在所有三個數(shù)據(jù)集上都表現(xiàn)出增強的性能,突顯了其在增強模型學習進度以處理復雜任務方面的有效性。
### 不同RL獎勵的性能
研究團隊研究了不同RL獎勵對模型性能的影響。結(jié)果顯示,使用基于標記級別召回率的獎勵訓練的模型通過向答案添加大量不相關(guān)信息來"黑客攻擊"指標,顯著增加響應長度。這導致與其他RL獎勵相比,實際性能顯著下降。
雖然基于懲罰的獎勵可以顯著減少答案長度,但性能仍然受到影響,而且模型仍然可以在有限答案長度的約束內(nèi)通過使用枚舉來進行黑客攻擊。
基于模型的獎勵在其他兩種獎勵方法上提供了顯著的改進(34.71和19.48),有效解決了獎勵黑客問題,并在RL訓練中展示出顯著的穩(wěn)定性和有效性。這些優(yōu)勢最終促使研究團隊采用基于模型的獎勵方法進行訓練。
七、案例研究:RAMP如何工作
為了說明模型如何通過檢索增強掩碼預測任務(RAMP)獲得檢索和推理能力,研究提供了一個案例研究。在這個例子中,與David Henry Hoelscher相關(guān)的聯(lián)盟、球隊和大學信息被掩蓋。模型需要自主使用搜索引擎進行推理并填補缺失信息。
開始時,模型制定搜索計劃,包括個人職業(yè)生涯、球隊和大學的詳細信息。在第一步中,它檢索與他的職業(yè)和球隊相關(guān)的信息。獲取初始搜索結(jié)果后,模型根據(jù)檢索到的數(shù)據(jù)識別與該個人相關(guān)的聯(lián)盟,并啟動另一次搜索以確認他所效力的球隊。
在第二次搜索后,模型成功推斷出他的球隊隸屬關(guān)系,并發(fā)現(xiàn)先前的搜索結(jié)果包含了他的大學信息。然后它請求另一次搜索來驗證這些數(shù)據(jù)。完成第三次搜索后,搜索代理有效收集了所有必需信息并填補了掩碼。
通過RAMP任務,模型不僅學會了執(zhí)行檢索,還掌握了使用檢索到的信息進行進一步推理和驗證,直到獲得完整答案。這個案例清晰地展示了MASKSEARCH如何培養(yǎng)模型的多步驟推理和工具使用能力。
八、總結(jié)與未來展望
MASKSEARCH框架代表了一種創(chuàng)新方法,旨在增強LLM的代理搜索能力,特別是通過兩階段訓練方法?;跈z索增強掩碼預測(RAMP)預訓練任務,模型可以通過SFT或RL進行訓練,在下游任務訓練前獲取通用能力。
廣泛的分析表明,將RAMP作為預訓練任務顯著增強了模型在各種開放域問答數(shù)據(jù)集上的性能。它不僅提供了領域內(nèi)下游任務召回分數(shù)的穩(wěn)定改進,還在領域外基準測試上取得了顯著收益。研究還驗證了MASKSEARCH的可擴展性,通過構(gòu)建1000萬預訓練數(shù)據(jù)集用于SFT。
此外,盡管RL通常不用于預訓練,但實驗表明它通過預訓練實現(xiàn)了顯著的性能增益。它甚至表現(xiàn)出比使用SFT更大的潛力來優(yōu)化模型性能,在后訓練后達到更高的上限。這些發(fā)現(xiàn)突顯了MASKSEARCH在增強LLM搜索代理的通用代理搜索能力方面的有效性,無論其大小、類型或采用的特定訓練方法如何。
然而,研究也存在一些局限性。盡管實證成功和直觀動機,但仍有幾個方面需要進一步調(diào)查。首先,研究團隊僅使用搜索工具進行知識檢索,以堅持RALM的概念。然而,代理能夠利用各種工具,研究團隊相信RAMP任務可以推廣到包含多種工具的使用。
未來的工作可以探索工具集的多樣性,潛在地將應用范圍擴展到開放域QA之外的其他場景。此外,雖然方法已經(jīng)證明了有希望的結(jié)果,但需要更深入的理論分析來充分理解導致其有效性的因素。
總的來說,MASKSEARCH提供了一種可擴展、可轉(zhuǎn)移的框架,增強了LLM基于搜索代理的能力,為多跳推理和檢索增強任務領域的進展鋪平了道路。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術(shù)普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關(guān)系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。