在人工智能快速發(fā)展的今天,大語(yǔ)言模型(LLM)如同一位博學(xué)的朋友,可以回答各種各樣的問(wèn)題。但就像人類(lèi)一樣,這些模型也有"知識(shí)盲區(qū)",有時(shí)會(huì)因?yàn)橹R(shí)有限而胡編亂造(我們稱(chēng)之為"幻覺(jué)")。2025年5月22日,由中國(guó)人民大學(xué)高瓴人工智能學(xué)院的宋華彤、江金浩、田文青等研究團(tuán)隊(duì)發(fā)表在arXiv(arXiv:2505.17005v1)上的研究"R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning",提出了一個(gè)創(chuàng)新的解決方案,幫助大語(yǔ)言模型更智能地平衡使用自身知識(shí)和外部信息。
想象一下,當(dāng)你不確定某個(gè)問(wèn)題的答案時(shí),你會(huì)怎么做?你可能先嘗試回憶自己所知道的信息,如果發(fā)現(xiàn)知識(shí)不足,才會(huì)轉(zhuǎn)向谷歌搜索。更重要的是,一旦你通過(guò)搜索獲取了新知識(shí),你會(huì)把它記在腦子里,下次遇到類(lèi)似問(wèn)題就不必再次搜索了。研究團(tuán)隊(duì)希望大語(yǔ)言模型也能像人類(lèi)一樣擁有這種能力。
目前的大語(yǔ)言模型雖然強(qiáng)大,但它們的知識(shí)是"靜態(tài)"的——僅限于訓(xùn)練時(shí)學(xué)到的內(nèi)容。研究人員開(kāi)發(fā)了各種方法讓模型獲取外部信息,這類(lèi)技術(shù)被稱(chēng)為"檢索增強(qiáng)生成"(RAG)。然而,現(xiàn)有的RAG方法要么成本高昂、泛化能力差,要么完全忽視模型已有的內(nèi)部知識(shí)。就像一個(gè)有選擇性失憶的人,明明知道答案卻還要去查資料,既浪費(fèi)時(shí)間又不夠高效。
人民大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)的R1-Searcher++框架就像是給大語(yǔ)言模型安裝了一個(gè)更智能的"大腦操作系統(tǒng)",它能夠:1)判斷什么時(shí)候應(yīng)該使用自己的知識(shí),什么時(shí)候需要搜索外部信息;2)像人類(lèi)一樣,把新獲取的外部知識(shí)轉(zhuǎn)化為內(nèi)部記憶,不斷豐富自己的知識(shí)庫(kù)。這就像是模型不僅學(xué)會(huì)了如何更有效地"查資料",還學(xué)會(huì)了如何"記筆記"和"溫故知新"。
一、R1-Searcher++的工作原理:兩階段訓(xùn)練策略
R1-Searcher++采用了一個(gè)兩階段的訓(xùn)練策略,就像先教會(huì)孩子基本的閱讀技能,然后再教他如何在圖書(shū)館中查找和記憶信息。
第一階段是"SFT冷啟動(dòng)"(SFT Cold-start)。在這個(gè)階段,研究人員使用精心篩選的數(shù)據(jù)對(duì)模型進(jìn)行初步訓(xùn)練,就像是給模型提供一本"如何正確提問(wèn)和回答"的教科書(shū)。這個(gè)階段主要是讓模型學(xué)習(xí)正確的格式,比如什么時(shí)候使用內(nèi)部知識(shí)(用標(biāo)簽標(biāo)記),什么時(shí)候需要檢索外部信息(用標(biāo)簽標(biāo)記)。這就像是教會(huì)模型一種新的語(yǔ)言或協(xié)議,讓它明白應(yīng)該怎樣表達(dá)"我知道這個(gè)答案"和"我需要查找這個(gè)信息"。
第二階段是"動(dòng)態(tài)知識(shí)獲取的強(qiáng)化學(xué)習(xí)"(RL for Dynamic Knowledge Acquisition)。在這個(gè)階段,模型就像一個(gè)在復(fù)雜環(huán)境中學(xué)習(xí)的探險(xiǎn)家,通過(guò)不斷嘗試和獲得反饋來(lái)優(yōu)化自己的行為。研究人員設(shè)計(jì)了一套獎(jiǎng)勵(lì)機(jī)制,當(dāng)模型做出正確決策時(shí)(例如,在知識(shí)充足時(shí)使用內(nèi)部知識(shí),在知識(shí)不足時(shí)尋求外部幫助)就給予獎(jiǎng)勵(lì),引導(dǎo)模型形成更有效的行為模式。
這個(gè)階段有兩個(gè)關(guān)鍵創(chuàng)新:首先是"內(nèi)部知識(shí)利用激勵(lì)"(Internal Knowledge Utilization Encouragement),鼓勵(lì)模型優(yōu)先使用自己的知識(shí),只有在必要時(shí)才求助于外部資源,就像鼓勵(lì)學(xué)生先思考再查書(shū);其次是"外部知識(shí)記憶機(jī)制"(External Knowledge Memorization),讓模型能夠?qū)z索到的外部信息轉(zhuǎn)化為內(nèi)部知識(shí),不斷豐富自己的知識(shí)庫(kù),就像人類(lèi)學(xué)習(xí)新知識(shí)后能記在腦子里一樣。
二、R1-Searcher++的具體實(shí)現(xiàn):像教孩子學(xué)習(xí)一樣訓(xùn)練AI
讓我們深入了解這個(gè)框架是如何一步步實(shí)現(xiàn)的。想象一下,R1-Searcher++就像是一個(gè)正在學(xué)習(xí)如何高效獲取和使用知識(shí)的學(xué)生,研究人員則是設(shè)計(jì)課程和評(píng)估標(biāo)準(zhǔn)的老師。
在第一階段(SFT冷啟動(dòng))中,研究人員使用"拒絕采樣"(reject sampling)方法收集符合格式要求的數(shù)據(jù)。他們只保留那些正確使用了和標(biāo)簽的響應(yīng),教模型使用合適的格式表達(dá)自己的思考過(guò)程。這就像是教學(xué)生使用正確的語(yǔ)法和句式來(lái)表達(dá)自己的想法。
進(jìn)入第二階段(強(qiáng)化學(xué)習(xí)),研究人員設(shè)計(jì)了一套精巧的獎(jiǎng)勵(lì)函數(shù),包括三個(gè)主要部分:
1. 格式獎(jiǎng)勵(lì)(Format reward):確保模型的回應(yīng)格式正確。當(dāng)模型需要調(diào)用外部檢索器時(shí),它必須在...標(biāo)簽內(nèi)明確提出查詢(xún),并且不能在沒(méi)有先調(diào)用檢索的情況下直接生成文檔內(nèi)容。這就像教導(dǎo)學(xué)生在引用資料時(shí)必須注明出處。
2. 答案獎(jiǎng)勵(lì)(Answer reward):評(píng)估最終答案的正確性。研究人員使用了覆蓋精確匹配(Cover Exact Match,CEM)指標(biāo)來(lái)計(jì)算答案獎(jiǎng)勵(lì),并要求答案不超過(guò)10個(gè)詞,以防止模型通過(guò)生成冗長(zhǎng)的答案來(lái)"欺騙"評(píng)估系統(tǒng)。這就像要求學(xué)生的答案既準(zhǔn)確又簡(jiǎn)潔。
3. 分組獎(jiǎng)勵(lì)(Group reward):鼓勵(lì)模型減少對(duì)外部檢索的依賴(lài),提高推理效率。研究人員計(jì)算了同一問(wèn)題下正確回答中調(diào)用檢索器次數(shù)的標(biāo)準(zhǔn)差,獎(jiǎng)勵(lì)那些使用最少檢索次數(shù)的正確回答。這就像鼓勵(lì)學(xué)生盡可能依靠自己的知識(shí)解決問(wèn)題,而不是過(guò)度依賴(lài)參考書(shū)。
同時(shí),研究人員還實(shí)現(xiàn)了一個(gè)創(chuàng)新的外部知識(shí)記憶機(jī)制。當(dāng)模型在訓(xùn)練過(guò)程中檢索到正確的外部信息時(shí),這些信息會(huì)被轉(zhuǎn)化為內(nèi)部知識(shí)的格式,并被用來(lái)進(jìn)一步訓(xùn)練模型。這就像學(xué)生在課外閱讀中學(xué)到的知識(shí),經(jīng)過(guò)消化后成為了自己的知識(shí)儲(chǔ)備。
三、實(shí)驗(yàn)結(jié)果:更聰明、更高效的AI助手
研究團(tuán)隊(duì)在四個(gè)多步驟問(wèn)答基準(zhǔn)測(cè)試上評(píng)估了R1-Searcher++的性能:HotpotQA、2WikiMultiHopQA、Musique和Bamboogle。其中前兩個(gè)是訓(xùn)練領(lǐng)域內(nèi)的基準(zhǔn)測(cè)試,后兩個(gè)則是訓(xùn)練領(lǐng)域外的基準(zhǔn)測(cè)試,用于評(píng)估模型的泛化能力。
實(shí)驗(yàn)結(jié)果令人印象深刻。R1-Searcher++在所有測(cè)試中都表現(xiàn)出色,特別是在使用LLM-as-Judge(由GPT-4o-mini評(píng)估答案正確性)評(píng)估指標(biāo)時(shí),它比基于樹(shù)搜索的方法(如CR-Planner)高出25.7%,比最好的普通強(qiáng)化學(xué)習(xí)方法(R1-Searcher)高出4.3%。
更令人驚喜的是,R1-Searcher++在保持強(qiáng)大性能的同時(shí),大幅減少了檢索次數(shù)。與R1-Searcher相比,平均檢索次數(shù)減少了30.0%;與Search-R1相比,減少了52.9%。這就像一個(gè)學(xué)生既能考出好成績(jī),又能比其他同學(xué)更快完成作業(yè),因?yàn)樗朗裁磿r(shí)候應(yīng)該查資料,什么時(shí)候可以直接回答。
研究團(tuán)隊(duì)還進(jìn)行了在線(xiàn)搜索實(shí)驗(yàn),將R1-Searcher++連接到谷歌搜索API,在Bamboogle和Frames兩個(gè)數(shù)據(jù)集上測(cè)試其性能。結(jié)果表明,R1-Searcher++在這種實(shí)際應(yīng)用場(chǎng)景中也表現(xiàn)出色,既能達(dá)到最佳的F1分?jǐn)?shù)和LLM-as-Judge評(píng)分,又能顯著減少檢索調(diào)用次數(shù)。這證明了該方法在真實(shí)世界應(yīng)用中的適應(yīng)性和有效性。
四、案例分析:讓我們看看模型如何"思考"
通過(guò)一個(gè)具體例子,我們可以更直觀(guān)地理解R1-Searcher++是如何工作的。假設(shè)有一個(gè)問(wèn)題:"誰(shuí)是美國(guó)花旗銀行創(chuàng)立年份的總統(tǒng)?"
普通的Qwen-2.5-7B-Instruct模型直接給出了錯(cuò)誤答案:"John Quincy Adams",因?yàn)樗灰蕾?lài)自己的內(nèi)部知識(shí),而這些知識(shí)可能不準(zhǔn)確或不完整。
Search-R1模型則發(fā)出了過(guò)多的查詢(xún),包括一些不必要的查詢(xún),這顯示它過(guò)度依賴(lài)外部搜索引擎,沒(méi)有充分利用其內(nèi)部知識(shí),導(dǎo)致處理時(shí)間較長(zhǎng)。
而R1-Searcher++表現(xiàn)出了更智能的行為:它首先將復(fù)雜問(wèn)題分解成子問(wèn)題,然后動(dòng)態(tài)調(diào)整其行為。當(dāng)遇到不確定的子問(wèn)題(例如"花旗銀行什么時(shí)候成立?")時(shí),它選擇執(zhí)行外部搜索。但當(dāng)面對(duì)更具體的問(wèn)題(例如"1812年美國(guó)總統(tǒng)是誰(shuí)?")時(shí),它直接利用內(nèi)部知識(shí)回答,無(wú)需調(diào)用搜索。這種靈活的機(jī)制實(shí)現(xiàn)了外部搜索和內(nèi)部知識(shí)之間的平衡。
五、局限性與未來(lái)方向
盡管R1-Searcher++取得了顯著成果,研究團(tuán)隊(duì)也坦誠(chéng)指出了兩個(gè)主要局限性:
首先,受計(jì)算資源和資金限制,研究團(tuán)隊(duì)在訓(xùn)練過(guò)程中使用了本地密集檢索語(yǔ)料庫(kù),而只在評(píng)估階段集成了真實(shí)世界的搜索引擎。如果能在訓(xùn)練過(guò)程中直接使用真實(shí)搜索引擎,可能會(huì)通過(guò)更真實(shí)的監(jiān)督進(jìn)一步提高性能。
其次,當(dāng)前實(shí)驗(yàn)僅限于7B參數(shù)規(guī)模的模型。在未來(lái)的研究中,研究團(tuán)隊(duì)計(jì)劃在更大規(guī)模的模型上訓(xùn)練和評(píng)估該框架,以進(jìn)一步驗(yàn)證其泛化能力和魯棒性。
六、結(jié)論:走向更智能、持續(xù)學(xué)習(xí)的AI
R1-Searcher++框架代表了大語(yǔ)言模型向更智能、更自主學(xué)習(xí)方向發(fā)展的重要一步。它使模型能夠像人類(lèi)一樣,根據(jù)需要?jiǎng)討B(tài)切換內(nèi)部知識(shí)和外部檢索,并將新獲取的信息轉(zhuǎn)化為自己的知識(shí),實(shí)現(xiàn)持續(xù)學(xué)習(xí)和進(jìn)步。
簡(jiǎn)單來(lái)說(shuō),這項(xiàng)研究幫助AI系統(tǒng)變得更像人類(lèi)學(xué)習(xí)者:知道什么時(shí)候應(yīng)該依靠自己的知識(shí),什么時(shí)候需要查閱外部資源,以及如何記住新學(xué)到的知識(shí)以備將來(lái)使用。這種能力不僅提高了模型的性能和效率,也使AI系統(tǒng)在實(shí)際應(yīng)用中變得更加實(shí)用和可靠。
對(duì)于我們普通用戶(hù)來(lái)說(shuō),這意味著未來(lái)的AI助手將能更準(zhǔn)確、更高效地回答我們的問(wèn)題,減少不必要的等待時(shí)間,同時(shí)隨著使用不斷"成長(zhǎng)"和"學(xué)習(xí)",就像一個(gè)不斷進(jìn)步的人類(lèi)助手一樣。
感興趣的讀者可以在https://github.com/RUCAIBox/R1-Searcher-plus查看該項(xiàng)目的源代碼,深入了解這一創(chuàng)新框架的實(shí)現(xiàn)細(xì)節(jié)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀(guān)點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話(huà)題的分析框架,識(shí)別不同觀(guān)點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀(guān)的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。