這項突破性研究由蒙特利爾大學的王蘇雨辰、麥吉爾大學的王新宇、耶魯大學的唐向茹等多位研究者共同完成,并于2025年9月發(fā)表在arXiv預印本平臺(論文編號:arXiv:2509.13683v1)。研究團隊來自加拿大魁北克AI研究院(Mila)、MetaGPT等知名機構,有興趣深入了解的讀者可以通過https://foundationagents.github.io/CARE訪問完整論文和相關資源。
當下的大型語言模型就像一個博學但有時不太可靠的朋友——它們知識淵博,能夠回答各種問題,但有時會在明明給了正確資料的情況下,仍然固執(zhí)地按照自己的"想法"來回答問題。這種現(xiàn)象被研究者稱為"上下文幻覺",簡單來說就是AI模型不愿意好好讀你給它的材料,而是喜歡憑借自己訓練時學到的知識來"發(fā)揮創(chuàng)造"。
這個問題在實際應用中造成了嚴重困擾。比如,當你給AI提供一份詳細的公司財務報告,詢問特定數(shù)據(jù)時,它可能會忽略報告中的真實數(shù)字,而是根據(jù)它對類似公司的"印象"來編造答案。這種不忠實于提供信息的行為,嚴重影響了用戶對AI系統(tǒng)的信任度。
現(xiàn)有的解決方案主要分為兩類。第一類是傳統(tǒng)的檢索增強生成方法,它們會額外訓練一個專門的檢索模塊來尋找相關信息,但這種方法需要大量標注好的訓練數(shù)據(jù),成本極高,就像為了找東西專門雇傭一個助手,既費錢又復雜。第二類是讓模型去互聯(lián)網(wǎng)上搜索相關信息,但這樣做往往會忽略用戶已經(jīng)提供的寶貴上下文信息,就像有人給你一本說明書,你卻跑去問別人怎么操作一樣。
研究團隊提出了一個全新的解決方案——CARE框架(Context-Aware Retrieval-Enhanced reasoning),這個方法教會AI模型在思考過程中主動從提供的文本中"引用"相關信息,就像一個認真的學生在寫論文時會仔細引用參考資料一樣。這種方法的巧妙之處在于,它不需要額外的復雜模塊,而是直接訓練模型學會在推理過程中顯式地提取和使用上下文中的關鍵信息。
CARE框架的工作原理可以用學習寫議論文來類比。當學生剛開始寫議論文時,他們往往會憑借模糊的印象來論證觀點,但經(jīng)過訓練后,他們學會了在論證過程中明確引用材料中的具體內容。CARE正是這樣教會AI模型的:在回答問題的思考過程中,明確標出從上下文中提取的關鍵信息,并基于這些信息進行推理。
一、創(chuàng)新訓練方法:從監(jiān)督學習到強化優(yōu)化的雙階段策略
CARE框架采用了一個精心設計的兩階段訓練過程,就像培養(yǎng)一個優(yōu)秀的研究助手一樣,需要先教會基本技能,再通過實踐不斷完善。
第一階段是監(jiān)督微調,研究團隊首先需要創(chuàng)建一個特殊的訓練數(shù)據(jù)集。他們基于HotpotQA數(shù)據(jù)集,這是一個包含支撐事實標注的問答數(shù)據(jù)集,通過三個步驟來生成訓練樣本。首先,他們讓一個推理模型基于問題和上下文生成初步的思考過程,就像讓學生先嘗試回答問題。接著,他們將已知的支撐事實融入到這個思考過程中,確保推理過程能夠準確引用相關信息。最后,他們在引用的信息周圍添加特殊的標記符號,就像在文章中用括號標出引用一樣。
這個過程產生了7739個高質量的訓練樣本,每個樣本都包含完整的推理鏈條和明確的信息引用。通過這種方式,模型學會了在思考過程中使用特殊的標記來引用上下文信息,形成了"檢索-推理"的基本模式。
第二階段是強化學習優(yōu)化,使用了一種叫做群體相對策略優(yōu)化(GRPO)的技術。這個階段的目標是讓模型在沒有標準答案的情況下,仍然能夠準確地從上下文中提取相關信息。研究團隊設計了三種獎勵機制來指導模型的學習:準確性獎勵鼓勵模型生成正確答案,格式獎勵確保模型按照要求的格式進行推理,檢索獎勵則專門鼓勵模型正確地從上下文中提取信息。
特別值得一提的是,研究團隊還引入了課程學習策略。就像教學中由淺入深的原理一樣,他們讓模型從簡單的短文本問答開始練習,逐漸過渡到復雜的長文本多跳推理任務。這種漸進式的訓練方法幫助模型在保持簡單任務能力的同時,獲得處理復雜場景的技能。
二、核心技術突破:原生檢索增強推理機制
CARE框架的核心創(chuàng)新在于實現(xiàn)了"原生檢索增強推理",這是一種讓模型在思考過程中自然地整合上下文信息的機制。傳統(tǒng)方法通常將信息檢索和推理分離,就像先查字典再思考問題,而CARE則讓這兩個過程同時進行,更像人類在閱讀理解時的自然思維過程。
在具體實現(xiàn)上,CARE使用特殊的標記符號來界定檢索到的信息。當模型在推理過程中需要引用上下文信息時,它會用\<retrieval\>\</retrieval\>標簽將相關文本包圍起來。這種設計讓模型的推理過程變得透明可追溯,用戶可以清楚地看到模型引用了哪些信息,以及基于這些信息得出了什么結論。
以論文中的一個例子來說明這種機制的工作原理。當被問及"約翰媽媽買的電影票價格是否合理"時,沒有使用CARE的模型可能會基于對一般電影票價的印象來回答,而CARE訓練的模型會在思考過程中明確引用:"上下文中提到票價是15美元"、"一般場次的票價范圍是10到12美元"、"特殊場次的票價范圍是13到16美元",然后基于這些具體信息得出"價格合理"的結論。
這種方法的優(yōu)勢在于它完全基于模型的內在語言理解能力,不需要外部的檢索系統(tǒng)或向量數(shù)據(jù)庫。模型學會了在推理過程中"回頭看"提供的上下文,就像一個仔細的閱讀者會在思考時重新審視文本中的關鍵信息一樣。
三、獎勵機制設計:三重獎勵確保全面優(yōu)化
在強化學習階段,CARE框架設計了一個綜合的獎勵機制,包含三個互補的組成部分,就像評判一篇好文章需要考慮內容準確、格式規(guī)范和引用恰當三個方面。
準確性獎勵是最直觀的評價標準,它通過計算模型生成答案與標準答案之間的F1分數(shù)來衡量回答的正確性。這確保了模型在學會正確引用信息的同時,不會犧牲回答問題的基本能力。
格式獎勵確保模型按照預期的結構進行推理。由于CARE要求模型在思考標簽內進行推理,并在推理過程中使用檢索標簽,格式獎勵會鼓勵模型生成符合這種結構要求的輸出。這就像訓練學生寫作時,既要關注內容質量,也要保證格式規(guī)范。
檢索獎勵是CARE框架獨有的創(chuàng)新設計,專門用于鼓勵模型正確地從上下文中提取信息。當模型在檢索標簽內的內容確實來自于原始上下文時,它會獲得正向獎勵。雖然這個約束相對寬松——只要求引用的內容存在于上下文中,而不要求是最相關或最重要的信息,但它有效地引導模型養(yǎng)成依賴上下文而非內部知識的習慣。
這三種獎勵通過加權組合的方式共同作用,研究團隊將權重設置為準確性獎勵0.7、格式獎勵0.1、檢索獎勵0.2,這樣的配比既保證了回答的準確性,又充分強調了上下文忠實度的重要性。
四、課程學習策略:從簡單到復雜的漸進訓練
CARE框架引入的課程學習策略解決了一個重要的實際問題:如何讓模型在學習新技能的同時,不忘記已有的能力。這種策略的靈感來自于人類學習的自然規(guī)律——我們總是從簡單的概念開始,逐漸掌握復雜的技能。
在具體實施中,研究團隊選擇了兩個不同難度的數(shù)據(jù)集。DROP數(shù)據(jù)集作為"簡單"任務,包含相對較短的上下文和較簡單的推理要求。MS MARCO數(shù)據(jù)集作為"困難"任務,包含更長的上下文和更復雜的多跳推理要求。
訓練過程采用動態(tài)混合策略,開始時主要使用簡單數(shù)據(jù)集,隨著訓練的進行,逐漸增加困難數(shù)據(jù)集的比例。具體來說,在訓練步驟t時,選擇簡單數(shù)據(jù)集的概率為α_t = max(0, 1-η·t/T),其中η是控制轉換速度的參數(shù),T是總訓練步數(shù)。這意味著訓練初期模型主要學習基礎的檢索-推理模式,后期逐漸適應更復雜的場景。
這種漸進式的學習策略有效地防止了"災難性遺忘"——即模型在學習新任務時忘記舊任務的現(xiàn)象。同時,它也確保了模型能夠在各種不同復雜度的任務上都保持良好的性能,而不是只擅長某一類特定的問題。
五、實驗驗證:全面超越現(xiàn)有方法的卓越表現(xiàn)
為了驗證CARE框架的有效性,研究團隊在多個不同類型的數(shù)據(jù)集上進行了全面的對比實驗。實驗覆蓋了三個主流的語言模型:LLaMA-3.1 8B、Qwen2.5 7B和Qwen2.5 14B,以及四個具有代表性的問答數(shù)據(jù)集。
在真實世界的長文本問答任務上,CARE框架展現(xiàn)出了顯著的優(yōu)勢。以LLaMA-3.1 8B模型為例,在MultiFieldQA-En數(shù)據(jù)集上,CARE將性能從45.57%提升到49.94%,在HotpotQA上從54.64%提升到63.09%,在2WikiMQA上的提升更是驚人,從45.87%飆升到75.29%,在MuSiQue上從32.08%提升到51.00%。平均而言,CARE實現(xiàn)了15.29%的顯著性能提升。
這種提升在多跳推理任務上尤為明顯。多跳推理要求模型從多個相關信息片段中整合答案,就像解決一個需要多個線索的偵探案件。傳統(tǒng)方法在這種任務上往往表現(xiàn)不佳,因為它們難以有效地整合分散在長文本中的相關信息。而CARE通過顯式的信息引用機制,能夠系統(tǒng)地收集和整合所需的信息片段。
在對抗性測試中,CARE的優(yōu)勢更加明顯。研究團隊使用CofCA數(shù)據(jù)集進行測試,這個數(shù)據(jù)集包含與模型預訓練知識相矛盾的信息,專門用來測試模型是否會固執(zhí)地堅持自己的"成見"。結果顯示,CARE在這種場景下的表現(xiàn)遠優(yōu)于其他方法,證明了它確實學會了優(yōu)先信任提供的上下文信息,而不是盲目依賴內部知識。
有趣的是,一些基于外部搜索的方法在對抗性測試中的表現(xiàn)甚至不如原始模型,這說明外部檢索有時會引入與上下文相矛盾的信息,反而加劇了問題。而CARE專注于上下文內的信息提取,有效避免了這種困擾。
六、消融實驗:解析每個組件的獨特貢獻
為了深入理解CARE框架中每個組件的作用,研究團隊進行了詳細的消融實驗。這些實驗就像拆解一臺精密機器來了解每個零件的功能一樣,幫助我們理解哪些設計決策真正重要。
首先,研究團隊驗證了兩階段訓練策略的必要性。僅使用監(jiān)督微調的模型雖然學會了基本的格式,但在復雜推理任務上的表現(xiàn)有限。加入強化學習后,模型的性能得到了顯著提升,這證明了強化學習在優(yōu)化檢索-推理行為方面的重要作用。
檢索獎勵的作用也得到了明確驗證。沒有檢索獎勵的模型雖然能夠進行推理,但往往不會有效利用上下文信息,就像一個學生雖然知道要引用資料,但經(jīng)常忘記這么做。加入檢索獎勵后,模型顯著提高了對上下文信息的利用率。
課程學習策略的效果同樣顯著。使用課程學習的模型在各種不同類型的任務上都表現(xiàn)出更好的平衡性,特別是在長文本問答和對抗性場景中。這說明漸進式的訓練策略確實幫助模型獲得了更強的泛化能力。
七、信息檢索準確性評估:精確引用能力的量化分析
除了問答準確性,研究團隊還專門評估了CARE在信息檢索方面的能力。他們使用BLEU和ROUGE-L指標來衡量模型檢索到的信息與真實支撐事實的匹配程度,就像評判一個學生的引用是否準確和完整。
結果顯示,CARE在所有測試模型上都獲得了最高的檢索準確性分數(shù)。更重要的是,這種優(yōu)勢隨著模型規(guī)模的增大而更加明顯,說明CARE的設計能夠有效利用更大模型的能力。
這種精確的信息檢索能力不僅提高了答案的準確性,還大大增強了模型輸出的可解釋性。用戶可以清楚地看到模型的推理過程,驗證每個結論的依據(jù),這對于需要高度可信性的應用場景極其重要。
八、計算效率分析:在性能提升和成本控制之間的平衡
雖然CARE生成的輸出通常比原始模型更長(因為包含了詳細的推理過程),但研究團隊的分析表明,這種額外的計算成本是合理的。CARE避免了外部API調用和數(shù)據(jù)庫檢索的開銷,這些操作在傳統(tǒng)RAG系統(tǒng)中往往是性能瓶頸。
以一個具體例子來說明:在HotpotQA數(shù)據(jù)集上,原始LLaMA模型平均每個查詢輸出8.5個token,而CARE輸出656個token。雖然看起來增長很大,但傳統(tǒng)的外部檢索方法(如R1-Searcher)需要278個模型輸出token加上2058個檢索開銷token,總計2336個token的等效成本。相比之下,CARE的656個token實際上更加高效。
更重要的是,CARE的所有計算都在本地完成,避免了網(wǎng)絡延遲和外部服務的依賴性,這在實際部署中具有重要優(yōu)勢。
研究團隊通過這項工作展示了一種全新的思路:與其依賴外部工具來增強模型能力,不如直接教會模型更好地利用已有信息。CARE框架證明了這種"內在能力提升"的方法不僅可行,而且在多個維度上都優(yōu)于傳統(tǒng)的外部增強方法。
這項研究的意義不僅在于技術層面的突破,更在于它為AI系統(tǒng)的可信性和可解釋性提供了新的解決方案。在AI越來越深入?yún)⑴c人類決策的時代,確保AI系統(tǒng)能夠忠實地基于提供的信息進行推理,而不是憑借可能過時或有偏見的訓練數(shù)據(jù)來"發(fā)揮",這種能力變得極其珍貴。
CARE框架目前仍有一些局限性需要在未來工作中解決。它主要針對需要從給定上下文中提取信息的任務,對于需要外部知識的問題仍然需要結合其他方法。同時,雖然CARE顯著提高了上下文忠實度,但在面對模糊或矛盾信息時,仍然可能產生不完美的結果。
盡管如此,這項研究為大型語言模型的發(fā)展指明了一個重要方向:通過改進模型的內在推理機制,而不是簡單地堆疊外部工具,來實現(xiàn)真正的智能提升。這種思路可能會影響未來AI系統(tǒng)的設計理念,推動我們構建更加可靠、透明和值得信賴的人工智能。
Q&A
Q1:CARE框架是什么?它解決了什么問題?
A:CARE是一個原生檢索增強推理框架,解決了大型語言模型不忠實于提供上下文的問題。簡單說就是教會AI在回答問題時認真"引用"你給它的材料,而不是憑自己的"印象"胡編亂造,就像訓練學生寫論文時要求他們必須引用參考資料一樣。
Q2:CARE框架與傳統(tǒng)RAG方法有什么不同?
A:傳統(tǒng)RAG方法需要額外的檢索模塊和向量數(shù)據(jù)庫,就像雇傭專門助手幫忙找資料。而CARE直接訓練模型在思考過程中主動從給定文本中提取信息,更像教會學生自己學會查閱手頭的資料。CARE避免了外部系統(tǒng)的復雜性和延遲,同時成本更低。
Q3:使用CARE訓練的模型在實際應用中表現(xiàn)如何?
A:實驗結果顯示CARE在多個問答任務上都顯著超越了原始模型和其他方法。比如在復雜的多跳推理任務中提升了近30%的準確率,在對抗性測試中表現(xiàn)更是遠超傳統(tǒng)方法。最重要的是,它讓模型的推理過程變得透明可追溯,用戶能清楚看到AI引用了哪些信息。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。