在2025年5月,由技術(shù)創(chuàng)新研究院的Chen Amiraz、Florin Cuconasu、Simone Filice和Zohar Karnin組成的研究團(tuán)隊(duì)發(fā)表了一篇名為《干擾效應(yīng):理解RAG系統(tǒng)中的不相關(guān)段落》的論文。這項(xiàng)研究發(fā)表在arXiv上,編號(hào)為2505.06914v1,揭示了檢索增強(qiáng)生成(RAG)系統(tǒng)中的一個(gè)關(guān)鍵問(wèn)題。RAG系統(tǒng)已成為大型語(yǔ)言模型(LLM)處理知識(shí)密集型任務(wù)的重要方法,但研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)檢索到的無(wú)關(guān)段落與查詢(xún)?cè)谡Z(yǔ)義上相關(guān)時(shí),它們可能會(huì)"干擾"語(yǔ)言模型的判斷,導(dǎo)致錯(cuò)誤回答。本文詳細(xì)解析了這一重要發(fā)現(xiàn)及其解決方案。
一、什么是RAG系統(tǒng)及其"干擾段落"問(wèn)題
想象一下,你有一位非常聰明但記憶力有限的朋友。每當(dāng)你向他提問(wèn)時(shí),他都會(huì)先查閱一些相關(guān)資料,然后基于這些資料加上自己的知識(shí)來(lái)回答你。這基本上就是檢索增強(qiáng)生成(RAG)的工作方式——大型語(yǔ)言模型(LLM)在回答問(wèn)題前先檢索相關(guān)文檔,然后使用這些檢索到的信息來(lái)生成答案。
這種方法在很多場(chǎng)景下都表現(xiàn)出色,特別是當(dāng)語(yǔ)言模型需要訪(fǎng)問(wèn)最新信息或特定領(lǐng)域知識(shí)時(shí)。正如研究者指出的,將檢索到的文本添加到LLM的提示中可以顯著減少"幻覺(jué)"(即模型憑空編造不存在的信息)。例如,如果你問(wèn)一個(gè)沒(méi)有RAG支持的AI關(guān)于2024年某個(gè)新發(fā)布產(chǎn)品的信息,它可能會(huì)編造答案;而配備RAG的系統(tǒng)則會(huì)先檢索最新資料,再給出答案。
但這種看似完美的方案存在一個(gè)隱患:當(dāng)檢索系統(tǒng)提供了看似相關(guān)但實(shí)際上無(wú)關(guān)的信息時(shí),會(huì)發(fā)生什么?研究團(tuán)隊(duì)發(fā)現(xiàn),這些表面上相關(guān)但實(shí)際上無(wú)關(guān)的信息段落會(huì)產(chǎn)生"干擾效應(yīng)",使語(yǔ)言模型偏離正確答案。
舉個(gè)例子,假設(shè)你問(wèn)"亞馬遜河有多長(zhǎng)?",一個(gè)完美的RAG系統(tǒng)會(huì)檢索出"亞馬遜河長(zhǎng)約6400公里"的段落。但如果系統(tǒng)誤檢索到一段提到"尼羅河長(zhǎng)約6650公里,是世界上最長(zhǎng)的河流"的內(nèi)容,語(yǔ)言模型可能會(huì)被干擾,錯(cuò)誤地將尼羅河的信息應(yīng)用到亞馬遜河上,或混淆兩條河流的信息。
這種干擾效應(yīng)與我們?nèi)祟?lèi)的認(rèn)知偏差非常相似。當(dāng)我們閱讀一段文字后立即接觸相關(guān)但不同的信息時(shí),之前的信息可能會(huì)影響我們對(duì)后續(xù)信息的處理和記憶。語(yǔ)言模型也存在類(lèi)似的"思維干擾"現(xiàn)象。
研究者們?cè)谡撐闹刑岬?,隨著檢索系統(tǒng)性能的提升,這個(gè)問(wèn)題可能會(huì)變得更加突出。因?yàn)楦鼜?qiáng)的檢索器會(huì)返回更具干擾性的不相關(guān)段落——它們與查詢(xún)?cè)诒砻嫔细嗨?,更容易讓語(yǔ)言模型受到誤導(dǎo)。
二、如何衡量段落的"干擾效應(yīng)"
研究團(tuán)隊(duì)提出了一個(gè)簡(jiǎn)單而有效的方法來(lái)量化段落對(duì)語(yǔ)言模型的干擾程度。這就像是測(cè)量食物的辣度一樣——我們需要一個(gè)客觀(guān)的指標(biāo)來(lái)判斷一段文本有多"干擾"。
他們?cè)O(shè)計(jì)了一個(gè)公式:對(duì)于一個(gè)查詢(xún)q和一個(gè)段落p,段落的干擾效應(yīng)DEq(p)可以通過(guò)以下方式計(jì)算:
首先,他們創(chuàng)建一個(gè)包含查詢(xún)和段落的提示,并明確告訴語(yǔ)言模型如果段落不包含答案就回答"NO-RESPONSE"。然后,他們計(jì)算語(yǔ)言模型不選擇回答"NO-RESPONSE"的概率:
DEq(p) = 1 - p(語(yǔ)言模型回答"NO-RESPONSE"|查詢(xún)q, 段落p)
簡(jiǎn)單來(lái)說(shuō),如果語(yǔ)言模型傾向于基于這個(gè)段落生成答案(即使該段落與問(wèn)題無(wú)關(guān)),那么這個(gè)段落就具有高干擾效應(yīng)。如果語(yǔ)言模型正確地識(shí)別出段落與問(wèn)題無(wú)關(guān)并回答"NO-RESPONSE",那么這個(gè)段落的干擾效應(yīng)就很低。
這就像測(cè)試一個(gè)人面對(duì)誘人甜點(diǎn)的自制力——如果即使明知道不應(yīng)該吃甜點(diǎn),還是忍不住伸手,那么這個(gè)甜點(diǎn)對(duì)這個(gè)人的"干擾效應(yīng)"就很高。
研究團(tuán)隊(duì)發(fā)現(xiàn),盡管不同的語(yǔ)言模型具有不同的特性,但段落的干擾效應(yīng)在不同模型間有很高的相關(guān)性。這意味著一個(gè)對(duì)Llama模型具有高干擾效應(yīng)的段落,對(duì)Falcon或Qwen模型也可能有類(lèi)似的干擾效應(yīng)。這一發(fā)現(xiàn)證明了干擾效應(yīng)是段落的內(nèi)在特性,而不僅僅是模型的特定反應(yīng)。
研究者們還證實(shí)了這種干擾效應(yīng)確實(shí)會(huì)影響RAG系統(tǒng)的實(shí)際表現(xiàn)。他們發(fā)現(xiàn)當(dāng)高干擾效應(yīng)的段落與正確信息一起出現(xiàn)在提示中時(shí),會(huì)顯著降低模型的回答準(zhǔn)確率,即使模型同時(shí)獲得了正確信息。這就像你在聽(tīng)一個(gè)人解釋正確答案的同時(shí),旁邊有人不斷插話(huà)提供相似但錯(cuò)誤的信息,最終導(dǎo)致你對(duì)正確答案的理解出現(xiàn)偏差。
三、如何獲取具有高干擾效應(yīng)的段落
研究團(tuán)隊(duì)探索了多種方法來(lái)獲取具有高干擾效應(yīng)的段落,這些方法可以分為兩大類(lèi):基于檢索的方法和基于生成的方法。
**基于檢索的方法**就像是從圖書(shū)館中尋找特定類(lèi)型的書(shū)籍。研究者們使用了兩種檢索策略:
第一種是標(biāo)準(zhǔn)檢索,即使用常規(guī)的檢索系統(tǒng)找到與查詢(xún)相關(guān)的段落,然后排除真正相關(guān)的段落,保留那些系統(tǒng)認(rèn)為相關(guān)但實(shí)際上不包含正確答案的段落。這些段落通常會(huì)包含與查詢(xún)相關(guān)的關(guān)鍵詞或主題,但不含有正確答案。
第二種是答案偏斜檢索,這是研究者們開(kāi)發(fā)的一種新方法。想象一下,你想找到一本討論足球但不涉及世界杯的書(shū)。標(biāo)準(zhǔn)檢索可能會(huì)返回許多談?wù)撟闱颍òㄊ澜绫┑臅?shū),而答案偏斜檢索則會(huì)特意尋找那些談?wù)撟闱虻荛_(kāi)世界杯的內(nèi)容。具體來(lái)說(shuō),研究者對(duì)查詢(xún)向量做了修改,使其遠(yuǎn)離答案向量但仍保持與原始查詢(xún)的相關(guān)性。
**基于生成的方法**則像是定制書(shū)籍而不是檢索現(xiàn)有書(shū)籍。研究團(tuán)隊(duì)使用強(qiáng)大的語(yǔ)言模型生成不同類(lèi)型的干擾段落:
1. 相關(guān)主題段落:討論與問(wèn)題高度相關(guān)的主題,但不包含答案。比如對(duì)于"亞伯拉罕·林肯何時(shí)出生?"的問(wèn)題,生成關(guān)于"羅伯特·托德·林肯(亞伯拉罕·林肯的長(zhǎng)子)于1843年8月1日出生"的段落。
2. 假設(shè)性段落:討論一個(gè)假設(shè)情境,在這種情境下答案不同于正確答案。例如對(duì)于"第五周年紀(jì)念日的傳統(tǒng)禮物是什么?"的問(wèn)題,生成"在古羅馬時(shí)期,夫婦在第五周年紀(jì)念日會(huì)進(jìn)行為期一周的狩獵之旅"的段落。
3. 否定段落:提供錯(cuò)誤答案,但以否定形式出現(xiàn)。例如"人們普遍誤解為學(xué)生不需要繳稅"這樣的表述。
4. 情態(tài)陳述段落:在聲明答案不確定的免責(zé)聲明后提供錯(cuò)誤答案。例如"金字塔可能是通過(guò)建造傾斜和環(huán)繞的磚塊、泥土和沙子堤壩而建成的"。
通過(guò)這些方法,研究團(tuán)隊(duì)為各種查詢(xún)創(chuàng)建了一個(gè)多樣化的干擾段落集合,這些段落能夠有效測(cè)試語(yǔ)言模型在面對(duì)具有誤導(dǎo)性信息時(shí)的表現(xiàn)。
四、干擾段落的實(shí)驗(yàn)分析
研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn)來(lái)分析不同方法獲取的干擾段落的效果。他們使用了四個(gè)常用的問(wèn)答基準(zhǔn)數(shù)據(jù)集:NQ、PopQA、TriviaQA和WebQA,并測(cè)試了多個(gè)不同規(guī)模(從3B到70B參數(shù))和不同系列的語(yǔ)言模型,包括Llama、Falcon和Qwen。
實(shí)驗(yàn)結(jié)果顯示出幾個(gè)有趣的模式:
首先,標(biāo)準(zhǔn)檢索返回的不相關(guān)段落比答案偏斜檢索返回的段落更具干擾性。這就像是錯(cuò)誤地返回一本介紹宇航員尼爾·阿姆斯特朗的書(shū)(當(dāng)查詢(xún)是關(guān)于路易·阿姆斯特朗爵士時(shí))比返回一本介紹爵士樂(lè)但不提及路易·阿姆斯特朗的書(shū)更具干擾性。研究者還發(fā)現(xiàn),當(dāng)使用排序器對(duì)檢索結(jié)果進(jìn)行重新排序時(shí),干擾效應(yīng)會(huì)進(jìn)一步增強(qiáng)。
其次,研究發(fā)現(xiàn)不同檢索位置的段落干擾效應(yīng)不同。排名越靠前的不相關(guān)結(jié)果通常具有更高的干擾效應(yīng),這與之前的研究發(fā)現(xiàn)一致——更強(qiáng)的檢索器返回的不相關(guān)段落比弱檢索器返回的更具干擾性。
在生成的干擾段落中,情態(tài)陳述段落(以不確定形式提供錯(cuò)誤信息的段落)通常最具干擾性,而相關(guān)主題段落(討論相關(guān)主題但不含答案的段落)的干擾效應(yīng)最低。這表明語(yǔ)言模型特別容易被那些表現(xiàn)出不確定性但提供明確(錯(cuò)誤)答案的段落所誤導(dǎo)。
研究者們還觀(guān)察到,不同來(lái)源的干擾段落對(duì)不同查詢(xún)的干擾效應(yīng)各不相同。對(duì)于48%的查詢(xún),最具干擾性的段落來(lái)自于標(biāo)準(zhǔn)檢索加重排序之外的方法。這表明綜合使用多種方法可以創(chuàng)建更多樣化、更具挑戰(zhàn)性的干擾段落集合。
有趣的是,不同大小和架構(gòu)的語(yǔ)言模型對(duì)干擾段落的反應(yīng)有高度的相關(guān)性(Spearman相關(guān)系數(shù)通常大于0.6)。這意味著如果一個(gè)段落能夠干擾Llama-3.1-8B,它很可能也會(huì)干擾Falcon-3-7B或Qwen-2.5-7B,盡管干擾程度可能有所不同。
研究者們還進(jìn)行了"正確信息+干擾段落"的實(shí)驗(yàn),結(jié)果表明即使在提示中同時(shí)包含正確信息和干擾段落時(shí),高干擾效應(yīng)的段落仍能顯著降低模型的回答準(zhǔn)確率,降幅從6到11個(gè)百分點(diǎn)不等。即使是70B參數(shù)的大型模型也會(huì)受到影響,這證明了干擾段落的強(qiáng)大影響力。
五、利用干擾段落改進(jìn)RAG系統(tǒng)
研究團(tuán)隊(duì)不僅分析了干擾段落的特性,還展示了如何利用這些干擾段落來(lái)改進(jìn)RAG系統(tǒng)。就像疫苗接種通過(guò)暴露于減毒病原體來(lái)建立免疫力一樣,研究者們通過(guò)暴露模型于干擾段落來(lái)提高其對(duì)干擾的抵抗力。
他們使用從NQ數(shù)據(jù)集中選取的800個(gè)查詢(xún)構(gòu)建了訓(xùn)練數(shù)據(jù),每個(gè)訓(xùn)練樣例包含一個(gè)查詢(xún)、一個(gè)正確答案和5個(gè)段落。這些段落根據(jù)不同策略收集:
1. 檢索策略:使用標(biāo)準(zhǔn)檢索系統(tǒng)獲取排名前5的結(jié)果。 2. 重排序策略:使用標(biāo)準(zhǔn)檢索后加重排序獲取排名前5的結(jié)果。 3. 難難策略:在50%的樣例中,使用一個(gè)相關(guān)段落和四個(gè)高干擾效應(yīng)段落;在另外50%的樣例中,使用五個(gè)高干擾效應(yīng)段落。
然后,他們使用這些不同的訓(xùn)練集微調(diào)了Llama-3.2-3B和Llama-3.1-8B模型,并在內(nèi)部測(cè)試集(NQ剩余查詢(xún))和外部測(cè)試集(PopQA、TriviaQA和WebQA)上評(píng)估了模型表現(xiàn)。
結(jié)果非常令人鼓舞:使用難難策略訓(xùn)練的模型在幾乎所有測(cè)試集上都表現(xiàn)最佳,對(duì)Llama-3.2-3B模型的提升尤為顯著,在TriviaQA和WebQA上分別提高了6.7和7.6個(gè)百分點(diǎn)。即使對(duì)于更強(qiáng)大的Llama-3.1-8B模型,難難策略也帶來(lái)了明顯改進(jìn)。
特別值得注意的是,這種訓(xùn)練方法在處理"無(wú)根據(jù)"樣例(即提示中不包含相關(guān)段落的樣例)時(shí)表現(xiàn)尤為突出,在某些情況下準(zhǔn)確率提升超過(guò)了16個(gè)百分點(diǎn)。這表明模型學(xué)會(huì)了更好地識(shí)別和抵抗干擾段落的影響,就像人類(lèi)學(xué)會(huì)了識(shí)別虛假信息一樣。
六、研究意義與未來(lái)展望
這項(xiàng)研究為理解和改進(jìn)RAG系統(tǒng)提供了重要見(jiàn)解。通過(guò)定義和量化段落的干擾效應(yīng),研究者們?yōu)樵u(píng)估RAG系統(tǒng)的魯棒性提供了一個(gè)新的度量標(biāo)準(zhǔn)。通過(guò)開(kāi)發(fā)獲取干擾段落的多種方法,他們創(chuàng)建了更具挑戰(zhàn)性和多樣性的測(cè)試集,這些測(cè)試集可以用來(lái)評(píng)估和改進(jìn)RAG系統(tǒng)的表現(xiàn)。
研究的主要貢獻(xiàn)在于:
1. 提出了干擾段落這一核心問(wèn)題的形式化定義和量化方法。 2. 超越了簡(jiǎn)單的二元分類(lèi)(完全無(wú)關(guān) vs 干擾),提供了一個(gè)連續(xù)的干擾效應(yīng)度量。 3. 開(kāi)發(fā)和分析了多種獲取難干擾段落的方法。 4. 證明了使用這些干擾段落進(jìn)行微調(diào)可以顯著提高RAG系統(tǒng)的魯棒性。
未來(lái)的研究方向可能包括:擴(kuò)展干擾段落的分類(lèi)體系以捕捉更多類(lèi)型的干擾信息;將這些方法應(yīng)用于問(wèn)答以外的其他RAG任務(wù);以及探索如何在保持模型對(duì)相關(guān)信息敏感性的同時(shí)增強(qiáng)其對(duì)干擾信息的抵抗力。
總的來(lái)說(shuō),這項(xiàng)研究為提高RAG系統(tǒng)的魯棒性提供了一個(gè)有前景的方向。隨著檢索系統(tǒng)變得越來(lái)越強(qiáng)大,它們返回的不相關(guān)段落也可能變得越來(lái)越具有干擾性。因此,訓(xùn)練模型識(shí)別和抵抗這些干擾段落變得越來(lái)越重要。這就像教導(dǎo)孩子在信息爆炸的時(shí)代辨別真假信息一樣,對(duì)于構(gòu)建可靠的AI系統(tǒng)至關(guān)重要。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀(guān)點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話(huà)題的分析框架,識(shí)別不同觀(guān)點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀(guān)的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。