av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 RAG系統(tǒng)真的受位置偏見影響嗎?—來自羅馬大學(xué)和技術(shù)創(chuàng)新研究所的最新研究揭示

RAG系統(tǒng)真的受位置偏見影響嗎?—來自羅馬大學(xué)和技術(shù)創(chuàng)新研究所的最新研究揭示

2025-05-31 11:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 11:45 ? 科技行者

在人工智能快速發(fā)展的今天,大型語言模型(LLM)已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧o論是問答系統(tǒng)、內(nèi)容創(chuàng)作,還是信息檢索,它們都在悄無聲息地改變著我們獲取知識的方式。然而,這些看似強大的模型也有其局限性。2025年5月,來自羅馬薩皮恩扎大學(xué)和技術(shù)創(chuàng)新研究所的研究團隊,包括Florin Cuconasu、Simone Filice、Guy Horowitz、Yoelle Maarek和Fabrizio Silvestri發(fā)表了一篇題為《Do RAG Systems Suffer From Positional Bias?》的研究論文,深入探討了檢索增強生成(RAG)系統(tǒng)中的位置偏見問題。這篇論文發(fā)表于arXiv預(yù)印本平臺,編號為arXiv:2505.15561v1。

我們先來理解什么是檢索增強生成(RAG)。想象你有一個超級智能的朋友,他知道很多事情,但有時候記憶會有漏洞。為了確保他給出的信息準確無誤,你總是會先從圖書館找來一些相關(guān)的書籍或文章讓他參考,然后再請他回答問題。這就是RAG的基本原理——它先從外部資料庫中檢索相關(guān)信息,然后把這些信息添加到大型語言模型的提示詞(prompt)中,幫助模型生成更準確的答案。

但是,有一個關(guān)鍵問題:當(dāng)我們把多段檢索到的文本放入模型的提示詞中時,文本的排列順序是否會影響模型的表現(xiàn)?也就是說,同樣的信息放在提示詞的開頭、中間或結(jié)尾,是否會導(dǎo)致模型對它們的注意力不同?這就是所謂的"位置偏見"(positional bias)問題。

先前的研究已經(jīng)發(fā)現(xiàn),大型語言模型確實存在"迷失在中間"(lost-in-the-middle)效應(yīng)——它們傾向于更多關(guān)注提示詞開頭和結(jié)尾的信息,而忽略中間部分的內(nèi)容。然而,這些研究通常是在一個受控的環(huán)境中進行的,它們通常只在提示詞中放入一段相關(guān)內(nèi)容,其余都是不相關(guān)的內(nèi)容,然后觀察相關(guān)內(nèi)容位置變化對模型表現(xiàn)的影響。這種人為設(shè)置可能會放大位置偏見的影響,但并不完全反映真實場景。

羅馬大學(xué)和技術(shù)創(chuàng)新研究所的研究團隊采取了不同的方法。他們不僅關(guān)注了相關(guān)段落的位置如何影響模型的表現(xiàn),還研究了"干擾段落"(distracting passages)的位置效應(yīng)。什么是干擾段落?簡單來說,它們是那些與問題相關(guān)但不包含正確答案的文本,就像是在偵探推理中的"紅鯨魚"——看起來很相關(guān),但實際上會引導(dǎo)你走向錯誤的方向。

研究團隊通過大量實驗發(fā)現(xiàn),最先進的檢索系統(tǒng)在嘗試找出相關(guān)內(nèi)容的同時,也會將高度干擾的段落排在檢索結(jié)果的前列。數(shù)據(jù)顯示,超過60%的查詢在前10個檢索結(jié)果中至少包含一個高度干擾的段落。由于相關(guān)段落和干擾段落都出現(xiàn)在檢索結(jié)果的前列,它們都會受到位置偏見的影響,這就在很大程度上抵消了位置偏見在實際應(yīng)用中的影響。

研究團隊進一步證明,那些基于模型位置偏好來重新排列段落的復(fù)雜策略,實際上并不比隨機排序表現(xiàn)得更好。換句話說,在真實的RAG場景中,位置偏見對系統(tǒng)性能的影響遠比我們想象的要小。

下面,讓我們更深入地了解這項研究的細節(jié),看看它對我們使用和改進RAG系統(tǒng)有什么啟示。

一、研究背景與問題

想象你正在用一個智能助手回答一個復(fù)雜問題,比如"誰發(fā)明了電燈泡?"為了給你最準確的答案,這個助手會先去查閱大量資料,找出與電燈泡發(fā)明相關(guān)的段落,然后根據(jù)這些段落生成回答。這就是檢索增強生成(RAG)的工作方式,它通過從外部知識庫檢索相關(guān)信息來增強大型語言模型的表現(xiàn)。

然而,現(xiàn)實世界中的檢索系統(tǒng)并不完美。它們通常會返回多個可能相關(guān)的段落,而不僅僅是最佳匹配的那一個。這樣做雖然提高了召回率(即找到相關(guān)信息的概率),但也引入了"干擾段落"——那些看似相關(guān)但實際上不包含正確答案的文本。最近的研究表明,這些干擾段落會顯著降低模型的回答準確性。

同時,大型語言模型還有另一個弱點:位置偏見。將同樣的信息放在提示詞的不同位置可能會改變答案并大大影響其準確性。Liu等人將這稱為"迷失在中間"效應(yīng),指的是大型語言模型傾向于關(guān)注提示詞開頭或結(jié)尾的文本。然而,先前的分析主要是在受控環(huán)境中進行的,通常是在一個提示詞中旋轉(zhuǎn)一個相關(guān)段落的位置,而其他內(nèi)容都是不相關(guān)的。這種人為設(shè)置不僅放大了位置偏見的影響,還忽略了位置偏見如何影響模型對干擾段落的敏感性,而這正是本研究的核心關(guān)注點。

使用Amiraz等人的"干擾效應(yīng)"指標,研究團隊展示了答案準確性取決于相關(guān)段落和干擾段落的位置。然后,他們通過實驗表明,當(dāng)前最先進的檢索管道在嘗試檢索相關(guān)段落的同時,也會將高度干擾的段落排在前列,而且檢索管道越先進,檢索到的段落就越具有干擾性。

這種在檢索排名頂部同時存在相關(guān)段落和高度干擾段落的情況,大大降低了位置偏見的影響,因為它依次懲罰了兩種類型的段落?;谶@些發(fā)現(xiàn),研究團隊通過實驗證明,基于模型位置偏好來重新排列段落的策略并不比隨機排序更有效。

二、相關(guān)研究回顧

在深入研究之前,讓我們先了解一下這個領(lǐng)域的相關(guān)工作。目前的研究主要集中在兩個方面:不相關(guān)內(nèi)容的影響和位置偏見。

關(guān)于不相關(guān)內(nèi)容的影響,最近的研究探討了大型語言模型提示詞中不相關(guān)內(nèi)容的有害效果。在RAG環(huán)境中,如果一個段落不提供有用的信息來回答查詢,它就被視為不相關(guān)。Cuconasu等人將不相關(guān)段落分為兩類:隨機的(與查詢在語義上無關(guān))和干擾的(與查詢相關(guān)但不包含答案)。他們發(fā)現(xiàn),雖然隨機段落不影響答案質(zhì)量,但干擾段落確實會降低答案質(zhì)量。Jin等人表明,強檢索器返回的不相關(guān)段落比弱檢索器返回的更有害。Amiraz等人提出了一種連續(xù)的干擾效應(yīng)度量方法,以及一種增強模型魯棒性的微調(diào)方法。

關(guān)于位置偏見,盡管有先進的位置編碼方法如Alibi和RoPE,長上下文大型語言模型通常仍受位置偏見影響,即它們識別相關(guān)內(nèi)容的能力取決于內(nèi)容在提示詞中的位置。Liu等人討論了"迷失在中間"效應(yīng),即模型傾向于忽略提示詞中間的信息。Hutter等人擴展了這項工作,并證明不同的模型展現(xiàn)出不同的位置偏見模式。

為了減輕這種偏見,一些解決方案建議在訓(xùn)練數(shù)據(jù)中相關(guān)信息均勻分布于提示詞所有位置上對模型進行微調(diào)。其他方法則修改了Transformer架構(gòu)的注意力機制,以消除token級別的偏見。Peysakhovich和Lerer提出了一種雙重解碼方法,在第二次解碼步驟中,根據(jù)段落在第一步中收到的注意力重新排序。Jin等人根據(jù)"迷失在中間"行為將排名靠前的段落放置在特權(quán)位置。Zhang等人直接在提示詞中指示模型對上下文的選定部分分配更多注意力,旨在補償注意力不足。Jiang等人通過引入一個外部模塊來壓縮提示詞,從而減輕位置偏見。

三、實驗設(shè)置

為了全面研究RAG系統(tǒng)中的位置偏見問題,研究團隊設(shè)計了一系列實驗,使用了三個常用的公共問答基準:PopQA、Natural Questions (NQ)和TriviaQA。從每個基準中,他們隨機選擇了兩個不相交的500大小樣本來分別運行第四節(jié)和第五節(jié)中的實驗。

在知識庫方面,研究團隊使用BM25進行稀疏檢索,以及BGE large en v1.5嵌入模型進行密集檢索。此外,他們還使用了一個重排器(BGE reranker v2 m3)來重新排序檢索器的前25個結(jié)果。

研究團隊評估了四種檢索管道的性能,主要從兩個指標來看:HITS@k和Precision@k。HITS@k衡量至少一個相關(guān)段落出現(xiàn)在前k個檢索結(jié)果中的百分比,而Precision@k衡量前k個檢索結(jié)果中相關(guān)段落的平均百分比。他們發(fā)現(xiàn),特別是在使用重排器時,HITS很快就會達到平穩(wěn),而Precision則繼續(xù)下降,因為排名較低的段落大多是不相關(guān)的。這表明使用較大的k值(例如,超過10)并不值得,因為這只會在提示詞中添加不相關(guān)的段落。因此,他們的實驗集中在兩個合理的k值上,即5和10,這提供了一個良好的準確性-延遲權(quán)衡。

作為大型語言模型,研究團隊使用了Llama 3.2 3B (L3B)、Llama 3.1 8B (L8B)、Llama 3.3 70B (L70B)和Qwen 2.5 7B (Q7B),涵蓋了不同的模型大小和系列。

在評估策略方面,他們遵循"LLM-as-a-judge"方法來評估段落相關(guān)性和答案質(zhì)量。在前一種情況下,他們提示模型評估段落對問題的相關(guān)性,給定參考答案;在后一種情況下,他們提示模型評估生成的響應(yīng)是否在語義上匹配參考答案。他們使用AWS Bedrock上的Claude 3.7 Sonnet作為評判模型。

在實驗中,研究團隊使用了Amiraz等人提出的干擾效應(yīng)定義。具體來說,他們的方法是提示一個模型根據(jù)段落p中的信息回答問題q,或者如果段落不包含對q的答案,則放棄(輸出"NO-RESPONSE")。段落p對問題q的干擾效應(yīng)DEq(p)然后計算為模型不放棄的概率:

DEq(p) = 1 - P^LLM(NO-RESPONSE|q, p)

對于每個檢索管道,他們計算檢索到的不相關(guān)段落的干擾效應(yīng),并假設(shè)相關(guān)段落的DE=0。

研究結(jié)果顯示,在前k個位置中最具干擾性的段落(MaxDE)達到了非常高的值,超過60%的查詢在密集檢索器的前10個結(jié)果中至少包含一個硬干擾器(定義為DE得分大于0.8的段落)。而平均干擾效應(yīng)(MeanDE)曲線最初非常低,因為前幾個檢索到的段落大多是相關(guān)的,然后隨著更多不相關(guān)段落出現(xiàn)在提示詞中而增加,但很快又下降。這表明高度干擾的段落通常出現(xiàn)在靠前的位置,而排名較低的段落的DE得分接近0。

最后,導(dǎo)致更高HITS和Precision的檢索管道,例如使用BGE時,也表現(xiàn)出更高的MaxDE和MeanDE曲線,揭示了一個關(guān)鍵方面:更強的檢索器增加了召回率,但也帶來了更有害的干擾器,使檢索成為一把雙刃劍。

四、受控環(huán)境中的位置偏見

雖然先前的研究已經(jīng)確認了大型語言模型中位置偏見的存在,但這些研究通常只從相關(guān)段落的角度分析問題,完全忽略了位置偏見如何影響模型對干擾段落的敏感性。在這項研究中,研究團隊首次系統(tǒng)地調(diào)查了位置偏見對干擾段落的影響,分析了它們與相關(guān)內(nèi)容的交互。

對于每個查詢,研究團隊選擇由BGE large重排后獲得的排名最高的相關(guān)段落。遵循Amiraz等人的方法,他們使用前面提到的公式計算不相關(guān)段落的干擾效應(yīng)。他們將段落分類為"硬干擾器"(DE > 0.8)和"弱干擾器"(DE < 0.2)。

實驗結(jié)果顯示,當(dāng)在固定的弱干擾器中旋轉(zhuǎn)單個相關(guān)段落時,Qwen 2.5 7B表現(xiàn)出特征性的U形準確性模式。同樣,這種位置偏見也延伸到干擾段落,開頭或結(jié)尾的硬干擾器具有顯著更高的干擾效應(yīng)(36-44%),而中間位置的干擾效應(yīng)較低(28-34%)。這種平行模式表明,無論段落相關(guān)性如何,模型都偏好某些位置。

研究團隊通過在位置3(最低DE)和位置5(最高DE)放置硬干擾器,進一步驗證了這一點。與只使用弱干擾器相比,他們觀察到準確性平均下降了約6個百分點,而當(dāng)硬干擾器占據(jù)位置5時,下降更為明顯。這證實了位置偏好如何放大干擾內(nèi)容的負面影響。

五、真實場景中的位置偏見

在第四節(jié)中,研究團隊展示了在受控環(huán)境中,相關(guān)段落的位置可以導(dǎo)致高達5個百分點的答案準確性差異。然而,在真實的RAG場景中情況會如何呢?也就是說,當(dāng)大型語言模型的提示詞包含檢索管道排名前k的段落時。

這種設(shè)置與圖2a所示的受控環(huán)境有本質(zhì)區(qū)別。實際上,不能保證在排名前k的段落中只有一個相關(guān)段落:可能沒有,也可能有多個,還可能有一個或多個高度干擾的段落。因此,研究團隊根據(jù)以下策略安排了檢索到的前k個段落:

1. Shuffle:段落的隨機排序 2. Sequential:保持檢索排名順序 3. Inverse:顛倒檢索順序,根據(jù)提示詞模板,排名第一的檢索段落最接近問題 4. MaxRelevance:根據(jù)在受控實驗中估計的位置準確性對段落進行排序(即根據(jù)相關(guān)段落位置變化對模型表現(xiàn)的影響) 5. MinDistraction:根據(jù)在受控環(huán)境中估計的DE順序排列段落(即根據(jù)干擾段落位置變化對模型表現(xiàn)的影響)

實驗結(jié)果表明,在真實環(huán)境中位置偏見的影響很小:不同的段落排列策略導(dǎo)致的結(jié)果非常相似,與Shuffle基線沒有顯著差異,無論是什么大型語言模型或檢索管道。研究團隊認為,這些結(jié)果可以通過相關(guān)段落和高度干擾段落的對比效應(yīng)來解釋,正如圖1所示,它們都傾向于出現(xiàn)在檢索到的前幾個段落中:例如,在MaxRelevance策略中,將相關(guān)段落放在模型偏好位置的好處被無意中將高度干擾的段落放在相同位置的趨勢所抵消。

六、結(jié)論與啟示

研究團隊的工作證明,雖然位置偏見在當(dāng)前的大型語言模型中確實存在,但其在現(xiàn)實RAG環(huán)境中的影響是微乎其微的:檢索段落的隨機排序與更復(fù)雜的重排策略在統(tǒng)計上產(chǎn)生同等的準確性。

他們觀察到,當(dāng)代檢索器不僅僅返回一些不相關(guān)的段落,它們還會浮現(xiàn)出在超過60%的測試問題中降低答案準確性的段落,使檢索器本身成為錯誤的一階來源。因此,嘗試將相關(guān)段落放在模型的有利位置可能無意中優(yōu)先考慮硬干擾器而非相關(guān)內(nèi)容,抵消了戰(zhàn)略性重新排序的潛在好處。

這些發(fā)現(xiàn)表明,未來的改進應(yīng)該集中在檢索質(zhì)量和模型對干擾的魯棒性上,而不是段落定位。簡單地說,與其花時間優(yōu)化段落在提示詞中的順序,不如提高檢索系統(tǒng)的質(zhì)量,確保它能更準確地找到真正相關(guān)的信息,同時讓模型更好地抵抗干擾段落的影響。

作為一項開創(chuàng)性研究,這項工作確實有一些局限性。研究主要調(diào)查了事實性問答任務(wù),盡管干擾段落的概念適用于各種RAG用例。擴展研究到其他任務(wù),如多跳問答或事實驗證,將提供更完整的圖景,但研究團隊將這留給未來的工作。此外,雖然他們在英語基準上進行了實驗,但他們方法的語言無關(guān)性表明這些發(fā)現(xiàn)很可能適用于其他語言,盡管這一假設(shè)的正式驗證仍有待進行。

總的來說,這項研究為RAG系統(tǒng)的優(yōu)化提供了寶貴的洞察,表明簡單的隨機排序可能與復(fù)雜的位置優(yōu)化策略一樣有效,這不僅簡化了系統(tǒng)設(shè)計,還將注意力引導(dǎo)到更關(guān)鍵的改進領(lǐng)域。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-