av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 RARE:一場全面檢測檢索增強生成系統(tǒng)魯棒性的革命 - 卡內(nèi)基梅隆大學(xué)和亞馬遜聯(lián)合創(chuàng)新

RARE:一場全面檢測檢索增強生成系統(tǒng)魯棒性的革命 - 卡內(nèi)基梅隆大學(xué)和亞馬遜聯(lián)合創(chuàng)新

2025-06-06 12:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 12:22 ? 科技行者

在當(dāng)今人工智能快速發(fā)展的時代,檢索增強生成(RAG)系統(tǒng)已成為提升大語言模型事實準(zhǔn)確性和實時性的關(guān)鍵技術(shù)。然而,這些系統(tǒng)在面對真實世界的各種干擾和變化時,表現(xiàn)得如何呢?卡內(nèi)基梅隆大學(xué)與亞馬遜的研究團(tuán)隊近期在這一領(lǐng)域做出了突破性的貢獻(xiàn)。2025年6月1日,由卡內(nèi)基梅隆大學(xué)的Yixiao Zeng、Tianyu Cao、Danqing Wang、Xinran Zhao以及亞馬遜的Zimeng Qiu和Morteza Ziyadi,與卡內(nèi)基梅隆大學(xué)的Tongshuang Wu和Lei Li共同在arXiv上發(fā)表了題為《RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems》的研究論文,為我們揭示了檢索增強生成系統(tǒng)面對現(xiàn)實世界挑戰(zhàn)時的表現(xiàn)。

為什么我們需要關(guān)注RAG系統(tǒng)的魯棒性?

想象一下,你有一個非常聰明的朋友,他記憶力超群,能夠回答很多問題。但是,如果你的問題中有拼寫錯誤,或者提供的信息來源不太可靠,這位朋友還能給出準(zhǔn)確的回答嗎?這就是檢索增強生成(RAG)系統(tǒng)面臨的挑戰(zhàn)。

RAG系統(tǒng)就像是給大語言模型配備了一個"外部記憶庫",讓它能夠查閱最新、最相關(guān)的信息來回答問題。理論上,這應(yīng)該讓AI變得更加聰明和可靠。但實際上,現(xiàn)有的評估方法很少測試這些系統(tǒng)在面對現(xiàn)實世界中各種"噪音"時的表現(xiàn)能力。比如,當(dāng)查詢中有拼寫錯誤、文檔信息互相矛盾,或者面對快速變化的事實時,RAG系統(tǒng)是否依然可靠?

卡內(nèi)基梅隆大學(xué)和亞馬遜的研究團(tuán)隊意識到了這個問題的重要性。他們指出,當(dāng)前的評估基準(zhǔn)大多依賴于靜態(tài)的、時間不變的數(shù)據(jù)集,這些數(shù)據(jù)集通常包含常識性或通用知識的查詢。這種評估方法無意中偏向了那些依靠記憶而非真正檢索和綜合新信息的模型,導(dǎo)致評估結(jié)果過于樂觀,忽視了現(xiàn)實世界中涉及動態(tài)、專業(yè)和復(fù)雜信息的關(guān)鍵場景。

RARE:全面檢測RAG系統(tǒng)魯棒性的新框架

針對上述問題,研究團(tuán)隊提出了一個名為"檢索感知魯棒性評估"(Retrieval-Aware Robustness Evaluation,簡稱RARE)的統(tǒng)一框架,它從三個方面全面檢測RAG系統(tǒng)的魯棒性:

首先是RARE-Met,這是一套全面的魯棒性評估指標(biāo),用于測量RAG系統(tǒng)在面對查詢、文檔和模擬真實世界檢索結(jié)果擾動時的表現(xiàn)。它能夠提供對當(dāng)前系統(tǒng)局限性的診斷洞察。

其次是RARE-Get,這是一個創(chuàng)新的動態(tài)綜合管道,通過知識圖譜三元組提取和遍歷技術(shù),自動構(gòu)建時間敏感的評估數(shù)據(jù)。它能夠在不需要人工整理的情況下,以各種復(fù)雜程度創(chuàng)建單跳和多跳的三元組(問題、答案、真實文本塊)。

最后是RARE-Set,這是一個大規(guī)?;鶞?zhǔn)數(shù)據(jù)集,包含400多個專業(yè)級的時間敏感金融、經(jīng)濟和政策文檔,以及48,322個隨著底層信息源變化而演變的問題。與以往由通用知識問題主導(dǎo)的數(shù)據(jù)集不同,RARE-Set專注于需要高級信息綜合的領(lǐng)域特定技術(shù)查詢。

這個框架就像是為RAG系統(tǒng)設(shè)計的一系列"壓力測試",模擬了各種現(xiàn)實世界中可能遇到的挑戰(zhàn),從而全面評估系統(tǒng)的適應(yīng)能力和穩(wěn)定性。

三大核心組件詳解

### RARE-Met:精確衡量RAG系統(tǒng)魯棒性的量化標(biāo)準(zhǔn)

RARE-Met定義了一個魯棒的RAG系統(tǒng)應(yīng)該具備的兩大能力:一是當(dāng)系統(tǒng)擁有內(nèi)部知識(無需檢索就能回答正確)時,無論檢索結(jié)果如何(正確、錯誤或無關(guān)),系統(tǒng)都應(yīng)該始終回答正確;二是當(dāng)系統(tǒng)缺乏相關(guān)內(nèi)部知識時,應(yīng)該能夠在給予正確檢索信息的情況下回答正確,或者在無法獲得正確信息時明確表示不知道,而不是提供幻覺的答案。

基于這個定義,RARE-Met引入了三類擾動測試:

首先是查詢擾動,包括表面級擾動(如字符級和詞級錯誤,例如拼寫錯誤、同義詞替換)和高級擾動(如基于大語言模型的語法變化和無關(guān)信息添加)。

其次是文檔擾動,主要考慮兩個方面:詞匯相關(guān)性和答案相關(guān)性。研究團(tuán)隊定義了三種文檔擾動:詞匯相似但答案不同(從真實文本塊中刪除答案句子/詞匯);詞匯不同但答案相似/相同(基于大語言模型的回譯);以及真實世界檢索結(jié)果(構(gòu)建真實世界模擬檢索過程)。

最后是魯棒性指標(biāo)的計算,包括總體魯棒性(所有查詢和文檔擾動的笛卡爾積上的評估)、查詢魯棒性(固定真實文檔,變化查詢擾動)、文檔魯棒性(固定原始查詢,變化文檔擾動)和真實世界檢索魯棒性(原始查詢對不同嵌入模型返回的多樣文檔集的評估)。

這套評估體系就像是對RAG系統(tǒng)進(jìn)行的全面體檢,從各個角度檢測系統(tǒng)在面對不同類型干擾時的"免疫力"。

### RARE-Get:自動生成高質(zhì)量評估數(shù)據(jù)的智能引擎

創(chuàng)建高質(zhì)量的RAG基準(zhǔn)數(shù)據(jù)集一直是個挑戰(zhàn),特別是對于專業(yè)領(lǐng)域和多跳推理場景,通常需要大量的人力和領(lǐng)域?qū)I(yè)知識。為解決這個問題,研究團(tuán)隊開發(fā)了RARE-Get,這是一個全自動的管道,能夠為領(lǐng)域語料庫構(gòu)建復(fù)雜的RAG基準(zhǔn)。

RARE-Get通過四個關(guān)鍵階段轉(zhuǎn)換領(lǐng)域特定文檔為全面的基準(zhǔn)數(shù)據(jù)集:

首先是構(gòu)建真實文本塊,將文檔處理成約600個標(biāo)記的可管理塊,平衡信息量和檢索效率。對于表格,確保單個表格不會跨不同塊分割;對于純文本內(nèi)容,確保段落完整性。

其次是知識圖譜提取,利用GPT-4.1等大語言模型從連續(xù)文本塊中提取結(jié)構(gòu)化三元組,并使用E5-Mistral-7B-Instruct等先進(jìn)嵌入模型標(biāo)準(zhǔn)化語義相似的關(guān)系。

第三是查詢模式識別,通過系統(tǒng)遍歷構(gòu)建的知識圖譜,識別一種單跳和三種多跳結(jié)構(gòu)模式作為生成查詢的模板:單跳模式捕捉兩個實體之間的直接關(guān)系;鏈?zhǔn)蕉嗵J阶R別2-3個連續(xù)關(guān)聯(lián)的三元組;星形多跳模式捕捉中心實體連接到多個其他實體的情況;以及反星形多跳模式識別多個不同實體關(guān)聯(lián)到同一實體的情況。

最后是查詢生成和質(zhì)量保證,使用特定模式的提示生成基于三元組信息的問答對,并實施嚴(yán)格的質(zhì)量評估,評分每個問答對的合理性、清晰度和正確性,只有在所有維度得分超過3(滿分5)的查詢才會被納入最終基準(zhǔn)。

這個過程就像是一個自動運作的"問題工廠",能夠從專業(yè)文檔中提取知識,并將其轉(zhuǎn)化為各種復(fù)雜程度的高質(zhì)量問題,大大提高了創(chuàng)建專業(yè)評估數(shù)據(jù)集的效率。

### RARE-Set:時間敏感的專業(yè)領(lǐng)域大規(guī)模數(shù)據(jù)集

基于RARE-Get的強大能力,研究團(tuán)隊構(gòu)建了RARE-Set,這是一個包含三個不同領(lǐng)域數(shù)據(jù)集的大規(guī)模集合:金融、經(jīng)濟和政策。他們收集了一個異構(gòu)語料庫,包括150份最近的標(biāo)準(zhǔn)普爾500公司SEC 10-k申報文件、114份經(jīng)合組織經(jīng)濟調(diào)查以及214份美國住房和城市發(fā)展部(HUD)資助項目的綜合年度績效評估報告(CAPER)。

為了提高數(shù)據(jù)集質(zhì)量,研究團(tuán)隊采用了多種處理技術(shù)。對于金融報告,他們基于Edgar-Crawler進(jìn)行預(yù)處理,將表格轉(zhuǎn)換為針對大語言模型輸入優(yōu)化的markdown結(jié)構(gòu),并在金融文檔的知識圖譜提取中,優(yōu)先考慮涉及績效指標(biāo)、運營活動和財務(wù)事件的關(guān)系,重點是可以跨同一行業(yè)的公司應(yīng)用的通用和可重用關(guān)系。對于經(jīng)濟調(diào)查,他們設(shè)計提示以強調(diào)政策措施、關(guān)鍵經(jīng)濟指標(biāo)和國家發(fā)展模式。在政策報告方面,他們關(guān)注資金分配、項目實施和受益人數(shù)據(jù)。

最終構(gòu)建的基準(zhǔn)包含單跳查詢和基于知識圖譜中不同知識模式的三種多跳查詢。值得一提的是,所有這些數(shù)據(jù)集都是時間敏感的,可以隨著時間推移動態(tài)擴展。

這個數(shù)據(jù)集就像是為RAG系統(tǒng)準(zhǔn)備的一套"模擬考試題",不僅涵蓋了多個專業(yè)領(lǐng)域的知識,還能隨著現(xiàn)實世界信息的更新而不斷演化,確保評估始終與最新情況保持一致。

實驗與分析:揭示RAG系統(tǒng)的魯棒性表現(xiàn)

研究團(tuán)隊在RARE-Set上進(jìn)行了廣泛的實驗,測試了不同RAG系統(tǒng)在面對各種擾動時的魯棒性表現(xiàn)。實驗設(shè)置非常全面,包括對6000個問答對(三個領(lǐng)域各1000個單跳和1000個多跳問題)的評估。

在檢索方面,他們使用了MTEB排行榜上排名前三的嵌入模型:E5-Large-Instruct、Jina-Embedding-v3和Stella-En-1.5B-v5。對于RAG系統(tǒng)的生成器,他們測試了領(lǐng)先的開源大語言模型(Qwen 3和Llama 3系列)以及通過API訪問的閉源GPT模型。所有生成器都以確定性方式運行(溫度=0),最大輸出長度為1024個標(biāo)記。

為了衡量RAG系統(tǒng)生成答案與真實答案之間的差異,研究團(tuán)隊創(chuàng)建了一個兩階段評估器:首先,它對兩個字符串進(jìn)行標(biāo)準(zhǔn)化并檢查完全匹配或子字符串匹配;如果沒有找到詞匯匹配,則使用E5-Mistral-7B-Instruct計算兩個文本的句子嵌入表示之間的余弦相似度,當(dāng)相似度超過0.9時,預(yù)測被標(biāo)記為正確。這種混合標(biāo)準(zhǔn)既捕捉了逐字匹配的答案,也能識別語義等價的回答,同時對輕微的改述保持穩(wěn)健。

### 總體模型表現(xiàn)

實驗結(jié)果顯示,大型模型通常表現(xiàn)出更優(yōu)越的魯棒性。例如,Qwen3-14B的魯棒性得分超過了較小的Qwen3-8B和Qwen3-4B模型。類似的,70億參數(shù)的Llama3-70B表現(xiàn)明顯好于Llama3-8B。

然而,模型大小并不總是決定魯棒性的唯一因素。例如,Qwen3-32B的總體魯棒性得分低于較小的Qwen3-14B模型,GPT-4.1-mini也被更小的GPT-4.1-nano超越。在所有實驗中,Qwen 3系列一直表現(xiàn)出優(yōu)越的魯棒性,甚至Qwen3-8B也超過了大得多的Llama-3.1-70B。這些發(fā)現(xiàn)強調(diào)了架構(gòu)設(shè)計和訓(xùn)練方法的決定性作用。

就像是在測試汽車的越野能力時,并不是車身越大就越強——引擎設(shè)計、底盤結(jié)構(gòu)和輪胎質(zhì)量往往比單純的尺寸更重要。

### 領(lǐng)域特定和多跳問題的魯棒性

不同領(lǐng)域間的顯著性能差異表明,RAG系統(tǒng)的魯棒性受到領(lǐng)域特定因素的強烈影響。這些系統(tǒng)在金融報告上表現(xiàn)最佳,這類報告通常具有標(biāo)準(zhǔn)化的術(shù)語和數(shù)值數(shù)據(jù)。然而,它們在經(jīng)濟調(diào)查上遇到最大困難,這類調(diào)查通常涉及復(fù)雜的因果關(guān)系和多樣化的術(shù)語。

此外,單跳查詢在大多數(shù)領(lǐng)域和擾動類型下一致地產(chǎn)生更高的魯棒性得分,相比于多跳查詢。這種趨勢在較小的模型中更為明顯,表明維持多跳推理能力在擾動條件下需要大量的模型容量。

這就像是讓一個人在熟悉的城市和陌生的城市分別導(dǎo)航——即使是經(jīng)驗豐富的向?qū)?,在不熟悉的環(huán)境中也更容易迷路,特別是當(dāng)路標(biāo)模糊不清或地圖有錯誤時。同樣,當(dāng)需要連接多個信息點(多跳推理)時,即使是強大的模型也會因為任何一個環(huán)節(jié)的干擾而出錯。

### 查詢與文檔擾動的影響

實驗結(jié)果表明,RAG系統(tǒng)對不同類型的擾動有著不同程度的敏感性。文檔擾動對RAG系統(tǒng)的魯棒性產(chǎn)生了顯著影響,所有類型的文檔擾動相比原始真實文檔結(jié)果都顯示出明顯的下降。RAG系統(tǒng)在提供的文檔不包含正確答案時,難以準(zhǔn)確利用其內(nèi)部知識(或拒絕回答)。

相比之下,查詢擾動對RAG系統(tǒng)的魯棒性影響相對較小。在各種類型的查詢擾動中,詞級擾動對魯棒性的影響明顯大于其他形式。

這種現(xiàn)象就像是我們在獲取信息時面臨的不同挑戰(zhàn):如果我們的問題表述有點不清晰(查詢擾動),但參考資料準(zhǔn)確無誤(無文檔擾動),我們通常還能找到正確答案;但如果參考資料本身有誤或不完整(文檔擾動),即使我們問題表述得再清晰,也難以獲得準(zhǔn)確信息。

主要發(fā)現(xiàn)與啟示

通過RARE框架的全面評估,研究團(tuán)隊得出了幾個關(guān)鍵發(fā)現(xiàn):

首先,RAG系統(tǒng)在文檔擾動下非常脆弱,無論生成器的大小或架構(gòu)如何。這表明,即使是最先進(jìn)的RAG系統(tǒng)也難以在面對不完美或矛盾的檢索結(jié)果時保持準(zhǔn)確性。

其次,魯棒性得分并不總是嚴(yán)格隨模型大小增加而提高。某些中型生成器的表現(xiàn)優(yōu)于幾個更大的同類產(chǎn)品,這表明架構(gòu)設(shè)計和訓(xùn)練方法對魯棒性的影響可能比純粹的參數(shù)數(shù)量更重要。

第三,RAG系統(tǒng)在不同領(lǐng)域的魯棒性存在差異,金融領(lǐng)域表現(xiàn)最好,而經(jīng)濟領(lǐng)域最差。這可能與不同領(lǐng)域文檔的結(jié)構(gòu)化程度、術(shù)語的標(biāo)準(zhǔn)化程度以及信息的復(fù)雜性有關(guān)。

最后,多跳查詢的魯棒性一致低于單跳查詢,這表明當(dāng)需要跨多個文檔或信息片段進(jìn)行推理時,RAG系統(tǒng)更容易受到擾動的影響。

這些發(fā)現(xiàn)突顯了評估和改進(jìn)RAG系統(tǒng)魯棒性的重要性,特別是在現(xiàn)實世界應(yīng)用中,系統(tǒng)經(jīng)常需要處理噪聲查詢、不完美文檔和復(fù)雜推理任務(wù)。

結(jié)語:通向更可靠RAG系統(tǒng)的道路

RARE框架的提出為檢索增強生成系統(tǒng)的評估開辟了新的視角,從檢索感知的魯棒性角度全面測試系統(tǒng)在面對現(xiàn)實世界挑戰(zhàn)時的表現(xiàn)。這項研究不僅提供了一套完整的評估方法,還創(chuàng)建了一個能夠自動生成高質(zhì)量評估數(shù)據(jù)的管道和一個涵蓋多個專業(yè)領(lǐng)域的大規(guī)?;鶞?zhǔn)數(shù)據(jù)集。

實驗結(jié)果揭示了當(dāng)前RAG系統(tǒng)在魯棒性方面的局限性,特別是在處理文檔擾動和多跳推理任務(wù)時。這些發(fā)現(xiàn)為未來的研究和開發(fā)提供了明確的方向,指引我們朝著構(gòu)建更加魯棒、可靠的RAG系統(tǒng)邁進(jìn)。

就像是為自動駕駛汽車設(shè)計更全面的測試場景,幫助開發(fā)者了解系統(tǒng)在各種極端條件下的表現(xiàn),從而不斷改進(jìn)技術(shù),最終實現(xiàn)在任何天氣、任何路況下都能安全駕駛的目標(biāo)。同樣,RARE框架的貢獻(xiàn)在于幫助我們構(gòu)建能夠在嘈雜、復(fù)雜、不斷變化的現(xiàn)實世界中可靠運作的RAG系統(tǒng)。

對于希望深入了解這項研究的讀者,完整論文已在GitHub和HuggingFace上發(fā)布,包含代碼和完整數(shù)據(jù)集。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-