av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 SCB集團(tuán)團(tuán)隊(duì)突破傳統(tǒng)RAG技術(shù)壁壘:打造超大規(guī)模網(wǎng)絡(luò)知識庫的高速檢索新方案

SCB集團(tuán)團(tuán)隊(duì)突破傳統(tǒng)RAG技術(shù)壁壘:打造超大規(guī)模網(wǎng)絡(luò)知識庫的高速檢索新方案

2025-06-20 14:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-20 14:18 ? 科技行者

這項(xiàng)由泰國SCBX金融集團(tuán)和SCB 10X團(tuán)隊(duì)聯(lián)合開展的研究發(fā)表于2025年6月,并提交至SIGIR2025 LiveRAG挑戰(zhàn)賽。研究團(tuán)隊(duì)包括來自SCBX的Saksorn Ruangtanusak、Natthapath Rungseesiripak、Peerawat Rojratchadakorn、Monthol Charattrakool,以及來自SCB 10X的Natapong Nitarach。有興趣深入了解的讀者可以通過arXiv:2506.12571v1訪問完整論文。

在當(dāng)今信息爆炸的時(shí)代,人工智能需要快速準(zhǔn)確地從海量信息中找到正確答案,就像在一個(gè)巨大的圖書館里瞬間找到你想要的那本特定書籍。傳統(tǒng)的檢索增強(qiáng)生成系統(tǒng)(RAG)面臨著一個(gè)巨大挑戰(zhàn):當(dāng)知識庫變得極其龐大時(shí),要么檢索速度慢得讓人無法忍受,要么準(zhǔn)確性差得讓人失望。這就像讓一個(gè)圖書管理員在擁有千萬冊藏書的圖書館里,既要快速找書,又要保證找到的正是讀者需要的那本書。

SCBX團(tuán)隊(duì)面對的是一個(gè)包含1500萬份網(wǎng)絡(luò)文檔的巨型知識庫,相當(dāng)于需要管理一個(gè)比國家圖書館還要龐大數(shù)倍的數(shù)字藏書。他們開發(fā)的DoTA-RAG系統(tǒng)就像訓(xùn)練了一支超級高效的圖書管理團(tuán)隊(duì),能夠在35秒內(nèi)從這個(gè)巨型數(shù)字圖書館中找到最相關(guān)的信息,并給出準(zhǔn)確的答案。

研究團(tuán)隊(duì)的核心創(chuàng)新在于徹底改變了傳統(tǒng)的"一刀切"檢索方式。以往的系統(tǒng)就像讓一個(gè)人負(fù)責(zé)整個(gè)圖書館的所有區(qū)域,而DoTA-RAG則像建立了一個(gè)智能分工系統(tǒng)。當(dāng)有人提出問題時(shí),系統(tǒng)首先會分析這個(gè)問題屬于哪個(gè)領(lǐng)域,然后只在相關(guān)的"專業(yè)書架"上搜索,大大縮小了搜索范圍。這種動態(tài)路由機(jī)制將平均搜索空間縮小了92%,檢索延遲從原來的100多秒降低到僅僅19秒。

更令人印象深刻的是,他們還設(shè)計(jì)了一套類似"多重過濾"的混合檢索策略。就像一個(gè)經(jīng)驗(yàn)豐富的研究員會先用關(guān)鍵詞快速篩選相關(guān)書籍,然后仔細(xì)閱讀摘要,最后精選出最有價(jià)值的幾本一樣,DoTA-RAG也會經(jīng)過多個(gè)階段來提煉信息。系統(tǒng)首先用語義相似性找到100個(gè)候選文檔,然后用傳統(tǒng)的關(guān)鍵詞匹配方法篩選出20個(gè)最相關(guān)的,最后使用先進(jìn)的重新排序技術(shù)挑選出最終的10個(gè)文檔來生成答案。

一、問題的真實(shí)挑戰(zhàn):當(dāng)AI遇上網(wǎng)絡(luò)信息的汪洋大海

要理解這項(xiàng)研究的意義,我們可以把現(xiàn)代AI助手比作一個(gè)博學(xué)的顧問。當(dāng)你向這位顧問提問時(shí),他需要快速查閱大量資料才能給出準(zhǔn)確答案。然而,現(xiàn)實(shí)中的挑戰(zhàn)遠(yuǎn)比想象中復(fù)雜。

傳統(tǒng)的檢索增強(qiáng)生成系統(tǒng)就像讓這位顧問在一個(gè)混亂的資料室里工作。資料室里有各種各樣的文件:新聞報(bào)道、學(xué)術(shù)論文、產(chǎn)品說明、個(gè)人博客、社交媒體帖子等等,全部混在一起,沒有明確的分類。當(dāng)你問一個(gè)關(guān)于健康的問題時(shí),系統(tǒng)可能需要在所有1500萬份文檔中進(jìn)行搜索,包括那些完全不相關(guān)的汽車維修手冊和烹飪食譜。

這種"大海撈針"的方式帶來了兩個(gè)嚴(yán)重問題。第一個(gè)問題是速度慢得令人抓狂。傳統(tǒng)系統(tǒng)需要對每個(gè)查詢都檢查整個(gè)龐大的數(shù)據(jù)庫,就像每次找東西都要翻遍整個(gè)房子一樣低效。第二個(gè)問題是準(zhǔn)確性難以保證。在海量的無關(guān)信息中,真正有用的信息很容易被埋沒,就像在一堆雜草中尋找珍貴的花朵。

SCBX團(tuán)隊(duì)面臨的FineWeb-10BT語料庫更是將這個(gè)挑戰(zhàn)推向了極致。這個(gè)語料庫包含了從互聯(lián)網(wǎng)抓取的1500萬份真實(shí)文檔,涵蓋了24個(gè)不同主題領(lǐng)域和24種不同文檔格式。從金融商業(yè)信息到體育健身指南,從新聞文章到個(gè)人博客,從產(chǎn)品頁面到學(xué)術(shù)論文,應(yīng)有盡有。這就像要管理一個(gè)包含了世界上幾乎所有類型書籍的超級圖書館。

更復(fù)雜的是,這些信息還在不斷更新變化。網(wǎng)絡(luò)信息不像傳統(tǒng)圖書館的書籍那樣靜態(tài)穩(wěn)定,而是像一條永不停息的河流,新信息不斷涌入,舊信息可能隨時(shí)過時(shí)。這要求檢索系統(tǒng)不僅要快速準(zhǔn)確,還要能夠適應(yīng)信息的動態(tài)變化。

在SIGIR 2025 LiveRAG挑戰(zhàn)賽的嚴(yán)格要求下,所有參賽團(tuán)隊(duì)都必須使用相同的語料庫和相同的語言模型Falcon-3-10B-Instruct,這就像讓所有廚師使用相同的食材和廚具來比拼廚藝。在這種公平競爭的環(huán)境下,真正的差異就體現(xiàn)在系統(tǒng)設(shè)計(jì)的巧思和優(yōu)化策略的精妙上。

研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)RAG系統(tǒng)在面對如此龐大和多樣化的數(shù)據(jù)時(shí),往往會出現(xiàn)"消化不良"的癥狀。系統(tǒng)要么因?yàn)樘幚硇畔⒘窟^大而反應(yīng)遲緩,要么因?yàn)樾畔⒑Y選不夠精準(zhǔn)而給出不夠準(zhǔn)確的答案。這就像一個(gè)人試圖同時(shí)閱讀成千上萬本書來回答一個(gè)簡單問題,結(jié)果反而因?yàn)樾畔⑦^載而無法給出清晰的答案。

二、DoTA-RAG的創(chuàng)新架構(gòu):構(gòu)建智能信息管家系統(tǒng)

面對傳統(tǒng)RAG系統(tǒng)的種種局限,SCBX團(tuán)隊(duì)設(shè)計(jì)的DoTA-RAG就像打造了一個(gè)超級智能的信息管家系統(tǒng)。這個(gè)系統(tǒng)的核心理念是"分而治之,精準(zhǔn)制導(dǎo)",通過巧妙的分工協(xié)作來實(shí)現(xiàn)既快又準(zhǔn)的信息檢索。

整個(gè)DoTA-RAG系統(tǒng)的工作流程就像一個(gè)訓(xùn)練有素的專業(yè)服務(wù)團(tuán)隊(duì)。當(dāng)客戶(用戶)提出問題時(shí),系統(tǒng)不會盲目地在所有資料中亂找,而是首先派出一個(gè)"問題分析師"來理解和優(yōu)化客戶的詢問。這個(gè)分析師會檢查問題是否有拼寫錯(cuò)誤、表達(dá)是否清晰,就像一個(gè)貼心的客服代表會先確認(rèn)客戶的真實(shí)需求一樣。

接下來,系統(tǒng)會啟動一個(gè)"智能導(dǎo)航員"來決定應(yīng)該在哪些特定區(qū)域搜索信息。這就像一個(gè)經(jīng)驗(yàn)豐富的圖書館管理員,聽到你的問題后立即知道應(yīng)該去哪幾個(gè)特定書架尋找相關(guān)資料,而不是漫無目的地在整個(gè)圖書館里瞎轉(zhuǎn)。這個(gè)導(dǎo)航系統(tǒng)特別聰明,它會同時(shí)派出四個(gè)"偵察員"獨(dú)立分析問題的類別,然后通過投票機(jī)制決定最可能的兩個(gè)相關(guān)領(lǐng)域,確保判斷的準(zhǔn)確性。

在確定了搜索范圍后,系統(tǒng)會啟動一個(gè)三階段的"精準(zhǔn)搜索機(jī)制"。這個(gè)機(jī)制就像一個(gè)專業(yè)的信息篩選流水線。首先,"廣撒網(wǎng)"階段使用先進(jìn)的Snowflake Arctic-embed-m-v2.0嵌入模型進(jìn)行語義搜索,從選定的領(lǐng)域中找出100個(gè)潛在相關(guān)的文檔,就像先用大網(wǎng)捕撈可能有用的魚群。

然后進(jìn)入"細(xì)篩選"階段,系統(tǒng)使用BM25算法進(jìn)行關(guān)鍵詞匹配,將100個(gè)候選文檔縮減到20個(gè)最相關(guān)的,就像用更細(xì)密的篩子進(jìn)一步過濾。最后是"精挑選"階段,系統(tǒng)動用Cohere的Rerank 3.5重排序引擎,這是一個(gè)非常智能的"質(zhì)量檢查員",它會深入分析每個(gè)文檔與問題的匹配程度,最終選出質(zhì)量最高的10個(gè)文檔。

這種多階段篩選機(jī)制的妙處在于結(jié)合了不同搜索方法的優(yōu)勢。語義搜索擅長理解意思相近但用詞不同的內(nèi)容,關(guān)鍵詞匹配能確保重要術(shù)語的精確匹配,而重排序引擎則能進(jìn)行更深層次的相關(guān)性判斷。三者結(jié)合就像組建了一個(gè)各有專長的專家團(tuán)隊(duì),確保從不同角度都能找到最相關(guān)的信息。

在信息收集完成后,系統(tǒng)會啟動"智能整合器"來處理這些精選文檔。這個(gè)整合器就像一個(gè)熟練的編輯,它會將10個(gè)文檔的內(nèi)容巧妙地組合在一起,如果內(nèi)容過多就會按比例進(jìn)行精簡,確保最終的信息包既全面又簡潔,不會超過8000個(gè)詞語的處理上限。

最后,系統(tǒng)的"智能回答生成器"會基于這些精心整理的背景信息來生成最終答案。這個(gè)生成器使用的是Falcon3-10B-Instruct語言模型,就像一個(gè)博學(xué)的專家顧問,能夠綜合所有相關(guān)信息給出清晰、準(zhǔn)確、有用的回答。

整個(gè)DoTA-RAG系統(tǒng)最令人贊嘆的地方在于它的動態(tài)適應(yīng)能力。系統(tǒng)不是機(jī)械地執(zhí)行固定流程,而是會根據(jù)不同類型的問題靈活調(diào)整策略。對于簡單直接的問題,系統(tǒng)能快速定位和回答;對于復(fù)雜的多方面問題,系統(tǒng)會更仔細(xì)地搜集和整合信息。這種智能化的適應(yīng)性讓系統(tǒng)既保持了高效率,又確保了回答質(zhì)量。

三、技術(shù)創(chuàng)新的核心突破:讓機(jī)器更懂人類的提問方式

DoTA-RAG系統(tǒng)的技術(shù)創(chuàng)新核心體現(xiàn)在對人類提問方式的深度理解和智能處理上。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)實(shí)中人們的提問往往并不完美,可能包含拼寫錯(cuò)誤、表達(dá)不清或用詞不準(zhǔn)確等問題,就像我們在日常對話中經(jīng)常會說"那個(gè)什么來著"或者用方言俚語表達(dá)復(fù)雜概念一樣。

系統(tǒng)的查詢重寫模塊就像一個(gè)貼心的翻譯助手,專門負(fù)責(zé)理解和優(yōu)化用戶的真實(shí)意圖。在LiveRAG挑戰(zhàn)賽的實(shí)戰(zhàn)中,研究團(tuán)隊(duì)遇到了許多極具挑戰(zhàn)性的真實(shí)查詢,比如"wut iz rajun cajun crawfsh festivl"(什么是路易斯安那州小龍蝦節(jié))和"wut r sum side affects of nicotine gum"(尼古丁口香糖有什么副作用)。這些查詢包含了大量拼寫錯(cuò)誤和非標(biāo)準(zhǔn)表達(dá),傳統(tǒng)系統(tǒng)往往無法正確理解,就像聽不懂方言的外地人一樣困惑。

面對這些挑戰(zhàn),DoTA-RAG的查詢重寫系統(tǒng)展現(xiàn)出了remarkable的理解能力。它不僅能識別和糾正拼寫錯(cuò)誤,還能理解用戶的真實(shí)查詢意圖,將不規(guī)范的表達(dá)轉(zhuǎn)換為清晰準(zhǔn)確的查詢語句。這就像一個(gè)經(jīng)驗(yàn)豐富的客服代表,即使客戶表達(dá)不清楚,也能準(zhǔn)確理解客戶的真實(shí)需求。

動態(tài)命名空間路由技術(shù)是另一個(gè)重要?jiǎng)?chuàng)新。研究團(tuán)隊(duì)將整個(gè)1500萬文檔的龐大語料庫按照24個(gè)主題領(lǐng)域進(jìn)行了智能分割,每個(gè)領(lǐng)域都有自己獨(dú)立的"存儲空間"。這種設(shè)計(jì)就像將一個(gè)超級大商場按照不同商品類別劃分為專門的樓層和區(qū)域,顧客可以直接前往相關(guān)區(qū)域購物,而不需要逛遍整個(gè)商場。

路由系統(tǒng)的智能程度特別值得稱贊。當(dāng)接收到一個(gè)查詢時(shí),系統(tǒng)會啟動四個(gè)獨(dú)立的"分析師"同時(shí)工作,每個(gè)分析師都會根據(jù)自己的理解對查詢進(jìn)行分類。然后系統(tǒng)會統(tǒng)計(jì)這四個(gè)分析師的意見,選擇得票最多的前兩個(gè)類別進(jìn)行并行搜索。這種"集體智慧"的方法大大提高了分類的準(zhǔn)確性,避免了單一判斷可能出現(xiàn)的偏差。

更令人印象深刻的是,這種動態(tài)路由策略帶來了戲劇性的性能提升。通過將搜索范圍縮小到相關(guān)的子領(lǐng)域,系統(tǒng)將平均搜索空間減少了92%,這意味著系統(tǒng)只需要在原來8%的數(shù)據(jù)中搜索就能找到所需信息。相應(yīng)地,檢索延遲從原來的100.84秒大幅下降到19.01秒,速度提升了5倍多。這就像從在整個(gè)城市中尋找一家餐廳,變成了在特定街區(qū)中尋找,效率的提升是顯而易見的。

混合檢索策略的設(shè)計(jì)也體現(xiàn)了團(tuán)隊(duì)對不同搜索方法優(yōu)缺點(diǎn)的深刻理解。語義搜索擅長理解概念和意義的相似性,能夠找到意思相近但用詞不同的內(nèi)容,就像能理解"汽車"和"轎車"本質(zhì)上指的是同類事物。然而,語義搜索有時(shí)會忽略重要的具體細(xì)節(jié)或?qū)I(yè)術(shù)語。

關(guān)鍵詞搜索則恰好補(bǔ)充了語義搜索的不足。它能精確匹配重要的專業(yè)術(shù)語和具體名稱,確保不會遺漏關(guān)鍵信息,就像能準(zhǔn)確找到包含特定品牌名稱或型號的產(chǎn)品信息。但關(guān)鍵詞搜索的局限在于過于字面化,可能錯(cuò)過意義相同但用詞不同的相關(guān)內(nèi)容。

重排序技術(shù)則像一個(gè)經(jīng)驗(yàn)豐富的專家評審,它能夠深入分析查詢和文檔之間的復(fù)雜關(guān)系,進(jìn)行更加精準(zhǔn)的相關(guān)性判斷。Cohere的Rerank 3.5引擎使用了先進(jìn)的跨編碼器架構(gòu),能夠同時(shí)考慮查詢和文檔的完整上下文信息,做出更加準(zhǔn)確的排序決策。

這三種技術(shù)的結(jié)合創(chuàng)造了一個(gè)強(qiáng)大的協(xié)同效應(yīng)。系統(tǒng)首先用語義搜索確保覆蓋面的廣度,然后用關(guān)鍵詞匹配保證重要細(xì)節(jié)的精確性,最后用重排序技術(shù)確保最終結(jié)果的質(zhì)量。這種多層次的篩選過程就像一個(gè)高效的人才選拔系統(tǒng),通過多輪不同類型的考核來確保最終選出的候選人既符合基本要求,又具備出色的專業(yè)能力。

四、嵌入模型的關(guān)鍵選擇:為AI打造更敏銳的"理解力"

在DoTA-RAG系統(tǒng)的技術(shù)架構(gòu)中,嵌入模型的選擇就像為整個(gè)系統(tǒng)安裝了一雙"慧眼",直接決定了系統(tǒng)理解和處理信息的能力。研究團(tuán)隊(duì)在這個(gè)關(guān)鍵環(huán)節(jié)上進(jìn)行了深入的比較研究和優(yōu)化選擇。

要理解嵌入模型的重要性,我們可以把它比作一個(gè)超級翻譯系統(tǒng)。這個(gè)翻譯系統(tǒng)的任務(wù)不是在不同語言之間轉(zhuǎn)換,而是將人類的自然語言轉(zhuǎn)換為計(jì)算機(jī)能夠理解和比較的數(shù)字形式。就像每個(gè)人都有獨(dú)特的指紋一樣,每個(gè)詞語、句子或文檔都會被轉(zhuǎn)換為一個(gè)獨(dú)特的數(shù)字"指紋"。當(dāng)兩段文本的意思相近時(shí),它們的數(shù)字指紋也會很相似;當(dāng)意思差別很大時(shí),數(shù)字指紋的差異也會很明顯。

研究團(tuán)隊(duì)最初使用的是E5-base-v2模型,這是一個(gè)在學(xué)術(shù)界廣泛使用的基礎(chǔ)模型。然而,在面對1500萬份多樣化網(wǎng)絡(luò)文檔的挑戰(zhàn)時(shí),團(tuán)隊(duì)發(fā)現(xiàn)這個(gè)模型的表現(xiàn)還有很大的提升空間。就像一個(gè)剛?cè)肼毜男聠T工雖然具備基本技能,但在處理復(fù)雜任務(wù)時(shí)還需要更多的經(jīng)驗(yàn)和培訓(xùn)。

為了找到更好的替代方案,團(tuán)隊(duì)深入研究了MTEB(大規(guī)模文本嵌入基準(zhǔn))英語檢索任務(wù)排行榜。這個(gè)排行榜就像嵌入模型界的"奧林匹克競賽",匯集了世界各地研究團(tuán)隊(duì)開發(fā)的優(yōu)秀模型,通過標(biāo)準(zhǔn)化測試來評估它們的性能。

在詳細(xì)分析了排行榜上的眾多模型后,團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人印象深刻的"明星選手":Snowflake公司開發(fā)的Arctic-embed系列模型。這個(gè)系列的模型在保持相對較小體積(少于10億參數(shù))的同時(shí),在檢索任務(wù)上表現(xiàn)出了卓越的性能。具體來說,Arctic-embed-large模型獲得了58.56分的平均分?jǐn)?shù),Arctic-embed-medium模型也達(dá)到了58.41分,而原來使用的E5-base-v2模型只有49.67分。

這種性能差異就像在體育比賽中,一個(gè)選手跑100米需要12秒,而另一個(gè)選手只需要10秒,差距看起來不大,但在實(shí)際應(yīng)用中卻意味著顯著的優(yōu)勢??紤]到部署效率和成本因素,團(tuán)隊(duì)最終選擇了Arctic-embed-m-v2.0(中等規(guī)模版本),它在性能和資源消耗之間達(dá)到了理想的平衡。

更換嵌入模型不僅僅是簡單的軟件升級,而是需要對整個(gè)1500萬文檔的語料庫進(jìn)行重新處理。這個(gè)過程就像給整個(gè)圖書館的所有書籍重新編制索引卡片,工作量巨大但至關(guān)重要。團(tuán)隊(duì)需要用新的模型重新計(jì)算每個(gè)文檔的數(shù)字指紋,然后在Pinecone向量數(shù)據(jù)庫中重新建立索引。

這項(xiàng)"大工程"的投入得到了豐厚的回報(bào)。在團(tuán)隊(duì)自己構(gòu)建的內(nèi)部測試集上,檢索質(zhì)量指標(biāo)Recall@10從0.469提升到0.518,提升幅度超過10%。這個(gè)指標(biāo)衡量的是系統(tǒng)在前10個(gè)搜索結(jié)果中找到相關(guān)信息的能力,提升意味著用戶更容易在搜索結(jié)果的前幾項(xiàng)中找到所需信息,就像從書架上更容易找到想要的書籍。

Arctic-embed-m-v2.0模型的優(yōu)勢不僅體現(xiàn)在數(shù)字指標(biāo)上,更重要的是它對多樣化網(wǎng)絡(luò)內(nèi)容的適應(yīng)能力。FineWeb-10BT語料庫包含了從正式新聞報(bào)道到個(gè)人博客、從學(xué)術(shù)論文到產(chǎn)品描述等各種類型的文檔,語言風(fēng)格、表達(dá)方式和內(nèi)容結(jié)構(gòu)都存在巨大差異。傳統(tǒng)模型往往在某些特定類型的文檔上表現(xiàn)良好,但在面對如此多樣化的內(nèi)容時(shí)會出現(xiàn)"偏科"現(xiàn)象。

相比之下,Arctic-embed-m-v2.0展現(xiàn)出了更強(qiáng)的泛化能力,就像一個(gè)語言天才能夠理解各種方言和表達(dá)方式。無論是嚴(yán)肅的學(xué)術(shù)討論、輕松的博客分享,還是商業(yè)產(chǎn)品介紹,這個(gè)模型都能準(zhǔn)確捕捉文本的核心語義信息,生成高質(zhì)量的數(shù)字表示。

嵌入模型的優(yōu)化還帶來了意想不到的連鎖效應(yīng)。更準(zhǔn)確的文檔表示意味著后續(xù)的BM25篩選和重排序步驟都能在更高質(zhì)量的候選集合上工作,就像在已經(jīng)初步篩選過的優(yōu)質(zhì)原材料基礎(chǔ)上進(jìn)行精加工,最終產(chǎn)品的質(zhì)量自然會更好。這種協(xié)同效應(yīng)讓整個(gè)DoTA-RAG系統(tǒng)的性能得到了全面提升。

五、評估體系的構(gòu)建:如何科學(xué)衡量AI回答的質(zhì)量

構(gòu)建一個(gè)科學(xué)公正的評估體系來衡量AI系統(tǒng)的回答質(zhì)量,就像為奧運(yùn)會設(shè)計(jì)評分標(biāo)準(zhǔn)一樣復(fù)雜而重要。SCBX團(tuán)隊(duì)不僅要評估自己系統(tǒng)的性能,還要確保評估結(jié)果能夠真實(shí)反映系統(tǒng)在實(shí)際應(yīng)用中的表現(xiàn)。

傳統(tǒng)的RAG系統(tǒng)評估面臨著一個(gè)根本性挑戰(zhàn):缺乏真實(shí)多樣的測試數(shù)據(jù)集。大多數(shù)現(xiàn)有的測試集要么規(guī)模太小,要么內(nèi)容過于單一,就像用幾道簡單的數(shù)學(xué)題來測試一個(gè)學(xué)生的全面學(xué)習(xí)能力一樣不夠全面。為了解決這個(gè)問題,研究團(tuán)隊(duì)決定自己構(gòu)建一個(gè)comprehensive的評估基準(zhǔn)。

團(tuán)隊(duì)采用了DataMorgana工具來生成多樣化的問答對。這個(gè)工具就像一個(gè)專業(yè)的考試命題專家,能夠根據(jù)不同的要求生成各種類型和難度的問題。團(tuán)隊(duì)最初生成了1000個(gè)問答對,然后通過精心設(shè)計(jì)的篩選過程,最終構(gòu)建了一個(gè)包含500個(gè)高質(zhì)量問題的測試集,命名為MorganaMultiDocQA。

這個(gè)測試集的設(shè)計(jì)理念特別巧妙。團(tuán)隊(duì)不滿足于簡單的問答格式,而是創(chuàng)建了一個(gè)復(fù)雜的問題分類體系,包含8個(gè)不同的問題類型。每種類型都對應(yīng)著現(xiàn)實(shí)生活中人們可能遇到的不同查詢需求。

比如"多方面"類型的問題要求系統(tǒng)從兩個(gè)不同角度來分析同一個(gè)主題,就像問"人工智能在醫(yī)療診斷中有什么優(yōu)勢,同時(shí)存在哪些偏見風(fēng)險(xiǎn)?"這類問題考驗(yàn)系統(tǒng)是否能夠全面理解復(fù)雜話題的多個(gè)維度。

"比較"類型的問題則要求系統(tǒng)對兩個(gè)相關(guān)概念或?qū)嶓w進(jìn)行對比分析,就像問"特斯拉和比亞迪在電動汽車技術(shù)上有什么不同?"這類問題測試系統(tǒng)整合不同信息源并進(jìn)行綜合分析的能力。

"時(shí)間演進(jìn)"類型的問題特別有趣,它要求系統(tǒng)追蹤某個(gè)事物隨時(shí)間的變化發(fā)展,比如"智能手機(jī)技術(shù)在過去十年中是如何演進(jìn)的?"這類問題考驗(yàn)系統(tǒng)處理時(shí)間序列信息和識別發(fā)展趨勢的能力。

"問題解決"類型的問題更加實(shí)用,要求系統(tǒng)既要識別問題,又要提出解決方案,比如"全球糧食安全面臨哪些挑戰(zhàn),有什么創(chuàng)新農(nóng)業(yè)技術(shù)可以解決這些問題?"這類問題測試系統(tǒng)的邏輯推理和實(shí)用性。

為了確保測試集的代表性,團(tuán)隊(duì)使用了WebOrganizer工具對每個(gè)問答對涉及的文檔進(jìn)行了詳細(xì)標(biāo)注。這個(gè)工具能夠識別文檔的主題類別(24種)和格式類型(24種),就像給每份文檔貼上詳細(xì)的標(biāo)簽。通過這種標(biāo)注,團(tuán)隊(duì)確保測試集覆蓋了所有可能的主題-格式組合,避免了評估中的盲點(diǎn)。

團(tuán)隊(duì)還采用了分層抽樣的策略來構(gòu)建最終的500問題測試集。這種方法就像在選擇民意調(diào)查樣本時(shí)要確保各個(gè)年齡段、教育水平和地區(qū)的人都有適當(dāng)比例的代表一樣。通過精確的數(shù)學(xué)公式,團(tuán)隊(duì)確保每個(gè)主題-格式組合都在測試集中占有合適的比例,這樣評估結(jié)果就能真實(shí)反映系統(tǒng)在處理各種類型內(nèi)容時(shí)的表現(xiàn)。

在評估指標(biāo)的設(shè)計(jì)上,團(tuán)隊(duì)選擇了兩個(gè)核心維度:正確性和忠實(shí)性。正確性評分范圍從-1到2,衡量答案是否相關(guān)、準(zhǔn)確和完整。-1分表示答案完全錯(cuò)誤,0分表示基本正確但有缺陷,1分表示良好的答案,2分則代表完美的答案。這種細(xì)致的評分體系能夠精確區(qū)分不同質(zhì)量水平的回答。

忠實(shí)性評分范圍從-1到1,專門衡量答案是否基于檢索到的文檔內(nèi)容。-1分表示答案完全沒有根據(jù),0分表示部分有根據(jù),1分表示答案完全基于檢索文檔。這個(gè)指標(biāo)特別重要,因?yàn)樗芊乐瓜到y(tǒng)"胡編亂造",確?;卮鸲加锌煽康男畔碓础?/p>

在評判方式上,團(tuán)隊(duì)采用了"AI作為評審員"的創(chuàng)新方法。他們比較了Claude 3.5 Sonnet和Falcon3-10B-Instruct兩個(gè)模型作為評審員的表現(xiàn)。結(jié)果發(fā)現(xiàn),雖然Claude 3.5 Sonnet是一個(gè)更強(qiáng)大的模型,但Falcon3-10B-Instruct在評估質(zhì)量上表現(xiàn)相當(dāng),同時(shí)具有更快的速度和更低的成本優(yōu)勢。

這種選擇體現(xiàn)了團(tuán)隊(duì)在實(shí)用性和效率之間的明智平衡。在大規(guī)模系統(tǒng)開發(fā)過程中,需要進(jìn)行大量的實(shí)驗(yàn)和評估,使用更高效的評估工具能夠大大加速開發(fā)進(jìn)程,降低成本,同時(shí)保持評估質(zhì)量的可靠性。

六、實(shí)驗(yàn)結(jié)果分析:從數(shù)據(jù)看DoTA-RAG的優(yōu)異表現(xiàn)

DoTA-RAG系統(tǒng)的實(shí)驗(yàn)結(jié)果就像一份令人振奮的成績單,清晰地展示了每個(gè)技術(shù)創(chuàng)新帶來的具體改進(jìn)效果。通過carefully設(shè)計(jì)的漸進(jìn)式實(shí)驗(yàn),研究團(tuán)隊(duì)能夠準(zhǔn)確量化每個(gè)組件對整體性能的貢獻(xiàn)。

實(shí)驗(yàn)采用了"一步一個(gè)腳印"的漸進(jìn)式方法,就像建造房屋時(shí)逐層添加材料并檢查每層的穩(wěn)固性一樣。團(tuán)隊(duì)從一個(gè)基礎(chǔ)配置開始,然后依次添加各種改進(jìn)組件,每次添加后都會測量性能變化,這樣就能清楚地看到每個(gè)改進(jìn)措施的實(shí)際效果。

基礎(chǔ)配置使用的是E5-base-v2嵌入模型配合Falcon3-10B-Instruct生成模型,這個(gè)組合的正確性得分只有0.752,忠實(shí)性得分更是低至-0.496的負(fù)值。負(fù)的忠實(shí)性得分意味著系統(tǒng)生成的答案往往缺乏可靠的文檔支撐,有時(shí)甚至?xí)?編造"一些不存在的信息,就像一個(gè)不夠可靠的顧問可能會為了顯示博學(xué)而說一些沒有根據(jù)的話。

當(dāng)團(tuán)隊(duì)將嵌入模型升級到Arctic-embed-m-v2.0后,系統(tǒng)性能出現(xiàn)了戲劇性的躍升。正確性得分從0.752大幅提升到1.616,提升幅度超過了100%。這種巨大的改進(jìn)就像給一個(gè)近視眼的人配上了合適的眼鏡,突然間整個(gè)世界都變得清晰起來。雖然忠實(shí)性得分仍然是負(fù)值(-0.216),但相比之前已經(jīng)有了顯著改善。

接下來添加動態(tài)路由功能后,正確性得分略微下降到1.562,但忠實(shí)性得分顯著改善到-0.108。這個(gè)變化反映了一個(gè)有趣的現(xiàn)象:路由功能通過縮小搜索范圍提高了效率,但可能會錯(cuò)過一些邊緣相關(guān)的信息。然而,更重要的是忠實(shí)性的改善,說明系統(tǒng)開始更多地依賴實(shí)際檢索到的文檔來生成答案,而不是"憑空想象"。

BM25剪枝功能的加入帶來了另一個(gè)重要突破。雖然正確性得分保持在1.562的水平,但忠實(shí)性得分首次轉(zhuǎn)為正值,達(dá)到了0.428。這個(gè)轉(zhuǎn)折點(diǎn)意義重大,就像一個(gè)學(xué)生從不及格突然躍升到及格線以上。BM25剪枝通過關(guān)鍵詞匹配確保了檢索結(jié)果與查詢的直接相關(guān)性,大大減少了系統(tǒng)"胡說八道"的傾向。

重排序功能的引入將系統(tǒng)性能推向了新的高度。正確性得分提升到1.652,忠實(shí)性得分進(jìn)一步改善到0.672。Cohere的Rerank 3.5引擎就像一個(gè)經(jīng)驗(yàn)豐富的編輯,能夠從眾多候選文檔中挑選出真正高質(zhì)量的內(nèi)容,確保最終答案既準(zhǔn)確又可靠。

令人意外的是,查詢重寫功能的加入反而導(dǎo)致了性能的輕微下降。最終的DoTA-RAG系統(tǒng)在內(nèi)部測試集上獲得了1.478的正確性得分和0.640的忠實(shí)性得分。這種看似"退步"的現(xiàn)象實(shí)際上反映了系統(tǒng)設(shè)計(jì)的一個(gè)重要考量:針對特定測試環(huán)境的優(yōu)化可能會在其他環(huán)境中表現(xiàn)不同。

研究團(tuán)隊(duì)意識到,內(nèi)部測試集的問題相對標(biāo)準(zhǔn)和清晰,而真實(shí)世界的查詢往往包含更多噪音和不規(guī)范表達(dá)。因此,他們選擇保留查詢重寫功能,因?yàn)檫@個(gè)功能在處理真實(shí)用戶查詢時(shí)具有重要價(jià)值,即使在內(nèi)部測試中可能會帶來輕微的性能下降。

在處理效率方面,DoTA-RAG展現(xiàn)出了卓越的性能。動態(tài)路由功能將檢索延遲從100.84秒大幅降低到19.01秒,速度提升了5倍多。后續(xù)添加的BM25剪枝和重排序功能雖然增加了一些處理時(shí)間,但最終的端到端延遲仍然控制在35.63秒以內(nèi),完全滿足實(shí)際應(yīng)用的需求。

這種速度提升的意義不僅僅是技術(shù)指標(biāo)的改善,更重要的是用戶體驗(yàn)的革命性改進(jìn)。從用戶角度來看,等待時(shí)間從將近兩分鐘縮短到半分鐘多,這種差異就像從撥號上網(wǎng)時(shí)代跨越到寬帶時(shí)代一樣顯著。

在LiveRAG挑戰(zhàn)賽的官方測試中,DoTA-RAG系統(tǒng)獲得了0.929的正確性得分,這個(gè)成績充分驗(yàn)證了系統(tǒng)在處理真實(shí)世界查詢時(shí)的優(yōu)異表現(xiàn)。然而,忠實(shí)性得分只有0.043,遠(yuǎn)低于內(nèi)部測試的結(jié)果。

經(jīng)過深入分析,團(tuán)隊(duì)發(fā)現(xiàn)這個(gè)問題主要源于一個(gè)被忽略的細(xì)節(jié):官方評估對答案長度有300詞的嚴(yán)格限制。在內(nèi)部測試中,團(tuán)隊(duì)沒有考慮到這個(gè)限制,導(dǎo)致系統(tǒng)生成的答案往往超出了規(guī)定長度。當(dāng)答案被強(qiáng)制截?cái)嗟?00詞時(shí),很多重要的支撐信息被丟失,導(dǎo)致忠實(shí)性得分大幅下降。

這個(gè)發(fā)現(xiàn)揭示了系統(tǒng)部署中的一個(gè)重要教訓(xùn):技術(shù)優(yōu)化必須充分考慮實(shí)際應(yīng)用環(huán)境的所有約束條件。即使是看似微小的限制,如果在設(shè)計(jì)階段沒有充分考慮,也可能對最終性能產(chǎn)生重大影響。團(tuán)隊(duì)在賽后的驗(yàn)證中發(fā)現(xiàn),如果嚴(yán)格按照300詞限制進(jìn)行優(yōu)化,忠實(shí)性得分能夠顯著改善。

七、系統(tǒng)優(yōu)勢與應(yīng)用前景:DoTA-RAG的實(shí)用價(jià)值

DoTA-RAG系統(tǒng)的成功不僅僅體現(xiàn)在實(shí)驗(yàn)數(shù)據(jù)的改善上,更重要的是它為大規(guī)模信息檢索系統(tǒng)的設(shè)計(jì)和部署提供了寶貴的經(jīng)驗(yàn)和可行的解決方案。這個(gè)系統(tǒng)就像一座連接理論研究和實(shí)際應(yīng)用之間的橋梁,展示了學(xué)術(shù)創(chuàng)新如何轉(zhuǎn)化為現(xiàn)實(shí)價(jià)值。

從技術(shù)架構(gòu)的角度來看,DoTA-RAG最突出的優(yōu)勢是它的模塊化設(shè)計(jì)理念。每個(gè)組件都可以獨(dú)立優(yōu)化和替換,就像搭積木一樣靈活。這種設(shè)計(jì)讓系統(tǒng)能夠適應(yīng)不同的應(yīng)用場景和性能要求。如果某個(gè)應(yīng)用更注重速度而不是準(zhǔn)確性,可以簡化重排序步驟;如果另一個(gè)應(yīng)用需要處理特定領(lǐng)域的查詢,可以調(diào)整路由策略或更換嵌入模型。

動態(tài)路由機(jī)制的成功證明了"分而治之"策略在大規(guī)模信息系統(tǒng)中的巨大潛力。傳統(tǒng)的"一刀切"方法雖然簡單,但在面對海量異構(gòu)數(shù)據(jù)時(shí)效率低下。DoTA-RAG的路由策略將搜索空間縮小了92%,這種improvement不僅僅是數(shù)字上的,更代表了一種全新的系統(tǒng)設(shè)計(jì)思路。

這種思路的應(yīng)用前景非常廣闊。企業(yè)可以根據(jù)業(yè)務(wù)部門、產(chǎn)品類別或客戶類型來構(gòu)建專門的知識庫分區(qū),讓客服系統(tǒng)能夠更快速準(zhǔn)確地回答不同類型的咨詢。教育機(jī)構(gòu)可以按學(xué)科領(lǐng)域劃分知識庫,讓學(xué)習(xí)助手能夠提供更專業(yè)的學(xué)科指導(dǎo)。政府部門可以按職能領(lǐng)域分類政策文檔,讓公眾服務(wù)系統(tǒng)能夠更高效地提供政策解讀。

混合檢索策略的成功也為信息檢索領(lǐng)域提供了重要啟示。單一的檢索方法往往存在固有局限性,而多種方法的巧妙結(jié)合能夠發(fā)揮協(xié)同效應(yīng)。DoTA-RAG展示的語義搜索、關(guān)鍵詞匹配和重排序的三層架構(gòu),為其他研究者提供了一個(gè)可參考的框架模式。

在實(shí)際部署方面,DoTA-RAG展現(xiàn)出了良好的可擴(kuò)展性和穩(wěn)定性。系統(tǒng)能夠在35秒內(nèi)處理復(fù)雜查詢,這個(gè)響應(yīng)時(shí)間對于大多數(shù)實(shí)際應(yīng)用來說都是可以接受的。更重要的是,系統(tǒng)的性能不會因?yàn)閿?shù)據(jù)規(guī)模的增長而線性下降,動態(tài)路由機(jī)制確保了系統(tǒng)能夠maintain相對穩(wěn)定的響應(yīng)時(shí)間。

從成本效益的角度來看,DoTA-RAG提供了一個(gè)現(xiàn)實(shí)可行的解決方案。系統(tǒng)使用的都是當(dāng)前可獲得的開源或商業(yè)化技術(shù)組件,沒有依賴于昂貴的專有技術(shù)或特殊硬件。這種設(shè)計(jì)選擇讓系統(tǒng)能夠被更廣泛的組織和團(tuán)隊(duì)采用,降低了技術(shù)創(chuàng)新的門檻。

系統(tǒng)的評估方法學(xué)也具有重要的參考價(jià)值。MorganaMultiDocQA測試集的構(gòu)建方法為其他研究者提供了一個(gè)systematic的評估基準(zhǔn)創(chuàng)建框架。特別是分層抽樣和多維度問題分類的方法,能夠確保評估結(jié)果的全面性和可靠性。

在人工智能倫理和可信度方面,DoTA-RAG的忠實(shí)性評估機(jī)制具有重要意義。系統(tǒng)不僅關(guān)注答案的正確性,更重視答案的可追溯性和可驗(yàn)證性。每個(gè)答案都基于具體的文檔來源,用戶可以回溯查看支撐信息,這種透明度對于構(gòu)建可信的AI系統(tǒng)至關(guān)重要。

展望未來,DoTA-RAG的技術(shù)框架還有很大的發(fā)展空間。研究團(tuán)隊(duì)提到了幾個(gè)有前景的研究方向。多源路由技術(shù)可以進(jìn)一步擴(kuò)展到基于圖結(jié)構(gòu)的知識庫,讓系統(tǒng)能夠利用實(shí)體關(guān)系進(jìn)行更智能的信息發(fā)現(xiàn)。自我改進(jìn)機(jī)制可以讓系統(tǒng)在生成答案后進(jìn)行自我評估和優(yōu)化,持續(xù)提升回答質(zhì)量。

上下文壓縮技術(shù)的改進(jìn)也具有重要意義。當(dāng)前系統(tǒng)的8000詞上下文限制在某些復(fù)雜查詢中可能不夠用,如何在有限的上下文窗口中包含更多有效信息是一個(gè)值得深入研究的問題。推理檢索技術(shù)的發(fā)展可能讓系統(tǒng)具備更強(qiáng)的邏輯推理能力,能夠處理需要多步推理的復(fù)雜問題。

DoTA-RAG的成功也為產(chǎn)業(yè)界提供了重要啟示。在大語言模型快速發(fā)展的背景下,如何有效地結(jié)合外部知識庫來提升模型的實(shí)用性和可靠性,是一個(gè)關(guān)鍵的技術(shù)挑戰(zhàn)。DoTA-RAG提供的解決方案證明了,通過巧妙的系統(tǒng)設(shè)計(jì)和工程優(yōu)化,可以在現(xiàn)有技術(shù)基礎(chǔ)上實(shí)現(xiàn)顯著的性能提升。

說到底,DoTA-RAG系統(tǒng)的真正價(jià)值不僅在于它解決了一個(gè)具體的技術(shù)問題,更在于它展示了一種系統(tǒng)性的創(chuàng)新思路。面對復(fù)雜的技術(shù)挑戰(zhàn),單純依靠算法突破往往是不夠的,需要從系統(tǒng)架構(gòu)、工程實(shí)現(xiàn)、評估方法等多個(gè)維度進(jìn)行comprehensive的創(chuàng)新。這種思路對于人工智能技術(shù)的產(chǎn)業(yè)化應(yīng)用具有重要的指導(dǎo)意義。

在信息爆炸的時(shí)代,如何讓AI系統(tǒng)既能快速響應(yīng)用戶需求,又能提供準(zhǔn)確可靠的信息,這是一個(gè)關(guān)系到AI技術(shù)實(shí)用價(jià)值的fundamental問題。DoTA-RAG的成功實(shí)踐表明,通過thoughtful的設(shè)計(jì)和careful的優(yōu)化,我們可以構(gòu)建出既高效又可靠的智能信息系統(tǒng),為用戶提供真正有價(jià)值的服務(wù)。

這項(xiàng)研究的意義超越了技術(shù)本身,它為我們展示了如何在快速變化的技術(shù)環(huán)境中,通過systematic的方法和rigorous的實(shí)驗(yàn)來推動技術(shù)進(jìn)步。無論是對于研究者、工程師還是企業(yè)決策者來說,DoTA-RAG都提供了寶貴的經(jīng)驗(yàn)和啟示,值得深入學(xué)習(xí)和借鑒。有興趣了解更多技術(shù)細(xì)節(jié)的讀者,可以通過arXiv:2506.12571v1訪問完整的研究論文。

Q&A

Q1:DoTA-RAG系統(tǒng)最大的創(chuàng)新點(diǎn)是什么? A:DoTA-RAG的最大創(chuàng)新是動態(tài)路由機(jī)制,它能智能識別查詢類型并只在相關(guān)的子知識庫中搜索,將搜索空間縮小92%,檢索速度提升5倍。這就像有了智能導(dǎo)航,不用在整個(gè)圖書館找書,而是直接去相關(guān)的專業(yè)書架。

Q2:為什么DoTA-RAG比傳統(tǒng)RAG系統(tǒng)更準(zhǔn)確? A:DoTA-RAG采用三階段混合檢索策略:先用語義搜索找到100個(gè)候選文檔,再用關(guān)鍵詞匹配篩選到20個(gè),最后用重排序技術(shù)精選10個(gè)最佳文檔。這種多層篩選就像專業(yè)團(tuán)隊(duì)分工協(xié)作,確保最終結(jié)果既全面又精準(zhǔn)。

Q3:普通企業(yè)可以使用DoTA-RAG技術(shù)嗎? A:可以的。DoTA-RAG使用的都是現(xiàn)有的開源或商業(yè)技術(shù)組件,如Snowflake嵌入模型、Pinecone向量數(shù)據(jù)庫等,沒有特殊硬件要求。企業(yè)可以根據(jù)自己的業(yè)務(wù)需求調(diào)整系統(tǒng)配置,比如按部門或產(chǎn)品類別劃分知識庫。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-