av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 企業(yè)搜索系統(tǒng)的突破性進展:Oracle AI團隊推出領域特定檢索的硬負樣本挖掘框架

企業(yè)搜索系統(tǒng)的突破性進展:Oracle AI團隊推出領域特定檢索的硬負樣本挖掘框架

2025-06-03 09:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 09:48 ? 科技行者

這項由Oracle AI團隊的Hansa Meghwani、Amit Agarwal、Priyaranjan Pattnayak、Hitesh Laxmichand Patel和Srikant Panda共同完成的研究,已被ACL 2025會議接收。該研究致力于解決企業(yè)搜索系統(tǒng)中一個常見卻棘手的問題:如何在專業(yè)領域中精準檢索相關信息。

想象一下,你正在搜索"如何在云基礎設施上部署MySQL數(shù)據(jù)庫"這樣的專業(yè)問題。傳統(tǒng)搜索系統(tǒng)可能會返回大量關于各種數(shù)據(jù)庫部署的文檔,卻無法準確區(qū)分哪些是真正與你的問題相關的信息。這就像你去圖書館尋找一本特定的烹飪書,但圖書管理員給你帶來了一堆烹飪相關的書籍,你必須自己一本本翻閱才能找到真正需要的那一本。

這正是Oracle AI團隊試圖解決的問題。他們開發(fā)了一種稱為"硬負樣本挖掘"的技術框架,就像是訓練圖書管理員區(qū)分非常相似但實際上不同的書籍。這項技術顯著提升了企業(yè)搜索系統(tǒng)的準確性,特別是在處理那些充滿專業(yè)術語和相互重疊概念的領域時。

一、為什么企業(yè)搜索需要革新?

企業(yè)搜索系統(tǒng)與我們日常使用的搜索引擎有很大不同。當我們在Google上搜索"蘋果派食譜"時,幾乎任何相關的食譜都可能滿足我們的需求。但在企業(yè)環(huán)境中,尤其是在云計算、金融或醫(yī)療等專業(yè)領域,用戶需要的往往是高度精確的信息。

想象一位工程師正在尋找"如何在Oracle云上配置虛擬云網(wǎng)絡(VCN)"的具體指南。傳統(tǒng)搜索系統(tǒng)可能會返回一大堆包含"虛擬"、"云"和"網(wǎng)絡"這些詞的文檔,包括關于虛擬網(wǎng)絡接口卡(VNIC)的文檔、其他云平臺的網(wǎng)絡配置指南,甚至是完全不相關的網(wǎng)絡故障排除文檔。這位工程師可能需要花費大量時間篩選這些結果,才能找到真正需要的信息。

傳統(tǒng)檢索技術如BM25(一種基于詞頻的搜索算法)主要依靠詞匯匹配,無法理解語義層面的差異。就像一個只認識字但不理解意思的助手,它可以找到包含特定關鍵詞的文檔,但無法判斷這些文檔的實際相關性。

近年來,基于BERT等預訓練語言模型的密集檢索方法在一定程度上緩解了這個問題。這些方法可以捕捉語義相關性,就像一個理解問題本質的助手。然而,這些模型的性能很大程度上依賴于它們訓練時使用的"負樣本"——那些看似相關但實際上不符合用戶需求的文檔。

Oracle AI團隊的創(chuàng)新之處在于開發(fā)了一種專門為企業(yè)數(shù)據(jù)定制的硬負樣本挖掘框架,能夠動態(tài)選擇那些語義上具有挑戰(zhàn)性但與用戶查詢上下文無關的文檔,從而增強搜索系統(tǒng)的性能。

二、什么是"硬負樣本"?為什么它們如此重要?

要理解硬負樣本的概念,可以想象你在訓練一個水果分類員。如果你只給他看蘋果和香蕉的圖片,他很容易學會區(qū)分這兩種水果。但如果你想讓他能夠準確區(qū)分蘋果和梨,你就需要給他同時展示這兩種相似水果的圖片,讓他學習它們之間細微的差別。

在搜索系統(tǒng)中,"硬負樣本"就是那些與用戶查詢在表面上非常相似,但實際上并不能滿足用戶需求的文檔。例如,對于查詢"如何在云基礎設施上部署MySQL數(shù)據(jù)庫",一個好的硬負樣本可能是關于"如何在本地服務器上部署MySQL數(shù)據(jù)庫"的文檔。這兩個主題非常相似(都關于MySQL部署),但一個是云部署,一個是本地部署,上下文完全不同。

傳統(tǒng)的負樣本選擇方法存在兩個主要問題:一是隨機選擇的負樣本可能與查詢相差太遠,無法提供有意義的對比學習;二是基于BM25等靜態(tài)方法選擇的負樣本可能只關注詞匯匹配而忽略語義理解。而動態(tài)方法如ANCE和STAR雖然更先進,但計算成本高昂,限制了它們在企業(yè)環(huán)境中的實際應用。

Oracle AI團隊提出的方法巧妙地解決了這些問題。他們的框架整合了多種嵌入模型,執(zhí)行降維處理,并通過獨特的選擇標準識別高質量的硬負樣本,既確保了計算效率,又保證了語義精度。

三、Oracle AI團隊的創(chuàng)新方法

Oracle AI團隊開發(fā)的硬負樣本挖掘框架就像是一個精明的圖書分類專家,能夠在眾多相似的書籍中識別出那些看似相關但實際上不符合讀者需求的書籍。這個框架由幾個關鍵部分組成,每一部分都有其獨特的功能。

首先,團隊使用了六種不同的嵌入模型來捕捉查詢和文檔的語義特征。這就像同時從六個不同角度拍攝同一個物體的照片,能夠獲得更全面的信息。這些模型包括多語言支持的模型,以及專門針對不同長度文本優(yōu)化的模型。通過組合這些不同模型的輸出,系統(tǒng)能夠捕捉到更豐富的語義信息。

接下來,為了解決高維嵌入向量帶來的計算負擔,研究團隊應用了主成分分析(PCA)降維技術。這就像是將一幅復雜的畫作簡化為其最重要的特征,既保留了關鍵信息,又減輕了處理負擔。他們的實驗表明,保留95%的原始方差是最佳選擇,能夠在保持語義完整性和提高計算效率之間取得良好平衡。

最核心的創(chuàng)新是他們提出的兩個語義選擇標準。第一個標準確保候選負樣本文檔與查詢的語義距離小于查詢與正樣本文檔之間的距離;第二個標準確保查詢與候選負樣本的距離小于正樣本與負樣本之間的距離。這兩個標準共同確保了選出的硬負樣本既在語義上接近查詢(使其具有挑戰(zhàn)性),又與正樣本有足夠的區(qū)別(避免選到近似重復或假負樣本)。

舉個例子,如果用戶查詢"Oracle云上的MySQL部署",正樣本是一篇關于這個主題的指南,那么好的硬負樣本可能是"本地服務器上的MySQL部署"指南。這個文檔與查詢在主題上非常接近(都關于MySQL部署),但上下文完全不同(云vs本地),因此是一個理想的硬負樣本。

整個框架的流程非常清晰:首先為查詢、正樣本文檔和語料庫中的所有文檔生成多模型嵌入;然后通過PCA降維減輕計算負擔;最后應用兩個語義選擇標準識別高質量的硬負樣本。這些硬負樣本隨后被用于訓練重排序模型,顯著提升了檢索系統(tǒng)的性能。

四、實驗結果:硬負樣本挖掘的顯著成效

Oracle AI團隊在多個數(shù)據(jù)集上進行了全面測試,結果令人印象深刻。在他們的專有企業(yè)數(shù)據(jù)集(云服務領域)上,使用硬負樣本訓練的重排序模型在MRR@3指標上提升了15%,在MRR@10指標上提升了19%,相比基線模型和其他負樣本技術都有顯著改進。

MRR(平均倒數(shù)排名)是評估搜索系統(tǒng)性能的重要指標,簡單來說,它衡量系統(tǒng)將正確答案排在前幾位的能力。MRR@3表示正確答案出現(xiàn)在前三個結果中的概率,MRR@10則表示出現(xiàn)在前十個結果中的概率。這些指標越高,表示用戶越容易找到他們真正需要的信息。

為了證明方法的普遍適用性,研究團隊還在三個公開的領域特定數(shù)據(jù)集上進行了驗證:FiQA(金融領域)、Climate Fever(氣候科學領域)和TechQA(技術領域)。在所有這些數(shù)據(jù)集上,他們的方法都取得了一致的性能提升,證明了該框架在不同專業(yè)領域的適用性。

研究團隊還對比了多種負樣本選擇方法,包括隨機選擇、BM25、批內負樣本、STAR和ADORE+STAR。結果顯示,他們提出的硬負樣本挖掘方法在所有對比中都表現(xiàn)最佳。這就像在一場分類比賽中,他們的方法能夠更準確地識別出那些最具挑戰(zhàn)性但也最有價值的訓練樣本。

此外,團隊還評估了方法在短文檔和長文檔上的表現(xiàn)差異。短文檔(少于1024個標記)獲得了更顯著的性能提升,MRR@3從0.481提升到0.61。而長文檔的提升雖然也很可觀(MRR@3從0.423提升到0.475),但幅度相對較小。這主要是因為長文檔中的語義冗余和截斷問題,為未來研究提供了新的方向。

五、案例研究:硬負樣本挖掘的實際應用

為了更直觀地展示他們方法的實際效果,研究團隊提供了兩個具體案例研究。這些案例生動地說明了硬負樣本訓練如何幫助系統(tǒng)區(qū)分語義相似但上下文不同的文檔。

第一個案例涉及技術縮寫詞的歧義消除。當用戶查詢"云基礎設施中的VCN是什么?"時,系統(tǒng)需要區(qū)分"虛擬云網(wǎng)絡(VCN)"和"虛擬網(wǎng)絡接口卡(VNIC)"這兩個相似但完全不同的概念?;€模型因為"虛擬"和"網(wǎng)絡"等重疊術語而錯誤地將關于VNIC的文檔排在了前面。而經(jīng)過硬負樣本訓練的模型能夠正確識別出查詢與VCN描述之間的上下文匹配,將正確的文檔排在更前面。

第二個案例展示了系統(tǒng)在處理領域特定術語時的能力。對于查詢"CI WAF如何處理傳入流量?",基線模型由于"防火墻"和"流量"等術語的詞匯重疊,錯誤地將一般網(wǎng)絡防火墻配置文檔排在了前面。而經(jīng)過硬負樣本訓練的模型能夠理解域特定的語義表示,正確識別出關于Web應用防火墻(WAF)在CI中的配置和流量過濾機制的文檔。

這些案例研究表明,硬負樣本訓練使模型能夠捕捉細微的語義差異,特別是在處理重疊術語或縮寫詞時,這在企業(yè)環(huán)境中尤為重要。

六、對企業(yè)應用的深遠影響

Oracle AI團隊開發(fā)的硬負樣本挖掘框架不僅是一項學術成果,更對企業(yè)實際應用有著深遠影響。在知識管理、客戶支持和檢索增強生成(RAG)等關鍵企業(yè)流程中,精確檢索域特定信息至關重要。

以客戶支持為例,當客戶詢問"如何配置云數(shù)據(jù)庫的備份策略"時,準確檢索相關文檔可以顯著減少解決問題的時間,提高客戶滿意度。使用硬負樣本訓練的檢索系統(tǒng)能夠更準確地區(qū)分表面上相似但實際上不同的主題,如云數(shù)據(jù)庫備份與本地數(shù)據(jù)庫備份,從而提供更精準的幫助。

在檢索增強生成(RAG)應用中,檢索質量直接影響生成內容的準確性和連貫性。當大型語言模型基于檢索到的文檔生成回復時,如果檢索系統(tǒng)提供了高質量、真正相關的文檔,生成的內容自然會更加準確可靠。

此外,該框架的模塊化設計和多樣化嵌入整合使其能夠適應不同行業(yè)(如醫(yī)療、金融、制造業(yè))和多語言或跨語言檢索任務,進一步擴展了其應用范圍。

七、技術細節(jié)與實施

對于對技術細節(jié)感興趣的讀者,這里簡要介紹一下實現(xiàn)這個框架的關鍵步驟。

首先,系統(tǒng)使用多種嵌入模型(如stella_en_400M_v5、jina-embeddings-v3等)處理查詢、正樣本文檔和語料庫中的所有文檔,生成豐富的語義表示。這些模型的選擇基于多語言支持、嵌入質量、訓練數(shù)據(jù)多樣性和上下文長度處理能力等因素。

然后,為了減輕高維嵌入帶來的計算負擔,系統(tǒng)應用PCA降維,將連接的嵌入投射到較低維度的空間,同時保留95%的原始方差。這在保持語義豐富性的同時,顯著提高了計算效率。

核心的硬負樣本選擇基于兩個語義條件:

1. d(Q, D) < d(Q, PD):確保候選負樣本文檔與查詢的距離小于查詢與正樣本文檔之間的距離,使其成為一個具有挑戰(zhàn)性的負樣本。

2. d(Q, D) < d(PD, D):確保查詢與候選負樣本的距離小于正樣本與負樣本之間的距離,避免選擇主題重復或假負樣本。

滿足這兩個條件的文檔中,與查詢距離最小的被選為主要硬負樣本。這些硬負樣本隨后用于訓練重排序模型,通過對比學習提高模型區(qū)分相似文檔的能力。

八、未來發(fā)展方向與局限性

盡管Oracle AI團隊的方法取得了顯著成果,但研究團隊也坦誠指出了一些局限性和未來可能的改進方向。

首先,短文檔和長文檔之間的性能差異表明,處理長文檔仍然是一個挑戰(zhàn)。長文檔中的語義冗余和截斷問題需要更有效的文檔分塊策略和分層表示的發(fā)展,以在保持上下文完整性的同時提取關鍵信息。

其次,當前使用的嵌入連接方法也可以進一步優(yōu)化。未來的研究可以評估替代的融合技術,如加權平均或基于注意力的機制,可能會提供更精細的語義表示。

此外,將檢索框架擴展到支持跨語言和多語言場景也將增強其在全球分布式應用中的實用性。

團隊計劃在未來的工作中重點關注以下幾個方向:一是擴展框架以處理企業(yè)知識庫的增量更新;二是探索針對不斷演變的語料庫的實時負樣本采樣策略;三是開發(fā)更有效的長文檔處理技術。這些改進將進一步增強框架在實際產(chǎn)業(yè)環(huán)境中的適應性和魯棒性。

九、結論:搜索的未來就在眼前

Oracle AI團隊的這項研究代表了企業(yè)搜索系統(tǒng)的一個重要進步。通過開發(fā)一個可擴展、模塊化的硬負樣本挖掘框架,他們成功地提高了域特定檢索的精度,為企業(yè)知識管理、客戶支持和檢索增強生成等應用提供了有力支持。

與傳統(tǒng)方法相比,他們的框架在專有企業(yè)數(shù)據(jù)和多個公開領域特定基準測試中都取得了顯著的性能提升,證明了其在實際應用中的價值和廣泛適用性。

這項研究不僅是對搜索技術的理論貢獻,更為企業(yè)如何改進信息檢索系統(tǒng)提供了實用的解決方案。隨著數(shù)字信息不斷爆炸式增長,能夠精確找到真正相關信息的系統(tǒng)將變得越來越重要。硬負樣本挖掘這樣的技術正是解決這一挑戰(zhàn)的關鍵一步。

對于任何依賴高質量信息檢索的企業(yè)來說,這項研究都提供了寶貴的見解和可實施的方法。隨著這些技術的進一步發(fā)展和完善,我們可以期待未來的企業(yè)搜索系統(tǒng)將變得更加智能、精確和高效,為用戶提供真正符合其需求的信息。

對這項研究感興趣的讀者可以通過arXiv:2505.18366v1 [cs.IR]查看原論文,深入了解更多技術細節(jié)和實驗結果。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-