這項(xiàng)研究來自由Illuin Technology、Equall.ai、CentraleSupélec和EPFL洛桑的聯(lián)合團(tuán)隊(duì),由Max Conti、Manuel Faysse、Gautier Viaud、Antoine Bosselut、Céline Hudelot和Pierre Colombo共同完成,發(fā)表于2025年5月30日的arXiv預(yù)印本平臺(tái)(arXiv:2505.24782v1)。對(duì)于想深入了解的讀者,可通過GitHub(https://github.com/illuin-tech/contextual-embeddings)獲取完整研究材料。
一、研究背景:為何文檔上下文如此重要?
想象一下,你正在閱讀一本厚重的百科全書,尋找關(guān)于拿破侖的信息。突然,你看到一個(gè)孤立的句子:"他在1804年成為皇帝。"沒有任何背景信息,你根本無法確定這個(gè)"他"是誰。這正是現(xiàn)代文檔檢索系統(tǒng)面臨的一個(gè)核心問題。
當(dāng)今,從醫(yī)療記錄到法律文件,再到大規(guī)模行政檔案,我們需要快速處理和查詢?cè)絹碓烬嫶蟮奈谋編?。為了?yīng)對(duì)這一挑戰(zhàn),檢索增強(qiáng)生成(RAG)系統(tǒng)應(yīng)運(yùn)而生。這些系統(tǒng)通常會(huì)將長(zhǎng)文檔分割成小塊(稱為"chunks"),然后對(duì)每個(gè)小塊單獨(dú)進(jìn)行嵌入處理,以便于檢索和閱讀。
然而,這種分割方法存在一個(gè)致命缺陷:它切斷了文檔各部分之間的語義和概念聯(lián)系。就像前面提到的拿破侖的例子,如果不知道這段文字在談?wù)撜l,檢索系統(tǒng)將難以匹配與拿破侖相關(guān)的查詢。
研究團(tuán)隊(duì)通過一個(gè)生動(dòng)的實(shí)驗(yàn)展示了這個(gè)問題的嚴(yán)重性。他們從足球領(lǐng)域的文檔中選取了一組段落,這些段落大多數(shù)是自包含的(意味著段落本身包含足夠的信息)。然后,他們逐步改寫這些段落,刪除與文檔其他部分重復(fù)的信息。結(jié)果表明,隨著信息冗余的減少,標(biāo)準(zhǔn)檢索系統(tǒng)的性能急劇下降,而具有上下文感知能力的系統(tǒng)則能保持穩(wěn)定。
大型科技公司已經(jīng)注意到這個(gè)問題,并試圖通過大型生成語言模型(LLMs)來解決。一些方法嘗試完全繞過檢索步驟,直接在運(yùn)行時(shí)將數(shù)百萬個(gè)標(biāo)記輸入到模型的上下文窗口中。另一些方法則通過連接文檔級(jí)摘要和上下文來重新表述單個(gè)段落。但這些方法在處理包含成千上萬文檔的語料庫時(shí)成本高得令人望而卻步。
二、ConTEB:評(píng)估模型對(duì)上下文的利用能力
現(xiàn)有的基準(zhǔn)測(cè)試未能捕捉到上下文相關(guān)檢索的挑戰(zhàn)。它們通常依賴于這樣的數(shù)據(jù)集:文檔塊被設(shè)計(jì)為對(duì)查詢的自包含答案,這在現(xiàn)實(shí)中是一種理想化的情景。甚至有研究表明,一些廣泛使用的基準(zhǔn)測(cè)試存在偏見,有利于標(biāo)準(zhǔn)的上下文無關(guān)檢索方法。
為了填補(bǔ)這一空白,研究團(tuán)隊(duì)開發(fā)了ConTEB(上下文感知文本嵌入基準(zhǔn)),這是一個(gè)專門設(shè)計(jì)用來評(píng)估檢索系統(tǒng)在索引和檢索文檔塊時(shí)利用整個(gè)文檔信息能力的基準(zhǔn)測(cè)試。
ConTEB基準(zhǔn)測(cè)試的構(gòu)建分為三個(gè)階段:
首先是分塊階段。研究人員選擇了跨越多個(gè)領(lǐng)域的長(zhǎng)文檔,并通過結(jié)構(gòu)感知方法將它們分塊。想象這就像是將一本大書根據(jù)章節(jié)和段落分成更小的部分,而不是簡(jiǎn)單地每隔固定數(shù)量的文字就切一刀。
其次是配對(duì)階段。研究人員使用手動(dòng)注釋的答案范圍(例如在SQuAD、ESG數(shù)據(jù)集中)或通過大型語言模型合成標(biāo)記(如在CovidQA、MLDR、NarrativeQA中),將查詢與第一階段獲得的塊匹配起來。在他們的控制實(shí)驗(yàn)任務(wù)中,他們手動(dòng)(保險(xiǎn)數(shù)據(jù)集)或通過大型語言模型(足球、地理數(shù)據(jù)集)生成與塊相關(guān)的查詢。
最后是"破壞"階段。在保險(xiǎn)數(shù)據(jù)集中,問題被設(shè)計(jì)成在不了解文檔結(jié)構(gòu)的情況下會(huì)產(chǎn)生歧義。更進(jìn)一步,在足球和地理數(shù)據(jù)集中,研究人員在除了每個(gè)文檔的第一個(gè)塊之外的所有塊中,刪除了對(duì)文檔主題的明確提及(而所有查詢都會(huì)提到這個(gè)主題)。這就像是將拿破侖的名字從大多數(shù)段落中刪除,只在第一段中提及,但所有問題仍然會(huì)問"拿破侖做了什么"。
ConTEB包含了各種類型的數(shù)據(jù)集:從MLDR(百科全書式)、NarrativeQA(文學(xué))、SQuAD(問答)等學(xué)術(shù)數(shù)據(jù)集,到足球、地理、保險(xiǎn)、Covid-QA和ESG報(bào)告等多樣化領(lǐng)域的數(shù)據(jù)。此外,研究人員還使用NanoBEIR來評(píng)估模型在標(biāo)準(zhǔn)非上下文化嵌入任務(wù)上的表現(xiàn),確保新方法不會(huì)損害基本模型性能。
三、InSeNT:高效的上下文訓(xùn)練方法
在確定了問題并建立了評(píng)估基準(zhǔn)后,研究團(tuán)隊(duì)提出了一種新的嵌入后訓(xùn)練方法——InSeNT(序列內(nèi)負(fù)面訓(xùn)練)。這種方法借鑒了"后期分塊"技術(shù),并進(jìn)行了創(chuàng)新性的改進(jìn)。
想象一下拼圖游戲:傳統(tǒng)方法是每個(gè)拼圖塊單獨(dú)看待,而研究團(tuán)隊(duì)的方法則是先看整幅圖,再?zèng)Q定每個(gè)拼圖塊的特征。具體來說,標(biāo)準(zhǔn)檢索系統(tǒng)對(duì)文檔的每個(gè)塊進(jìn)行獨(dú)立編碼:
φ(d) = [φ(c?), φ(c?), ..., φ(c?)]
而在"后期分塊"方法中,首先將所有塊連接起來,然后在單一前向傳遞中計(jì)算整個(gè)序列的表示:
H = φ(c? ⊕ c? ⊕ ... ⊕ c?)
接著,在每個(gè)原始?jí)K內(nèi)應(yīng)用平均池化來獲得塊級(jí)表示:
φ_LC(c_i) = (1/|c_i|) ∑_{t∈c_i} h_t
這允許每個(gè)塊的表示在匯總前從整個(gè)文檔的上下文中受益。
研究團(tuán)隊(duì)在此基礎(chǔ)上增加了一個(gè)創(chuàng)新的學(xué)習(xí)目標(biāo)。他們結(jié)合了兩種對(duì)比學(xué)習(xí)損失:
1. 傳統(tǒng)的批內(nèi)對(duì)比損失,將來自不同文檔的塊視為"負(fù)樣本" 2. 序列內(nèi)對(duì)比損失,將來自同一文檔的其他塊視為"硬負(fù)樣本"
這種雙重對(duì)比學(xué)習(xí)可以用一個(gè)加權(quán)的InfoNCE損失來表達(dá):
L = λ_seq * L_seq + (1 - λ_seq) * L_batch
直觀地說,這種訓(xùn)練方法既鼓勵(lì)同一文檔內(nèi)塊之間的信息傳播(通過批內(nèi)對(duì)比),又確保每個(gè)塊保持其特異性(通過序列內(nèi)對(duì)比)。這就像教會(huì)模型既要認(rèn)識(shí)到所有關(guān)于拿破侖的段落都屬于同一個(gè)主題,又要能區(qū)分哪個(gè)段落講的是他的童年,哪個(gè)講的是他的軍事成就。
研究團(tuán)隊(duì)的訓(xùn)練策略設(shè)計(jì)為輕量級(jí)的,可以在預(yù)訓(xùn)練的嵌入模型之上進(jìn)行,而不會(huì)降低它們的原有能力。他們使用AdamW優(yōu)化器,余弦衰減學(xué)習(xí)率調(diào)度器,初始學(xué)習(xí)率為5e-5,在訓(xùn)練數(shù)據(jù)集上訓(xùn)練2個(gè)輪次。整個(gè)訓(xùn)練過程在一臺(tái)H100 GPU上不到一小時(shí)就能完成。
四、實(shí)驗(yàn)結(jié)果:上下文是金子
研究結(jié)果清晰地表明,利用上下文信息的方法大大優(yōu)于非上下文方法。在ConTEB基準(zhǔn)測(cè)試中,研究團(tuán)隊(duì)的InSeNT變體顯著優(yōu)于其未訓(xùn)練的對(duì)應(yīng)物(ModernBERT的nDCG@10提高了14.6,ModernColBERT提高了11.5)。
特別值得注意的是,這種改進(jìn)不是源于訓(xùn)練數(shù)據(jù)本身。使用相同數(shù)據(jù)訓(xùn)練的非上下文ModernBERT模型并沒有比未訓(xùn)練的基線有所改進(jìn)。最大的改進(jìn)出現(xiàn)在那些專門設(shè)計(jì)用來引出前面段落中給出信息的控制設(shè)置任務(wù)(保險(xiǎn)、足球)上,這些任務(wù)與訓(xùn)練集的領(lǐng)域不同。
研究還發(fā)現(xiàn),當(dāng)λ_seq參數(shù)(控制序列內(nèi)和批內(nèi)負(fù)樣本的相對(duì)重要性)從0變化到1時(shí),不同任務(wù)的最佳值各不相同。當(dāng)文檔需要在彼此之間進(jìn)行區(qū)分時(shí)(如NanoBEIR、地理),增加批內(nèi)負(fù)樣本的權(quán)重似乎是最佳選擇。而在挑戰(zhàn)在于定位給定文檔內(nèi)信息的任務(wù)中(如NarrativeQA、CovidQA),序列內(nèi)負(fù)樣本起著重要作用,但仍需與批內(nèi)負(fù)樣本結(jié)合。找到最佳權(quán)衡非常依賴于具體用例,研究團(tuán)隊(duì)在驗(yàn)證集上調(diào)整后選擇了λ_seq = 0.1。
在效率方面,研究團(tuán)隊(duì)的方法在上下文任務(wù)上表現(xiàn)出色,同時(shí)幾乎不增加計(jì)算開銷。事實(shí)上,他們發(fā)現(xiàn)索引速度略有提高,這歸因于減少了批內(nèi)不同長(zhǎng)度序列的填充需求。相比之下,Anthropic的上下文化方法雖然在ConTEB上取得了類似的性能,但它依賴于成本高昂的基于LLM的摘要和塊重構(gòu),難以擴(kuò)展到大型語料庫(速度慢120倍)。
進(jìn)一步的實(shí)驗(yàn)表明,上下文化嵌入對(duì)塊策略的魯棒性更強(qiáng)。當(dāng)研究人員將原始的自包含塊分割成越來越小的子塊時(shí),非上下文嵌入的性能急劇下降,而上下文嵌入則保持相對(duì)穩(wěn)定。這表明該模型能夠從相鄰塊中提取信息,在較小的子塊中整合上下文信息,從而在各種塊大小下保持更一致的檢索性能。
同樣,當(dāng)增加語料庫中相似文檔的數(shù)量時(shí),上下文嵌入的擴(kuò)展方式與獨(dú)立嵌入的對(duì)應(yīng)物大不相同。直觀地說,語料庫中相似文檔和塊的數(shù)量越多,檢索系統(tǒng)就越難匹配正確的文檔,但當(dāng)嵌入模型能夠利用外部上下文時(shí),這種效應(yīng)會(huì)減弱。
五、研究局限性與未來方向
盡管研究團(tuán)隊(duì)的方法在上下文依賴的環(huán)境中顯著提高了檢索性能,但仍存在一些局限性。
首先是上下文長(zhǎng)度的限制。該方法應(yīng)用于支持最多8k標(biāo)記序列的長(zhǎng)上下文編碼器。雖然研究表明他們可以將性能外推到最多32k標(biāo)記的序列,但使用基于解碼器的模型擴(kuò)展這種方法以處理百萬級(jí)標(biāo)記的上下文將是一個(gè)有趣的研究方向,并且會(huì)帶來顯著的計(jì)算和內(nèi)存挑戰(zhàn)。此外,這還需要重新思考數(shù)據(jù)構(gòu)建過程,以確保更長(zhǎng)的文檔得到有效利用。
其次是數(shù)據(jù)生成的挑戰(zhàn)。訓(xùn)練和評(píng)估數(shù)據(jù)的創(chuàng)建依賴于現(xiàn)有數(shù)據(jù)集和半合成生成管道。然而,一種完全自動(dòng)化和可擴(kuò)展的方法,用于生成能有效誘導(dǎo)非平凡上下文利用的高質(zhì)量查詢,仍然是一個(gè)開放的挑戰(zhàn)。
最后,雖然該模型在跨領(lǐng)域表現(xiàn)出色,但在實(shí)際應(yīng)用中進(jìn)一步驗(yàn)證其在各種用例、多種語言中的魯棒性和通用性是必要的。
六、結(jié)論:上下文改變一切
歸根結(jié)底,這項(xiàng)研究清晰地表明,在文檔檢索中整合上下文信息不僅是有益的,而且是必要的。研究團(tuán)隊(duì)通過ConTEB基準(zhǔn)測(cè)試證明了標(biāo)準(zhǔn)檢索模型在上下文依賴的情境中的局限性,并提出了InSeNT,這是一種結(jié)合后期分塊和新型訓(xùn)練方法的方法,在不增加計(jì)算開銷的情況下顯著提升了上下文檢索性能。
對(duì)于實(shí)際應(yīng)用,這意味著更智能的文檔搜索系統(tǒng),能夠理解諸如"他在1804年成為皇帝"這樣的句子確實(shí)是在談?wù)撃闷苼觯词乖摼渥颖旧聿⑽刺峒八拿?。這種能力對(duì)于處理醫(yī)療記錄、法律文件或任何結(jié)構(gòu)化長(zhǎng)文檔的行業(yè)都具有重大價(jià)值。
隨著大型語言模型和檢索系統(tǒng)的不斷發(fā)展,研究團(tuán)隊(duì)的工作為未來的嵌入模型指明了方向:不僅要關(guān)注單個(gè)文本片段的表示,還要考慮它們?cè)诟鼜V泛文檔上下文中的位置和關(guān)系。正如研究標(biāo)題所言,"上下文是金子,能找到金子般的段落"。
有興趣深入了解這項(xiàng)研究的讀者可以訪問GitHub倉庫(https://github.com/illuin-tech/contextual-embeddings),獲取基準(zhǔn)測(cè)試、模型和訓(xùn)練數(shù)據(jù)等項(xiàng)目材料。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。