在2025年5月21日發(fā)表于arXiv的一篇最新研究論文中,來自南洋理工大學(xué)、耶魯大學(xué)、上海紐約大學(xué)以及新加坡阿里巴巴-南洋理工聯(lián)合研究所的研究團(tuán)隊(duì),包括Siyue Zhang、Yilun Zhao、Liyuan Geng、Arman Cohan、Anh Tuan Luu和Chen Zhao,共同探討了一個引人深思的問題:在生成文本嵌入(即將文本轉(zhuǎn)換為計(jì)算機(jī)可理解的數(shù)字向量)時,擴(kuò)散語言模型是否比傳統(tǒng)的自回歸語言模型更有優(yōu)勢?這項(xiàng)研究為我們提供了全新的視角,論文編號為arXiv:2505.15045v1 [cs.CL]。
想象一下兩種閱讀方式的區(qū)別。傳統(tǒng)的自回歸語言模型就像我們從左到右閱讀一本書,每次只能看到當(dāng)前位置之前的內(nèi)容;而擴(kuò)散語言模型則像是我們可以自由地在書的任何部分來回翻閱,全面理解上下文。這種根本性的差異,可能對文本嵌入的質(zhì)量產(chǎn)生重大影響。
研究團(tuán)隊(duì)提出的核心觀點(diǎn)是:基于大型語言模型(LLM)的文本嵌入雖然在一般任務(wù)中表現(xiàn)出色,但它們存在一個根本性的缺陷——它們使用的是單向注意力機(jī)制,也就是說,它們只能"看到"句子中前面的詞,而無法同時考慮后面的內(nèi)容。這與文本嵌入任務(wù)的雙向性質(zhì)不符。相比之下,擴(kuò)散語言模型天生就采用雙向注意力架構(gòu),理論上更適合捕捉文本的全局語境。
為了驗(yàn)證這一假設(shè),研究人員開發(fā)了名為DIFFEMBED的文本嵌入模型,基于最先進(jìn)的擴(kuò)散語言模型DREAM-7B。他們在多種任務(wù)上對比了這一模型與傳統(tǒng)LLM嵌入模型的表現(xiàn),結(jié)果令人矚目:在長文檔檢索任務(wù)上,DIFFEMBED比LLM嵌入模型提高了20%的性能;在需要密集推理的檢索任務(wù)上提高了8%;在遵循指令的檢索任務(wù)上提高了2%;同時在傳統(tǒng)文本嵌入基準(zhǔn)測試上也達(dá)到了競爭性能。
更重要的是,研究團(tuán)隊(duì)通過實(shí)驗(yàn)證明,雙向注意力確實(shí)是處理長文本和復(fù)雜內(nèi)容的關(guān)鍵因素。他們甚至開發(fā)了一個名為REASONAUG的新數(shù)據(jù)集,包含近11,000對邏輯相關(guān)的正例和不相關(guān)的難例,用于訓(xùn)練模型處理需要密集推理的內(nèi)容。
這項(xiàng)研究不僅為文本嵌入領(lǐng)域帶來了新的技術(shù)路徑,也為我們理解不同類型語言模型的優(yōu)缺點(diǎn)提供了寶貴見解。接下來,讓我們深入了解這項(xiàng)研究的細(xì)節(jié)。
一、研究背景:文本嵌入技術(shù)的現(xiàn)狀與挑戰(zhàn)
文本嵌入是自然語言處理的基礎(chǔ)任務(wù),它將文本轉(zhuǎn)換為數(shù)值向量,使計(jì)算機(jī)能夠理解和處理語言。想象一下,如果我們要教計(jì)算機(jī)理解"貓"和"狗"這兩個詞的關(guān)系,我們需要將這些詞轉(zhuǎn)換為數(shù)學(xué)上的點(diǎn),讓"貓"和"狗"這兩個點(diǎn)在空間中的距離比"貓"和"汽車"的距離更近,因?yàn)榍罢哒Z義更相似。
傳統(tǒng)上,研究人員通常使用像BERT和T5這樣的雙向語言模型來生成文本嵌入。這些模型通過對比學(xué)習(xí)進(jìn)行訓(xùn)練,學(xué)習(xí)將語義相似的文本映射到向量空間中的相近位置。最近幾年,隨著大型語言模型(LLM)的崛起,許多研究開始嘗試將自回歸LLM(如Llama3、GPT系列等)應(yīng)用于文本嵌入任務(wù),并取得了顯著的效果提升。
然而,自回歸LLM有一個根本性的局限:它們使用的是單向注意力機(jī)制。打個比方,這就像是一個人在閱讀文章時只能看到當(dāng)前詞之前的內(nèi)容,而無法預(yù)覽后面的內(nèi)容。在實(shí)際生成文本時,這種機(jī)制是合理的——畢竟我們寫作時也是一個詞接一個詞地寫下去。但在理解整段文本的語義時,這種單向性就成了限制。
張思岳博士及其團(tuán)隊(duì)指出,這種單向注意力與文本嵌入任務(wù)所需的全局上下文理解存在根本性的不匹配。盡管已有研究如Echo Embeddings和LLM2Vec嘗試通過不同方法解決這一問題,但這些方法或多或少都存在效率低下或需要額外訓(xùn)練的問題。
二、擴(kuò)散語言模型:雙向注意力的天然優(yōu)勢
擴(kuò)散語言模型是近年來興起的一種新型語言模型,它受到了圖像生成領(lǐng)域擴(kuò)散模型的啟發(fā)。與自回歸語言模型不同,擴(kuò)散語言模型采用了一種全新的生成范式:它們首先將文本"噪聲化"(通過隨機(jī)掩蓋一些詞),然后學(xué)習(xí)如何逐步恢復(fù)原始文本。
這種方法的關(guān)鍵在于,擴(kuò)散語言模型在預(yù)測被掩蓋的詞時,可以同時利用該詞前后的上下文信息。打個比方,如果句子中"我喜歡吃<掩蓋>因?yàn)樗芴?,模型可以同時看到"我喜歡吃"和"因?yàn)樗芴?這兩部分信息,從而更準(zhǔn)確地推斷出被掩蓋的詞可能是"蘋果"或"香蕉"等水果。
研究團(tuán)隊(duì)提出的DIFFEMBED模型就是基于這種擴(kuò)散語言模型。具體來說,他們使用了DREAM-7B,這是一個經(jīng)過5800億標(biāo)記訓(xùn)練的最先進(jìn)擴(kuò)散語言模型。DIFFEMBED的工作原理很直觀:它從DREAM-7B中提取最后一層的詞表示,然后通過平均池化(mean pooling)將這些表示聚合為一個固定大小的向量,再通過對比學(xué)習(xí)進(jìn)一步優(yōu)化這些向量,使語義相似的文本在向量空間中更接近。
與自回歸語言模型相比,擴(kuò)散語言模型在文本嵌入任務(wù)上的天然優(yōu)勢在于: 1. 它們能夠同時考慮詞的前后上下文,提供更全面的語義理解。 2. 它們的訓(xùn)練目標(biāo)(恢復(fù)被掩蓋的詞)與文本理解的需求更加匹配。 3. 它們不需要像一些自回歸LLM那樣進(jìn)行額外的適應(yīng)性訓(xùn)練就能用于文本嵌入。
三、實(shí)驗(yàn)設(shè)計(jì):全面評估擴(kuò)散嵌入模型的性能
為了全面評估DIFFEMBED的性能,研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn),涵蓋四類關(guān)鍵任務(wù):長文檔檢索、需要密集推理的檢索、遵循指令的檢索,以及傳統(tǒng)文本嵌入任務(wù)。這些任務(wù)共同構(gòu)成了一個全面的評估框架,可以從不同角度檢驗(yàn)?zāi)P偷哪芰Α?/p>
在模型選擇方面,研究團(tuán)隊(duì)使用了DREAM-v0-Instruct-7B作為DIFFEMBED的基礎(chǔ)模型。為了進(jìn)行公平比較,他們同時評估了規(guī)模相近的自回歸模型,包括Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.2和Qwen2.5-7B-Instruct。此外,他們還實(shí)現(xiàn)了LLM2Vec方法,這是一種通過額外預(yù)訓(xùn)練使自回歸LLM能夠使用雙向注意力的技術(shù)。
在訓(xùn)練數(shù)據(jù)方面,研究團(tuán)隊(duì)根據(jù)不同任務(wù)使用了不同的數(shù)據(jù)集: - 對于長文檔檢索和傳統(tǒng)文本嵌入任務(wù),他們使用了Public E5數(shù)據(jù)集的子集。 - 對于需要密集推理的檢索任務(wù),他們創(chuàng)建了名為REASONAUG的新數(shù)據(jù)集。 - 對于遵循指令的檢索任務(wù),他們使用了帶有指令的MS MARCO數(shù)據(jù)集子集。
值得特別關(guān)注的是REASONAUG數(shù)據(jù)集的創(chuàng)建過程。由于現(xiàn)有數(shù)據(jù)集不足以有效支持需要密集推理的檢索任務(wù),研究團(tuán)隊(duì)使用大型語言模型生成了包含近11,000對樣本的新數(shù)據(jù)集。這些樣本包括兩類:一類是問題到概念的檢索(例如,給定一個數(shù)學(xué)問題,找出解決該問題所需的定理);另一類是問題到問題的檢索(例如,找出可以用相同定理解決的問題)。這些問題涉及多個領(lǐng)域,從數(shù)學(xué)和物理定理到編程算法。
四、實(shí)驗(yàn)結(jié)果:擴(kuò)散嵌入模型的顯著優(yōu)勢
實(shí)驗(yàn)結(jié)果清晰地表明,基于擴(kuò)散語言模型的DIFFEMBED在多項(xiàng)任務(wù)上都優(yōu)于傳統(tǒng)的自回歸LLM嵌入模型。
首先,在長文檔檢索任務(wù)(LONGEMBED基準(zhǔn))上,DIFFEMBED以62.2%的平均分?jǐn)?shù)顯著超過了所有自回歸模型。特別是在合成測試中,DIFFEMBED在文檔長度不超過4096個標(biāo)記的Passkey檢索任務(wù)上達(dá)到了100%的準(zhǔn)確率,在Needle-in-a-haystack檢索任務(wù)上達(dá)到了86.8%的準(zhǔn)確率。這些結(jié)果表明,即使模型訓(xùn)練時使用的最大輸入長度為4096個標(biāo)記,自回歸LLM仍然可能無法有效編碼關(guān)鍵信息,而DIFFEMBED則能夠很好地處理這一問題。
其次,在需要密集推理的檢索任務(wù)(BRIGHT基準(zhǔn))上,DIFFEMBED也展現(xiàn)出顯著優(yōu)勢。在TheoremQA的定理檢索任務(wù)上,DIFFEMBED的性能比Qwen2.5高出4.2個百分點(diǎn)(38.9% vs. 34.7%);在問題檢索任務(wù)上,差距更是達(dá)到了8.1個百分點(diǎn)(48.3% vs. 40.2%)。這表明雙向注意力對于理解復(fù)雜邏輯、定理和方程是至關(guān)重要的。值得注意的是,使用REASONAUG數(shù)據(jù)集訓(xùn)練的DIFFEMBED在TheoremQA任務(wù)上的性能比最先進(jìn)的推理檢索器ReasonIR高出了16.4%。
第三,在遵循指令的檢索任務(wù)(FOLLOWIR基準(zhǔn))上,DIFFEMBED也展現(xiàn)出與Mistral相當(dāng)?shù)闹噶钭裱芰Γǚ謩e為+5.1和+5.7的配對MRR)。研究人員推測,由于這類任務(wù)中查詢和文檔的長度有限且復(fù)雜度較低,DIFFEMBED的雙向嵌入方法的優(yōu)勢可能受到一定限制。
最后,在傳統(tǒng)文本嵌入任務(wù)(MTEB基準(zhǔn)的15個任務(wù))上,DIFFEMBED的表現(xiàn)與自回歸LLM嵌入模型相當(dāng)。這符合預(yù)期,因?yàn)榇蠖鄶?shù)傳統(tǒng)任務(wù)涉及的輸入較短且推理要求較低。
五、深入分析:雙向注意力的關(guān)鍵作用
為了深入理解雙向注意力對于不同模型和任務(wù)的重要性,研究團(tuán)隊(duì)對Mistral和DIFFEMBED進(jìn)行了消融實(shí)驗(yàn),比較了使用完全雙向(前向和反向)注意力與僅使用單向(前向)注意力時的性能差異。
實(shí)驗(yàn)結(jié)果揭示了一個顯著的發(fā)現(xiàn):當(dāng)禁用反向注意力時,DIFFEMBED的性能下降幅度遠(yuǎn)大于Mistral。例如,在TheoremQA的問題檢索任務(wù)上,DIFFEMBED的性能從48.3%驟降至0.7%(下降47.6個百分點(diǎn)),而Mistral的性能從33.7%降至9.6%(下降24.1個百分點(diǎn))。這表明DIFFEMBED更加依賴雙向上下文,這可能是由于其雙向預(yù)訓(xùn)練方式。
此外,不同任務(wù)對反向注意力的敏感度也存在差異。在LeetCode任務(wù)上,禁用反向注意力后性能相對穩(wěn)定(甚至在Mistral上有所增加),而在TheoremQA任務(wù)上性能則顯著下降。這表明雙向注意力對于邏輯推理任務(wù)(如TheoremQA)至關(guān)重要,這也解釋了DIFFEMBED在TheoT和TheoQ任務(wù)上的顯著性能優(yōu)勢。
六、討論與分析:更深入的理解
研究團(tuán)隊(duì)還對一系列問題進(jìn)行了深入分析,幫助我們更好地理解實(shí)驗(yàn)結(jié)果背后的原因。
首先,他們探討了為什么通用嵌入模型在需要密集推理的檢索任務(wù)上表現(xiàn)不佳。通過對REASONAUG文檔嵌入的t-SNE可視化分析,他們發(fā)現(xiàn)E5-Mistral的嵌入更加分散,缺乏清晰的聚類邊界。案例研究還表明,E5-Mistral在匹配問題時往往依賴于表面的詞匯線索(如精確數(shù)字或關(guān)鍵詞)和淺層語義模式,而非深層理解概念關(guān)系。
其次,通過分析在BRIGHT的LeetCode和AoPS任務(wù)上的表現(xiàn),研究團(tuán)隊(duì)發(fā)現(xiàn)這些任務(wù)中的金標(biāo)準(zhǔn)注釋和語料庫存在明顯的噪聲,這可能影響了評估結(jié)果的可靠性。例如,LeetCode子集中的"Trapping Rain Water I"和"Trapping Rain Water II"被標(biāo)記為相關(guān),但它們實(shí)際上需要完全不同的算法解決。
最后,研究團(tuán)隊(duì)還探討了隨著訓(xùn)練數(shù)據(jù)集規(guī)模增加,性能差距是否會縮小的問題。結(jié)果表明,即使在訓(xùn)練規(guī)模從2k增加到10k的范圍內(nèi),DIFFEMBED和Qwen2.5之間的性能差距仍然顯著,這表明基于LLM的模型可能需要大量數(shù)據(jù)才能學(xué)習(xí)有效的雙向注意力,而DIFFEMBED則天生具備這一優(yōu)勢。
七、研究局限性與未來方向
盡管這項(xiàng)研究取得了顯著成果,但研究團(tuán)隊(duì)也坦承了一些局限性。首先,他們只評估了最先進(jìn)的擴(kuò)散語言模型DREAM,而沒有測試其他擴(kuò)散模型如LLaDA,后者由于生成能力和推理能力相對較弱,預(yù)計(jì)在文本嵌入性能上也會較差。其次,由于資源限制,他們將訓(xùn)練規(guī)模限制在2萬個樣本以內(nèi),而更大規(guī)模的實(shí)驗(yàn)可能會提供更多見解。此外,在REASONAUG數(shù)據(jù)集中,盡管經(jīng)過質(zhì)量檢查,但可能仍存在一些不相關(guān)或不正確的文檔。
展望未來,這項(xiàng)研究為文本嵌入領(lǐng)域開辟了一條新的技術(shù)路徑。隨著擴(kuò)散語言模型的進(jìn)一步發(fā)展和規(guī)?;鼈冊谖谋厩度牒推渌匀徽Z言處理任務(wù)上的潛力可能會進(jìn)一步顯現(xiàn)。研究團(tuán)隊(duì)希望這項(xiàng)工作能為文本嵌入社區(qū)和擴(kuò)散語言模型的發(fā)展提供有意義的見解。
總的來說,這項(xiàng)研究不僅展示了擴(kuò)散語言模型在文本嵌入任務(wù)上的優(yōu)勢,也深入分析了雙向注意力對于捕捉長文本和復(fù)雜內(nèi)容的全局上下文的關(guān)鍵作用。它為我們理解不同類型語言模型的優(yōu)缺點(diǎn)提供了寶貴見解,也為未來的研究指明了方向。對于想要深入了解這項(xiàng)研究的讀者,可以通過arXiv:2505.15045v1 [cs.CL]訪問完整論文。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。