在人工智能快速發(fā)展的今天,我們每天都在不知不覺中與各種搜索引擎和推薦系統(tǒng)打交道。當(dāng)你在搜索引擎上查詢問題、在電商平臺尋找商品、或者使用聊天機器人獲取信息時,背后都離不開一項重要技術(shù):文本嵌入和重排。這些技術(shù)就像是AI世界的"翻譯官",它們能夠理解人類語言的含義,并幫助計算機系統(tǒng)找到最相關(guān)的信息。
近日,阿里巴巴和同濟實驗室的研究團隊發(fā)布了一項重要進(jìn)展:Qwen3 Embedding系列模型。這項研究以技術(shù)報告的形式于2025年6月5日發(fā)布在arXiv上,由Yanzhao Zhang、Mingxin Li、Dingkun Long、Xin Zhang等多位研究員共同完成。這些模型基于Qwen3基礎(chǔ)模型構(gòu)建,在文本嵌入和重排能力上較之前的GTE-Qwen系列取得了顯著進(jìn)步。那么,什么是文本嵌入和重排?它們?yōu)槭裁慈绱酥匾??Qwen3 Embedding系列又有哪些創(chuàng)新和優(yōu)勢?讓我們一起深入了解。
一、文本嵌入和重排:AI理解世界的基石
想象一下,如果你和一位外國朋友交談,但彼此不懂對方的語言,這時你需要一位翻譯。在AI世界中,文本嵌入就扮演著這樣的"翻譯官"角色。它能夠?qū)⑷祟愓Z言中的單詞、句子或文檔轉(zhuǎn)換成計算機能理解的數(shù)字向量(想象成一連串的數(shù)字),這些向量能夠捕捉文本的語義信息。
舉個簡單的例子,如果我們有兩個句子:"我喜歡狗"和"我愛小狗",盡管它們用詞不同,但意思相近。好的文本嵌入模型會將這兩個句子轉(zhuǎn)換成相似的數(shù)字向量,因為它能理解這兩句話表達(dá)的是相似的含義。相反,句子"我喜歡貓"雖然和第一句話只有一字之差,但其含義不同,因此會被轉(zhuǎn)換成一個較為不同的向量。
而重排則是在搜索和推薦系統(tǒng)中的"精選師"。當(dāng)你在搜索引擎中輸入一個問題后,系統(tǒng)會先找出可能相關(guān)的大量結(jié)果(可能有成百上千個),然后重排模型就像一位細(xì)心的篩選專家,它會仔細(xì)評估每個候選結(jié)果與你的查詢問題的相關(guān)性,并將最相關(guān)的結(jié)果排在前面展示給你。
在現(xiàn)代AI應(yīng)用中,特別是隨著檢索增強生成(RAG)技術(shù)的興起,文本嵌入和重排變得越來越重要。RAG技術(shù)就像是給大語言模型配備了一個"參考圖書館",當(dāng)模型需要回答問題時,它可以先從這個"圖書館"中檢索相關(guān)信息,然后基于這些信息給出更準(zhǔn)確的回答。而文本嵌入和重排正是構(gòu)建這個"參考圖書館"和從中高效檢索的關(guān)鍵技術(shù)。
二、Qwen3 Embedding:模型架構(gòu)與創(chuàng)新設(shè)計
Qwen3 Embedding系列的核心思想是利用大語言模型(LLM)的強大語言理解和生成能力來增強文本嵌入和重排的效果。這就像是請了一位語言專家(Qwen3基礎(chǔ)模型)來當(dāng)"翻譯官",自然能夠提供更加準(zhǔn)確和深入的翻譯。
這個系列包含兩類模型:嵌入模型和重排模型,每類都有三種不同的規(guī)模(0.6B、4B和8B參數(shù)),就像是提供了經(jīng)濟型、標(biāo)準(zhǔn)型和豪華型三種選擇,用戶可以根據(jù)自己的需求和硬件條件選擇合適的版本。
對于嵌入模型,研究團隊采用了一種巧妙的設(shè)計:當(dāng)你輸入一段文本后,模型會在文本末尾添加一個特殊標(biāo)記([EOS]),然后使用與這個標(biāo)記對應(yīng)的隱藏狀態(tài)作為文本的嵌入表示。這就像是讓模型先完整閱讀了整段文本,然后在讀完后給出一個總結(jié)性的理解。為了讓模型能夠按照指令工作,研究者將指令和查詢文本連接在一起輸入,這樣模型就能根據(jù)不同的指令執(zhí)行不同的任務(wù)。
重排模型則采用了不同的方法。它接受一個查詢和一個文檔作為輸入,然后判斷這個文檔是否滿足查詢的需求。這就像是請一位專家閱讀一篇文章,然后回答"這篇文章是否回答了我的問題?"研究團隊將這個過程設(shè)計為一個二分類問題,模型會輸出"是"或"否"的概率,并根據(jù)"是"的概率作為相關(guān)性得分。
為了使模型在各種任務(wù)中表現(xiàn)良好,研究團隊采用了一種多階段訓(xùn)練策略。這就像是訓(xùn)練一位專業(yè)運動員,先進(jìn)行大量的基礎(chǔ)訓(xùn)練,然后針對特定比賽進(jìn)行專項訓(xùn)練,最后通過模型融合(類似于綜合多位教練的建議)來提高模型的穩(wěn)健性和適應(yīng)性。
三、數(shù)據(jù)合成與訓(xùn)練:從大到強的蛻變之路
訓(xùn)練Qwen3 Embedding系列模型的過程可以比喻為烹飪一道精美菜肴的過程:需要優(yōu)質(zhì)的原材料(訓(xùn)練數(shù)據(jù)),合適的烹飪技巧(訓(xùn)練方法),以及精確的火候控制(訓(xùn)練策略)。
研究團隊首先采用了一種創(chuàng)新的數(shù)據(jù)合成方法。不同于以往從開源社區(qū)收集數(shù)據(jù)的做法,他們利用Qwen3-32B模型的強大能力直接生成訓(xùn)練數(shù)據(jù)。這就像是請一位頂級廚師來準(zhǔn)備食材,而不是去市場上購買現(xiàn)成的食材。這種方法的優(yōu)勢在于可以精確控制生成數(shù)據(jù)的質(zhì)量和多樣性,特別是對于低資源語言和場景。
在生成訓(xùn)練數(shù)據(jù)時,研究團隊設(shè)計了多維度的提示策略,涵蓋查詢類型(關(guān)鍵詞、事實性、摘要、判斷等)、查詢長度、難度和語言等多個維度。這就像是確保食材不僅品質(zhì)上乘,而且種類豐富,能夠滿足不同的烹飪需求。
最終,研究團隊創(chuàng)建了大約1.5億對多任務(wù)弱監(jiān)督訓(xùn)練數(shù)據(jù)。初步實驗表明,僅使用這些合成數(shù)據(jù)訓(xùn)練的嵌入模型就已經(jīng)表現(xiàn)出色,甚至超過了許多之前的監(jiān)督模型。為了進(jìn)一步提高模型性能,研究團隊從這些合成數(shù)據(jù)中篩選出了約1200萬對高質(zhì)量數(shù)據(jù),用于后續(xù)的監(jiān)督訓(xùn)練。
訓(xùn)練過程分為三個階段:首先是使用大規(guī)模合成數(shù)據(jù)進(jìn)行弱監(jiān)督預(yù)訓(xùn)練,然后是使用高質(zhì)量數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào),最后是模型融合階段,通過合并不同階段保存的模型檢查點來提高模型的魯棒性和泛化能力。這就像是一個廚師先掌握基本烹飪技巧,然后學(xué)習(xí)特殊菜肴的制作,最后融合多種烹飪風(fēng)格形成自己獨特的菜系。
在訓(xùn)練過程中,研究團隊采用了一種改進(jìn)的對比損失函數(shù),這個損失函數(shù)基于InfoNCE框架,但增加了一些技巧來處理假陰性樣本的影響。簡單來說,這就像是在訓(xùn)練過程中,不僅要讓模型學(xué)會識別"什么是對的",還要學(xué)會識別"什么是錯的",同時避免誤判"看起來錯但實際上是對的"情況。
四、性能評估:超越前輩與商業(yè)巨頭
那么,Qwen3 Embedding系列模型的表現(xiàn)如何呢?研究團隊在多個基準(zhǔn)測試上進(jìn)行了全面評估,結(jié)果令人印象深刻。
首先,在MTEB多語言基準(zhǔn)測試上,Qwen3-8B-Embedding模型取得了70.58的得分,Qwen3-4B-Embedding取得了69.45的得分,甚至連參數(shù)最少的Qwen3-0.6B-Embedding也達(dá)到了64.33的得分。這些成績不僅超過了許多開源模型,甚至超過了商業(yè)API如OpenAI的text-embedding-3-large(58.93)和Cohere的embed-multilingual-v3.0(61.12)。特別值得一提的是,Qwen3-8B-Embedding甚至超過了之前的SOTA商業(yè)嵌入模型Gemini-Embedding(68.37)。
在MTEB英文、中文和代碼評估中,Qwen3嵌入模型同樣表現(xiàn)出色。例如,在MTEB代碼基準(zhǔn)測試中,Qwen3-8B-Embedding取得了80.68的得分,超過了Gemini-Embedding的74.66。
對于重排模型,研究團隊在多個檢索任務(wù)上進(jìn)行了評估,包括基本相關(guān)性檢索(英文、中文和多語言)、代碼檢索以及復(fù)雜指令檢索。結(jié)果顯示,所有三個Qwen3-Reranker模型都顯著提高了檢索性能,超過了所有基線重排方法。特別是Qwen3-Reranker-8B模型在大多數(shù)任務(wù)中取得了最佳性能,比0.6B模型在多個任務(wù)上提高了3.0個百分點。
為了深入了解模型表現(xiàn)背后的關(guān)鍵因素,研究團隊還進(jìn)行了消融研究。結(jié)果表明,大規(guī)模弱監(jiān)督預(yù)訓(xùn)練和模型融合是提高模型性能的兩個關(guān)鍵因素。如果移除弱監(jiān)督訓(xùn)練階段,最終性能會顯著下降;同樣,如果不使用模型融合技術(shù),性能也會受到影響。
五、實際應(yīng)用與未來展望
Qwen3 Embedding系列模型不僅在學(xué)術(shù)基準(zhǔn)測試上表現(xiàn)優(yōu)異,更重要的是它們在實際應(yīng)用中具有廣闊前景。
在搜索引擎領(lǐng)域,這些模型可以提高搜索結(jié)果的相關(guān)性和準(zhǔn)確性。想象一下,當(dāng)你搜索"如何處理工作壓力"時,傳統(tǒng)搜索引擎可能只會匹配關(guān)鍵詞"工作"和"壓力",而Qwen3模型能夠理解你真正的需求,找到真正有幫助的文章,即使這些文章可能使用了不同的表述,如"職場減壓方法"或"應(yīng)對職業(yè)倦怠的技巧"。
在推薦系統(tǒng)中,這些模型可以幫助提供更加個性化和相關(guān)的推薦。例如,電商平臺可以更準(zhǔn)確地理解用戶的興趣和需求,推薦真正符合用戶喜好的商品。
對于問答系統(tǒng)和聊天機器人,特別是基于RAG架構(gòu)的系統(tǒng),Qwen3 Embedding系列可以顯著提高知識檢索的效果,使系統(tǒng)能夠找到更相關(guān)的信息來回答用戶問題。這就像是給AI助手配備了一個更加聰明的"記憶系統(tǒng)",能夠快速準(zhǔn)確地找到所需信息。
在代碼搜索和開發(fā)工具中,Qwen3模型在代碼檢索任務(wù)上的出色表現(xiàn)意味著它們可以幫助程序員更快地找到相關(guān)代碼示例或解決方案,提高開發(fā)效率。
此外,Qwen3 Embedding系列的多語言能力使其可以應(yīng)用于跨語言信息檢索和多語言內(nèi)容管理,這在全球化背景下顯得尤為重要。
值得一提的是,所有Qwen3 Embedding模型都已在Apache 2.0許可下開源,這意味著開發(fā)者和研究人員可以自由使用和修改這些模型,這將進(jìn)一步促進(jìn)社區(qū)驅(qū)動的研究和開發(fā)。
未來,隨著大語言模型技術(shù)的不斷進(jìn)步,我們可以期待看到更加強大的文本嵌入和重排模型。這些進(jìn)步可能包括更高效的訓(xùn)練方法、更豐富的多模態(tài)能力(如圖像和文本的聯(lián)合嵌入),以及更強的多語言和跨語言能力。
六、總結(jié)與思考
Qwen3 Embedding系列的發(fā)布代表了文本嵌入和重排技術(shù)的一個重要里程碑。通過利用大語言模型的強大能力,結(jié)合創(chuàng)新的訓(xùn)練方法和數(shù)據(jù)合成策略,這些模型在多個基準(zhǔn)測試上取得了SOTA性能。
對于普通用戶來說,這意味著我們將會看到更加智能和高效的搜索引擎、推薦系統(tǒng)和AI助手。它們能夠更好地理解我們的意圖,提供更加相關(guān)和有用的信息。
對于開發(fā)者和研究人員來說,Qwen3 Embedding系列提供了強大的開源工具,可以用于構(gòu)建下一代信息檢索和處理系統(tǒng)。
而從更廣泛的AI發(fā)展角度來看,Qwen3 Embedding系列的成功再次證明了大語言模型作為基礎(chǔ)模型的潛力和價值。通過在大語言模型基礎(chǔ)上構(gòu)建專門的任務(wù)模型,我們可以充分利用這些基礎(chǔ)模型積累的知識和能力,創(chuàng)造出更加強大和多樣化的AI應(yīng)用。
歸根結(jié)底,Qwen3 Embedding系列的意義不僅在于它們在各種基準(zhǔn)測試上的出色表現(xiàn),更在于它們?yōu)闃?gòu)建更加智能和人性化的AI系統(tǒng)提供了重要工具。隨著這些技術(shù)的不斷發(fā)展和應(yīng)用,我們有理由期待一個信息獲取更加便捷、準(zhǔn)確和個性化的未來。
如果你對這項研究感興趣,可以在huggingface.co/Qwen、modelscope.cn/organization/qwen或github.com/QwenLM/Qwen3-Embedding上了解更多信息和獲取模型。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。