av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<wbr id="prlac"><nav id="prlac"></nav></wbr>

<p id="prlac"><nav id="prlac"></nav></p>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

解鎖多語言多條件查詢的新紀(jì)元：ByteDance多語言語義檢索系統(tǒng)MERIT

多語言檢索多模態(tài)大語言模型語義搜索

解鎖多語言多條件查詢的新紀(jì)元：ByteDance多語言語義檢索系統(tǒng)MERIT

作者：科技行者

2025-06-06 17:30

分享至：

ByteDance與浙江大學(xué)合作開發(fā)的MERIT是首個專為多語言多條件語義檢索設(shè)計的基準(zhǔn)數(shù)據(jù)集，包含320,000條跨5種語言的查詢和135,000個產(chǎn)品。研究發(fā)現(xiàn)現(xiàn)有模型在處理多條件查詢時過度關(guān)注全局語義而忽略特定條件元素，為此提出CORAL框架，通過嵌入重建和對比學(xué)習(xí)相結(jié)合的方式，使檢索性能提升45.9%。這項(xiàng)研究不僅識別了現(xiàn)有方法的關(guān)鍵局限性，還為多條件交錯語義檢索領(lǐng)域的未來研究奠定了基礎(chǔ)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 17:30 ? 科技行者

近日，ByteDance和浙江大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一篇引人注目的論文《MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query》，這項(xiàng)研究于2025年6月3日在arXiv平臺上發(fā)布（arXiv:2506.03144v1）。研究團(tuán)隊(duì)由Wei Chow、Yuan Gao、Linfeng Li等多位來自ByteDance和浙江大學(xué)的研究者共同完成。

在我們?nèi)粘Ｙ徫飼r，你是否曾嘗試這樣搜索："我想找一件和這張圖片顏色相同，但材質(zhì)像那張圖片的T恤"？或者"幫我找一部和這個手機(jī)相同品牌，但存儲容量更大的手機(jī)"？這種同時指定多個條件（既有文字描述又有圖片參考）的搜索方式，在技術(shù)上被稱為"多條件交錯語義檢索"，而這正是MERIT項(xiàng)目的核心研究內(nèi)容。

傳統(tǒng)的搜索系統(tǒng)通常只能處理單一語言、單一圖片或單一條件的查詢，而真實(shí)世界中的產(chǎn)品搜索往往復(fù)雜得多。例如，用戶可能需要同時指定產(chǎn)品的顏色、材質(zhì)、風(fēng)格等多個特征，有些特征只能通過圖片來表達(dá)。市面上現(xiàn)有的系統(tǒng)在處理這種復(fù)雜查詢時表現(xiàn)不佳，尤其在多語言環(huán)境下更是如此。

為了解決這個問題，研究團(tuán)隊(duì)創(chuàng)建了MERIT數(shù)據(jù)集——首個專為多語言多條件語義檢索設(shè)計的基準(zhǔn)數(shù)據(jù)集。這個龐大的數(shù)據(jù)集包含了320,000條查詢和135,000個產(chǎn)品，覆蓋了5種語言（英語、泰語、印尼語、越南語和馬來語）和7個不同的產(chǎn)品類別（服裝、電子產(chǎn)品、食品、家具等）。

研究團(tuán)隊(duì)在評估現(xiàn)有模型時發(fā)現(xiàn)了一個關(guān)鍵問題：現(xiàn)有模型往往過度關(guān)注全局語義信息，而忽略了查詢中的特定條件元素。簡單來說，這些模型能理解"這是在搜索T恤"，但可能無法準(zhǔn)確捕捉"要紅色的"和"要棉質(zhì)的"這些具體條件。

為解決這一問題，研究團(tuán)隊(duì)提出了CORAL（Contrastive-reconstruction for multimodal retrieval）框架，這是一種新型的微調(diào)方法，可以讓預(yù)訓(xùn)練的多模態(tài)大語言模型更好地適應(yīng)檢索任務(wù)。CORAL通過兩個關(guān)鍵機(jī)制來提升模型性能：一是"嵌入重建"，幫助模型保留查詢中的細(xì)粒度條件元素；二是"對比學(xué)習(xí)"，幫助模型提取全面的全局語義信息。

實(shí)驗(yàn)結(jié)果表明，CORAL框架在MERIT數(shù)據(jù)集上比傳統(tǒng)方法性能提升了45.9%，同時在8個已有的檢索基準(zhǔn)上也展現(xiàn)了強(qiáng)大的泛化能力。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個有趣的現(xiàn)象：當(dāng)將多個圖片條件拼接成單一輸入圖片時，現(xiàn)有的基于多模態(tài)大語言模型的檢索系統(tǒng)在R@1指標(biāo)（檢索結(jié)果第一個就是正確答案的比例）上表現(xiàn)比順序輸入多個圖片的方式高出約16倍。這與多模態(tài)大語言模型在視覺理解任務(wù)上的表現(xiàn)規(guī)律相悖。研究團(tuán)隊(duì)推測，這可能是因?yàn)楝F(xiàn)有的檢索數(shù)據(jù)集最多只包含一張圖片，導(dǎo)致模型在處理交錯輸入時失去了有效處理能力。而在MERIT數(shù)據(jù)集上訓(xùn)練后，模型處理順序輸入的性能提升了14.3%，進(jìn)一步驗(yàn)證了這一假設(shè)。

總的來說，MERIT項(xiàng)目通過提供一個新型數(shù)據(jù)集、識別現(xiàn)有方法的關(guān)鍵局限性，以及提出創(chuàng)新的微調(diào)框架，為多條件交錯語義檢索領(lǐng)域的未來研究奠定了堅實(shí)基礎(chǔ)。這項(xiàng)研究不僅推動了技術(shù)進(jìn)步，也有望在實(shí)際應(yīng)用中提升用戶的搜索體驗(yàn)，尤其是在多語言環(huán)境下的電子商務(wù)平臺。

多語言多條件檢索：為何如此重要？

語義檢索是現(xiàn)代應(yīng)用中的關(guān)鍵任務(wù)，它涉及從海量數(shù)據(jù)集合中找出能滿足用戶特定需求的信息。這項(xiàng)任務(wù)隨著人工智能的發(fā)展變得愈發(fā)重要，因?yàn)樗粌H能夠幫助用戶精確找回所需內(nèi)容，還能減輕多模態(tài)大語言模型生成內(nèi)容中可能出現(xiàn)的不準(zhǔn)確性。

想象一下，你在網(wǎng)上購物時，希望找一件"與這張圖片中衣服相同材質(zhì)，但顏色像那張圖片中的"產(chǎn)品。這種包含多個條件、同時涉及文字和圖片的查詢，就是研究團(tuán)隊(duì)所稱的"交錯多條件查詢"。在實(shí)際生活中，這類查詢非常常見，但現(xiàn)有技術(shù)卻難以滿足這種需求。

研究團(tuán)隊(duì)提出了兩個基本問題：首先，我們?nèi)绾稳嬖u估現(xiàn)有模型在交錯多條件語義檢索任務(wù)中的能力？其次，是什么因素限制了這些模型的表現(xiàn)，我們又該如何提升其效果？

為了解答第一個問題，研究團(tuán)隊(duì)創(chuàng)建了MERIT數(shù)據(jù)集。這個數(shù)據(jù)集的建立并非易事?？紤]到獲取這類數(shù)據(jù)的挑戰(zhàn)，研究團(tuán)隊(duì)采用了開放式屬性標(biāo)注來增加多樣性，封閉式產(chǎn)品標(biāo)注來提高精確度和召回率，并設(shè)計了三種采樣算法來增強(qiáng)數(shù)據(jù)的豐富性和分布均勻性。經(jīng)過多輪篩選，最終確定了這個包含320,000條查詢的龐大數(shù)據(jù)集，整個標(biāo)注過程投入了10,000小時的人工勞動。

至于第二個問題，研究團(tuán)隊(duì)評估了9種現(xiàn)有檢索模型在MERIT數(shù)據(jù)集上的表現(xiàn)，發(fā)現(xiàn)盡管這些方法能有效解決已建立的語義檢索任務(wù)，但在MERIT上的召回率仍然遠(yuǎn)低于預(yù)期。通過深入分析，研究團(tuán)隊(duì)發(fā)現(xiàn)這些方法忽略了查詢中的特定條件元素，無法正確提取目標(biāo)屬性，并且誤解了視覺內(nèi)容。

這一局限性主要源于現(xiàn)有檢索模型的訓(xùn)練方式。通常，這些模型通過對比學(xué)習(xí)微調(diào)預(yù)訓(xùn)練的多模態(tài)大語言模型，且僅在[EOS]標(biāo)記（句子結(jié)束符）處應(yīng)用監(jiān)督，這導(dǎo)致模型優(yōu)先關(guān)注全局語義信息，而不充分處理特定的條件元素，如產(chǎn)品描述中的材質(zhì)屬性或圖像中的獨(dú)特紋理。

為了克服這一限制，研究團(tuán)隊(duì)提出了CORAL框架。這個框架能同時通過多模態(tài)嵌入重建保留詳細(xì)的條件元素，并通過對比學(xué)習(xí)有效提取全局語義。實(shí)驗(yàn)結(jié)果顯示，與傳統(tǒng)方法相比，CORAL在MERIT上的性能提升顯著，達(dá)到了45.9%，其有效性在8個已建立的檢索基準(zhǔn)上得到了進(jìn)一步驗(yàn)證。

MERIT數(shù)據(jù)集：多語言多條件檢索的基準(zhǔn)

MERIT數(shù)據(jù)集是首個專為交錯多條件語義檢索設(shè)計的多語言數(shù)據(jù)集。它包含135,000個產(chǎn)品，形成320,000個檢索對，覆蓋5種語言和7個不同的產(chǎn)品檢索場景。

每個基本單元是一個產(chǎn)品，包含一張圖片和由GPT-4o生成的相應(yīng)標(biāo)題。數(shù)據(jù)集被分為訓(xùn)練集和測試集，分別包含310,000和10,000個條目。每個搜索查詢至少包含一個正樣本（符合所有條件的產(chǎn)品）。

在數(shù)據(jù)收集過程中，所有數(shù)據(jù)都經(jīng)過了精通這五種語言的標(biāo)注者的人工篩選，并在收集過程中進(jìn)行了多輪自動篩選。具體而言，數(shù)據(jù)集收集包括以下四個步驟：

首先是高質(zhì)量產(chǎn)品選擇。研究團(tuán)隊(duì)在保持多樣性的同時，從內(nèi)部數(shù)據(jù)集中精心選擇了6個東南亞國家5種語言的熱門產(chǎn)品，每個產(chǎn)品標(biāo)題由GPT-4o生成。每個產(chǎn)品還根據(jù)流行度和美學(xué)評分進(jìn)行篩選，以形成最終使用的產(chǎn)品庫存。

其次是產(chǎn)品標(biāo)注。為了適應(yīng)多樣化的現(xiàn)實(shí)世界搜索需求，研究團(tuán)隊(duì)需要獲取各種細(xì)粒度的產(chǎn)品屬性用于組合。然而，現(xiàn)實(shí)世界電子商務(wù)數(shù)據(jù)中的屬性信息往往不足，導(dǎo)致對特定用戶需求的檢索效果欠佳。這一差距源于運(yùn)營屬性結(jié)構(gòu)的有限屬性豐富度與搜索相關(guān)性系統(tǒng)對精細(xì)、準(zhǔn)確的產(chǎn)品屬性信息需求之間的矛盾。因此，研究團(tuán)隊(duì)采用了開放式標(biāo)注方法，隨后通過統(tǒng)計分析進(jìn)行屬性劃分，并基于這些派生屬性對產(chǎn)品進(jìn)行標(biāo)記。

第三是搜索查詢組成。為了同時提高數(shù)據(jù)集質(zhì)量和多樣性，研究團(tuán)隊(duì)實(shí)施了一種綜合采樣方法來構(gòu)建檢索對。這種方法整合了三種不同的方式：常規(guī)均勻采樣、屬性均勻采樣和高相似度產(chǎn)品優(yōu)先采樣。此外，研究團(tuán)隊(duì)的管道還支持冷啟動擴(kuò)展，能夠?qū)?shù)據(jù)集擴(kuò)展到之前未見的產(chǎn)品類別。

最后是過濾和改進(jìn)。研究團(tuán)隊(duì)引入了兩階段過濾過程，包括自動過濾和手動策劃。自動過濾階段采用基于規(guī)則的系統(tǒng)和統(tǒng)計方法來消除明顯的不一致性和低質(zhì)量樣本，而手動過濾階段則由專家標(biāo)注者應(yīng)用微妙的判斷來確保語義連貫性和實(shí)際相關(guān)性。

研究團(tuán)隊(duì)在MERIT數(shù)據(jù)集上評估了9個最先進(jìn)的檢索模型，結(jié)果表明，現(xiàn)有檢索方法難以處理交錯多條件語義任務(wù)，即使是最好的Recall@1也只有12.05%。此外，研究團(tuán)隊(duì)還識別出幾個關(guān)鍵見解：

首先是視覺條件的必要性。研究團(tuán)隊(duì)在CIRR、FashionIQ和MERIT上使用BGE-VL進(jìn)行實(shí)驗(yàn)，報告了CIRR的R@1、FashionIQ的R@10和自己數(shù)據(jù)集的結(jié)果。如圖6(a)所示，當(dāng)用相應(yīng)的文字說明替換圖像進(jìn)行檢索時，F(xiàn)ashionIQ和CIRR的性能沒有顯著下降。相比之下，在MERIT上，無論是替換圖像為相應(yīng)的文字說明（w/o image）還是移除產(chǎn)品標(biāo)題（w/o title），性能都會大幅下降，其中移除圖像導(dǎo)致了特別嚴(yán)重的73.9%的下降。這證明了MERIT數(shù)據(jù)集的有效性，表明圖像和產(chǎn)品標(biāo)題都是不可或缺的組成部分。

其次是交錯支持。如表2所示，將多個圖像連接成單一圖像的方式明顯優(yōu)于順序輸入，如GME-Qwen2VL的連接方式在R@5上比其順序版本提高了119.7%。這與預(yù)訓(xùn)練的多模態(tài)大語言模型支持交錯圖像輸入的事實(shí)相矛盾，也與這些模型在視覺理解任務(wù)和零樣本性能上的既定行為不符，在這些任務(wù)中，順序處理通常能通過保留更多的圖像信息而表現(xiàn)更好。研究團(tuán)隊(duì)推測，這種差異可能源于現(xiàn)有檢索數(shù)據(jù)集最多只包含一張圖像，可能導(dǎo)致多模態(tài)大語言模型失去了有效處理交錯輸入的能力。在MERIT上訓(xùn)練后，順序輸入性能提高了14.3%，進(jìn)一步驗(yàn)證了這一假設(shè)。這凸顯了MERIT作為首個交錯語義檢索數(shù)據(jù)集的重要性。

最后是分布外場景。研究團(tuán)隊(duì)評估了Qwen2.5-VL在三種分布外場景（類別OOD、語言O(shè)OD和屬性O(shè)OD）上的表現(xiàn)，結(jié)果如圖6(b)所示。具體數(shù)值可見附錄中的表7、8、9。特別是在語言O(shè)OD場景中，與全訓(xùn)練（Mixed）相比，性能顯示出明顯的差距；然而，由于激活了多模態(tài)大語言模型的多語言能力，它仍然比零樣本性能有顯著提升。在類別和屬性O(shè)OD場景中，OOD與全訓(xùn)練之間的性能差距相對較小，反映了數(shù)據(jù)集的多樣性。

為什么現(xiàn)有模型表現(xiàn)欠佳？錯誤分析揭示真相

為了深入了解檢索模型在MERIT上表現(xiàn)不佳的原因，研究團(tuán)隊(duì)首先分析了不同語言之間的成功率是否存在相關(guān)性。如圖7(a)所示，統(tǒng)計結(jié)果顯示不同語言之間的差異很小，盡管英語在多模態(tài)大語言模型的初始訓(xùn)練數(shù)據(jù)中占主導(dǎo)地位，但在這里并沒有顯示出明顯優(yōu)勢。

接著，研究團(tuán)隊(duì)隨機(jī)選擇了500個查詢，并從Qwen2.5-VL和InternVL 2.5獲取解釋，這兩個模型都經(jīng)過了全參數(shù)對比學(xué)習(xí)訓(xùn)練。專家標(biāo)注者將誤預(yù)測的根本原因分類為五類，詳細(xì)內(nèi)容可見附錄E.5。

這些錯誤類型的分布如圖7(b)所示，揭示屬性和視覺理解錯誤占據(jù)了失敗案例的最大比例。這一分析表明，這些方法忽略了查詢中的條件元素，無法提取特定屬性，并誤解視覺內(nèi)容。這可能源于面向檢索的微調(diào)，其中多模態(tài)大語言模型優(yōu)先考慮全局語義信息而非特定語義信息。此外，由于當(dāng)前的檢索數(shù)據(jù)集主要是基于單一圖像的，現(xiàn)有方法無法利用交錯多模態(tài)大語言模型的圖像序列理解能力，正如在第3.3節(jié)中分析的那樣。這種局限性可能導(dǎo)致在理解精確語義方面的失敗，造成屬性提取錯誤（導(dǎo)致屬性錯誤）和視覺特征如圖案的錯誤解釋（導(dǎo)致視覺理解錯誤）。

CORAL：通過對比重建提升多模態(tài)檢索能力

認(rèn)識到忽略查詢中特定條件元素是第3.4節(jié)強(qiáng)調(diào)的錯誤主要來源，研究團(tuán)隊(duì)在第4.1節(jié)中介紹了CORAL框架，以增強(qiáng)基于多模態(tài)大語言模型的檢索器在處理交錯多條件語義檢索任務(wù)時的性能，方法是在將多模態(tài)大語言模型適應(yīng)為檢索模型的微調(diào)過程中整合視覺重建。

在深入CORAL之前，我們先了解一下預(yù)訓(xùn)練的多模態(tài)大語言模型是如何工作的。對于一個常見的多模態(tài)大語言模型，它有圖像和文本輸入。模型首先通過視覺表示骨干網(wǎng)絡(luò)處理圖像，輸出一系列特征。然后，通過學(xué)習(xí)的投影器將這些特征映射為一系列嵌入。最后，將這些嵌入與文本提示嵌入連接起來，傳遞給語言模型。

語言模型生成輸出隱藏狀態(tài)，特別是[EOS]位置的隱藏層表示被標(biāo)記為"heos"。最終，這些隱藏狀態(tài)可以轉(zhuǎn)換為文本輸出。多模態(tài)大語言模型的訓(xùn)練目標(biāo)是最小化給定圖像和文本輸入的預(yù)測生成文本的負(fù)對數(shù)似然。

CORAL框架是一種設(shè)計用于將預(yù)訓(xùn)練的多模態(tài)大語言模型適應(yīng)為多模態(tài)檢索模型的微調(diào)方法。它增強(qiáng)了視覺理解能力，同時保留了模型原有的語言理解能力。具體來說，對于一個預(yù)訓(xùn)練的多模態(tài)大語言模型，研究團(tuán)隊(duì)的微調(diào)方法如下：

首先是對比學(xué)習(xí)損失Lcl。研究團(tuán)隊(duì)采用InfoNCE損失進(jìn)行監(jiān)督對比學(xué)習(xí)。給定N個樣本的批次，其中τ表示溫度系數(shù)，qi表示查詢樣本，ki+是對應(yīng)于查詢i的正樣本的編碼向量，對比損失計算如下：

Lcl = -1/N ∑(i=1到N) log(exp(qi·ki+/τ) / ∑(j=1到N) exp(qi·kj/τ))

其次是視覺重建損失Lmse。研究團(tuán)隊(duì)采用一個隨機(jī)初始化為BERT層的解碼器。使用完整輸入表示heos作為查詢，計算原始未掩碼嵌入和從解碼器重建的嵌入之間的MSE損失：

Lmse = -1/N ∑(i=1到N) ||E - E||??, 其中E = Fvθ[MASKv(E); heos]

最后是掩碼語言建模損失Lmlm。類似于視覺重建，研究團(tuán)隊(duì)使用解碼器進(jìn)行重建。為減少可訓(xùn)練參數(shù)，解碼器與多模態(tài)大語言模型的語言建模頭共享權(quán)重。掩碼語言建模損失計算如下：

Lmlm = -1/N ∑(i=1到N) log P(xi | X), 其中xi = [Flθ[MASKl(E); heos]](i)

CORAL的整體訓(xùn)練目標(biāo)公式為：

max(θ,θv,θl) L = Lcl + λ1Lreg + λ2Lrec

其中，Lreg和Lrec分別表示使用條件的[EOS]標(biāo)記和目標(biāo)自身的[EOS]標(biāo)記作為注意力查詢對檢索目標(biāo)進(jìn)行重建。對于這兩個術(shù)語，方程1中引用的注意力鍵和值都來自檢索目標(biāo)的嵌入。每個重建組件都包含圖像重建和語言重建。

為了驗(yàn)證CORAL的有效性，研究團(tuán)隊(duì)在MERIT和8個已建立的檢索任務(wù)上進(jìn)行了實(shí)驗(yàn)。MERIT上的主要結(jié)果得出以下結(jié)論：

首先，嵌入重建對檢索性能貢獻(xiàn)顯著。部分特征重建（表3的第6-11行）都能提升模型性能，與僅使用對比學(xué)習(xí)相比，多模態(tài)重建帶來了45.9%的提升。

其次，多模態(tài)重建優(yōu)于部分重建。比較表3的第6-9行和第10-11行，同時重建兩種模態(tài)時性能更好。

第三，順序輸入優(yōu)于圖像連接。根據(jù)第3-5行和第11行的對比，順序輸入實(shí)現(xiàn)了更高的性能。研究團(tuán)隊(duì)推測，順序表示比圖像連接保留了更多信息，這與第3.3節(jié)的發(fā)現(xiàn)一致。

最后，全參數(shù)微調(diào)產(chǎn)生最佳結(jié)果。由于檢索任務(wù)與預(yù)訓(xùn)練目標(biāo)之間存在實(shí)質(zhì)性差異，全參數(shù)微調(diào)通常產(chǎn)生更好的結(jié)果，這與先前工作的結(jié)論一致。

在八個檢索任務(wù)上的結(jié)果如圖9所示，研究團(tuán)隊(duì)的方法在這些任務(wù)上也實(shí)現(xiàn)了一致的改進(jìn)，特別是在VisDial上，其方法比基線提高了181%。

總結(jié)：MERIT為多語言多條件檢索開辟新天地

通過這項(xiàng)研究，ByteDance和浙江大學(xué)的團(tuán)隊(duì)為交錯多條件語義檢索領(lǐng)域帶來了三個重要貢獻(xiàn)：

首先，他們創(chuàng)建了MERIT，這是首個用于交錯多條件語義檢索的多語言數(shù)據(jù)集，并基于它提供了有見地的觀察結(jié)果。

其次，他們識別了現(xiàn)有方法的關(guān)鍵局限性：這些方法僅關(guān)注全局語義信息，而忽略了查詢中的特定條件元素，無法提取特定屬性，并誤解視覺內(nèi)容。

最后，他們提出了CORAL，這個框架結(jié)合了嵌入重建來保留細(xì)粒度條件元素和對比學(xué)習(xí)來提取全面的全局語義，在MERIT數(shù)據(jù)集和八個標(biāo)準(zhǔn)基準(zhǔn)上都展示了強(qiáng)大的性能。

研究還發(fā)現(xiàn)了一個有趣的現(xiàn)象：當(dāng)將多個圖像條件拼接成單一輸入圖像時，現(xiàn)有的基于多模態(tài)大語言模型的檢索系統(tǒng)在R@1上的表現(xiàn)比順序輸入多個圖像高出約16倍，這與多模態(tài)大語言模型在視覺理解任務(wù)上的表現(xiàn)規(guī)律相悖。研究團(tuán)隊(duì)推測，這可能是因?yàn)楝F(xiàn)有的檢索數(shù)據(jù)集最多只包含一張圖片，導(dǎo)致模型在處理交錯輸入時失去了有效處理能力。

總的來說，MERIT項(xiàng)目為交錯多條件語義檢索領(lǐng)域的未來研究奠定了堅實(shí)基礎(chǔ)，推動了這一領(lǐng)域的技術(shù)進(jìn)步，也有望在實(shí)際應(yīng)用中提升用戶的搜索體驗(yàn)，尤其是在多語言環(huán)境下的電子商務(wù)平臺。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展，我們可以期待未來的搜索系統(tǒng)能更好地理解用戶的復(fù)雜查詢意圖，提供更精準(zhǔn)的搜索結(jié)果。

多語言檢索多模態(tài)大語言模型語義搜索

分享至

0贊

好文章，需要你的鼓勵

推薦文章

計算機(jī)視覺
注意力機(jī)制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

這項(xiàng)研究提出了"高效探測"方法，解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制，該方法在減少90%參數(shù)的同時實(shí)現(xiàn)10倍速度提升，在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼，推動技術(shù)普及應(yīng)用。
檢索增強(qiáng)生成
層次化分析
爭議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng)，通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架，識別不同觀點(diǎn)及其支撐證據(jù)，為科學(xué)和政治爭議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
人工智能
情感認(rèn)知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu)，在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
人工智能
多智能體強(qiáng)化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力，在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<span id="trk5u"><form id="trk5u"></form></span>