一個團隊帶來了視覺信息檢索領域的重大突破!由東北大學孔帆恒、馮世、楊小翠、王大領與快手科技的張靜源、劉亞輝、張宏志、田宇、Victoria W.、張富正和周國瑞共同完成的這項研究,發(fā)表于2025年5月的arXiv預印本(arXiv:2505.19650v2),為我們帶來了名為UNITE的全新多模態(tài)信息檢索框架。
讓我們先來理解一下這項研究解決的是什么問題。想象你在社交媒體上看到一段有趣的視頻,想找類似內(nèi)容,或者你看到一張圖片,想找與之相關的文字描述。這類需求被稱為"多模態(tài)信息檢索"(Multimodal Information Retrieval,簡稱MIR)。然而,當前的系統(tǒng)面臨兩大挑戰(zhàn):一是不同類型數(shù)據(jù)(如文字、圖像、視頻)之間存在天然的"模態(tài)差距";二是不同模態(tài)之間的信息對齊十分復雜。雖然以前的研究已經(jīng)發(fā)現(xiàn)這些問題,但還沒有一個系統(tǒng)性的解決方案。
UNITE團隊首次全面分析了模態(tài)特定數(shù)據(jù)屬性如何影響下游任務表現(xiàn),并提出了"模態(tài)感知掩碼對比學習"(Modal-Aware Masked Contrastive Learning,簡稱MAMCL)技術(shù),有效緩解了不同模態(tài)實例之間的競爭關系。簡單來說,就像讓不同語言的人在同一個會議室交流時,使用翻譯耳機確保每個人都能正確理解彼此,而不會因語言差異產(chǎn)生誤解。
研究結(jié)果令人振奮!UNITE在多個多模態(tài)檢索基準測試中取得了最先進的成績,超越現(xiàn)有方法達到顯著優(yōu)勢。即使與參數(shù)規(guī)模更大的模型相比,UNITE也表現(xiàn)出色。例如,UNITE的7B參數(shù)版本在MMEB基準測試中達到了70.3%的準確率,超過了擁有26B參數(shù)的IDMR模型(69.2%)。在WebVid-CoVR測試中,UNITE 7B更是達到了72.5%的檢索準確率,遠高于現(xiàn)有最佳方法ECDE的60.1%。
這項研究不僅提升了多模態(tài)信息檢索的性能,還為未來多模態(tài)系統(tǒng)研究提供了基礎藍圖。無論你是研究人員還是對這一領域感興趣的普通讀者,都能從這項工作中獲得對多模態(tài)系統(tǒng)更深入的理解。有興趣深入了解的讀者可以通過論文中提供的項目網(wǎng)站:https://friedrichor.github.io/projects/UNITE 獲取更多信息。
二、多模態(tài)信息檢索的挑戰(zhàn)與UNITE的應對之道
多模態(tài)信息檢索就像是一個能同時理解多種語言的翻譯官,需要在文字、圖像和視頻等不同"語言"之間自如切換。然而,這些不同"語言"之間存在著巨大的差異,就像中文和英文有著不同的語法結(jié)構(gòu)一樣,文字和圖像的表達方式也截然不同。
研究團隊發(fā)現(xiàn),當前的方法主要關注于雙模態(tài)場景(如文本-圖像或文本-視頻檢索),但隨著社交媒體的發(fā)展,用戶需求變得更加復雜,例如希望基于一段視頻和一段文字描述來查找類似視頻。這種復合模態(tài)的檢索任務被稱為"融合模態(tài)檢索",需要處理交錯的多模態(tài)查詢和候選項,對系統(tǒng)的要求更高。
現(xiàn)有的大型多模態(tài)模型(LMMs)雖然在多種視覺-語言任務上表現(xiàn)出色,但在檢索任務方面仍有局限。例如,E5-V通過使用純文本數(shù)據(jù)微調(diào)LLaVA-NeXT,展示了LMMs在多模態(tài)檢索中的潛力;GME通過微調(diào)Qwen2-VL在多種圖像-文本檢索任務中取得領先成績;InternVideo2則因其上億視頻-文本對的訓練而在文本-視頻檢索中表現(xiàn)突出。然而,這些模型受限于其專注的特定模態(tài),無法充分發(fā)揮LLMs在生成統(tǒng)一多模態(tài)嵌入方面的潛力。
盡管有研究探索了LMMs在MIR中的訓練策略,包括模型架構(gòu)、訓練方法和數(shù)據(jù)集考量,但仍有關鍵問題未解決:最佳的數(shù)據(jù)組成和比例是什么?不同模態(tài)數(shù)據(jù)配置如何影響各種檢索任務?研究團隊通過實證調(diào)查發(fā)現(xiàn),不適當?shù)亩嗄B(tài)數(shù)據(jù)組合或訓練序列容易破壞多樣化數(shù)據(jù)模態(tài)的和諧整合,導致模型錯誤理解不同類型信息之間的關系。
UNITE的創(chuàng)新之處在于,研究團隊通過精心分析不同數(shù)據(jù)組成對檢索結(jié)果的影響,努力在文本、圖像和視頻三種模態(tài)之間取得平衡。特別是,他們發(fā)現(xiàn)在檢索適應階段引入少量精細的視頻-文本對可顯著提升LMMs的精細檢索性能。同時,他們提出的MAMCL方法能有效平衡不同模態(tài)實例間的競爭關系,提高表示學習的質(zhì)量。
三、UNITE的技術(shù)架構(gòu)與工作原理
UNITE的核心是一個能同時處理文本、圖像、視頻及其組合的統(tǒng)一框架。就像一個精通多國語言的翻譯,它能將不同類型的信息轉(zhuǎn)換為一種"通用語言",使它們能夠在同一空間中進行比較和匹配。
在技術(shù)層面,UNITE利用大型多模態(tài)模型(LMM)作為骨干,這些模型由三個關鍵組件組成:大型語言模型、視覺編碼器和視覺投影器。這種架構(gòu)設計使UNITE能夠流暢地處理文本、圖像、視頻及其融合形式。當輸入進入系統(tǒng)時,UNITE使用提示模板引導處理過程,例如:
``` \n\nSummarize above in one word: ```
其中``和``是視覺內(nèi)容(圖像、視頻)和文本句子的占位符,``指定輸入模態(tài)類型。比如,對于視頻-文本輸入,會使用以下提示:
```
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。