這項(xiàng)由阿里巴巴通義實(shí)驗(yàn)室聯(lián)合悉尼大學(xué)、DeepGlint和帝國(guó)理工學(xué)院的研究團(tuán)隊(duì)完成的工作發(fā)表于2025年4月,論文標(biāo)題為《Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs》。有興趣深入了解的讀者可以通過論文編號(hào)arXiv:2504.17432v1訪問完整論文。
當(dāng)我們看到一張圖片時(shí),大腦會(huì)瞬間理解其中的內(nèi)容,同時(shí)還能將這個(gè)理解與相關(guān)的文字描述聯(lián)系起來。比如看到一只小狗在公園里玩耍的照片,我們不僅能識(shí)別出這是一只狗,還能自動(dòng)想到"寵物"、"戶外活動(dòng)"、"快樂"等相關(guān)概念。然而,對(duì)于人工智能來說,要讓機(jī)器同時(shí)理解圖片和文字,并且能夠建立它們之間的關(guān)聯(lián),一直是個(gè)相當(dāng)棘手的挑戰(zhàn)。
目前最知名的多媒體AI模型CLIP就像一個(gè)只能看懂簡(jiǎn)單圖畫書的孩子。它雖然能夠?qū)D片和文字進(jìn)行匹配,但存在三個(gè)明顯的局限性。首先,它只能處理77個(gè)字符以內(nèi)的文字描述,就好比只能閱讀超短的推文,遇到詳細(xì)的文章就束手無策。其次,它處理圖片和文字時(shí)是分開進(jìn)行的,就像左右手各做各的事情,無法協(xié)調(diào)配合。最后,它理解語(yǔ)言的方式過于簡(jiǎn)單粗暴,只是把句子當(dāng)作一堆散亂的詞匯拼湊,而不能真正理解句子的整體含義。
近年來,多模態(tài)大語(yǔ)言模型的出現(xiàn)為解決這些問題帶來了新的希望。這些模型就像經(jīng)過專業(yè)訓(xùn)練的翻譯,不僅能理解復(fù)雜的語(yǔ)言,還能處理圖像信息。但是,這些模型主要是為了生成文字而設(shè)計(jì)的,在學(xué)習(xí)如何將不同類型的信息進(jìn)行有效匹配和檢索方面,仍然存在不足。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)名為UniME(Universal Multimodal Embedding,通用多模態(tài)嵌入)的創(chuàng)新框架。這個(gè)框架就像一個(gè)經(jīng)過特殊訓(xùn)練的多語(yǔ)言專家,不僅能深度理解圖片和文字的內(nèi)容,還能準(zhǔn)確地判斷它們之間的關(guān)聯(lián)程度。
UniME的工作原理可以用培養(yǎng)一個(gè)全能型學(xué)生來比喻。整個(gè)培養(yǎng)過程分為兩個(gè)階段。第一階段是"文本辨別知識(shí)蒸餾",就像讓學(xué)生跟著最優(yōu)秀的語(yǔ)文老師學(xué)習(xí)。研究團(tuán)隊(duì)讓UniME向一個(gè)在文本理解方面表現(xiàn)卓越的教師模型學(xué)習(xí),通過這種師傅帶徒弟的方式,大幅提升模型對(duì)文字內(nèi)容的理解和辨別能力。
第二階段是"困難負(fù)樣本增強(qiáng)指令調(diào)優(yōu)",這就像讓學(xué)生練習(xí)最具挑戰(zhàn)性的考試題目。在這個(gè)階段,研究團(tuán)隊(duì)采用了兩個(gè)巧妙的策略。首先是"假負(fù)樣本過濾",這相當(dāng)于幫助學(xué)生識(shí)別出那些看似錯(cuò)誤但實(shí)際正確的陷阱題目。在實(shí)際訓(xùn)練中,有些看起來不匹配的圖文對(duì)實(shí)際上是相關(guān)的,比如"狗"和"寵物"這兩個(gè)詞雖然不同,但含義相近。系統(tǒng)會(huì)自動(dòng)識(shí)別并排除這些假負(fù)樣本,避免模型產(chǎn)生錯(cuò)誤的學(xué)習(xí)。
接下來是"困難負(fù)樣本采樣",這就像專門挑選最容易混淆的題目讓學(xué)生練習(xí)。系統(tǒng)會(huì)在每個(gè)訓(xùn)練批次中主動(dòng)尋找那些與正確答案非常相似、但實(shí)際上并不匹配的樣本。比如,對(duì)于一張拉布拉多犬的圖片,系統(tǒng)會(huì)特意選擇金毛犬、邊牧等外觀相似的狗類圖片作為對(duì)比,強(qiáng)迫模型學(xué)會(huì)區(qū)分這些細(xì)微差別。這種訓(xùn)練方式大大提升了模型的辨別精度。
為了驗(yàn)證UniME的效果,研究團(tuán)隊(duì)在多個(gè)不同類型的任務(wù)上進(jìn)行了全面測(cè)試。這些測(cè)試就像給學(xué)生安排了從基礎(chǔ)題到高難度題的全套考試。測(cè)試內(nèi)容包括圖像分類、視覺問答、多模態(tài)檢索和視覺定位四大類,總共涵蓋36個(gè)不同的數(shù)據(jù)集。
在圖像分類任務(wù)中,UniME需要根據(jù)圖像內(nèi)容為其選擇正確的類別標(biāo)簽。在視覺問答環(huán)節(jié),模型需要理解圖像內(nèi)容并回答相關(guān)問題。多模態(tài)檢索要求模型能夠根據(jù)文字描述找到匹配的圖像,或者根據(jù)圖像找到對(duì)應(yīng)的文字描述。視覺定位則考驗(yàn)?zāi)P湍芊裨趫D像中準(zhǔn)確定位特定物體的位置。
實(shí)驗(yàn)結(jié)果顯示,UniME在所有測(cè)試中都表現(xiàn)出色。在MMEB基準(zhǔn)測(cè)試中,使用LLaVA-1.6作為基礎(chǔ)的UniME版本比之前的最佳方法VLM2Vec提升了3.3個(gè)百分點(diǎn),這在AI領(lǐng)域是相當(dāng)顯著的改進(jìn)。更令人印象深刻的是,在短文本和長(zhǎng)文本的圖像檢索任務(wù)中,UniME分別實(shí)現(xiàn)了5.9%和10.5%的性能提升。
在處理復(fù)雜組合概念的能力測(cè)試中,UniME同樣表現(xiàn)優(yōu)異。這類測(cè)試主要考驗(yàn)?zāi)P褪欠衲芾斫?把兩只小狗換成一只小狗和一些毛絨玩具"這樣的復(fù)雜指令。結(jié)果顯示,UniME在這方面比現(xiàn)有最佳方法提升了7.9%,證明了其在理解復(fù)雜語(yǔ)義關(guān)系方面的突出能力。
研究團(tuán)隊(duì)還進(jìn)行了深入的分析研究,探討了不同訓(xùn)練策略的作用機(jī)制。他們發(fā)現(xiàn),困難負(fù)樣本確實(shí)比簡(jiǎn)單負(fù)樣本能提供更有價(jià)值的學(xué)習(xí)信號(hào)。具體來說,簡(jiǎn)單負(fù)樣本(即與目標(biāo)差異很大的樣本)很容易被模型區(qū)分,因此對(duì)提升模型能力的幫助有限。而困難負(fù)樣本(即與目標(biāo)非常相似但實(shí)際不匹配的樣本)則能迫使模型學(xué)會(huì)更精細(xì)的判別能力。
通過對(duì)比訓(xùn)練過程中的損失函數(shù)和梯度變化,研究人員觀察到,使用困難負(fù)樣本訓(xùn)練時(shí),模型的學(xué)習(xí)過程更加持久和深入。訓(xùn)練損失下降得更慢,但最終達(dá)到的判別精度更高。這就像學(xué)習(xí)鋼琴時(shí),練習(xí)簡(jiǎn)單曲子很快就能掌握,但練習(xí)復(fù)雜樂曲雖然耗時(shí)更長(zhǎng),卻能顯著提升演奏技巧。
此外,研究團(tuán)隊(duì)還通過可視化分析驗(yàn)證了模型改進(jìn)的效果。他們隨機(jī)選擇了50個(gè)圖像-文本樣本對(duì),繪制了相似度矩陣圖。結(jié)果顯示,經(jīng)過UniME訓(xùn)練的模型生成的相似度矩陣對(duì)角線更加清晰,這意味著模型能夠更準(zhǔn)確地識(shí)別正確的匹配對(duì),同時(shí)更好地區(qū)分不相關(guān)的內(nèi)容。
研究還發(fā)現(xiàn),不同訓(xùn)練階段對(duì)模型性能的貢獻(xiàn)各有側(cè)重。第一階段的文本辨別知識(shí)蒸餾主要提升了模型的基礎(chǔ)理解能力,而第二階段的困難負(fù)樣本訓(xùn)練則進(jìn)一步增強(qiáng)了模型的精細(xì)判別能力和指令跟隨能力。兩個(gè)階段相結(jié)合,使得UniME在各種不同任務(wù)上都能表現(xiàn)出色。
從技術(shù)實(shí)現(xiàn)角度來看,UniME采用了參數(shù)高效的微調(diào)策略。研究團(tuán)隊(duì)使用了QLoRA技術(shù),這種方法只需要調(diào)整模型的一小部分參數(shù),就能達(dá)到顯著的性能提升。對(duì)于4.2B參數(shù)的Phi3.5-Vision模型,整個(gè)訓(xùn)練過程僅需27小時(shí)就能完成,大大降低了訓(xùn)練成本。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。在實(shí)際應(yīng)用中,UniME可以為多種場(chǎng)景提供更好的解決方案。比如在圖像搜索方面,用戶可以使用更自然、更詳細(xì)的語(yǔ)言來描述想要查找的圖像,而不再受限于簡(jiǎn)短的關(guān)鍵詞。在電商平臺(tái)上,消費(fèi)者可以通過描述"適合春天穿的淺色連衣裙"來精確找到心儀的商品。在內(nèi)容創(chuàng)作領(lǐng)域,創(chuàng)作者可以更準(zhǔn)確地為圖片配上合適的文字說明,或者根據(jù)文字描述找到匹配的圖片素材。
對(duì)于視覺問答系統(tǒng),UniME的改進(jìn)意味著AI助手能夠更準(zhǔn)確地理解和回答關(guān)于圖像內(nèi)容的復(fù)雜問題。比如當(dāng)用戶問"這張圖片中的建筑風(fēng)格是什么"時(shí),系統(tǒng)不僅能識(shí)別出建筑物,還能理解"風(fēng)格"這個(gè)抽象概念,并給出準(zhǔn)確的回答。
在教育領(lǐng)域,這種技術(shù)可以幫助開發(fā)更智能的學(xué)習(xí)輔助工具。學(xué)生可以拍攝課本上的圖表或示意圖,然后用自然語(yǔ)言詢問相關(guān)問題,系統(tǒng)能夠準(zhǔn)確理解圖像內(nèi)容并提供詳細(xì)解釋。這對(duì)于理解復(fù)雜的科學(xué)概念或歷史事件具有重要價(jià)值。
值得注意的是,這項(xiàng)研究還在處理長(zhǎng)文本方面取得了重要突破。傳統(tǒng)的CLIP模型只能處理77個(gè)字符以內(nèi)的文本,這嚴(yán)重限制了其在實(shí)際場(chǎng)景中的應(yīng)用。而UniME可以處理更長(zhǎng)、更復(fù)雜的文本描述,這使得它在處理新聞報(bào)道、學(xué)術(shù)文章或詳細(xì)產(chǎn)品描述等場(chǎng)景時(shí)更加游刃有余。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)驗(yàn)證了模型在不同數(shù)據(jù)分布下的穩(wěn)定性。他們不僅在訓(xùn)練時(shí)使用的數(shù)據(jù)集上測(cè)試了模型性能,還在完全未見過的數(shù)據(jù)集上進(jìn)行了驗(yàn)證。結(jié)果顯示,UniME具有良好的泛化能力,即使面對(duì)新的、未曾訓(xùn)練過的數(shù)據(jù)類型,也能保持較高的準(zhǔn)確率。
在計(jì)算資源消耗方面,雖然UniME的訓(xùn)練需要使用高性能GPU,但其推理過程相對(duì)高效。一旦訓(xùn)練完成,模型可以在相對(duì)普通的硬件設(shè)備上運(yùn)行,這為其實(shí)際應(yīng)用提供了便利。研究團(tuán)隊(duì)還提供了不同規(guī)模的模型版本,用戶可以根據(jù)自己的硬件條件和性能需求選擇合適的版本。
展望未來,這項(xiàng)研究為多模態(tài)AI的發(fā)展開辟了新的方向。隨著訓(xùn)練數(shù)據(jù)的不斷增加和訓(xùn)練方法的進(jìn)一步優(yōu)化,我們有理由相信,未來的AI系統(tǒng)將能夠更自然、更準(zhǔn)確地理解和處理多媒體信息。這不僅會(huì)改變我們與AI系統(tǒng)的交互方式,也會(huì)為各行各業(yè)帶來新的可能性和機(jī)遇。
說到底,UniME代表了人工智能在理解多媒體內(nèi)容方面的一個(gè)重要進(jìn)步。它不僅解決了現(xiàn)有技術(shù)的局限性,還為未來的研究指明了方向。雖然目前這項(xiàng)技術(shù)還主要停留在研究階段,但隨著進(jìn)一步的發(fā)展和優(yōu)化,我們很快就能在日常生活中體驗(yàn)到這種更智能、更精準(zhǔn)的多媒體AI服務(wù)。對(duì)于普通用戶來說,這意味著未來的圖像搜索會(huì)更加精準(zhǔn),AI助手會(huì)更加聰明,而各種基于視覺理解的應(yīng)用也會(huì)變得更加實(shí)用和便捷。
Q&A
Q1:UniME是什么?它主要解決什么問題? A:UniME是一個(gè)通用多模態(tài)嵌入框架,主要解決現(xiàn)有AI模型在理解圖片和文字組合時(shí)的三大問題:文字長(zhǎng)度限制、圖文分離處理、以及語(yǔ)言理解過于簡(jiǎn)單。它能讓AI更準(zhǔn)確地理解圖片和文字之間的關(guān)聯(lián)。
Q2:UniME的訓(xùn)練方法有什么特別之處? A:UniME采用兩階段訓(xùn)練:第一階段讓模型向優(yōu)秀的文本理解模型學(xué)習(xí),第二階段專門用困難的負(fù)樣本進(jìn)行訓(xùn)練。這就像讓學(xué)生先跟好老師學(xué)基礎(chǔ),再專門練習(xí)最難的題目,大大提升了辨別能力。
Q3:普通人什么時(shí)候能用上這種技術(shù)? A:目前UniME還處于研究階段,但技術(shù)已經(jīng)相當(dāng)成熟。預(yù)計(jì)在不久的將來,這種技術(shù)會(huì)被集成到圖像搜索、智能助手、電商推薦等日常應(yīng)用中,讓我們的搜索和交互體驗(yàn)變得更加精準(zhǔn)便捷。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。