這項由亞利桑那州立大學的董思訓、復旦大學的胡聚華、德克薩斯大學達拉斯分校的張冕、杜克大學的殷銘以及華盛頓大學的傅彥杰等研究人員共同完成的研究,發(fā)表于2025年8月的arXiv預印本平臺(論文編號:arXiv:2508.18264)。對這項研究感興趣的讀者可以通過該編號在arXiv.org上訪問完整論文。
想象你正在和朋友視頻聊天,朋友給你發(fā)了一張照片,然后問你"這張圖片里有什么?"你的大腦會迅速掃描整張圖片,識別出重要的物體、人物和場景,然后用語言描述出來。這個過程看似簡單,但當我們試圖讓計算機做同樣的事情時,問題就變得復雜了。
目前最先進的AI系統(tǒng),比如ChatGPT的視覺版本,能夠看圖說話,回答關(guān)于圖片內(nèi)容的問題。這些被稱為"視覺語言模型"的AI系統(tǒng)工作起來就像一個極其細致的觀察者:它們會把一張圖片切割成成千上萬個小方塊,每個小方塊都被轉(zhuǎn)換成一串數(shù)字(稱為"視覺令牌"),然后AI會逐一分析這些數(shù)字來理解圖片內(nèi)容。
但是這里有個問題:這些AI系統(tǒng)實在太"啰嗦"了。拿一張普通的手機照片來說,AI可能需要處理2880個視覺令牌,而你問的問題"描述這張圖片"可能只有不到10個文字令牌。就好比你讓一個人描述一道菜,結(jié)果他要把這道菜拆解成幾千個分子來分析,效率自然低得可怕。
更要命的是,這些AI系統(tǒng)的"注意力機制"(決定重點關(guān)注什么的系統(tǒng))需要處理所有令牌之間的關(guān)系,計算量隨著令牌數(shù)量呈幾何級數(shù)增長。這就像一個會議室里有1000個人,每個人都要和其他999個人一一交流,你可以想象這會有多混亂和低效。
研究團隊意識到,現(xiàn)有的解決方案存在一個根本缺陷:它們要么只關(guān)注圖片信息(視覺模態(tài)),要么只關(guān)注文字信息(文本模態(tài)),就像一個只用一只眼睛看世界的人。但真正的多模態(tài)任務需要同時考慮圖片和文字的信息。比如同一張貓的照片,如果問題是"這是什么動物?"和"貓站在什么顏色的地毯上?",需要關(guān)注的視覺區(qū)域就完全不同。
基于這個洞察,研究團隊開發(fā)了一種名為MMTok的新方法,這個名字來源于"多模態(tài)令牌"(Multimodal Token)的縮寫。MMTok的核心思想可以用"智能裁縫"來比喻:就像一個好裁縫會根據(jù)客戶的身材和需求來設計衣服,MMTok會根據(jù)具體的問題和圖片內(nèi)容來選擇最重要的視覺信息。
一、覆蓋度最大化:從"大海撈針"到"精準定位"
MMTok方法的核心理念基于一個叫"覆蓋度最大化"的數(shù)學概念。用通俗的話來說,就是用最少的資源覆蓋最多的重要信息。這就像你要用有限的探照燈來照亮一個黑暗的倉庫,你會選擇那些能照亮最多重要物品的位置放置探照燈。
在傳統(tǒng)方法中,AI就像一個不知道重點的學生,面對一本教科書時試圖記住每一個字,包括頁碼和標點符號。而MMTok更像一個聰明的學生,知道根據(jù)考試重點來劃重點,把注意力集中在最關(guān)鍵的內(nèi)容上。
具體來說,MMTok將這個選擇過程表述為一個數(shù)學優(yōu)化問題。系統(tǒng)會計算每個視覺令牌與目標令牌(包括文本問題和其他重要視覺信息)之間的相似度,然后通過一種叫"貪心算法"的方法來選擇最優(yōu)的令牌組合。這種算法雖然不能保證找到絕對最優(yōu)解,但能保證找到的解至少是最優(yōu)解的63%以上,這在實際應用中已經(jīng)非常高效了。
二、雙重覆蓋策略:文字引導與視覺完整性并重
MMTok的獨特之處在于它采用了兩種互補的覆蓋策略,就像一個優(yōu)秀的攝影師既要考慮客戶的要求,也要保證照片的整體美感。
第一種策略是"文本-視覺覆蓋"。當你問AI"這張圖片里的貓在做什么?"時,系統(tǒng)會優(yōu)先選擇那些與"貓"和"動作"相關(guān)的視覺區(qū)域。這就像在一張全家福中,如果有人問"小明在哪里?",你的眼睛會自動鎖定到小明的位置,而不是平均分配注意力到每個人身上。
第二種策略是"視覺-視覺覆蓋"。這種策略確保即使在沒有明確文字指引的情況下,AI也能保留圖片中最重要的視覺信息。比如面對一個模糊的問題"描述這張圖片",系統(tǒng)仍然能識別出圖片中的主要物體、顏色和空間關(guān)系。這就像一個優(yōu)秀的導游,即使游客沒有提出具體問題,也知道重點介紹景點的核心特色。
為了平衡這兩種策略,研究團隊設計了一個巧妙的融合機制。他們使用軟最大化函數(shù)(softmax)來標準化不同模態(tài)之間的相似度分數(shù),就像把不同單位的測量結(jié)果(米、英寸、厘米)轉(zhuǎn)換成統(tǒng)一的標準。然后通過一個權(quán)重參數(shù)α來控制兩種策略的重要性比例。
這種雙重策略的好處在實驗中得到了明確驗證。單獨使用文本-視覺覆蓋的準確率為93.7%,單獨使用視覺-視覺覆蓋為94.7%,而兩者結(jié)合后達到了96.6%,證明了兩種策略確實具有互補性。
三、智能代理增強:讓AI"未卜先知"
MMTok還包含一個可選但非常巧妙的功能:使用一個輕量級的AI代理來增強文本信息。這個代理就像一個經(jīng)驗豐富的助手,能夠預先分析問題和圖片,然后提供更豐富的上下文信息。
舉個例子,當用戶簡單地問"描述這張圖片"時,這個問題本身包含的信息很少。但智能代理會先快速掃描圖片,生成一個初步的描述,比如"一只橘色的貓坐在藍色的沙發(fā)上"。然后系統(tǒng)會結(jié)合原始問題和這個初步描述來選擇視覺令牌,就像有了一個更詳細的"購物清單"。
這個代理使用的是一個小型的視覺語言模型(SmolVLM2-256M),它的體積只有主模型的一小部分,但足以提供有用的補充信息。更重要的是,這個代理可以在主系統(tǒng)處理之前并行運行,所以不會顯著增加總的處理時間。
實驗結(jié)果顯示,在某些任務上,使用代理增強的MMTokAgent版本比基礎(chǔ)版本有進一步的性能提升。例如在VQA任務上提升了0.1-0.2%,在MME任務上提升更為明顯。不過研究團隊也發(fā)現(xiàn),代理的幫助程度取決于任務類型。對于多選題這樣的結(jié)構(gòu)化任務,代理的簡短回答(如"A")可能不夠有信息量。
四、算法實現(xiàn):優(yōu)雅的數(shù)學與高效的工程
MMTok的算法實現(xiàn)體現(xiàn)了理論優(yōu)雅性與工程實用性的完美結(jié)合。整個算法的核心是一個簡單而高效的貪心搜索過程,就像在一個巨大的拼圖中,每次都選擇最匹配的那一片。
算法的工作流程可以比作一個精明的購物者在超市選購。首先,系統(tǒng)會計算每個候選視覺令牌的"性價比"——它能為整體目標貢獻多少價值。然后從所有候選中選擇貢獻最大的那一個,將其加入已選集合。接著重新計算剩余候選的貢獻度(因為已經(jīng)選擇了一個,其他候選的相對價值會發(fā)生變化),再選擇下一個最優(yōu)的。這個過程重復進行,直到達到預設的令牌數(shù)量預算。
這種貪心策略的數(shù)學基礎(chǔ)是子模函數(shù)的性質(zhì)。子模函數(shù)具有"遞減邊際效用"的特點,就像吃披薩一樣——第一片最香,第二片稍差,第三片更差。這個性質(zhì)保證了貪心算法能夠找到質(zhì)量很高的近似解。
在實際實現(xiàn)中,研究團隊還考慮了許多工程細節(jié)。比如他們發(fā)現(xiàn)不同層的視覺特征適合不同的任務:投影層前的特征更適合計算視覺-視覺相似度(因為保持了原始視覺信息的完整性),而投影層后的特征更適合文本-視覺相似度計算(因為已經(jīng)對齊到文本空間)。
五、實驗驗證:從理論到實踐的全面檢驗
研究團隊在9個不同的基準數(shù)據(jù)集上進行了全面的實驗驗證,這些數(shù)據(jù)集涵蓋了視覺語言理解的各個方面,從簡單的物體識別到復雜的推理任務。實驗使用了5種不同的主流視覺語言模型,包括LLaVA-1.5、LLaVA-NeXT和Qwen-2.5-VL等,確保了結(jié)果的普適性。
在LLaVA-1.5-7B上的結(jié)果最為令人印象深刻。當令牌數(shù)量從576減少到只有64個(減少89%)時,MMTok仍然保持了96.5%的原始性能。這相當于一個原本需要看1000張照片的人,現(xiàn)在只看100張就能做出同樣準確的判斷。
更極端的測試中,研究團隊將令牌數(shù)量壓縮到只有4個。這就像讓一個人只通過4個關(guān)鍵詞來描述整個電影情節(jié)。即使在如此嚴苛的條件下,MMTok仍然保持了87.7%的原始性能,遠超其他方法。
在效率測試中,MMTok在POPE數(shù)據(jù)集上實現(xiàn)了1.87倍的速度提升,同時保持98.7%的原始性能。這種提升體現(xiàn)在多個方面:GPU利用率從86.7%降低到58.0%,內(nèi)存使用減少了一半以上,推理時間縮短了近50%。
特別值得注意的是,MMTok在不同架構(gòu)的模型上都表現(xiàn)出了穩(wěn)定的優(yōu)勢。無論是固定令牌數(shù)量的模型(如LLaVA-1.5)還是動態(tài)令牌數(shù)量的模型(如LLaVA-NeXT),MMTok都能顯著超越現(xiàn)有的基準方法。
六、深度分析:為什么多模態(tài)方法更有效
為了深入理解MMTok的優(yōu)勢來源,研究團隊進行了詳細的對比分析。他們將各種方法按照使用的信息類型分為幾類:純視覺方法(如VisionZip)、純文本方法(如SparseVLM)、多樣性方法(如DivPrune)和多模態(tài)方法(MMTok)。
結(jié)果顯示,多模態(tài)方法的優(yōu)勢隨著任務難度增加而更加明顯。在相對簡單的任務中,不同方法的差距較小,但在復雜任務中,MMTok的優(yōu)勢顯著放大。這說明多模態(tài)信息融合在處理復雜視覺語言理解任務時具有獨特價值。
研究團隊還引入了"圖像貢獻度"(IC)的概念來量化不同任務對視覺信息的依賴程度。他們發(fā)現(xiàn),在高IC任務(即高度依賴視覺信息的任務)上,MMTok的優(yōu)勢最為突出。這驗證了方法設計的合理性:當任務真正需要理解視覺內(nèi)容時,多模態(tài)方法能夠更準確地選擇相關(guān)信息。
七、技術(shù)創(chuàng)新:從工程優(yōu)化到理論突破
MMTok的技術(shù)貢獻不僅僅是工程實現(xiàn)的優(yōu)化,更代表了對多模態(tài)學習本質(zhì)的深入理解。傳統(tǒng)方法往往將多模態(tài)問題簡化為單模態(tài)子問題的組合,而MMTok真正實現(xiàn)了跨模態(tài)信息的協(xié)同優(yōu)化。
在數(shù)學層面,MMTok將令牌選擇問題優(yōu)雅地轉(zhuǎn)化為了最大覆蓋問題,這是一個有著深厚理論基礎(chǔ)的經(jīng)典優(yōu)化問題。通過這種轉(zhuǎn)化,復雜的啟發(fā)式選擇策略被替換為有理論保證的近似算法,大大提高了方法的可靠性和可預測性。
在算法層面,MMTok設計了創(chuàng)新的多目標優(yōu)化框架,能夠同時考慮文本引導和視覺完整性兩個看似矛盾的目標。這種設計思路為未來的多模態(tài)優(yōu)化問題提供了有價值的參考。
在系統(tǒng)層面,MMTok展示了如何在保持高性能的同時顯著提升效率。這種效率提升不是通過犧牲質(zhì)量換取速度,而是通過更智能的信息選擇策略實現(xiàn)的雙贏。
八、實際應用:從實驗室到現(xiàn)實世界
MMTok的價值不僅體現(xiàn)在學術(shù)指標的提升上,更在于其廣泛的實際應用潛力。在移動設備上,內(nèi)存和計算資源都非常有限,MMTok能讓高質(zhì)量的視覺語言AI在手機上流暢運行。在云服務中,MMTok能顯著降低服務器成本,讓AI服務提供商能夠以更低的價格服務更多用戶。
在教育場景中,MMTok可以為在線學習平臺提供更高效的圖片理解功能,幫助學生快速獲得學習材料中圖像的詳細解釋。在醫(yī)療領(lǐng)域,MMTok可以幫助醫(yī)生更快速地分析醫(yī)學影像,同時保持高精度。在自動駕駛領(lǐng)域,MMTok的高效性能讓實時場景理解成為可能。
更重要的是,MMTok的訓練無關(guān)特性使其能夠即插即用地集成到現(xiàn)有系統(tǒng)中,無需重新訓練模型或調(diào)整系統(tǒng)架構(gòu)。這大大降低了技術(shù)采用的門檻和成本。
研究團隊的實驗涵蓋了從學術(shù)評測到實際部署的完整驗證鏈條。在真實的GPU服務器上,MMTok不僅理論上節(jié)省了計算資源,實際運行時間也確實得到了顯著縮短。在H100 GPU上,處理相同數(shù)量的任務,MMTok比傳統(tǒng)方法快了近50%,這種提升在商業(yè)部署中具有直接的經(jīng)濟價值。
九、技術(shù)局限與未來方向
盡管MMTok取得了顯著成功,研究團隊也坦誠地討論了方法的局限性和改進空間。目前MMTok主要關(guān)注輸入階段的令牌優(yōu)化,但在推理過程中,語言模型內(nèi)部仍然會生成大量中間令牌。未來的研究方向之一是將覆蓋度優(yōu)化擴展到推理過程中,實現(xiàn)端到端的效率提升。
另一個重要方向是自適應令牌分配。目前MMTok使用固定的令牌預算,但不同難度的任務可能需要不同數(shù)量的視覺信息。智能的預算分配機制能夠進一步提升整體效率。
研究團隊還指出,當前的相似度計算主要基于特征空間的幾何距離,但這可能無法完全捕捉語義相關(guān)性。融入更多語義信息的相似度度量是另一個有前景的研究方向。
在多模態(tài)融合方面,當前的簡單線性組合可能不是最優(yōu)選擇。更復雜的融合機制,比如注意力機制驅(qū)動的動態(tài)權(quán)重分配,可能會帶來進一步的性能提升。
十、對AI發(fā)展的更廣泛意義
MMTok的成功反映了AI發(fā)展中的一個重要趨勢:從追求模型規(guī)模的擴大轉(zhuǎn)向追求資源使用的優(yōu)化。在大模型時代,如何讓AI系統(tǒng)在保持強大能力的同時變得更加高效,是整個領(lǐng)域都在思考的核心問題。
這項研究還展示了跨學科思維在AI研究中的價值。通過將計算機視覺問題轉(zhuǎn)化為經(jīng)典的組合優(yōu)化問題,研究團隊巧妙地利用了運籌學中的成熟理論,為AI問題找到了新的解決路徑。
從方法論角度看,MMTok體現(xiàn)了"少即是多"的設計哲學。通過智能地選擇最重要的信息,而不是盲目地處理所有可能的信息,系統(tǒng)能夠在效率和效果之間找到更好的平衡點。這種思路對其他AI系統(tǒng)的設計也有借鑒意義。
MMTok的開源特性也值得稱贊。研究團隊不僅發(fā)布了完整的代碼和實驗數(shù)據(jù),還提供了詳細的使用指南,讓其他研究者和開發(fā)者能夠輕松復現(xiàn)和改進這項工作。這種開放的研究態(tài)度有助于整個領(lǐng)域的快速發(fā)展。
歸根結(jié)底,MMTok代表了AI效率優(yōu)化領(lǐng)域的一個重要里程碑。它不僅解決了視覺語言模型的實際問題,更為未來的多模態(tài)AI系統(tǒng)設計提供了寶貴的思路和方法。隨著AI應用的不斷普及,這類效率優(yōu)化技術(shù)將變得越來越重要。相信在不久的將來,我們會在各種實際應用中看到MMTok技術(shù)的身影,讓AI系統(tǒng)變得更加智能、高效和易用。
Q&A
Q1:MMTok是什么技術(shù)?它主要解決什么問題?
A:MMTok是由亞利桑那州立大學等機構(gòu)開發(fā)的視覺語言模型加速技術(shù)。它主要解決AI看圖說話時處理信息過多、運行太慢的問題。就像讓AI從處理幾千個圖片細節(jié)變成只關(guān)注幾十個關(guān)鍵信息,速度提升近2倍但準確度幾乎不變。
Q2:MMTok與現(xiàn)有的AI優(yōu)化方法有什么不同?
A:現(xiàn)有方法要么只看圖片信息,要么只看文字信息,就像用一只眼睛看世界。MMTok的創(chuàng)新在于同時考慮圖片和文字信息來選擇重點,就像用雙眼看世界更準確。它還用數(shù)學優(yōu)化理論保證選擇質(zhì)量,而不是簡單的經(jīng)驗規(guī)則。
Q3:普通用戶能用上MMTok技術(shù)嗎?什么時候能普及?
A:MMTok是底層技術(shù),普通用戶不能直接使用,但會通過AI產(chǎn)品間接受益。由于它是訓練無關(guān)的技術(shù),現(xiàn)有的AI系統(tǒng)可以直接集成,無需重新開發(fā)。預計在手機AI助手、在線教育、醫(yī)療影像等領(lǐng)域會較快看到應用。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。