2025年5月25日,由上海交通大學EPIC實驗室劉旭陽、溫子辰、王少博等研究人員共同完成的一篇極具前瞻性的研究論文《從模型中心轉向數(shù)據(jù)中心的AI效率壓縮》發(fā)表于arXiv預印本平臺(arXiv:2505.19147v1)。這篇論文提出了一個重要觀點:人工智能研究的效率優(yōu)化重點正在從模型壓縮轉向數(shù)據(jù)壓縮,特別是Token壓縮技術,這對未來人工智能的發(fā)展路徑具有深遠影響。
一、AI效率研究正在經(jīng)歷重大轉變
想象一下,如果你每天都要背著一個巨大的背包出門,隨著你往里面塞入越來越多的物品,背包變得越來越重。一開始,你的策略可能是找一個更耐用的背包(模型優(yōu)化),或者壓縮里面的物品使它們占用更少空間(模型壓縮)。但當背包已經(jīng)做到極限大小,而你還需要攜帶更多物品時,你會怎么做?這正是當前AI領域面臨的困境。
過去幾年,大語言模型(LLMs)和多模態(tài)大語言模型(MLLMs)取得了驚人的進步。從最初只有1.17億參數(shù)的BERT模型,發(fā)展到如今擁有上千億參數(shù)的Llama 4、DeepSeek-R1和Qwen-3等模型,這種增長帶來了顯著的性能提升,但也導致了巨大的計算成本。為了應對這種挑戰(zhàn),研究人員開發(fā)了各種模型壓縮技術,如模型量化、網(wǎng)絡剪枝、知識蒸餾和低秩分解等,這些方法通過減少模型參數(shù)來降低計算開銷。
然而,隨著2024年的到來,情況發(fā)生了根本性變化。上海交通大學的研究團隊通過詳細分析發(fā)現(xiàn),當前AI模型的計算瓶頸已經(jīng)從模型大小轉變?yōu)樘幚黹L序列Token的開銷??纯催@些數(shù)據(jù):從2022年到2024年,模型參數(shù)增長已經(jīng)開始放緩,達到約1000B參數(shù)后基本穩(wěn)定;而同期,模型處理的上下文長度卻呈指數(shù)級增長。比如,最新的語言模型已經(jīng)能處理比其前代長數(shù)量級的上下文,從最初的2048個Token增長到驚人的1000萬個Token。此外,視覺模型需要處理越來越高分辨率的圖像和更長的視頻,生成模型則需要創(chuàng)建更高質(zhì)量的圖像和長達數(shù)小時的視頻。
研究團隊指出,這種轉變帶來的最直接影響是:現(xiàn)在AI模型的主要計算瓶頸來自自注意力機制在處理長Token序列時的二次方計算復雜度。簡單來說,如果一個序列的長度翻倍,計算需求將增加四倍!這就好比你的背包已經(jīng)做到了極限大小,但你需要攜帶的物品卻在不斷增加。此時,模型壓縮(讓背包更輕)已不再是最優(yōu)解,你需要重新思考如何選擇真正需要的物品(數(shù)據(jù)壓縮)。
基于這一觀察,研究團隊提出了一個關鍵論點:AI社區(qū)應當將效率優(yōu)化的重點從模型中心壓縮轉向數(shù)據(jù)中心壓縮,特別是Token壓縮。這種方法直接減少模型輸入中的冗余Token,而無需修改模型架構或重新訓練,為高效的下一代大語言模型和多模態(tài)大語言模型提供了一條可行路徑。
二、理解Token壓縮:為什么它是AI效率的新前沿?
什么是Token壓縮?想象你要閱讀一本厚重的小說,但時間有限。你可能會跳過一些冗長的描述段落,或者瀏覽一些不那么重要的對話,只關注推動故事發(fā)展的關鍵情節(jié)。這基本上就是Token壓縮的工作原理——識別并刪除或合并那些對最終理解和處理不那么重要的Token(詞元),從而減輕模型的計算負擔。
上海交通大學的研究團隊深入分析了Token壓縮的工作原理,并將其概括為兩個關鍵階段:首先是確定哪些Token可以被壓縮(通過壓縮標準),然后決定如何處理這些Token(通過壓縮策略)。
對于壓縮標準(即如何識別可壓縮的Token),研究人員將現(xiàn)有方法分為兩大類:
參數(shù)型方法引入額外的網(wǎng)絡來評分Token的重要性。這些方法可以是"訓練感知型"(通過訓練優(yōu)化評分函數(shù))或"訓練無關型"(直接使用預訓練網(wǎng)絡作為評分函數(shù))。就像你請一個專業(yè)的編輯來幫你挑選小說中最重要的段落一樣。
非參數(shù)型方法則使用無參數(shù)的啟發(fā)式方法進行Token評分,無需引入額外參數(shù)。這些方法可以利用模型的內(nèi)部計算(如注意力權重)或外部計算(如設計額外的度量來評估Token關系)。這更像是你自己制定了一套規(guī)則來判斷小說中哪些內(nèi)容值得仔細閱讀。
在壓縮策略方面,研究人員將現(xiàn)有方法歸納為兩種主要方法:
Token剪枝直接丟棄重要性較低的Token。就像你決定完全跳過小說中的某些段落不讀。這種方法可以顯著減少計算量,但可能會損失一些信息,特別是對于需要細粒度理解的任務。
Token合并則保留信息,通過組合語義相似的Token來減少總數(shù)。這就像你不是完全跳過某些段落,而是將它們概括成更簡潔的形式。這種方法通過Token的加權組合保留信息,提供比直接刪除更細致的處理方式。
研究團隊還全面分析了Token壓縮在訓練和推理階段的益處。在訓練階段,Token壓縮可以通過數(shù)據(jù)增強和Token選擇來提高訓練質(zhì)量,同時通過減少處理的Token數(shù)量來提高訓練效率。對于Transformer架構,將序列長度從n減少到m(m < n)后,計算復雜度可從O(n?d)降低到O(m?d),內(nèi)存使用則從nd降低到md,這意味著計算需求減少了(m/n)?倍,內(nèi)存需求減少了m/n倍。
在推理階段,Token壓縮同樣可以降低計算復雜度和減少內(nèi)存使用,特別是對大語言模型的KV緩存優(yōu)化。對于長度n壓縮到m的序列,KV緩存內(nèi)存減少比例為m/n,這對實時交互系統(tǒng)(如UI代理、自動駕駛和實體AI)尤為重要,因為這些系統(tǒng)需要在資源有限的條件下高效處理連續(xù)輸入。
三、Token壓縮的壓倒性優(yōu)勢
研究團隊通過深入分析,總結出Token壓縮相比傳統(tǒng)模型壓縮方法具有五個引人注目的優(yōu)勢:
首先是普遍適用性。Token的冗余在各種模態(tài)和任務中普遍存在,這使得Token壓縮可以應用于幾乎所有設置。無論是處理文本、圖像還是視頻,冗余的Token都可以被識別和壓縮,就像不同類型的書籍都可以被摘要或簡化一樣。
第二是雙階段效率。Token壓縮能夠同時加速模型訓練和推理階段,且對準確性的影響極小。這就像一種學習方法,不僅讓你學習新知識更快,還能讓你在實際應用知識時更高效。
第三是架構兼容性。Token壓縮與現(xiàn)有的模型壓縮和壓縮方法正交,可以無縫集成。它還對硬件和計算系統(tǒng)友好。這就像一種通用的優(yōu)化工具,可以與其他專用工具協(xié)同工作,而不會產(chǎn)生沖突。
第四是低實現(xiàn)成本?,F(xiàn)代神經(jīng)網(wǎng)絡(如Transformer)能夠處理不同長度的Token,因此可以在不引入任何訓練成本和數(shù)據(jù)利用成本的情況下實現(xiàn)Token壓縮。就像一個靈活的閱讀策略,可以應用于任何書籍,而無需特殊準備。
最后,也是最重要的,是二次方收益。廣泛使用的自注意力機制的O(n?)計算復雜度意味著Token壓縮可以在計算方面帶來顯著收益。例如,將Token數(shù)量減少一半可以將計算需求減少四倍,這種加速效果隨著序列長度的增加而變得更加明顯。
隨著AI發(fā)展進入上下文長度成為主要瓶頸的新階段,研究團隊強烈建議AI效率研究的重點應轉向通過Token壓縮實現(xiàn)的數(shù)據(jù)中心壓縮,從而打造更高效、更可擴展的AI系統(tǒng)。
四、當前挑戰(zhàn)與未來方向
盡管Token壓縮前景廣闊,研究團隊也坦率指出了當前面臨的幾個主要挑戰(zhàn):
性能退化是一個顯著問題,包括方法上的瓶頸和Token壓縮的內(nèi)在限制。研究表明,許多基于注意力的Token壓縮方法存在位置偏見問題。例如,在使用文本-視覺分數(shù)保留視覺Token時,序列末尾附近的Token往往獲得更高的權重,這在2D圖像空間中導致對下半部分或右下角的偏好。這顯然是不合理的,因為我們不能假設所有圖像的下半部分都更重要。此外,Token壓縮在某些特定任務上表現(xiàn)欠佳,如多模態(tài)大語言模型中的視覺定位任務,以及OCR相關的密集布局文檔解析。在語音識別和翻譯任務中,音頻Token的密集和時間連續(xù)性也使得壓縮變得困難。
次優(yōu)Token表示是另一個挑戰(zhàn)。大多數(shù)現(xiàn)有Token壓縮方法分為兩類:基于冗余的方法(最大化原始和壓縮Token之間的信息保存)和基于重要性的方法(確保預測性能足夠)。然而,這些方法都有一個關鍵限制:它們都不能保證壓縮后的Token形成對下游建模最優(yōu)的表示?;谌哂嗟姆椒ūM管保留了與原始序列的最大互信息,但往往保留具有重建價值而非判別價值的Token?;谥匾缘姆椒m然注重維持對目標變量的預測性能,但可能引入任務特定偏見,忽視維持Token序列中穩(wěn)定的結構和語義模式,這些模式對于跨多種下游任務的泛化很重要。
公平比較也是研究面臨的一個重要挑戰(zhàn)。許多Token壓縮方法通過估計FLOP減少或直接使用Token壓縮比來報告加速效果,但這些指標并不總是能真實反映實際運行時的加速情況。研究發(fā)現(xiàn),即使壓縮比或FLOP相似,方法之間的運行時延遲也可能有顯著差異。此外,當前用于評估Token壓縮的通用基準可能無法捕捉Token壓縮引入的特殊挑戰(zhàn),導致一些基準(如ScienceQA和VizWiz)在某些壓縮設置下反而顯示性能提升,或者在不同壓縮比下性能變化很小,這些觀察違背直覺,表明現(xiàn)有基準可能未能有效反映Token壓縮帶來的權衡。
面對這些挑戰(zhàn),研究團隊提出了幾個有前景的未來研究方向:
首先是數(shù)據(jù)-模型中心壓縮協(xié)同開發(fā)。隨著AI系統(tǒng)在模型復雜性和上下文長度方面的持續(xù)擴展,一個有前景的研究方向是數(shù)據(jù)中心和模型中心壓縮策略的共同開發(fā)。這些方法可以采用分階段方法(先應用模型中心壓縮,再應用數(shù)據(jù)中心方法),或者尋求相互強化。例如,分析Token表示的層間演化可能揭示某些層貢獻最小的變化,這可以指導模型中心壓縮中的層移除或更激進的量化。反過來,與關鍵神經(jīng)元相關的梯度信息或注意力分數(shù)也可以指導數(shù)據(jù)中心壓縮中的Token選擇,幫助保留最具信息性的Token。
其次是專用Token壓縮基準的開發(fā)。鑒于當前使用通用基準評估數(shù)據(jù)中心Token壓縮方法的局限性,研究團隊設想開發(fā)一個專門設計的基準來評估這些方法。這樣的基準應該全面涵蓋多樣化領域(包括自然語言處理、計算機視覺和多模態(tài)任務),并納入與Token壓縮特別相關的任務特定挑戰(zhàn),如光學字符識別(OCR)解析和自動語音識別(ASR)。此外,該基準應同時考慮任務性能和延遲,這兩者對于實際部署都至關重要。一個設計完善的基準將使Token壓縮技術的評估更加嚴格、公平和全面,最終推動該領域的進步。
五、結論與展望
上海交通大學EPIC實驗室的研究團隊通過這篇論文,為我們呈現(xiàn)了人工智能效率研究的重要轉變。隨著大語言模型和多模態(tài)大語言模型的進步,計算瓶頸已經(jīng)從參數(shù)數(shù)量轉移到上下文長度,而Token壓縮作為一種數(shù)據(jù)中心壓縮策略,提供了應對這一挑戰(zhàn)的有效途徑。
研究團隊首先通過分析長上下文AI在各個領域的發(fā)展,揭示了從參數(shù)中心到上下文中心的計算瓶頸轉變,強調(diào)了需要Token壓縮來減輕長上下文處理開銷的必要性。他們建立了一個統(tǒng)一的數(shù)學框架,整合了不同的模型效率視角,從理論分析的角度將架構設計、模型中心壓縮和數(shù)據(jù)中心壓縮方法聯(lián)系起來。團隊還系統(tǒng)地回顧了Token壓縮方法的研究現(xiàn)狀,構建了一個統(tǒng)一框架來分類多樣化的方法,同時分析它們在不同場景和任務中的優(yōu)勢和權衡。最后,他們深入分析了當前Token壓縮研究面臨的挑戰(zhàn),并提出了未來研究的有希望方向。
這項研究的意義不僅在于提出了一個新的視角,還在于它為AI效率研究指明了一條新的發(fā)展路徑。隨著我們進入上下文長度成為主要瓶頸的新階段,研究團隊呼吁AI社區(qū)將效率優(yōu)化的焦點轉向數(shù)據(jù)中心壓縮,特別是通過Token壓縮,以實現(xiàn)更高效、更可擴展的AI系統(tǒng)。
對于未來的研究者和實踐者,這項工作提供了寶貴的見解和指導。隨著AI技術的不斷發(fā)展,Token壓縮可能會成為標準實踐,與模型壓縮和高效架構設計相結合,共同推動AI在有限計算資源下實現(xiàn)更強大的能力。這不僅有助于降低AI系統(tǒng)的計算成本和能源消耗,還能使AI技術在更廣泛的應用場景中得到部署,包括資源受限的環(huán)境和實時應用。
正如研究團隊所展示的,AI效率的未來不僅在于構建更高效的模型,還在于更智能地處理數(shù)據(jù)。通過Token壓縮,我們可以"少即是多"——用更少的Token實現(xiàn)更高的效率,同時保持或甚至提高性能。這一轉變標志著AI研究進入了一個新階段,將為下一代AI系統(tǒng)的發(fā)展鋪平道路。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。