這項由麻省大學(xué)阿默斯特分校的李俊彥領(lǐng)導(dǎo),聯(lián)合MIT、普林斯頓大學(xué)和蘋果公司研究團(tuán)隊共同完成的研究發(fā)表于2025年6月,并將在加拿大溫哥華舉行的第42屆國際機(jī)器學(xué)習(xí)大會(ICML 2025)上正式亮相。有興趣深入了解的讀者可以通過項目開源代碼(https://github.com/UMass-Embodied-AGI/CommVQ)獲取完整的技術(shù)實現(xiàn)。
當(dāng)下最熱門的AI聊天機(jī)器人正變得越來越聰明,它們能夠理解更長的對話、處理更復(fù)雜的文檔,甚至分析整本小說。然而,這種強(qiáng)大能力的背后隱藏著一個巨大的技術(shù)難題——就像一個人的記憶越來越好,但大腦卻需要越來越多的存儲空間。目前最新的LLaMA 3.1模型能夠處理長達(dá)128,000個詞匯的超長文本,相當(dāng)于一本中等篇幅小說的內(nèi)容,但要讓這樣的AI模型運(yùn)行起來,需要消耗的電腦內(nèi)存多得驚人。
具體來說,一個普通的LLaMA 3.1 8B模型本身就需要16GB內(nèi)存來存儲,但如果要讓它處理最長的128K文本內(nèi)容,僅僅是存儲處理過程中的"記憶緩存"就需要額外的88GB內(nèi)存。這就好比你有一臺功能強(qiáng)大的超級計算器,但每次使用時都需要準(zhǔn)備一個巨大的草稿本來記錄中間步驟,而這個草稿本竟然比計算器本身還要大好幾倍。這種情況讓即使是目前最頂級的H100-80GB專業(yè)顯卡都無法獨立運(yùn)行這樣的AI模型。
正是在這樣的背景下,麻省大學(xué)阿默斯特分校的研究團(tuán)隊提出了一種名為"交換向量量化"(CommVQ)的革命性技術(shù)。這項技術(shù)的核心思想就像是發(fā)明了一種超級壓縮術(shù),能夠?qū)I模型的"記憶緩存"壓縮到原來的八分之一大小,同時幾乎不損失任何性能。
研究團(tuán)隊的創(chuàng)新之處在于,他們沒有像以往那樣對每個數(shù)據(jù)點單獨進(jìn)行壓縮,而是將相關(guān)的數(shù)據(jù)打包成組進(jìn)行整體壓縮。這就像整理行李箱時,不是把每件衣服單獨裝袋,而是把整套服裝疊放在一起,這樣既節(jié)省空間又保持了衣服之間的關(guān)系。更巧妙的是,他們還設(shè)計了一種特殊的"解壓縮"方法,讓壓縮后的數(shù)據(jù)能夠直接參與AI模型的計算過程,而不需要先完全解壓,這大大提高了處理效率。
實驗結(jié)果令人驚嘆。在保持相同性能的前提下,這項技術(shù)能夠?qū)⒃拘枰?6位精度存儲的數(shù)據(jù)壓縮到2位,壓縮率達(dá)到87.5%。更令人意外的是,即使壓縮到1位(相當(dāng)于只用黑白兩種顏色來表示原本需要彩色的圖片),AI模型仍然能夠保持相當(dāng)不錯的性能。這意味著原本需要在昂貴的專業(yè)服務(wù)器上才能運(yùn)行的超長文本AI模型,現(xiàn)在可以在普通的RTX 4090游戲顯卡上流暢運(yùn)行。
傳統(tǒng)的AI內(nèi)存問題可以用一個生動的比喻來理解。AI模型在處理文本時需要記住之前看過的每一個詞匯及其含義,這就像一個學(xué)生在閱讀長篇小說時需要在筆記本上記錄每個重要信息。隨著小說越來越長,筆記本也越來越厚,最終可能比小說本身還要厚重。目前的主流解決方案就像是用更小的字體來寫筆記,雖然能節(jié)省空間,但字跡可能變得模糊難認(rèn)。
研究團(tuán)隊采用的方法則完全不同。他們發(fā)現(xiàn),與其對每個詞匯單獨做筆記,不如將相關(guān)的詞匯組合起來,用一套統(tǒng)一的符號系統(tǒng)來表示。這就像發(fā)明了一套速記法,用簡單的符號就能表示復(fù)雜的概念組合。關(guān)鍵在于,這套符號系統(tǒng)是專門設(shè)計的,能夠與AI模型的內(nèi)部工作機(jī)制完美配合。
具體而言,AI模型在處理文本時使用一種叫做"旋轉(zhuǎn)位置編碼"(RoPE)的技術(shù)來記錄詞匯的位置信息。研究團(tuán)隊巧妙地利用了這種編碼的數(shù)學(xué)特性,設(shè)計出一種"可交換編碼本"。這個編碼本就像一本特殊的密碼手冊,它不僅能壓縮信息,還能讓壓縮后的信息直接參與計算,無需先解壓。這種設(shè)計大大減少了計算過程中的額外開銷。
為了訓(xùn)練這個編碼本,研究團(tuán)隊采用了一種叫做"期望最大化"的算法。這個過程類似于反復(fù)優(yōu)化一套壓縮規(guī)則:首先根據(jù)當(dāng)前規(guī)則對數(shù)據(jù)進(jìn)行分類壓縮,然后根據(jù)壓縮效果調(diào)整規(guī)則,再重新壓縮,如此循環(huán)往復(fù)直到找到最優(yōu)的壓縮方案。這種方法確保了壓縮后的數(shù)據(jù)既節(jié)省空間又保持高質(zhì)量。
在實際測試中,研究團(tuán)隊在多個具有挑戰(zhàn)性的長文本理解任務(wù)上驗證了他們的方法。這些測試包括了文檔問答、文本摘要、代碼理解等各種應(yīng)用場景。結(jié)果顯示,即使在2位壓縮的情況下,AI模型的性能幾乎沒有任何下降,在某些任務(wù)上甚至略有提升。而在更激進(jìn)的1位壓縮測試中,模型的性能仍然遠(yuǎn)超其他壓縮方法,證明了這種技術(shù)的優(yōu)越性。
特別值得一提的是"大海撈針"測試,這是專門用來檢驗AI模型在超長文本中精確檢索信息能力的實驗。在這個測試中,研究團(tuán)隊將一小段特定信息埋藏在大量無關(guān)文本中,然后讓AI模型找出這段信息。結(jié)果顯示,使用2位壓縮的模型完全保持了原有的檢索能力,而1位壓縮的模型也表現(xiàn)出比其他壓縮方法更強(qiáng)的檢索精度。
除了壓縮效果,研究團(tuán)隊還特別關(guān)注了計算效率問題。他們發(fā)現(xiàn),通過巧妙的算法設(shè)計,可以將大部分計算過程重復(fù)利用,避免重復(fù)計算。這就像在工廠流水線上,同一臺機(jī)器可以同時為多個產(chǎn)品進(jìn)行相同的加工步驟,大大提高了生產(chǎn)效率。實驗數(shù)據(jù)顯示,優(yōu)化后的算法比簡單的解壓縮方法快了6到9倍。
研究團(tuán)隊還測試了這項技術(shù)在不同AI模型上的通用性。除了LLaMA系列,他們還在Mistral等其他主流模型上進(jìn)行了驗證,結(jié)果都顯示出良好的兼容性和壓縮效果。這表明這項技術(shù)不是針對特定模型的定制化方案,而是一種具有廣泛適用性的通用技術(shù)。
為了驗證技術(shù)的實用性,研究團(tuán)隊還開發(fā)了實際的GPU內(nèi)存監(jiān)控程序。測試結(jié)果顯示,在處理120K長度的文本時,原始模型需要60GB內(nèi)存,而使用1位壓縮技術(shù)只需要20GB內(nèi)存,成功實現(xiàn)了在單塊RTX 4090顯卡上運(yùn)行超長文本AI模型的目標(biāo)。這一突破對于普通研究者和開發(fā)者具有重要意義,因為它大大降低了使用先進(jìn)AI技術(shù)的硬件門檻。
從技術(shù)創(chuàng)新角度來看,這項研究的最大貢獻(xiàn)在于將傳統(tǒng)的向量量化技術(shù)與現(xiàn)代AI模型的特殊結(jié)構(gòu)相結(jié)合。以往的壓縮方法往往是通用性的,沒有考慮到AI模型內(nèi)部的特殊數(shù)學(xué)結(jié)構(gòu)。而這項研究深入分析了AI模型的工作機(jī)制,找到了其中的數(shù)學(xué)對稱性,并據(jù)此設(shè)計了專門的壓縮方案。這種針對性設(shè)計使得壓縮效率大大提升。
研究團(tuán)隊還進(jìn)行了大量的對比實驗,與目前最先進(jìn)的KV緩存壓縮方法進(jìn)行了全面比較。這些對比方法包括KIVI的不對稱量化、KVQuant的非均勻量化,以及VQLLM的殘差向量量化。在相同的壓縮比例下,新方法在幾乎所有測試任務(wù)上都表現(xiàn)出明顯的優(yōu)勢,特別是在極低位寬(如1位)壓縮的情況下,優(yōu)勢更加明顯。
值得注意的是,這項技術(shù)的設(shè)計理念還考慮了未來發(fā)展的需要。隨著AI模型處理的文本越來越長,內(nèi)存需求的增長是一個必然趨勢。這項壓縮技術(shù)提供了一種可擴(kuò)展的解決方案,能夠隨著模型規(guī)模的增長而發(fā)揮更大的作用。同時,由于其通用性設(shè)計,這項技術(shù)也很容易與其他優(yōu)化方法相結(jié)合,形成更加強(qiáng)大的綜合解決方案。
從實際應(yīng)用的角度來看,這項技術(shù)的意義遠(yuǎn)不止于節(jié)省內(nèi)存。它實際上為AI技術(shù)的普及和發(fā)展打開了新的可能性。以往,只有擁有昂貴硬件設(shè)備的大型科技公司才能運(yùn)行最先進(jìn)的長文本AI模型,現(xiàn)在普通的研究機(jī)構(gòu)甚至個人開發(fā)者也有機(jī)會使用這些先進(jìn)技術(shù)。這種技術(shù)門檻的降低將促進(jìn)AI技術(shù)在更多領(lǐng)域的應(yīng)用和創(chuàng)新。
研究團(tuán)隊還特別關(guān)注了技術(shù)的穩(wěn)定性和魯棒性。他們測試了這項技術(shù)在不同類型文本上的表現(xiàn),包括教育文本、數(shù)學(xué)問題、代碼文檔以及合成數(shù)據(jù)等。結(jié)果顯示,即使在與訓(xùn)練數(shù)據(jù)差異較大的測試場景中,這項技術(shù)仍然能夠保持良好的壓縮效果和性能表現(xiàn),證明了其良好的泛化能力。
說到底,這項研究解決的是AI技術(shù)發(fā)展中的一個根本性瓶頸問題。隨著人們對AI能力要求的不斷提高,模型需要處理的信息量呈指數(shù)級增長,而硬件資源的增長速度卻無法跟上這種需求。這項壓縮技術(shù)提供了一種優(yōu)雅的解決方案,通過算法創(chuàng)新來突破硬件限制,讓更強(qiáng)大的AI技術(shù)能夠在現(xiàn)有的硬件條件下運(yùn)行。
歸根結(jié)底,這項研究的價值不僅在于技術(shù)本身的先進(jìn)性,更在于它為AI技術(shù)的民主化和普及化作出的貢獻(xiàn)。當(dāng)先進(jìn)的AI技術(shù)不再是少數(shù)人的專利,當(dāng)普通開發(fā)者也能夠在自己的電腦上運(yùn)行最新的AI模型時,我們可以期待看到更多創(chuàng)新應(yīng)用的涌現(xiàn)。這種技術(shù)門檻的降低將催生出我們目前還無法想象的新應(yīng)用和新服務(wù),真正推動AI技術(shù)在各行各業(yè)的深入應(yīng)用和發(fā)展。
對于普通讀者來說,這項技術(shù)的意義在于,未來的AI助手將能夠更好地理解和處理長篇文檔,提供更加智能和貼心的服務(wù),同時這些服務(wù)的成本也會大大降低,讓更多人能夠享受到先進(jìn)AI技術(shù)帶來的便利。有興趣深入了解這項技術(shù)的讀者,可以通過研究團(tuán)隊提供的開源代碼進(jìn)一步探索其技術(shù)細(xì)節(jié)和實現(xiàn)方法。
Q&A
Q1:CommVQ技術(shù)是什么?它能做什么? A:CommVQ是一種AI內(nèi)存壓縮技術(shù),能將AI模型處理長文本時需要的內(nèi)存減少87.5%。簡單說就是讓AI"瘦身",原本需要88GB內(nèi)存的任務(wù)現(xiàn)在只需要20GB就能完成,讓普通顯卡也能運(yùn)行強(qiáng)大的AI模型。
Q2:這項技術(shù)會不會影響AI的性能? A:幾乎不會。實驗顯示在2位壓縮下AI性能基本無損失,即使在極限的1位壓縮下,性能仍然遠(yuǎn)超其他壓縮方法。就像高質(zhì)量的照片壓縮,文件變小了但畫質(zhì)依然清晰。
Q3:普通人能用到這項技術(shù)嗎? A:能!這項技術(shù)最大的意義就是讓先進(jìn)AI技術(shù)普及化。以前只有大公司才能運(yùn)行的超長文本AI模型,現(xiàn)在普通人用游戲顯卡就能體驗。研究團(tuán)隊已經(jīng)開源了代碼,開發(fā)者可以直接使用。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。