
這項(xiàng)由麻省大學(xué)阿默斯特分校的李俊彥領(lǐng)導(dǎo),聯(lián)合MIT、普林斯頓大學(xué)和蘋果公司研究團(tuán)隊(duì)共同完成的研究發(fā)表于2025年6月,并將在加拿大溫哥華舉行的第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025)上正式亮相。有興趣深入了解的讀者可以通過項(xiàng)目開源代碼(https://github.com/UMass-Embodied-AGI/CommVQ)獲取完整的技術(shù)實(shí)現(xiàn)。
當(dāng)下最熱門的AI聊天機(jī)器人正變得越來越聰明,它們能夠理解更長(zhǎng)的對(duì)話、處理更復(fù)雜的文檔,甚至分析整本小說。然而,這種強(qiáng)大能力的背后隱藏著一個(gè)巨大的技術(shù)難題——就像一個(gè)人的記憶越來越好,但大腦卻需要越來越多的存儲(chǔ)空間。目前最新的LLaMA 3.1模型能夠處理長(zhǎng)達(dá)128,000個(gè)詞匯的超長(zhǎng)文本,相當(dāng)于一本中等篇幅小說的內(nèi)容,但要讓這樣的AI模型運(yùn)行起來,需要消耗的電腦內(nèi)存多得驚人。
具體來說,一個(gè)普通的LLaMA 3.1 8B模型本身就需要16GB內(nèi)存來存儲(chǔ),但如果要讓它處理最長(zhǎng)的128K文本內(nèi)容,僅僅是存儲(chǔ)處理過程中的"記憶緩存"就需要額外的88GB內(nèi)存。這就好比你有一臺(tái)功能強(qiáng)大的超級(jí)計(jì)算器,但每次使用時(shí)都需要準(zhǔn)備一個(gè)巨大的草稿本來記錄中間步驟,而這個(gè)草稿本竟然比計(jì)算器本身還要大好幾倍。這種情況讓即使是目前最頂級(jí)的H100-80GB專業(yè)顯卡都無法獨(dú)立運(yùn)行這樣的AI模型。
正是在這樣的背景下,麻省大學(xué)阿默斯特分校的研究團(tuán)隊(duì)提出了一種名為"交換向量量化"(CommVQ)的革命性技術(shù)。這項(xiàng)技術(shù)的核心思想就像是發(fā)明了一種超級(jí)壓縮術(shù),能夠?qū)I模型的"記憶緩存"壓縮到原來的八分之一大小,同時(shí)幾乎不損失任何性能。
研究團(tuán)隊(duì)的創(chuàng)新之處在于,他們沒有像以往那樣對(duì)每個(gè)數(shù)據(jù)點(diǎn)單獨(dú)進(jìn)行壓縮,而是將相關(guān)的數(shù)據(jù)打包成組進(jìn)行整體壓縮。這就像整理行李箱時(shí),不是把每件衣服單獨(dú)裝袋,而是把整套服裝疊放在一起,這樣既節(jié)省空間又保持了衣服之間的關(guān)系。更巧妙的是,他們還設(shè)計(jì)了一種特殊的"解壓縮"方法,讓壓縮后的數(shù)據(jù)能夠直接參與AI模型的計(jì)算過程,而不需要先完全解壓,這大大提高了處理效率。
實(shí)驗(yàn)結(jié)果令人驚嘆。在保持相同性能的前提下,這項(xiàng)技術(shù)能夠?qū)⒃拘枰?6位精度存儲(chǔ)的數(shù)據(jù)壓縮到2位,壓縮率達(dá)到87.5%。更令人意外的是,即使壓縮到1位(相當(dāng)于只用黑白兩種顏色來表示原本需要彩色的圖片),AI模型仍然能夠保持相當(dāng)不錯(cuò)的性能。這意味著原本需要在昂貴的專業(yè)服務(wù)器上才能運(yùn)行的超長(zhǎng)文本AI模型,現(xiàn)在可以在普通的RTX 4090游戲顯卡上流暢運(yùn)行。
傳統(tǒng)的AI內(nèi)存問題可以用一個(gè)生動(dòng)的比喻來理解。AI模型在處理文本時(shí)需要記住之前看過的每一個(gè)詞匯及其含義,這就像一個(gè)學(xué)生在閱讀長(zhǎng)篇小說時(shí)需要在筆記本上記錄每個(gè)重要信息。隨著小說越來越長(zhǎng),筆記本也越來越厚,最終可能比小說本身還要厚重。目前的主流解決方案就像是用更小的字體來寫筆記,雖然能節(jié)省空間,但字跡可能變得模糊難認(rèn)。
研究團(tuán)隊(duì)采用的方法則完全不同。他們發(fā)現(xiàn),與其對(duì)每個(gè)詞匯單獨(dú)做筆記,不如將相關(guān)的詞匯組合起來,用一套統(tǒng)一的符號(hào)系統(tǒng)來表示。這就像發(fā)明了一套速記法,用簡(jiǎn)單的符號(hào)就能表示復(fù)雜的概念組合。關(guān)鍵在于,這套符號(hào)系統(tǒng)是專門設(shè)計(jì)的,能夠與AI模型的內(nèi)部工作機(jī)制完美配合。
具體而言,AI模型在處理文本時(shí)使用一種叫做"旋轉(zhuǎn)位置編碼"(RoPE)的技術(shù)來記錄詞匯的位置信息。研究團(tuán)隊(duì)巧妙地利用了這種編碼的數(shù)學(xué)特性,設(shè)計(jì)出一種"可交換編碼本"。這個(gè)編碼本就像一本特殊的密碼手冊(cè),它不僅能壓縮信息,還能讓壓縮后的信息直接參與計(jì)算,無需先解壓。這種設(shè)計(jì)大大減少了計(jì)算過程中的額外開銷。
為了訓(xùn)練這個(gè)編碼本,研究團(tuán)隊(duì)采用了一種叫做"期望最大化"的算法。這個(gè)過程類似于反復(fù)優(yōu)化一套壓縮規(guī)則:首先根據(jù)當(dāng)前規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類壓縮,然后根據(jù)壓縮效果調(diào)整規(guī)則,再重新壓縮,如此循環(huán)往復(fù)直到找到最優(yōu)的壓縮方案。這種方法確保了壓縮后的數(shù)據(jù)既節(jié)省空間又保持高質(zhì)量。
在實(shí)際測(cè)試中,研究團(tuán)隊(duì)在多個(gè)具有挑戰(zhàn)性的長(zhǎng)文本理解任務(wù)上驗(yàn)證了他們的方法。這些測(cè)試包括了文檔問答、文本摘要、代碼理解等各種應(yīng)用場(chǎng)景。結(jié)果顯示,即使在2位壓縮的情況下,AI模型的性能幾乎沒有任何下降,在某些任務(wù)上甚至略有提升。而在更激進(jìn)的1位壓縮測(cè)試中,模型的性能仍然遠(yuǎn)超其他壓縮方法,證明了這種技術(shù)的優(yōu)越性。
特別值得一提的是"大海撈針"測(cè)試,這是專門用來檢驗(yàn)AI模型在超長(zhǎng)文本中精確檢索信息能力的實(shí)驗(yàn)。在這個(gè)測(cè)試中,研究團(tuán)隊(duì)將一小段特定信息埋藏在大量無關(guān)文本中,然后讓AI模型找出這段信息。結(jié)果顯示,使用2位壓縮的模型完全保持了原有的檢索能力,而1位壓縮的模型也表現(xiàn)出比其他壓縮方法更強(qiáng)的檢索精度。
除了壓縮效果,研究團(tuán)隊(duì)還特別關(guān)注了計(jì)算效率問題。他們發(fā)現(xiàn),通過巧妙的算法設(shè)計(jì),可以將大部分計(jì)算過程重復(fù)利用,避免重復(fù)計(jì)算。這就像在工廠流水線上,同一臺(tái)機(jī)器可以同時(shí)為多個(gè)產(chǎn)品進(jìn)行相同的加工步驟,大大提高了生產(chǎn)效率。實(shí)驗(yàn)數(shù)據(jù)顯示,優(yōu)化后的算法比簡(jiǎn)單的解壓縮方法快了6到9倍。
研究團(tuán)隊(duì)還測(cè)試了這項(xiàng)技術(shù)在不同AI模型上的通用性。除了LLaMA系列,他們還在Mistral等其他主流模型上進(jìn)行了驗(yàn)證,結(jié)果都顯示出良好的兼容性和壓縮效果。這表明這項(xiàng)技術(shù)不是針對(duì)特定模型的定制化方案,而是一種具有廣泛適用性的通用技術(shù)。
為了驗(yàn)證技術(shù)的實(shí)用性,研究團(tuán)隊(duì)還開發(fā)了實(shí)際的GPU內(nèi)存監(jiān)控程序。測(cè)試結(jié)果顯示,在處理120K長(zhǎng)度的文本時(shí),原始模型需要60GB內(nèi)存,而使用1位壓縮技術(shù)只需要20GB內(nèi)存,成功實(shí)現(xiàn)了在單塊RTX 4090顯卡上運(yùn)行超長(zhǎng)文本AI模型的目標(biāo)。這一突破對(duì)于普通研究者和開發(fā)者具有重要意義,因?yàn)樗蟠蠼档土耸褂孟冗M(jìn)AI技術(shù)的硬件門檻。
從技術(shù)創(chuàng)新角度來看,這項(xiàng)研究的最大貢獻(xiàn)在于將傳統(tǒng)的向量量化技術(shù)與現(xiàn)代AI模型的特殊結(jié)構(gòu)相結(jié)合。以往的壓縮方法往往是通用性的,沒有考慮到AI模型內(nèi)部的特殊數(shù)學(xué)結(jié)構(gòu)。而這項(xiàng)研究深入分析了AI模型的工作機(jī)制,找到了其中的數(shù)學(xué)對(duì)稱性,并據(jù)此設(shè)計(jì)了專門的壓縮方案。這種針對(duì)性設(shè)計(jì)使得壓縮效率大大提升。
研究團(tuán)隊(duì)還進(jìn)行了大量的對(duì)比實(shí)驗(yàn),與目前最先進(jìn)的KV緩存壓縮方法進(jìn)行了全面比較。這些對(duì)比方法包括KIVI的不對(duì)稱量化、KVQuant的非均勻量化,以及VQLLM的殘差向量量化。在相同的壓縮比例下,新方法在幾乎所有測(cè)試任務(wù)上都表現(xiàn)出明顯的優(yōu)勢(shì),特別是在極低位寬(如1位)壓縮的情況下,優(yōu)勢(shì)更加明顯。
值得注意的是,這項(xiàng)技術(shù)的設(shè)計(jì)理念還考慮了未來發(fā)展的需要。隨著AI模型處理的文本越來越長(zhǎng),內(nèi)存需求的增長(zhǎng)是一個(gè)必然趨勢(shì)。這項(xiàng)壓縮技術(shù)提供了一種可擴(kuò)展的解決方案,能夠隨著模型規(guī)模的增長(zhǎng)而發(fā)揮更大的作用。同時(shí),由于其通用性設(shè)計(jì),這項(xiàng)技術(shù)也很容易與其他優(yōu)化方法相結(jié)合,形成更加強(qiáng)大的綜合解決方案。
從實(shí)際應(yīng)用的角度來看,這項(xiàng)技術(shù)的意義遠(yuǎn)不止于節(jié)省內(nèi)存。它實(shí)際上為AI技術(shù)的普及和發(fā)展打開了新的可能性。以往,只有擁有昂貴硬件設(shè)備的大型科技公司才能運(yùn)行最先進(jìn)的長(zhǎng)文本AI模型,現(xiàn)在普通的研究機(jī)構(gòu)甚至個(gè)人開發(fā)者也有機(jī)會(huì)使用這些先進(jìn)技術(shù)。這種技術(shù)門檻的降低將促進(jìn)AI技術(shù)在更多領(lǐng)域的應(yīng)用和創(chuàng)新。
研究團(tuán)隊(duì)還特別關(guān)注了技術(shù)的穩(wěn)定性和魯棒性。他們測(cè)試了這項(xiàng)技術(shù)在不同類型文本上的表現(xiàn),包括教育文本、數(shù)學(xué)問題、代碼文檔以及合成數(shù)據(jù)等。結(jié)果顯示,即使在與訓(xùn)練數(shù)據(jù)差異較大的測(cè)試場(chǎng)景中,這項(xiàng)技術(shù)仍然能夠保持良好的壓縮效果和性能表現(xiàn),證明了其良好的泛化能力。
說到底,這項(xiàng)研究解決的是AI技術(shù)發(fā)展中的一個(gè)根本性瓶頸問題。隨著人們對(duì)AI能力要求的不斷提高,模型需要處理的信息量呈指數(shù)級(jí)增長(zhǎng),而硬件資源的增長(zhǎng)速度卻無法跟上這種需求。這項(xiàng)壓縮技術(shù)提供了一種優(yōu)雅的解決方案,通過算法創(chuàng)新來突破硬件限制,讓更強(qiáng)大的AI技術(shù)能夠在現(xiàn)有的硬件條件下運(yùn)行。
歸根結(jié)底,這項(xiàng)研究的價(jià)值不僅在于技術(shù)本身的先進(jìn)性,更在于它為AI技術(shù)的民主化和普及化作出的貢獻(xiàn)。當(dāng)先進(jìn)的AI技術(shù)不再是少數(shù)人的專利,當(dāng)普通開發(fā)者也能夠在自己的電腦上運(yùn)行最新的AI模型時(shí),我們可以期待看到更多創(chuàng)新應(yīng)用的涌現(xiàn)。這種技術(shù)門檻的降低將催生出我們目前還無法想象的新應(yīng)用和新服務(wù),真正推動(dòng)AI技術(shù)在各行各業(yè)的深入應(yīng)用和發(fā)展。
對(duì)于普通讀者來說,這項(xiàng)技術(shù)的意義在于,未來的AI助手將能夠更好地理解和處理長(zhǎng)篇文檔,提供更加智能和貼心的服務(wù),同時(shí)這些服務(wù)的成本也會(huì)大大降低,讓更多人能夠享受到先進(jìn)AI技術(shù)帶來的便利。有興趣深入了解這項(xiàng)技術(shù)的讀者,可以通過研究團(tuán)隊(duì)提供的開源代碼進(jìn)一步探索其技術(shù)細(xì)節(jié)和實(shí)現(xiàn)方法。
Q&A
Q1:CommVQ技術(shù)是什么?它能做什么? A:CommVQ是一種AI內(nèi)存壓縮技術(shù),能將AI模型處理長(zhǎng)文本時(shí)需要的內(nèi)存減少87.5%。簡(jiǎn)單說就是讓AI"瘦身",原本需要88GB內(nèi)存的任務(wù)現(xiàn)在只需要20GB就能完成,讓普通顯卡也能運(yùn)行強(qiáng)大的AI模型。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)影響AI的性能? A:幾乎不會(huì)。實(shí)驗(yàn)顯示在2位壓縮下AI性能基本無損失,即使在極限的1位壓縮下,性能仍然遠(yuǎn)超其他壓縮方法。就像高質(zhì)量的照片壓縮,文件變小了但畫質(zhì)依然清晰。
Q3:普通人能用到這項(xiàng)技術(shù)嗎? A:能!這項(xiàng)技術(shù)最大的意義就是讓先進(jìn)AI技術(shù)普及化。以前只有大公司才能運(yùn)行的超長(zhǎng)文本AI模型,現(xiàn)在普通人用游戲顯卡就能體驗(yàn)。研究團(tuán)隊(duì)已經(jīng)開源了代碼,開發(fā)者可以直接使用。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。