在人工智能發(fā)展日新月異的今天,大語言模型(LLMs)已經成為了推動自然語言處理技術進步的重要力量。然而,這些模型越來越龐大的體積和計算需求,也給它們的部署和應用帶來了巨大挑戰(zhàn)。2025年5月21日,來自香港大學和字節(jié)跳動Seed團隊的研究人員,包括陳夢昭、張超逸、劉靜等多位學者,在一篇題為《量化感知訓練的縮放定律》(Scaling Law for Quantization-Aware Training)的論文中,為解決這一難題提供了全新的理論框架。有興趣深入了解的讀者可以通過arXiv:2505.14302v1查閱完整論文。
想象一下,如果大語言模型是一本厚重的百科全書,那么量化就像是將這本書以更緊湊的方式重新編排,使得同樣的內容可以用更少的紙張表達出來。這種壓縮雖然節(jié)省了資源,但如果處理不當,就可能導致內容失真。這正是模型量化所面臨的挑戰(zhàn):如何在減少存儲和計算需求的同時,盡可能保持模型的性能不下降。
傳統(tǒng)的方法主要有兩種:一種是訓練后量化(PTQ),就像在寫完整本書之后才進行壓縮,這種方法在8位精度(W8A8)下表現(xiàn)尚可,但降到4位精度(W4A4)時性能就會大幅下降;另一種是量化感知訓練(QAT),這相當于在寫書的過程中就考慮到后續(xù)的壓縮需求,從而在低位精度下也能保持較好的性能。然而,對于QAT在超低位(如W4A4)下的表現(xiàn)規(guī)律,學術界一直缺乏系統(tǒng)的理解。
正是這一空白,促使研究團隊開展了這項開創(chuàng)性研究。他們通過268組QAT實驗,系統(tǒng)地探索了模型大小、訓練數據量以及量化粒度三大因素對量化誤差的影響,并首次提出了一個統(tǒng)一的QAT縮放定律。這個定律不僅能夠準確預測不同設置下的量化誤差,還深入揭示了W4A4量化誤差的主要來源。
讓我們一起深入這項研究,看看研究團隊是如何揭開大語言模型量化訓練的神秘面紗,以及這些發(fā)現(xiàn)對未來AI技術發(fā)展可能帶來的深遠影響。
一、量化訓練的挑戰(zhàn)與現(xiàn)狀
想象一下,你正在嘗試用有限的詞匯量翻譯一本外文小說。如果你只能使用1000個最常見的詞,那么許多細微的表達和專業(yè)術語就無法準確傳達,這就是"量化"在語言模型中面臨的挑戰(zhàn)。在計算機世界里,我們通常使用32位或16位的浮點數來表示模型中的參數,但這需要大量的存儲空間和計算資源。為了解決這個問題,研究者們嘗試使用更少的位數(比如8位或4位)來表示這些參數,這就是所謂的"量化"過程。
傳統(tǒng)的模型量化主要有兩種方法:訓練后量化(PTQ)和量化感知訓練(QAT)。PTQ就像是在你寫完整本書后再進行編輯壓縮,它的優(yōu)點是簡單直接,但當壓縮過于激進時(比如壓縮到4位),書中的重要信息可能會丟失。而QAT則是從一開始就考慮到壓縮因素,就像在寫作過程中就注意使用簡潔明了的表達方式,這樣最終的壓縮效果會更好。
雖然已有研究探索了模型大小對量化性能的影響,但對于訓練數據量和量化粒度這兩個關鍵因素,學術界的理解還很有限。例如,當你使用更多的訓練數據時,模型的量化誤差會如何變化?當你改變量化的粒度(即一次量化多少數據)時,性能又會有何不同?這些問題在現(xiàn)有的QAT縮放定律中都沒有得到充分解答。
"量化粒度"是一個重要概念,它決定了我們在多大的范圍內共享一個量化參數。想象你在給一幅畫壓縮存儲空間:你可以對整幅畫使用同一套壓縮參數(粗粒度),也可以對每個區(qū)域使用不同的參數(細粒度)。顯然,細粒度壓縮能更好地保留細節(jié),但需要更多的額外信息來記錄這些參數。在模型量化中也是如此,研究團隊發(fā)現(xiàn),量化粒度對最終的量化誤差有顯著影響。
二、統(tǒng)一的QAT縮放定律:揭示模型量化的內在規(guī)律
在數學和物理學中,縮放定律(Scaling Law)是描述系統(tǒng)在不同尺度下行為規(guī)律的重要工具。比如,我們知道動物體重增加時,它的骨骼強度必須以更快的速度增長,否則會在自身重量下崩潰。類似地,對于語言模型,研究者們發(fā)現(xiàn)模型性能會隨著模型大小、訓練數據量和計算資源的增加而提升,但這種提升遵循特定的數學規(guī)律。
早期的Kaplan縮放定律和后來改進的Chinchilla縮放定律分別揭示了全精度(不量化)條件下,模型性能如何隨這些因素變化。然而,當我們考慮量化后的模型時,這些規(guī)律是否仍然適用?又或者,量化會引入新的規(guī)律?這正是香港大學和字節(jié)跳動研究團隊試圖解答的問題。
通過268組精心設計的QAT實驗,研究團隊首次提出了一個統(tǒng)一的QAT縮放定律,它可以表示為:
δp(N, D, G) = k · DγD · (log?(G))γG / NγN
在這個公式中: - δp代表p位QAT的量化誤差 - N是模型大?。▍禂盗浚?- D是訓練數據量(token數量) - G是量化粒度 - k、γN、γD和γG是擬合參數
這個公式揭示了三個重要發(fā)現(xiàn):
首先,量化誤差會隨著模型大小的增加而減少。就像更大的容器能夠更好地存儲復雜信息一樣,更大的模型對量化的"抵抗力"也更強。例如,當模型從74M參數增加到594M參數時,W4A4的量化誤差平均減少了34%。
其次,量化誤差會隨著訓練數據量的增加而增加。這可能會讓人感到意外,因為通常我們認為更多的訓練數據會帶來更好的性能。但在量化場景下,情況有所不同。當訓練數據從10B增加到100B時,W4A4的量化誤差平均增加了22%。這可能是因為更多的訓練數據使模型學習到更復雜的表示,這些表示在低位精度下更難以準確捕捉。
第三,量化誤差會隨著量化粒度的增大而增加。就像使用更粗的刻度尺測量物體會導致更大的誤差一樣,使用更粗的量化粒度也會導致更多的信息丟失。研究發(fā)現(xiàn),在最粗和最細的粒度之間,W4A4的量化誤差差距高達0.037,這幾乎是最粗粒度量化誤差的一半。
這個統(tǒng)一的縮放定律不僅能夠準確預測不同設置下的量化誤差,還揭示了模型量化中的基本規(guī)律,為未來的QAT算法設計提供了重要理論指導。
三、權重與激活:量化誤差的兩大來源
當我們深入研究W4A4量化誤差的來源時,一個自然的問題是:誤差主要來自權重量化還是激活量化?要回答這個問題,研究團隊進行了兩組額外的QAT實驗:W4A16(只量化權重到4位,激活保持16位)和W16A4(只量化激活到4位,權重保持16位)。
通過對比這兩組實驗的結果,研究團隊發(fā)現(xiàn)W4A4的量化誤差可以近似地表示為W4A16和W16A4量化誤差的總和,兩者之間的相關系數高達0.906。這意味著我們可以通過分別分析權重量化誤差和激活量化誤差,來理解W4A4量化誤差的完整圖景。
研究發(fā)現(xiàn),雖然權重量化誤差和激活量化誤差都隨著模型大小的增加而減少,隨著訓練數據量和量化粒度的增加而增加,但它們的敏感度不同:
權重量化誤差對模型大小更敏感(γN = 0.3589,高于激活量化的0.1816),意味著增大模型對減少權重量化誤差更有效。當模型從74M增加到594M時,權重量化誤差平均下降51%,而激活量化誤差僅下降34%。
權重量化誤差對訓練數據量也更敏感(γD = 0.1610,遠高于激活量化的0.0331)。當訓練數據從10B增加到100B時,權重量化誤差平均增加43%,而激活量化誤差僅增加12%。
激活量化誤差對量化粒度極為敏感(γG = 0.9821,遠高于權重量化的0.3533)。這可能是因為激活值中存在較多的離群值,這些值在粗粒度量化下更難以準確表示。
通過計算R = δW16A4/δW4A16(激活量化誤差與權重量化誤差的比值),研究團隊發(fā)現(xiàn)在大多數情況下R > 1,意味著激活量化誤差通常大于權重量化誤差,是W4A4量化的主要瓶頸。然而,當數據與參數比(D/N)增加時,R值會下降,表明隨著訓練數據量的增加,權重量化誤差的相對重要性會上升。
四、FC2層輸入:量化的關鍵瓶頸
在深入分析激活量化誤差的來源時,研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:在Transformer塊的四個線性層(QKV Proj、O Proj、FC1 Proj和FC2 Proj)中,F(xiàn)C2 Proj層的輸入激活值是量化誤差的主要來源。
為了理解這一現(xiàn)象,研究團隊測量了各層輸入激活值的峰度(Kurtosis),這是一個衡量分布"尾部厚度"的統(tǒng)計量,值越大表示分布中存在越多的離群值。結果顯示,雖然QAT能有效降低大多數層的峰度,但FC2 Proj輸入的峰度仍然異常高(從BF16訓練的123降至W4A4訓練的89,但仍遠高于其他層)。
這主要是因為FC2 Proj的輸入來自SwiGLU模塊的輸出。SwiGLU中的門控機制和非線性變換會產生復雜的激活分布,導致更多的離群值。這些離群值在4位精度下難以準確表示,成為了W4A4 QAT的主要瓶頸。
為了驗證這一發(fā)現(xiàn),研究團隊采用了一種簡單的混合精度方法:將FC2 Proj的輸入量化到8位,而其他部分仍保持4位。這一改變顯著降低了量化誤差,尤其是在粗粒度量化場景下:對于G = 32,量化誤差降低了20.5%;對于G = 256,量化誤差降低了42.9%。
更重要的是,當FC2輸入使用8位量化后,激活量化誤差和權重量化誤差變得相當,它們的比值R在數據參數比D/N = 100到1000的范圍內接近1(約為0.85到1.10)。這表明,一旦解決了FC2輸入的激活量化瓶頸,權重量化和激活量化對總誤差的貢獻基本相當。
這一發(fā)現(xiàn)有重要的實踐意義:在設計4位QAT算法時,不應只關注激活量化,也應同時優(yōu)化權重量化,尤其是在大數據訓練場景下。同時,針對FC2輸入的特殊處理(如使用更高的精度或更有效的離群值抑制方法)可以顯著提升W4A4 QAT的性能。
五、與現(xiàn)有QAT縮放定律的比較
研究團隊將提出的統(tǒng)一QAT縮放定律與現(xiàn)有方法進行了對比。現(xiàn)有的QAT縮放定律主要考慮模型大小N,忽略了訓練數據量D和量化粒度G的影響,因此需要為每種量化粒度擬合單獨的曲線。
相比之下,提出的統(tǒng)一縮放定律能夠用單一公式同時建模不同的量化粒度,并考慮訓練數據量的影響,大大提高了預測精度。對于W4A16 QAT,相對誤差從19.3%降至5.2%;對于W4A4 QAT,相對誤差從8.5%降至4.7%。W4A16的改進更為顯著,這是因為權重量化誤差對訓練數據量的敏感度高于激活量化誤差。
這個統(tǒng)一的縮放定律不僅提高了預測精度,還揭示了模型量化中的基本規(guī)律,為未來的QAT算法設計提供了重要理論指導。
六、研究意義與未來方向
這項研究的意義遠不止于提出一個新的數學公式。它深入揭示了大語言模型量化訓練中的基本規(guī)律,為未來的模型設計和訓練策略提供了重要指導。
首先,研究表明,并非所有的量化誤差都是平等的。FC2層輸入的激活量化是最主要的瓶頸,針對性地處理這一部分(例如使用混合精度量化)可以顯著提升整體性能。這就像在減肥過程中,了解到大部分脂肪集中在腹部,那么針對腹部的鍛煉會比全身運動更有效。
其次,研究發(fā)現(xiàn),隨著訓練數據量的增加,權重量化誤差的重要性會上升。這意味著未來的QAT算法不應只關注激活量化,也應同時優(yōu)化權重量化,尤其是在大數據訓練場景下。
第三,量化粒度對激活量化誤差的影響遠大于對權重量化誤差的影響。這提示我們,在設計混合精度量化策略時,可以對權重使用相對粗糙的量化粒度,而對激活(尤其是FC2輸入)使用更細的量化粒度,從而在保持性能的同時降低計算和存儲開銷。
最后,統(tǒng)一的QAT縮放定律為模型設計者提供了一個強大的工具,可以在不進行大量實驗的情況下,預測不同設置(模型大小、訓練數據量、量化粒度)下的量化誤差,從而做出更明智的設計決策。
展望未來,這項研究為多個方向的進一步探索奠定了基礎:
一方面,研究團隊只探索了4位量化,未來可以擴展到更低位精度(如3位、2位或二值化)的縮放定律。
另一方面,可以探索針對FC2輸入的更高效離群值處理方法,而不是簡單地提高精度,從而在保持性能的同時進一步降低計算和存儲開銷。
此外,研究主要關注了密集模型,未來可以將縮放定律擴展到混合專家模型(MoE)等更復雜的架構上。
最后,該研究為全量化訓練(FQT,同時量化前向和反向傳播)提供了理論基礎,這對于進一步加速大模型訓練具有重要意義。
總的來說,這項研究不僅提出了一個統(tǒng)一的QAT縮放定律,還深入揭示了大語言模型量化訓練中的基本規(guī)律,為未來的模型設計和訓練策略提供了重要指導,推動了大模型高效部署和應用的發(fā)展。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。