av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 微軟亞洲研究院重磅突破:讓大模型用上4位浮點(diǎn)數(shù)訓(xùn)練,算力壓縮四分之三

微軟亞洲研究院重磅突破:讓大模型用上4位浮點(diǎn)數(shù)訓(xùn)練,算力壓縮四分之三

2025-09-16 10:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-16 10:30 ? 科技行者

這項(xiàng)由微軟亞洲研究院的龔也筠和程鵬等研究人員領(lǐng)導(dǎo)的開創(chuàng)性研究發(fā)表于2025年在加拿大溫哥華舉行的第42屆國(guó)際機(jī)器學(xué)習(xí)會(huì)議(ICML)。有興趣深入了解的讀者可以通過論文地址 arXiv:2501.17116v2 訪問完整論文。

當(dāng)下的大型語(yǔ)言模型訓(xùn)練就像在建造一座摩天大樓,需要消耗驚人的資源。以Meta的Llama 3 405B為例,這個(gè)龐然大物需要在16000塊H100顯卡上連續(xù)跑54天才能訓(xùn)練完成,消耗的電力足夠一座小城市使用數(shù)月。而GPT-4這樣擁有萬(wàn)億參數(shù)的模型,其訓(xùn)練成本更是天文數(shù)字。面對(duì)這樣的現(xiàn)狀,如何在保證模型效果的前提下大幅降低訓(xùn)練成本,成了整個(gè)AI行業(yè)急需解決的問題。

研究團(tuán)隊(duì)就像是在尋找一把能夠四兩撥千斤的鑰匙。他們的目標(biāo)是讓計(jì)算機(jī)在處理數(shù)據(jù)時(shí)使用更少的"數(shù)字精度"——就好比原本需要用精確到小數(shù)點(diǎn)后16位的數(shù)字來(lái)計(jì)算,現(xiàn)在只需要4位就夠了。這聽起來(lái)似乎會(huì)損失很多精度,但研究團(tuán)隊(duì)通過巧妙的技術(shù)手段,幾乎完全消除了這種損失,同時(shí)獲得了接近4倍的計(jì)算效率提升。

這項(xiàng)研究的創(chuàng)新之處在于,這是首次有人成功實(shí)現(xiàn)了FP4(4位浮點(diǎn)數(shù))格式的大型語(yǔ)言模型訓(xùn)練。過去,業(yè)界最多只能做到FP8(8位浮點(diǎn)數(shù))訓(xùn)練,而且還要付出一定的精度代價(jià)。研究團(tuán)隊(duì)不僅實(shí)現(xiàn)了更低精度的FP4訓(xùn)練,還保證了訓(xùn)練效果與傳統(tǒng)高精度訓(xùn)練幾乎相同。他們?cè)诟哌_(dá)130億參數(shù)的模型和1000億個(gè)訓(xùn)練樣本上驗(yàn)證了這一技術(shù),為未來(lái)更加高效的AI訓(xùn)練開辟了全新道路。

一、數(shù)字精度的魔術(shù):從16位到4位的驚險(xiǎn)跳躍

要理解這項(xiàng)技術(shù)的難度,我們可以用攝影來(lái)做個(gè)比喻。傳統(tǒng)的大模型訓(xùn)練就像用專業(yè)單反相機(jī)拍照,每張照片都有極高的分辨率和色彩深度,能捕捉到最細(xì)微的光影變化。而研究團(tuán)隊(duì)嘗試做的事情,就像是用一臺(tái)只有16種顏色的古董游戲機(jī)屏幕來(lái)拍攝同樣精美的照片,還要保證最終效果幾乎看不出差別。

在計(jì)算機(jī)的世界里,數(shù)字的表示方式就像不同規(guī)格的容器。傳統(tǒng)的BF16格式就像一個(gè)精密的量杯,能夠精確測(cè)量從一滴水到幾升的任何液體量。而FP4格式更像是一個(gè)只有16個(gè)刻度的簡(jiǎn)陋量筒,看似無(wú)法勝任精密測(cè)量的工作。但研究團(tuán)隊(duì)通過創(chuàng)新的技術(shù),讓這個(gè)簡(jiǎn)陋的量筒也能做出專業(yè)級(jí)的測(cè)量。

FP4格式采用了E2M1的編碼方式,這意味著用2個(gè)比特來(lái)表示數(shù)字的"數(shù)量級(jí)"(就像科學(xué)計(jì)數(shù)法中的指數(shù)部分),用1個(gè)比特來(lái)表示精確的數(shù)值。這種設(shè)計(jì)雖然只能表示16個(gè)不同的數(shù)值,但覆蓋的數(shù)值范圍卻能從-6到+6,這樣的設(shè)計(jì)在有限的比特空間內(nèi)實(shí)現(xiàn)了動(dòng)態(tài)范圍和精度的平衡。

當(dāng)研究團(tuán)隊(duì)第一次嘗試直接將模型訓(xùn)練從BF16格式轉(zhuǎn)換為FP4格式時(shí),結(jié)果就像用放大鏡看螞蟻卻看到了大象——訓(xùn)練損失急劇飆升,模型完全無(wú)法正常學(xué)習(xí)。這種現(xiàn)象并不意外,因?yàn)?位浮點(diǎn)數(shù)的表示能力實(shí)在太有限了,大量的數(shù)值信息在轉(zhuǎn)換過程中丟失了。

面對(duì)這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)沒有放棄,而是開始深入分析問題的根源。他們發(fā)現(xiàn),傳統(tǒng)的量化方法就像用生硬的四舍五入來(lái)處理所有數(shù)字,這種簡(jiǎn)單粗暴的方式在精度極低的情況下會(huì)造成嚴(yán)重的信息損失。于是,他們開始尋找更加智能的解決方案。

二、權(quán)重優(yōu)化的微積分魔法:讓梯度計(jì)算起死回生

在深度學(xué)習(xí)的訓(xùn)練過程中,梯度就像登山者手中的指南針,指示著通向最優(yōu)解的方向。但當(dāng)使用極低精度的FP4格式時(shí),這個(gè)指南針就會(huì)出現(xiàn)嚴(yán)重的偏差,甚至完全失靈。研究團(tuán)隊(duì)面臨的挑戰(zhàn)就是如何修復(fù)這個(gè)"損壞"的指南針。

傳統(tǒng)的直通估計(jì)器(STE)方法就像給壞掉的指南針簡(jiǎn)單地校準(zhǔn)一下指針,表面上看起來(lái)沒問題,但實(shí)際指示的方向可能完全錯(cuò)誤。這種方法假設(shè)量化前后的梯度完全相同,這在高精度情況下或許可行,但在FP4這種極低精度下就完全不夠用了。

研究團(tuán)隊(duì)提出的可微分梯度估計(jì)器(DGE)就像給指南針裝上了一套精密的校準(zhǔn)系統(tǒng)。這個(gè)系統(tǒng)不是簡(jiǎn)單地假設(shè)量化不會(huì)影響梯度,而是用數(shù)學(xué)的方法精確計(jì)算出量化過程對(duì)梯度造成的影響,然后在反向傳播時(shí)加上一個(gè)修正項(xiàng)來(lái)補(bǔ)償這種影響。

具體來(lái)說,DGE方法使用一個(gè)特殊的數(shù)學(xué)函數(shù)來(lái)近似量化過程。這個(gè)函數(shù)就像一條光滑的曲線,能夠很好地模擬階梯狀的量化函數(shù),同時(shí)還能計(jì)算出精確的導(dǎo)數(shù)。函數(shù)的形式是:f(x) = δ/2 × (1 + sign(2x/δ - 1) × |2x/δ - 1|^(1/k)),其中δ表示量化間隔,k是控制近似精度的參數(shù)。

這個(gè)函數(shù)的巧妙之處在于,當(dāng)k值較大時(shí),它幾乎與真實(shí)的量化函數(shù)完全重合,但又能提供連續(xù)可微的特性。就像用一條非常接近階梯的光滑曲線來(lái)代替真正的階梯,既保持了原有的形狀特征,又獲得了計(jì)算導(dǎo)數(shù)的能力。

在實(shí)際訓(xùn)練中,研究團(tuán)隊(duì)發(fā)現(xiàn)這個(gè)方法的導(dǎo)數(shù)在量化區(qū)間的中點(diǎn)附近會(huì)變得非常大,甚至趨向無(wú)窮。為了防止這種"梯度爆炸"現(xiàn)象,他們將導(dǎo)數(shù)的最大值限制在3.0。這就像給汽車的油門加上限速器,防止加速度過大導(dǎo)致失控。

通過大量實(shí)驗(yàn)驗(yàn)證,DGE方法相比傳統(tǒng)的STE方法,在權(quán)重量化的準(zhǔn)確性上有了顯著提升。特別是在處理多層神經(jīng)網(wǎng)絡(luò)時(shí),這種改進(jìn)的累積效應(yīng)非常明顯,最終訓(xùn)練出的模型質(zhì)量接近全精度訓(xùn)練的水平。

三、激活值的離群點(diǎn)大作戰(zhàn):馴服數(shù)據(jù)中的"狂野分子"

如果說權(quán)重量化像是整理書架上的書籍,那么激活值量化就像是管理一個(gè)熱鬧的菜市場(chǎng)。在書架上,書本大小相對(duì)均勻,容易分類擺放;但在菜市場(chǎng)里,有小如豆子的調(diào)料,也有大如西瓜的水果,還有各種形狀奇異的蔬菜,管理起來(lái)復(fù)雜得多。

激活值在大型語(yǔ)言模型中就表現(xiàn)出這樣的特點(diǎn)。研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),激活值的分布非常不均勻,大部分值都比較小,聚集在一個(gè)較窄的范圍內(nèi),但總有一些"異常大"的值突然出現(xiàn),這些就是所謂的離群點(diǎn)。這些離群點(diǎn)就像菜市場(chǎng)里突然出現(xiàn)的一頭大象,雖然數(shù)量很少,但會(huì)嚴(yán)重影響整體的管理秩序。

當(dāng)使用傳統(tǒng)的量化方法時(shí),這些離群點(diǎn)會(huì)強(qiáng)迫整個(gè)量化系統(tǒng)采用一個(gè)非常大的數(shù)值范圍來(lái)容納它們。結(jié)果就是,為了容納少數(shù)幾個(gè)"大象",整個(gè)"菜市場(chǎng)"都要擴(kuò)建,而原本密集分布的"小商品"們卻因?yàn)榭臻g變大而變得稀疏,精度大大降低。更糟糕的是,大多數(shù)正常的數(shù)值在這種擴(kuò)展后的量化系統(tǒng)中會(huì)被舍入為零,造成嚴(yán)重的信息丟失。

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了離群點(diǎn)鉗制和補(bǔ)償(OCC)方法。這個(gè)方法就像給菜市場(chǎng)制定了一套巧妙的管理規(guī)則:首先,對(duì)于那些過分巨大的"商品",不允許它們直接進(jìn)入市場(chǎng),而是在入口處進(jìn)行"尺寸限制",將它們切割到合適的大小。

具體的操作方式是通過分位數(shù)識(shí)別來(lái)確定離群點(diǎn)。研究團(tuán)隊(duì)選擇了99%分位數(shù)作為閾值,也就是說,只有最大的1%的數(shù)值被認(rèn)為是離群點(diǎn)。這些被識(shí)別出的離群點(diǎn)會(huì)被"鉗制"到閾值范圍內(nèi),就像給過高的樹枝修剪到合適的高度。

但是,簡(jiǎn)單的鉗制會(huì)丟失信息,就像把大西瓜切成小塊后,雖然能裝進(jìn)標(biāo)準(zhǔn)的籃子里,但總重量可能會(huì)有損失。為了避免這種損失,研究團(tuán)隊(duì)引入了補(bǔ)償機(jī)制。他們用一個(gè)稀疏矩陣來(lái)記錄被鉗制掉的部分,就像用一個(gè)特殊的賬本記錄所有被"修剪"掉的信息。

在實(shí)際計(jì)算時(shí),這個(gè)系統(tǒng)采用了雙軌制處理方式:主要的計(jì)算使用經(jīng)過鉗制的激活值,通過高效的FP4計(jì)算完成;而被鉗制掉的部分則通過高精度的稀疏矩陣計(jì)算來(lái)處理。由于離群點(diǎn)非常稀少(通常只占總數(shù)的1-2%),這種稀疏計(jì)算的開銷很小,但能夠顯著提高整體精度。

通過量化分析,研究團(tuán)隊(duì)發(fā)現(xiàn)這種方法能將激活值的余弦相似度從直接量化的92.19%提升到99.61%,均方誤差從0.1055降低到0.0245,信噪比從8.31提升到15.31。這意味著經(jīng)過OCC處理后的激活值幾乎與原始高精度激活值沒有區(qū)別。

更重要的是,這種方法在實(shí)際的模型訓(xùn)練中表現(xiàn)出色。當(dāng)研究團(tuán)隊(duì)嘗試僅對(duì)激活值進(jìn)行4位量化時(shí)(保持權(quán)重為8位),如果不使用OCC方法,訓(xùn)練過程會(huì)直接崩潰,損失值變成NaN(非數(shù)值)。但使用OCC方法后,訓(xùn)練能夠穩(wěn)定進(jìn)行,最終收斂到與高精度訓(xùn)練相近的水平。

四、精密工程的協(xié)奏曲:混合精度訓(xùn)練的平衡藝術(shù)

將FP4量化技術(shù)應(yīng)用到實(shí)際的大型語(yǔ)言模型訓(xùn)練中,就像指揮一個(gè)龐大的交響樂團(tuán),需要讓不同的樂器在不同的時(shí)機(jī)發(fā)出不同音高的聲音,最終匯聚成和諧的樂章。研究團(tuán)隊(duì)面臨的挑戰(zhàn)不僅僅是讓某個(gè)單一組件工作,而是要讓整個(gè)復(fù)雜系統(tǒng)協(xié)調(diào)運(yùn)行。

在現(xiàn)代的Transformer架構(gòu)中,矩陣乘法運(yùn)算占據(jù)了超過95%的計(jì)算量,這些運(yùn)算就像交響樂中的主旋律,是整個(gè)系統(tǒng)的核心。研究團(tuán)隊(duì)將FP4量化主要應(yīng)用在這些矩陣乘法運(yùn)算上,同時(shí)保持其他運(yùn)算(如歸一化、激活函數(shù)等)使用更高的精度。這種做法就像讓小提琴組演奏主旋律時(shí)使用特殊的演奏技巧來(lái)節(jié)約體力,而讓其他樂器組保持標(biāo)準(zhǔn)演奏方式來(lái)確保音質(zhì)。

在量化的具體實(shí)施中,研究團(tuán)隊(duì)采用了向量級(jí)的量化粒度,而不是簡(jiǎn)單的張量級(jí)量化。這意味著對(duì)于激活矩陣,他們按照序列長(zhǎng)度維度進(jìn)行量化;對(duì)于權(quán)重矩陣,則按照輸出通道維度進(jìn)行量化。這種精細(xì)化的處理就像調(diào)音師為每個(gè)樂器單獨(dú)調(diào)音,而不是對(duì)整個(gè)樂團(tuán)使用統(tǒng)一的調(diào)音標(biāo)準(zhǔn)。

研究團(tuán)隊(duì)還發(fā)現(xiàn),量化的粒度對(duì)最終效果有著關(guān)鍵影響。當(dāng)他們嘗試使用更粗糙的張量級(jí)量化時(shí),訓(xùn)練效果會(huì)顯著下降,特別是對(duì)激活值進(jìn)行粗粒度量化時(shí),甚至?xí)?dǎo)致訓(xùn)練失敗。這個(gè)發(fā)現(xiàn)說明,在極低精度的量化中,細(xì)節(jié)的處理變得極其重要,就像在精密儀器的制造中,哪怕是微米級(jí)的誤差都可能導(dǎo)致整個(gè)系統(tǒng)失效。

為了驗(yàn)證技術(shù)的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)驗(yàn)證。他們使用LLaMA 2架構(gòu),在DCLM數(shù)據(jù)集上訓(xùn)練了1.3B、7B和13B三種不同規(guī)模的模型,每個(gè)模型都使用1000億個(gè)token進(jìn)行訓(xùn)練。這相當(dāng)于讓三個(gè)不同規(guī)模的樂團(tuán)都演奏同一首復(fù)雜的交響曲,來(lái)測(cè)試新的演奏技巧是否適用于不同的配置。

實(shí)驗(yàn)結(jié)果令人鼓舞。在1.3B參數(shù)的模型上,F(xiàn)P4訓(xùn)練的最終損失為2.55,而BF16訓(xùn)練的損失為2.49,差距僅為0.06。在7B參數(shù)模型上,這個(gè)差距是0.10(2.17 vs 2.07)。在最大的13B參數(shù)模型上,差距仍然控制在0.09(1.97 vs 1.88)。這些結(jié)果表明,即使使用了如此激進(jìn)的量化策略,模型的學(xué)習(xí)能力幾乎沒有受到影響。

更重要的是,研究團(tuán)隊(duì)在多個(gè)下游任務(wù)上測(cè)試了訓(xùn)練好的模型。這些任務(wù)包括常識(shí)推理、閱讀理解、邏輯推理等多個(gè)方面,就像讓樂團(tuán)不僅要會(huì)演奏古典音樂,還要能夠演奏爵士、搖滾等不同風(fēng)格的音樂。結(jié)果顯示,F(xiàn)P4訓(xùn)練的模型在這些任務(wù)上的表現(xiàn)與BF16訓(xùn)練的模型幾乎相同,有些任務(wù)上甚至略有超越。

例如,在1.3B模型上,F(xiàn)P4訓(xùn)練的平均準(zhǔn)確率為53.13%,而BF16訓(xùn)練的準(zhǔn)確率為53.23%,差距僅為0.10%。在7B模型上,F(xiàn)P4訓(xùn)練的結(jié)果甚至略好于BF16(54.42% vs 53.87%)。這些結(jié)果有力地證明了FP4訓(xùn)練技術(shù)的實(shí)用性和可靠性。

五、硬件加速的未來(lái)圖景:從理論到現(xiàn)實(shí)的最后一躍

盡管研究團(tuán)隊(duì)在算法和方法上取得了重大突破,但他們也坦誠(chéng)地指出了當(dāng)前面臨的一個(gè)重要限制:現(xiàn)有的硬件還不支持原生的FP4計(jì)算。這就像設(shè)計(jì)出了一種全新的高效汽車發(fā)動(dòng)機(jī),但目前的道路基礎(chǔ)設(shè)施還無(wú)法完全發(fā)揮其優(yōu)勢(shì)。

目前的實(shí)驗(yàn)都是在NVIDIA的H100 GPU上進(jìn)行的,這些GPU原生支持FP8計(jì)算,研究團(tuán)隊(duì)通過FP8來(lái)模擬FP4的計(jì)算過程。雖然這種模擬能夠驗(yàn)證算法的正確性,但無(wú)法直接體現(xiàn)FP4帶來(lái)的性能優(yōu)勢(shì)。就像在現(xiàn)有的道路上測(cè)試新發(fā)動(dòng)機(jī),雖然能證明發(fā)動(dòng)機(jī)確實(shí)更高效,但無(wú)法展現(xiàn)它在專用道路上的全部潛力。

不過,這種情況很快就會(huì)改變。NVIDIA即將發(fā)布的B200系列GPU將原生支持FP4和FP6計(jì)算,這意味著研究團(tuán)隊(duì)的技術(shù)將能夠在真正的硬件上發(fā)揮作用。根據(jù)理論分析,F(xiàn)P4相比FP8能夠提供2倍的計(jì)算吞吐量提升,這將帶來(lái)顯著的訓(xùn)練加速。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的理論性能分析。他們計(jì)算了在一個(gè)標(biāo)準(zhǔn)的Transformer層中,各個(gè)組件在不同精度下的計(jì)算量。對(duì)于一個(gè)典型的7B參數(shù)模型,理論上FP4訓(xùn)練相比FP32訓(xùn)練能夠獲得約3.12倍的加速比。即使考慮到DGE和OCC方法帶來(lái)的額外計(jì)算開銷,最終的加速比仍然能夠達(dá)到2.95倍左右。

這種加速不僅僅意味著訓(xùn)練時(shí)間的縮短,更重要的是能源消耗的大幅降低。在當(dāng)前AI訓(xùn)練消耗巨大的背景下,這種技術(shù)的普及將對(duì)整個(gè)行業(yè)產(chǎn)生深遠(yuǎn)影響。一個(gè)需要在16000塊GPU上訓(xùn)練54天的模型,使用FP4技術(shù)后可能只需要在5000-6000塊GPU上訓(xùn)練相同的時(shí)間,或者在相同的硬件上只需要18天左右就能完成訓(xùn)練。

除了直接的性能提升,F(xiàn)P4訓(xùn)練還將顯著降低內(nèi)存占用。由于數(shù)據(jù)精度的降低,相同的硬件能夠處理更大的模型或更大的批次大小,這進(jìn)一步提升了訓(xùn)練效率。這種內(nèi)存效率的提升對(duì)于那些硬件資源有限的研究機(jī)構(gòu)和公司來(lái)說特別有意義。

研究團(tuán)隊(duì)也指出了技術(shù)推廣面臨的一些挑戰(zhàn)。首先是硬件的普及需要時(shí)間,新一代支持FP4的GPU需要逐步替換現(xiàn)有設(shè)備。其次是軟件生態(tài)系統(tǒng)的完善,需要深度學(xué)習(xí)框架、編譯器和相關(guān)工具鏈的支持。最后是算法的進(jìn)一步優(yōu)化,雖然當(dāng)前的結(jié)果已經(jīng)很好,但仍有改進(jìn)空間。

不過,研究團(tuán)隊(duì)對(duì)這項(xiàng)技術(shù)的前景非常樂觀。他們認(rèn)為,隨著硬件支持的到位和算法的持續(xù)優(yōu)化,F(xiàn)P4訓(xùn)練將成為大型語(yǔ)言模型訓(xùn)練的標(biāo)準(zhǔn)選擇之一,特別是在資源受限或?qū)δ苄в懈咭蟮膱?chǎng)景中。

六、技術(shù)細(xì)節(jié)的精妙設(shè)計(jì):魔鬼藏在實(shí)現(xiàn)里

要真正理解這項(xiàng)技術(shù)的價(jià)值,我們需要深入看看那些不起眼但至關(guān)重要的實(shí)現(xiàn)細(xì)節(jié)。這些細(xì)節(jié)就像一座精美建筑的地基和鋼筋,雖然不顯眼,但決定了整個(gè)結(jié)構(gòu)的穩(wěn)固性。

在FP4的具體實(shí)現(xiàn)中,研究團(tuán)隊(duì)選擇了E2M1格式,這是一個(gè)經(jīng)過深思熟慮的決定。這種格式用2位表示指數(shù),1位表示尾數(shù),能夠在極其有限的4位空間內(nèi)實(shí)現(xiàn)最佳的數(shù)值范圍和精度平衡。相比其他可能的4位格式,E2M1能夠表示從-6到+6的數(shù)值范圍,同時(shí)在關(guān)鍵的小數(shù)值區(qū)間保持足夠的精度。

由于FP4格式只能表示16個(gè)不同的數(shù)值,傳統(tǒng)的浮點(diǎn)運(yùn)算單元無(wú)法直接處理,研究團(tuán)隊(duì)不得不開發(fā)專門的CUDA內(nèi)核來(lái)實(shí)現(xiàn)量化操作。這個(gè)內(nèi)核使用查找表的方式,將輸入的任意浮點(diǎn)數(shù)映射到最接近的16個(gè)FP4數(shù)值之一。雖然聽起來(lái)簡(jiǎn)單,但在GPU的并行計(jì)算環(huán)境中高效實(shí)現(xiàn)這種映射需要精密的工程設(shè)計(jì)。

在DGE方法的實(shí)現(xiàn)中,研究團(tuán)隊(duì)遇到了一個(gè)數(shù)學(xué)上的奇點(diǎn)問題。當(dāng)輸入值正好位于量化區(qū)間的中點(diǎn)時(shí),導(dǎo)數(shù)會(huì)趨向無(wú)窮大,這在數(shù)值計(jì)算中是不可接受的。他們的解決方案是引入一個(gè)小的正數(shù)ε來(lái)平滑這個(gè)奇點(diǎn),使得函數(shù)變?yōu)?|x| ≈ √(x? + ε?)。這種處理既保持了數(shù)學(xué)上的嚴(yán)謹(jǐn)性,又確保了計(jì)算的穩(wěn)定性。

對(duì)于OCC方法,研究團(tuán)隊(duì)需要在訓(xùn)練過程中實(shí)時(shí)維護(hù)一個(gè)稀疏矩陣來(lái)記錄被鉗制的離群值信息。這個(gè)稀疏矩陣的維護(hù)是一個(gè)技術(shù)挑戰(zhàn),因?yàn)樗枰诒3指咝实耐瑫r(shí)準(zhǔn)確跟蹤哪些位置有離群值、這些離群值的具體數(shù)值是多少。研究團(tuán)隊(duì)采用了混合精度的策略,主計(jì)算路徑使用FP4,而稀疏補(bǔ)償路徑使用FP8,在效率和精度之間找到了最佳平衡點(diǎn)。

在量化粒度的選擇上,研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)重要規(guī)律:激活值比權(quán)重值更難量化。這種差異的根源在于兩者的數(shù)據(jù)分布特性不同。權(quán)重在訓(xùn)練過程中會(huì)逐漸收斂到相對(duì)穩(wěn)定的分布,而激活值則會(huì)隨著輸入數(shù)據(jù)的變化而劇烈波動(dòng),特別是那些離群值的出現(xiàn)更加不可預(yù)測(cè)。

為了應(yīng)對(duì)這種差異,研究團(tuán)隊(duì)為權(quán)重和激活值設(shè)計(jì)了不同的處理策略。對(duì)于權(quán)重,主要依賴DGE方法來(lái)提升梯度計(jì)算的精度;對(duì)于激活值,則重點(diǎn)使用OCC方法來(lái)處理離群值問題。這種差異化的處理體現(xiàn)了技術(shù)方案的精細(xì)化和專業(yè)化。

研究團(tuán)隊(duì)還發(fā)現(xiàn),在實(shí)際的大規(guī)模訓(xùn)練中,不同Transformer層的激活值特性存在顯著差異。淺層網(wǎng)絡(luò)的激活值相對(duì)比較規(guī)整,容易量化;而深層網(wǎng)絡(luò)的激活值則更加復(fù)雜,離群值現(xiàn)象更加嚴(yán)重。這種層間差異為未來(lái)的優(yōu)化提供了新的思路,比如可能為不同的層采用不同的量化策略。

說到底,這項(xiàng)研究就像是給計(jì)算機(jī)的"大腦"安裝了一套更高效的"思維方式"。原本需要用復(fù)雜精確的方式處理每個(gè)信息,現(xiàn)在可以用更簡(jiǎn)化但同樣有效的方式來(lái)工作,大大提升了整體效率。更重要的是,這種技術(shù)民主化了AI訓(xùn)練的門檻——原本只有科技巨頭才能承擔(dān)的大模型訓(xùn)練成本,現(xiàn)在中小型研究機(jī)構(gòu)和公司也有可能參與進(jìn)來(lái)。

從長(zhǎng)遠(yuǎn)來(lái)看,這項(xiàng)技術(shù)不僅僅是一個(gè)技術(shù)優(yōu)化,更是推動(dòng)AI技術(shù)普及和可持續(xù)發(fā)展的重要一步。當(dāng)訓(xùn)練大型語(yǔ)言模型的成本降低到原來(lái)的四分之一時(shí),我們可能會(huì)看到更多創(chuàng)新的應(yīng)用場(chǎng)景涌現(xiàn),更多研究者能夠參與到AI技術(shù)的發(fā)展中來(lái),最終受益的將是整個(gè)社會(huì)。

當(dāng)然,技術(shù)的完善和普及還需要時(shí)間,特別是硬件支持的全面到位。但正如研究團(tuán)隊(duì)在論文中所展示的那樣,這項(xiàng)技術(shù)已經(jīng)在實(shí)驗(yàn)室環(huán)境中證明了其可行性和有效性。隨著NVIDIA B系列GPU等支持FP4計(jì)算的硬件逐步發(fā)布,我們有理由期待這項(xiàng)技術(shù)在不久的將來(lái)能夠真正改變AI訓(xùn)練的游戲規(guī)則,有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文地址 arXiv:2501.17116v2 訪問完整的研究報(bào)告。

Q&A

Q1:FP4量化訓(xùn)練是什么?能帶來(lái)多少性能提升?

A:FP4量化訓(xùn)練是一種讓大型語(yǔ)言模型使用4位浮點(diǎn)數(shù)進(jìn)行訓(xùn)練的技術(shù),相比傳統(tǒng)的16位訓(xùn)練方法,理論上能夠提供接近4倍的計(jì)算加速和顯著的內(nèi)存節(jié)省。微軟的研究表明,即使使用如此低的精度,模型的訓(xùn)練效果幾乎不受影響。

Q2:FP4訓(xùn)練會(huì)不會(huì)影響AI模型的智能水平?

A:根據(jù)微軟研究院的實(shí)驗(yàn)結(jié)果,F(xiàn)P4訓(xùn)練的模型在各種任務(wù)上的表現(xiàn)與傳統(tǒng)高精度訓(xùn)練的模型幾乎相同,在某些測(cè)試中甚至略有超越。研究團(tuán)隊(duì)在130億參數(shù)的模型上驗(yàn)證了這一點(diǎn),證明極低精度訓(xùn)練不會(huì)損害模型的"智能"。

Q3:普通人什么時(shí)候能用上FP4訓(xùn)練技術(shù)?

A:目前這項(xiàng)技術(shù)還需要專門的硬件支持,NVIDIA即將發(fā)布的B200系列GPU將原生支持FP4計(jì)算。預(yù)計(jì)在未來(lái)1-2年內(nèi),隨著新硬件的普及和軟件生態(tài)的完善,這項(xiàng)技術(shù)將逐步應(yīng)用到實(shí)際的AI訓(xùn)練中,大幅降低AI模型的訓(xùn)練成本。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-