當(dāng)我們把一個(gè)高清視頻壓縮成模糊的低畫質(zhì)版本時(shí),雖然文件變小了,但觀看體驗(yàn)也大打折扣。類似的問題在人工智能領(lǐng)域也存在:為了讓大型語言模型能在手機(jī)、平板等設(shè)備上運(yùn)行,研究人員需要對(duì)模型進(jìn)行"瘦身"——這個(gè)過程叫做量化。然而,傳統(tǒng)的量化方法就像把一個(gè)身強(qiáng)力壯的人突然節(jié)食減肥,雖然體重下來了,但也變得虛弱無力。
這項(xiàng)由韓國大學(xué)的樸正宇、李泰宇、尹昌雄、黃炫、姜在宇團(tuán)隊(duì)(同時(shí)隸屬于AIGEN Sciences)在2025年6月發(fā)表的研究,提出了一種全新的解決方案。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2506.19697v1訪問完整論文。研究團(tuán)隊(duì)不再試圖在訓(xùn)練完成后給模型"減肥",而是從一開始就用特殊的方法訓(xùn)練模型,讓它天生就具備在低精度環(huán)境下保持強(qiáng)勁性能的能力。
研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)訓(xùn)練方法產(chǎn)生的模型就像一個(gè)習(xí)慣了精細(xì)操作的工匠,突然要求他用粗糙的工具工作時(shí)就會(huì)手忙腳亂。而他們的新方法——被稱為"無異常值安全預(yù)訓(xùn)練"(Outlier-Safe Pre-Training,簡稱OSP)——就像從小就訓(xùn)練一個(gè)人適應(yīng)各種惡劣環(huán)境,讓他在任何條件下都能發(fā)揮出色。
在傳統(tǒng)的模型訓(xùn)練過程中,某些神經(jīng)元會(huì)變得異常活躍,就像一個(gè)團(tuán)隊(duì)中總有幾個(gè)特別"跳脫"的成員。這些異?;钴S的神經(jīng)元被稱為"異常值"或"離群值",它們雖然在正常情況下能發(fā)揮作用,但在模型被壓縮時(shí)卻成了最大的麻煩制造者。研究團(tuán)隊(duì)通過分析發(fā)現(xiàn),這些異常值的出現(xiàn)主要源于三個(gè)方面:優(yōu)化器的選擇、模型架構(gòu)的設(shè)計(jì),以及訓(xùn)練過程中的一些細(xì)節(jié)處理。
針對(duì)這些問題,研究團(tuán)隊(duì)設(shè)計(jì)了一套三管齊下的解決方案。第一個(gè)關(guān)鍵改進(jìn)是采用了名為Muon的新型優(yōu)化器。如果把傳統(tǒng)的Adam優(yōu)化器比作一個(gè)只會(huì)按部就班的管家,那么Muon就像一個(gè)經(jīng)驗(yàn)豐富的調(diào)酒師,能夠巧妙地平衡各種成分,避免某些"口味"過于突出。Muon優(yōu)化器的核心特點(diǎn)是使用了牛頓-舒爾茨算法來處理梯度信息,這種方法能夠防止某些神經(jīng)元獲得過多的"特權(quán)",從而有效抑制異常值的產(chǎn)生。
第二個(gè)改進(jìn)涉及模型的歸一化層設(shè)計(jì)。傳統(tǒng)的RMSNorm就像給每個(gè)房間都配備不同功率的空調(diào),雖然能精確控制,但也容易造成某些房間過熱或過冷。研究團(tuán)隊(duì)提出的Single-Scale RMSNorm(SSNORM)則像使用一個(gè)中央空調(diào)系統(tǒng),所有房間共享同一個(gè)溫度控制參數(shù),這樣就避免了某些"房間"獲得過多關(guān)注的問題。
第三個(gè)關(guān)鍵組件是可學(xué)習(xí)的嵌入投影層。由于詞匯表嵌入層通常非常龐大,直接對(duì)其應(yīng)用Muon優(yōu)化器會(huì)帶來巨大的計(jì)算開銷。研究團(tuán)隊(duì)采用了一種巧妙的折中方案:繼續(xù)使用Adam優(yōu)化器來訓(xùn)練嵌入層,但在嵌入層之后添加一個(gè)特殊的投影層來"重新分配"激活值,就像在水管系統(tǒng)中安裝一個(gè)分流器,確保水流均勻分布而不會(huì)在某些地方形成過大的壓力。
為了驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)。他們訓(xùn)練了一個(gè)包含14億參數(shù)的模型,使用了高達(dá)1萬億個(gè)訓(xùn)練樣本——這是首個(gè)在如此大規(guī)模下驗(yàn)證無異常值訓(xùn)練方法的研究。實(shí)驗(yàn)結(jié)果令人振奮:使用OSP框架訓(xùn)練的模型在經(jīng)過激進(jìn)的4位量化后,在10個(gè)標(biāo)準(zhǔn)測(cè)試任務(wù)上的平均得分達(dá)到35.7分,而使用傳統(tǒng)Adam優(yōu)化器訓(xùn)練的同等規(guī)模模型僅能達(dá)到26.5分。
更令人印象深刻的是,這種改進(jìn)并非以犧牲訓(xùn)練效率為代價(jià)。OSP框架的訓(xùn)練時(shí)間僅比傳統(tǒng)方法增加2%,同時(shí)內(nèi)存使用量還減少了33%。這就像找到了一種既能讓食物更營養(yǎng)又能降低烹飪成本的神奇食譜。
研究團(tuán)隊(duì)還深入分析了異常值產(chǎn)生的根本原因。他們發(fā)現(xiàn),之前許多研究將異常值歸咎于"注意力匯聚"現(xiàn)象——即模型在處理序列時(shí)會(huì)過度關(guān)注某些特定位置的詞匯。但通過對(duì)無異常值模型的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)注意力匯聚現(xiàn)象依然存在,但并不會(huì)產(chǎn)生異常值。這說明注意力匯聚本身不是問題的根源,真正的問題在于訓(xùn)練過程中某些神經(jīng)元獲得了過度的"特權(quán)地位"。
在無異常值的模型中,注意力機(jī)制采用了一種更加"民主"的工作方式。傳統(tǒng)模型為了實(shí)現(xiàn)"忽略某些信息"的效果,會(huì)將相關(guān)的注意力權(quán)重推向極端的負(fù)值,這個(gè)過程就像用力過猛的剎車,雖然能停下車但會(huì)產(chǎn)生強(qiáng)烈的震動(dòng)。而OSP訓(xùn)練的模型則學(xué)會(huì)了更加溫和的方式來實(shí)現(xiàn)同樣的效果,就像一個(gè)熟練的司機(jī)能夠平穩(wěn)地減速停車。
從技術(shù)角度來看,這項(xiàng)研究的意義遠(yuǎn)不止于提高量化性能。它展示了一種全新的思路:與其在模型訓(xùn)練完成后費(fèi)力地"修補(bǔ)"問題,不如從源頭上預(yù)防問題的產(chǎn)生。這種預(yù)防性的方法不僅更加有效,而且與現(xiàn)有的后處理量化技術(shù)完全兼容,可以實(shí)現(xiàn)1+1>2的效果。
研究團(tuán)隊(duì)的工作還揭示了一個(gè)重要的認(rèn)知轉(zhuǎn)變:異常值并非大語言模型的固有特性,而是訓(xùn)練策略的副產(chǎn)品。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)某種被認(rèn)為是遺傳疾病的癥狀其實(shí)是由環(huán)境因素造成的一樣,為整個(gè)領(lǐng)域開辟了新的研究方向。
在實(shí)際應(yīng)用層面,這項(xiàng)技術(shù)的價(jià)值不言而喻。隨著大語言模型越來越多地部署在移動(dòng)設(shè)備、邊緣計(jì)算設(shè)備和嵌入式系統(tǒng)中,模型的壓縮和優(yōu)化變得至關(guān)重要。OSP框架為這些部署場(chǎng)景提供了一條更加可靠的技術(shù)路徑,讓強(qiáng)大的AI能力真正走進(jìn)千家萬戶。
值得注意的是,這項(xiàng)研究還公開了完整的源代碼和預(yù)訓(xùn)練模型,為學(xué)術(shù)界和工業(yè)界的進(jìn)一步研究提供了寶貴的資源。這種開放的態(tài)度體現(xiàn)了研究團(tuán)隊(duì)對(duì)推動(dòng)整個(gè)領(lǐng)域發(fā)展的責(zé)任感,也為其他研究者驗(yàn)證和改進(jìn)這一方法提供了便利。
從更廣闊的視角來看,這項(xiàng)工作代表了AI優(yōu)化領(lǐng)域的一個(gè)重要里程碑。它不僅解決了一個(gè)具體的技術(shù)問題,更重要的是展示了一種系統(tǒng)性思考和解決復(fù)雜技術(shù)挑戰(zhàn)的方法論。通過從訓(xùn)練的最初階段就考慮最終部署的需求,研究團(tuán)隊(duì)實(shí)現(xiàn)了一種真正意義上的端到端優(yōu)化。
研究團(tuán)隊(duì)的下一步計(jì)劃包括將這種方法擴(kuò)展到更大規(guī)模的模型,特別是30億和70億參數(shù)級(jí)別的模型,這些規(guī)模通常是移動(dòng)部署的主要目標(biāo)。同時(shí),他們也在探索如何將OSP框架與其他模型壓縮技術(shù)結(jié)合,以實(shí)現(xiàn)更加極致的優(yōu)化效果。
說到底,這項(xiàng)研究的核心價(jià)值在于它改變了我們對(duì)AI模型優(yōu)化的根本認(rèn)知。它告訴我們,真正的優(yōu)化不是在出現(xiàn)問題后亡羊補(bǔ)牢,而是在問題萌芽階段就將其扼殺在搖籃中。這種思維方式的轉(zhuǎn)變,或許會(huì)在未來幾年中催生更多創(chuàng)新性的解決方案,讓AI技術(shù)變得更加高效、可靠和普惠。對(duì)于普通用戶而言,這意味著未來我們將能夠在自己的手機(jī)和電腦上運(yùn)行更加強(qiáng)大的AI助手,而不必?fù)?dān)心性能折損或電池快速耗盡的問題。
Q&A
Q1:什么是量化?為什么需要對(duì)AI模型進(jìn)行量化? A:量化就像把高清視頻壓縮成標(biāo)清版本,目的是讓AI模型變得更小、更省電,能在手機(jī)等設(shè)備上運(yùn)行。但傳統(tǒng)量化會(huì)導(dǎo)致模型性能大幅下降,就像壓縮視頻會(huì)變模糊一樣。
Q2:OSP框架和傳統(tǒng)訓(xùn)練方法有什么不同? A:傳統(tǒng)方法是先訓(xùn)練好模型再壓縮,就像先做好精細(xì)手工再要求用粗糙工具重做。OSP框架從一開始就用特殊方法訓(xùn)練,讓模型天生適應(yīng)壓縮環(huán)境,就像從小訓(xùn)練適應(yīng)各種惡劣條件的運(yùn)動(dòng)員。
Q3:這項(xiàng)技術(shù)對(duì)普通用戶有什么實(shí)際意義? A:這意味著未來手機(jī)上的AI助手會(huì)更強(qiáng)大但不會(huì)更耗電,你可以在自己的設(shè)備上運(yùn)行接近云端級(jí)別的AI功能,而且響應(yīng)更快、隱私更安全,不需要總是聯(lián)網(wǎng)使用AI服務(wù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。