當(dāng)我們談?wù)撊斯ぶ悄艽笳Z(yǔ)言模型(如ChatGPT)時(shí),往往聚焦于它們能做什么,卻很少關(guān)注這些技術(shù)奇跡背后的運(yùn)行成本。來(lái)自微軟、人民大學(xué)、紐約大學(xué)和華南理工大學(xué)的研究團(tuán)隊(duì)在2025年5月26日發(fā)布的一項(xiàng)新研究中,提出了一個(gè)名為"WINA"(Weight Informed Neuron Activation)的創(chuàng)新方法,這項(xiàng)技術(shù)可以顯著加速大語(yǔ)言模型的推理過(guò)程,同時(shí)保持模型性能幾乎不變。該研究論文已發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.19427v1),其源代碼也已在GitHub上公開(kāi)(https://github.com/microsoft/wina)。
想象一下,如果大語(yǔ)言模型是一座巨大的圖書(shū)館,傳統(tǒng)方法是每次查詢(xún)都需要檢索整個(gè)圖書(shū)館的每一本書(shū)。而像MoE(Mixture-of-Experts)這樣的技術(shù)則類(lèi)似于雇傭?qū)<茵^員,他們知道哪些書(shū)架與你的問(wèn)題最相關(guān)。但問(wèn)題是,培訓(xùn)這些"專(zhuān)家館員"需要大量時(shí)間和資源。WINA則提供了一種不需要額外培訓(xùn)的方法,它就像一個(gè)聰明的圖書(shū)管理系統(tǒng),可以立即判斷哪些書(shū)架(神經(jīng)元)對(duì)回答當(dāng)前問(wèn)題最重要,而暫時(shí)忽略其他不太相關(guān)的書(shū)架,從而大大提高檢索效率。
當(dāng)今大型語(yǔ)言模型規(guī)模龐大,計(jì)算需求驚人,特別是在推理階段,控制計(jì)算成本同時(shí)保持輸出質(zhì)量成為關(guān)鍵挑戰(zhàn)。雖然已有一些方法,如專(zhuān)家混合(MoE)架構(gòu)和模型蒸餾等技術(shù),可以減少推理時(shí)的計(jì)算量,但它們通常需要大量的訓(xùn)練或再訓(xùn)練。相比之下,無(wú)訓(xùn)練稀疏激活方法則更具廣泛適用性,因?yàn)樗鼈兛梢约床寮从茫瑹o(wú)需額外訓(xùn)練即可應(yīng)用于現(xiàn)成的模型。
然而,現(xiàn)有的無(wú)訓(xùn)練方法如TEAL和CATS僅依靠隱藏狀態(tài)的大小來(lái)決定激活,導(dǎo)致高估計(jì)誤差和次優(yōu)推理準(zhǔn)確性。正如研究的第一作者、人民大學(xué)的陳思漢和微軟的陳天毅(共同第一作者)所指出的,這些方法忽略了權(quán)重矩陣在誤差傳播中的影響,未能考慮輸入元素與權(quán)重矩陣在前向傳播過(guò)程中的交互如何影響模型輸出。
WINA的核心創(chuàng)新在于同時(shí)考慮隱藏狀態(tài)大小和權(quán)重矩陣的列式l2范數(shù)。這聽(tīng)起來(lái)很專(zhuān)業(yè),但可以簡(jiǎn)單理解為:WINA不僅看神經(jīng)元當(dāng)前的"活躍度"有多高,還考慮每個(gè)神經(jīng)元對(duì)下游層影響的"重要性權(quán)重"。這就像在決定去聽(tīng)哪場(chǎng)講座時(shí),不僅考慮講座的熱度,還要考慮講者的專(zhuān)業(yè)水平和影響力。
這種方法創(chuàng)建了一個(gè)稀疏激活框架,允許模型在推理時(shí)僅激活最具影響力的神經(jīng)元,從而構(gòu)建一個(gè)能保持原始模型表達(dá)能力的稀疏子網(wǎng)絡(luò)。理論分析表明,在溫和假設(shè)下(如權(quán)重的列式正交性和單調(diào)激活函數(shù)),WINA的輸出誤差期望值低于其他可比方法,這一保證可擴(kuò)展到多層架構(gòu)。
研究團(tuán)隊(duì)在多個(gè)流行的大語(yǔ)言模型上評(píng)估了WINA,包括Qwen-2.5(7B參數(shù))、LLaMA系列(7B和8B)以及Phi-4(14B)。實(shí)驗(yàn)顯示,WINA在相同稀疏度水平下比最先進(jìn)的無(wú)訓(xùn)練方法(如TEAL)的平均性能高出最多2.94%,同時(shí)減少了高達(dá)60-65%的計(jì)算量。
一、權(quán)重感知激活:WINA如何工作?
想象你是一位電影導(dǎo)演,需要從一個(gè)大型演員陣容中選擇合適的演員出演一場(chǎng)特定的戲。傳統(tǒng)方法(如TEAL)只關(guān)注演員的個(gè)人能力(隱藏狀態(tài)大?。?,但WINA不僅考慮演員的能力,還考慮這場(chǎng)戲在整部電影中的重要性(權(quán)重矩陣的影響)。
WINA的工作原理可以分為幾個(gè)關(guān)鍵步驟。首先,對(duì)于每一層神經(jīng)網(wǎng)絡(luò),它會(huì)計(jì)算輸入張量(即隱藏狀態(tài))的大小,這類(lèi)似于測(cè)量每個(gè)演員的個(gè)人表演能力。接著,它計(jì)算相關(guān)權(quán)重矩陣的列式l2范數(shù),這相當(dāng)于評(píng)估每個(gè)角色對(duì)整部電影的重要性。然后,WINA將這兩個(gè)因素結(jié)合起來(lái)(通過(guò)元素乘積),找出影響最大的輸入維度,即那些既有高激活強(qiáng)度又有高權(quán)重重要性的神經(jīng)元。
在數(shù)學(xué)上,WINA構(gòu)建二進(jìn)制激活門(mén),通過(guò)選擇特定標(biāo)準(zhǔn)的前K個(gè)組件:如果|xici|在|x⊙c|中是前K個(gè)值之一,則mi=1,否則mi=0。這里,c∈R?表示W(wǎng)的列式l2范數(shù),⊙表示Hadamard或元素乘積。K的選擇可以靈活調(diào)整,從粗粒度的通用標(biāo)準(zhǔn)(所有層共享同一個(gè)K)到細(xì)粒度的層特定策略(為每層單獨(dú)分配K以更好地最小化近似誤差)。
這種方法的優(yōu)勢(shì)在于,它不僅考慮了神經(jīng)元的當(dāng)前激活狀態(tài),還考慮了每個(gè)神經(jīng)元對(duì)網(wǎng)絡(luò)整體輸出的潛在貢獻(xiàn)。這就像在組建一個(gè)高效團(tuán)隊(duì)時(shí),不僅看個(gè)人能力,還要看每個(gè)人如何與團(tuán)隊(duì)互補(bǔ)并對(duì)最終目標(biāo)做出貢獻(xiàn)。
二、理論基礎(chǔ):為什么WINA比其他方法更優(yōu)?
為了理解WINA的理論優(yōu)勢(shì),讓我們想象一個(gè)簡(jiǎn)單的類(lèi)比。假設(shè)你正在整理一個(gè)大型書(shū)架,但只有有限的時(shí)間,因此需要決定保留哪些書(shū)籍。傳統(tǒng)方法可能只考慮書(shū)的受歡迎程度(隱藏狀態(tài)大?。鳺INA同時(shí)考慮書(shū)的受歡迎程度和它在整個(gè)藏書(shū)系統(tǒng)中的獨(dú)特價(jià)值(權(quán)重矩陣的影響)。
研究團(tuán)隊(duì)證明,在單層網(wǎng)絡(luò)的情況下,WINA的激活策略可以獲得比TEAL更緊的近似誤差界。具體來(lái)說(shuō),當(dāng)權(quán)重矩陣W滿足列式正交性(即W^TW=I,其中I是單位矩陣)時(shí),WINA保留具有最大|xj·‖W·,j‖2|值的k個(gè)元素,其期望輸出誤差小于或等于TEAL(保留具有最大|xj|值的k個(gè)元素)的誤差。
這一理論結(jié)果可以擴(kuò)展到具有L個(gè)線性層的網(wǎng)絡(luò)。研究表明,如果網(wǎng)絡(luò)中存在一個(gè)子集S?{1,...,N},使得每個(gè)矩陣W^(l)(l∈S)是列式正交的,那么WINA的期望偏差仍小于TEAL的偏差。
更重要的是,這些結(jié)果對(duì)于配備各種激活函數(shù)的真實(shí)深度神經(jīng)網(wǎng)絡(luò)仍然有效,只要這些函數(shù)滿足單調(diào)遞增特性(如ReLU及其變體、sigmoid和softmax等)。這一事實(shí)確保了WINA在各種深度神經(jīng)網(wǎng)絡(luò)架構(gòu)中的廣泛適用性。
為了彌合理論和實(shí)踐之間的差距,研究團(tuán)隊(duì)還提出了一個(gè)張量變換框架,在不改變模型輸出的情況下,強(qiáng)制相關(guān)權(quán)重矩陣滿足列正交性。具體地,他們通過(guò)奇異值分解(SVD)對(duì)權(quán)重矩陣W進(jìn)行變換,使得變換后的矩陣滿足列正交性條件。然后,他們通過(guò)計(jì)算不變性來(lái)補(bǔ)償這種變換的影響,確保模型的最終輸出保持不變。
三、實(shí)驗(yàn)結(jié)果:WINA在現(xiàn)實(shí)中的表現(xiàn)如何?
想象你正在比較不同的交通路線,希望找到一條既快速又安全的路線。類(lèi)似地,研究團(tuán)隊(duì)在多個(gè)主流大語(yǔ)言模型上評(píng)估了WINA,以測(cè)試它在現(xiàn)實(shí)世界中的性能和效率。
實(shí)驗(yàn)設(shè)置非常全面。研究團(tuán)隊(duì)使用了四個(gè)不同的模型:Qwen-2.5-7B、Llama-2-7B、Llama-3-8B和Phi-4-14B,覆蓋了從7B到14B參數(shù)的模型范圍。他們使用Alpaca數(shù)據(jù)集(包含52,000條指令和演示)來(lái)構(gòu)建隱藏狀態(tài)分布并計(jì)算每層的閾值。評(píng)估則基于廣泛的下游任務(wù),包括PIQA、WinoGrande、HellaSwag、Arc Challenge、MMLU和GSM8K,這些任務(wù)涵蓋了從常識(shí)推理到數(shù)學(xué)問(wèn)題解決的多種能力。
為了確保公平比較,研究團(tuán)隊(duì)采用了基于top-k的門(mén)控策略,并引入了一個(gè)額外的基線TEAL-Transform,即在變換后的模型上應(yīng)用TEAL方法。他們還使用TEAL中提出的貪婪算法為每層分配特定的稀疏比率,而不是跨模型使用統(tǒng)一的稀疏度。
結(jié)果令人印象深刻。在Qwen-2.5-7B上,WINA在所有稀疏度水平(25%-65%)上始終匹配或優(yōu)于TEAL和TEAL-transform。隨著稀疏度的增加,WINA與基線之間的性能差距變得更加明顯。例如,在65%稀疏度下,WINA比TEAL平均高出2.94%,比TEAL-transform高出1.41%。這表明WINA在高稀疏度下更加穩(wěn)健,可能是因?yàn)樗軌蛲ㄟ^(guò)同時(shí)考慮隱藏狀態(tài)大小和權(quán)重范數(shù)來(lái)保留最具影響力的激活。
在Llama-2-7B上,WINA在25%稀疏度下實(shí)現(xiàn)了最高的平均準(zhǔn)確率,優(yōu)于基于TEAL的基線甚至全模型。雖然在極端的65%稀疏度下性能自然下降,但WINA仍然提供了最佳準(zhǔn)確率,表明其在激進(jìn)剪枝下的魯棒性。
對(duì)于Llama-3-8B,雖然TEAL在25%稀疏度下略微領(lǐng)先,但WINA在所有剩余稀疏配置中都領(lǐng)先,在50%稀疏度和65%稀疏度下分別領(lǐng)先TEAL +1.06%和+2.41%。值得注意的是,WINA在GSM8K和ARC Challenge等推理密集型任務(wù)上保持特別強(qiáng)勁的性能,而其他方法在壓縮下顯示出顯著下降。
在Phi-4-14B上,WINA在所有測(cè)試的稀疏度水平上始終匹配或超過(guò)TEAL和TEAL-transform的準(zhǔn)確性,并在每個(gè)稀疏度設(shè)置下實(shí)現(xiàn)最高的平均分?jǐn)?shù)。在最高65%稀疏度下,WINA比TEAL和TEAL-transform分別提高了+2.01%和+0.86%。它能夠在GSM8K和MMLU等復(fù)雜基準(zhǔn)測(cè)試上保持高性能,即使在嚴(yán)格剪枝下也是如此,這凸顯了它的穩(wěn)定性。
除了性能提升外,WINA在所有評(píng)估的大語(yǔ)言模型中都實(shí)現(xiàn)了顯著的計(jì)算加速。在65%稀疏度下,WINA將總體FLOP減少了:在Qwen-2.5-7B上減少60.0%,在Llama-2-7B上減少63.7%,在Llama-3-8B上減少60.4%,在Phi-4-14B上減少62.7%。這些浮點(diǎn)運(yùn)算的一致減少可能轉(zhuǎn)化為更快的推理速度和更低的計(jì)算成本,證明WINA作為在緊張資源約束下部署的實(shí)用解決方案的有效性。
四、WINA與現(xiàn)有方法的比較:為什么它更勝一籌?
為了理解WINA的獨(dú)特優(yōu)勢(shì),讓我們把不同的稀疏激活方法比作不同的旅行規(guī)劃策略。傳統(tǒng)的稠密模型就像是一次周密計(jì)劃的旅行,訪問(wèn)所有可能的景點(diǎn),但耗時(shí)且昂貴。MoE等訓(xùn)練型方法則類(lèi)似于提前聘請(qǐng)當(dāng)?shù)貙?dǎo)游,他們知道哪些景點(diǎn)最值得一看,但培訓(xùn)這些"導(dǎo)游"本身就需要大量資源。
WINA與其他無(wú)訓(xùn)練方法(如TEAL和CATS)的關(guān)鍵區(qū)別在于如何選擇要訪問(wèn)的"景點(diǎn)"(即要激活的神經(jīng)元)。TEAL僅基于隱藏狀態(tài)大?。ň包c(diǎn)的受歡迎度)來(lái)決定保留哪些激活,而WINA同時(shí)考慮隱藏狀態(tài)大小和權(quán)重矩陣(景點(diǎn)的獨(dú)特價(jià)值和與旅行整體主題的相關(guān)性)。
研究團(tuán)隊(duì)創(chuàng)建了一個(gè)簡(jiǎn)潔的對(duì)比表,突出了WINA相對(duì)于TEAL和CATS的三個(gè)關(guān)鍵優(yōu)勢(shì):
首先,WINA提供了更緊的近似誤差界,這意味著它在稀疏激活過(guò)程中能更準(zhǔn)確地保持原始模型的輸出。其次,WINA具有層通用性,可以應(yīng)用于網(wǎng)絡(luò)的所有層,而不僅限于特定類(lèi)型的層(如CATS主要應(yīng)用于門(mén)控MLP層)。最后,WINA支持異構(gòu)稀疏性,允許不同層有不同的稀疏度,從而更靈活地分配計(jì)算資源。
這些優(yōu)勢(shì)的實(shí)際意義是顯著的。在高稀疏度(如65%)下,WINA比TEAL在Qwen-2.5-7B上平均高出2.94%,在Llama-3-8B上高出2.41%,在Phi-4-14B上高出2.01%。這些改進(jìn)不僅僅是百分點(diǎn)的小幅提升,而是在保持模型功能性的同時(shí),顯著降低了計(jì)算需求,對(duì)于部署在資源受限環(huán)境中的大型語(yǔ)言模型特別重要。
五、從理論到實(shí)踐:如何將WINA應(yīng)用于真實(shí)世界?
將WINA從理論轉(zhuǎn)化為實(shí)際應(yīng)用需要解決一個(gè)關(guān)鍵挑戰(zhàn):現(xiàn)實(shí)中的大語(yǔ)言模型往往不滿足列式正交性條件,這是WINA理論分析的基礎(chǔ)假設(shè)。
為了彌合這一差距,研究團(tuán)隊(duì)提出了一個(gè)張量變換框架,強(qiáng)制相關(guān)權(quán)重矩陣滿足列正交性,同時(shí)保持模型的最終輸出不變。具體來(lái)說(shuō),他們對(duì)權(quán)重矩陣W進(jìn)行奇異值分解(SVD):W = UΣV^T,其中U和V是正交矩陣,Σ是包含W奇異值的對(duì)角矩陣。
為了實(shí)現(xiàn)列正交性,他們?cè)O(shè)置Q = V并將W變換為:W = WV。這種變換保證了結(jié)果矩陣W'滿足列正交性:(W)^TW = Σ^TU^TUΣ = Σ^2。
為確保模型在這種變換后的最終輸出保持不變,研究團(tuán)隊(duì)使用了計(jì)算不變性;具體來(lái)說(shuō),他們通過(guò)SVD變換對(duì)自注意力層中的鍵投影矩陣Wk和MLP層中的門(mén)投影矩陣Wgate實(shí)施列式正交性約束。然后,他們將這些變換傳播到相鄰層,并相應(yīng)地調(diào)整殘差連接,以保持計(jì)算不變性。
在推理過(guò)程中,他們對(duì)這些變換后的列正交矩陣應(yīng)用所提出的激活標(biāo)準(zhǔn),同時(shí)對(duì)剩余矩陣使用傳統(tǒng)的基于輸入的激活標(biāo)準(zhǔn),就像在稀疏建模中通常做的那樣。
這種從理論到實(shí)踐的橋接方法確保了WINA不僅在理論上是合理的,而且在現(xiàn)實(shí)世界的大語(yǔ)言模型上也是有效的,即使這些模型的原始權(quán)重矩陣可能不滿足理論假設(shè)。
六、總結(jié)與展望:WINA對(duì)大型語(yǔ)言模型的未來(lái)意味著什么?
WINA代表了訓(xùn)練無(wú)關(guān)稀疏激活領(lǐng)域的重要進(jìn)步,為在推理階段加速大型語(yǔ)言模型提供了一種新的方法。通過(guò)同時(shí)考慮隱藏狀態(tài)大小和權(quán)重矩陣的列式l2范數(shù),WINA創(chuàng)建了一個(gè)能更準(zhǔn)確捕捉每個(gè)激活對(duì)下游層影響的稀疏化策略。
這種方法在理論上是有根據(jù)的,提供了比現(xiàn)有技術(shù)更緊的近似誤差界。這些理論保證在實(shí)踐中得到了驗(yàn)證,WINA在多種大型語(yǔ)言模型架構(gòu)和基準(zhǔn)測(cè)試中的表現(xiàn)優(yōu)于TEAL等最先進(jìn)的方法,在相同稀疏度水平下平均性能提高了最多2.94%。
這些發(fā)現(xiàn)的實(shí)際意義是顯著的。通過(guò)減少高達(dá)65%的計(jì)算量,同時(shí)保持相對(duì)較高的性能,WINA為在資源受限或延遲敏感環(huán)境中部署大型語(yǔ)言模型開(kāi)辟了新的可能性。這可能意味著更快的響應(yīng)時(shí)間、更低的能耗和更廣泛的大型語(yǔ)言模型應(yīng)用。
然而,盡管WINA取得了令人印象深刻的成果,研究團(tuán)隊(duì)承認(rèn)仍有改進(jìn)的空間。未來(lái)的研究可以探索更先進(jìn)的權(quán)重正交化技術(shù)、開(kāi)發(fā)適應(yīng)性稀疏度策略,或?qū)INA與其他模型壓縮方法(如量化或蒸餾)結(jié)合起來(lái),進(jìn)一步提高推理效率。
歸根結(jié)底,WINA代表了一種實(shí)用且高效的方法,可以在不損失太多性能的情況下加速大型語(yǔ)言模型推理。隨著這些模型繼續(xù)增長(zhǎng)并滲透到更多領(lǐng)域,像WINA這樣的創(chuàng)新將變得越來(lái)越重要,確保AI系統(tǒng)既強(qiáng)大又高效。
對(duì)于希望進(jìn)一步了解WINA的讀者,研究團(tuán)隊(duì)已在GitHub(https://github.com/microsoft/wina)上發(fā)布了源代碼,而完整論文可在arXiv(arXiv:2505.19427v1)上獲取。隨著大型語(yǔ)言模型繼續(xù)發(fā)展,WINA可能會(huì)成為使這些強(qiáng)大系統(tǒng)更加高效和可訪問(wèn)的重要工具。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。