當我們談論人工智能大語言模型(如ChatGPT)時,往往聚焦于它們能做什么,卻很少關注這些技術奇跡背后的運行成本。來自微軟、人民大學、紐約大學和華南理工大學的研究團隊在2025年5月26日發(fā)布的一項新研究中,提出了一個名為"WINA"(Weight Informed Neuron Activation)的創(chuàng)新方法,這項技術可以顯著加速大語言模型的推理過程,同時保持模型性能幾乎不變。該研究論文已發(fā)表在arXiv預印本平臺(arXiv:2505.19427v1),其源代碼也已在GitHub上公開(https://github.com/microsoft/wina)。
想象一下,如果大語言模型是一座巨大的圖書館,傳統(tǒng)方法是每次查詢都需要檢索整個圖書館的每一本書。而像MoE(Mixture-of-Experts)這樣的技術則類似于雇傭專家館員,他們知道哪些書架與你的問題最相關。但問題是,培訓這些"專家館員"需要大量時間和資源。WINA則提供了一種不需要額外培訓的方法,它就像一個聰明的圖書管理系統(tǒng),可以立即判斷哪些書架(神經(jīng)元)對回答當前問題最重要,而暫時忽略其他不太相關的書架,從而大大提高檢索效率。
當今大型語言模型規(guī)模龐大,計算需求驚人,特別是在推理階段,控制計算成本同時保持輸出質量成為關鍵挑戰(zhàn)。雖然已有一些方法,如專家混合(MoE)架構和模型蒸餾等技術,可以減少推理時的計算量,但它們通常需要大量的訓練或再訓練。相比之下,無訓練稀疏激活方法則更具廣泛適用性,因為它們可以即插即用,無需額外訓練即可應用于現(xiàn)成的模型。
然而,現(xiàn)有的無訓練方法如TEAL和CATS僅依靠隱藏狀態(tài)的大小來決定激活,導致高估計誤差和次優(yōu)推理準確性。正如研究的第一作者、人民大學的陳思漢和微軟的陳天毅(共同第一作者)所指出的,這些方法忽略了權重矩陣在誤差傳播中的影響,未能考慮輸入元素與權重矩陣在前向傳播過程中的交互如何影響模型輸出。
WINA的核心創(chuàng)新在于同時考慮隱藏狀態(tài)大小和權重矩陣的列式l2范數(shù)。這聽起來很專業(yè),但可以簡單理解為:WINA不僅看神經(jīng)元當前的"活躍度"有多高,還考慮每個神經(jīng)元對下游層影響的"重要性權重"。這就像在決定去聽哪場講座時,不僅考慮講座的熱度,還要考慮講者的專業(yè)水平和影響力。
這種方法創(chuàng)建了一個稀疏激活框架,允許模型在推理時僅激活最具影響力的神經(jīng)元,從而構建一個能保持原始模型表達能力的稀疏子網(wǎng)絡。理論分析表明,在溫和假設下(如權重的列式正交性和單調激活函數(shù)),WINA的輸出誤差期望值低于其他可比方法,這一保證可擴展到多層架構。
研究團隊在多個流行的大語言模型上評估了WINA,包括Qwen-2.5(7B參數(shù))、LLaMA系列(7B和8B)以及Phi-4(14B)。實驗顯示,WINA在相同稀疏度水平下比最先進的無訓練方法(如TEAL)的平均性能高出最多2.94%,同時減少了高達60-65%的計算量。
一、權重感知激活:WINA如何工作?
想象你是一位電影導演,需要從一個大型演員陣容中選擇合適的演員出演一場特定的戲。傳統(tǒng)方法(如TEAL)只關注演員的個人能力(隱藏狀態(tài)大?。?,但WINA不僅考慮演員的能力,還考慮這場戲在整部電影中的重要性(權重矩陣的影響)。
WINA的工作原理可以分為幾個關鍵步驟。首先,對于每一層神經(jīng)網(wǎng)絡,它會計算輸入張量(即隱藏狀態(tài))的大小,這類似于測量每個演員的個人表演能力。接著,它計算相關權重矩陣的列式l2范數(shù),這相當于評估每個角色對整部電影的重要性。然后,WINA將這兩個因素結合起來(通過元素乘積),找出影響最大的輸入維度,即那些既有高激活強度又有高權重重要性的神經(jīng)元。
在數(shù)學上,WINA構建二進制激活門,通過選擇特定標準的前K個組件:如果|xici|在|x⊙c|中是前K個值之一,則mi=1,否則mi=0。這里,c∈R?表示W(wǎng)的列式l2范數(shù),⊙表示Hadamard或元素乘積。K的選擇可以靈活調整,從粗粒度的通用標準(所有層共享同一個K)到細粒度的層特定策略(為每層單獨分配K以更好地最小化近似誤差)。
這種方法的優(yōu)勢在于,它不僅考慮了神經(jīng)元的當前激活狀態(tài),還考慮了每個神經(jīng)元對網(wǎng)絡整體輸出的潛在貢獻。這就像在組建一個高效團隊時,不僅看個人能力,還要看每個人如何與團隊互補并對最終目標做出貢獻。
二、理論基礎:為什么WINA比其他方法更優(yōu)?
為了理解WINA的理論優(yōu)勢,讓我們想象一個簡單的類比。假設你正在整理一個大型書架,但只有有限的時間,因此需要決定保留哪些書籍。傳統(tǒng)方法可能只考慮書的受歡迎程度(隱藏狀態(tài)大?。?,而WINA同時考慮書的受歡迎程度和它在整個藏書系統(tǒng)中的獨特價值(權重矩陣的影響)。
研究團隊證明,在單層網(wǎng)絡的情況下,WINA的激活策略可以獲得比TEAL更緊的近似誤差界。具體來說,當權重矩陣W滿足列式正交性(即W^TW=I,其中I是單位矩陣)時,WINA保留具有最大|xj·‖W·,j‖2|值的k個元素,其期望輸出誤差小于或等于TEAL(保留具有最大|xj|值的k個元素)的誤差。
這一理論結果可以擴展到具有L個線性層的網(wǎng)絡。研究表明,如果網(wǎng)絡中存在一個子集S?{1,...,N},使得每個矩陣W^(l)(l∈S)是列式正交的,那么WINA的期望偏差仍小于TEAL的偏差。
更重要的是,這些結果對于配備各種激活函數(shù)的真實深度神經(jīng)網(wǎng)絡仍然有效,只要這些函數(shù)滿足單調遞增特性(如ReLU及其變體、sigmoid和softmax等)。這一事實確保了WINA在各種深度神經(jīng)網(wǎng)絡架構中的廣泛適用性。
為了彌合理論和實踐之間的差距,研究團隊還提出了一個張量變換框架,在不改變模型輸出的情況下,強制相關權重矩陣滿足列正交性。具體地,他們通過奇異值分解(SVD)對權重矩陣W進行變換,使得變換后的矩陣滿足列正交性條件。然后,他們通過計算不變性來補償這種變換的影響,確保模型的最終輸出保持不變。
三、實驗結果:WINA在現(xiàn)實中的表現(xiàn)如何?
想象你正在比較不同的交通路線,希望找到一條既快速又安全的路線。類似地,研究團隊在多個主流大語言模型上評估了WINA,以測試它在現(xiàn)實世界中的性能和效率。
實驗設置非常全面。研究團隊使用了四個不同的模型:Qwen-2.5-7B、Llama-2-7B、Llama-3-8B和Phi-4-14B,覆蓋了從7B到14B參數(shù)的模型范圍。他們使用Alpaca數(shù)據(jù)集(包含52,000條指令和演示)來構建隱藏狀態(tài)分布并計算每層的閾值。評估則基于廣泛的下游任務,包括PIQA、WinoGrande、HellaSwag、Arc Challenge、MMLU和GSM8K,這些任務涵蓋了從常識推理到數(shù)學問題解決的多種能力。
為了確保公平比較,研究團隊采用了基于top-k的門控策略,并引入了一個額外的基線TEAL-Transform,即在變換后的模型上應用TEAL方法。他們還使用TEAL中提出的貪婪算法為每層分配特定的稀疏比率,而不是跨模型使用統(tǒng)一的稀疏度。
結果令人印象深刻。在Qwen-2.5-7B上,WINA在所有稀疏度水平(25%-65%)上始終匹配或優(yōu)于TEAL和TEAL-transform。隨著稀疏度的增加,WINA與基線之間的性能差距變得更加明顯。例如,在65%稀疏度下,WINA比TEAL平均高出2.94%,比TEAL-transform高出1.41%。這表明WINA在高稀疏度下更加穩(wěn)健,可能是因為它能夠通過同時考慮隱藏狀態(tài)大小和權重范數(shù)來保留最具影響力的激活。
在Llama-2-7B上,WINA在25%稀疏度下實現(xiàn)了最高的平均準確率,優(yōu)于基于TEAL的基線甚至全模型。雖然在極端的65%稀疏度下性能自然下降,但WINA仍然提供了最佳準確率,表明其在激進剪枝下的魯棒性。
對于Llama-3-8B,雖然TEAL在25%稀疏度下略微領先,但WINA在所有剩余稀疏配置中都領先,在50%稀疏度和65%稀疏度下分別領先TEAL +1.06%和+2.41%。值得注意的是,WINA在GSM8K和ARC Challenge等推理密集型任務上保持特別強勁的性能,而其他方法在壓縮下顯示出顯著下降。
在Phi-4-14B上,WINA在所有測試的稀疏度水平上始終匹配或超過TEAL和TEAL-transform的準確性,并在每個稀疏度設置下實現(xiàn)最高的平均分數(shù)。在最高65%稀疏度下,WINA比TEAL和TEAL-transform分別提高了+2.01%和+0.86%。它能夠在GSM8K和MMLU等復雜基準測試上保持高性能,即使在嚴格剪枝下也是如此,這凸顯了它的穩(wěn)定性。
除了性能提升外,WINA在所有評估的大語言模型中都實現(xiàn)了顯著的計算加速。在65%稀疏度下,WINA將總體FLOP減少了:在Qwen-2.5-7B上減少60.0%,在Llama-2-7B上減少63.7%,在Llama-3-8B上減少60.4%,在Phi-4-14B上減少62.7%。這些浮點運算的一致減少可能轉化為更快的推理速度和更低的計算成本,證明WINA作為在緊張資源約束下部署的實用解決方案的有效性。
四、WINA與現(xiàn)有方法的比較:為什么它更勝一籌?
為了理解WINA的獨特優(yōu)勢,讓我們把不同的稀疏激活方法比作不同的旅行規(guī)劃策略。傳統(tǒng)的稠密模型就像是一次周密計劃的旅行,訪問所有可能的景點,但耗時且昂貴。MoE等訓練型方法則類似于提前聘請當?shù)貙в?,他們知道哪些景點最值得一看,但培訓這些"導游"本身就需要大量資源。
WINA與其他無訓練方法(如TEAL和CATS)的關鍵區(qū)別在于如何選擇要訪問的"景點"(即要激活的神經(jīng)元)。TEAL僅基于隱藏狀態(tài)大小(景點的受歡迎度)來決定保留哪些激活,而WINA同時考慮隱藏狀態(tài)大小和權重矩陣(景點的獨特價值和與旅行整體主題的相關性)。
研究團隊創(chuàng)建了一個簡潔的對比表,突出了WINA相對于TEAL和CATS的三個關鍵優(yōu)勢:
首先,WINA提供了更緊的近似誤差界,這意味著它在稀疏激活過程中能更準確地保持原始模型的輸出。其次,WINA具有層通用性,可以應用于網(wǎng)絡的所有層,而不僅限于特定類型的層(如CATS主要應用于門控MLP層)。最后,WINA支持異構稀疏性,允許不同層有不同的稀疏度,從而更靈活地分配計算資源。
這些優(yōu)勢的實際意義是顯著的。在高稀疏度(如65%)下,WINA比TEAL在Qwen-2.5-7B上平均高出2.94%,在Llama-3-8B上高出2.41%,在Phi-4-14B上高出2.01%。這些改進不僅僅是百分點的小幅提升,而是在保持模型功能性的同時,顯著降低了計算需求,對于部署在資源受限環(huán)境中的大型語言模型特別重要。
五、從理論到實踐:如何將WINA應用于真實世界?
將WINA從理論轉化為實際應用需要解決一個關鍵挑戰(zhàn):現(xiàn)實中的大語言模型往往不滿足列式正交性條件,這是WINA理論分析的基礎假設。
為了彌合這一差距,研究團隊提出了一個張量變換框架,強制相關權重矩陣滿足列正交性,同時保持模型的最終輸出不變。具體來說,他們對權重矩陣W進行奇異值分解(SVD):W = UΣV^T,其中U和V是正交矩陣,Σ是包含W奇異值的對角矩陣。
為了實現(xiàn)列正交性,他們設置Q = V并將W變換為:W = WV。這種變換保證了結果矩陣W'滿足列正交性:(W)^TW = Σ^TU^TUΣ = Σ^2。
為確保模型在這種變換后的最終輸出保持不變,研究團隊使用了計算不變性;具體來說,他們通過SVD變換對自注意力層中的鍵投影矩陣Wk和MLP層中的門投影矩陣Wgate實施列式正交性約束。然后,他們將這些變換傳播到相鄰層,并相應地調整殘差連接,以保持計算不變性。
在推理過程中,他們對這些變換后的列正交矩陣應用所提出的激活標準,同時對剩余矩陣使用傳統(tǒng)的基于輸入的激活標準,就像在稀疏建模中通常做的那樣。
這種從理論到實踐的橋接方法確保了WINA不僅在理論上是合理的,而且在現(xiàn)實世界的大語言模型上也是有效的,即使這些模型的原始權重矩陣可能不滿足理論假設。
六、總結與展望:WINA對大型語言模型的未來意味著什么?
WINA代表了訓練無關稀疏激活領域的重要進步,為在推理階段加速大型語言模型提供了一種新的方法。通過同時考慮隱藏狀態(tài)大小和權重矩陣的列式l2范數(shù),WINA創(chuàng)建了一個能更準確捕捉每個激活對下游層影響的稀疏化策略。
這種方法在理論上是有根據(jù)的,提供了比現(xiàn)有技術更緊的近似誤差界。這些理論保證在實踐中得到了驗證,WINA在多種大型語言模型架構和基準測試中的表現(xiàn)優(yōu)于TEAL等最先進的方法,在相同稀疏度水平下平均性能提高了最多2.94%。
這些發(fā)現(xiàn)的實際意義是顯著的。通過減少高達65%的計算量,同時保持相對較高的性能,WINA為在資源受限或延遲敏感環(huán)境中部署大型語言模型開辟了新的可能性。這可能意味著更快的響應時間、更低的能耗和更廣泛的大型語言模型應用。
然而,盡管WINA取得了令人印象深刻的成果,研究團隊承認仍有改進的空間。未來的研究可以探索更先進的權重正交化技術、開發(fā)適應性稀疏度策略,或將WINA與其他模型壓縮方法(如量化或蒸餾)結合起來,進一步提高推理效率。
歸根結底,WINA代表了一種實用且高效的方法,可以在不損失太多性能的情況下加速大型語言模型推理。隨著這些模型繼續(xù)增長并滲透到更多領域,像WINA這樣的創(chuàng)新將變得越來越重要,確保AI系統(tǒng)既強大又高效。
對于希望進一步了解WINA的讀者,研究團隊已在GitHub(https://github.com/microsoft/wina)上發(fā)布了源代碼,而完整論文可在arXiv(arXiv:2505.19427v1)上獲取。隨著大型語言模型繼續(xù)發(fā)展,WINA可能會成為使這些強大系統(tǒng)更加高效和可訪問的重要工具。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。