北京郵電大學(xué)和香港科技大學(xué)聯(lián)合研究團(tuán)隊的重大突破!減肥也要講究方法,大型語言模型也是如此
你是否曾想過,那些能夠與人類對話、寫作和解決問題的人工智能大模型,背后隱藏著怎樣龐大的"身軀"?今天要介紹的這項研究,就像是為這些"體型臃腫"的AI模型量身定制了一套科學(xué)的"減肥計劃"。這項由北京郵電大學(xué)的陳宇立、程波、張瑩瑩、李穎婷、張樹豪和香港科技大學(xué)的韓家樂共同完成的研究成果,以論文《DLP: Dynamic Layerwise Pruning in Large Language Models》的形式發(fā)表在2025年的第42屆國際機器學(xué)習(xí)會議(ICML 2025)上。研究代碼已在GitHub上開源,有興趣的讀者可通過https://github.com/ironartisan/DLP獲取。
想象一下,如果我們把大型語言模型(LLM)比作一本厚重的百科全書,傳統(tǒng)的"減重"方法就像是對每一頁都均勻地刪減內(nèi)容。這樣做雖然減輕了重量,但可能會讓某些重要章節(jié)信息不足,而一些不那么重要的章節(jié)卻保留了過多內(nèi)容。北京郵電大學(xué)和香港科技大學(xué)的研究團(tuán)隊提出了一種更聰明的方法——動態(tài)分層剪枝(Dynamic Layerwise Pruning,簡稱DLP),就好比他們發(fā)明了一種能夠識別每個章節(jié)重要性的智能工具,對重要章節(jié)輕度刪減,對次要章節(jié)大刀闊斧地精簡。
這項研究的意義不僅在于理論創(chuàng)新,更在于它能夠讓那些需要數(shù)十億甚至數(shù)千億參數(shù)的龐大AI模型變得更加"苗條",同時保持其強大的能力。這就像是幫助一位體重超標(biāo)的運動員減掉多余脂肪,但保留甚至強化了肌肉,使其性能更加出色。對普通用戶來說,這意味著未來我們可能能在個人電腦甚至手機上運行強大的AI助手,而不必依賴云服務(wù)器的強大算力。
一、大模型減肥的困境與突破
大型語言模型就像現(xiàn)代社會中的"知識巨人",它們通過學(xué)習(xí)海量文本數(shù)據(jù),獲得了令人驚嘆的語言理解和生成能力。然而,這些"巨人"也面臨著一個明顯的問題——它們太"胖"了。以O(shè)penAI的GPT模型或Meta的LLaMA模型為例,它們擁有數(shù)十億甚至數(shù)千億的參數(shù),這些參數(shù)就像是構(gòu)成巨人肌肉和骨骼的基本單元。如此龐大的"體型"帶來了巨大的計算資源消耗,使得普通設(shè)備難以運行這些模型。
面對這一挑戰(zhàn),研究人員提出了"剪枝"(Pruning)技術(shù)作為解決方案。所謂剪枝,就像園丁修剪花木一樣,去除模型中那些對最終結(jié)果貢獻(xiàn)較小的參數(shù),從而減小模型體積并提高推理效率。傳統(tǒng)的剪枝方法主要有兩類:一種是結(jié)構(gòu)化剪枝(Structured Pruning),它會刪除模型中整塊的參數(shù),就像從一本書中刪除整個章節(jié);另一種是非結(jié)構(gòu)化剪枝(Unstructured Pruning),它會選擇性地刪除分散的單個參數(shù),就像從一本書中零星地刪除一些不那么重要的句子。
在非結(jié)構(gòu)化剪枝領(lǐng)域,已有多種方法被提出。比如,基于參數(shù)大小的剪枝(Magnitude)會保留那些絕對值較大的參數(shù);SparseGPT會采用逐層、逐行的貪婪剪枝策略;而Wanda則會同時考慮權(quán)重值和對應(yīng)輸入激活的范數(shù)來評估參數(shù)重要性。這些方法雖然取得了不錯的效果,但它們都忽視了一個關(guān)鍵問題:模型中不同層的重要性是不同的。它們對所有層都使用相同的剪枝率,就好比對一本書的每一章都刪減相同比例的內(nèi)容,而不考慮章節(jié)的重要性差異。
針對這一問題,近期有研究提出了非均勻?qū)蛹糁Φ母拍睢@?,OWL(Outlier Weighed Layerwise Sparsity)方法認(rèn)為,含有更多"異常值"(即特別重要的參數(shù))的層更為關(guān)鍵,應(yīng)該被賦予更低的剪枝率。這種方法取得了比均勻?qū)蛹糁Ω玫男Ч?,但它也存在局限性:它依賴于預(yù)定義的標(biāo)準(zhǔn)來選擇異常值,這不僅限制了其適應(yīng)模型動態(tài)需求的能力,也妨礙了實現(xiàn)最佳性能。
二、DLP:動態(tài)評估層重要性的新方法
面對上述挑戰(zhàn),陳宇立等研究者提出了動態(tài)分層剪枝(DLP)方法。這種方法就像是一位經(jīng)驗豐富的編輯,能夠自動判斷書中每一章的重要性,并據(jù)此決定應(yīng)該刪減多少內(nèi)容。DLP的核心理念是從反向角度計算每一層的"不重要性",然后轉(zhuǎn)化為層與層之間的相對重要性?;?重要層應(yīng)該有更低剪枝率"的原則,DLP為每一層分配適當(dāng)?shù)募糁β省?/p>
那么,DLP是如何確定層的重要性的呢?研究團(tuán)隊采用了一種巧妙的方法——中位數(shù)(Median)。一些早期研究表明,在模型中,中位數(shù)附近的元素通常是冗余的,可以被同一層中的其他元素替代。研究團(tuán)隊通過三項實證研究證明了中位數(shù)在大型語言模型中的有效性。
中位數(shù)的一個重要特性是它對異常值不敏感。想象一下,如果一個班級有29名學(xué)生的身高都在170厘米左右,但有一名學(xué)生身高達(dá)到了210厘米,計算平均身高會受到這個異常值的顯著影響,但中位數(shù)則幾乎不受影響。這使得中位數(shù)能夠更準(zhǔn)確地反映一個層中大多數(shù)參數(shù)的中心趨勢,特別是當(dāng)該層包含異常值時。
DLP算法的工作流程如下:首先,它計算每個Transformer塊的"不重要性",這是基于模型權(quán)重和輸入激活值的中位數(shù);然后,它評估層與層之間的相對"不重要性",進(jìn)而確定模型的相對重要性;最后,它根據(jù)"重要層應(yīng)有更低剪枝率"的原則為每一層分配剪枝率。
三、實驗結(jié)果:證明DLP的有效性
為了驗證DLP的有效性,研究團(tuán)隊在多種主流大型語言模型上進(jìn)行了全面的實驗評估,這些模型參數(shù)規(guī)模從7B到30B不等,架構(gòu)包括LLaMA、Vicuna、Mistral等。實驗結(jié)果令人振奮:DLP方法始終優(yōu)于現(xiàn)有的最先進(jìn)的大型語言模型剪枝技術(shù),特別是在高稀疏度(即高剪枝率)水平下。
舉個例子,當(dāng)剪枝率達(dá)到70%時,DLP將LLaMA2-7B的困惑度(perplexity,這是衡量語言模型性能的指標(biāo),越低越好)降低了7.79,并將平均準(zhǔn)確率提高了2.7%,相比于現(xiàn)有最先進(jìn)的方法。這就像是通過更科學(xué)的減肥方法,不僅讓運動員減輕了體重,還提高了他的運動表現(xiàn)。
在實際推理加速方面,DLP也表現(xiàn)出色。當(dāng)在CPU上使用DeepSparse推理引擎時,在70%-90%的稀疏度下,DLP實現(xiàn)了2.8x-3.7x的端到端加速。這意味著,原本可能需要一秒鐘處理的任務(wù),現(xiàn)在只需不到半秒就能完成,大大提高了效率。
此外,研究人員還發(fā)現(xiàn),經(jīng)過短暫的微調(diào),高稀疏度剪枝后的模型性能可以恢復(fù)到合理范圍。這就像是運動員在減重后通過適當(dāng)?shù)挠?xùn)練,很快就能恢復(fù)甚至提升運動能力。
四、DLP的廣泛兼容性:不只是一種剪枝方法
作為一種通用方法,DLP不僅適用于非結(jié)構(gòu)化剪枝,還可應(yīng)用于N:M稀疏度(其中N指的是非零權(quán)重的數(shù)量,M是總權(quán)重數(shù)量)和結(jié)構(gòu)化剪枝,并且始終優(yōu)于分層方法。更重要的是,DLP與量化技術(shù)正交,也可以擴展到奇異值分解(SVD)和參數(shù)高效微調(diào)(PEFT)等方法,實現(xiàn)顯著的性能提升。
例如,研究團(tuán)隊將DLP應(yīng)用于結(jié)構(gòu)化剪枝方法LLM-Pruner,結(jié)果表明,非均勻分層稀疏度允許LLM-Pruner在不同稀疏度水平下更好地保持性能。在N:M稀疏度配置中,DLP也取得了優(yōu)于均勻N:M稀疏度的性能。特別是在1:4和2:8的高稀疏度場景下,DLP方法分別將困惑度降低了240倍和41倍。
此外,研究人員還將DLP與量化技術(shù)結(jié)合,評估剪枝后模型在量化前后的性能。結(jié)果表明,使用DLP剪枝的模型在量化后始終優(yōu)于使用均勻稀疏度剪枝的模型。值得注意的是,4位量化模型的性能幾乎與16位量化模型相同,這表明應(yīng)用DLP可以在保持性能的同時實現(xiàn)4倍的模型大小減少。
五、實際應(yīng)用價值與未來展望
DLP方法的提出不僅是學(xué)術(shù)上的突破,更具有重要的實際應(yīng)用價值。隨著人工智能技術(shù)的普及,大型語言模型正在越來越多地融入我們的日常生活。然而,這些模型的龐大規(guī)模限制了它們在資源受限設(shè)備上的應(yīng)用,如個人電腦、智能手機等。DLP通過顯著減少模型參數(shù)量并提高推理效率,為大型語言模型在邊緣設(shè)備上的部署鋪平了道路。
想象一下,在不久的將來,我們可能能夠在個人設(shè)備上運行經(jīng)過DLP優(yōu)化的大型語言模型,無需依賴云服務(wù)器,這將大大提高用戶體驗,減少延遲,并增強隱私保護(hù)。例如,一個經(jīng)過DLP優(yōu)化的助手可以在你的智能手機上本地運行,即使在沒有網(wǎng)絡(luò)連接的情況下也能幫助你撰寫郵件、回答問題或提供建議。
此外,DLP方法的通用性和靈活性使其能夠與其他模型壓縮和優(yōu)化技術(shù)相結(jié)合,進(jìn)一步提升性能和效率。這為未來的研究和應(yīng)用打開了廣闊的空間。例如,將DLP與其他創(chuàng)新的剪枝、量化或知識蒸餾方法結(jié)合,可能會產(chǎn)生更加高效和強大的大型語言模型。
總的來說,陳宇立等研究者提出的DLP方法為大型語言模型的優(yōu)化提供了一種新的、更加有效的方法。通過動態(tài)評估層重要性并據(jù)此分配剪枝率,DLP能夠在保持模型性能的同時顯著減少參數(shù)量,提高推理效率。這項研究不僅推動了學(xué)術(shù)領(lǐng)域的進(jìn)步,也為大型語言模型的實際應(yīng)用帶來了新的可能性。
當(dāng)然,盡管DLP取得了顯著的成果,但大型語言模型的優(yōu)化仍然是一個充滿挑戰(zhàn)的研究領(lǐng)域。未來的研究可能會探索更加精細(xì)和高效的層重要性評估方法,或者將DLP與其他創(chuàng)新技術(shù)相結(jié)合,進(jìn)一步提升大型語言模型的性能和效率。但無論如何,DLP已經(jīng)為我們提供了一種更加智能和高效的大型語言模型"減肥"方法,讓這些"知識巨人"變得更加"苗條"而不失其強大能力。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。