這項(xiàng)由香港中文大學(xué)的裴澤華、潘烜嘉林、余北和華為諾亞方舟實(shí)驗(yàn)室的張穎、甄慧玲、余顯志、劉五龍、袁明軒等研究人員共同完成的研究,發(fā)表于2025年5月的預(yù)印本論文平臺(tái)arXiv(論文編號(hào):2505.17639v1)。有興趣深入了解的讀者可通過GitHub鏈接(https://github.com/JarvisPei/PreMoe)獲取源代碼。
**大型語言模型的記憶困境**
想象一下,你有一支由數(shù)百位專家組成的顧問團(tuán)隊(duì),每次只需要其中幾位專家來解答特定問題,但卻必須支付全部專家的出場(chǎng)費(fèi)和食宿費(fèi)。這基本上就是當(dāng)前大型混合專家模型(Mixture-of-Experts,簡(jiǎn)稱MoE)面臨的困境。
近年來,從DeepSeek-R1(671B參數(shù))到Mixtral 8×7B,再到Qwen-MoE等大型語言模型展現(xiàn)出了驚人的能力。它們采用了"混合專家"架構(gòu),這種設(shè)計(jì)非常聰明:模型中包含大量"專家"模塊,但處理每個(gè)輸入時(shí)只激活其中幾個(gè)最相關(guān)的專家,既保持了大模型的強(qiáng)大能力,又減少了計(jì)算成本。
然而,這種設(shè)計(jì)存在一個(gè)重大缺陷:雖然計(jì)算時(shí)只用少數(shù)專家,但所有專家的參數(shù)仍需常駐內(nèi)存。以DeepSeek-R1為例,它聲稱擁有671B參數(shù),理論上需要超過1.3TB的內(nèi)存才能完整加載(按16位精度計(jì)算)。這使得這類模型只能在特定的高端計(jì)算設(shè)施上運(yùn)行,極大限制了它們的應(yīng)用范圍。
**專家不是都一樣的:任務(wù)專業(yè)化的發(fā)現(xiàn)**
香港中文大學(xué)和華為的研究團(tuán)隊(duì)在研究中發(fā)現(xiàn)了一個(gè)關(guān)鍵現(xiàn)象:MoE模型中的專家表現(xiàn)出明顯的"任務(wù)專業(yè)化"特征。簡(jiǎn)單來說,不同的專家擅長(zhǎng)不同類型的任務(wù)。
想象一下,如果你有一群醫(yī)生,有些擅長(zhǎng)心臟病,有些擅長(zhǎng)骨科,還有些擅長(zhǎng)兒科。當(dāng)一個(gè)心臟病患者就診時(shí),你只需要心臟科專家,而不需要骨科醫(yī)生在場(chǎng)。研究人員通過分析DeepSeek-R1模型在不同任務(wù)上的表現(xiàn),發(fā)現(xiàn)模型中的"專家"也有類似的專業(yè)分工。
通過分析路由器邏輯(模型中決定激活哪些專家的組件)分布熱圖,他們清晰地看到:對(duì)于任何特定任務(wù),只有少數(shù)專家會(huì)被頻繁激活并產(chǎn)生高度正向的貢獻(xiàn),而大多數(shù)專家要么很少被激活,要么即使被激活也貢獻(xiàn)有限。
這一發(fā)現(xiàn)啟發(fā)了研究團(tuán)隊(duì):如果我們能提前識(shí)別出對(duì)特定任務(wù)至關(guān)重要的專家,并只加載這些專家,是否就能顯著減少內(nèi)存需求,同時(shí)保持模型性能?
**PreMoe:專家精簡(jiǎn)與檢索的雙劍合璧**
基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)提出了名為PreMoe(Pruning Retrieval MoE)的框架,它由兩個(gè)核心組件組成:概率專家精簡(jiǎn)(PEP)和任務(wù)自適應(yīng)專家檢索(TAER)。
**概率專家精簡(jiǎn):找出真正重要的專家**
想象你要舉辦一場(chǎng)派對(duì),但預(yù)算有限,必須從一百多位朋友中只邀請(qǐng)十幾位。你會(huì)怎么選?可能會(huì)邀請(qǐng)那些最了解派對(duì)主題、最能帶動(dòng)氣氛的朋友。
概率專家精簡(jiǎn)(PEP)也是類似的思路。它引入了一個(gè)名為"任務(wù)條件期望選擇分?jǐn)?shù)"(TCESS)的指標(biāo),通過分析路由器邏輯模式來量化每個(gè)專家對(duì)特定任務(wù)的重要性。
具體來說,這個(gè)過程有點(diǎn)像投票系統(tǒng)。首先,對(duì)于一個(gè)輸入標(biāo)記,系統(tǒng)會(huì)選出前Ka個(gè)"候選專家"(由原始路由器邏輯決定)。然后,對(duì)這些候選專家進(jìn)行本地概率歸一化(類似于初選)。接下來,只有那些本地概率超過閾值r的專家才會(huì)被視為"高置信度"專家,其原始邏輯值將被收集用于計(jì)算TCESS分?jǐn)?shù)。
這樣,TCESS分?jǐn)?shù)實(shí)際上反映了一個(gè)專家在特定任務(wù)上被高置信度選中的平均強(qiáng)度。分?jǐn)?shù)越高,意味著該專家對(duì)任務(wù)越重要。通過選擇TCESS分?jǐn)?shù)最高的M個(gè)專家,我們就能找到對(duì)特定任務(wù)最關(guān)鍵的專家子集。
**任務(wù)自適應(yīng)專家檢索:動(dòng)態(tài)加載適合的專家**
雖然概率專家精簡(jiǎn)提供了一種原則性方法來識(shí)別關(guān)鍵專家,但每次用戶查詢都重新計(jì)算TCESS值在部署環(huán)境中顯然不夠高效。為解決這個(gè)問題,研究團(tuán)隊(duì)提出了任務(wù)自適應(yīng)專家檢索(TAER)機(jī)制。
想象你是一家餐廳的經(jīng)理,為不同類型的聚會(huì)(商務(wù)會(huì)議、生日派對(duì)、婚禮等)都準(zhǔn)備了一份最佳員工配置清單。當(dāng)客人預(yù)訂時(shí),你只需快速識(shí)別聚會(huì)類型,然后根據(jù)預(yù)設(shè)的清單調(diào)配人員,而不需要每次都重新評(píng)估所有員工。
TAER的工作方式也很類似:
1. **離線存儲(chǔ)階段**:預(yù)先計(jì)算并存儲(chǔ)各種代表性任務(wù)的專家重要性模式。為了節(jié)省存儲(chǔ)空間,只完整保存第一個(gè)MoE層的TCESS模式,而對(duì)后續(xù)層則保存與第一層對(duì)應(yīng)的排列向量。
2. **基于查詢的檢索**:當(dāng)收到新查詢時(shí),模型會(huì)計(jì)算查詢的TCESS模式,并找到存儲(chǔ)庫(kù)中最相似的任務(wù)模式(使用L2距離計(jì)算)。
3. **模型重建**:根據(jù)檢索到的模式,系統(tǒng)只加載對(duì)特定任務(wù)至關(guān)重要的專家,大大減少內(nèi)存需求。
這種方法的獨(dú)特之處在于,完整模型及其所有專家無需一開始就加載到內(nèi)存中。相反,系統(tǒng)維護(hù)一個(gè)輕量級(jí)的模型骨架,在任務(wù)識(shí)別后動(dòng)態(tài)加載必要的專家。
**實(shí)驗(yàn)驗(yàn)證:性能驚人保持,內(nèi)存大幅節(jié)省**
研究團(tuán)隊(duì)在多個(gè)MoE架構(gòu)上進(jìn)行了全面測(cè)試,結(jié)果令人印象深刻:
**DeepSeek-R1 671B**: - 完整模型(8/256配置,即每層8個(gè)激活專家,從256個(gè)專家中選擇)需要1.3TB內(nèi)存,在MATH500上準(zhǔn)確率為96.8%。 - 使用PreMoe精簡(jiǎn)到8/128配置(減少50%專家)后,內(nèi)存需求降至688GB,MATH500準(zhǔn)確率反而提高到97.2%。 - 進(jìn)一步激進(jìn)精簡(jiǎn)至8/32配置(減少87.5%專家),內(nèi)存需求降至196GB,仍保持72.0%的MATH500準(zhǔn)確率。
**Pangu-Ultra-MoE 718B**: - 從8/256配置(1.36TB內(nèi)存)精簡(jiǎn)到8/128配置(738GB內(nèi)存),MATH500準(zhǔn)確率從97.4%輕微下降至97.15%,AIME24準(zhǔn)確率完全保持在81.3%。 - 更激進(jìn)地精簡(jiǎn)到4/64配置(僅390GB內(nèi)存),MATH500準(zhǔn)確率仍達(dá)96.95%,AIME24為79.7%。
**內(nèi)存高效部署**: - 結(jié)合4位量化技術(shù),進(jìn)一步降低內(nèi)存需求。 - DeepSeek-R1-W4(4位量化)在8/32配置下,僅需70GB內(nèi)存,在GPQA Biology上的表現(xiàn)(43.56%)甚至超過了原始完整模型(42.57%)。
值得注意的是,PreMoe不僅節(jié)省內(nèi)存,還提高了吞吐量。例如,Pangu-Ultra-MoE在從8/256減少到8/128(BF16精度)時(shí)吞吐量提升10%,在4/64 W4配置下提升35%。
**案例分析:看看精簡(jiǎn)模型的推理能力**
為了直觀展示模型精簡(jiǎn)后的性能,研究團(tuán)隊(duì)提供了DeepSeek-R1在不同精簡(jiǎn)比例下解決數(shù)學(xué)問題的示例。令人驚訝的是,即使在大幅減少專家數(shù)量的情況下(如8/32配置),模型仍能保持正確的推理軌跡。這證明了PreMoe能夠有效保留模型的核心推理能力,盡管采用了激進(jìn)的精簡(jiǎn)策略。
**精心設(shè)計(jì)的消融實(shí)驗(yàn)**
為驗(yàn)證PreMoe各組件的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列消融實(shí)驗(yàn):
1. **與隨機(jī)選擇專家對(duì)比**:在相同精簡(jiǎn)比例下,PreMoe的TCESS專家選擇方法在所有測(cè)試任務(wù)中都顯著優(yōu)于隨機(jī)選擇專家。例如,在8/16設(shè)置下,PreMoe在GPQA Biology上達(dá)到34.15%準(zhǔn)確率,而隨機(jī)選擇僅為26.73%。
2. **輸出模式收集策略**:研究發(fā)現(xiàn),同時(shí)考慮輸入查詢和模型推理輸出來收集TCESS模式,比僅使用輸入查詢效果更好。當(dāng)只基于查詢收集模式時(shí),精簡(jiǎn)后的模型可能會(huì)出現(xiàn)重復(fù)循環(huán)或不完整解決方案,這凸顯了在整個(gè)生成過程中捕捉專家動(dòng)態(tài)的重要性。
**總結(jié):MoE模型民主化的一大步**
PreMoe框架通過利用MoE模型中的任務(wù)專家專業(yè)化特性,成功解決了大型MoE模型在內(nèi)存受限環(huán)境中部署的關(guān)鍵挑戰(zhàn)。通過概率專家精簡(jiǎn)和任務(wù)自適應(yīng)專家檢索,PreMoe能夠顯著減少內(nèi)存占用,同時(shí)保持模型性能,使這些強(qiáng)大的AI系統(tǒng)可以在更廣泛的計(jì)算環(huán)境中運(yùn)行。
這項(xiàng)研究不僅為大型MoE模型的高效部署提供了實(shí)用解決方案,還展示了一個(gè)重要的研究方向:通過理解和利用模型內(nèi)部的專業(yè)化模式,我們可以更智能地優(yōu)化AI系統(tǒng),使其同時(shí)兼顧性能和資源效率。
無論是云服務(wù)器、邊緣設(shè)備還是消費(fèi)級(jí)硬件,PreMoe都為將強(qiáng)大的AI能力帶入多樣化計(jì)算環(huán)境鋪平了道路,朝著AI民主化邁出了重要一步。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。