av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 專家精簡(jiǎn)大法:香港中文大學(xué)與華為諾亞方舟實(shí)驗(yàn)室聯(lián)手助力大型混合專家模型在內(nèi)存受限設(shè)備上高效運(yùn)行

專家精簡(jiǎn)大法:香港中文大學(xué)與華為諾亞方舟實(shí)驗(yàn)室聯(lián)手助力大型混合專家模型在內(nèi)存受限設(shè)備上高效運(yùn)行

2025-06-01 11:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 11:29 ? 科技行者

這項(xiàng)由香港中文大學(xué)的裴澤華、潘烜嘉林、余北和華為諾亞方舟實(shí)驗(yàn)室的張穎、甄慧玲、余顯志、劉五龍、袁明軒等研究人員共同完成的研究,發(fā)表于2025年5月的預(yù)印本論文平臺(tái)arXiv(論文編號(hào):2505.17639v1)。有興趣深入了解的讀者可通過GitHub鏈接(https://github.com/JarvisPei/PreMoe)獲取源代碼。

**大型語言模型的記憶困境**

想象一下,你有一支由數(shù)百位專家組成的顧問團(tuán)隊(duì),每次只需要其中幾位專家來解答特定問題,但卻必須支付全部專家的出場(chǎng)費(fèi)和食宿費(fèi)。這基本上就是當(dāng)前大型混合專家模型(Mixture-of-Experts,簡(jiǎn)稱MoE)面臨的困境。

近年來,從DeepSeek-R1(671B參數(shù))到Mixtral 8×7B,再到Qwen-MoE等大型語言模型展現(xiàn)出了驚人的能力。它們采用了"混合專家"架構(gòu),這種設(shè)計(jì)非常聰明:模型中包含大量"專家"模塊,但處理每個(gè)輸入時(shí)只激活其中幾個(gè)最相關(guān)的專家,既保持了大模型的強(qiáng)大能力,又減少了計(jì)算成本。

然而,這種設(shè)計(jì)存在一個(gè)重大缺陷:雖然計(jì)算時(shí)只用少數(shù)專家,但所有專家的參數(shù)仍需常駐內(nèi)存。以DeepSeek-R1為例,它聲稱擁有671B參數(shù),理論上需要超過1.3TB的內(nèi)存才能完整加載(按16位精度計(jì)算)。這使得這類模型只能在特定的高端計(jì)算設(shè)施上運(yùn)行,極大限制了它們的應(yīng)用范圍。

**專家不是都一樣的:任務(wù)專業(yè)化的發(fā)現(xiàn)**

香港中文大學(xué)和華為的研究團(tuán)隊(duì)在研究中發(fā)現(xiàn)了一個(gè)關(guān)鍵現(xiàn)象:MoE模型中的專家表現(xiàn)出明顯的"任務(wù)專業(yè)化"特征。簡(jiǎn)單來說,不同的專家擅長(zhǎng)不同類型的任務(wù)。

想象一下,如果你有一群醫(yī)生,有些擅長(zhǎng)心臟病,有些擅長(zhǎng)骨科,還有些擅長(zhǎng)兒科。當(dāng)一個(gè)心臟病患者就診時(shí),你只需要心臟科專家,而不需要骨科醫(yī)生在場(chǎng)。研究人員通過分析DeepSeek-R1模型在不同任務(wù)上的表現(xiàn),發(fā)現(xiàn)模型中的"專家"也有類似的專業(yè)分工。

通過分析路由器邏輯(模型中決定激活哪些專家的組件)分布熱圖,他們清晰地看到:對(duì)于任何特定任務(wù),只有少數(shù)專家會(huì)被頻繁激活并產(chǎn)生高度正向的貢獻(xiàn),而大多數(shù)專家要么很少被激活,要么即使被激活也貢獻(xiàn)有限。

這一發(fā)現(xiàn)啟發(fā)了研究團(tuán)隊(duì):如果我們能提前識(shí)別出對(duì)特定任務(wù)至關(guān)重要的專家,并只加載這些專家,是否就能顯著減少內(nèi)存需求,同時(shí)保持模型性能?

**PreMoe:專家精簡(jiǎn)與檢索的雙劍合璧**

基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)提出了名為PreMoe(Pruning Retrieval MoE)的框架,它由兩個(gè)核心組件組成:概率專家精簡(jiǎn)(PEP)和任務(wù)自適應(yīng)專家檢索(TAER)。

**概率專家精簡(jiǎn):找出真正重要的專家**

想象你要舉辦一場(chǎng)派對(duì),但預(yù)算有限,必須從一百多位朋友中只邀請(qǐng)十幾位。你會(huì)怎么選?可能會(huì)邀請(qǐng)那些最了解派對(duì)主題、最能帶動(dòng)氣氛的朋友。

概率專家精簡(jiǎn)(PEP)也是類似的思路。它引入了一個(gè)名為"任務(wù)條件期望選擇分?jǐn)?shù)"(TCESS)的指標(biāo),通過分析路由器邏輯模式來量化每個(gè)專家對(duì)特定任務(wù)的重要性。

具體來說,這個(gè)過程有點(diǎn)像投票系統(tǒng)。首先,對(duì)于一個(gè)輸入標(biāo)記,系統(tǒng)會(huì)選出前Ka個(gè)"候選專家"(由原始路由器邏輯決定)。然后,對(duì)這些候選專家進(jìn)行本地概率歸一化(類似于初選)。接下來,只有那些本地概率超過閾值r的專家才會(huì)被視為"高置信度"專家,其原始邏輯值將被收集用于計(jì)算TCESS分?jǐn)?shù)。

這樣,TCESS分?jǐn)?shù)實(shí)際上反映了一個(gè)專家在特定任務(wù)上被高置信度選中的平均強(qiáng)度。分?jǐn)?shù)越高,意味著該專家對(duì)任務(wù)越重要。通過選擇TCESS分?jǐn)?shù)最高的M個(gè)專家,我們就能找到對(duì)特定任務(wù)最關(guān)鍵的專家子集。

**任務(wù)自適應(yīng)專家檢索:動(dòng)態(tài)加載適合的專家**

雖然概率專家精簡(jiǎn)提供了一種原則性方法來識(shí)別關(guān)鍵專家,但每次用戶查詢都重新計(jì)算TCESS值在部署環(huán)境中顯然不夠高效。為解決這個(gè)問題,研究團(tuán)隊(duì)提出了任務(wù)自適應(yīng)專家檢索(TAER)機(jī)制。

想象你是一家餐廳的經(jīng)理,為不同類型的聚會(huì)(商務(wù)會(huì)議、生日派對(duì)、婚禮等)都準(zhǔn)備了一份最佳員工配置清單。當(dāng)客人預(yù)訂時(shí),你只需快速識(shí)別聚會(huì)類型,然后根據(jù)預(yù)設(shè)的清單調(diào)配人員,而不需要每次都重新評(píng)估所有員工。

TAER的工作方式也很類似:

1. **離線存儲(chǔ)階段**:預(yù)先計(jì)算并存儲(chǔ)各種代表性任務(wù)的專家重要性模式。為了節(jié)省存儲(chǔ)空間,只完整保存第一個(gè)MoE層的TCESS模式,而對(duì)后續(xù)層則保存與第一層對(duì)應(yīng)的排列向量。

2. **基于查詢的檢索**:當(dāng)收到新查詢時(shí),模型會(huì)計(jì)算查詢的TCESS模式,并找到存儲(chǔ)庫(kù)中最相似的任務(wù)模式(使用L2距離計(jì)算)。

3. **模型重建**:根據(jù)檢索到的模式,系統(tǒng)只加載對(duì)特定任務(wù)至關(guān)重要的專家,大大減少內(nèi)存需求。

這種方法的獨(dú)特之處在于,完整模型及其所有專家無需一開始就加載到內(nèi)存中。相反,系統(tǒng)維護(hù)一個(gè)輕量級(jí)的模型骨架,在任務(wù)識(shí)別后動(dòng)態(tài)加載必要的專家。

**實(shí)驗(yàn)驗(yàn)證:性能驚人保持,內(nèi)存大幅節(jié)省**

研究團(tuán)隊(duì)在多個(gè)MoE架構(gòu)上進(jìn)行了全面測(cè)試,結(jié)果令人印象深刻:

**DeepSeek-R1 671B**: - 完整模型(8/256配置,即每層8個(gè)激活專家,從256個(gè)專家中選擇)需要1.3TB內(nèi)存,在MATH500上準(zhǔn)確率為96.8%。 - 使用PreMoe精簡(jiǎn)到8/128配置(減少50%專家)后,內(nèi)存需求降至688GB,MATH500準(zhǔn)確率反而提高到97.2%。 - 進(jìn)一步激進(jìn)精簡(jiǎn)至8/32配置(減少87.5%專家),內(nèi)存需求降至196GB,仍保持72.0%的MATH500準(zhǔn)確率。

**Pangu-Ultra-MoE 718B**: - 從8/256配置(1.36TB內(nèi)存)精簡(jiǎn)到8/128配置(738GB內(nèi)存),MATH500準(zhǔn)確率從97.4%輕微下降至97.15%,AIME24準(zhǔn)確率完全保持在81.3%。 - 更激進(jìn)地精簡(jiǎn)到4/64配置(僅390GB內(nèi)存),MATH500準(zhǔn)確率仍達(dá)96.95%,AIME24為79.7%。

**內(nèi)存高效部署**: - 結(jié)合4位量化技術(shù),進(jìn)一步降低內(nèi)存需求。 - DeepSeek-R1-W4(4位量化)在8/32配置下,僅需70GB內(nèi)存,在GPQA Biology上的表現(xiàn)(43.56%)甚至超過了原始完整模型(42.57%)。

值得注意的是,PreMoe不僅節(jié)省內(nèi)存,還提高了吞吐量。例如,Pangu-Ultra-MoE在從8/256減少到8/128(BF16精度)時(shí)吞吐量提升10%,在4/64 W4配置下提升35%。

**案例分析:看看精簡(jiǎn)模型的推理能力**

為了直觀展示模型精簡(jiǎn)后的性能,研究團(tuán)隊(duì)提供了DeepSeek-R1在不同精簡(jiǎn)比例下解決數(shù)學(xué)問題的示例。令人驚訝的是,即使在大幅減少專家數(shù)量的情況下(如8/32配置),模型仍能保持正確的推理軌跡。這證明了PreMoe能夠有效保留模型的核心推理能力,盡管采用了激進(jìn)的精簡(jiǎn)策略。

**精心設(shè)計(jì)的消融實(shí)驗(yàn)**

為驗(yàn)證PreMoe各組件的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列消融實(shí)驗(yàn):

1. **與隨機(jī)選擇專家對(duì)比**:在相同精簡(jiǎn)比例下,PreMoe的TCESS專家選擇方法在所有測(cè)試任務(wù)中都顯著優(yōu)于隨機(jī)選擇專家。例如,在8/16設(shè)置下,PreMoe在GPQA Biology上達(dá)到34.15%準(zhǔn)確率,而隨機(jī)選擇僅為26.73%。

2. **輸出模式收集策略**:研究發(fā)現(xiàn),同時(shí)考慮輸入查詢和模型推理輸出來收集TCESS模式,比僅使用輸入查詢效果更好。當(dāng)只基于查詢收集模式時(shí),精簡(jiǎn)后的模型可能會(huì)出現(xiàn)重復(fù)循環(huán)或不完整解決方案,這凸顯了在整個(gè)生成過程中捕捉專家動(dòng)態(tài)的重要性。

**總結(jié):MoE模型民主化的一大步**

PreMoe框架通過利用MoE模型中的任務(wù)專家專業(yè)化特性,成功解決了大型MoE模型在內(nèi)存受限環(huán)境中部署的關(guān)鍵挑戰(zhàn)。通過概率專家精簡(jiǎn)和任務(wù)自適應(yīng)專家檢索,PreMoe能夠顯著減少內(nèi)存占用,同時(shí)保持模型性能,使這些強(qiáng)大的AI系統(tǒng)可以在更廣泛的計(jì)算環(huán)境中運(yùn)行。

這項(xiàng)研究不僅為大型MoE模型的高效部署提供了實(shí)用解決方案,還展示了一個(gè)重要的研究方向:通過理解和利用模型內(nèi)部的專業(yè)化模式,我們可以更智能地優(yōu)化AI系統(tǒng),使其同時(shí)兼顧性能和資源效率。

無論是云服務(wù)器、邊緣設(shè)備還是消費(fèi)級(jí)硬件,PreMoe都為將強(qiáng)大的AI能力帶入多樣化計(jì)算環(huán)境鋪平了道路,朝著AI民主化邁出了重要一步。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-