av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

專家精簡(jiǎn)大法：香港中文大學(xué)與華為諾亞方舟實(shí)驗(yàn)室聯(lián)手助力大型混合專家模型在內(nèi)存受限設(shè)備上高效運(yùn)行

人工智能混合專家模型內(nèi)存優(yōu)化

專家精簡(jiǎn)大法：香港中文大學(xué)與華為諾亞方舟實(shí)驗(yàn)室聯(lián)手助力大型混合專家模型在內(nèi)存受限設(shè)備上高效運(yùn)行

作者：科技行者

2025-06-01 11:29

分享至：

香港中文大學(xué)與華為諾亞方舟實(shí)驗(yàn)室合作開(kāi)發(fā)了PreMoe框架，解決了大型混合專家模型(MoE)在內(nèi)存受限設(shè)備上的部署難題。研究團(tuán)隊(duì)發(fā)現(xiàn)MoE模型中的專家表現(xiàn)出明顯的任務(wù)專業(yè)化特征，據(jù)此提出了概率專家精簡(jiǎn)(PEP)和任務(wù)自適應(yīng)專家檢索(TAER)兩大核心技術(shù)。實(shí)驗(yàn)證明，DeepSeek-R1 671B模型在精簡(jiǎn)50%專家后仍保持97.2%的MATH500準(zhǔn)確率，內(nèi)存需求降至688GB；而更激進(jìn)的精簡(jiǎn)方案（減少87.5%專家）也能保持72.0%的準(zhǔn)確率。該方法適用于多種MoE架構(gòu)，為強(qiáng)大AI系統(tǒng)的廣泛部署鋪平了道路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-01 11:29 ? 科技行者

這項(xiàng)由香港中文大學(xué)的裴澤華、潘烜嘉林、余北和華為諾亞方舟實(shí)驗(yàn)室的張穎、甄慧玲、余顯志、劉五龍、袁明軒等研究人員共同完成的研究，發(fā)表于2025年5月的預(yù)印本論文平臺(tái)arXiv（論文編號(hào)：2505.17639v1）。有興趣深入了解的讀者可通過(guò)GitHub鏈接（https://github.com/JarvisPei/PreMoe）獲取源代碼。

**大型語(yǔ)言模型的記憶困境**

想象一下，你有一支由數(shù)百位專家組成的顧問(wèn)團(tuán)隊(duì)，每次只需要其中幾位專家來(lái)解答特定問(wèn)題，但卻必須支付全部專家的出場(chǎng)費(fèi)和食宿費(fèi)。這基本上就是當(dāng)前大型混合專家模型（Mixture-of-Experts，簡(jiǎn)稱MoE）面臨的困境。

近年來(lái)，從DeepSeek-R1（671B參數(shù)）到Mixtral 8×7B，再到Qwen-MoE等大型語(yǔ)言模型展現(xiàn)出了驚人的能力。它們采用了"混合專家"架構(gòu)，這種設(shè)計(jì)非常聰明：模型中包含大量"專家"模塊，但處理每個(gè)輸入時(shí)只激活其中幾個(gè)最相關(guān)的專家，既保持了大模型的強(qiáng)大能力，又減少了計(jì)算成本。

然而，這種設(shè)計(jì)存在一個(gè)重大缺陷：雖然計(jì)算時(shí)只用少數(shù)專家，但所有專家的參數(shù)仍需常駐內(nèi)存。以DeepSeek-R1為例，它聲稱擁有671B參數(shù)，理論上需要超過(guò)1.3TB的內(nèi)存才能完整加載（按16位精度計(jì)算）。這使得這類模型只能在特定的高端計(jì)算設(shè)施上運(yùn)行，極大限制了它們的應(yīng)用范圍。

**專家不是都一樣的：任務(wù)專業(yè)化的發(fā)現(xiàn)**

香港中文大學(xué)和華為的研究團(tuán)隊(duì)在研究中發(fā)現(xiàn)了一個(gè)關(guān)鍵現(xiàn)象：MoE模型中的專家表現(xiàn)出明顯的"任務(wù)專業(yè)化"特征。簡(jiǎn)單來(lái)說(shuō)，不同的專家擅長(zhǎng)不同類型的任務(wù)。

想象一下，如果你有一群醫(yī)生，有些擅長(zhǎng)心臟病，有些擅長(zhǎng)骨科，還有些擅長(zhǎng)兒科。當(dāng)一個(gè)心臟病患者就診時(shí)，你只需要心臟科專家，而不需要骨科醫(yī)生在場(chǎng)。研究人員通過(guò)分析DeepSeek-R1模型在不同任務(wù)上的表現(xiàn)，發(fā)現(xiàn)模型中的"專家"也有類似的專業(yè)分工。

通過(guò)分析路由器邏輯（模型中決定激活哪些專家的組件）分布熱圖，他們清晰地看到：對(duì)于任何特定任務(wù)，只有少數(shù)專家會(huì)被頻繁激活并產(chǎn)生高度正向的貢獻(xiàn)，而大多數(shù)專家要么很少被激活，要么即使被激活也貢獻(xiàn)有限。

這一發(fā)現(xiàn)啟發(fā)了研究團(tuán)隊(duì)：如果我們能提前識(shí)別出對(duì)特定任務(wù)至關(guān)重要的專家，并只加載這些專家，是否就能顯著減少內(nèi)存需求，同時(shí)保持模型性能？

**PreMoe：專家精簡(jiǎn)與檢索的雙劍合璧**

基于上述發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了名為PreMoe（Pruning Retrieval MoE）的框架，它由兩個(gè)核心組件組成：概率專家精簡(jiǎn)（PEP）和任務(wù)自適應(yīng)專家檢索（TAER）。

**概率專家精簡(jiǎn)：找出真正重要的專家**

想象你要舉辦一場(chǎng)派對(duì)，但預(yù)算有限，必須從一百多位朋友中只邀請(qǐng)十幾位。你會(huì)怎么選？可能會(huì)邀請(qǐng)那些最了解派對(duì)主題、最能帶動(dòng)氣氛的朋友。

概率專家精簡(jiǎn)（PEP）也是類似的思路。它引入了一個(gè)名為"任務(wù)條件期望選擇分?jǐn)?shù)"（TCESS）的指標(biāo)，通過(guò)分析路由器邏輯模式來(lái)量化每個(gè)專家對(duì)特定任務(wù)的重要性。

具體來(lái)說(shuō)，這個(gè)過(guò)程有點(diǎn)像投票系統(tǒng)。首先，對(duì)于一個(gè)輸入標(biāo)記，系統(tǒng)會(huì)選出前Ka個(gè)"候選專家"（由原始路由器邏輯決定）。然后，對(duì)這些候選專家進(jìn)行本地概率歸一化（類似于初選）。接下來(lái)，只有那些本地概率超過(guò)閾值r的專家才會(huì)被視為"高置信度"專家，其原始邏輯值將被收集用于計(jì)算TCESS分?jǐn)?shù)。

這樣，TCESS分?jǐn)?shù)實(shí)際上反映了一個(gè)專家在特定任務(wù)上被高置信度選中的平均強(qiáng)度。分?jǐn)?shù)越高，意味著該專家對(duì)任務(wù)越重要。通過(guò)選擇TCESS分?jǐn)?shù)最高的M個(gè)專家，我們就能找到對(duì)特定任務(wù)最關(guān)鍵的專家子集。

**任務(wù)自適應(yīng)專家檢索：動(dòng)態(tài)加載適合的專家**

雖然概率專家精簡(jiǎn)提供了一種原則性方法來(lái)識(shí)別關(guān)鍵專家，但每次用戶查詢都重新計(jì)算TCESS值在部署環(huán)境中顯然不夠高效。為解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)提出了任務(wù)自適應(yīng)專家檢索（TAER）機(jī)制。

想象你是一家餐廳的經(jīng)理，為不同類型的聚會(huì)（商務(wù)會(huì)議、生日派對(duì)、婚禮等）都準(zhǔn)備了一份最佳員工配置清單。當(dāng)客人預(yù)訂時(shí)，你只需快速識(shí)別聚會(huì)類型，然后根據(jù)預(yù)設(shè)的清單調(diào)配人員，而不需要每次都重新評(píng)估所有員工。

TAER的工作方式也很類似：

1. **離線存儲(chǔ)階段**：預(yù)先計(jì)算并存儲(chǔ)各種代表性任務(wù)的專家重要性模式。為了節(jié)省存儲(chǔ)空間，只完整保存第一個(gè)MoE層的TCESS模式，而對(duì)后續(xù)層則保存與第一層對(duì)應(yīng)的排列向量。

2. **基于查詢的檢索**：當(dāng)收到新查詢時(shí)，模型會(huì)計(jì)算查詢的TCESS模式，并找到存儲(chǔ)庫(kù)中最相似的任務(wù)模式（使用L2距離計(jì)算）。

3. **模型重建**：根據(jù)檢索到的模式，系統(tǒng)只加載對(duì)特定任務(wù)至關(guān)重要的專家，大大減少內(nèi)存需求。

這種方法的獨(dú)特之處在于，完整模型及其所有專家無(wú)需一開(kāi)始就加載到內(nèi)存中。相反，系統(tǒng)維護(hù)一個(gè)輕量級(jí)的模型骨架，在任務(wù)識(shí)別后動(dòng)態(tài)加載必要的專家。

**實(shí)驗(yàn)驗(yàn)證：性能驚人保持，內(nèi)存大幅節(jié)省**

研究團(tuán)隊(duì)在多個(gè)MoE架構(gòu)上進(jìn)行了全面測(cè)試，結(jié)果令人印象深刻：

**DeepSeek-R1 671B**： - 完整模型（8/256配置，即每層8個(gè)激活專家，從256個(gè)專家中選擇）需要1.3TB內(nèi)存，在MATH500上準(zhǔn)確率為96.8%。 - 使用PreMoe精簡(jiǎn)到8/128配置（減少50%專家）后，內(nèi)存需求降至688GB，MATH500準(zhǔn)確率反而提高到97.2%。 - 進(jìn)一步激進(jìn)精簡(jiǎn)至8/32配置（減少87.5%專家），內(nèi)存需求降至196GB，仍保持72.0%的MATH500準(zhǔn)確率。

**Pangu-Ultra-MoE 718B**： - 從8/256配置（1.36TB內(nèi)存）精簡(jiǎn)到8/128配置（738GB內(nèi)存），MATH500準(zhǔn)確率從97.4%輕微下降至97.15%，AIME24準(zhǔn)確率完全保持在81.3%。 - 更激進(jìn)地精簡(jiǎn)到4/64配置（僅390GB內(nèi)存），MATH500準(zhǔn)確率仍達(dá)96.95%，AIME24為79.7%。

**內(nèi)存高效部署**： - 結(jié)合4位量化技術(shù)，進(jìn)一步降低內(nèi)存需求。 - DeepSeek-R1-W4（4位量化）在8/32配置下，僅需70GB內(nèi)存，在GPQA Biology上的表現(xiàn)（43.56%）甚至超過(guò)了原始完整模型（42.57%）。

值得注意的是，PreMoe不僅節(jié)省內(nèi)存，還提高了吞吐量。例如，Pangu-Ultra-MoE在從8/256減少到8/128（BF16精度）時(shí)吞吐量提升10%，在4/64 W4配置下提升35%。

**案例分析：看看精簡(jiǎn)模型的推理能力**

為了直觀展示模型精簡(jiǎn)后的性能，研究團(tuán)隊(duì)提供了DeepSeek-R1在不同精簡(jiǎn)比例下解決數(shù)學(xué)問(wèn)題的示例。令人驚訝的是，即使在大幅減少專家數(shù)量的情況下（如8/32配置），模型仍能保持正確的推理軌跡。這證明了PreMoe能夠有效保留模型的核心推理能力，盡管采用了激進(jìn)的精簡(jiǎn)策略。

**精心設(shè)計(jì)的消融實(shí)驗(yàn)**

為驗(yàn)證PreMoe各組件的有效性，研究團(tuán)隊(duì)進(jìn)行了一系列消融實(shí)驗(yàn)：

1. **與隨機(jī)選擇專家對(duì)比**：在相同精簡(jiǎn)比例下，PreMoe的TCESS專家選擇方法在所有測(cè)試任務(wù)中都顯著優(yōu)于隨機(jī)選擇專家。例如，在8/16設(shè)置下，PreMoe在GPQA Biology上達(dá)到34.15%準(zhǔn)確率，而隨機(jī)選擇僅為26.73%。

2. **輸出模式收集策略**：研究發(fā)現(xiàn)，同時(shí)考慮輸入查詢和模型推理輸出來(lái)收集TCESS模式，比僅使用輸入查詢效果更好。當(dāng)只基于查詢收集模式時(shí)，精簡(jiǎn)后的模型可能會(huì)出現(xiàn)重復(fù)循環(huán)或不完整解決方案，這凸顯了在整個(gè)生成過(guò)程中捕捉專家動(dòng)態(tài)的重要性。

**總結(jié)：MoE模型民主化的一大步**

PreMoe框架通過(guò)利用MoE模型中的任務(wù)專家專業(yè)化特性，成功解決了大型MoE模型在內(nèi)存受限環(huán)境中部署的關(guān)鍵挑戰(zhàn)。通過(guò)概率專家精簡(jiǎn)和任務(wù)自適應(yīng)專家檢索，PreMoe能夠顯著減少內(nèi)存占用，同時(shí)保持模型性能，使這些強(qiáng)大的AI系統(tǒng)可以在更廣泛的計(jì)算環(huán)境中運(yùn)行。

這項(xiàng)研究不僅為大型MoE模型的高效部署提供了實(shí)用解決方案，還展示了一個(gè)重要的研究方向：通過(guò)理解和利用模型內(nèi)部的專業(yè)化模式，我們可以更智能地優(yōu)化AI系統(tǒng)，使其同時(shí)兼顧性能和資源效率。

無(wú)論是云服務(wù)器、邊緣設(shè)備還是消費(fèi)級(jí)硬件，PreMoe都為將強(qiáng)大的AI能力帶入多樣化計(jì)算環(huán)境鋪平了道路，朝著AI民主化邁出了重要一步。

人工智能混合專家模型內(nèi)存優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn