在大型語(yǔ)言模型迅猛發(fā)展的今天,如何讓模型變得更加高效聰明,成為了研究人員面臨的關(guān)鍵挑戰(zhàn)。由FPT Software AI Center的Nam V. Nguyen和Van Nguyen,德克薩斯大學(xué)奧斯汀分校的Huy Nguyen和Nhat Ho,獨(dú)立研究員Quang Pham,以及A*STAR信息通信研究所的Savitha Ramasamy共同完成的最新研究《CompeteSMoE – Statistically Guaranteed Mixture of Experts Training via Competition》,于2025年5月20日發(fā)表在arXiv上(arXiv:2505.13380v1),為解決這一挑戰(zhàn)提供了創(chuàng)新性的解決方案。這項(xiàng)研究是對(duì)之前2024年2月發(fā)表研究的改進(jìn)版本。
想象一下,你有一支由不同專(zhuān)家組成的團(tuán)隊(duì),每個(gè)專(zhuān)家各有所長(zhǎng)。當(dāng)面對(duì)一個(gè)復(fù)雜問(wèn)題時(shí),你希望快速找出最適合解決這個(gè)特定問(wèn)題的專(zhuān)家,而不是讓所有人都參與進(jìn)來(lái)浪費(fèi)資源。這就是"稀疏混合專(zhuān)家"(Sparse Mixture of Experts,簡(jiǎn)稱(chēng)SMoE)的核心思想——一種能夠讓AI模型根據(jù)輸入內(nèi)容智能地選擇最合適的"專(zhuān)家"(神經(jīng)網(wǎng)絡(luò)子模塊)來(lái)處理信息的技術(shù)。
近年來(lái),大型語(yǔ)言模型(LLMs)在語(yǔ)言理解、代碼生成、視覺(jué)分析等多個(gè)領(lǐng)域取得了令人矚目的成就。要讓這些模型變得更強(qiáng)大,一個(gè)常見(jiàn)的方法是增加模型的深度和寬度,但這會(huì)帶來(lái)計(jì)算資源的巨大壓力。而SMoE提供了一種聰明的解決方案:不是讓整個(gè)巨大的網(wǎng)絡(luò)都參與計(jì)算,而是根據(jù)任務(wù)的具體需求,只激活部分相關(guān)的"專(zhuān)家"模塊。
然而,傳統(tǒng)的SMoE面臨一個(gè)根本性的問(wèn)題:它使用一個(gè)獨(dú)立的"路由器"來(lái)決定應(yīng)該激活哪些專(zhuān)家,而這個(gè)路由器與實(shí)際執(zhí)行計(jì)算的專(zhuān)家之間存在脫節(jié)。想象一下,你有一位前臺(tái)接待員(路由器)負(fù)責(zé)分配工作,但他并不了解各個(gè)專(zhuān)家的實(shí)際工作能力,只是根據(jù)簡(jiǎn)歷或固定規(guī)則分配任務(wù),這顯然不是最優(yōu)的選擇方式。
CompeteSMoE團(tuán)隊(duì)提出了一個(gè)全新的視角:為什么不讓專(zhuān)家們直接競(jìng)爭(zhēng)任務(wù)呢?在他們的方法中,所有專(zhuān)家都會(huì)對(duì)輸入進(jìn)行初步處理,然后系統(tǒng)選擇那些反應(yīng)最強(qiáng)烈(表現(xiàn)最好)的專(zhuān)家來(lái)完成最終的計(jì)算。這就像舉辦一場(chǎng)小型比賽,讓所有專(zhuān)家先展示自己處理特定問(wèn)題的能力,然后選出最優(yōu)秀的幾位繼續(xù)深入工作。
一、競(jìng)爭(zhēng)機(jī)制:讓專(zhuān)家自己"舉手"應(yīng)對(duì)挑戰(zhàn)
CompeteSMoE的核心創(chuàng)新在于引入了"競(jìng)爭(zhēng)機(jī)制"(Competition Mechanism)。這一機(jī)制受到生物學(xué)中"贏者通吃"(Winner-Take-All)原理的啟發(fā),該原理在我們的大腦中也有應(yīng)用——當(dāng)面對(duì)某種刺激時(shí),只有那些最相關(guān)的神經(jīng)元會(huì)被激活并抑制其他神經(jīng)元的活動(dòng)。
在傳統(tǒng)的SMoE中,一個(gè)獨(dú)立的路由器負(fù)責(zé)決定將輸入分發(fā)給哪些專(zhuān)家。這個(gè)路由器通常使用輸入與專(zhuān)家嵌入向量之間的點(diǎn)積來(lái)計(jì)算親和度得分,然后選擇得分最高的幾個(gè)專(zhuān)家進(jìn)行計(jì)算。問(wèn)題在于,這種方法中,專(zhuān)家的選擇與專(zhuān)家的實(shí)際能力之間沒(méi)有直接聯(lián)系。
而在CompeteSMoE中,事情變得更加直觀:所有專(zhuān)家都會(huì)對(duì)輸入進(jìn)行初步處理,系統(tǒng)會(huì)觀察每個(gè)專(zhuān)家的神經(jīng)反應(yīng)強(qiáng)度,然后選擇那些反應(yīng)最強(qiáng)烈的專(zhuān)家進(jìn)行深入計(jì)算。具體來(lái)說(shuō),這個(gè)過(guò)程包括四個(gè)步驟:
首先,所有N個(gè)專(zhuān)家都會(huì)對(duì)給定的輸入x進(jìn)行處理,得到各自的輸出g(x, Wei)。 然后,系統(tǒng)計(jì)算每個(gè)專(zhuān)家的親和度得分,這個(gè)得分基于專(zhuān)家的神經(jīng)反應(yīng),表示為si = E[log(1 + exp(g(x,Wei)))]。 接下來(lái),系統(tǒng)選擇得分最高的K個(gè)專(zhuān)家,并計(jì)算歸一化的親和度得分。 最后,系統(tǒng)將這K個(gè)專(zhuān)家的輸出按照歸一化后的親和度得分進(jìn)行加權(quán)求和,得到最終結(jié)果。
這種方法的優(yōu)勢(shì)在于,專(zhuān)家的選擇直接基于它們對(duì)特定輸入的實(shí)際處理能力,而不是基于與實(shí)際能力可能脫節(jié)的嵌入向量。研究團(tuán)隊(duì)在理論上證明了,這種競(jìng)爭(zhēng)機(jī)制能夠比傳統(tǒng)的softmax路由實(shí)現(xiàn)更好的樣本效率,即能夠更快地學(xué)習(xí)到更好的模型。
二、實(shí)用化:調(diào)度路由器訓(xùn)練降低計(jì)算開(kāi)銷(xiāo)
雖然競(jìng)爭(zhēng)機(jī)制在理論上非常吸引人,但直接實(shí)現(xiàn)它會(huì)帶來(lái)一個(gè)實(shí)際問(wèn)題:在每次前向傳播中都激活所有專(zhuān)家進(jìn)行計(jì)算,這對(duì)于擁有數(shù)十億參數(shù)的大型模型來(lái)說(shuō)計(jì)算開(kāi)銷(xiāo)太大了。
為了解決這個(gè)問(wèn)題,CompeteSMoE團(tuán)隊(duì)提出了一種巧妙的解決方案:使用一個(gè)可學(xué)習(xí)的路由器來(lái)學(xué)習(xí)競(jìng)爭(zhēng)策略,然后在大多數(shù)情況下使用這個(gè)路由器來(lái)模擬競(jìng)爭(zhēng)的結(jié)果,只在某些特定步驟中執(zhí)行完整的競(jìng)爭(zhēng)過(guò)程來(lái)更新路由器。
具體來(lái)說(shuō),這個(gè)過(guò)程包括兩個(gè)交替的學(xué)習(xí)階段:
1. 路由器學(xué)習(xí)階段:在這個(gè)階段,系統(tǒng)激活所有專(zhuān)家,執(zhí)行完整的競(jìng)爭(zhēng)過(guò)程,然后訓(xùn)練路由器模仿這種競(jìng)爭(zhēng)行為。路由器通過(guò)一個(gè)蒸餾損失函數(shù)學(xué)習(xí),該函數(shù)衡量路由器的選擇與競(jìng)爭(zhēng)機(jī)制選擇之間的差距。研究者們還引入了一個(gè)額外的權(quán)重,特別強(qiáng)調(diào)那些在競(jìng)爭(zhēng)中獲勝的專(zhuān)家,確保路由器能夠準(zhǔn)確地學(xué)習(xí)到最重要的模式。
2. 正常路由階段:在大多數(shù)時(shí)間里,系統(tǒng)直接使用訓(xùn)練好的路由器來(lái)選擇專(zhuān)家,而不執(zhí)行完整的競(jìng)爭(zhēng)過(guò)程,這大大降低了計(jì)算開(kāi)銷(xiāo)。
為了進(jìn)一步提高效率,研究者們還設(shè)計(jì)了一個(gè)"調(diào)度器"來(lái)控制競(jìng)爭(zhēng)機(jī)制的激活頻率。這個(gè)調(diào)度器有兩個(gè)層級(jí):一個(gè)層級(jí)獨(dú)立地決定每個(gè)層何時(shí)執(zhí)行競(jìng)爭(zhēng);另一個(gè)全局調(diào)度器確保在任何時(shí)間步中執(zhí)行競(jìng)爭(zhēng)的層數(shù)不超過(guò)一個(gè)預(yù)設(shè)的最大值。
此外,研究團(tuán)隊(duì)還注意到一個(gè)有趣的問(wèn)題:當(dāng)使用"稀疏升級(jí)"(sparse upcycling)技術(shù)從預(yù)訓(xùn)練模型構(gòu)建SMoE時(shí),初始階段的專(zhuān)家往往輸出非常相似,這會(huì)導(dǎo)致競(jìng)爭(zhēng)不夠有效。為了解決這個(gè)問(wèn)題,他們引入了一個(gè)多樣性損失函數(shù),鼓勵(lì)獲勝的專(zhuān)家產(chǎn)生多樣化的輸出,促進(jìn)更有效的專(zhuān)業(yè)化。
三、理論基礎(chǔ):為什么競(jìng)爭(zhēng)機(jī)制更有效?
CompeteSMoE的一個(gè)重要貢獻(xiàn)是提供了嚴(yán)格的理論分析,證明了競(jìng)爭(zhēng)機(jī)制在專(zhuān)家估計(jì)方面具有更好的樣本效率。
研究團(tuán)隊(duì)分析了配備競(jìng)爭(zhēng)機(jī)制的高斯混合專(zhuān)家模型的收斂行為。他們的理論分析表明,對(duì)于那些被精確指定的參數(shù)(即只有一個(gè)專(zhuān)家擬合真實(shí)專(zhuān)家的情況),估計(jì)率達(dá)到了參數(shù)級(jí)別,即O(n^(-1/2));而對(duì)于那些被過(guò)度指定的參數(shù)(即多個(gè)專(zhuān)家擬合同一個(gè)真實(shí)專(zhuān)家的情況),估計(jì)率略慢,為O(n^(-1/4))。
這意味著,要以給定誤差ε估計(jì)這些專(zhuān)家,競(jìng)爭(zhēng)機(jī)制最多需要O(ε^(-4))個(gè)數(shù)據(jù)點(diǎn)。相比之下,不使用競(jìng)爭(zhēng)機(jī)制時(shí),專(zhuān)家估計(jì)的收斂率會(huì)隨著擬合專(zhuān)家數(shù)量的增加而顯著下降。例如,如果一個(gè)專(zhuān)家被三個(gè)專(zhuān)家擬合,其估計(jì)率降至O(n^(-1/12)),需要O(ε^(-12))個(gè)數(shù)據(jù)點(diǎn)才能達(dá)到相同的精度。
簡(jiǎn)單來(lái)說(shuō),競(jìng)爭(zhēng)機(jī)制允許模型用少得多的數(shù)據(jù)學(xué)到同樣好(甚至更好)的效果,這對(duì)于訓(xùn)練資源有限的情況尤為重要。
四、實(shí)驗(yàn)驗(yàn)證:實(shí)際表現(xiàn)如何?
理論分析顯示競(jìng)爭(zhēng)機(jī)制有優(yōu)勢(shì),但實(shí)際效果如何呢?研究團(tuán)隊(duì)在兩個(gè)主要任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn):視覺(jué)指令調(diào)整(visual instruction tuning,VIT)和語(yǔ)言預(yù)訓(xùn)練。
在視覺(jué)指令調(diào)整任務(wù)中,他們使用了擁有5.1B參數(shù)的Phi3.5 mini作為語(yǔ)言模型,SigLiP作為視覺(jué)編碼器。他們將稠密模型稀疏升級(jí)為四個(gè)專(zhuān)家,每個(gè)輸入激活其中兩個(gè)。實(shí)驗(yàn)結(jié)果表明,CompeteSMoE在多個(gè)基準(zhǔn)測(cè)試中均優(yōu)于現(xiàn)有的最先進(jìn)SMoE算法,包括SMoE、XMoE、PCosine、MoEUT和SharedE-V2。特別是,CompeteSMoE在實(shí)時(shí)視覺(jué)感知和推理(MME RWL)、減少視覺(jué)幻覺(jué)(Hallusion和POPE)以及OCR(OCRBench)等具有挑戰(zhàn)性的任務(wù)上表現(xiàn)出色。
在語(yǔ)言預(yù)訓(xùn)練任務(wù)中,他們構(gòu)建了一個(gè)具有151M參數(shù)的解碼器模型,每個(gè)SMoE層由64個(gè)專(zhuān)家組成,每個(gè)輸入激活其中8個(gè)。實(shí)驗(yàn)結(jié)果再次證實(shí),CompeteSMoE優(yōu)于現(xiàn)有方法,特別是在文本推理(ARC-E和ARC-C)等任務(wù)上表現(xiàn)出色。
更重要的是,研究團(tuán)隊(duì)還分析了模型的訓(xùn)練行為,發(fā)現(xiàn)CompeteSMoE確實(shí)比基線方法具有更好的樣本效率,能夠在訓(xùn)練過(guò)程中更快地達(dá)到更好的性能。例如,圖1展示了在VIT任務(wù)中,隨著訓(xùn)練步驟的增加,CompeteSMoE始終保持領(lǐng)先優(yōu)勢(shì),這進(jìn)一步驗(yàn)證了理論分析的預(yù)測(cè)。
此外,研究者們還進(jìn)行了路由行為分析,通過(guò)一個(gè)巧妙的實(shí)驗(yàn)驗(yàn)證了CompeteSMoE的專(zhuān)家選擇確實(shí)更加有效:當(dāng)他們故意將最高親和度的專(zhuān)家替換為排名靠后的專(zhuān)家時(shí),CompeteSMoE的性能普遍下降,而傳統(tǒng)SMoE在某些基準(zhǔn)測(cè)試上反而性能提高,這表明傳統(tǒng)SMoE的路由策略遠(yuǎn)非最優(yōu)。
五、計(jì)算復(fù)雜度:實(shí)用性如何?
雖然CompeteSMoE引入了額外的競(jìng)爭(zhēng)機(jī)制,但研究團(tuán)隊(duì)精心設(shè)計(jì)了算法,確保其在實(shí)際應(yīng)用中的高效性。在復(fù)雜度分析中,CompeteSMoE的訓(xùn)練時(shí)間與標(biāo)準(zhǔn)SMoE相當(dāng),只增加了約3%。在推理階段,CompeteSMoE只使用簡(jiǎn)單的路由器,因此享有與SMoE相同的服務(wù)成本,甚至比那些基于余弦相似度的策略(如XMoE和PCosine)更高效,因?yàn)楹笳邥?huì)向路由器引入額外的參數(shù)。
這表明,CompeteSMoE不僅在性能上優(yōu)于現(xiàn)有方法,而且在計(jì)算效率方面也具有競(jìng)爭(zhēng)力,這對(duì)于實(shí)際部署至關(guān)重要。
六、研究意義與未來(lái)展望
CompeteSMoE研究的意義不僅限于提出一種新的算法。更重要的是,它提供了一個(gè)新的視角:讓專(zhuān)家直接參與路由過(guò)程,而不是依賴(lài)獨(dú)立的路由器。這種方法不僅在理論上有保證,而且在實(shí)踐中也表現(xiàn)出色。
雖然CompeteSMoE取得了令人鼓舞的結(jié)果,但研究團(tuán)隊(duì)也注意到一些局限和未來(lái)的研究方向。例如,CompeteSMoE引入了幾個(gè)超參數(shù),盡管團(tuán)隊(duì)提供了設(shè)置指南,但這可能會(huì)增加超參數(shù)搜索的成本。從算法角度來(lái)看,CompeteSMoE獨(dú)立地對(duì)每個(gè)SMoE層應(yīng)用競(jìng)爭(zhēng),未考慮不同層的專(zhuān)家之間的交互。理想的解決方案可能是通過(guò)網(wǎng)絡(luò)深度執(zhí)行圖遍歷算法,同時(shí)確定所有層的最優(yōu)專(zhuān)家選擇,這超出了當(dāng)前研究的范圍,留待未來(lái)探索。
總的來(lái)說(shuō),CompeteSMoE提供了一種統(tǒng)計(jì)上有保證的SMoE訓(xùn)練策略,能夠在各種大型模型的訓(xùn)練設(shè)置中帶來(lái)改進(jìn)。通過(guò)引入競(jìng)爭(zhēng)機(jī)制,它不僅提高了模型的性能,還改善了訓(xùn)練的樣本效率,這對(duì)于資源有限的情況尤為重要。
這項(xiàng)研究為未來(lái)開(kāi)發(fā)更高效、更有效的大型語(yǔ)言模型提供了新的思路和方法,有望推動(dòng)人工智能領(lǐng)域的進(jìn)一步發(fā)展。對(duì)于那些希望構(gòu)建更先進(jìn)的AI系統(tǒng)的研究者和工程師來(lái)說(shuō),CompeteSMoE無(wú)疑是一個(gè)值得考慮的重要工具。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。