這項由東京科學技術大學的中村泰志、石川里希和川村正樹等研究者主導的研究團隊,聯(lián)合東北大學、理化學研究所等機構,于2025年發(fā)表了一項關于大型語言模型架構優(yōu)化的重要發(fā)現(xiàn)。該研究發(fā)表在機器學習頂級會議上,感興趣的讀者可以通過arXiv:2508.18672獲取完整論文和相關代碼。
在人工智能快速發(fā)展的今天,大型語言模型就像是一個超級大腦,能夠理解和生成人類語言。而專家混合模型(Mixture-of-Experts,簡稱MoE)則像是一個擁有多個專業(yè)顧問的智囊團,每個顧問都有自己的專長領域。傳統(tǒng)觀念認為,顧問越多,智囊團的能力就越強。但是,東京科學技術大學的這個研究團隊卻發(fā)現(xiàn)了一個令人意外的現(xiàn)象:當面對需要深度思考的推理任務時,專家太多反而可能幫倒忙。
這個發(fā)現(xiàn)就像是在烹飪界發(fā)現(xiàn)了一個違反常識的現(xiàn)象:并非所有菜品都是調(diào)料越多越香。研究團隊通過大量實驗發(fā)現(xiàn),在處理記憶性任務(比如回憶歷史事實)時,專家數(shù)量確實是多多益善,就像制作一道復雜的滿漢全席,需要各種調(diào)料的精妙配合。但當面對需要邏輯推理的數(shù)學問題時,情況卻完全不同了。
想象一下,你正在解決一道復雜的數(shù)學題。如果有太多"顧問"同時在你耳邊給出不同的建議,反而會讓你思路混亂,無法集中注意力找到正確答案。研究團隊發(fā)現(xiàn),對于數(shù)學推理任務,存在一個"黃金比例"——專家數(shù)量超過這個最優(yōu)點后,模型的表現(xiàn)不但不會提升,甚至會開始下降。這就像是一個精密的天平,需要找到完美的平衡點。
研究團隊設計了一系列精巧的實驗來驗證這個發(fā)現(xiàn)。他們訓練了多個不同配置的專家混合模型,就像是培養(yǎng)了多個不同規(guī)模的智囊團。每個智囊團都有不同數(shù)量的專家,從8個到256個不等,同時每次處理問題時會調(diào)用不同數(shù)量的顧問,從2個到16個。這樣的設計讓研究團隊能夠細致地觀察專家數(shù)量變化對模型性能的影響。
在實驗過程中,研究團隊使用了125億個文本token進行訓練,這相當于讓模型閱讀了數(shù)萬本書籍的內(nèi)容。訓練數(shù)據(jù)包含了高質(zhì)量的網(wǎng)頁文本、數(shù)學資料、學術文獻和程序代碼,確保模型能夠全面地學習各種知識和技能。整個訓練過程就像是為這些AI專家們安排了一場全方位的"教育培訓"。
實驗結(jié)果令人震驚。在處理TriviaQA和HellaSwag這類知識問答任務時,模型的表現(xiàn)確實隨著專家數(shù)量的增加而提升,就像一個博學的圖書管理員,知識儲備越豐富,回答問題的準確率就越高。但在面對GSM8K和GSM-Plus這類數(shù)學推理任務時,情況卻截然不同。當專家數(shù)量超過某個臨界點后,模型的數(shù)學能力開始走下坡路,即使它在訓練數(shù)據(jù)上的表現(xiàn)依然在改善。
這種現(xiàn)象就像是學習鋼琴的過程。初學者需要掌握基本的手指技巧和音樂理論,這時候多學一些基礎知識確實有幫助。但當需要演奏復雜的協(xié)奏曲時,過多的"技巧"反而可能讓演奏變得僵硬和機械,失去了音樂應有的流暢性和表現(xiàn)力。數(shù)學推理需要的是清晰、專注的思維過程,而過多的專家可能會帶來"信息過載"的問題。
更有趣的是,研究團隊發(fā)現(xiàn)這種現(xiàn)象與模型的"稀疏度"密切相關。稀疏度可以理解為在解決問題時實際參與工作的專家比例。如果把專家混合模型比作一個樂團,稀疏度就是在演奏某首曲子時實際上臺演奏的樂手比例。對于需要精密協(xié)調(diào)的室內(nèi)樂,可能只需要少數(shù)幾個高水平的樂手;而對于氣勢磅礴的交響樂,則需要更多樂手的參與。
研究團隊進一步探索了在固定計算預算下的最優(yōu)配置。這就像是在有限的預算內(nèi)組建最強的團隊——你是選擇聘請更多普通專家,還是聘請少數(shù)幾個超級專家?實驗結(jié)果顯示,對于記憶性任務,"多而精"的策略更有效;但對于推理任務,"少而強"的策略往往能取得更好的效果。
特別值得注意的是,研究團隊還測試了是否可以通過后期優(yōu)化來彌補這種性能損失。他們嘗試了兩種補救措施:強化學習后訓練和增加測試時的計算資源。然而,結(jié)果令人沮喪——就像是試圖通過增加調(diào)料來拯救一道已經(jīng)過咸的菜肴一樣,這些補救措施并不能完全挽回過度稀疏化帶來的推理能力損失。這說明,找到正確的架構配置在訓練初期就至關重要,后期的修補往往事倍功半。
研究團隊還深入研究了一個重要參數(shù)——每參數(shù)對應的訓練數(shù)據(jù)量。這個概念可以理解為每個專家需要"消化"多少信息才能變得足夠聰明。就像培養(yǎng)一個醫(yī)生需要多年的醫(yī)學院學習和臨床實踐一樣,AI專家也需要足夠的數(shù)據(jù)來訓練。研究發(fā)現(xiàn),對于記憶性任務,專家們可以"饑不擇食",即使數(shù)據(jù)相對較少也能表現(xiàn)良好;但對于推理任務,專家們需要更充足的"營養(yǎng)",數(shù)據(jù)量不足時推理能力會顯著下降。
在代碼生成任務的測試中,研究團隊發(fā)現(xiàn)了類似的模式。使用HumanEval和MBPP這兩個編程基準測試,結(jié)果再次證實了同樣的規(guī)律:當需要進行復雜的邏輯推理來編寫程序時,過多的專家同樣會降低性能。這進一步證明了這一發(fā)現(xiàn)的普遍性——不僅僅是數(shù)學推理,任何需要深度邏輯思考的任務都可能受到這種"專家過多"問題的影響。
研究團隊還探索了不同學習率和初始化方法對模型性能的影響。他們發(fā)現(xiàn),這些傳統(tǒng)的優(yōu)化技巧對推理任務的影響模式與專家稀疏度的影響驚人地相似。這就像是發(fā)現(xiàn)了多條通往同一目的地的道路——無論是調(diào)整專家數(shù)量、學習速度還是起始設置,對于推理能力的影響都遵循著相似的規(guī)律。這個發(fā)現(xiàn)為理解大型語言模型的內(nèi)在機制提供了新的視角。
從實用角度來看,這項研究為AI系統(tǒng)的設計提供了重要指導。在有限的計算資源下,如果你的目標是構建一個善于記憶和檢索信息的系統(tǒng),那么增加專家數(shù)量是明智的選擇。但如果你希望系統(tǒng)具備強大的推理能力,那么應該更加謹慎地平衡專家數(shù)量和質(zhì)量。這就像是在組建不同類型的工作團隊:信息收集團隊可能需要更多成員來擴大搜索范圍,而創(chuàng)新思考團隊則可能需要少數(shù)幾個深度思考者。
這項研究的意義遠超技術層面。它揭示了一個深刻的哲學問題:在復雜系統(tǒng)中,"更多"并不總是意味著"更好"。就像大自然中的生態(tài)系統(tǒng)一樣,最健康的系統(tǒng)往往不是物種最多的,而是各種元素之間達到最佳平衡的。這個發(fā)現(xiàn)提醒我們,在追求人工智能性能提升的道路上,需要更加精細化的策略,而不是簡單的規(guī)模擴張。
說到底,這項研究告訴我們一個簡單卻深刻的道理:智慧不在于擁有多少個"專家",而在于如何讓這些專家以最佳方式協(xié)作。對于需要深度思考的任務,有時候"術業(yè)有專攻"的小而精的團隊比龐大而復雜的專家集群更有效。這不僅對AI系統(tǒng)設計有啟發(fā)意義,對我們?nèi)粘I钪械膱F隊組建和資源配置也有借鑒價值。下次當你面臨"是否需要更多專家參與"的決策時,不妨想想這個研究的發(fā)現(xiàn)——有時候,少即是多。
如果你對這項研究的具體技術細節(jié)感興趣,研究團隊已經(jīng)將所有代碼和實驗數(shù)據(jù)開源,可以通過GitHub訪問相關資源。這種開放的研究態(tài)度讓更多人能夠驗證和擴展這些發(fā)現(xiàn),推動整個AI領域的進步。
Q&A
Q1:專家混合模型是什么?為什么專家數(shù)量會影響性能?
A:專家混合模型就像一個擁有多個專業(yè)顧問的智囊團,每個"專家"負責處理特定類型的信息。傳統(tǒng)認為專家越多能力越強,但研究發(fā)現(xiàn)對于數(shù)學推理等需要深度思考的任務,過多專家反而會造成"信息過載",就像解題時有太多人同時給建議會讓思路混亂一樣。
Q2:這個發(fā)現(xiàn)對普通用戶使用AI產(chǎn)品有什么影響?
A:這意味著未來的AI產(chǎn)品可能會針對不同用途采用不同的架構設計。如果你需要AI幫助查找資料或回答知識性問題,那么"專家多"的模型效果更好;但如果你需要AI協(xié)助解決數(shù)學題或編程問題,那么"專家精"的模型可能表現(xiàn)更佳。
Q3:為什么強化學習和增加計算資源都無法解決專家過多的問題?
A:這就像試圖通過加調(diào)料來拯救過咸的菜一樣,架構設計的根本問題很難通過后期補救完全解決。如果在訓練初期就選擇了不合適的專家配置,模型的推理能力已經(jīng)受到了結(jié)構性損害,后期的優(yōu)化技巧只能部分改善,無法完全恢復到最佳狀態(tài)。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。