
這項(xiàng)由ByteDance公司種子團(tuán)隊(duì)完成的研究于2025年發(fā)表在第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025)上,論文編號(hào)為PMLR 267。想要深入了解這項(xiàng)研究的讀者可以通過(guò)arXiv:2501.16975v2訪問(wèn)完整論文。研究團(tuán)隊(duì)由黃洪志領(lǐng)導(dǎo),包括朱德法、吳邦谷、曾雨濤、王婭、閔啟陽(yáng)、周迅等研究員。
如果說(shuō)大語(yǔ)言模型是一臺(tái)巧奪天工的翻譯機(jī)器,那么詞匯表就像是它的字典。過(guò)去,人們總是認(rèn)為字典越厚,機(jī)器運(yùn)算起來(lái)越費(fèi)勁。但ByteDance的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了一個(gè)令人意外的規(guī)律:適當(dāng)?shù)匕炎值渥龅酶?,機(jī)器不僅不會(huì)變慢,反而會(huì)變得更聰明。
這個(gè)發(fā)現(xiàn)顛覆了傳統(tǒng)認(rèn)知。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)他們把大語(yǔ)言模型的輸入詞匯表從10萬(wàn)個(gè)詞條擴(kuò)展到1280萬(wàn)個(gè)詞條時(shí),模型的性能竟然能媲美參數(shù)量是它兩倍的模型,而且?guī)缀醪辉黾尤魏斡?jì)算成本。更神奇的是,輸入詞匯表的大小與模型性能之間存在著一種對(duì)數(shù)線性關(guān)系——詞匯表每擴(kuò)大4倍,模型的表現(xiàn)就會(huì)顯著提升一個(gè)臺(tái)階。
為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一種叫做"過(guò)度詞匯化變換器"的新架構(gòu)。這種架構(gòu)最巧妙的地方在于它將輸入和輸出的詞匯表分離開來(lái)處理。就像一個(gè)聰明的圖書管理員,在讀書時(shí)可以參考一個(gè)巨大的索引目錄,但在寫總結(jié)時(shí)卻用簡(jiǎn)潔的語(yǔ)言表達(dá),這樣既提高了理解能力,又保持了表達(dá)的效率。
研究團(tuán)隊(duì)首先在一個(gè)人工設(shè)計(jì)的語(yǔ)法系統(tǒng)上進(jìn)行了實(shí)驗(yàn)。這個(gè)語(yǔ)法系統(tǒng)就像一個(gè)嚴(yán)格的數(shù)學(xué)游戲,有著明確的規(guī)則和正確答案,這讓研究人員能夠準(zhǔn)確地測(cè)量模型的表現(xiàn)。他們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:大詞匯表對(duì)大模型來(lái)說(shuō)是福音,能讓它們學(xué)得更快更好;但對(duì)小模型來(lái)說(shuō)卻可能是負(fù)擔(dān),會(huì)讓它們感到"消化不良"。
這個(gè)發(fā)現(xiàn)促使研究團(tuán)隊(duì)進(jìn)一步探索。他們將輸入和輸出的處理過(guò)程分開研究,發(fā)現(xiàn)了兩個(gè)不同的規(guī)律。輸入詞匯表的擴(kuò)大幾乎總是有益的,就像給學(xué)生提供更豐富的參考資料,總能幫助他們更好地理解問(wèn)題。而輸出詞匯表的擴(kuò)大則更像是提高考試的難度,對(duì)于學(xué)習(xí)能力強(qiáng)的大模型來(lái)說(shuō)是好事,能讓它們學(xué)得更精細(xì);但對(duì)于小模型來(lái)說(shuō)可能會(huì)增加學(xué)習(xí)負(fù)擔(dān)。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了兩個(gè)核心技術(shù):過(guò)度編碼和過(guò)度解碼。過(guò)度編碼技術(shù)通過(guò)使用多層級(jí)的n元組詞匯表來(lái)擴(kuò)展輸入處理能力。這就像是給模型配備了一套分辨率不同的鏡頭,既能看清大局,也能觀察細(xì)節(jié)。過(guò)度解碼技術(shù)則通過(guò)預(yù)測(cè)多個(gè)后續(xù)詞匯來(lái)提供更精細(xì)的監(jiān)督信號(hào),但只在足夠大的模型上才有顯著效果。
在實(shí)際應(yīng)用中,研究團(tuán)隊(duì)面臨了一個(gè)技術(shù)挑戰(zhàn):如此龐大的詞匯表會(huì)占用大量?jī)?nèi)存,可能讓訓(xùn)練過(guò)程變得緩慢。他們巧妙地運(yùn)用了分布式計(jì)算技術(shù),將龐大的詞匯表分散到多個(gè)計(jì)算節(jié)點(diǎn)上,通過(guò)精心設(shè)計(jì)的通信策略,將額外的計(jì)算開銷控制在5%以內(nèi)。這就像是在多個(gè)倉(cāng)庫(kù)之間建立了高效的物流網(wǎng)絡(luò),需要什么詞匯就快速調(diào)取,用完就歸還,避免了資源浪費(fèi)。
實(shí)驗(yàn)結(jié)果令人印象深刻。在OLMo2系列模型上的測(cè)試顯示,使用1280萬(wàn)詞匯表的400M參數(shù)模型能夠達(dá)到10億參數(shù)基準(zhǔn)模型的性能水平。在各種下游任務(wù)的評(píng)測(cè)中,過(guò)度編碼技術(shù)在數(shù)學(xué)推理、常識(shí)推理、閱讀理解等方面都展現(xiàn)出了顯著的加速效果,有些任務(wù)的學(xué)習(xí)速度提升了3到5倍。
更有趣的是,研究團(tuán)隊(duì)還在混合專家模型(MoE)架構(gòu)上驗(yàn)證了這一發(fā)現(xiàn)。MoE模型本身就采用了稀疏激活的設(shè)計(jì)理念,而過(guò)度編碼技術(shù)的核心也是稀疏地訪問(wèn)龐大的詞匯表,兩者有著天然的契合性。實(shí)驗(yàn)表明,在MoE架構(gòu)上應(yīng)用過(guò)度編碼技術(shù)同樣能帶來(lái)性能提升,盡管提升幅度相比密集模型有所減少,這可能是因?yàn)閮煞N稀疏技術(shù)之間存在某種重疊效應(yīng)。
研究團(tuán)隊(duì)還探索了將過(guò)度編碼與多詞匯預(yù)測(cè)技術(shù)相結(jié)合的可能性。多詞匯預(yù)測(cè)就像是讓模型同時(shí)完成多道題目,雖然計(jì)算量會(huì)增加,但學(xué)習(xí)效率可能更高。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)過(guò)度編碼和多詞匯預(yù)測(cè)結(jié)合使用時(shí),能夠產(chǎn)生協(xié)同效應(yīng),進(jìn)一步提升模型性能。
從效率角度來(lái)看,過(guò)度編碼技術(shù)具有明顯優(yōu)勢(shì)。雖然增加了大量的詞匯表參數(shù),但這些參數(shù)的訪問(wèn)是稀疏的,每次只需要激活其中很小一部分。在推理過(guò)程中,額外的計(jì)算開銷幾乎可以忽略不計(jì),特別是對(duì)于大模型或大批量處理的情況。而且,研究團(tuán)隊(duì)還設(shè)計(jì)了將詞匯表參數(shù)轉(zhuǎn)移到CPU內(nèi)存的技術(shù)方案,進(jìn)一步減少了GPU內(nèi)存壓力。
這項(xiàng)研究的理論價(jià)值在于它揭示了大語(yǔ)言模型擴(kuò)展的一個(gè)新維度。傳統(tǒng)的擴(kuò)展思路主要集中在增加模型參數(shù)或訓(xùn)練數(shù)據(jù),而這項(xiàng)研究證明了詞匯表規(guī)模也是一個(gè)值得重視的擴(kuò)展方向。更重要的是,它為我們理解語(yǔ)言模型的學(xué)習(xí)機(jī)制提供了新的視角:模型的輸入表示能力和輸出表達(dá)能力可能有著不同的擴(kuò)展規(guī)律和優(yōu)化策略。
研究團(tuán)隊(duì)通過(guò)對(duì)數(shù)線性關(guān)系的發(fā)現(xiàn),為未來(lái)的模型設(shè)計(jì)提供了一個(gè)可量化的指導(dǎo)原則。當(dāng)我們想要提升模型性能時(shí),除了增加參數(shù)和數(shù)據(jù),還可以考慮擴(kuò)展輸入詞匯表。而這種擴(kuò)展的成本相對(duì)較低,性價(jià)比很高。
說(shuō)到底,這項(xiàng)研究最有價(jià)值的地方在于它改變了我們對(duì)大語(yǔ)言模型優(yōu)化的思維方式。過(guò)去人們總是關(guān)注模型的"大腦"要有多復(fù)雜,現(xiàn)在我們發(fā)現(xiàn)模型的"詞典"同樣重要。就像一個(gè)學(xué)者,不僅需要聰明的頭腦,也需要豐富的詞匯儲(chǔ)備。這個(gè)發(fā)現(xiàn)可能會(huì)影響未來(lái)大語(yǔ)言模型的設(shè)計(jì)思路,讓研究者們?cè)谧非蟾鼜?qiáng)性能時(shí)有了新的方向。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究意味著未來(lái)的AI系統(tǒng)可能會(huì)變得更加智能,同時(shí)運(yùn)行效率不會(huì)顯著降低。無(wú)論是智能寫作助手、代碼生成工具,還是各種對(duì)話系統(tǒng),都可能因?yàn)檫@種技術(shù)而變得更加精準(zhǔn)和有用。而對(duì)于AI研究領(lǐng)域,這項(xiàng)工作開啟了一個(gè)新的研究方向,可能會(huì)催生更多關(guān)于詞匯表優(yōu)化的創(chuàng)新技術(shù)。
研究團(tuán)隊(duì)在論文中詳細(xì)記錄了實(shí)驗(yàn)過(guò)程和技術(shù)實(shí)現(xiàn)細(xì)節(jié),為其他研究者重現(xiàn)和擴(kuò)展這項(xiàng)工作提供了完整的參考。他們還進(jìn)行了大量的消融實(shí)驗(yàn),系統(tǒng)地分析了不同設(shè)計(jì)選擇對(duì)最終效果的影響,這些發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用具有重要的指導(dǎo)意義。感興趣的讀者可以通過(guò)arXiv:2501.16975v2獲取完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:過(guò)度詞匯化變換器是什么技術(shù)?它是如何工作的?
A:過(guò)度詞匯化變換器是一種新的大語(yǔ)言模型架構(gòu),核心思想是將輸入和輸出的詞匯表分離處理。輸入端使用超大規(guī)模詞匯表(可達(dá)1280萬(wàn)詞條)來(lái)增強(qiáng)理解能力,輸出端保持相對(duì)簡(jiǎn)潔來(lái)控制計(jì)算成本。這種設(shè)計(jì)讓模型在閱讀理解時(shí)能參考更豐富的詞匯信息,但在生成回答時(shí)保持高效,就像一個(gè)博學(xué)的學(xué)者能理解復(fù)雜概念但用簡(jiǎn)潔語(yǔ)言表達(dá)。
Q2:為什么擴(kuò)大詞匯表能提升模型性能而不增加太多計(jì)算成本?
A:關(guān)鍵在于詞匯表的訪問(wèn)是稀疏的。雖然詞匯表很大,但模型在處理每個(gè)詞時(shí)只需要激活其中很小一部分,就像圖書館雖然藏書百萬(wàn),但讀者每次只需要查閱幾本書。研究發(fā)現(xiàn)詞匯表大小與性能呈對(duì)數(shù)線性關(guān)系,每擴(kuò)大4倍詞匯表,性能顯著提升,但額外計(jì)算開銷控制在5%以內(nèi)。
Q3:這項(xiàng)技術(shù)對(duì)普通用戶使用AI產(chǎn)品有什么實(shí)際影響?
A:這項(xiàng)技術(shù)會(huì)讓AI系統(tǒng)變得更聰明但運(yùn)行效率基本不變。比如ChatGPT、文檔寫作助手、代碼生成工具等可能會(huì)變得更精準(zhǔn),能更好地理解復(fù)雜問(wèn)題和細(xì)微差別,回答質(zhì)量更高。在數(shù)學(xué)推理、閱讀理解等任務(wù)上,學(xué)習(xí)速度可能提升3-5倍,這意味著AI產(chǎn)品的更新迭代會(huì)更快,用戶體驗(yàn)會(huì)持續(xù)改善。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。