av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) ByteDance發(fā)現(xiàn)詞匯表竟然也有「超量」:大語(yǔ)言模型的神秘增長(zhǎng)密碼

ByteDance發(fā)現(xiàn)詞匯表竟然也有「超量」:大語(yǔ)言模型的神秘增長(zhǎng)密碼

2025-09-15 10:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-15 10:41 ? 科技行者

這項(xiàng)由ByteDance公司種子團(tuán)隊(duì)完成的研究于2025年發(fā)表在第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2025)上,論文編號(hào)為PMLR 267。想要深入了解這項(xiàng)研究的讀者可以通過(guò)arXiv:2501.16975v2訪問(wèn)完整論文。研究團(tuán)隊(duì)由黃洪志領(lǐng)導(dǎo),包括朱德法、吳邦谷、曾雨濤、王婭、閔啟陽(yáng)、周迅等研究員。

如果說(shuō)大語(yǔ)言模型是一臺(tái)巧奪天工的翻譯機(jī)器,那么詞匯表就像是它的字典。過(guò)去,人們總是認(rèn)為字典越厚,機(jī)器運(yùn)算起來(lái)越費(fèi)勁。但ByteDance的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了一個(gè)令人意外的規(guī)律:適當(dāng)?shù)匕炎值渥龅酶?,機(jī)器不僅不會(huì)變慢,反而會(huì)變得更聰明。

這個(gè)發(fā)現(xiàn)顛覆了傳統(tǒng)認(rèn)知。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)他們把大語(yǔ)言模型的輸入詞匯表從10萬(wàn)個(gè)詞條擴(kuò)展到1280萬(wàn)個(gè)詞條時(shí),模型的性能竟然能媲美參數(shù)量是它兩倍的模型,而且?guī)缀醪辉黾尤魏斡?jì)算成本。更神奇的是,輸入詞匯表的大小與模型性能之間存在著一種對(duì)數(shù)線性關(guān)系——詞匯表每擴(kuò)大4倍,模型的表現(xiàn)就會(huì)顯著提升一個(gè)臺(tái)階。

為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一種叫做"過(guò)度詞匯化變換器"的新架構(gòu)。這種架構(gòu)最巧妙的地方在于它將輸入和輸出的詞匯表分離開來(lái)處理。就像一個(gè)聰明的圖書管理員,在讀書時(shí)可以參考一個(gè)巨大的索引目錄,但在寫總結(jié)時(shí)卻用簡(jiǎn)潔的語(yǔ)言表達(dá),這樣既提高了理解能力,又保持了表達(dá)的效率。

研究團(tuán)隊(duì)首先在一個(gè)人工設(shè)計(jì)的語(yǔ)法系統(tǒng)上進(jìn)行了實(shí)驗(yàn)。這個(gè)語(yǔ)法系統(tǒng)就像一個(gè)嚴(yán)格的數(shù)學(xué)游戲,有著明確的規(guī)則和正確答案,這讓研究人員能夠準(zhǔn)確地測(cè)量模型的表現(xiàn)。他們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:大詞匯表對(duì)大模型來(lái)說(shuō)是福音,能讓它們學(xué)得更快更好;但對(duì)小模型來(lái)說(shuō)卻可能是負(fù)擔(dān),會(huì)讓它們感到"消化不良"。

這個(gè)發(fā)現(xiàn)促使研究團(tuán)隊(duì)進(jìn)一步探索。他們將輸入和輸出的處理過(guò)程分開研究,發(fā)現(xiàn)了兩個(gè)不同的規(guī)律。輸入詞匯表的擴(kuò)大幾乎總是有益的,就像給學(xué)生提供更豐富的參考資料,總能幫助他們更好地理解問(wèn)題。而輸出詞匯表的擴(kuò)大則更像是提高考試的難度,對(duì)于學(xué)習(xí)能力強(qiáng)的大模型來(lái)說(shuō)是好事,能讓它們學(xué)得更精細(xì);但對(duì)于小模型來(lái)說(shuō)可能會(huì)增加學(xué)習(xí)負(fù)擔(dān)。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了兩個(gè)核心技術(shù):過(guò)度編碼和過(guò)度解碼。過(guò)度編碼技術(shù)通過(guò)使用多層級(jí)的n元組詞匯表來(lái)擴(kuò)展輸入處理能力。這就像是給模型配備了一套分辨率不同的鏡頭,既能看清大局,也能觀察細(xì)節(jié)。過(guò)度解碼技術(shù)則通過(guò)預(yù)測(cè)多個(gè)后續(xù)詞匯來(lái)提供更精細(xì)的監(jiān)督信號(hào),但只在足夠大的模型上才有顯著效果。

在實(shí)際應(yīng)用中,研究團(tuán)隊(duì)面臨了一個(gè)技術(shù)挑戰(zhàn):如此龐大的詞匯表會(huì)占用大量?jī)?nèi)存,可能讓訓(xùn)練過(guò)程變得緩慢。他們巧妙地運(yùn)用了分布式計(jì)算技術(shù),將龐大的詞匯表分散到多個(gè)計(jì)算節(jié)點(diǎn)上,通過(guò)精心設(shè)計(jì)的通信策略,將額外的計(jì)算開銷控制在5%以內(nèi)。這就像是在多個(gè)倉(cāng)庫(kù)之間建立了高效的物流網(wǎng)絡(luò),需要什么詞匯就快速調(diào)取,用完就歸還,避免了資源浪費(fèi)。

實(shí)驗(yàn)結(jié)果令人印象深刻。在OLMo2系列模型上的測(cè)試顯示,使用1280萬(wàn)詞匯表的400M參數(shù)模型能夠達(dá)到10億參數(shù)基準(zhǔn)模型的性能水平。在各種下游任務(wù)的評(píng)測(cè)中,過(guò)度編碼技術(shù)在數(shù)學(xué)推理、常識(shí)推理、閱讀理解等方面都展現(xiàn)出了顯著的加速效果,有些任務(wù)的學(xué)習(xí)速度提升了3到5倍。

更有趣的是,研究團(tuán)隊(duì)還在混合專家模型(MoE)架構(gòu)上驗(yàn)證了這一發(fā)現(xiàn)。MoE模型本身就采用了稀疏激活的設(shè)計(jì)理念,而過(guò)度編碼技術(shù)的核心也是稀疏地訪問(wèn)龐大的詞匯表,兩者有著天然的契合性。實(shí)驗(yàn)表明,在MoE架構(gòu)上應(yīng)用過(guò)度編碼技術(shù)同樣能帶來(lái)性能提升,盡管提升幅度相比密集模型有所減少,這可能是因?yàn)閮煞N稀疏技術(shù)之間存在某種重疊效應(yīng)。

研究團(tuán)隊(duì)還探索了將過(guò)度編碼與多詞匯預(yù)測(cè)技術(shù)相結(jié)合的可能性。多詞匯預(yù)測(cè)就像是讓模型同時(shí)完成多道題目,雖然計(jì)算量會(huì)增加,但學(xué)習(xí)效率可能更高。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)過(guò)度編碼和多詞匯預(yù)測(cè)結(jié)合使用時(shí),能夠產(chǎn)生協(xié)同效應(yīng),進(jìn)一步提升模型性能。

從效率角度來(lái)看,過(guò)度編碼技術(shù)具有明顯優(yōu)勢(shì)。雖然增加了大量的詞匯表參數(shù),但這些參數(shù)的訪問(wèn)是稀疏的,每次只需要激活其中很小一部分。在推理過(guò)程中,額外的計(jì)算開銷幾乎可以忽略不計(jì),特別是對(duì)于大模型或大批量處理的情況。而且,研究團(tuán)隊(duì)還設(shè)計(jì)了將詞匯表參數(shù)轉(zhuǎn)移到CPU內(nèi)存的技術(shù)方案,進(jìn)一步減少了GPU內(nèi)存壓力。

這項(xiàng)研究的理論價(jià)值在于它揭示了大語(yǔ)言模型擴(kuò)展的一個(gè)新維度。傳統(tǒng)的擴(kuò)展思路主要集中在增加模型參數(shù)或訓(xùn)練數(shù)據(jù),而這項(xiàng)研究證明了詞匯表規(guī)模也是一個(gè)值得重視的擴(kuò)展方向。更重要的是,它為我們理解語(yǔ)言模型的學(xué)習(xí)機(jī)制提供了新的視角:模型的輸入表示能力和輸出表達(dá)能力可能有著不同的擴(kuò)展規(guī)律和優(yōu)化策略。

研究團(tuán)隊(duì)通過(guò)對(duì)數(shù)線性關(guān)系的發(fā)現(xiàn),為未來(lái)的模型設(shè)計(jì)提供了一個(gè)可量化的指導(dǎo)原則。當(dāng)我們想要提升模型性能時(shí),除了增加參數(shù)和數(shù)據(jù),還可以考慮擴(kuò)展輸入詞匯表。而這種擴(kuò)展的成本相對(duì)較低,性價(jià)比很高。

說(shuō)到底,這項(xiàng)研究最有價(jià)值的地方在于它改變了我們對(duì)大語(yǔ)言模型優(yōu)化的思維方式。過(guò)去人們總是關(guān)注模型的"大腦"要有多復(fù)雜,現(xiàn)在我們發(fā)現(xiàn)模型的"詞典"同樣重要。就像一個(gè)學(xué)者,不僅需要聰明的頭腦,也需要豐富的詞匯儲(chǔ)備。這個(gè)發(fā)現(xiàn)可能會(huì)影響未來(lái)大語(yǔ)言模型的設(shè)計(jì)思路,讓研究者們?cè)谧非蟾鼜?qiáng)性能時(shí)有了新的方向。

對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究意味著未來(lái)的AI系統(tǒng)可能會(huì)變得更加智能,同時(shí)運(yùn)行效率不會(huì)顯著降低。無(wú)論是智能寫作助手、代碼生成工具,還是各種對(duì)話系統(tǒng),都可能因?yàn)檫@種技術(shù)而變得更加精準(zhǔn)和有用。而對(duì)于AI研究領(lǐng)域,這項(xiàng)工作開啟了一個(gè)新的研究方向,可能會(huì)催生更多關(guān)于詞匯表優(yōu)化的創(chuàng)新技術(shù)。

研究團(tuán)隊(duì)在論文中詳細(xì)記錄了實(shí)驗(yàn)過(guò)程和技術(shù)實(shí)現(xiàn)細(xì)節(jié),為其他研究者重現(xiàn)和擴(kuò)展這項(xiàng)工作提供了完整的參考。他們還進(jìn)行了大量的消融實(shí)驗(yàn),系統(tǒng)地分析了不同設(shè)計(jì)選擇對(duì)最終效果的影響,這些發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用具有重要的指導(dǎo)意義。感興趣的讀者可以通過(guò)arXiv:2501.16975v2獲取完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。

Q&A

Q1:過(guò)度詞匯化變換器是什么技術(shù)?它是如何工作的?

A:過(guò)度詞匯化變換器是一種新的大語(yǔ)言模型架構(gòu),核心思想是將輸入和輸出的詞匯表分離處理。輸入端使用超大規(guī)模詞匯表(可達(dá)1280萬(wàn)詞條)來(lái)增強(qiáng)理解能力,輸出端保持相對(duì)簡(jiǎn)潔來(lái)控制計(jì)算成本。這種設(shè)計(jì)讓模型在閱讀理解時(shí)能參考更豐富的詞匯信息,但在生成回答時(shí)保持高效,就像一個(gè)博學(xué)的學(xué)者能理解復(fù)雜概念但用簡(jiǎn)潔語(yǔ)言表達(dá)。

Q2:為什么擴(kuò)大詞匯表能提升模型性能而不增加太多計(jì)算成本?

A:關(guān)鍵在于詞匯表的訪問(wèn)是稀疏的。雖然詞匯表很大,但模型在處理每個(gè)詞時(shí)只需要激活其中很小一部分,就像圖書館雖然藏書百萬(wàn),但讀者每次只需要查閱幾本書。研究發(fā)現(xiàn)詞匯表大小與性能呈對(duì)數(shù)線性關(guān)系,每擴(kuò)大4倍詞匯表,性能顯著提升,但額外計(jì)算開銷控制在5%以內(nèi)。

Q3:這項(xiàng)技術(shù)對(duì)普通用戶使用AI產(chǎn)品有什么實(shí)際影響?

A:這項(xiàng)技術(shù)會(huì)讓AI系統(tǒng)變得更聰明但運(yùn)行效率基本不變。比如ChatGPT、文檔寫作助手、代碼生成工具等可能會(huì)變得更精準(zhǔn),能更好地理解復(fù)雜問(wèn)題和細(xì)微差別,回答質(zhì)量更高。在數(shù)學(xué)推理、閱讀理解等任務(wù)上,學(xué)習(xí)速度可能提升3-5倍,這意味著AI產(chǎn)品的更新迭代會(huì)更快,用戶體驗(yàn)會(huì)持續(xù)改善。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-