av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<cite id="sq1m0"><li id="sq1m0"></li></cite>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

ByteDance發(fā)現(xiàn)詞匯表竟然也有「超量」：大語(yǔ)言模型的神秘增長(zhǎng)密碼

大語(yǔ)言模型詞匯表優(yōu)化模型架構(gòu)創(chuàng)新

ByteDance發(fā)現(xiàn)詞匯表竟然也有「超量」：大語(yǔ)言模型的神秘增長(zhǎng)密碼

作者：科技行者

2025-09-15 10:41

分享至：

ByteDance研究團(tuán)隊(duì)發(fā)現(xiàn)了大語(yǔ)言模型擴(kuò)展的新維度：通過(guò)擴(kuò)大輸入詞匯表可顯著提升模型性能而幾乎不增加計(jì)算成本。他們提出的過(guò)度詞匯化變換器將輸入和輸出詞匯表分離，輸入端使用1280萬(wàn)詞條，讓400M參數(shù)模型達(dá)到10億參數(shù)模型性能。研究發(fā)現(xiàn)詞匯表大小與性能呈對(duì)數(shù)線性關(guān)系，為大模型優(yōu)化提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-15 10:41 ? 科技行者

這項(xiàng)由ByteDance公司種子團(tuán)隊(duì)完成的研究于2025年發(fā)表在第42屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)（ICML 2025）上，論文編號(hào)為PMLR 267。想要深入了解這項(xiàng)研究的讀者可以通過(guò)arXiv:2501.16975v2訪問(wèn)完整論文。研究團(tuán)隊(duì)由黃洪志領(lǐng)導(dǎo)，包括朱德法、吳邦谷、曾雨濤、王婭、閔啟陽(yáng)、周迅等研究員。

如果說(shuō)大語(yǔ)言模型是一臺(tái)巧奪天工的翻譯機(jī)器，那么詞匯表就像是它的字典。過(guò)去，人們總是認(rèn)為字典越厚，機(jī)器運(yùn)算起來(lái)越費(fèi)勁。但ByteDance的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了一個(gè)令人意外的規(guī)律：適當(dāng)?shù)匕炎值渥龅酶?，機(jī)器不僅不會(huì)變慢，反而會(huì)變得更聰明。

這個(gè)發(fā)現(xiàn)顛覆了傳統(tǒng)認(rèn)知。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)，當(dāng)他們把大語(yǔ)言模型的輸入詞匯表從10萬(wàn)個(gè)詞條擴(kuò)展到1280萬(wàn)個(gè)詞條時(shí)，模型的性能竟然能媲美參數(shù)量是它兩倍的模型，而且?guī)缀醪辉黾尤魏斡?jì)算成本。更神奇的是，輸入詞匯表的大小與模型性能之間存在著一種對(duì)數(shù)線性關(guān)系——詞匯表每擴(kuò)大4倍，模型的表現(xiàn)就會(huì)顯著提升一個(gè)臺(tái)階。

為了驗(yàn)證這個(gè)發(fā)現(xiàn)，研究團(tuán)隊(duì)設(shè)計(jì)了一種叫做"過(guò)度詞匯化變換器"的新架構(gòu)。這種架構(gòu)最巧妙的地方在于它將輸入和輸出的詞匯表分離開來(lái)處理。就像一個(gè)聰明的圖書管理員，在讀書時(shí)可以參考一個(gè)巨大的索引目錄，但在寫總結(jié)時(shí)卻用簡(jiǎn)潔的語(yǔ)言表達(dá)，這樣既提高了理解能力，又保持了表達(dá)的效率。

研究團(tuán)隊(duì)首先在一個(gè)人工設(shè)計(jì)的語(yǔ)法系統(tǒng)上進(jìn)行了實(shí)驗(yàn)。這個(gè)語(yǔ)法系統(tǒng)就像一個(gè)嚴(yán)格的數(shù)學(xué)游戲，有著明確的規(guī)則和正確答案，這讓研究人員能夠準(zhǔn)確地測(cè)量模型的表現(xiàn)。他們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：大詞匯表對(duì)大模型來(lái)說(shuō)是福音，能讓它們學(xué)得更快更好；但對(duì)小模型來(lái)說(shuō)卻可能是負(fù)擔(dān)，會(huì)讓它們感到"消化不良"。

這個(gè)發(fā)現(xiàn)促使研究團(tuán)隊(duì)進(jìn)一步探索。他們將輸入和輸出的處理過(guò)程分開研究，發(fā)現(xiàn)了兩個(gè)不同的規(guī)律。輸入詞匯表的擴(kuò)大幾乎總是有益的，就像給學(xué)生提供更豐富的參考資料，總能幫助他們更好地理解問(wèn)題。而輸出詞匯表的擴(kuò)大則更像是提高考試的難度，對(duì)于學(xué)習(xí)能力強(qiáng)的大模型來(lái)說(shuō)是好事，能讓它們學(xué)得更精細(xì)；但對(duì)于小模型來(lái)說(shuō)可能會(huì)增加學(xué)習(xí)負(fù)擔(dān)。

基于這些發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了兩個(gè)核心技術(shù)：過(guò)度編碼和過(guò)度解碼。過(guò)度編碼技術(shù)通過(guò)使用多層級(jí)的n元組詞匯表來(lái)擴(kuò)展輸入處理能力。這就像是給模型配備了一套分辨率不同的鏡頭，既能看清大局，也能觀察細(xì)節(jié)。過(guò)度解碼技術(shù)則通過(guò)預(yù)測(cè)多個(gè)后續(xù)詞匯來(lái)提供更精細(xì)的監(jiān)督信號(hào)，但只在足夠大的模型上才有顯著效果。

在實(shí)際應(yīng)用中，研究團(tuán)隊(duì)面臨了一個(gè)技術(shù)挑戰(zhàn)：如此龐大的詞匯表會(huì)占用大量?jī)?nèi)存，可能讓訓(xùn)練過(guò)程變得緩慢。他們巧妙地運(yùn)用了分布式計(jì)算技術(shù)，將龐大的詞匯表分散到多個(gè)計(jì)算節(jié)點(diǎn)上，通過(guò)精心設(shè)計(jì)的通信策略，將額外的計(jì)算開銷控制在5%以內(nèi)。這就像是在多個(gè)倉(cāng)庫(kù)之間建立了高效的物流網(wǎng)絡(luò)，需要什么詞匯就快速調(diào)取，用完就歸還，避免了資源浪費(fèi)。

實(shí)驗(yàn)結(jié)果令人印象深刻。在OLMo2系列模型上的測(cè)試顯示，使用1280萬(wàn)詞匯表的400M參數(shù)模型能夠達(dá)到10億參數(shù)基準(zhǔn)模型的性能水平。在各種下游任務(wù)的評(píng)測(cè)中，過(guò)度編碼技術(shù)在數(shù)學(xué)推理、常識(shí)推理、閱讀理解等方面都展現(xiàn)出了顯著的加速效果，有些任務(wù)的學(xué)習(xí)速度提升了3到5倍。

更有趣的是，研究團(tuán)隊(duì)還在混合專家模型（MoE）架構(gòu)上驗(yàn)證了這一發(fā)現(xiàn)。MoE模型本身就采用了稀疏激活的設(shè)計(jì)理念，而過(guò)度編碼技術(shù)的核心也是稀疏地訪問(wèn)龐大的詞匯表，兩者有著天然的契合性。實(shí)驗(yàn)表明，在MoE架構(gòu)上應(yīng)用過(guò)度編碼技術(shù)同樣能帶來(lái)性能提升，盡管提升幅度相比密集模型有所減少，這可能是因?yàn)閮煞N稀疏技術(shù)之間存在某種重疊效應(yīng)。

研究團(tuán)隊(duì)還探索了將過(guò)度編碼與多詞匯預(yù)測(cè)技術(shù)相結(jié)合的可能性。多詞匯預(yù)測(cè)就像是讓模型同時(shí)完成多道題目，雖然計(jì)算量會(huì)增加，但學(xué)習(xí)效率可能更高。實(shí)驗(yàn)發(fā)現(xiàn)，當(dāng)過(guò)度編碼和多詞匯預(yù)測(cè)結(jié)合使用時(shí)，能夠產(chǎn)生協(xié)同效應(yīng)，進(jìn)一步提升模型性能。

從效率角度來(lái)看，過(guò)度編碼技術(shù)具有明顯優(yōu)勢(shì)。雖然增加了大量的詞匯表參數(shù)，但這些參數(shù)的訪問(wèn)是稀疏的，每次只需要激活其中很小一部分。在推理過(guò)程中，額外的計(jì)算開銷幾乎可以忽略不計(jì)，特別是對(duì)于大模型或大批量處理的情況。而且，研究團(tuán)隊(duì)還設(shè)計(jì)了將詞匯表參數(shù)轉(zhuǎn)移到CPU內(nèi)存的技術(shù)方案，進(jìn)一步減少了GPU內(nèi)存壓力。

這項(xiàng)研究的理論價(jià)值在于它揭示了大語(yǔ)言模型擴(kuò)展的一個(gè)新維度。傳統(tǒng)的擴(kuò)展思路主要集中在增加模型參數(shù)或訓(xùn)練數(shù)據(jù)，而這項(xiàng)研究證明了詞匯表規(guī)模也是一個(gè)值得重視的擴(kuò)展方向。更重要的是，它為我們理解語(yǔ)言模型的學(xué)習(xí)機(jī)制提供了新的視角：模型的輸入表示能力和輸出表達(dá)能力可能有著不同的擴(kuò)展規(guī)律和優(yōu)化策略。

研究團(tuán)隊(duì)通過(guò)對(duì)數(shù)線性關(guān)系的發(fā)現(xiàn)，為未來(lái)的模型設(shè)計(jì)提供了一個(gè)可量化的指導(dǎo)原則。當(dāng)我們想要提升模型性能時(shí)，除了增加參數(shù)和數(shù)據(jù)，還可以考慮擴(kuò)展輸入詞匯表。而這種擴(kuò)展的成本相對(duì)較低，性價(jià)比很高。

說(shuō)到底，這項(xiàng)研究最有價(jià)值的地方在于它改變了我們對(duì)大語(yǔ)言模型優(yōu)化的思維方式。過(guò)去人們總是關(guān)注模型的"大腦"要有多復(fù)雜，現(xiàn)在我們發(fā)現(xiàn)模型的"詞典"同樣重要。就像一個(gè)學(xué)者，不僅需要聰明的頭腦，也需要豐富的詞匯儲(chǔ)備。這個(gè)發(fā)現(xiàn)可能會(huì)影響未來(lái)大語(yǔ)言模型的設(shè)計(jì)思路，讓研究者們?cè)谧非蟾鼜?qiáng)性能時(shí)有了新的方向。

對(duì)于普通用戶來(lái)說(shuō)，這項(xiàng)研究意味著未來(lái)的AI系統(tǒng)可能會(huì)變得更加智能，同時(shí)運(yùn)行效率不會(huì)顯著降低。無(wú)論是智能寫作助手、代碼生成工具，還是各種對(duì)話系統(tǒng)，都可能因?yàn)檫@種技術(shù)而變得更加精準(zhǔn)和有用。而對(duì)于AI研究領(lǐng)域，這項(xiàng)工作開啟了一個(gè)新的研究方向，可能會(huì)催生更多關(guān)于詞匯表優(yōu)化的創(chuàng)新技術(shù)。

研究團(tuán)隊(duì)在論文中詳細(xì)記錄了實(shí)驗(yàn)過(guò)程和技術(shù)實(shí)現(xiàn)細(xì)節(jié)，為其他研究者重現(xiàn)和擴(kuò)展這項(xiàng)工作提供了完整的參考。他們還進(jìn)行了大量的消融實(shí)驗(yàn)，系統(tǒng)地分析了不同設(shè)計(jì)選擇對(duì)最終效果的影響，這些發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用具有重要的指導(dǎo)意義。感興趣的讀者可以通過(guò)arXiv:2501.16975v2獲取完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。

Q&A

Q1：過(guò)度詞匯化變換器是什么技術(shù)？它是如何工作的？

A：過(guò)度詞匯化變換器是一種新的大語(yǔ)言模型架構(gòu)，核心思想是將輸入和輸出的詞匯表分離處理。輸入端使用超大規(guī)模詞匯表（可達(dá)1280萬(wàn)詞條）來(lái)增強(qiáng)理解能力，輸出端保持相對(duì)簡(jiǎn)潔來(lái)控制計(jì)算成本。這種設(shè)計(jì)讓模型在閱讀理解時(shí)能參考更豐富的詞匯信息，但在生成回答時(shí)保持高效，就像一個(gè)博學(xué)的學(xué)者能理解復(fù)雜概念但用簡(jiǎn)潔語(yǔ)言表達(dá)。

Q2：為什么擴(kuò)大詞匯表能提升模型性能而不增加太多計(jì)算成本？

A：關(guān)鍵在于詞匯表的訪問(wèn)是稀疏的。雖然詞匯表很大，但模型在處理每個(gè)詞時(shí)只需要激活其中很小一部分，就像圖書館雖然藏書百萬(wàn)，但讀者每次只需要查閱幾本書。研究發(fā)現(xiàn)詞匯表大小與性能呈對(duì)數(shù)線性關(guān)系，每擴(kuò)大4倍詞匯表，性能顯著提升，但額外計(jì)算開銷控制在5%以內(nèi)。

Q3：這項(xiàng)技術(shù)對(duì)普通用戶使用AI產(chǎn)品有什么實(shí)際影響？

A：這項(xiàng)技術(shù)會(huì)讓AI系統(tǒng)變得更聰明但運(yùn)行效率基本不變。比如ChatGPT、文檔寫作助手、代碼生成工具等可能會(huì)變得更精準(zhǔn)，能更好地理解復(fù)雜問(wèn)題和細(xì)微差別，回答質(zhì)量更高。在數(shù)學(xué)推理、閱讀理解等任務(wù)上，學(xué)習(xí)速度可能提升3-5倍，這意味著AI產(chǎn)品的更新迭代會(huì)更快，用戶體驗(yàn)會(huì)持續(xù)改善。

大語(yǔ)言模型詞匯表優(yōu)化模型架構(gòu)創(chuàng)新

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<center id="j6eiz"></center>

<bdo id="j6eiz"></bdo>

<pre id="j6eiz"><tt id="j6eiz"></tt></pre>

<ruby id="j6eiz"><progress id="j6eiz"></progress></ruby>