av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 打破大語言模型的"詞匯牢籠":從TokenAdapt到Supertoken,讓AI自由適應(yīng)多語言環(huán)境

打破大語言模型的"詞匯牢籠":從TokenAdapt到Supertoken,讓AI自由適應(yīng)多語言環(huán)境

2025-05-19 14:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-19 14:54 ? 科技行者

大型語言模型的迅猛發(fā)展令人嘆為觀止,但它們面臨著一個鮮為人知的"隱形枷鎖"——詞匯分割系統(tǒng)(也稱為分詞器)。這項由Shaurya Sharthak、Vinayak Pahalwan(來自tinycompany)、Adithya Kamath(Proton郵箱用戶)和Adarsh Shirawalmath(Tensoic公司)組成的研究團隊在2025年5月16日發(fā)表的研究,揭示了如何讓AI模型擺脫這種束縛,實現(xiàn)語言表達的真正自由。研究團隊開發(fā)的TokenAdapt框架和SuperTokenizer訓(xùn)練代碼已在GitHub上開源,任何人都可以通過Tinycompany-AI/TokenAdapt和Tinycompany-AI/SuperTokenizer獲取。

一、"詞匯牢籠":語言模型的隱形束縛

想象一下,你學(xué)會了一門外語,但被限制只能使用特定的詞匯表達所有意思。更糟的是,當你遇到不在詞表中的詞時,必須將它們拆分成更小、可能毫無意義的片段來表達。這就是大型語言模型(LLMs)的日常困境。

大語言模型在預(yù)訓(xùn)練階段被"鎖定"在特定的分詞方案中,這種綁定限制了它們處理多語言或?qū)I(yè)領(lǐng)域文本的能力。舉個例子,當處理印地語或編程代碼時,模型常常需要將一個有意義的單詞或符號拆分成許多小片段,這就像把"冰淇淋"拆成"冰"、"淇"、"淋"三個字一樣,不僅效率低下,還可能失去原有含義。

這種分詞局限性帶來了三個主要問題:

首先,處理效率大幅降低。當一個簡單的單詞被分割成多個子詞時,模型需要處理的序列長度增加,導(dǎo)致計算成本和推理延遲顯著上升。想象一下,如果你閱讀時必須一個字母一個字母地讀,而不是整詞閱讀,速度會慢多少!

其次,性能大幅下降。當模型無法將語義單元作為整體處理時,理解能力會受到影響,尤其是在多語言應(yīng)用或?qū)I(yè)領(lǐng)域中。這就像強迫一個醫(yī)生用小學(xué)生的詞匯來解釋復(fù)雜的手術(shù)過程一樣困難。

第三,適應(yīng)新領(lǐng)域需要巨大的計算成本。傳統(tǒng)方法通常是擴展原始詞表并在相關(guān)數(shù)據(jù)上進行大規(guī)模持續(xù)預(yù)訓(xùn)練,這需要海量計算資源和大型目標語言語料庫,對于資源有限的團隊而言幾乎是天文數(shù)字。

二、從手工修補到智能適配:解鎖語言模型的發(fā)展歷程

傳統(tǒng)上,研究人員嘗試了幾種方法來解決這個問題,但每種方法都有其局限性,就像給牢籠換了個樣子,但并未真正打開囚門。

最常見的方法是詞匯擴展加持續(xù)預(yù)訓(xùn)練。想象一下,你有一本英語詞典,然后為了適應(yīng)中文,你在詞典后面附加了幾頁中文詞匯,然后花費數(shù)月時間重新學(xué)習(xí)整本詞典。這種方法雖然有效,特別是對于低資源語言,但需要大量計算資源和目標語言語料庫,成本極高。而且,僅僅添加新詞匯并不能解決原始分詞器可能對目標數(shù)據(jù)不理想的問題。

另一種思路是完全替換分詞器,并采用有效的初始化策略。早期研究表明,只重新訓(xùn)練嵌入層(模型的輸入輸出接口)而保持核心模型凍結(jié)是可行的。近期方法如ReTok通過簡單平均構(gòu)成子詞的嵌入來初始化新詞嵌入;FOCUS利用輔助的fastText嵌入空間計算新詞與重疊詞之間的相似性;WECHSEL使用靜態(tài)多語言嵌入找到最相近的源子詞;CLP-Transfer則結(jié)合使用來自較小目標語言模型的相似性。

雖然這些方法比隨機初始化好,加速了適應(yīng)過程,但它們?nèi)悦媾R局限:簡單平均可能缺乏語義精確性;依賴重疊或近鄰可能不適用于詞匯差異巨大的情況;依賴輔助資源可能引入潛在的對齊問題和額外的計算成本。關(guān)鍵是,大多數(shù)方法仍需要一個雖減少但非微不足道的訓(xùn)練階段才能達到最佳性能。

更高級的技術(shù)瞄準真正的零樣本遷移,如使用超網(wǎng)絡(luò)或基于統(tǒng)計機器翻譯的對齊,但這些方法往往引入顯著的前期訓(xùn)練復(fù)雜性或特定的數(shù)據(jù)要求(如平行語料庫)。

三、TokenAdapt:語義嫁接的藝術(shù)

面對這些挑戰(zhàn),研究團隊提出了TokenAdapt框架,這是一種模型無關(guān)的分詞器移植方法,適用于常見的Transformer架構(gòu)(處理綁定和非綁定嵌入配置)。想象它像一位語言外科醫(yī)生,能夠在不破壞語言模型"大腦"的情況下,精確替換其"語言接口"。

TokenAdapt的核心是一種用于新引入的唯一詞匯的混合啟發(fā)式初始化策略。這種策略巧妙地結(jié)合了兩種不同的估計方法:

首先是局部組合估計(Local Heuristic)。當面對一個新詞時,TokenAdapt會使用原始分詞器將其分解成子詞。然后,一個高質(zhì)量的外部文本嵌入模型會評估完整詞字符串與其構(gòu)成子詞字符串之間的語義相似性。這些相似性提供了權(quán)重,用于組合原始子詞的嵌入。子詞相似性按照長度進行加權(quán),因為經(jīng)驗表明這種方法非常有效。

想象你在學(xué)習(xí)一種新語言,遇到了"冰淇淋"這個詞。你已經(jīng)知道"冰"、"淇"和"淋"的含義,但需要將它們組合起來理解整個詞。TokenAdapt就是通過智能地評估每個部分對整體含義的貢獻,然后按照這種貢獻度加權(quán)組合它們,最終形成對"冰淇淋"的完整理解。

其次是全局相似性估計(Global Heuristic)。使用相同的外部嵌入空間和高效的向量搜索,TokenAdapt會在整個原始詞匯表中找到與新詞在語義上最相似的鄰居。然后,這些鄰居的原始嵌入按照其相似性分數(shù)進行加權(quán)。

繼續(xù)我們的例子,假設(shè)你不知道"冰淇淋",但知道"雪糕"、"冰激凌"和"甜點"。TokenAdapt會找出哪些已知詞與"冰淇淋"最相似,然后基于這些相似詞的理解,推斷出"冰淇淋"可能的含義。

最終分配給新詞的初始化是這些局部和全局估計的加權(quán)組合。這種方法精心設(shè)計,旨在從一開始就準確地將新詞投射到原始模型的嵌入空間中,從而保留關(guān)鍵的語義關(guān)系。

整個TokenAdapt工作流程分為三個階段:1)直接傳輸共享詞嵌入;2)通過局部+全局嵌入融合合成新詞表示;3)模型集成,包括更新嵌入層和權(quán)重綁定。這個過程就像為語言模型進行一次精密的"詞匯移植手術(shù)",保留了原有的語言理解能力,同時授予它理解新語言的能力。

四、Supertoken:打破單詞邊界的革命

除了TokenAdapt框架,研究團隊還探索了一種更具前瞻性的創(chuàng)新:學(xué)習(xí)多詞"超級詞元"(Supertoken)。這種方法通過概率性預(yù)分詞策略增強序列壓縮并減少分割,為語言模型提供了一種全新的"視角"。

傳統(tǒng)的分詞器通常將文本分解為子詞單元,受到詞邊界的限制。超級詞元方法則顛覆了這一傳統(tǒng),允許詞元跨越詞邊界,捕捉常見的詞組和表達,大大提高了表示效率。

想象你在閱讀時不再逐字閱讀"人工智能正在改變世界",而是一眼就能識別整個短語的含義。超級詞元正是讓語言模型獲得這種能力的技術(shù)。

研究團隊開發(fā)的隨機分塊算法在訓(xùn)練前對文本進行隨機切分,創(chuàng)建變長文本塊,鼓勵BPE(字節(jié)對編碼)合并主要發(fā)生在這些預(yù)定義塊內(nèi)部。這一過程促使分詞器學(xué)習(xí)更長的、語義更豐富的標記單位,從而提高壓縮效率。

通過對英語、印地語、數(shù)學(xué)公式和編程代碼等多種領(lǐng)域的分析表明,超級詞元分詞器確實能夠捕捉到更多的多詞單元,顯著提高壓縮比,減少序列長度,從而降低計算成本。

五、實驗結(jié)果:數(shù)據(jù)說話

研究團隊對TokenAdapt進行了全面測試,主要使用meta-llama/Llama-3.2-3B和Qwen/Qwen2.5-3B作為基礎(chǔ)模型,評估其適應(yīng)兩種目標分詞器的能力:標準的fhai50032/QTK-81K和自定義的超級詞元分詞器tinycompany/Adi-Bun-128K。

主要性能指標是零樣本困惑度(perplexity),這是評估語言模型在未見過的文本上表現(xiàn)的關(guān)鍵指標,類似于測量模型對新語言的"理解程度"。結(jié)果令人振奮。

在各種實驗場景中,TokenAdapt一致地產(chǎn)生了最低的總體困惑度比率,表明在分詞器替換后保持了原始模型能力的程度明顯高于替代方案。具體來說,與ReTok和TransTokenizer基線相比,TokenAdapt混合初始化方法在不同基礎(chǔ)模型和新訓(xùn)練的目標分詞器中始終產(chǎn)生更低的困惑度比率。

以Llama-3.2-3B遷移到QTK-81K為例,TokenAdapt的總體困惑度比率為48.2,而ReTok基線為71.1,TransTokenizer基線高達145.9。這意味著TokenAdapt的性能比ReTok提高了約1.5倍,比TransTokenizer提高了約3倍。

在不同語言和領(lǐng)域的表現(xiàn)上,TokenAdapt也表現(xiàn)出明顯優(yōu)勢。特別是在處理代碼和英語文本時,TokenAdapt幾乎完美地保留了原始模型的能力,困惑度比率接近1,這相當于分詞器替換幾乎沒有造成任何性能損失。

在與超級詞元分詞器(Adi-Bun-128K)配對時,雖然所有方法的困惑度比率都有所提高,但TokenAdapt依然保持領(lǐng)先優(yōu)勢,總體困惑度比率為577.5,明顯低于ReTok的1174.0和TransTokenizer的4173.6。這表明,即使面對更具挑戰(zhàn)性的分詞器更換任務(wù),TokenAdapt仍能提供更好的適應(yīng)能力。

特別值得一提的是,TokenAdapt的超級詞元方法在某些實驗條件下展示了顯著的壓縮優(yōu)勢。例如,在英語語料庫上,Adi-Bun-128K使用了283,657個詞元,而DeepSeek-R1和Krutrim-Ins等競爭分詞器分別使用了338,873和343,067個詞元,壓縮效率提高了約17-20%。這種效率提升在實際應(yīng)用中意味著更快的處理速度和更低的計算成本。

六、研究啟示與未來展望

這項研究為解決大型語言模型中的分詞器局限性提供了一個實用且計算效率高的途徑。TokenAdapt框架通過其創(chuàng)新的混合啟發(fā)式策略,為適應(yīng)新分詞方案的模型開辟了一條成本更低的路徑。

研究團隊的混合分詞器移植策略證明了用于初始化唯一詞元嵌入的有效性,顯著優(yōu)于已建立的基線和先進方法,在保持模型性能的同時最小化了重新訓(xùn)練需求。而超級詞元的初步探索也確認了這種方法在提高壓縮效率方面的巨大潛力。

有趣的是,研究過程中的一個反直覺發(fā)現(xiàn)是,在全局啟發(fā)式中應(yīng)用相似性閾值過濾(例如,過濾掉相似度低于0.5的鄰居)反而導(dǎo)致模型困惑度增加。這表明嵌入空間中的交互比我們想象的更為復(fù)雜,簡單的相似性篩選可能無法捕捉這種復(fù)雜性。

展望未來,這項工作開辟了幾個值得探索的研究方向,包括:探索更具適應(yīng)性的啟發(fā)式權(quán)重分配,調(diào)查替代輔助語義空間的有效性,開發(fā)集成策略以共同優(yōu)化超級詞元和移植,以及深入研究觀察到的閾值現(xiàn)象背后的原理。

通過提供克服分詞器限制的有效工具,這項研究旨在增強大型語言模型在更廣泛的任務(wù)和資源約束中的多功能性和適用性。這不僅對學(xué)術(shù)界具有重要意義,對于希望將強大的語言模型適應(yīng)特定領(lǐng)域、語言或效率要求的實踐者來說,也提供了切實可行的解決方案。

總的來說,TokenAdapt和超級詞元方法代表了語言模型適應(yīng)性的重要進步,為打破"詞匯牢籠",實現(xiàn)真正的語言自由提供了切實可行的路徑。它們不僅提高了模型的效率和性能,還降低了適應(yīng)新領(lǐng)域和語言的門檻,使強大的語言模型能夠惠及更廣泛的應(yīng)用場景和用戶群體。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-