av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 ModernGBERT:德國語言的新標(biāo)桿,維爾茨堡大學(xué)推出全透明1B參數(shù)編碼器模型

ModernGBERT:德國語言的新標(biāo)桿,維爾茨堡大學(xué)推出全透明1B參數(shù)編碼器模型

2025-05-30 11:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 11:16 ? 科技行者

在自然語言處理技術(shù)日新月異的今天,雖然解碼器模型(如ChatGPT這類大語言模型)風(fēng)頭正盛,但編碼器模型依然在很多實(shí)際應(yīng)用中扮演著不可替代的角色。這就像是雖然智能手機(jī)風(fēng)靡全球,但專業(yè)相機(jī)在特定場景下仍有其獨(dú)特價(jià)值一樣。近日,來自德國維爾茨堡大學(xué)的研究團(tuán)隊(duì)發(fā)布了一項(xiàng)重要研究成果:ModernGBERT,一個(gè)完全透明的德語編碼器模型家族。這項(xiàng)研究由Anton Ehrmanntraut、Julia Wunderle、Jan Pfister、Fotis Jannidis和Andreas Hotho共同完成,于2025年5月發(fā)表在arXiv預(yù)印本平臺(tái),編號為2505.13136v1。

研究團(tuán)隊(duì)來自維爾茨堡尤利烏斯-馬克西米利安大學(xué)(JMU)的人工智能與數(shù)據(jù)科學(xué)中心(CAIDAS),他們的目標(biāo)是為德語自然語言處理社區(qū)提供更高效、更強(qiáng)大的工具。想象一下,如果德語是一座古老的城堡,那么ModernGBERT就是一把能打開城堡各個(gè)房間的精巧鑰匙,讓人們能更深入地理解和利用德語文本中的豐富信息。

為什么編碼器模型在解碼器模型大行其道的今天仍然重要?這就像是雖然大型超市能提供各種商品,但專業(yè)精品店在特定商品上仍有其不可替代的優(yōu)勢。編碼器模型以其雙向注意力機(jī)制,能夠更全面地理解文本,同時(shí)所需計(jì)算資源更少,特別適合在資源受限的環(huán)境下部署,比如為本地搜索引擎提供支持。

研究團(tuán)隊(duì)開發(fā)了兩個(gè)版本的ModernGBERT:一個(gè)擁有1.34億參數(shù)的小型模型和一個(gè)擁有10億參數(shù)的大型模型。為了全面評估從頭訓(xùn)練編碼器模型的實(shí)際效果,他們還開發(fā)了LLaMmlein2Vec系列模型(包括1.2億、10億和70億參數(shù)版本),這些模型是通過LLM2Vec技術(shù)從德語解碼器模型轉(zhuǎn)換而來。通過這種設(shè)計(jì),研究人員能夠系統(tǒng)地比較不同架構(gòu)和訓(xùn)練策略的優(yōu)劣。

所有這些模型都在自然語言理解、文本嵌入和長文本推理任務(wù)上進(jìn)行了嚴(yán)格測試。結(jié)果令人振奮:ModernGBERT 1B模型不僅超越了之前最先進(jìn)的德語編碼器模型,還在性能和參數(shù)效率方面優(yōu)于通過LLM2Vec適配的編碼器。這就像是一輛精心設(shè)計(jì)的緊湊型汽車,不僅速度快,油耗還低。

最令人稱道的是,研究團(tuán)隊(duì)完全公開了所有模型、訓(xùn)練數(shù)據(jù)、檢查點(diǎn)和代碼,為德語自然語言處理生態(tài)系統(tǒng)提供了透明、高性能的編碼器模型資源。這種開放態(tài)度無疑將推動(dòng)德語自然語言處理技術(shù)的進(jìn)一步發(fā)展。

一、研究背景與動(dòng)機(jī)

在人工智能領(lǐng)域,雖然像ChatGPT這樣的解碼器型大語言模型已經(jīng)成為明星,但編碼器模型仍然在很多場景中有著不可替代的價(jià)值。就像雖然智能手機(jī)功能全面,但專業(yè)相機(jī)在拍攝質(zhì)量上仍有優(yōu)勢一樣。

在德語自然語言處理領(lǐng)域,GBERTLarge(擁有3.37億參數(shù))一直是廣受歡迎的編碼器模型。盡管它規(guī)模不大,訓(xùn)練數(shù)據(jù)也有限(只有163GB),但它在各種任務(wù)上的表現(xiàn)仍能與大得多的德語解碼器模型相媲美,正如Pfister和Hotho在2024年的研究中所證明的那樣。這就像是一位經(jīng)驗(yàn)豐富的老師,雖然沒有最先進(jìn)的教學(xué)設(shè)備,但憑借深厚的知識(shí)積累和教學(xué)技巧,仍能幫助學(xué)生取得優(yōu)異成績。

最近,Warner及其團(tuán)隊(duì)在2024年推出的ModernBERT為英語編碼器帶來了多項(xiàng)架構(gòu)改進(jìn),包括增強(qiáng)的相對位置嵌入和高效的注意力模式,使模型能夠處理更長的文本。這些創(chuàng)新就像是為老式汽車安裝了更高效的引擎和更精確的導(dǎo)航系統(tǒng),大大提升了其性能和適用范圍。

受此啟發(fā),同時(shí)借鑒了Pfister等人在2024年成功開發(fā)的LLaMmlein(一個(gè)在約6TB的RedPajamaV2文本上透明訓(xùn)練的德語解碼器模型家族)的經(jīng)驗(yàn),研究團(tuán)隊(duì)決定開發(fā)ModernGBERT——一個(gè)完全開放、高性能的德語編碼器模型家族,包括1.34億和10億參數(shù)兩個(gè)版本。

這個(gè)項(xiàng)目不僅能探索ModernBERT的架構(gòu)創(chuàng)新對德語編碼器性能的影響,還能研究當(dāng)在大規(guī)模單語語料庫上訓(xùn)練時(shí),參數(shù)規(guī)模如何影響模型質(zhì)量。這就像是進(jìn)行一項(xiàng)精心設(shè)計(jì)的烹飪實(shí)驗(yàn),探索不同配方和烹飪技巧如何影響最終菜肴的口感和風(fēng)味。

為了更全面地評估從頭訓(xùn)練編碼器模型的實(shí)用性和權(quán)衡,研究團(tuán)隊(duì)還開發(fā)了LLaMmlein2Vec編碼器(1.2億、10億和70億參數(shù)),這些模型是使用LLM2Vec方法從解碼器模型轉(zhuǎn)換而來的。由于所有模型都基于相同的訓(xùn)練數(shù)據(jù)集,這種設(shè)置為系統(tǒng)分析不同架構(gòu)和訓(xùn)練策略之間的關(guān)系提供了基礎(chǔ)。

研究團(tuán)隊(duì)通過多種方式對這些模型進(jìn)行了全面評估:自然語言理解能力(使用SuperGLEBer基準(zhǔn))、嵌入性能(使用MTEB)以及長文本理解能力(使用問答針頭在干草堆中任務(wù))。研究發(fā)現(xiàn):

1. ModernGBERT 1.34億和10億參數(shù)模型是高度競爭力的德語編碼器,能夠很好地處理長達(dá)8,192個(gè)標(biāo)記的文本,其中10億參數(shù)版本超越了之前最先進(jìn)的GBERTLarge。

2. LLaMmlein2Vec 70億參數(shù)模型也優(yōu)于GBERTLarge,盡管在相似規(guī)模下,專門訓(xùn)練的編碼器仍然優(yōu)于轉(zhuǎn)換后的模型。

這些發(fā)現(xiàn)為德語自然語言處理領(lǐng)域提供了寶貴的見解和強(qiáng)大的新工具,就像是為建筑師提供了更精良的設(shè)計(jì)軟件,使他們能夠創(chuàng)造出更精美、更實(shí)用的建筑作品。

二、數(shù)據(jù)集的選擇與處理

任何卓越的模型背后都離不開高質(zhì)量的數(shù)據(jù),就像烹飪美食需要新鮮優(yōu)質(zhì)的原料一樣。研究團(tuán)隊(duì)在數(shù)據(jù)集的選擇和處理上投入了大量精力,確保ModernGBERT能夠?qū)W習(xí)到豐富、多樣的德語知識(shí)。

首先,研究團(tuán)隊(duì)使用了與LLaMmlein解碼器模型相同的預(yù)訓(xùn)練數(shù)據(jù),即開源的RedPajamaV2數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了2014年至2023年間的德語CommonCrawl快照。為了保持ModernGBERT和LLaMmlein之間的數(shù)據(jù)一致性,研究團(tuán)隊(duì)遵循了LLaMmlein的數(shù)據(jù)處理流程,選擇了質(zhì)量更高的文檔級去重的"頭部"和"中部"部分,排除了質(zhì)量較低的"尾部"部分。對于1.34億參數(shù)的模型,研究團(tuán)隊(duì)只選擇了頭部部分?jǐn)?shù)據(jù)。

數(shù)據(jù)處理過程也相當(dāng)精細(xì)。首先,使用布隆過濾器進(jìn)行段落級別的去重,移除冗余內(nèi)容,如GDPR通知和網(wǎng)頁樣板文本,從而提高數(shù)據(jù)多樣性。然后,應(yīng)用token-to-word比率過濾器進(jìn)一步提高文本質(zhì)量。最終的數(shù)據(jù)集約為6TB,其中頭部約2TB,中部約4TB。使用GBERTLarge分詞器,這相當(dāng)于約1.27萬億個(gè)標(biāo)記。

除了預(yù)訓(xùn)練數(shù)據(jù)集,研究團(tuán)隊(duì)還構(gòu)建了上下文擴(kuò)展數(shù)據(jù)集,這是模型能夠處理長文本的關(guān)鍵。就像運(yùn)動(dòng)員不僅需要基礎(chǔ)訓(xùn)練,還需要專項(xiàng)訓(xùn)練來提升特定能力一樣,模型也需要特定的數(shù)據(jù)來增強(qiáng)其長文本處理能力。

ModernBERT通過兩個(gè)階段的微調(diào)來增強(qiáng)其上下文容量,從1,024提高到8,192:首先在原始預(yù)訓(xùn)練數(shù)據(jù)集的約250B標(biāo)記子樣本(8,192標(biāo)記序列)上進(jìn)行訓(xùn)練,然后在一個(gè)精心策劃的約50B標(biāo)記數(shù)據(jù)集上訓(xùn)練,該數(shù)據(jù)集混合了短序列和長序列(最長8,192標(biāo)記)。

遵循這一設(shè)置,研究團(tuán)隊(duì)構(gòu)建了自己的德語上下文擴(kuò)展數(shù)據(jù)集:對于第一階段,他們從預(yù)訓(xùn)練數(shù)據(jù)集中抽樣長序列;對于第二階段,他們使用了被稱為"HQ"的高質(zhì)量數(shù)據(jù)集,包括德語部分的Fineweb2數(shù)據(jù)集、德語維基百科和OpenLegalData轉(zhuǎn)儲(chǔ)。整個(gè)HQ數(shù)據(jù)集包含144億個(gè)標(biāo)記。

這種精心設(shè)計(jì)的數(shù)據(jù)集為ModernGBERT提供了堅(jiān)實(shí)的學(xué)習(xí)基礎(chǔ),就像為學(xué)生提供豐富多樣的教材和練習(xí),使他們能夠全面發(fā)展各種技能。通過這種方式,模型不僅能夠理解各種德語文本,還能處理長達(dá)8,192個(gè)標(biāo)記的長文檔,大大擴(kuò)展了其應(yīng)用范圍。

三、模型架構(gòu)與訓(xùn)練方法

當(dāng)我們談?wù)撃P图軜?gòu)時(shí),可以將其想象為建筑的骨架和布局。不同的架構(gòu)就像不同風(fēng)格的建筑,各有其特點(diǎn)和優(yōu)勢。研究團(tuán)隊(duì)在本研究中采用了兩種主要方法:從頭訓(xùn)練編碼器模型(ModernGBERT)和將解碼器模型轉(zhuǎn)換為編碼器(LLaMmlein2Vec)。

ModernGBERT模型采用了ModernBERT的架構(gòu)和訓(xùn)練策略,并針對德語進(jìn)行了調(diào)整。ModernGBERT 1.34億參數(shù)模型與基礎(chǔ)ModernBERT模型大小相當(dāng)(22層,768個(gè)隱藏單元,但由于詞匯量較小,參數(shù)比原版少1600萬),而ModernGBERT 10億參數(shù)版本則由28層和2,048個(gè)隱藏單元組成。

兩個(gè)模型都遵循ModernBERT的預(yù)訓(xùn)練方法:使用掩碼語言建模(MLM)而不進(jìn)行下一句預(yù)測,采用30%的掩碼率,序列長度最多為1,024個(gè)標(biāo)記(RoPE theta為10,000)。ModernGBERT 10億參數(shù)版本先在頭部分區(qū)然后在中部分區(qū)上訓(xùn)練,總共使用了1.27萬億個(gè)標(biāo)記;而ModernGBERT 1.34億參數(shù)版本僅在頭部分區(qū)(0.47萬億個(gè)標(biāo)記)上訓(xùn)練,因?yàn)橄掠卧u估顯示它很早就達(dá)到了飽和。

在MLM訓(xùn)練后,研究團(tuán)隊(duì)按照ModernBERT的方法進(jìn)行了兩個(gè)階段的上下文長度擴(kuò)展,將RoPE theta提高到160,000并在更長的序列上進(jìn)行訓(xùn)練。在第一個(gè)擴(kuò)展階段,1.34億參數(shù)模型在LONG-Head上訓(xùn)練,10億參數(shù)模型在LONG-Head/Middle上訓(xùn)練。在第二階段,兩個(gè)模型都在HQ數(shù)據(jù)集上訓(xùn)練。

值得注意的是,研究團(tuán)隊(duì)沒有開發(fā)新的德語分詞器,而是使用了原始的BERT風(fēng)格的GBERTLarge分詞器(產(chǎn)生31,168個(gè)詞嵌入層)。雖然LLaMmlein提供了專用的德語Llama風(fēng)格分詞器,但初步測試一致顯示其導(dǎo)致下游性能下降,這與Warner等人在開發(fā)原始ModernBERT時(shí)觀察到的結(jié)果一致。

在訓(xùn)練過程中,保存并評估了檢查點(diǎn),所有檢查點(diǎn)都公開發(fā)布以支持進(jìn)一步研究。此外,研究團(tuán)隊(duì)記錄并發(fā)布了訓(xùn)練過程中看到的數(shù)據(jù)點(diǎn)順序,使所有檢查點(diǎn)都能與看到的確切數(shù)據(jù)點(diǎn)聯(lián)系起來,這種透明度對科學(xué)研究至關(guān)重要。

對于LLM2Vec方法,其核心思想是將解碼器型大語言模型轉(zhuǎn)換為有效的文本編碼器。這個(gè)過程包括幾個(gè)步驟:首先,將因果注意力掩碼替換為全注意力掩碼,使標(biāo)記之間能夠進(jìn)行雙向注意;其次,使用掩碼下一標(biāo)記預(yù)測(MNTP)目標(biāo)訓(xùn)練模型;第三,應(yīng)用無監(jiān)督對比學(xué)習(xí)(SimCSE)改進(jìn)嵌入質(zhì)量。

為了與ModernGBERT的訓(xùn)練目標(biāo)保持一致,研究團(tuán)隊(duì)僅使用MNTP目標(biāo)訓(xùn)練了所有三個(gè)LLaMmlein模型。與ModernGBERT一樣,LLaMmlein2Vec模型也進(jìn)行了兩個(gè)上下文擴(kuò)展階段,每個(gè)階段使用相應(yīng)的兩個(gè)數(shù)據(jù)集:LLaMmlein2Vec 1.2億參數(shù)模型遵循ModernGBERT 1.34億參數(shù)版本(第一階段使用LONG-Head,第二階段使用HQ);LLaMmlein2Vec 10億和70億參數(shù)模型遵循ModernGBERT 10億參數(shù)版本(第一階段使用LONG-Head/Middle,第二階段使用HQ)。

對于每個(gè)模型,研究團(tuán)隊(duì)在每個(gè)相應(yīng)數(shù)據(jù)集上單獨(dú)應(yīng)用MNTP訓(xùn)練,產(chǎn)生兩個(gè)不同的適配器模塊——每個(gè)階段一個(gè)。他們評估了單獨(dú)的適配器(ext1和ext2)以及合并模型(ext1+2)。值得注意的是,即使沒有看到全部訓(xùn)練數(shù)據(jù),這些模型也能達(dá)到相當(dāng)?shù)慕Y(jié)果,這與Pfister等人在2024年的觀察一致,表明未來訓(xùn)練可能減少計(jì)算量。

通過這種精心設(shè)計(jì)的架構(gòu)和訓(xùn)練方法,研究團(tuán)隊(duì)創(chuàng)造了強(qiáng)大而靈活的德語編碼器模型,能夠有效處理各種自然語言處理任務(wù),從短文本分類到長文檔理解,為德語自然語言處理提供了全新的可能性。

四、評估方法與實(shí)驗(yàn)設(shè)計(jì)

要評估一個(gè)模型的優(yōu)劣,就像品嘗一道菜肴,需要多角度、多維度的測試。研究團(tuán)隊(duì)設(shè)計(jì)了全面而嚴(yán)格的評估體系,從多個(gè)方面檢驗(yàn)?zāi)P偷哪芰Α?/p>

首先,研究團(tuán)隊(duì)使用德語SuperGLEBer基準(zhǔn)評估模型的自然語言理解能力。這個(gè)基準(zhǔn)包括29個(gè)任務(wù),涵蓋文本分類、序列標(biāo)注、問答和句子相似性等多個(gè)領(lǐng)域,涉及新聞、法律文本和消費(fèi)者評論等多樣化的領(lǐng)域。對于每個(gè)任務(wù),默認(rèn)使用QLoRA(一種高效的微調(diào)方法)或在必要時(shí)使用LoRA進(jìn)行微調(diào)。除了評估最終檢查點(diǎn)外,研究團(tuán)隊(duì)還按照LLaMmlein的方法評估了中間檢查點(diǎn),使用代表性的SuperGLEBer子集:NLI、FactClaiming Comments、DB Aspect、WebCAGe、EuroParl和PAWSX。

其次,研究團(tuán)隊(duì)在德語版本的大型文本嵌入基準(zhǔn)MTEB(deu,v1)上評估了模型。除了SuperGLEBer已經(jīng)涵蓋的文本對分類和語義文本相似性外,MTEB還包括聚類、重新排序和檢索任務(wù)。這些任務(wù)能更全面地評估通用句子嵌入的能力,特別關(guān)注模型產(chǎn)生穩(wěn)健語義表示的能力。

為了適應(yīng)嵌入任務(wù),研究團(tuán)隊(duì)使用Sentence-Transformer框架在監(jiān)督設(shè)置下微調(diào)了基礎(chǔ)模型。微調(diào)使用了德語部分的機(jī)器翻譯多語言mMARCO段落排序數(shù)據(jù)集的10,000個(gè)樣本,最大化查詢和正面段落之間的相似性,同時(shí)最小化與負(fù)面段落的相似性。句子嵌入通過對最終標(biāo)記表示進(jìn)行平均池化獲得,使用InfoNCE損失函數(shù),批量大小為128,學(xué)習(xí)率為5×10^-5。

第三,研究團(tuán)隊(duì)評估了模型的長文本理解能力。在德語中評估長文本能力面臨高質(zhì)量原生數(shù)據(jù)集稀缺的挑戰(zhàn),從英語翻譯的數(shù)據(jù)集往往會(huì)引入人工痕跡。為了解決這個(gè)問題,研究團(tuán)隊(duì)基于人工標(biāo)注的GermanQuAD數(shù)據(jù)集構(gòu)建了一個(gè)問答針頭在干草堆中(QA-NIAH)評估。給定一個(gè)問題,目標(biāo)是從長文檔中提取答案跨度。他們將GermanQuAD調(diào)整為QA-NIAH設(shè)置:對于每個(gè)問題-段落("針頭")對,他們抽樣最多3個(gè)干擾段落并與針頭段落一起打亂,形成最多1,024個(gè)標(biāo)記的"干草堆"文檔。答案始終僅出現(xiàn)在針頭段落中。在評估時(shí),他們將干擾增加到最多20個(gè),產(chǎn)生長達(dá)8,192個(gè)標(biāo)記的文檔,這樣可以測試模型對長文本的理解能力。

最后,研究團(tuán)隊(duì)還評估了模型的推理效率。使用四個(gè)綜合數(shù)據(jù)集(包括固定長度序列和正態(tài)分布序列長度)評估了不同序列長度下的推理效率。ModernGBERT模型采用了ModernBERT的unpadding方法:移除填充標(biāo)記并將批次中的序列連接起來,允許Flash Attention處理可變長度的注意力掩碼。這種計(jì)算等價(jià)性通過精心制作適當(dāng)?shù)淖⒁饬ρ诖a實(shí)現(xiàn)。相比之下,所有其他模型都依賴傳統(tǒng)的填充方式。

通過這些全面而嚴(yán)格的評估方法,研究團(tuán)隊(duì)能夠客觀、全面地評估不同模型在各種任務(wù)上的表現(xiàn),為德語自然語言處理社區(qū)提供有價(jià)值的參考。這種多角度的評估就像是對一款新車進(jìn)行全方位的測試,從速度、油耗到舒適性、安全性等各個(gè)方面進(jìn)行評估,確保用戶了解其全面性能。

五、研究結(jié)果與發(fā)現(xiàn)

經(jīng)過全面而嚴(yán)格的評估,研究團(tuán)隊(duì)獲得了一系列令人振奮的發(fā)現(xiàn),這些發(fā)現(xiàn)不僅驗(yàn)證了他們的設(shè)計(jì)選擇,還為未來的研究提供了寶貴的指導(dǎo)。

首先,通過評估訓(xùn)練過程中的中間檢查點(diǎn),研究團(tuán)隊(duì)發(fā)現(xiàn)了有趣的訓(xùn)練動(dòng)態(tài)模式。ModernGBERT 10億參數(shù)模型的平均性能在整個(gè)訓(xùn)練過程中穩(wěn)步提高,而ModernGBERT 1.34億參數(shù)模型則很快達(dá)到飽和。具體來說,ModernGBERT 1.34億參數(shù)模型在720億個(gè)標(biāo)記(數(shù)據(jù)的15%)后停滯,沒有進(jìn)一步的顯著改進(jìn)。相比之下,ModernGBERT 10億參數(shù)模型在相同數(shù)據(jù)集部分上顯示出顯著的提升(p < 0.0001),并在中部分區(qū)訓(xùn)練期間繼續(xù)獲得收益(p < 0.00052)。然后,性能在8640億個(gè)標(biāo)記(整個(gè)預(yù)訓(xùn)練數(shù)據(jù)集的67%)后趨于平穩(wěn),SuperGLEBer分?jǐn)?shù)僅從0.777略微增加到0.791,盡管又處理了4060億個(gè)標(biāo)記。

在六個(gè)選定的子任務(wù)上,對于1.34億參數(shù)變體,只有PAWSX顯示出訓(xùn)練標(biāo)記數(shù)量與性能之間顯著的正相關(guān)關(guān)系(r = 0.655;p < 0.003),而其他任務(wù)則沒有。對于10億參數(shù)變體,除了EuroParl外,所有任務(wù)都顯示出顯著的正相關(guān)關(guān)系(r > 0.57;p < 0.00014)。特別是,盡管在預(yù)訓(xùn)練的最后三分之一中總體分?jǐn)?shù)基本保持穩(wěn)定,但在復(fù)雜任務(wù)如NLI和PAWSX上,隨著訓(xùn)練的增加,我們?nèi)匀豢吹捷p微的改進(jìn)。

這些飽和模式,包括每個(gè)任務(wù)的趨勢和整體性能平臺(tái),與Pfister等人(2024年)對解碼器模型的發(fā)現(xiàn)以及Antoun等人(2024年)對他們的ModernBERT變體ModernCamemBERT(1.36億參數(shù))的法語訓(xùn)練結(jié)果一致。這些結(jié)果證實(shí),雖然小型ModernBERT模型很快達(dá)到飽和,但更大的模型能夠從額外數(shù)據(jù)中受益。根據(jù)ModernGBERT 1.34億和10億參數(shù)之間觀察到的擴(kuò)展行為,研究團(tuán)隊(duì)推測,訓(xùn)練更大的70億參數(shù)編碼器可能能夠進(jìn)一步利用廣泛的單語數(shù)據(jù)集,超越ModernGBERT 10億參數(shù)的性能。

在自然語言理解評估中,ModernGBERT模型在SuperGLEBer基準(zhǔn)上表現(xiàn)出色。ModernGBERT 1.34億參數(shù)變體的平均分?jǐn)?shù)為0.749,超過了所有類似大小的基線,包括GBERTBase(0.718)、XLM-RoBERTaBase(0.689)、GeBERTaBase(0.716),甚至XLM-RoBERTaLarge(0.730)和LLaMmlein 10億參數(shù)(0.733)。ModernGBERT 10億參數(shù)變體在整個(gè)SuperGLEBer上取得了0.808的新最先進(jìn)平均分?jǐn)?shù),比GBERTLarge(0.768)高出4%,并擊敗了參數(shù)量是其七倍的LLaMmlein2Vec 70億參數(shù)模型(0.787)。它在四個(gè)評估類別中的三個(gè)中領(lǐng)先,包括分類(0.812)、命名實(shí)體識(shí)別(0.845)和問答(0.876)。只有在句子相似性(0.699)上,參數(shù)量是其七倍的LLaMmlein2Vec 70億參數(shù)模型才取得更好的結(jié)果。

通過LLM2Vec適配也為各個(gè)模型帶來了一致的收益。第一次LLM2Vec調(diào)整(類似于ext1)顯示出最明顯的積極效果,而使用ext2數(shù)據(jù)集的第二次微調(diào)僅顯示出邊際增加,甚至有時(shí)會(huì)導(dǎo)致性能下降。LLaMmlein 1.2億、10億和70億參數(shù)模型的平均分?jǐn)?shù)分別提高了0.8%、2.9%和4.0%。這種效果在PAWSX上尤為明顯,LLaMmlein 70億參數(shù)和10億參數(shù)的得分分別提高了14.6%和6.7%。

比較LLaMmlein2Vec和ModernGBERT家族,研究團(tuán)隊(duì)發(fā)現(xiàn)在相似大小的模型上,ModernGBERT始終以較大幅度優(yōu)于轉(zhuǎn)換后的解碼器。只有更大得多的LLaMmlein2Vec 70億參數(shù)模型才接近ModernGBERT 10億參數(shù)的性能。

在文本嵌入評估中,研究團(tuán)隊(duì)在MTEB基準(zhǔn)上評估了模型,該基準(zhǔn)涵蓋六個(gè)任務(wù)類別:分類、對分類、聚類、重新排序、檢索和短文本相似性(STS)任務(wù)。對mMARCO的監(jiān)督微調(diào)在所有模型類型中都帶來了一致的改進(jìn)。雖然分類性能有時(shí)會(huì)下降,但在其他領(lǐng)域可以觀察到顯著的收益:重新排序平均提高25%,檢索提高26%,STS提高25%。

最佳的總體平均性能由微調(diào)后的LLaMmlein2Vec 70億參數(shù)模型(0.557)取得,緊隨其后的是微調(diào)后的ModernGBERT 10億參數(shù)模型(0.551),盡管后者的參數(shù)明顯更少。LLaMmlein2Vec模型在微調(diào)后普遍表現(xiàn)強(qiáng)勁,特別是當(dāng)使用第一階段的擴(kuò)展數(shù)據(jù)集(ext1)訓(xùn)練時(shí)。使用第二階段的擴(kuò)展數(shù)據(jù)集(ext2)或?qū)蓚€(gè)適配器合并到基礎(chǔ)模型中(ext1+2)會(huì)損害性能。有趣的是,后者在三個(gè)變體中顯示出最大的微調(diào)收益。

ModernGBERT模型與類似大小的模型相比具有競爭力。在微調(diào)前,ModernGBERT 10億參數(shù)模型(平均0.366)已經(jīng)優(yōu)于大多數(shù)編碼器模型,如GeBERTaXLarge(0.325)或XLM-RoBERTaXLarge(0.301),但不如GBERTLarge(0.412)。然而,微調(diào)后,它在原生編碼器模型中展示出明顯的優(yōu)勢,平均得分至少高出3%。與在SuperGLEBer基準(zhǔn)上的觀察一樣,ModernGBERT的上下文擴(kuò)展在這里沒有顯示出顯著的改進(jìn)。

比較ModernGBERT和LLaMmlein2Vec,研究團(tuán)隊(duì)發(fā)現(xiàn)在微調(diào)前,LLaMmlein2Vec 10億和70億參數(shù)模型產(chǎn)生的表示比ModernGBERT 10億參數(shù)模型更好。然而,微調(diào)后,ModernGBERT 10億參數(shù)模型在平均上超過了LLaMmlein2Vec 10億參數(shù)變體,并與更大的70億參數(shù)模型緊密對齊。

在長文本理解評估中,ModernGBERT 10億參數(shù)模型在所有長度上都表現(xiàn)出強(qiáng)大的長文本性能,優(yōu)于所有編碼器。ModernGBERT訓(xùn)練期間的第一個(gè)擴(kuò)展階段帶來了強(qiáng)勁的改進(jìn),將準(zhǔn)確率提高了約3倍,但HQ數(shù)據(jù)集上的最終擴(kuò)展階段略微降低了性能,尤其是對于1.34億參數(shù)變體。

對于LLM2Vec,足夠長的轉(zhuǎn)換改善了長文本理解。將LLaMmlein 1.2億和10億參數(shù)解碼器(原生上下文長度為2,048)轉(zhuǎn)換分別提高了1.3倍和2倍的準(zhǔn)確率,但與ModernGBERT編碼器相比不那么明顯。然而,對于LLaMmlein2Vec 70億參數(shù)模型(使用LLM2Vec在我們ext1數(shù)據(jù)集的約一半上訓(xùn)練),準(zhǔn)確率下降了51%,在超過4,096個(gè)標(biāo)記的干草堆上沒有正確答案??紤]到密集的計(jì)算需求,研究團(tuán)隊(duì)沒有進(jìn)一步探索LLaMmlein2Vec 70億參數(shù)模型的上下文擴(kuò)展優(yōu)化。

最后,在推理效率方面,研究團(tuán)隊(duì)評估了不同序列長度下的推理效率。在較小的模型(1.34億或1.2億參數(shù))中,ModernGBERT和LLaMmlein2Vec在固定長度數(shù)據(jù)上實(shí)現(xiàn)了相當(dāng)?shù)男?,兩者都僅次于GBERTBase和XLM-RoBERTaBase在短序列上的效率。

對于10億參數(shù)變體,ModernGBERT在推理速度上始終優(yōu)于LLaMmlein2Vec 10億和70億參數(shù)變體,這可能得益于其為效率優(yōu)化的架構(gòu)決策,如確保權(quán)重矩陣的維度是64的倍數(shù),并可分為128×256塊以便在GPU上高效分塊。在可變長度數(shù)據(jù)集上,收益最為明顯:1.34億參數(shù)的ModernGBERT是可變長度上最高效的模型,而10億參數(shù)變體大大超過了其LLaMmlein2Vec對應(yīng)模型。此外,考慮到ModernGBERT 10億參數(shù)和LLaMmlein2Vec 70億參數(shù)在MTEB上的性能相當(dāng),ModernGBERT模型在可變長度長文本文檔上的速度是LLaMmlein2Vec的10倍。同樣的趨勢在ModernGBERT 10億參數(shù)與其10億參數(shù)LLaMmlein2Vec對應(yīng)物相比時(shí)更為明顯,后者始終被前者超越,而前者在這些長文檔上的效率是后者的兩倍。

總體而言,當(dāng)考慮計(jì)算效率和下游性能指標(biāo)之間的權(quán)衡時(shí),ModernGBERT始終是最佳解決方案——經(jīng)常在兩個(gè)維度上同時(shí)優(yōu)于LLaMmlein2Vec。這些全面的評估結(jié)果不僅驗(yàn)證了研究團(tuán)隊(duì)的設(shè)計(jì)選擇,還為德語自然語言處理社區(qū)提供了寶貴的參考,幫助研究人員和開發(fā)者根據(jù)自己的具體需求選擇最合適的模型。

六、結(jié)論與未來展望

研究團(tuán)隊(duì)通過這項(xiàng)工作清晰地證明了,無論是ModernBERT中的架構(gòu)進(jìn)步還是LLM2Vec的解碼器轉(zhuǎn)換方法,都能產(chǎn)生強(qiáng)大的德語編碼器模型。提出的ModernGBERT家族,特別是10億參數(shù)變體,為德語編碼器設(shè)立了新的最先進(jìn)水平,超越了之前的模型,同時(shí)保持了適合實(shí)際部署的特性——能夠作為GBERT的即插即用替代品,能夠處理長達(dá)8,192個(gè)標(biāo)記的序列。

通過學(xué)習(xí)動(dòng)態(tài)分析,研究團(tuán)隊(duì)確認(rèn)了更大的編碼器架構(gòu)能夠有效利用TB級德語單語語料庫,隨著模型大小和數(shù)據(jù)增加,性能持續(xù)提升。這些趨勢表明,更大的編碼器模型可能會(huì)帶來進(jìn)一步的收益,這是留給未來工作的課題。

通過比較基于相同數(shù)據(jù)集的ModernGBERT和LLaMmlein2Vec(從LLaMmlein轉(zhuǎn)換而來),研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)參數(shù)效率至關(guān)重要時(shí),專門訓(xùn)練編碼器會(huì)產(chǎn)生更好的結(jié)果,證明其計(jì)算成本是合理的。通過發(fā)布ModernGBERT,以及完整的訓(xùn)練透明度、中間檢查點(diǎn)和詳細(xì)文檔,研究團(tuán)隊(duì)旨在促進(jìn)德語自然語言處理社區(qū)內(nèi)的進(jìn)一步發(fā)展和理解。

雖然ModernGBERT模型是德語自然語言處理領(lǐng)域的重要進(jìn)步,但研究團(tuán)隊(duì)也承認(rèn)存在一些局限性:首先,模型只關(guān)注德語,無法利用多語言上下文或執(zhí)行跨語言任務(wù);其次,由于訓(xùn)練數(shù)據(jù)集中缺乏高質(zhì)量的德語編碼資源,模型在代碼檢索應(yīng)用中的能力受限;第三,雖然模型在德語SuperGLEBer和MTEB基準(zhǔn)上經(jīng)過了嚴(yán)格評估,但這些基準(zhǔn)在領(lǐng)域方面有限,如文學(xué)、醫(yī)學(xué)領(lǐng)域或技術(shù)主題未經(jīng)測試;第四,研究團(tuán)隊(duì)使用了原始的BERT風(fēng)格GBERT分詞器,而非開發(fā)自定義分詞器;最后,由于缺乏高質(zhì)量的原生德語評估數(shù)據(jù)集,長文本理解的評估不得不依賴非自然的QA-NIAH序列。

未來的工作方向包括開發(fā)更大的編碼器模型,可能是70億參數(shù)規(guī)模,以進(jìn)一步探索德語單語語料庫的潛力;開發(fā)專用的高質(zhì)量非合成德語長文本評估基準(zhǔn);以及探索多模態(tài)能力的融合,如視覺-語言理解。

總之,ModernGBERT代表了德語自然語言處理的重要里程碑,為研究人員和開發(fā)者提供了強(qiáng)大、高效且透明的工具,推動(dòng)了該領(lǐng)域的進(jìn)一步發(fā)展。通過開放所有模型、數(shù)據(jù)和代碼,研究團(tuán)隊(duì)不僅貢獻(xiàn)了有價(jià)值的資源,還促進(jìn)了開放科學(xué)和協(xié)作研究的精神,這將最終有利于整個(gè)科學(xué)社區(qū)和廣大用戶。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-