av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 瑞士AI聯(lián)盟發(fā)布全球首個(gè)真正開源的大型語言模型:Apertus如何用15萬億字符數(shù)據(jù)改寫AI訓(xùn)練規(guī)則

瑞士AI聯(lián)盟發(fā)布全球首個(gè)真正開源的大型語言模型:Apertus如何用15萬億字符數(shù)據(jù)改寫AI訓(xùn)練規(guī)則

2025-10-13 08:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-13 08:56 ? 科技行者

這項(xiàng)由瑞士AI聯(lián)盟(Swiss AI Initiative)完成的研究發(fā)表于2025年1月,該聯(lián)盟是瑞士聯(lián)邦理工學(xué)院蘇黎世分校(ETH Zurich)、洛桑聯(lián)邦理工學(xué)院(EPFL)以及瑞士國家超算中心(CSCS)等多家頂尖研究機(jī)構(gòu)的合作項(xiàng)目。研究團(tuán)隊(duì)在阿爾卑斯超級(jí)計(jì)算機(jī)上使用4096塊NVIDIA GPU,耗時(shí)數(shù)月訓(xùn)練出了Apertus模型。有興趣深入了解的讀者可以通過論文編號(hào)arXiv:2509.14233v1查詢完整論文。

**研究概要**

想象一下,如果有人要做一道復(fù)雜的菜,但食譜中的某些原料來源不明,甚至可能是偷來的,你還會(huì)放心享用這道菜嗎?目前AI領(lǐng)域就面臨著類似的困境。市面上的大多數(shù)AI模型雖然功能強(qiáng)大,但它們的"食譜"——也就是訓(xùn)練數(shù)據(jù)的來源——往往不夠透明,有些甚至涉及版權(quán)爭議。

瑞士AI聯(lián)盟的研究團(tuán)隊(duì)決定從根本上解決這個(gè)問題。他們就像一群嚴(yán)格遵循有機(jī)食品標(biāo)準(zhǔn)的廚師,不僅要做出美味的菜肴,更要確保每一種原料都來源清晰、獲得授權(quán)。經(jīng)過精心準(zhǔn)備,他們推出了Apertus——一個(gè)完全開源、數(shù)據(jù)合規(guī)的大型語言模型。

這個(gè)項(xiàng)目的獨(dú)特之處在于它解決了AI開發(fā)中的兩個(gè)核心痛點(diǎn):數(shù)據(jù)合規(guī)性和多語言表示。在數(shù)據(jù)合規(guī)方面,研究團(tuán)隊(duì)只使用了公開可獲得的數(shù)據(jù),并且嚴(yán)格遵循網(wǎng)站所有者通過robots.txt文件設(shè)置的爬蟲限制。更令人印象深刻的是,他們還采用了一種叫做"金魚損失"的創(chuàng)新訓(xùn)練方法,有效防止模型逐字記住訓(xùn)練數(shù)據(jù),從而降低版權(quán)侵權(quán)風(fēng)險(xiǎn)。

在多語言支持方面,Apertus堪稱一個(gè)語言天才。它在包含1811種語言的15萬億個(gè)字符上進(jìn)行訓(xùn)練,其中40%的訓(xùn)練數(shù)據(jù)來自非英語內(nèi)容。這意味著無論你說的是主流語言還是小眾方言,Apertus都能為你提供相對(duì)準(zhǔn)確的服務(wù)。

Apertus提供兩種不同規(guī)模的版本:80億參數(shù)版本和700億參數(shù)版本。這就像同一個(gè)廚師能夠根據(jù)不同場合的需要,既能做家常菜也能準(zhǔn)備滿漢全席。研究團(tuán)隊(duì)不僅發(fā)布了模型本身,還公開了所有的訓(xùn)練代碼、數(shù)據(jù)處理腳本和評(píng)估工具,真正實(shí)現(xiàn)了完全的透明化。

**一、數(shù)據(jù)合規(guī):構(gòu)建可信任的訓(xùn)練基礎(chǔ)**

要理解Apertus的數(shù)據(jù)合規(guī)做法,不妨把互聯(lián)網(wǎng)想象成一個(gè)巨大的圖書館。在這個(gè)圖書館里,每本書的書主都可以在書上貼一張小紙條,寫著"請(qǐng)勿復(fù)印"或"僅供閱讀"。這張小紙條就相當(dāng)于網(wǎng)站的robots.txt文件,它告訴訪問者(包括AI訓(xùn)練程序)哪些內(nèi)容可以使用,哪些不可以。

傳統(tǒng)的AI訓(xùn)練就像是一個(gè)不太在意規(guī)則的學(xué)生。他們可能在幾年前復(fù)印了一本書,但當(dāng)書主后來改變主意、貼上"請(qǐng)勿復(fù)印"的標(biāo)簽時(shí),這些學(xué)生并不會(huì)主動(dòng)銷毀之前復(fù)印的內(nèi)容。Apertus團(tuán)隊(duì)則完全不同——他們就像一個(gè)極其負(fù)責(zé)任的圖書管理員,不僅會(huì)尊重當(dāng)前的使用規(guī)則,還會(huì)回頭檢查過去收集的所有材料,一旦發(fā)現(xiàn)某個(gè)網(wǎng)站后來設(shè)置了限制,就會(huì)立即從訓(xùn)練數(shù)據(jù)中刪除相關(guān)內(nèi)容。

這種"回溯性合規(guī)"并不容易實(shí)現(xiàn)。研究團(tuán)隊(duì)花費(fèi)大量精力,對(duì)排名前一百萬的英語網(wǎng)站和前一百萬的非英語網(wǎng)站進(jìn)行了逐一檢查。他們發(fā)現(xiàn),大約8%的英語數(shù)據(jù)和4%的多語言數(shù)據(jù)因?yàn)榫W(wǎng)站所有者的明確反對(duì)而被移除。雖然這意味著損失了一些潛在有用的訓(xùn)練材料,但研究團(tuán)隊(duì)認(rèn)為這樣做是正確的選擇。

除了尊重網(wǎng)站所有者的意愿,研究團(tuán)隊(duì)還像一個(gè)細(xì)心的編輯一樣,仔細(xì)清理訓(xùn)練數(shù)據(jù)中的個(gè)人隱私信息。他們使用專門的程序識(shí)別并替換電子郵件地址、IP地址和銀行賬號(hào)等敏感信息,就像給文檔打馬賽克一樣保護(hù)隱私。

在內(nèi)容質(zhì)量控制方面,研究團(tuán)隊(duì)開發(fā)了多語言毒性檢測系統(tǒng),覆蓋九種語言。這個(gè)系統(tǒng)就像一個(gè)多語言的內(nèi)容審查員,能夠識(shí)別并過濾掉包含種族偏見、性別歧視、宗教偏見、能力歧視以及暴力內(nèi)容的文本。對(duì)于每種語言,系統(tǒng)會(huì)自動(dòng)標(biāo)記毒性得分最高的5%文檔并將其從訓(xùn)練集中移除。

**二、金魚記憶法:創(chuàng)新的防記憶訓(xùn)練技術(shù)**

傳統(tǒng)的AI訓(xùn)練有一個(gè)令人頭疼的問題:模型可能會(huì)像一臺(tái)過于精確的復(fù)印機(jī),把訓(xùn)練數(shù)據(jù)中的內(nèi)容一字不差地記住并在回答問題時(shí)原樣輸出。這不僅涉及版權(quán)問題,還可能泄露訓(xùn)練數(shù)據(jù)中的隱私信息。

為了解決這個(gè)問題,Apertus采用了一種巧妙的訓(xùn)練方法,研究團(tuán)隊(duì)稱之為"金魚損失"。這個(gè)名字來源于金魚只有幾秒鐘記憶的傳說(雖然這個(gè)傳說并不準(zhǔn)確,但比喻很生動(dòng))。

具體來說,這種方法就像給學(xué)生布置作業(yè)時(shí)故意撕掉練習(xí)冊(cè)中的某些字。學(xué)生在學(xué)習(xí)過程中會(huì)發(fā)現(xiàn)一些詞語是缺失的,這樣即使他們想要完全照抄,也無法做到。但由于大部分內(nèi)容仍然完整,學(xué)生依然能夠理解文章的含義和學(xué)會(huì)語言的規(guī)律。

在實(shí)際操作中,系統(tǒng)會(huì)隨機(jī)遮蓋訓(xùn)練文本中大約2%的詞匯。這個(gè)比例經(jīng)過精心調(diào)試——既要確保模型無法進(jìn)行逐字記憶,又要保證模型仍然能夠?qū)W到語言的本質(zhì)規(guī)律。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),這種方法即使在模型接觸同一段文字128次之后,仍然能夠有效防止逐字記憶的發(fā)生。

更重要的是,這種防記憶技術(shù)并不會(huì)影響模型的整體性能。就像一個(gè)學(xué)生雖然不能逐字背誦課文,但依然能夠理解課文內(nèi)容并用自己的話表達(dá)一樣,采用金魚損失訓(xùn)練的Apertus在各種語言任務(wù)上的表現(xiàn)與傳統(tǒng)方法訓(xùn)練的模型不相上下,甚至在某些任務(wù)上還略有提升。

**三、多語言奇跡:1811種語言的AI助手**

如果把現(xiàn)有的主流AI模型比作只會(huì)幾種外語的翻譯,那么Apertus就像是一個(gè)走遍世界各地、掌握上千種語言和方言的語言學(xué)家。這種超強(qiáng)的多語言能力來源于研究團(tuán)隊(duì)對(duì)語言公平性的深度思考。

在傳統(tǒng)的AI開發(fā)中,英語往往占據(jù)絕對(duì)主導(dǎo)地位,其他語言只是"配角"。這就像一個(gè)國際會(huì)議,雖然聲稱歡迎各國參與,但議程安排、發(fā)言時(shí)間和資源分配都嚴(yán)重偏向某一種語言。Apertus的開發(fā)團(tuán)隊(duì)決定打破這種不平衡。他們將40%的訓(xùn)練資源分配給非英語內(nèi)容,涵蓋了1811種不同的語言。

這種多語言覆蓋不僅僅是數(shù)量上的突破,更體現(xiàn)在質(zhì)量的均衡上。研究團(tuán)隊(duì)就像一個(gè)公平的教育資源分配者,不僅要確保每種語言都有發(fā)聲的機(jī)會(huì),還要根據(jù)不同語言的特點(diǎn)提供相應(yīng)的支持。對(duì)于像德語、法語、西班牙語這樣的高資源語言,系統(tǒng)會(huì)進(jìn)行質(zhì)量篩選,保留最有價(jià)值的內(nèi)容。對(duì)于資源較少的語言,系統(tǒng)則更多地保留原始數(shù)據(jù),避免過度篩選導(dǎo)致可用數(shù)據(jù)過少。

為了驗(yàn)證多語言能力的實(shí)際效果,研究團(tuán)隊(duì)特別關(guān)注了低資源語言的翻譯質(zhì)量。他們選擇了瑞士的第四官方語言——羅曼什語進(jìn)行深度測試。羅曼什語只有約6萬名使用者,存在6種不同的書面變體。研究團(tuán)隊(duì)不僅為Apertus準(zhǔn)備了羅曼什語的訓(xùn)練數(shù)據(jù),還開發(fā)了專門的評(píng)估基準(zhǔn)。測試結(jié)果顯示,Apertus在德語與各種羅曼什語變體之間的翻譯任務(wù)上,全面超越了現(xiàn)有的大型模型。

這種多語言能力的意義遠(yuǎn)超技術(shù)本身。它意味著說小語種的用戶不再需要依賴英語作為中介來使用AI服務(wù),而是可以直接用母語進(jìn)行交流。這對(duì)于保護(hù)語言多樣性、促進(jìn)數(shù)字包容性具有重要意義。

**四、技術(shù)架構(gòu):兼顧性能與效率的設(shè)計(jì)哲學(xué)**

Apertus的技術(shù)架構(gòu)就像一座精心設(shè)計(jì)的大廈,每個(gè)組件都經(jīng)過深思熟慮的選擇和優(yōu)化。研究團(tuán)隊(duì)沒有簡單地復(fù)制現(xiàn)有的設(shè)計(jì)方案,而是在多個(gè)關(guān)鍵位置進(jìn)行了創(chuàng)新。

在激活函數(shù)的選擇上,傳統(tǒng)模型通常使用ReLU或其變體,但Apertus采用了一種叫做xIELU的新型激活函數(shù)。如果把神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)比作流水線上的質(zhì)檢員,那么xIELU就是一個(gè)更加智能的質(zhì)檢員。它不僅能夠有效處理正數(shù)信息,還能更好地處理負(fù)數(shù)信息,從而提升整個(gè)網(wǎng)絡(luò)的表達(dá)能力。

在優(yōu)化算法方面,Apertus使用了AdEMAMix優(yōu)化器,這是一種改進(jìn)的訓(xùn)練算法。傳統(tǒng)的優(yōu)化器就像一個(gè)只有短期記憶的學(xué)生,主要根據(jù)最近的學(xué)習(xí)經(jīng)驗(yàn)來調(diào)整學(xué)習(xí)策略。AdEMAMix則像一個(gè)有著良好長期記憶的學(xué)生,不僅會(huì)考慮最近的學(xué)習(xí)情況,還會(huì)參考更久遠(yuǎn)的學(xué)習(xí)經(jīng)驗(yàn),從而做出更明智的調(diào)整。

研究團(tuán)隊(duì)還引入了QK標(biāo)準(zhǔn)化技術(shù),這就像給網(wǎng)絡(luò)中的信息傳遞添加了一個(gè)穩(wěn)壓器。在長時(shí)間的訓(xùn)練過程中,網(wǎng)絡(luò)中某些數(shù)值可能會(huì)變得過大或過小,導(dǎo)致訓(xùn)練不穩(wěn)定。QK標(biāo)準(zhǔn)化能夠自動(dòng)調(diào)節(jié)這些數(shù)值,確保訓(xùn)練過程始終保持穩(wěn)定。

在學(xué)習(xí)率調(diào)度方面,Apertus采用了預(yù)熱-穩(wěn)定-衰減(WSD)的策略。這就像馬拉松運(yùn)動(dòng)員的訓(xùn)練計(jì)劃:開始時(shí)慢慢提速熱身,然后在一段時(shí)間內(nèi)保持穩(wěn)定的配速,最后逐漸降速完成訓(xùn)練。這種策略不僅提高了訓(xùn)練效率,還保留了繼續(xù)訓(xùn)練的可能性。

為了支持長文本處理,Apertus還實(shí)現(xiàn)了從4096個(gè)字符到65536個(gè)字符的上下文擴(kuò)展。這就像把原本只能記住一頁紙內(nèi)容的助手,升級(jí)為能夠記住整本書內(nèi)容的助手。這種擴(kuò)展是通過漸進(jìn)式訓(xùn)練實(shí)現(xiàn)的,系統(tǒng)先學(xué)會(huì)處理8千字符的文本,然后逐步擴(kuò)展到16千、32千,最終達(dá)到64千字符的處理能力。

**五、訓(xùn)練數(shù)據(jù)的精心配置:15萬億字符的智慧之源**

Apertus的訓(xùn)練數(shù)據(jù)就像一份營養(yǎng)均衡的食譜,包含了各種不同類型的"營養(yǎng)成分"。研究團(tuán)隊(duì)沒有簡單地把所有數(shù)據(jù)混合在一起,而是像營養(yǎng)師一樣,根據(jù)不同的訓(xùn)練階段精心調(diào)配數(shù)據(jù)比例。

整個(gè)訓(xùn)練過程分為五個(gè)階段,每個(gè)階段都有不同的重點(diǎn)。第一階段就像打基礎(chǔ),重點(diǎn)是讓模型學(xué)會(huì)基本的語言理解和簡單的數(shù)學(xué)、編程概念。這個(gè)階段使用的數(shù)據(jù)包括高質(zhì)量的網(wǎng)頁內(nèi)容、多語言文本以及基礎(chǔ)的代碼和數(shù)學(xué)材料。

第二階段開始提升英語內(nèi)容的質(zhì)量,引入更加精選的教育性內(nèi)容。這就像從普通練習(xí)冊(cè)升級(jí)到優(yōu)秀教輔材料,幫助模型獲得更深入的語言理解能力。

第三階段開始增加數(shù)學(xué)內(nèi)容的比重,添加更多的數(shù)學(xué)網(wǎng)頁和專業(yè)數(shù)學(xué)數(shù)據(jù)集。此時(shí)的訓(xùn)練就像讓學(xué)生從基礎(chǔ)數(shù)學(xué)進(jìn)階到高等數(shù)學(xué),逐步提升分析和推理能力。

第四階段進(jìn)一步提升數(shù)據(jù)質(zhì)量,同時(shí)增加數(shù)學(xué)和代碼內(nèi)容的占比。研究團(tuán)隊(duì)在這個(gè)階段引入了一些經(jīng)過特殊篩選的高質(zhì)量數(shù)據(jù)集,確保模型能夠?qū)W到更加精準(zhǔn)和有用的知識(shí)。

最后的第五階段相當(dāng)于沖刺訓(xùn)練,使用最高質(zhì)量的數(shù)據(jù)進(jìn)行精細(xì)調(diào)優(yōu)。這個(gè)階段不僅包含最優(yōu)秀的英語和多語言內(nèi)容,還加入了維基百科、平行翻譯數(shù)據(jù)以及指令跟隨數(shù)據(jù),幫助模型為實(shí)際應(yīng)用做好準(zhǔn)備。

在數(shù)據(jù)來源方面,研究團(tuán)隊(duì)特別注重合規(guī)性。他們使用的網(wǎng)頁數(shù)據(jù)全部來自FineWeb-2這樣的公開數(shù)據(jù)集,代碼數(shù)據(jù)來自獲得寬松許可的GitHub項(xiàng)目,數(shù)學(xué)數(shù)據(jù)則來自專門整理的教育性數(shù)學(xué)內(nèi)容。所有這些數(shù)據(jù)都經(jīng)過了嚴(yán)格的版權(quán)檢查和質(zhì)量篩選。

**六、后訓(xùn)練優(yōu)化:從語言模型到智能助手的蛻變**

如果說預(yù)訓(xùn)練讓Apertus學(xué)會(huì)了語言,那么后訓(xùn)練就是教會(huì)它如何與人類進(jìn)行自然、有用的對(duì)話。這個(gè)過程就像把一個(gè)滿腹經(jīng)綸但不善交際的學(xué)者,培養(yǎng)成一個(gè)既有知識(shí)又會(huì)溝通的優(yōu)秀老師。

后訓(xùn)練分為兩個(gè)主要階段:監(jiān)督微調(diào)和價(jià)值對(duì)齊。監(jiān)督微調(diào)階段使用了約380萬個(gè)精心準(zhǔn)備的對(duì)話示例。這些示例涵蓋了各種場景:有日常問題解答、專業(yè)知識(shí)咨詢、創(chuàng)意寫作輔助、多語言交流等等。研究團(tuán)隊(duì)就像準(zhǔn)備教學(xué)大綱的教育專家,確保這些示例能夠覆蓋用戶可能遇到的各種需求。

特別值得一提的是,研究團(tuán)隊(duì)為羅曼什語專門準(zhǔn)備了超過4.6萬個(gè)訓(xùn)練示例。這些示例包括雙向詞典翻譯、句子級(jí)翻譯以及方言識(shí)別任務(wù),幫助模型學(xué)會(huì)區(qū)分和處理羅曼什語的六種書面變體。這種對(duì)小語種的精心關(guān)注體現(xiàn)了研究團(tuán)隊(duì)對(duì)語言多樣性的真誠承諾。

在價(jià)值對(duì)齊階段,研究團(tuán)隊(duì)開發(fā)了一套獨(dú)特的"瑞士AI憲章"。這個(gè)憲章就像一部道德準(zhǔn)則,包含了11項(xiàng)具體原則,涵蓋回應(yīng)質(zhì)量、知識(shí)準(zhǔn)確性、尊重交流、防止傷害、價(jià)值沖突解決等方面。與其他AI系統(tǒng)簡單地拒絕有爭議話題不同,Apertus學(xué)會(huì)了如何以中立、尊重的方式處理復(fù)雜的價(jià)值觀沖突。

為了確保這套價(jià)值體系得到民眾認(rèn)可,研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)針對(duì)瑞士居民的調(diào)查。結(jié)果顯示,超過97%的受訪者同意這些原則,其中"知識(shí)和推理標(biāo)準(zhǔn)"被認(rèn)為是最重要的原則。這種民主參與的方式確保了Apertus的價(jià)值觀與社會(huì)期望保持一致。

在技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)使用了一種叫做QRPO(量化獎(jiǎng)勵(lì)策略優(yōu)化)的新方法。傳統(tǒng)的對(duì)齊方法就像一個(gè)只會(huì)說"好"或"不好"的評(píng)判員,而QRPO更像一個(gè)能夠給出精確分?jǐn)?shù)的專業(yè)評(píng)委,能夠更細(xì)致地指導(dǎo)模型的行為優(yōu)化.

**七、全面評(píng)估:在94種語言上的卓越表現(xiàn)**

評(píng)估一個(gè)多語言AI模型就像評(píng)估一個(gè)多項(xiàng)全能運(yùn)動(dòng)員,不僅要看單項(xiàng)成績,還要看綜合實(shí)力。Apertus的評(píng)估覆蓋了94種不同語言,是迄今為止對(duì)大型語言模型最為全面的多語言評(píng)估之一。

在基礎(chǔ)語言理解任務(wù)上,Apertus表現(xiàn)優(yōu)異。80億參數(shù)版本在綜合任務(wù)上達(dá)到65.8%的準(zhǔn)確率,700億參數(shù)版本達(dá)到67.5%。這個(gè)成績?cè)谕纫?guī)模的完全開源模型中位居前列,甚至在某些任務(wù)上超越了一些僅公開權(quán)重的商業(yè)模型。

在多語言知識(shí)任務(wù)上,Apertus的優(yōu)勢更加明顯。特別是在INCLUDE基準(zhǔn)測試中,該模型在44種語言的知識(shí)問答任務(wù)上全面領(lǐng)先其他開源模型。這表明Apertus不僅掌握了多種語言的表面形式,還真正理解了不同文化背景下的知識(shí)內(nèi)容。

代碼生成和數(shù)學(xué)推理是衡量AI模型實(shí)用性的重要指標(biāo)。雖然Apertus在這方面的表現(xiàn)稍遜于一些經(jīng)過額外強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,但仍然達(dá)到了實(shí)用的水平。80億參數(shù)版本在HumanEval代碼生成任務(wù)上達(dá)到67%的通過率,在GSM8K數(shù)學(xué)問題上達(dá)到62.9%的準(zhǔn)確率。

在安全性評(píng)估方面,Apertus展現(xiàn)出了良好的安全意識(shí)。在毒性檢測任務(wù)上,模型能夠準(zhǔn)確識(shí)別有害內(nèi)容,拒絕率達(dá)到80%以上。在偏見檢測任務(wù)上,模型在大多數(shù)測試中表現(xiàn)出相對(duì)公平的態(tài)度,避免了明顯的群體偏見。

特別令人印象深刻的是Apertus在記憶化測試中的表現(xiàn)。研究團(tuán)隊(duì)專門設(shè)計(jì)了一系列測試,驗(yàn)證模型是否會(huì)逐字輸出訓(xùn)練數(shù)據(jù)。結(jié)果顯示,即使在接觸某段文字128次之后,Apertus仍然能夠保持較低的逐字重復(fù)率,證明了金魚損失方法的有效性。

**八、基礎(chǔ)設(shè)施挑戰(zhàn):4096塊GPU上的大規(guī)模訓(xùn)練**

訓(xùn)練Apertus就像指揮一支4096人的交響樂團(tuán),每個(gè)成員都必須精確協(xié)調(diào),才能演奏出完美的樂章。這個(gè)過程充滿了技術(shù)挑戰(zhàn),也展現(xiàn)了現(xiàn)代超級(jí)計(jì)算的強(qiáng)大威力。

阿爾卑斯超級(jí)計(jì)算機(jī)是歐洲最先進(jìn)的超算系統(tǒng)之一,擁有超過1萬塊NVIDIA Grace-Hopper GPU。但即使在這樣的頂級(jí)設(shè)備上,大規(guī)模訓(xùn)練仍然面臨諸多挑戰(zhàn)。研究團(tuán)隊(duì)就像經(jīng)驗(yàn)豐富的工程師,需要解決網(wǎng)絡(luò)通信、內(nèi)存管理、故障恢復(fù)等各種技術(shù)問題。

在網(wǎng)絡(luò)通信方面,4096塊GPU之間需要頻繁交換信息,這就像4096個(gè)人同時(shí)打電話。研究團(tuán)隊(duì)發(fā)現(xiàn)了通信軟件版本不匹配的問題,就像電話線路接錯(cuò)了,導(dǎo)致通話質(zhì)量不穩(wěn)定。他們通過統(tǒng)一軟件版本解決了這個(gè)問題,確保了訓(xùn)練過程的穩(wěn)定性。

內(nèi)存管理是另一個(gè)重大挑戰(zhàn)。Grace-Hopper GPU采用統(tǒng)一內(nèi)存架構(gòu),CPU和GPU共享內(nèi)存空間。這就像一個(gè)家庭共用一個(gè)冰箱,需要合理分配存儲(chǔ)空間。研究團(tuán)隊(duì)開發(fā)了專門的內(nèi)存管理策略,確保訓(xùn)練程序能夠充分利用可用內(nèi)存。

為了應(yīng)對(duì)硬件故障,研究團(tuán)隊(duì)建立了完善的檢查點(diǎn)系統(tǒng)。每訓(xùn)練250個(gè)步驟,系統(tǒng)就會(huì)自動(dòng)保存當(dāng)前狀態(tài),就像游戲中的存檔功能。一旦出現(xiàn)故障,系統(tǒng)可以從最近的檢查點(diǎn)重新開始,避免從頭訓(xùn)練。

整個(gè)訓(xùn)練過程消耗了約600萬GPU小時(shí),相當(dāng)于一塊GPU連續(xù)工作684年。如果按照每塊GPU 560瓦的功耗計(jì)算,整個(gè)訓(xùn)練過程消耗了約5吉瓦時(shí)的電力。好在瑞士國家超算中心完全使用水力發(fā)電,實(shí)現(xiàn)了碳中和的訓(xùn)練過程。

**九、開源承諾:真正的透明與可復(fù)現(xiàn)**

在AI領(lǐng)域,"開源"這個(gè)詞經(jīng)常被濫用。許多公司聲稱提供開源模型,但實(shí)際上只公開了模型權(quán)重,而訓(xùn)練數(shù)據(jù)、代碼和詳細(xì)方法仍然保密。這就像公布了菜譜的最終成品,但隱瞞了具體的制作過程和原料來源。

Apertus的開源承諾則是徹底的。研究團(tuán)隊(duì)不僅公開了模型權(quán)重,還發(fā)布了完整的訓(xùn)練代碼、數(shù)據(jù)處理腳本、評(píng)估工具以及詳細(xì)的技術(shù)報(bào)告。任何人都可以獲取這些資源,重現(xiàn)整個(gè)訓(xùn)練過程或在此基礎(chǔ)上進(jìn)行改進(jìn)。

這種完全透明的做法具有重要意義。對(duì)于研究人員來說,他們可以深入理解模型的每個(gè)細(xì)節(jié),在此基礎(chǔ)上進(jìn)行創(chuàng)新研究。對(duì)于企業(yè)用戶來說,他們可以根據(jù)自己的需求對(duì)模型進(jìn)行定制化修改。對(duì)于監(jiān)管機(jī)構(gòu)來說,他們可以全面審查模型的訓(xùn)練過程,確保符合相關(guān)法規(guī)。

研究團(tuán)隊(duì)還建立了完善的文檔體系。除了技術(shù)論文,他們還提供了詳細(xì)的使用指南、API文檔以及示例代碼。這就像不僅提供了產(chǎn)品說明書,還配備了貼心的客服團(tuán)隊(duì),幫助用戶快速上手。

為了促進(jìn)學(xué)術(shù)交流,研究團(tuán)隊(duì)計(jì)劃將相關(guān)成果發(fā)表在多個(gè)頂級(jí)會(huì)議和期刊上。他們已經(jīng)提交了20多篇相關(guān)論文,涵蓋數(shù)據(jù)處理、模型架構(gòu)、訓(xùn)練方法、評(píng)估基準(zhǔn)等各個(gè)方面。這種系統(tǒng)性的學(xué)術(shù)輸出將為整個(gè)領(lǐng)域的發(fā)展提供寶貴的參考。

說到底,Apertus代表了AI開發(fā)的一種新范式。它證明了在保證數(shù)據(jù)合規(guī)的前提下,完全可以訓(xùn)練出高質(zhì)量的大型語言模型。它展示了多語言AI的巨大潛力,為全球用戶提供了更加公平的AI服務(wù)。更重要的是,它樹立了完全透明、可驗(yàn)證的開發(fā)標(biāo)準(zhǔn),為整個(gè)行業(yè)的健康發(fā)展指明了方向。

這個(gè)項(xiàng)目的成功離不開瑞士獨(dú)特的學(xué)術(shù)環(huán)境和價(jià)值觀念。瑞士一向以中立、多元、高質(zhì)量著稱,這些特質(zhì)在Apertus項(xiàng)目中得到了完美體現(xiàn)。通過國際合作和開放創(chuàng)新,瑞士AI聯(lián)盟向世界展示了如何以負(fù)責(zé)任的方式發(fā)展人工智能技術(shù)。

對(duì)于普通用戶而言,Apertus的出現(xiàn)意味著他們將擁有一個(gè)真正值得信賴的AI助手。無論你說什么語言,來自哪個(gè)文化背景,都能從這個(gè)模型中獲得公平、準(zhǔn)確的服務(wù)。對(duì)于開發(fā)者而言,Apertus提供了一個(gè)可靠的基礎(chǔ)平臺(tái),可以在此基礎(chǔ)上開發(fā)各種創(chuàng)新應(yīng)用。對(duì)于整個(gè)社會(huì)而言,Apertus代表了一種新的技術(shù)發(fā)展模式:既追求卓越的性能,又堅(jiān)持道德底線;既擁抱全球化,又尊重多樣性;既推動(dòng)創(chuàng)新,又保持透明。

Q&A

Q1:Apertus模型與其他AI模型相比有什么獨(dú)特優(yōu)勢?

A:Apertus的最大優(yōu)勢是完全開源和數(shù)據(jù)合規(guī)。它不僅公開模型權(quán)重,還提供完整的訓(xùn)練代碼、數(shù)據(jù)處理腳本和技術(shù)文檔。在數(shù)據(jù)使用上,研究團(tuán)隊(duì)嚴(yán)格遵循版權(quán)規(guī)定,回溯性地移除了網(wǎng)站所有者明確反對(duì)使用的內(nèi)容。此外,Apertus支持1811種語言,是目前多語言覆蓋最廣泛的開源模型之一。

Q2:什么是金魚損失方法,它如何防止AI模型記住訓(xùn)練數(shù)據(jù)?

A:金魚損失是Apertus采用的創(chuàng)新訓(xùn)練技術(shù),通過隨機(jī)遮蓋訓(xùn)練文本中約2%的詞匯來防止模型逐字記憶。這就像給學(xué)生的練習(xí)冊(cè)隨機(jī)撕掉一些字,學(xué)生仍能理解內(nèi)容含義,但無法完全照抄。實(shí)驗(yàn)證明,即使模型接觸同一段文字128次,這種方法仍能有效防止逐字重復(fù)輸出,從而降低版權(quán)侵權(quán)風(fēng)險(xiǎn)。

Q3:普通用戶如何使用Apertus模型?需要什么技術(shù)門檻?

A:Apertus提供80億參數(shù)和700億參數(shù)兩個(gè)版本,支持最長65536個(gè)字符的文本處理。用戶可以通過Hugging Face平臺(tái)直接下載使用,也可以使用研究團(tuán)隊(duì)提供的API接口。對(duì)于技術(shù)開發(fā)者,所有訓(xùn)練代碼和文檔都在GitHub上開源。普通用戶無需深度技術(shù)背景,可以像使用其他AI助手一樣與Apertus進(jìn)行對(duì)話交流。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-