av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 一個(gè)字就能節(jié)省千個(gè)字:低秩克隆技術(shù)實(shí)現(xiàn)高效知識(shí)蒸餾,哈爾濱工業(yè)大學(xué)研究提升小型語(yǔ)言模型效率

一個(gè)字就能節(jié)省千個(gè)字:低秩克隆技術(shù)實(shí)現(xiàn)高效知識(shí)蒸餾,哈爾濱工業(yè)大學(xué)研究提升小型語(yǔ)言模型效率

2025-05-23 15:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 15:25 ? 科技行者

在人工智能領(lǐng)域,一個(gè)引人注目的問(wèn)題正困擾著研究人員和企業(yè):如何讓小型語(yǔ)言模型(SLM)擁有大型語(yǔ)言模型(LLM)的聰明頭腦,同時(shí)又不需要消耗天量的計(jì)算資源?這就像是想讓一輛緊湊型汽車擁有跑車的性能,卻不需要耗費(fèi)昂貴的燃油。近日,來(lái)自哈爾濱工業(yè)大學(xué)深圳校區(qū)的賈泰浩、黃強(qiáng)和于軍,聯(lián)合百度公司的劉浩、肖新燕以及萊頓大學(xué)的任召春發(fā)表了一篇題為《一個(gè)字值上千個(gè)字:通過(guò)低秩克隆實(shí)現(xiàn)高效知識(shí)蒸餾》的研究論文,為這個(gè)問(wèn)題提供了一個(gè)創(chuàng)新的解決方案。該論文已提交審閱,將可能在2025年5月發(fā)表。

想象一下,現(xiàn)在最先進(jìn)的小型語(yǔ)言模型如Llama-3.2-3B和Qwen3-1.7B,需要分別處理9萬(wàn)億和36萬(wàn)億個(gè)文本單元(稱為"token")才能達(dá)到令人滿意的性能。這就像是要讀完地球上所有圖書館的書才能獲得足夠的知識(shí)。而這篇研究的神奇之處在于,研究團(tuán)隊(duì)開(kāi)發(fā)的"低秩克隆"(Low-Rank Clone,簡(jiǎn)稱LRC)技術(shù)只需要處理100億至200億個(gè)文本單元,就能達(dá)到甚至超越這些模型的性能,效率提升了驚人的1000倍以上!

現(xiàn)有的知識(shí)蒸餾方法(從大模型向小模型轉(zhuǎn)移知識(shí)的技術(shù))面臨三個(gè)主要挑戰(zhàn):一是硬剪枝(直接刪除模型中"不重要"的神經(jīng)元)會(huì)導(dǎo)致信息丟失;二是表示對(duì)齊效率低下(需要額外的映射層來(lái)匹配大小模型的內(nèi)部狀態(tài));三是信息豐富的前饋網(wǎng)絡(luò)(FFN)激活信號(hào)被嚴(yán)重忽視。就像一個(gè)學(xué)生試圖從老師那里學(xué)習(xí),但是只能聽(tīng)到老師講話的一半,還需要一個(gè)翻譯來(lái)解釋老師的話,同時(shí)還忽略了老師寫在黑板上的重要內(nèi)容。

研究團(tuán)隊(duì)提出的低秩克隆技術(shù)巧妙地解決了這些問(wèn)題。LRC不是簡(jiǎn)單地刪減神經(jīng)元,而是通過(guò)一組可訓(xùn)練的低秩投影矩陣,將教師模型的權(quán)重壓縮到學(xué)生模型的空間中,同時(shí)確保學(xué)生模型的中間激活與教師模型的相匹配。這就像給學(xué)生配備了一個(gè)特殊的學(xué)習(xí)設(shè)備,既能完整捕捉老師所有的講解內(nèi)容,又能將復(fù)雜的知識(shí)轉(zhuǎn)化為學(xué)生能理解的形式,而且不會(huì)丟失任何重要信息。

最令人印象深刻的是,使用LRC技術(shù)訓(xùn)練的模型在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中表現(xiàn)出色。例如,LRC-1.7B模型(使用Qwen2.5-3B作為教師)在僅處理200億個(gè)文本單元后,就在平均準(zhǔn)確率上超過(guò)了Qwen3-1.7B(64.98% vs 63.17%),而后者需要處理36萬(wàn)億個(gè)文本單元。同樣,LRC-4B模型(使用Qwen2.5-7B作為教師)也達(dá)到了與Qwen3-4B相當(dāng)?shù)男阅堋?/p>

接下來(lái),讓我們深入了解這項(xiàng)突破性技術(shù)的工作原理和詳細(xì)研究結(jié)果。

一、低秩克隆:如何讓小模型學(xué)會(huì)大模型的本領(lǐng)

低秩克?。↙RC)可以類比為一種高效的知識(shí)傳授過(guò)程,在這個(gè)過(guò)程中,一個(gè)經(jīng)驗(yàn)豐富的教師(大型語(yǔ)言模型)將其所有知識(shí)傳授給一個(gè)年輕的學(xué)生(小型語(yǔ)言模型)。與傳統(tǒng)教學(xué)不同,LRC采用了兩個(gè)關(guān)鍵步驟確保知識(shí)傳遞的高效性和完整性。

首先是"低秩投影"步驟。傳統(tǒng)方法通常是直接刪除模型中被認(rèn)為不重要的部分,就像從厚厚的教科書中撕掉一些"不太重要"的章節(jié)。這種做法顯然會(huì)導(dǎo)致信息丟失。而LRC采用了完全不同的方法:它訓(xùn)練一組低秩投影矩陣,這些矩陣能夠?qū)⒔處熌P偷臋?quán)重壓縮到更小的空間,同時(shí)保留關(guān)鍵信息。這就像是把一部厚重的百科全書濃縮成一本精簡(jiǎn)版,但不是簡(jiǎn)單地刪除內(nèi)容,而是通過(guò)巧妙的編排,確保所有重要知識(shí)都以更緊湊的形式保留下來(lái)。

具體來(lái)說(shuō),對(duì)于教師模型中的每一層(包括注意力機(jī)制和前饋網(wǎng)絡(luò)),LRC都會(huì)通過(guò)相應(yīng)的低秩投影矩陣生成學(xué)生模型的權(quán)重:W^S_{m,i} = W^T_{m,i}W^p_{m,i},其中W^T_{m,i}是教師模型在第i層的權(quán)重矩陣,W^p_{m,i}是相應(yīng)的低秩投影矩陣,而W^S_{m,i}是生成的學(xué)生模型權(quán)重。同樣的方法也適用于詞嵌入和語(yǔ)言模型頭部的權(quán)重。

第二個(gè)關(guān)鍵步驟是"激活克隆"。在傳統(tǒng)方法中,研究人員主要關(guān)注對(duì)齊模型的注意力分?jǐn)?shù),而忽略了前饋網(wǎng)絡(luò)中包含的豐富信息。LRC通過(guò)對(duì)齊多種中間激活來(lái)克服這一限制,包括注意力機(jī)制和前饋網(wǎng)絡(luò)的輸入投影和輸出。這就像不僅要學(xué)習(xí)老師的結(jié)論,還要理解老師的思考過(guò)程。LRC使用均方誤差損失來(lái)確保學(xué)生模型的激活與教師模型的激活盡可能相似。

值得一提的是,LRC具有一個(gè)獨(dú)特的"無(wú)需對(duì)齊"特性。傳統(tǒng)的特征蒸餾方法需要額外的對(duì)齊矩陣來(lái)處理學(xué)生和教師模型之間的維度不匹配問(wèn)題。而在LRC中,用于生成學(xué)生權(quán)重的相同低秩投影矩陣也可以直接用于對(duì)齊激活,無(wú)需額外的對(duì)齊模塊。這大大簡(jiǎn)化了訓(xùn)練過(guò)程,并提高了蒸餾效率。

研究團(tuán)隊(duì)以數(shù)學(xué)方式證明了這一特性。以前饋網(wǎng)絡(luò)為例,當(dāng)學(xué)生模型的中間激活(h^S_{up,i}和h^S_{gate,i})與教師模型的相應(yīng)激活完全匹配時(shí),學(xué)生的前饋網(wǎng)絡(luò)輸出將與教師輸出通過(guò)同一投影矩陣傳遞的結(jié)果完全相同。這種"無(wú)需對(duì)齊"的設(shè)計(jì)不僅提高了訓(xùn)練效率,還增強(qiáng)了知識(shí)轉(zhuǎn)移的質(zhì)量。

綜合這兩個(gè)關(guān)鍵步驟,LRC創(chuàng)建了一個(gè)統(tǒng)一的框架,同時(shí)執(zhí)行軟剪枝(通過(guò)壓縮教師權(quán)重)和知識(shí)蒸餾(通過(guò)對(duì)齊激活)。這種方法能夠保留教師模型的大部分知識(shí),同時(shí)顯著減少訓(xùn)練開(kāi)銷。

二、實(shí)驗(yàn)設(shè)置與模型訓(xùn)練:如何讓理論變?yōu)楝F(xiàn)實(shí)

研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn)來(lái)評(píng)估LRC的有效性。他們訓(xùn)練了多個(gè)LRC模型,使用不同的開(kāi)源教師模型:Llama-3.2-3B-Instruct用于訓(xùn)練LRC-1.5B,Qwen2.5-3B-Instruct用于訓(xùn)練LRC-1.7B,Qwen2.5-7B-Instruct用于訓(xùn)練LRC-4B。為了與Sheared-Llama進(jìn)行公平比較,他們還使用Llama-2-7B-chat作為教師訓(xùn)練了LRC-2.7B。

訓(xùn)練過(guò)程采用了監(jiān)督微調(diào)(SFT)來(lái)獲得指令版本的LRC模型。所有模型都使用長(zhǎng)度為2,048的打包序列進(jìn)行訓(xùn)練,以提高計(jì)算效率。研究團(tuán)隊(duì)使用Adam優(yōu)化器,參數(shù)β1=0.9,β2=0.999,KL散度溫度設(shè)置為40。訓(xùn)練在8個(gè)NVIDIA H800 GPU上進(jìn)行,使用PyTorch、Transformers和Deepspeed框架實(shí)現(xiàn)分布式并行計(jì)算。

訓(xùn)練數(shù)據(jù)集是由Fineweb-Edu、DCLM和CosmopiediaV2混合構(gòu)成的。Fineweb-Edu是主要組成部分,因其高質(zhì)量的教育內(nèi)容而被選用。為了豐富預(yù)訓(xùn)練數(shù)據(jù)分布,研究團(tuán)隊(duì)還納入了DCLM和CosmopiediaV2,并使用OpenHermes。此外,他們還利用UltraChat作為監(jiān)督微調(diào)數(shù)據(jù)集進(jìn)行指令調(diào)整。預(yù)訓(xùn)練數(shù)據(jù)集經(jīng)過(guò)隨機(jī)打亂,沒(méi)有使用課程設(shè)置。

為了全面評(píng)估LRC的性能,研究團(tuán)隊(duì)與多個(gè)代表性和競(jìng)爭(zhēng)性的基線進(jìn)行了比較:Sheared Llama(使用相同的教師和訓(xùn)練數(shù)據(jù)進(jìn)行公平比較);Minitron(通過(guò)其發(fā)布的檢查點(diǎn)進(jìn)行評(píng)估);TinyBERT(一種特征蒸餾方法,已適配到Llama架構(gòu))。此外,他們還將LRC與類似規(guī)模的最先進(jìn)開(kāi)源小型語(yǔ)言模型進(jìn)行了對(duì)比,包括MiniCPM、SmolLM2、Gemma3、InternLM和Qwen3系列模型。

在評(píng)估中,所有模型都在零樣本(zero-shot)設(shè)置下使用lm-evaluation-harness框架進(jìn)行評(píng)估,以Transformers作為推理后端。評(píng)估涵蓋了一系列下游任務(wù),涉及多種語(yǔ)言理解技能:科學(xué)和邏輯推理(ARC-E、ARC-C和LogiQA);常識(shí)理解(CommonsenseQA、PIQA和WinoGrande);閱讀理解(BoolQ);以及世界知識(shí)(SciQ和MMLU)。這些多樣化的任務(wù)能夠全面評(píng)估模型的各方面能力。

三、實(shí)驗(yàn)結(jié)果:小模型也能有大智慧

研究團(tuán)隊(duì)首先比較了參數(shù)少于2B的LRC模型與領(lǐng)先的小型語(yǔ)言模型。結(jié)果令人驚喜:LRC-1.5B,從Llama-3.2-3B-Instruct蒸餾而來(lái),僅使用100億個(gè)文本單元,就在性能上超過(guò)了SmolLM2-1.7B(該模型訓(xùn)練了11萬(wàn)億個(gè)文本單元)。同樣,LRC-1.7B,從Qwen2.5-3B-Instruct蒸餾而來(lái),在參數(shù)少于2B的所有模型中取得了最佳性能,超過(guò)了Qwen3-1.7B,而后者需要處理36萬(wàn)億個(gè)文本單元。這些結(jié)果突顯了LRC令人矚目的蒸餾效率,僅使用1000倍更少的訓(xùn)練數(shù)據(jù)就實(shí)現(xiàn)了卓越的性能。

為了評(píng)估LRC的可擴(kuò)展性,研究團(tuán)隊(duì)進(jìn)一步評(píng)估了更大的模型。LRC-4B,從Qwen2.5-7B-Instruct蒸餾而來(lái),僅使用100億個(gè)文本單元,就實(shí)現(xiàn)了與Qwen3-4B(訓(xùn)練了36萬(wàn)億個(gè)文本單元)相當(dāng)?shù)男阅?,并且超過(guò)了Minitron-4B,后者使用了5倍多的數(shù)據(jù)進(jìn)行訓(xùn)練。研究團(tuán)隊(duì)還通過(guò)復(fù)制其設(shè)置,使用Llama2-7B作為教師和相同的訓(xùn)練數(shù)據(jù)集,與Sheared-Llama-2.7B-B進(jìn)行了公平比較。他們的LRC-2.7B-B仍然取得了可比的性能,同時(shí)使用了5倍更少的文本單元。

這些發(fā)現(xiàn)證明了LRC在各種教師-學(xué)生配置中的穩(wěn)健性和通用性。值得注意的是,所有報(bào)告的LRC模型都經(jīng)過(guò)了SFT。

四、深入分析:為什么低秩克隆如此有效

為了深入了解LRC的兩個(gè)核心組件(低秩投影和激活克?。┑呢暙I(xiàn),研究團(tuán)隊(duì)進(jìn)行了一系列消融研究。所有實(shí)驗(yàn)都使用Llama-3.2-3B-Instruct作為教師,在25億個(gè)文本單元上訓(xùn)練,不進(jìn)行SFT。他們使用訓(xùn)練語(yǔ)言模型損失作為評(píng)估指標(biāo),因?yàn)閿?shù)據(jù)包含最小的重復(fù),并且訓(xùn)練僅運(yùn)行一個(gè)周期。

首先,他們?cè)u(píng)估了低秩投影的影響,將LRC與TinyBERT風(fēng)格的蒸餾進(jìn)行比較,后者將學(xué)生隨機(jī)初始化并從頭開(kāi)始訓(xùn)練,使用MSE損失與每層的注意力激活和輸出對(duì)齊。由于TinyBERT依賴于注意力分?jǐn)?shù)圖,難以擴(kuò)展到更長(zhǎng)的上下文,因?yàn)樗鼰o(wú)法使用FlashAttention。結(jié)果顯示,LRC比TinyBERT快2.7倍達(dá)到3.0的語(yǔ)言模型損失,這凸顯了通過(guò)投影傳遞結(jié)構(gòu)化權(quán)重信息的好處,而不是從頭開(kāi)始學(xué)習(xí)。

接著,研究團(tuán)隊(duì)衡量了克隆損失Lclone中不同激活信號(hào)的貢獻(xiàn),進(jìn)行了項(xiàng)級(jí)別和模塊級(jí)別的消融研究。項(xiàng)級(jí)別結(jié)果顯示,當(dāng)移除單個(gè)激活項(xiàng)時(shí),移除與前饋網(wǎng)絡(luò)相關(guān)的項(xiàng),特別是FFN門,會(huì)顯著降低性能,將語(yǔ)言模型損失從2.639增加到2.677。這證實(shí)了前饋網(wǎng)絡(luò)激活攜帶了基本信息,對(duì)齊它們對(duì)有效的行為克隆至關(guān)重要。

模塊級(jí)別結(jié)果展示了刪除所有注意力相關(guān)與前饋網(wǎng)絡(luò)相關(guān)的克隆損失的影響,以及完全移除所有克隆信號(hào)的影響。觀察發(fā)現(xiàn),雖然在早期訓(xùn)練階段LRC w/o Attn顯著影響性能,但它在后期階段逐漸恢復(fù),并趨向于完整LRC的性能。然而,LRC w/o FFN產(chǎn)生了貫穿整個(gè)訓(xùn)練過(guò)程的實(shí)質(zhì)性性能下降,進(jìn)一步確認(rèn)了前饋網(wǎng)絡(luò)激活的關(guān)鍵重要性。此外,當(dāng)LRC和LRC w/o All Clone Loss達(dá)到3.0的語(yǔ)言模型損失時(shí),LRC實(shí)現(xiàn)了超過(guò)2倍的訓(xùn)練時(shí)間使用減少,證明了激活克隆的有效性。

最后,研究團(tuán)隊(duì)評(píng)估了LRC的無(wú)需對(duì)齊特性,將其與一個(gè)變體(LRC w/o Alignment Free)進(jìn)行比較,后者為注意力和前饋網(wǎng)絡(luò)輸出訓(xùn)練額外的對(duì)齊矩陣。結(jié)果顯示,這個(gè)變體增加了可訓(xùn)練參數(shù)的大小,延長(zhǎng)了訓(xùn)練時(shí)間,并導(dǎo)致更差的最終性能。這些結(jié)果確認(rèn)了LRC基于投影的對(duì)齊不僅足以有效傳遞知識(shí),而且更高效和穩(wěn)定。

五、模型分析:數(shù)據(jù)質(zhì)量比數(shù)量更重要

為了更好地理解LRC的設(shè)計(jì)選擇和行為,研究團(tuán)隊(duì)進(jìn)行了一系列深入分析,重點(diǎn)關(guān)注兩個(gè)方面:訓(xùn)練期間的性能趨勢(shì)和訓(xùn)練數(shù)據(jù)質(zhì)量的影響。

研究團(tuán)隊(duì)在整個(gè)訓(xùn)練過(guò)程中監(jiān)控模型檢查點(diǎn),以檢查性能軌跡。結(jié)果顯示,LRC使用僅50%的訓(xùn)練文本單元就已達(dá)到了有競(jìng)爭(zhēng)力的性能。此外,隨著更多訓(xùn)練,模型性能繼續(xù)穩(wěn)步提高,確認(rèn)了LRC的可擴(kuò)展性和高效的學(xué)習(xí)動(dòng)態(tài)。

由于LRC僅需要少量訓(xùn)練數(shù)據(jù)就能達(dá)到強(qiáng)大的性能,研究團(tuán)隊(duì)進(jìn)一步檢驗(yàn)了訓(xùn)練數(shù)據(jù)質(zhì)量如何影響性能。Fineweb-Edu為每個(gè)樣本提供教育價(jià)值分?jǐn)?shù)。為了評(píng)估高質(zhì)量輸入的影響,他們構(gòu)建了一個(gè)過(guò)濾數(shù)據(jù)集,只保留分?jǐn)?shù)≥4的樣本,并使用Llama-3.2-3B-Instruct作為教師重新訓(xùn)練LRC-1.5B。結(jié)果表明,在這個(gè)過(guò)濾數(shù)據(jù)上訓(xùn)練,僅使用100億個(gè)文本單元(Mixed-1.1)就超過(guò)了200億個(gè)文本單元設(shè)置(Mixed-2.0)的性能,兩者都沒(méi)有SFT。這一結(jié)果證明了LRC能夠放大高質(zhì)量數(shù)據(jù)的好處,進(jìn)一步增強(qiáng)其樣本效率。

為了提高訓(xùn)練效率,研究團(tuán)隊(duì)還探索了低秩投影矩陣的權(quán)重共享策略。具體來(lái)說(shuō),他們實(shí)驗(yàn)了將注意力和前饋網(wǎng)絡(luò)模塊內(nèi)的投影矩陣進(jìn)行綁定。對(duì)于注意力,他們?cè)O(shè)置了Wp_q = Wp_k = Wp_v,對(duì)于前饋網(wǎng)絡(luò),設(shè)置了Wp_gate = Wp_up。他們使用Mixed-1.0數(shù)據(jù)集上的100億個(gè)文本單元,以Llama-3.2-3B-Instruct作為教師,α=1.0訓(xùn)練LRC-1.5B,不應(yīng)用SFT。

結(jié)果顯示,全參數(shù)設(shè)置(All, All)提供了最佳性能,但也有最高的內(nèi)存成本。值得注意的是,在前饋網(wǎng)絡(luò)中共享投影導(dǎo)致的性能下降大于在注意力中共享它們。這一發(fā)現(xiàn)也佐證了激活克隆實(shí)驗(yàn)的觀察結(jié)果,表明前饋網(wǎng)絡(luò)編碼了更豐富的信息,并從專用容量中獲益更多。

六、效率分析:低秩克隆的超高效訓(xùn)練

最后,研究團(tuán)隊(duì)分析了LRC在內(nèi)存使用和吞吐量方面的訓(xùn)練效率,重點(diǎn)關(guān)注權(quán)重共享策略和整體訓(xùn)練速度。實(shí)驗(yàn)表明,即使與計(jì)算教師模型的隱藏狀態(tài)相關(guān)的開(kāi)銷,LRC仍然保持了標(biāo)準(zhǔn)訓(xùn)練吞吐量的50%以上。相比之下,改編到Llama架構(gòu)的TinyBERT在吞吐量方面顯著落后,特別是因?yàn)樗蕾囉谧⒁饬D作為監(jiān)督,這阻止了使用FlashAttention,限制了序列長(zhǎng)度和訓(xùn)練速度。

研究團(tuán)隊(duì)還在vLLM上進(jìn)行了推理吞吐量測(cè)試,結(jié)果證實(shí)LRC不僅樣本高效,而且在實(shí)際應(yīng)用中也具有很強(qiáng)的可擴(kuò)展性,為大規(guī)模訓(xùn)練和部署提供了可能性。

總結(jié)來(lái)說(shuō),這項(xiàng)由哈爾濱工業(yè)大學(xué)和百度研究團(tuán)隊(duì)開(kāi)發(fā)的低秩克隆技術(shù)為訓(xùn)練高性能的小型語(yǔ)言模型開(kāi)辟了一條全新的道路。通過(guò)巧妙地結(jié)合軟剪枝和知識(shí)蒸餾于一個(gè)統(tǒng)一的框架中,LRC能夠保留大型教師模型的大部分知識(shí),同時(shí)顯著減少訓(xùn)練資源需求。實(shí)驗(yàn)結(jié)果表明,LRC模型能夠匹配或超越那些在萬(wàn)億級(jí)文本單元上訓(xùn)練的最先進(jìn)模型的性能,同時(shí)僅需要百億級(jí)的訓(xùn)練量,實(shí)現(xiàn)了1000倍以上的訓(xùn)練效率。

這項(xiàng)技術(shù)的發(fā)展對(duì)AI領(lǐng)域具有深遠(yuǎn)的影響,它使得小型研究團(tuán)隊(duì)和組織也能開(kāi)發(fā)出高性能的語(yǔ)言模型,推動(dòng)AI技術(shù)的民主化。隨著更多研究探索LRC的上限和應(yīng)用場(chǎng)景,我們可能會(huì)看到更多高效、高性能的小型語(yǔ)言模型問(wèn)世,為資源受限的設(shè)備帶來(lái)先進(jìn)的AI能力。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-