av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍:只需要一半的算力就能教會大模型新技能

MIT團隊發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍:只需要一半的算力就能教會大模型新技能

2025-07-02 14:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-02 14:25 ? 科技行者

這項由麻省理工學(xué)院(MIT)、加州大學(xué)伯克利分校、多倫多大學(xué)以及谷歌DeepMind共同完成的研究,于2025年6月發(fā)表在第42屆國際機器學(xué)習(xí)大會(ICML 2025)上。論文的主要作者包括MIT的劉志堅、韓松,伯克利的Kurt Keutzer,多倫多大學(xué)的Konstantinos N. Plataniotis等知名學(xué)者。感興趣的讀者可以通過arXiv:2506.16500v1訪問完整論文,項目主頁為https://z-lab.ai/projects/sparselora。

當(dāng)我們想要訓(xùn)練一個大型AI模型學(xué)會新技能時,就像給一個聰明但固執(zhí)的學(xué)生補課一樣。傳統(tǒng)的方法是讓這個學(xué)生把所有相關(guān)知識都重新學(xué)一遍,這不僅費時費力,還需要巨大的計算資源。近年來,研究人員開發(fā)了一些"偷懶"的方法,比如LoRA、QLoRA和DoRA,它們通過只訓(xùn)練模型的一小部分參數(shù)來節(jié)省內(nèi)存,就像給學(xué)生發(fā)一本薄薄的補充教材,而不是厚厚的全科教科書。

但這里有個問題:雖然這些方法節(jié)省了內(nèi)存,卻沒有減少計算量。實際上,有些方法甚至讓訓(xùn)練變得更慢了。這就好比學(xué)生雖然拿到了薄教材,但學(xué)習(xí)過程反而變得更加繁瑣復(fù)雜。

研究團隊仔細(xì)觀察發(fā)現(xiàn),在AI模型訓(xùn)練過程中,并不是所有的計算都同樣重要。就像一個廚師做菜時,不需要同時使用廚房里的所有工具和食材,只需要根據(jù)當(dāng)前步驟選擇最關(guān)鍵的那些?;谶@個洞察,他們提出了SparseLoRA——一種"智能減肥法",能夠根據(jù)具體情況動態(tài)選擇最重要的計算,跳過那些不必要的部分。

SparseLoRA的核心創(chuàng)新在于引入了"上下文稀疏性"的概念。簡單來說,就是在每個訓(xùn)練步驟中,模型會智能地識別出哪些部分對當(dāng)前任務(wù)最關(guān)鍵,然后只對這些關(guān)鍵部分進行計算,而暫時"冷藏"其他部分。這種做法不僅大幅減少了計算量,還保持了訓(xùn)練效果。

研究團隊在多個任務(wù)上測試了他們的方法,包括常識推理、數(shù)學(xué)解題、代碼生成和指令跟隨等。結(jié)果顯示,SparseLoRA能夠?qū)⒂嬎愠杀窘档投噙_2.2倍,實際訓(xùn)練速度提升1.6倍,同時幾乎沒有損失模型的性能表現(xiàn)。

一、動態(tài)稀疏性的巧妙設(shè)計

傳統(tǒng)的模型訓(xùn)練就像一個工廠流水線,每個工位都必須全力運轉(zhuǎn),不管當(dāng)前生產(chǎn)的是什么產(chǎn)品。而SparseLoRA采用了完全不同的思路:它讓工廠變得更加靈活,能夠根據(jù)當(dāng)前生產(chǎn)需求動態(tài)調(diào)整哪些工位需要運轉(zhuǎn),哪些可以暫時休息。

研究團隊首先分析了大語言模型在訓(xùn)練過程中的計算分布。他們發(fā)現(xiàn),在不同的序列長度下,線性層(包括注意力機制和前饋網(wǎng)絡(luò))占據(jù)了訓(xùn)練時間的主要部分。這些線性層就像工廠里最耗能的大型機器,如果能讓它們只在必要時工作,就能大幅節(jié)省資源。

SparseLoRA的設(shè)計哲學(xué)是"只計算真正需要的部分"。它會根據(jù)輸入數(shù)據(jù)的特征,動態(tài)決定哪些神經(jīng)元通道需要激活,哪些可以跳過。這種選擇不是隨機的,而是基于精心設(shè)計的重要性評估機制。

研究團隊開發(fā)了兩種不同的評估標(biāo)準(zhǔn)來判斷神經(jīng)元的重要性。對于前饋網(wǎng)絡(luò)(FFN),他們使用L2范數(shù)標(biāo)準(zhǔn),這相當(dāng)于測量每個神經(jīng)元的"活躍程度"。活躍程度高的神經(jīng)元對當(dāng)前計算更重要,需要保留;活躍程度低的則可以暫時忽略。對于注意力機制中的查詢和鍵值投影,他們設(shè)計了專門的QK范數(shù)標(biāo)準(zhǔn),通過分析查詢和鍵值向量的乘積來評估每個通道的貢獻度。

這種動態(tài)選擇機制的巧妙之處在于,它不是預(yù)先固定哪些部分重要,而是根據(jù)每個具體的輸入樣本來做決定。同一個神經(jīng)元可能在處理某些輸入時非常重要,在處理其他輸入時則相對次要。這種靈活性確保了模型既能大幅減少計算量,又不會錯過關(guān)鍵信息。

二、SVD稀疏性估計器的技術(shù)突破

如果說動態(tài)稀疏性是SparseLoRA的核心理念,那么SVD稀疏性估計器就是實現(xiàn)這一理念的關(guān)鍵技術(shù)工具。這個估計器就像一個經(jīng)驗豐富的工廠調(diào)度員,能夠快速準(zhǔn)確地判斷出在每個時刻哪些生產(chǎn)線應(yīng)該開工,哪些應(yīng)該待機。

傳統(tǒng)的稀疏性方法面臨一個根本矛盾:為了知道哪些計算重要,往往需要先進行一些計算,這就像為了決定是否要做一道菜,必須先把所有食材都準(zhǔn)備好一樣,顯然不夠高效。研究團隊通過SVD(奇異值分解)技術(shù)巧妙地解決了這個問題。

SVD稀疏性估計器的工作原理可以這樣理解:它首先對預(yù)訓(xùn)練模型的權(quán)重進行數(shù)學(xué)分解,提取出最重要的"特征模式"。這個過程只需要在訓(xùn)練開始前做一次,就像給工廠的每臺機器制作一份"重要性檔案"。然后在實際訓(xùn)練過程中,估計器只需要進行很少量的計算,就能根據(jù)這些預(yù)先提取的模式來判斷當(dāng)前哪些部分最重要。

這種設(shè)計的精妙之處在于,它將復(fù)雜的重要性判斷轉(zhuǎn)化為簡單的模式匹配問題。估計器使用低秩近似技術(shù),只保留最重要的幾個奇異值和對應(yīng)的向量,這樣就能用很小的計算代價獲得接近完美判斷的效果。實驗數(shù)據(jù)顯示,這個估計器只增加了0.05%的計算量和0.8%的運行時間開銷,但能夠達到接近理想情況99%的準(zhǔn)確性。

更重要的是,這個估計器是"免訓(xùn)練"的,不需要針對特定任務(wù)或數(shù)據(jù)集進行專門訓(xùn)練。這意味著它具有很好的通用性,可以直接應(yīng)用到不同的模型和任務(wù)上,而不用擔(dān)心過擬合或適應(yīng)性問題。

三、層次敏感性的深度分析

在深入研究過程中,團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:模型的不同層對稀疏性的容忍度差別巨大,就像人體的不同器官對營養(yǎng)缺乏的敏感性不同一樣。有些層即使大幅減少計算也不會影響最終效果,而有些層則需要精心呵護。

研究團隊對LLaMA2-7B模型進行了全面的敏感性分析。他們發(fā)現(xiàn),模型的深層(靠近輸出端的層)通常包含更多冗余信息,對稀疏性的容忍度更高,而淺層(靠近輸入端的層)則更加敏感。這種現(xiàn)象的背后有著深刻的原理:淺層主要負(fù)責(zé)提取和編碼基礎(chǔ)特征,這些特征對后續(xù)所有計算都至關(guān)重要;而深層則更多地進行特征組合和決策,即使丟失一些信息也不會嚴(yán)重影響最終結(jié)果。

基于這個發(fā)現(xiàn),SparseLoRA采用了非均勻稀疏性配置策略。對于淺層,它采用相對保守的稀疏性比例,確保基礎(chǔ)特征提取不受影響;對于深層,則可以采用更激進的稀疏性比例,大幅減少計算量。這種分層策略在保證性能的前提下,進一步提升了計算效率。

除了層間差異,研究團隊還發(fā)現(xiàn)了令牌級別的敏感性差異。在語言模型的訓(xùn)練過程中,輸入序列通常包含上下文令牌(用于理解背景)和輸出令牌(用于計算損失)。他們發(fā)現(xiàn),輸出令牌對計算精度的要求遠(yuǎn)高于上下文令牌,因為輸出令牌直接影響模型的學(xué)習(xí)方向。

基于這個洞察,SparseLoRA實施了"上下文-輸出感知"的稀疏性策略:對上下文令牌應(yīng)用稀疏計算,而對輸出令牌保持密集計算。這種策略確保了學(xué)習(xí)過程的準(zhǔn)確性,同時仍能獲得顯著的效率提升。實驗表明,這種策略比簡單的均勻稀疏性方法效果更好,特別是在數(shù)學(xué)推理等對精確性要求較高的任務(wù)上。

四、漸進式稀疏訓(xùn)練的智慧

訓(xùn)練過程的不同階段對計算精度的需求也不相同,這促使研究團隊設(shè)計了漸進式稀疏訓(xùn)練策略。這種策略認(rèn)識到,訓(xùn)練初期是模型建立基礎(chǔ)認(rèn)知框架的關(guān)鍵時期,需要相對完整的信息;而訓(xùn)練后期主要是微調(diào)和優(yōu)化,可以承受更多的稀疏性。

具體來說,SparseLoRA在訓(xùn)練的最初階段(通常是前10%的步驟)保持密集計算,讓模型有足夠的信息建立正確的學(xué)習(xí)方向。之后逐漸切換到稀疏計算模式,在保證學(xué)習(xí)效果的前提下大幅提升計算效率。這種漸進式策略在多個實驗中都顯示出了優(yōu)于固定稀疏性策略的效果。

研究團隊還仔細(xì)分析了不同訓(xùn)練步驟的敏感性變化。他們發(fā)現(xiàn),早期訓(xùn)練步驟對權(quán)重更新的質(zhì)量要求更高,因為這些更新決定了模型的基本學(xué)習(xí)方向。而后期步驟主要進行微調(diào),即使稍有偏差也不會嚴(yán)重影響最終效果。這個發(fā)現(xiàn)進一步支持了漸進式稀疏訓(xùn)練的合理性。

五、全面的實驗驗證與性能表現(xiàn)

為了驗證SparseLoRA的有效性,研究團隊在五個不同類型的任務(wù)上進行了廣泛測試,包括常識推理、數(shù)學(xué)推理、代碼生成、指令跟隨和序列分類。這些任務(wù)覆蓋了大語言模型的主要應(yīng)用場景,確保了實驗結(jié)果的代表性和可信度。

在常識推理任務(wù)中,SparseLoRA在LLaMA2-13B模型上實現(xiàn)了1.3倍的速度提升,同時將計算量減少了39%。更令人印象深刻的是,模型的準(zhǔn)確性不僅沒有下降,在某些子任務(wù)上甚至略有提升。這表明適當(dāng)?shù)南∈栊钥赡芫哂蓄愃普齽t化的效果,幫助模型避免過擬合。

數(shù)學(xué)推理任務(wù)的結(jié)果更加亮眼。在LLaMA3-8B模型上,SparseLoRA實現(xiàn)了1.6倍的速度提升,計算量減少了54%,同時在GSM8K等標(biāo)準(zhǔn)數(shù)學(xué)題目上保持了相同的解題能力。這個結(jié)果特別重要,因為數(shù)學(xué)推理通常被認(rèn)為是最需要精確計算的任務(wù)之一。

代碼生成任務(wù)的測試顯示,SparseLoRA在HumanEval和HumanEval+基準(zhǔn)測試中都保持了與原始LoRA相同的性能,同時實現(xiàn)了1.3倍的速度提升。這對于實際的軟件開發(fā)應(yīng)用來說意義重大,因為它意味著可以用更少的計算資源訓(xùn)練出同樣優(yōu)秀的代碼生成模型。

指令跟隨任務(wù)使用了MT-Bench評估框架,涵蓋了寫作、角色扮演、數(shù)學(xué)、推理等八個不同維度。SparseLoRA在所有維度上都保持了競爭性的性能,平均得分與原始方法幾乎相同,但訓(xùn)練速度提升了1.5倍。

研究團隊還進行了大量的消融實驗,驗證了設(shè)計中每個組件的貢獻。他們發(fā)現(xiàn),SVD稀疏性估計器、層次敏感性配置、上下文-輸出感知策略和漸進式訓(xùn)練每個都對最終性能有重要貢獻,缺少任何一個都會導(dǎo)致效果下降。

六、兼容性與實用性考量

SparseLoRA的一個重要優(yōu)勢是它與現(xiàn)有方法的良好兼容性。研究團隊特別測試了SparseLoRA與QLoRA的結(jié)合使用效果。QLoRA是一種通過量化技術(shù)減少內(nèi)存使用的方法,但會增加計算時間。將SparseLoRA與QLoRA結(jié)合使用,可以同時獲得內(nèi)存和計算效率的雙重優(yōu)勢。

實驗結(jié)果顯示,SparseQLoRA(兩種方法的結(jié)合)在常識推理任務(wù)上實現(xiàn)了1.2倍的速度提升,同時保持了QLoRA的內(nèi)存節(jié)省優(yōu)勢。這種兼容性使得SparseLoRA可以很容易地集成到現(xiàn)有的訓(xùn)練流程中,而不需要大幅修改已有的代碼或系統(tǒng)架構(gòu)。

研究團隊還測試了SparseLoRA在不同投影配置下的表現(xiàn)。除了標(biāo)準(zhǔn)的QKVO投影,他們還測試了包含up和down投影的更復(fù)雜配置。結(jié)果顯示,SparseLoRA的優(yōu)勢不僅限于特定的網(wǎng)絡(luò)結(jié)構(gòu),而是具有廣泛的適用性。

在硬件兼容性方面,SparseLoRA設(shè)計了結(jié)構(gòu)化稀疏性,這意味著它可以在常見的GPU硬件上獲得實際的速度提升,而不僅僅是理論上的計算量減少。這對于實際應(yīng)用來說至關(guān)重要,因為許多稀疏性方法雖然在理論上減少了計算量,但由于硬件限制無法獲得實際的速度提升。

七、技術(shù)細(xì)節(jié)與實現(xiàn)考量

SparseLoRA的實現(xiàn)涉及多個精心設(shè)計的技術(shù)細(xì)節(jié)。首先是稀疏性配置的選擇。研究團隊發(fā)現(xiàn),不同模型和任務(wù)需要不同的稀疏性配置。例如,在LLaMA3-8B的數(shù)學(xué)推理任務(wù)中,他們對第3到第30層的FFN應(yīng)用99%的稀疏性,對第14到第29層的某些注意力投影應(yīng)用75%的稀疏性。這些配置都是通過敏感性分析確定的,確保在不同層上的稀疏性比例是最優(yōu)的。

SVD分解的秩選擇也是一個重要的技術(shù)考量。研究團隊發(fā)現(xiàn),使用秩8的SVD分解能夠在計算開銷和估計準(zhǔn)確性之間取得最佳平衡。更高的秩會增加計算開銷,而更低的秩會影響估計準(zhǔn)確性。秩8的選擇使得SVD估計器能夠以30MB的額外內(nèi)存和0.8%的運行時開銷獲得接近完美的重要性估計。

在實際實現(xiàn)中,SparseLoRA還考慮了內(nèi)存訪問模式的優(yōu)化。通過仔細(xì)設(shè)計稀疏權(quán)重的切片和計算順序,它能夠最大化GPU的計算效率,避免內(nèi)存訪問瓶頸。這種底層優(yōu)化確保了理論上的計算減少能夠轉(zhuǎn)化為實際的性能提升。

研究團隊還提供了詳細(xì)的超參數(shù)配置指南。對于不同的任務(wù)和模型,他們給出了推薦的稀疏性比例、SVD秩選擇和漸進式訓(xùn)練的步驟配置。這些指南基于大量的實驗數(shù)據(jù),可以幫助實際用戶快速獲得最佳的訓(xùn)練效果。

八、深入的比較分析

為了更全面地評估SparseLoRA的優(yōu)勢,研究團隊進行了與多種現(xiàn)有方法的詳細(xì)比較。與傳統(tǒng)的LoRA相比,SparseLoRA在保持相同準(zhǔn)確性的情況下實現(xiàn)了顯著的速度提升。與QLoRA相比,SparseLoRA不僅速度更快,而且不需要專門的量化硬件支持。與DoRA相比,SparseLoRA避免了額外的計算開銷,實際上比DoRA快了一倍以上。

研究團隊還比較了SparseLoRA與GaLore的性能。GaLore是另一種旨在提高訓(xùn)練效率的方法,它通過梯度的低秩投影來減少內(nèi)存使用。然而,GaLore的在線SVD更新帶來了顯著的計算開銷,使得訓(xùn)練時間增加了58%。相比之下,SparseLoRA通過離線SVD分解避免了這種開銷,實現(xiàn)了真正的速度提升。

在等計算量比較中,SparseLoRA顯示出了更強的優(yōu)勢。當(dāng)限定相同的計算預(yù)算時,SparseLoRA訓(xùn)練的模型在各項任務(wù)上都表現(xiàn)更好。這種等FLOP比較特別重要,因為它反映了在實際應(yīng)用中資源受限情況下的真實性能差異。

研究團隊還進行了學(xué)習(xí)率敏感性分析,發(fā)現(xiàn)SparseLoRA對不同學(xué)習(xí)率的魯棒性很好。在數(shù)學(xué)推理任務(wù)中,最佳SparseLoRA配置與最佳LoRA配置的性能差距僅為0.2%,在常識推理任務(wù)中差距為0.3%。這種魯棒性證明了SparseLoRA的穩(wěn)定性和實用性。

歸根結(jié)底,這項研究為大語言模型的高效訓(xùn)練開辟了一條新的道路。SparseLoRA通過巧妙的動態(tài)稀疏性設(shè)計,實現(xiàn)了計算效率和模型性能的雙重優(yōu)化。它不僅在多個標(biāo)準(zhǔn)任務(wù)上驗證了有效性,還展現(xiàn)了良好的通用性和兼容性。

更重要的是,SparseLoRA的成功證明了一個重要觀點:在AI模型訓(xùn)練中,"更多"并不總是"更好"。通過智能地選擇真正重要的計算,我們可以用更少的資源獲得相同甚至更好的效果。這種思路不僅對當(dāng)前的大語言模型訓(xùn)練有價值,也為未來更加高效的AI系統(tǒng)設(shè)計指明了方向。

隨著AI模型規(guī)模的不斷增長和應(yīng)用場景的不斷擴展,計算效率將變得越來越重要。SparseLoRA提供的解決方案讓更多的研究者和開發(fā)者能夠以更低的成本訓(xùn)練和部署先進的AI模型,這對于AI技術(shù)的普及和發(fā)展具有重要意義。對于那些希望深入了解這項技術(shù)細(xì)節(jié)的讀者,可以通過arXiv:2506.16500v1訪問完整的研究論文,或者訪問項目主頁https://z-lab.ai/projects/sparselora獲取更多資源。

Q&A

Q1:SparseLoRA是什么?它與普通的LoRA有什么區(qū)別? A:SparseLoRA是一種智能化的AI模型訓(xùn)練方法,它在傳統(tǒng)LoRA的基礎(chǔ)上增加了動態(tài)稀疏性功能。簡單來說,普通LoRA只能節(jié)省內(nèi)存,而SparseLoRA既能節(jié)省內(nèi)存又能加快訓(xùn)練速度。它通過智能選擇重要的計算部分,跳過不必要的計算,實現(xiàn)了最高1.6倍的速度提升。

Q2:SparseLoRA會不會影響AI模型的性能和準(zhǔn)確性? A:不會顯著影響性能。研究團隊在多個任務(wù)上的測試顯示,SparseLoRA在大幅提升訓(xùn)練速度的同時,幾乎沒有損失模型的準(zhǔn)確性。在某些任務(wù)上,由于稀疏性帶來的正則化效果,性能甚至略有提升。這說明適當(dāng)?shù)南∈栊圆粌H不會傷害模型,還可能有助于提升效果。

Q3:普通用戶能使用SparseLoRA技術(shù)嗎?有什么要求? A:SparseLoRA主要面向AI研究者和開發(fā)者,需要一定的機器學(xué)習(xí)背景才能使用。它可以在常見的GPU硬件上運行,與現(xiàn)有的訓(xùn)練框架兼容。研究團隊已經(jīng)開源了相關(guān)代碼,技術(shù)人員可以通過項目主頁獲取實現(xiàn)細(xì)節(jié)。對于普通用戶來說,主要受益是未來AI服務(wù)的成本可能會因此降低。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-