av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 GraLoRA:解決大型語言模型微調瓶頸的突破性方法 — SqueezeBits和POSTECH聯(lián)合研究

GraLoRA:解決大型語言模型微調瓶頸的突破性方法 — SqueezeBits和POSTECH聯(lián)合研究

2025-05-31 11:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 11:41 ? 科技行者

在人工智能快速發(fā)展的今天,大型語言模型(LLM)已經成為各種智能應用的核心。但隨著模型規(guī)模的不斷擴大,如何高效地對這些龐然大物進行定制化訓練成為了一個棘手的問題。想象一下,你有一個功能強大的通用工具,但你希望它能更好地完成特定任務——比如寫代碼或解決常識性問題。這就像擁有一把瑞士軍刀,但你需要它的螺絲刀功能更加精準。如何在不更換整把軍刀的情況下,只精確調整螺絲刀部分?這正是參數(shù)高效微調(PEFT)方法嘗試解決的問題。

由SqueezeBits公司的Yeonjoon Jung、Daehyun Ahn、Hyungjun Kim、Taesu Kim和POSTECH大學的Eunhyeok Park共同完成的這項研究發(fā)表于2025年5月的預印本,提出了一種名為"GraLoRA"(Granular Low-Rank Adaptation,顆?;椭冗m應)的新方法,致力于解決現(xiàn)有PEFT方法中的核心限制。該論文可通過arXiv:2505.20355v1獲取。

在深入了解GraLoRA之前,我們需要先理解目前最流行的PEFT方法——LoRA(Low-Rank Adaptation,低秩適應)。LoRA的核心思想非常巧妙:不去修改原始模型的全部參數(shù)(這可能高達數(shù)十億甚至數(shù)千億),而是在原始權重旁邊添加一些小型的"適配器"矩陣。這些適配器通過低秩分解大大減少了需要訓練的參數(shù)數(shù)量,就像是在不改變主體結構的情況下,添加了一些微小但精確的調整裝置。

然而,研究團隊發(fā)現(xiàn)LoRA存在一個根本性的局限:當我們嘗試增加適配器的"秩"(可以理解為這些微調裝置的容量或表達能力)時,模型性能并不會一直提升,反而會在某個點后開始下降。具體來說,LoRA在秩為32-64時表現(xiàn)最佳,但當秩繼續(xù)增加時,準確率開始停滯甚至下降,始終無法達到全參數(shù)微調(FFT)的性能水平。

那么,為什么會出現(xiàn)這種現(xiàn)象呢?研究團隊通過理論分析找到了答案:LoRA的結構設計導致了"梯度糾纏"問題。想象一下,如果你的螺絲刀調整裝置與鋸子調整裝置意外地連接在一起,那么當你調整螺絲刀時,鋸子也會不由自主地發(fā)生變化。在LoRA中,當輸入數(shù)據(jù)中出現(xiàn)一些"異常值"(極端數(shù)值)時,這些異常值會對整個適配器的梯度更新產生不成比例的影響,導致訓練信號被扭曲。

為了解決這個問題,研究團隊提出了GraLoRA方法。與其使用一個整體的適配器,GraLoRA將權重矩陣劃分為多個獨立的小塊(想象將一張大餐桌分成多個小餐桌),每個小塊配備自己的低秩適配器。這種設計有兩個關鍵優(yōu)勢:首先,它提高了表達能力,因為整體的有效秩從r增加到了kr(k是劃分的塊數(shù));其次,它局部化了梯度更新,使得輸入異常值只會影響與之直接相關的塊,而不會擾亂整個適配器的訓練。

這就像是將一個大型餐廳的管理分解為多個小型區(qū)域,每個區(qū)域都有自己的經理。當某個區(qū)域出現(xiàn)問題時,只有該區(qū)域的經理需要處理,而不會影響整個餐廳的運營。通過這種方式,GraLoRA能夠更好地處理復雜、多面向的模式,特別是在高秩設置下。

研究團隊在代碼生成和常識推理兩個具有挑戰(zhàn)性的任務上對GraLoRA進行了全面評估。在代碼生成任務上,GraLoRA在所有測試的秩設置中都優(yōu)于LoRA和其他基線方法。特別是在秩為128時,GraLoRA在HumanEval+基準測試的Pass@1指標上取得了相對于LoRA絕對提升8.5%的顯著成果。在常識推理任務上,GraLoRA同樣展現(xiàn)出優(yōu)異性能,在各種模型規(guī)模和任務上一致超越了現(xiàn)有方法。

值得注意的是,GraLoRA實現(xiàn)了這些改進的同時,并沒有增加計算或存儲成本。雖然在訓練過程中會有輕微的內存開銷增加(由于中間表示變大),但這可以通過梯度檢查點等技術有效緩解。在推理階段,GraLoRA可以像傳統(tǒng)LoRA一樣合并到原始權重中,不會帶來任何額外開銷。

研究團隊還針對不同的秩設置探索了最佳的塊數(shù)選擇策略。他們發(fā)現(xiàn),在低秩設置(如16和32)下,k=2效果最好;而在高秩設置(如64和128)下,k=4表現(xiàn)最佳。對于非常低的秩(16或更低),他們還提出了一種混合方法,將部分秩分配給傳統(tǒng)LoRA,部分分配給GraLoRA,以維持足夠的表達能力。

一、GraLoRA方法的原理與設計

想象一下,你正在管理一個大型圖書館。傳統(tǒng)的全參數(shù)微調就像是重新排列整個圖書館的每一本書,非常耗時且成本高昂。而LoRA則相當于只在主要書架旁邊添加一些小型展示架,放置一些特別需要強調的書籍。這種方法雖然高效,但存在一個問題:當某個展示架上放了一本特別突出的書(比如一本特別厚重或色彩鮮艷的書),它會吸引所有人的注意力,導致其他書籍被忽視。

GraLoRA采用了一種不同的方法。它不是設置一個大型展示架,而是將圖書館劃分為多個獨立的區(qū)域,每個區(qū)域都有自己的小型展示架。這樣,即使某個區(qū)域有一本特別引人注目的書,它也只會影響該區(qū)域的參觀者,而不會干擾其他區(qū)域的正常瀏覽體驗。

從技術角度來看,GraLoRA將原始權重矩陣W?∈R???(M和N分別代表輸出和輸入通道維度)劃分為k×k個獨立的塊,每個塊都配備自己的低秩適配器。具體來說,對于輸入X,GraLoRA的更新可以表示為:

RGraLoRA = [[B?,?A?,??, ..., B?,?A?,??], [..., ..., ...], [B?,?A?,??, ..., B?,?A?,??]]

其中,A_i,j ∈ R^(N/k × r/k),B_i,j ∈ R^(M/k × r/k)是每個塊的適配器參數(shù)。

這種設計帶來了兩個關鍵優(yōu)勢。首先,通過表達能力分析,研究團隊證明了GraLoRA的有效秩為kr,是傳統(tǒng)LoRA的k倍。這意味著GraLoRA能夠捕捉更復雜、更細粒度的模式。其次,在面對輸入異常值時,GraLoRA能夠有效地局部化梯度影響。當輸入中出現(xiàn)異常值時,只有與該異常值直接相關的k個適配器對會受到放大的梯度影響,而其余的k?-k個適配器對則保持在基線水平附近,這與全參數(shù)微調的行為更為相似。

研究人員通過分析LLaMA3.1-8B模型的第一層下投影矩陣發(fā)現(xiàn),輸入激活值存在嚴重的通道不平衡現(xiàn)象。某些通道的值異常高,這些"異常值通道"在傳統(tǒng)LoRA中會不成比例地影響整個適配器的梯度更新,導致訓練信號扭曲。通過可視化梯度分布,研究團隊清晰地展示了GraLoRA如何有效減少梯度偏差,限制異常值通道的影響。

二、GraLoRA的計算與內存開銷分析

你可能會擔心,這種細粒度的適配器設計是否會帶來額外的計算或存儲開銷?研究團隊進行了詳細的分析,結果令人驚喜。

在計算復雜度方面,傳統(tǒng)LoRA將計算分為兩個順序步驟:首先計算A^TX ∈ R^(r×T),然后重構B(A^TX) ∈ R^(M×T)。這兩個步驟分別需要2NrT和2rMT的浮點運算(FLOPs),總體復雜度為O(r(M+N)T)。

同樣,GraLoRA也將計算分為兩個步驟,涉及k?個適配器塊。在第一步中,每個塊計算A_i,j^TX_j ∈ R^(r/k×T),總計算成本為2NrT。在第二步中,每個中間輸出由相應的B_i,j處理,產生B_i,j(A_i,j^TX_j) ∈ R^(M/k×T),這一步增加了2rMT的FLOPs。因此,GraLoRA的整體計算復雜度仍然是O(r(M+N)T),與傳統(tǒng)LoRA相當。

在存儲開銷方面,GraLoRA與LoRA一樣,可以在推理階段合并到原始權重矩陣中。在訓練過程中,雖然中間潛在表示A_GraLoRA^TX變?yōu)閭鹘y(tǒng)LoRA中A^TX的k倍,但考慮到秩r通常遠小于輸入和輸出維度,這種額外的內存消耗在實際應用中可以忽略不計。研究團隊的實驗表明,即使對于較大的k值,GraLoRA的額外內存需求也很小,而且可以通過梯度檢查點等技術進一步減少。

三、混合GraLoRA:平衡表達能力與精度

研究團隊注意到,雖然GraLoRA在高秩設置下表現(xiàn)優(yōu)異,但在非常低的秩(如16或更低)時,可能會出現(xiàn)性能下降或僅帶來微小的收益。這是因為將每個塊的秩限制為r/k可能會削弱單個塊的表達能力。

為了解決這個問題,研究團隊提出了一種混合方法,結合了LoRA和GraLoRA的優(yōu)勢。這種方法保留了GraLoRA的細粒度輸入處理和增加的總秩,同時通過LoRA保持了較大塊單元的表達能力。由于LoRA在行和列之間共享相同的參數(shù),它可以自然地以級聯(lián)形式與GraLoRA集成,這被稱為混合GraLoRA。

通過實驗,研究團隊發(fā)現(xiàn),在低秩場景(γ <= 16)中,將總秩的最多1/2分配給LoRA組件可以緩解GraLoRA的局限性;而在高秩情況下,將全部秩分配給GraLoRA表現(xiàn)更好。這種靈活的方法使得GraLoRA能夠適應不同的任務和模型大小。

四、實驗結果:代碼生成與常識推理

為了驗證GraLoRA的有效性,研究團隊在兩個具有挑戰(zhàn)性的領域進行了廣泛的實驗:代碼生成和常識推理。他們使用了不同架構和規(guī)模的開源LLM,包括LLaMA3.1-8B、LLaMA3.1-70B、Qwen-2.5-1.5B和Qwen-2.5-7B。

在代碼生成任務中,研究團隊在Magicoder-Evol-Instruct-110k數(shù)據(jù)集上對各個模型進行了微調,并在HumanEval+測試集上進行評估。結果顯示,GraLoRA在所有測試的秩設置中都優(yōu)于LoRA、MoRA和RaSA。在秩為64時,GraLoRA在Pass@1上取得了相對于LoRA的+2.4%的絕對提升,在Pass@5和Pass@10上分別提高了+4.8%和+4.1%。在秩為128時,提升更為顯著,Pass@1增加了+8.5%,Pass@5增加了+6.9%,Pass@10增加了+5.1%。

值得注意的是,雖然其他方法在增加秩時往往會遇到性能瓶頸(通常在較低的秩處達到性能平臺),但GraLoRA能夠保持一致的上升軌跡,有效克服了LoRA的局限性。即使在低秩設置(如秩為16)下,混合變體的GraLoRA也表現(xiàn)出色,證明了這種方法在表達能力受限的情況下的有效性。

在常識推理任務中,研究團隊評估了各種模型在8個基準測試上的表現(xiàn):BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-Challenge、ARC-Easy和OpenBookQA。實驗結果表明,GraLoRA在不同規(guī)模的模型上都取得了一致的優(yōu)勢,在Qwen2.5-1.5B和LLaMA3.1-70B上平均準確率提高了1.1%,在Qwen2.5-7B上提高了0.9%。

更令人印象深刻的是,GraLoRA在24個任務中的20個上取得了最佳結果,一致地超越了其他方法。這些結果支持了研究團隊的分析,表明GraLoRA的局部化更新增強了與全參數(shù)微調的對齊,促進了在多方面推理任務中的穩(wěn)健泛化。

五、消融研究:參數(shù)選擇與模型行為

為了更深入地理解GraLoRA的行為,研究團隊進行了詳細的消融研究。他們評估了不同k值對代碼生成準確率的影響,發(fā)現(xiàn)在秩為32時,k=2效果最好;而在秩為128時,k=4表現(xiàn)最佳。這些結果與理論預測一致,即在較低的秩時,較小的k值更可取,因為減少的子塊秩在總體秩有限時尤其不利。

研究團隊還評估了混合GraLoRA中不同LoRA-GraLoRA秩分配比例的性能。在秩為16時,部分將秩分配給LoRA導致最佳準確率。然而,對于更大的秩,將秩分配給LoRA會導致性能下降。這表明混合GraLoRA在低秩場景中更具優(yōu)勢,在這種情況下,GraLoRA的子塊秩可能不足。相比之下,在高秩設置下,GraLoRA的子塊足夠表達豐富,引入LoRA組件可能會導致梯度糾纏,從而阻礙有效學習。

總的來說,GraLoRA代表了參數(shù)高效微調方法設計的一個原則性和實用性的進步。通過解決傳統(tǒng)LoRA中的表達性瓶頸,GraLoRA提供了一種更靈活、更強大的適應機制,特別是在處理需要細粒度、本地化或多面向模式的任務時。它的設計不僅提高了性能,還保持了LoRA的計算效率和部署簡便性,使其成為實際應用中的理想選擇。

六、GraLoRA的意義與未來方向

GraLoRA的提出不僅解決了LoRA的根本局限性,還為參數(shù)高效微調的研究打開了新的方向。通過引入細粒度、局部化的適應機制,GraLoRA更接近于全參數(shù)微調的行為,同時保持了LoRA的參數(shù)效率。

研究團隊指出,雖然GraLoRA提高了梯度局部性和表達能力,但其當前設計假設均勻分區(qū)。未來的擴展可能探索自適應或學習的分區(qū)方案,稀疏感知塊激活,或任務驅動的動態(tài)秩分配。此外,將GraLoRA應用于視覺Transformer、多模態(tài)架構或持續(xù)學習設置可能進一步突顯其在穩(wěn)健和高效模型適應中的潛力。

總體而言,GraLoRA代表了PEFT方法設計中的一個原則性和實用性步驟,填補了全局低秩重參數(shù)化與局部、細粒度適應之間的差距。它不僅在當前的任務上表現(xiàn)出色,還為未來更復雜、更高效的模型適應方法鋪平了道路。

通過這項突破性的研究,我們可以預見,大型語言模型的定制化將變得更加高效和有效,使更多人能夠利用這些強大的工具來解決特定領域的問題,無論是代碼生成、常識推理還是其他尚未探索的應用領域。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-