av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 意大利模德納大學(xué):讓AI模型合并快280倍的"核心空間"新方法

意大利模德納大學(xué):讓AI模型合并快280倍的"核心空間"新方法

2025-10-13 11:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-13 11:09 ? 科技行者

當(dāng)今人工智能領(lǐng)域正在經(jīng)歷一場技術(shù)革命。大型神經(jīng)網(wǎng)絡(luò)變得越來越強(qiáng)大,但隨之而來的是高昂的訓(xùn)練成本和計(jì)算負(fù)擔(dān)。為了解決這個(gè)問題,研究人員開發(fā)了一種叫做"低秩適應(yīng)"(LoRA)的技術(shù),讓我們能夠以更低的成本對大型模型進(jìn)行微調(diào)。然而,當(dāng)需要將多個(gè)專門針對不同任務(wù)訓(xùn)練的模型合并在一起時(shí),現(xiàn)有的方法要么效果不佳,要么計(jì)算成本高得驚人。

意大利模德納大學(xué)的Aniello Panariello教授領(lǐng)導(dǎo)的國際研究團(tuán)隊(duì),聯(lián)合華沙理工大學(xué)、佛羅倫薩大學(xué)、巴塞羅那自治大學(xué)等多所知名院校的研究人員,于2025年在神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS 2025)上發(fā)表了一項(xiàng)突破性研究。這項(xiàng)名為"Accurate and Efficient Low-Rank Model Merging in Core Space"的研究提出了一種全新的"核心空間"模型合并框架,能夠讓模型合并的速度提升280倍,同時(shí)還能顯著改善合并后模型的性能。

這項(xiàng)研究的重要性不僅在于技術(shù)層面的突破,更在于它為人工智能的實(shí)際應(yīng)用開辟了新的可能性。在當(dāng)前的AI發(fā)展階段,我們經(jīng)常需要一個(gè)能夠同時(shí)處理多種不同任務(wù)的智能系統(tǒng)。比如說,你可能希望一個(gè)AI助手既能幫你寫郵件,又能分析圖片,還能回答專業(yè)問題。傳統(tǒng)的做法要么是訓(xùn)練一個(gè)超大的通用模型(成本極高),要么是分別使用多個(gè)專門模型(效率低下),而核心空間合并技術(shù)為這個(gè)難題提供了優(yōu)雅的解決方案。

一、傳統(tǒng)模型合并面臨的困境

要理解這項(xiàng)研究的價(jià)值,我們首先需要了解現(xiàn)有技術(shù)面臨的挑戰(zhàn)。在機(jī)器學(xué)習(xí)領(lǐng)域,研究人員經(jīng)常需要將多個(gè)針對不同任務(wù)訓(xùn)練的專門模型合并成一個(gè)能夠處理多種任務(wù)的綜合模型。這就像是要將幾個(gè)各有專長的專家的知識融合在一起,創(chuàng)造出一個(gè)全能型的超級專家。

傳統(tǒng)的模型合并方法主要分為兩類。第一類是直接在完整的權(quán)重矩陣空間中進(jìn)行合并,這種方法雖然簡單直接,但往往效果不佳,就像是簡單地將幾本不同領(lǐng)域的教科書內(nèi)容混合在一起,結(jié)果可能是一團(tuán)亂麻。第二類方法試圖在某種對齊的子空間中進(jìn)行合并,比如之前的KnOTS方法,雖然能夠取得更好的效果,但計(jì)算成本極其高昂。

以當(dāng)前最先進(jìn)的KnOTS方法為例,當(dāng)處理大型語言模型時(shí),它需要對巨大的權(quán)重矩陣進(jìn)行奇異值分解(SVD),這個(gè)過程的計(jì)算復(fù)雜度隨著模型尺寸急劇增加。對于一個(gè)擁有80億參數(shù)的Llama 3模型,KnOTS方法可能需要數(shù)小時(shí)才能完成合并過程,這在實(shí)際應(yīng)用中幾乎是不可接受的。

更令人困擾的是,現(xiàn)有的合并方法在處理基于LoRA技術(shù)微調(diào)的模型時(shí)表現(xiàn)尤其糟糕。LoRA技術(shù)通過低秩矩陣分解的方式大大降低了模型微調(diào)的成本,但當(dāng)我們試圖合并多個(gè)LoRA適配的模型時(shí),傳統(tǒng)方法往往需要先將這些低秩表示重新構(gòu)建成完整的權(quán)重矩陣,然后再進(jìn)行合并,這完全抵消了LoRA帶來的效率優(yōu)勢。

二、核心空間:一個(gè)革命性的解決方案

面對這些挑戰(zhàn),研究團(tuán)隊(duì)提出了"核心空間"(Core Space)這一全新概念。如果把傳統(tǒng)的模型合并比作在一個(gè)巨大的倉庫里整理貨物,那么核心空間就是找到了一個(gè)精心設(shè)計(jì)的小房間,在這個(gè)房間里,所有的整理工作都變得簡單高效,而且最終的結(jié)果比在大倉庫里工作更好。

核心空間的基本思想是為所有需要合并的模型找到一個(gè)共同的低維表示空間。在這個(gè)空間中,每個(gè)模型的關(guān)鍵信息都被壓縮成一個(gè)緊湊的"核心矩陣",這些核心矩陣不僅保留了原始模型的所有重要信息,而且彼此之間具有很好的可比性和兼容性。

具體來說,研究團(tuán)隊(duì)首先對所有待合并模型的LoRA組件進(jìn)行奇異值分解,得到各自的基礎(chǔ)向量。然后,通過巧妙的數(shù)學(xué)變換,他們?yōu)樗心P蜆?gòu)建了一個(gè)統(tǒng)一的參考基礎(chǔ)(reference bases)。這個(gè)參考基礎(chǔ)就像是為所有模型建立了一個(gè)通用的"坐標(biāo)系統(tǒng)",讓原本各自為政的模型能夠在同一個(gè)框架內(nèi)進(jìn)行比較和操作。

在這個(gè)統(tǒng)一的坐標(biāo)系統(tǒng)中,每個(gè)模型都被表示為一個(gè)相對較小的核心矩陣。這些核心矩陣的維度只取決于任務(wù)數(shù)量和LoRA的秩,而與原始模型的龐大尺寸無關(guān)。這意味著,無論我們處理的是擁有幾千萬參數(shù)的中型模型,還是擁有數(shù)百億參數(shù)的超大型模型,核心矩陣的大小都保持在一個(gè)可管理的范圍內(nèi)。

三、數(shù)學(xué)原理:無損信息保留的秘密

核心空間方法的一個(gè)重要特性是它能夠做到完全無損的信息保留。這聽起來似乎不可思議——既然我們將龐大的模型壓縮到了一個(gè)小得多的空間中,怎么可能不丟失任何信息呢?

這個(gè)"魔法"的關(guān)鍵在于研究團(tuán)隊(duì)發(fā)現(xiàn)的一個(gè)重要數(shù)學(xué)性質(zhì)。他們證明了,當(dāng)使用正確構(gòu)建的參考基礎(chǔ)時(shí),從核心空間重建回原始模型的過程是完全可逆的,沒有任何信息損失。這就像是找到了一種完美的編碼方式,能夠?qū)⒁槐竞窈竦陌倏迫珪鴫嚎s成一張薄薄的卡片,但當(dāng)需要時(shí)又能完全無損地還原出原本的內(nèi)容。

研究團(tuán)隊(duì)通過嚴(yán)格的數(shù)學(xué)推導(dǎo)證明了這一點(diǎn)。他們展示了如何通過解決一系列最小二乘問題來找到最優(yōu)的對齊矩陣,并證明了當(dāng)使用他們提出的參考基礎(chǔ)構(gòu)建方法時(shí),對齊誤差恰好為零。這意味著每個(gè)模型在投影到核心空間后,都能夠完全準(zhǔn)確地重建回原始狀態(tài)。

更有趣的是,研究團(tuán)隊(duì)還證明了對于線性合并方法(如任務(wù)算術(shù)),在核心空間中進(jìn)行合并與在原始空間中進(jìn)行合并會(huì)產(chǎn)生完全相同的結(jié)果。這為使用核心空間方法提供了理論保證——我們不僅提高了效率,還保持了結(jié)果的準(zhǔn)確性。

四、效率革命:280倍的速度提升

核心空間方法在計(jì)算效率方面的改進(jìn)是極其顯著的。研究團(tuán)隊(duì)通過詳細(xì)的復(fù)雜度分析展示了這種改進(jìn)的程度。傳統(tǒng)的KnOTS方法的時(shí)間復(fù)雜度隨著模型尺寸的三次方增長,這意味著當(dāng)模型大小增加一倍時(shí),計(jì)算時(shí)間會(huì)增加八倍。而核心空間方法的時(shí)間復(fù)雜度主要與任務(wù)數(shù)量和LoRA秩相關(guān),與模型的原始尺寸幾乎無關(guān)。

在實(shí)際測試中,當(dāng)處理8個(gè)任務(wù)的Llama 3 8B模型時(shí),核心空間方法只需要8秒鐘就能完成合并,而KnOTS方法需要4800秒,速度提升達(dá)到了600倍。即使對于相對較小的ViT-B/32視覺模型,核心空間方法也實(shí)現(xiàn)了280倍的速度提升。

這種效率的提升不僅僅是數(shù)字上的改善,它從根本上改變了模型合并的可行性。在核心空間方法出現(xiàn)之前,對大型模型進(jìn)行合并往往是一個(gè)需要特殊計(jì)算資源和長時(shí)間等待的過程。而現(xiàn)在,研究人員和開發(fā)者可以在普通的計(jì)算設(shè)備上快速實(shí)驗(yàn)不同的合并策略,大大加速了研究和開發(fā)的節(jié)奏。

五、性能突破:不僅更快,還要更好

令人驚喜的是,核心空間方法不僅在效率上有巨大提升,在合并后模型的性能上也有顯著改善。這似乎違反了我們的直覺——通常情況下,更快的方法往往意味著某種程度的性能犧牲。但核心空間方法恰恰相反,它同時(shí)實(shí)現(xiàn)了速度和質(zhì)量的雙重提升。

在自然語言推理任務(wù)上,使用核心空間合并的模型在多個(gè)基準(zhǔn)測試中都取得了最佳性能。例如,使用TSV合并方法在核心空間中操作時(shí),在Llama 3 8B模型上達(dá)到了94.16%的平均標(biāo)準(zhǔn)化準(zhǔn)確率,這是當(dāng)時(shí)該領(lǐng)域的最佳成績。

在計(jì)算機(jī)視覺任務(wù)中,效果同樣令人印象深刻。在ViT-B/32模型上,最佳的合并組合(TSV + Iso-C在核心空間中合并)達(dá)到了76.3%的平均標(biāo)準(zhǔn)化準(zhǔn)確率,顯著超過了之前報(bào)告的68.0%的最佳成績。

更重要的是,這種性能提升在不同的合并策略中都得到了驗(yàn)證。研究團(tuán)隊(duì)測試了多種現(xiàn)有的合并方法,包括TIES、DARE-TIES、TSV、CART和Iso-C等,發(fā)現(xiàn)在核心空間中操作時(shí),幾乎所有方法的性能都得到了改善。這表明核心空間的優(yōu)勢不是偶然的,而是一種普遍適用的改進(jìn)。

六、深層機(jī)制:為什么核心空間更有效

為了理解核心空間方法為什么能夠同時(shí)提升效率和性能,研究團(tuán)隊(duì)進(jìn)行了深入的分析。他們發(fā)現(xiàn)了幾個(gè)關(guān)鍵的原因。

首先,核心空間提供了更好的子空間對齊。傳統(tǒng)的合并方法往往面臨著不同模型之間子空間不對齊的問題,就像試圖將用不同語言寫的文檔直接拼接在一起。而核心空間通過構(gòu)建統(tǒng)一的參考基礎(chǔ),為所有模型提供了一個(gè)共同的"語言",使得合并過程更加和諧。

研究團(tuán)隊(duì)通過計(jì)算子空間對齊比率(SAR)驗(yàn)證了這一點(diǎn)。他們發(fā)現(xiàn),在核心空間中,不同任務(wù)模型之間的對齊程度顯著提高,這直接導(dǎo)致了合并后性能的改善。高對齊度意味著不同模型之間的沖突更少,合并后的結(jié)果更加協(xié)調(diào)。

其次,核心空間具有信息密度更高的特性。通過對合并后模型進(jìn)行奇異值分解并逐步截?cái)嘧钚〉钠娈愔?,研究團(tuán)隊(duì)發(fā)現(xiàn),在原始空間中可以截?cái)喽噙_(dá)80%的分量而不影響性能,而在核心空間中,任何分量的截?cái)喽紩?huì)導(dǎo)致性能下降。這表明核心空間是一個(gè)"信息密集"的表示,其中每個(gè)維度都包含重要信息,沒有冗余。

最后,核心空間方法通過其特殊的構(gòu)造方式,自然地減少了不同任務(wù)之間的干擾。在傳統(tǒng)的合并方法中,來自不同任務(wù)的信息可能會(huì)相互沖突,導(dǎo)致合并后的模型在某些任務(wù)上表現(xiàn)下降。而核心空間的統(tǒng)一表示減少了這種干擾,使得合并后的模型能夠更好地保持各個(gè)原始模型的優(yōu)勢。

七、廣泛適用性:超越LoRA的擴(kuò)展

雖然核心空間方法最初是為LoRA適配的模型設(shè)計(jì)的,但研究團(tuán)隊(duì)證明了它具有更廣泛的適用性。他們成功地將這種方法擴(kuò)展到了其他參數(shù)高效微調(diào)技術(shù),如VeRA(Vector-based Random Matrix Adaptation)。

VeRA與LoRA在結(jié)構(gòu)上有所不同,它使用固定的隨機(jī)矩陣和可學(xué)習(xí)的縮放向量。但通過將縮放向量吸收到矩陣中,研究團(tuán)隊(duì)展示了如何將VeRA適配到核心空間框架中。實(shí)驗(yàn)結(jié)果表明,即使在這種不同的設(shè)置下,核心空間方法仍然能夠取得性能改善。

此外,研究團(tuán)隊(duì)還驗(yàn)證了核心空間方法處理異構(gòu)秩(不同任務(wù)使用不同的LoRA秩)的能力。在實(shí)際應(yīng)用中,不同的任務(wù)可能需要不同的模型復(fù)雜度,因此使用不同的LoRA秩是很常見的。核心空間方法能夠無縫處理這種情況,無需任何特殊的修改。

這種廣泛的適用性使得核心空間方法不僅僅是一個(gè)針對特定技術(shù)的優(yōu)化,而是一個(gè)具有普遍價(jià)值的框架,可以隨著參數(shù)高效微調(diào)技術(shù)的發(fā)展而繼續(xù)發(fā)揮作用。

八、實(shí)際應(yīng)用:改變AI開發(fā)的游戲規(guī)則

核心空間方法的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范疇,它有望從根本上改變?nèi)斯ぶ悄芟到y(tǒng)的開發(fā)和部署方式。在當(dāng)前的AI生態(tài)系統(tǒng)中,研究人員和開發(fā)者面臨著一個(gè)兩難選擇:要么訓(xùn)練昂貴的大型通用模型,要么使用多個(gè)專門的模型但面臨集成困難。

核心空間方法為這個(gè)問題提供了第三條路徑。開發(fā)者可以針對不同的任務(wù)分別訓(xùn)練相對較小的專門模型,然后使用核心空間方法快速、高效地將它們合并成一個(gè)多任務(wù)模型。這種方法不僅降低了開發(fā)成本,還提供了更大的靈活性。

例如,一個(gè)公司可能需要一個(gè)AI系統(tǒng)來處理客戶服務(wù)中的多種任務(wù):情感分析、問題分類、自動(dòng)回復(fù)生成等。傳統(tǒng)的做法要么是訓(xùn)練一個(gè)巨大的多任務(wù)模型(成本高昂),要么是部署多個(gè)獨(dú)立的模型(管理復(fù)雜)。而使用核心空間方法,公司可以分別訓(xùn)練針對每個(gè)任務(wù)的專門模型,然后將它們快速合并成一個(gè)高效的綜合系統(tǒng)。

對于研究社區(qū)而言,核心空間方法也帶來了新的可能性。研究人員可以更容易地分享和組合彼此的模型,形成一個(gè)更加協(xié)作的研究生態(tài)。Hugging Face等模型共享平臺上的大量專門模型現(xiàn)在可以更容易地被組合使用,加速整個(gè)領(lǐng)域的發(fā)展。

九、技術(shù)細(xì)節(jié):實(shí)現(xiàn)的藝術(shù)

雖然核心空間的概念相對直觀,但其實(shí)際實(shí)現(xiàn)需要精心的工程設(shè)計(jì)。研究團(tuán)隊(duì)不僅提供了理論框架,還開發(fā)了高效的實(shí)現(xiàn)算法。

在實(shí)際實(shí)現(xiàn)中,研究團(tuán)隊(duì)采用了一個(gè)重要的優(yōu)化:雖然理論推導(dǎo)中涉及對每個(gè)LoRA組件進(jìn)行單獨(dú)的奇異值分解,但在實(shí)際計(jì)算中,核心矩陣可以直接通過矩陣乘法計(jì)算得出。這種優(yōu)化進(jìn)一步提高了方法的計(jì)算效率。

研究團(tuán)隊(duì)還提供了完整的PyTorch實(shí)現(xiàn)代碼,使得其他研究人員和開發(fā)者可以輕松地復(fù)現(xiàn)和使用這種方法。代碼的結(jié)構(gòu)清晰,文檔完整,為該技術(shù)的推廣和應(yīng)用奠定了良好基礎(chǔ)。

值得注意的是,核心空間方法的內(nèi)存需求也得到了很好的控制。由于核心矩陣的尺寸相對較小,整個(gè)合并過程不需要大量的額外內(nèi)存,這使得該方法即使在資源受限的環(huán)境中也能夠有效運(yùn)行。

十、實(shí)驗(yàn)驗(yàn)證:嚴(yán)格的科學(xué)檢驗(yàn)

研究團(tuán)隊(duì)進(jìn)行了廣泛而嚴(yán)格的實(shí)驗(yàn)驗(yàn)證,涵蓋了多個(gè)領(lǐng)域和多種模型架構(gòu)。在自然語言處理方面,他們在6個(gè)自然語言推理任務(wù)上測試了Llama 3 8B模型的合并效果。在計(jì)算機(jī)視覺方面,他們使用了8個(gè)不同的視覺分類任務(wù)來驗(yàn)證ViT-B/32和ViT-L/14模型的合并性能。

實(shí)驗(yàn)設(shè)計(jì)的一個(gè)重要特點(diǎn)是使用了標(biāo)準(zhǔn)化準(zhǔn)確率作為評估指標(biāo)。這種指標(biāo)將合并后模型的性能與原始單任務(wù)模型的性能進(jìn)行比較,提供了一個(gè)公平的性能評估基準(zhǔn)。結(jié)果顯示,核心空間方法在絕大多數(shù)情況下都能取得性能改善,這證明了該方法的有效性。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了設(shè)計(jì)選擇的合理性。例如,他們比較了不同參考基礎(chǔ)構(gòu)建方法的效果,證明了他們提出的方法確實(shí)是最優(yōu)的。他們還測試了不同合并策略在核心空間中的表現(xiàn),展示了該框架的通用性。

特別值得一提的是,研究團(tuán)隊(duì)還進(jìn)行了聯(lián)合任務(wù)評估,這是一個(gè)更加困難的測試場景。在這種設(shè)置中,合并后的模型需要在一個(gè)包含所有任務(wù)類別的混合數(shù)據(jù)集上進(jìn)行評估,這對模型的泛化能力提出了更高要求。即使在這種嚴(yán)格的測試下,核心空間方法仍然取得了優(yōu)異的結(jié)果。

說到底,這項(xiàng)研究代表了人工智能模型合并技術(shù)的一個(gè)重要突破。核心空間方法不僅解決了現(xiàn)有技術(shù)面臨的效率和性能問題,還為整個(gè)AI生態(tài)系統(tǒng)的發(fā)展開辟了新的可能性。它讓模型合并從一個(gè)昂貴而復(fù)雜的過程變成了一個(gè)快速而高效的操作,為構(gòu)建更加靈活和強(qiáng)大的AI系統(tǒng)提供了新的工具。

隨著AI模型規(guī)模的不斷增長和應(yīng)用場景的日益復(fù)雜,像核心空間這樣的創(chuàng)新技術(shù)將變得越來越重要。它們不僅推動(dòng)了技術(shù)本身的進(jìn)步,更重要的是,它們讓AI技術(shù)變得更加可及和實(shí)用,為普通開發(fā)者和研究人員提供了與大型科技公司相競爭的工具。這種技術(shù)的民主化可能會(huì)催生出我們今天還無法想象的創(chuàng)新應(yīng)用,真正實(shí)現(xiàn)AI技術(shù)造福全人類的愿景。

對于那些希望深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,完整的研究論文已發(fā)表在2025年神經(jīng)信息處理系統(tǒng)大會(huì)上,論文編號為arXiv:2509.17786v2,研究團(tuán)隊(duì)還在GitHub上開源了完整的實(shí)現(xiàn)代碼,網(wǎng)址為https://github.com/apanariello4/core-space-merging。

Q&A

Q1:核心空間模型合并方法具體能帶來多大的速度提升?

A:核心空間方法在不同規(guī)模的模型上都實(shí)現(xiàn)了顯著的速度提升。在處理Llama 3 8B大型語言模型時(shí),速度提升達(dá)到了600倍,而在ViT-B/32視覺模型上實(shí)現(xiàn)了280倍的加速。具體來說,原本需要數(shù)小時(shí)才能完成的模型合并任務(wù),現(xiàn)在只需要幾秒鐘就能完成,這從根本上改變了模型合并的可行性和實(shí)用性。

Q2:為什么核心空間方法能夠同時(shí)提升速度和性能?

A:這主要?dú)w功于核心空間的三個(gè)關(guān)鍵特性。首先,它通過構(gòu)建統(tǒng)一的參考基礎(chǔ)為所有模型提供了更好的子空間對齊,減少了模型間的沖突。其次,核心空間是一個(gè)信息密集的表示,每個(gè)維度都包含重要信息而沒有冗余。最后,這種方法自然地減少了不同任務(wù)之間的干擾,使合并后的模型能夠更好地保持各個(gè)原始模型的優(yōu)勢。

Q3:核心空間方法除了LoRA模型還能應(yīng)用到其他類型的模型嗎?

A:是的,核心空間方法具有很強(qiáng)的通用性。研究團(tuán)隊(duì)已經(jīng)成功將其擴(kuò)展到VeRA等其他參數(shù)高效微調(diào)技術(shù),并且可以處理不同任務(wù)使用不同LoRA秩的異構(gòu)情況。由于該方法的核心原理基于低秩矩陣操作,理論上可以應(yīng)用到任何基于低秩適應(yīng)的微調(diào)技術(shù)上,具有廣泛的適用前景。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-