這項(xiàng)由法國(guó)Orange Research公司的Brahim Touayouch、Loic Fosse、Géraldine Damnati以及Gwénolé Lecorvé組成的研究團(tuán)隊(duì)完成的重要工作于2025年9月發(fā)表在arXiv平臺(tái)上,論文編號(hào)為arXiv:2509.02108v2。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)該論文編號(hào)在arXiv官網(wǎng)上找到完整的研究報(bào)告。
在人工智能飛速發(fā)展的今天,我們經(jīng)常面臨這樣一個(gè)困擾:每當(dāng)需要AI完成一項(xiàng)新任務(wù)時(shí),就必須從零開(kāi)始訓(xùn)練一個(gè)全新的模型,這就像每次做不同菜肴時(shí)都要重新購(gòu)買(mǎi)整套廚具一樣浪費(fèi)。更令人頭疼的是,即使我們已經(jīng)有了能夠出色完成單項(xiàng)任務(wù)的AI模型,想要讓它們同時(shí)處理多個(gè)任務(wù)卻往往會(huì)出現(xiàn)"顧此失彼"的現(xiàn)象——就好比一個(gè)專(zhuān)業(yè)的意大利廚師突然被要求同時(shí)做中餐和法餐,結(jié)果可能三種菜都做不好了。
Orange Research的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)巧妙的解決方案。他們開(kāi)發(fā)了一種名為DivMerge的技術(shù),能夠?qū)⒍鄠€(gè)專(zhuān)門(mén)訓(xùn)練的AI模型像拼裝樂(lè)高積木一樣組合起來(lái),創(chuàng)造出既能保持各自專(zhuān)長(zhǎng)又能協(xié)調(diào)工作的"超級(jí)模型"。這種方法的神奇之處在于,它不需要額外的標(biāo)注數(shù)據(jù),就能自動(dòng)找到最佳的組合方式,讓合并后的模型在所有原始任務(wù)上都保持出色的表現(xiàn)。
更重要的是,這項(xiàng)技術(shù)解決了一個(gè)長(zhǎng)期困擾研究人員的"任務(wù)干擾"問(wèn)題。過(guò)去,當(dāng)我們?cè)噲D將多個(gè)AI模型合并時(shí),經(jīng)常會(huì)發(fā)現(xiàn)它們之間會(huì)相互干擾,就像在同一個(gè)廚房里同時(shí)工作的廚師會(huì)互相碰撞一樣。而DivMerge技術(shù)通過(guò)基于信息論的智能分配機(jī)制,讓每個(gè)模型都能在合并后的系統(tǒng)中發(fā)揮最佳作用,避免了這種相互干擾的問(wèn)題。
一、模型合并的智慧藝術(shù)
要理解DivMerge技術(shù)的創(chuàng)新之處,我們首先需要明白什么是模型合并。設(shè)想你有三個(gè)朋友,一個(gè)擅長(zhǎng)數(shù)學(xué),一個(gè)精通歷史,還有一個(gè)是語(yǔ)言天才。現(xiàn)在你希望創(chuàng)造一個(gè)"超級(jí)朋友",能夠同時(shí)具備這三個(gè)朋友的所有技能。在AI世界里,這就是模型合并要解決的問(wèn)題。
傳統(tǒng)的多任務(wù)學(xué)習(xí)方法就像把三個(gè)朋友的知識(shí)全部混合在一起,重新培養(yǎng)一個(gè)全能型人才。這種方法確實(shí)能夠工作,但成本極其昂貴,就像要培養(yǎng)一個(gè)既懂?dāng)?shù)學(xué)又精通歷史還會(huì)多種語(yǔ)言的人一樣,需要大量的時(shí)間和資源。更關(guān)鍵的是,在這個(gè)過(guò)程中,原本三個(gè)朋友各自的專(zhuān)業(yè)優(yōu)勢(shì)可能會(huì)被稀釋?zhuān)罱K得到的"全才"在每個(gè)領(lǐng)域可能都不如原來(lái)的專(zhuān)家。
模型合并技術(shù)則采用了完全不同的思路。它保留了每個(gè)專(zhuān)家模型的原有能力,通過(guò)巧妙的組合方式讓它們協(xié)同工作。這就像是讓三個(gè)朋友組成一個(gè)團(tuán)隊(duì),在面對(duì)不同問(wèn)題時(shí),讓最合適的專(zhuān)家來(lái)主導(dǎo)解決方案,同時(shí)其他專(zhuān)家提供必要的輔助。
在技術(shù)層面,每個(gè)AI模型都可以看作是由數(shù)百萬(wàn)個(gè)參數(shù)構(gòu)成的復(fù)雜系統(tǒng),這些參數(shù)就像是模型的"DNA",決定了它的行為特征。當(dāng)一個(gè)通用模型經(jīng)過(guò)特定任務(wù)的訓(xùn)練后,這些參數(shù)會(huì)發(fā)生細(xì)微但重要的變化,就像一塊原本平整的橡皮泥被塑造成了特定的形狀。研究人員將這種變化稱為"任務(wù)向量",它記錄了從通用能力到專(zhuān)門(mén)技能的轉(zhuǎn)變軌跡。
DivMerge技術(shù)的核心創(chuàng)新在于如何智能地組合這些任務(wù)向量。傳統(tǒng)方法往往采用簡(jiǎn)單的平均或者預(yù)設(shè)權(quán)重的方式進(jìn)行組合,就像按照固定比例調(diào)配雞尾酒一樣。但DivMerge采用了基于信息論的動(dòng)態(tài)調(diào)配策略,它能夠根據(jù)不同任務(wù)之間的相似性和差異性,自動(dòng)確定最優(yōu)的組合比例。
二、信息論指導(dǎo)下的智能組合
DivMerge技術(shù)的理論基礎(chǔ)建立在信息論這一數(shù)學(xué)分支之上。信息論聽(tīng)起來(lái)很高深,但其核心思想其實(shí)很樸素:如何用最少的信息量準(zhǔn)確描述最多的內(nèi)容。在日常生活中,我們經(jīng)常不自覺(jué)地運(yùn)用信息論的思想。比如,當(dāng)我們向朋友描述一部電影時(shí),我們會(huì)挑選最關(guān)鍵的情節(jié)要點(diǎn),而不是逐字逐句地復(fù)述整部電影。
在模型合并的場(chǎng)景中,信息論幫助我們回答一個(gè)關(guān)鍵問(wèn)題:如何判斷不同模型之間的相似性和差異性?研究團(tuán)隊(duì)采用了Jensen-Shannon散度這一信息論工具來(lái)衡量模型之間的"距離"??梢园堰@個(gè)距離想象成兩個(gè)人說(shuō)話方式的差異程度。如果兩個(gè)人的表達(dá)習(xí)慣很相似,那么他們之間的"距離"就很小;反之,如果一個(gè)人說(shuō)話很正式而另一個(gè)人很隨意,那么他們之間的"距離"就比較大。
Jensen-Shannon散度的妙處在于它是對(duì)稱的,不像其他一些衡量方法會(huì)因?yàn)楸容^順序的不同而得出不同結(jié)果。這就好比測(cè)量?jī)蓚€(gè)城市之間的距離,無(wú)論從A城市測(cè)量到B城市,還是從B城市測(cè)量到A城市,距離都應(yīng)該是相同的。
基于這種距離衡量,DivMerge技術(shù)能夠自動(dòng)學(xué)習(xí)如何最優(yōu)地組合不同的任務(wù)向量。整個(gè)過(guò)程就像一個(gè)經(jīng)驗(yàn)豐富的調(diào)酒師,他不是按照死板的配方,而是根據(jù)每種酒的特性和客人的口味偏好,動(dòng)態(tài)調(diào)整各種成分的比例,最終調(diào)制出完美的雞尾酒。
更令人興奮的是,這種優(yōu)化過(guò)程完全不需要額外的標(biāo)注數(shù)據(jù)。傳統(tǒng)的機(jī)器學(xué)習(xí)方法往往需要大量的標(biāo)注樣本來(lái)指導(dǎo)模型學(xué)習(xí),就像學(xué)生需要標(biāo)準(zhǔn)答案來(lái)檢驗(yàn)自己的學(xué)習(xí)效果一樣。但DivMerge技術(shù)通過(guò)巧妙的自監(jiān)督機(jī)制,讓模型能夠根據(jù)輸入數(shù)據(jù)的分布特征自動(dòng)進(jìn)行優(yōu)化,這大大降低了實(shí)際應(yīng)用的門(mén)檻。
研究團(tuán)隊(duì)在理論分析中證明了一個(gè)重要結(jié)論:當(dāng)DivMerge的優(yōu)化目標(biāo)達(dá)到最小值時(shí),合并后的模型能夠完美保持權(quán)重分離特性。權(quán)重分離是模型合并領(lǐng)域的一個(gè)重要概念,它確保不同任務(wù)對(duì)應(yīng)的模型參數(shù)不會(huì)相互干擾。這就像在一個(gè)大廚房里,每個(gè)廚師都有自己專(zhuān)門(mén)的工作臺(tái)和工具,互不干擾,同時(shí)又能協(xié)調(diào)配合完成復(fù)雜的菜品制作。
三、突破傳統(tǒng)方法的技術(shù)優(yōu)勢(shì)
為了驗(yàn)證DivMerge技術(shù)的有效性,研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們選擇了GLUE基準(zhǔn)測(cè)試中的多個(gè)經(jīng)典任務(wù),這些任務(wù)涵蓋了自然語(yǔ)言處理的各個(gè)方面,包括語(yǔ)法正確性判斷、情感分析、問(wèn)答匹配等??梢园堰@些任務(wù)想象成語(yǔ)言能力的不同維度,就像評(píng)估一個(gè)人的語(yǔ)言水平需要考查他的閱讀、寫(xiě)作、聽(tīng)力和口語(yǔ)能力一樣。
在實(shí)驗(yàn)設(shè)計(jì)上,研究團(tuán)隊(duì)采用了兩種不同的模型架構(gòu)進(jìn)行測(cè)試。第一種是Qwen2.5-0.5B,這是一個(gè)純解碼器架構(gòu)的模型,特別適合生成類(lèi)任務(wù)。第二種是T5-Base,這是一個(gè)編碼器-解碼器架構(gòu)的模型,在理解和生成任務(wù)上都有不錯(cuò)的表現(xiàn)。通過(guò)在不同架構(gòu)上的測(cè)試,研究團(tuán)隊(duì)確保了DivMerge技術(shù)的通用性和魯棒性。
實(shí)驗(yàn)結(jié)果令人印象深刻。在雙任務(wù)合并的場(chǎng)景中,DivMerge技術(shù)在分類(lèi)任務(wù)上達(dá)到了99.18%的平均性能保持率,在生成任務(wù)上達(dá)到了98.93%的平均性能保持率。這意味著合并后的模型幾乎完全保持了原始專(zhuān)門(mén)模型的能力,這在以往的研究中是很難達(dá)到的。
相比之下,傳統(tǒng)的模型平均方法在分類(lèi)任務(wù)上只能達(dá)到88.48%的性能保持率,在生成任務(wù)上為94.38%。另一種流行的TIES方法雖然在分類(lèi)任務(wù)上能達(dá)到94.06%,但在生成任務(wù)上的表現(xiàn)也只有95.53%。這些對(duì)比清楚地展示了DivMerge技術(shù)的優(yōu)越性。
更重要的是,DivMerge技術(shù)在處理多個(gè)任務(wù)合并時(shí)展現(xiàn)出了更好的擴(kuò)展性。傳統(tǒng)方法往往存在一個(gè)嚴(yán)重問(wèn)題:隨著需要合并的任務(wù)數(shù)量增加,整體性能會(huì)顯著下降。這就像試圖讓一個(gè)人同時(shí)掌握越來(lái)越多的技能,到了某個(gè)臨界點(diǎn)后,每增加一項(xiàng)新技能都會(huì)對(duì)已有技能造成負(fù)面影響。
但DivMerge技術(shù)在這方面表現(xiàn)出了明顯的優(yōu)勢(shì)。即使將任務(wù)數(shù)量從2個(gè)增加到7個(gè),性能下降的幅度也相對(duì)較小。在分類(lèi)任務(wù)中,當(dāng)合并7個(gè)任務(wù)時(shí),DivMerge技術(shù)仍能維持93.06%的性能水平,而傳統(tǒng)的模型平均方法只能達(dá)到60.51%。這種擴(kuò)展性的優(yōu)勢(shì)使得DivMerge技術(shù)在實(shí)際應(yīng)用中更具價(jià)值。
四、深度分析與技術(shù)洞察
研究團(tuán)隊(duì)還進(jìn)行了一系列深入的分析實(shí)驗(yàn),以揭示DivMerge技術(shù)成功的內(nèi)在機(jī)制。他們首先驗(yàn)證了散度度量與模型性能之間的相關(guān)性。通過(guò)計(jì)算不同模型之間的KL散度和Jensen-Shannon散度,研究人員發(fā)現(xiàn)這些散度值與模型在交叉任務(wù)上的性能表現(xiàn)存在顯著的負(fù)相關(guān)關(guān)系。
具體來(lái)說(shuō),當(dāng)兩個(gè)模型之間的散度較小時(shí),其中一個(gè)模型在另一個(gè)模型的專(zhuān)門(mén)任務(wù)上通常也會(huì)有較好的表現(xiàn)。這種相關(guān)性的發(fā)現(xiàn)為DivMerge技術(shù)的理論基礎(chǔ)提供了有力支撐,證明了基于散度的優(yōu)化策略確實(shí)能夠捕捉到模型之間的本質(zhì)關(guān)系。
在散度類(lèi)型的選擇上,研究團(tuán)隊(duì)發(fā)現(xiàn)Jensen-Shannon散度相比KL散度表現(xiàn)出了更好的效果。雖然兩者的差異并不總是顯著的,但Jensen-Shannon散度在大多數(shù)情況下都能達(dá)到更高的相關(guān)性。這一發(fā)現(xiàn)指導(dǎo)了研究團(tuán)隊(duì)在后續(xù)實(shí)驗(yàn)中主要采用Jensen-Shannon散度作為優(yōu)化目標(biāo)。
研究團(tuán)隊(duì)還詳細(xì)分析了DivMerge技術(shù)的訓(xùn)練動(dòng)態(tài)。通過(guò)觀察不同任務(wù)權(quán)重在訓(xùn)練過(guò)程中的變化,他們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:對(duì)于某些任務(wù),其權(quán)重值似乎相對(duì)獨(dú)立,不太受與之合并的其他任務(wù)影響;而對(duì)于另一些任務(wù),權(quán)重值則會(huì)根據(jù)合作任務(wù)的特性進(jìn)行動(dòng)態(tài)調(diào)整。
這種現(xiàn)象反映了不同AI任務(wù)之間復(fù)雜的關(guān)系網(wǎng)絡(luò)。有些任務(wù)具有較強(qiáng)的獨(dú)立性,就像數(shù)學(xué)和音樂(lè)這兩種能力在人類(lèi)大腦中相對(duì)獨(dú)立一樣;而有些任務(wù)之間則存在較強(qiáng)的協(xié)同效應(yīng),一個(gè)任務(wù)的改進(jìn)能夠帶動(dòng)另一個(gè)任務(wù)的提升。
在實(shí)際應(yīng)用考量方面,研究團(tuán)隊(duì)還測(cè)試了數(shù)據(jù)需求的敏感性。他們發(fā)現(xiàn),DivMerge技術(shù)只需要很少量的驗(yàn)證數(shù)據(jù)就能達(dá)到良好的合并效果。具體而言,使用僅25個(gè)樣本(約占原始訓(xùn)練數(shù)據(jù)的0.4%,驗(yàn)證數(shù)據(jù)集的5%)就能獲得與使用完整數(shù)據(jù)集相當(dāng)?shù)男阅?。這一發(fā)現(xiàn)大大降低了DivMerge技術(shù)的應(yīng)用門(mén)檻,使得即使在數(shù)據(jù)稀缺的場(chǎng)景下也能有效應(yīng)用。
五、方法論創(chuàng)新與理論貢獻(xiàn)
DivMerge技術(shù)不僅在實(shí)用性上取得了突破,在理論層面也做出了重要貢獻(xiàn)。研究團(tuán)隊(duì)證明了他們的方法與經(jīng)典多任務(wù)學(xué)習(xí)之間的深層聯(lián)系。通過(guò)數(shù)學(xué)推導(dǎo),他們展示了基于KL散度的優(yōu)化問(wèn)題等價(jià)于多任務(wù)學(xué)習(xí)目標(biāo)的矩量投影近似。
這一理論發(fā)現(xiàn)具有重要意義。它表明DivMerge技術(shù)本質(zhì)上是在近似傳統(tǒng)多任務(wù)學(xué)習(xí)的最優(yōu)解,但卻避免了后者需要重新訓(xùn)練整個(gè)模型的高昂成本。可以把這種關(guān)系比作速食版本的精致菜肴——通過(guò)巧妙的技術(shù)手段,以更低的成本和更快的速度達(dá)到接近原版的品質(zhì)。
研究團(tuán)隊(duì)還引入了權(quán)重分離這一重要概念的形式化定義。權(quán)重分離要求合并后的模型在處理特定任務(wù)的輸入時(shí),其行為應(yīng)該與該任務(wù)的專(zhuān)門(mén)模型完全一致,而不受其他任務(wù)模型的影響。這就像一個(gè)多功能工具,在使用螺絲刀功能時(shí)不會(huì)因?yàn)橥瑫r(shí)具備錘子功能而影響螺絲刀的精確性。
更重要的是,研究團(tuán)隊(duì)證明了當(dāng)DivMerge的優(yōu)化目標(biāo)達(dá)到全局最小值時(shí),合并后的模型必然滿足權(quán)重分離條件。這一理論保證為DivMerge技術(shù)的可靠性提供了堅(jiān)實(shí)基礎(chǔ),確保了在理想條件下,技術(shù)能夠達(dá)到理論上的最優(yōu)效果。
在算法設(shè)計(jì)層面,DivMerge技術(shù)展現(xiàn)了優(yōu)雅的簡(jiǎn)潔性。整個(gè)優(yōu)化過(guò)程可以用標(biāo)準(zhǔn)的梯度下降方法實(shí)現(xiàn),不需要復(fù)雜的超參數(shù)調(diào)優(yōu)或特殊的訓(xùn)練技巧。這種簡(jiǎn)潔性不僅降低了實(shí)現(xiàn)難度,也提高了方法的可重現(xiàn)性和可擴(kuò)展性。
六、實(shí)驗(yàn)驗(yàn)證的嚴(yán)謹(jǐn)性
為了確保結(jié)果的可信度,研究團(tuán)隊(duì)采用了極為嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)設(shè)計(jì)。他們不僅測(cè)試了方法在不同任務(wù)組合上的表現(xiàn),還系統(tǒng)性地分析了各種影響因素。在雙任務(wù)合并實(shí)驗(yàn)中,對(duì)于包含7個(gè)分類(lèi)任務(wù)的設(shè)置,研究團(tuán)隊(duì)測(cè)試了所有可能的21種任務(wù)配對(duì)組合,確保結(jié)論的統(tǒng)計(jì)顯著性。
在多任務(wù)擴(kuò)展性測(cè)試中,研究團(tuán)隊(duì)按照任務(wù)數(shù)量遞增的方式進(jìn)行了全面評(píng)估。對(duì)于每個(gè)特定的任務(wù)數(shù)量,他們都測(cè)試了所有可能的任務(wù)組合。例如,在三任務(wù)合并測(cè)試中,他們?cè)u(píng)估了所有35種可能的任務(wù)三元組合。這種全面測(cè)試的方法確保了結(jié)論的普適性,避免了因?yàn)樘囟ㄈ蝿?wù)組合而產(chǎn)生的偏差。
實(shí)驗(yàn)還包含了詳細(xì)的消融研究,以分析DivMerge技術(shù)各個(gè)組件的貢獻(xiàn)。研究團(tuán)隊(duì)分別測(cè)試了任務(wù)級(jí)別合并和層級(jí)別合并兩種粒度的效果。層級(jí)別合并允許對(duì)模型的每一層設(shè)置不同的合并系數(shù),提供了更精細(xì)的控制能力。實(shí)驗(yàn)結(jié)果表明,層級(jí)別合并確實(shí)能夠帶來(lái)額外的性能提升,驗(yàn)證了細(xì)粒度控制的價(jià)值。
在訓(xùn)練穩(wěn)定性分析中,研究團(tuán)隊(duì)展示了DivMerge技術(shù)優(yōu)秀的收斂特性。通過(guò)跟蹤訓(xùn)練過(guò)程中性能指標(biāo)的變化,他們發(fā)現(xiàn)該方法能夠穩(wěn)定收斂到高質(zhì)量的解,沒(méi)有出現(xiàn)常見(jiàn)的過(guò)擬合或震蕩現(xiàn)象。這種穩(wěn)定性對(duì)于實(shí)際應(yīng)用至關(guān)重要,確保了方法在不同數(shù)據(jù)集和任務(wù)配置下都能可靠地工作。
七、技術(shù)局限與未來(lái)展望
盡管DivMerge技術(shù)取得了顯著成功,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性。首先,該技術(shù)目前主要在全參數(shù)微調(diào)的設(shè)置下進(jìn)行了驗(yàn)證。在現(xiàn)代AI應(yīng)用中,低秩適應(yīng)(LoRA)等參數(shù)高效微調(diào)方法越來(lái)越流行,但DivMerge在這些設(shè)置下的表現(xiàn)還需要進(jìn)一步驗(yàn)證。
另一個(gè)重要限制是數(shù)據(jù)分布的假設(shè)。DivMerge技術(shù)假設(shè)能夠訪問(wèn)每個(gè)任務(wù)的真實(shí)數(shù)據(jù)分布,但在實(shí)際應(yīng)用中,我們往往只能獲得近似的分布。雖然研究團(tuán)隊(duì)提供了一些理論分析來(lái)處理這種分布偏移的情況,但更深入的研究仍然是必要的。
在擴(kuò)展性方面,雖然DivMerge相比傳統(tǒng)方法展現(xiàn)出了更好的多任務(wù)處理能力,但隨著任務(wù)數(shù)量的持續(xù)增長(zhǎng),性能依然會(huì)出現(xiàn)一定程度的下降。這提示我們需要進(jìn)一步探索更高效的大規(guī)模任務(wù)合并策略。
研究團(tuán)隊(duì)還指出了計(jì)算效率的考慮。雖然DivMerge避免了重新訓(xùn)練整個(gè)模型的需求,但優(yōu)化過(guò)程仍需要一定的計(jì)算資源。在資源極其有限的環(huán)境下,如何進(jìn)一步提高效率仍是一個(gè)值得研究的問(wèn)題。
展望未來(lái),這項(xiàng)工作開(kāi)啟了多個(gè)有趣的研究方向。首先是將DivMerge技術(shù)擴(kuò)展到更多類(lèi)型的模型架構(gòu)和訓(xùn)練方式,特別是參數(shù)高效微調(diào)方法。其次是探索更復(fù)雜的任務(wù)關(guān)系建模,以更好地處理任務(wù)間的協(xié)同和沖突關(guān)系。
另一個(gè)有前景的方向是將DivMerge的思想應(yīng)用到模型壓縮和知識(shí)蒸餾領(lǐng)域。通過(guò)智能地合并不同規(guī)模或不同訓(xùn)練策略的模型,可能能夠在保持性能的同時(shí)顯著減少模型大小和推理成本。
八、現(xiàn)實(shí)應(yīng)用的深遠(yuǎn)影響
DivMerge技術(shù)的成功不僅具有學(xué)術(shù)價(jià)值,更重要的是它為AI技術(shù)的實(shí)際應(yīng)用開(kāi)辟了新的可能性。在當(dāng)今這個(gè)AI模型層出不窮的時(shí)代,如何高效地利用和組合現(xiàn)有模型資源成為了一個(gè)迫切需要解決的問(wèn)題。
考慮這樣一個(gè)現(xiàn)實(shí)場(chǎng)景:一家科技公司已經(jīng)開(kāi)發(fā)了多個(gè)針對(duì)不同業(yè)務(wù)需求的AI模型,比如客戶服務(wù)聊天機(jī)器人、產(chǎn)品推薦系統(tǒng)、內(nèi)容審核工具等。傳統(tǒng)做法要么是為每個(gè)應(yīng)用場(chǎng)景部署獨(dú)立的模型,導(dǎo)致資源消耗巨大;要么是重新訓(xùn)練一個(gè)統(tǒng)一模型,但這往往會(huì)犧牲各個(gè)專(zhuān)門(mén)領(lǐng)域的性能。
DivMerge技術(shù)提供了第三種選擇:將這些專(zhuān)門(mén)模型智能地合并成一個(gè)多功能的超級(jí)模型,既能保持各自領(lǐng)域的專(zhuān)業(yè)能力,又能減少部署和維護(hù)成本。這種能力對(duì)于中小企業(yè)特別有價(jià)值,因?yàn)樗鼈兺鶝](méi)有足夠的資源來(lái)維護(hù)多個(gè)獨(dú)立的AI系統(tǒng)。
在教育領(lǐng)域,DivMerge技術(shù)也展現(xiàn)出了巨大潛力。想象一個(gè)智能教學(xué)系統(tǒng),它需要同時(shí)具備數(shù)學(xué)輔導(dǎo)、語(yǔ)言學(xué)習(xí)、歷史知識(shí)問(wèn)答等多種能力。通過(guò)DivMerge技術(shù),教育機(jī)構(gòu)可以將已有的各科目專(zhuān)門(mén)AI教師模型合并,創(chuàng)造出一個(gè)全科目的智能教學(xué)助手,為學(xué)生提供更全面的學(xué)習(xí)支持。
在醫(yī)療健康領(lǐng)域,這項(xiàng)技術(shù)同樣具有重要意義。醫(yī)療AI通常需要處理影像診斷、癥狀分析、藥物推薦等多種不同類(lèi)型的任務(wù)。DivMerge技術(shù)使得將不同專(zhuān)科的AI診斷系統(tǒng)整合成綜合診療平臺(tái)成為可能,為醫(yī)生提供更全面的決策支持。
從更宏觀的角度看,DivMerge技術(shù)體現(xiàn)了AI發(fā)展的一個(gè)重要趨勢(shì):從單一功能的專(zhuān)用系統(tǒng)向多功能的通用系統(tǒng)演進(jìn)。這種演進(jìn)不是簡(jiǎn)單的功能堆疊,而是智能化的能力整合,代表了AI技術(shù)走向成熟的重要標(biāo)志。
說(shuō)到底,DivMerge技術(shù)為我們提供了一種全新的思考方式:如何在保持專(zhuān)業(yè)性的同時(shí)實(shí)現(xiàn)通用性。這種平衡一直是AI領(lǐng)域追求的圣杯,而Orange Research團(tuán)隊(duì)的工作為我們指明了一個(gè)充滿希望的方向。
這項(xiàng)研究的真正價(jià)值或許不僅在于它解決了模型合并這一具體技術(shù)問(wèn)題,更在于它展示了如何通過(guò)數(shù)學(xué)理論指導(dǎo)實(shí)際技術(shù)開(kāi)發(fā)的范例?;谛畔⒄摰纳⒍榷攘俊?quán)重分離的理論保證、以及與經(jīng)典多任務(wù)學(xué)習(xí)的深層聯(lián)系,這些理論基礎(chǔ)確保了DivMerge技術(shù)不僅在當(dāng)前實(shí)驗(yàn)中表現(xiàn)優(yōu)秀,更具有持續(xù)改進(jìn)和擴(kuò)展的潛力。
對(duì)于AI技術(shù)的未來(lái)發(fā)展而言,DivMerge代表的可能不僅是一種新的技術(shù)方法,更是一種新的技術(shù)哲學(xué):通過(guò)智能化的組合而非簡(jiǎn)單的疊加來(lái)實(shí)現(xiàn)能力提升。這種哲學(xué)在AI系統(tǒng)日益復(fù)雜化的今天顯得尤為重要,為構(gòu)建更加智能、高效、可持續(xù)的AI生態(tài)系統(tǒng)提供了寶貴的啟發(fā)。
Q&A
Q1:DivMerge技術(shù)是什么?它解決了什么問(wèn)題?
A:DivMerge是Orange Research開(kāi)發(fā)的AI模型合并技術(shù),能夠?qū)⒍鄠€(gè)專(zhuān)門(mén)訓(xùn)練的AI模型像拼樂(lè)高一樣智能組合成一個(gè)"超級(jí)模型"。它解決了傳統(tǒng)方法中多個(gè)AI模型合并后性能下降和相互干擾的問(wèn)題,讓合并后的模型既保持各自專(zhuān)長(zhǎng)又能協(xié)調(diào)工作。
Q2:DivMerge比傳統(tǒng)模型合并方法好在哪里?
A:DivMerge在雙任務(wù)合并中能達(dá)到99.18%的性能保持率,而傳統(tǒng)方法只有88.48%。更重要的是,當(dāng)需要合并的任務(wù)增加時(shí),傳統(tǒng)方法性能會(huì)急劇下降,但DivMerge仍能保持相對(duì)穩(wěn)定的表現(xiàn),展現(xiàn)出更好的擴(kuò)展性。
Q3:普通企業(yè)能否使用DivMerge技術(shù)?有什么要求?
A:DivMerge技術(shù)相對(duì)簡(jiǎn)單易用,只需要很少的驗(yàn)證數(shù)據(jù)(僅25個(gè)樣本)就能有效工作,不需要復(fù)雜的參數(shù)調(diào)優(yōu)。對(duì)于已經(jīng)有多個(gè)專(zhuān)門(mén)AI模型的企業(yè)來(lái)說(shuō),可以用這項(xiàng)技術(shù)將它們合并,減少部署和維護(hù)成本。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。