這項(xiàng)由復(fù)旦大學(xué)智能信息處理上海市重點(diǎn)實(shí)驗(yàn)室葉俊杰、楊宇明等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年9月,論文編號(hào)為arXiv:2509.16596v1。研究團(tuán)隊(duì)還包括來(lái)自聯(lián)想研究院北京分部的研究人員,有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。
在人工智能的世界里,有一個(gè)看似合理的常識(shí):給AI模型"喂"更多的訓(xùn)練數(shù)據(jù),它就會(huì)變得更聰明。就像我們教孩子認(rèn)字一樣,練習(xí)冊(cè)做得越多,孩子應(yīng)該認(rèn)識(shí)的字越多才對(duì)。然而,復(fù)旦大學(xué)的研究團(tuán)隊(duì)最近發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象——當(dāng)他們給大型語(yǔ)言模型進(jìn)行精細(xì)調(diào)優(yōu)時(shí),增加訓(xùn)練數(shù)據(jù)量不僅沒(méi)有讓模型變得更聰明,反而讓它在回答問(wèn)題時(shí)表現(xiàn)得更糟糕。
這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了一個(gè)教育悖論:給學(xué)生更多練習(xí)題,他們的考試成績(jī)反而下降了。研究團(tuán)隊(duì)通過(guò)對(duì)五個(gè)不同的大型語(yǔ)言模型(包括LLaMA-2和LLaMA-3系列)進(jìn)行深入分析,發(fā)現(xiàn)了一個(gè)驚人的規(guī)律:當(dāng)訓(xùn)練數(shù)據(jù)從240個(gè)樣本增加到1920個(gè)樣本時(shí),模型的表現(xiàn)竟然下降了14%。更令人困惑的是,根據(jù)訓(xùn)練數(shù)據(jù)中知識(shí)掌握程度的不同,模型性能的波動(dòng)可以超過(guò)12%。
為了解開(kāi)這個(gè)謎團(tuán),研究團(tuán)隊(duì)就像偵探一樣,從兩個(gè)角度展開(kāi)了調(diào)查:一個(gè)是從"詞匯層面"分析模型說(shuō)話時(shí)的變化,另一個(gè)是從"參數(shù)層面"分析模型大腦內(nèi)部的變化。他們發(fā)現(xiàn)了一個(gè)更加震撼的事實(shí):在精細(xì)調(diào)優(yōu)過(guò)程中,高達(dá)90%的參數(shù)更新實(shí)際上對(duì)提升模型知識(shí)沒(méi)有任何幫助,甚至是有害的。當(dāng)研究團(tuán)隊(duì)將這些"無(wú)用"的參數(shù)恢復(fù)到訓(xùn)練前的狀態(tài)時(shí),模型的表現(xiàn)反而提升了10%以上。
這項(xiàng)研究不僅挑戰(zhàn)了我們對(duì)AI訓(xùn)練的傳統(tǒng)認(rèn)知,更為開(kāi)發(fā)更高效的AI訓(xùn)練方法提供了全新的思路。它告訴我們,在AI的世界里,"多"未必就是"好",關(guān)鍵在于如何讓AI更聰明地學(xué)習(xí),而不是簡(jiǎn)單地"填鴨式"地灌輸更多信息。
一、意外發(fā)現(xiàn):更多訓(xùn)練數(shù)據(jù)讓AI變得更笨
研究團(tuán)隊(duì)選擇了一個(gè)特殊的測(cè)試場(chǎng)景來(lái)驗(yàn)證他們的想法——讓AI進(jìn)行"閉卷問(wèn)答"。這就像讓學(xué)生在不能翻書(shū)、不能查資料的情況下回答問(wèn)題,完全依靠大腦中已有的知識(shí)。他們選擇了五個(gè)不同規(guī)模的大型語(yǔ)言模型,就像選擇了五個(gè)不同年級(jí)的學(xué)生來(lái)參加同一場(chǎng)考試。
研究團(tuán)隊(duì)首先將訓(xùn)練數(shù)據(jù)按照AI對(duì)這些知識(shí)的掌握程度分成了五個(gè)等級(jí)。第一級(jí)是AI完全不會(huì)的知識(shí),就像讓一個(gè)從未學(xué)過(guò)法語(yǔ)的人回答法語(yǔ)問(wèn)題;第五級(jí)是AI已經(jīng)掌握得很好的知識(shí),就像讓一個(gè)數(shù)學(xué)高手解決基礎(chǔ)的加減法問(wèn)題。中間的幾級(jí)則代表了不同程度的半生不熟狀態(tài)。
當(dāng)研究團(tuán)隊(duì)開(kāi)始用不同數(shù)量的訓(xùn)練樣本來(lái)訓(xùn)練這些AI模型時(shí),他們發(fā)現(xiàn)了第一個(gè)令人震驚的現(xiàn)象。無(wú)論使用哪種類型的訓(xùn)練數(shù)據(jù),AI模型都在使用240個(gè)訓(xùn)練樣本時(shí)達(dá)到了最佳表現(xiàn)。這就像發(fā)現(xiàn)學(xué)生做240道練習(xí)題時(shí)考試成績(jī)最好,但如果讓他們做更多題目,成績(jī)反而會(huì)下降。
更令人困惑的是,當(dāng)訓(xùn)練樣本增加到1920個(gè)時(shí),有些模型的表現(xiàn)比只用240個(gè)樣本時(shí)差了8.86%。這種現(xiàn)象在所有測(cè)試的模型中都出現(xiàn)了,就像所有參加實(shí)驗(yàn)的學(xué)生都出現(xiàn)了同樣的"學(xué)習(xí)倦怠"現(xiàn)象。研究團(tuán)隊(duì)甚至發(fā)現(xiàn),當(dāng)使用全部可用的訓(xùn)練數(shù)據(jù)時(shí),AI的表現(xiàn)幾乎降到了所有測(cè)試中的最低點(diǎn)。
第二個(gè)令人意外的發(fā)現(xiàn)是,當(dāng)訓(xùn)練數(shù)據(jù)達(dá)到一定規(guī)模(比如1920個(gè)樣本)時(shí),AI的表現(xiàn)會(huì)根據(jù)訓(xùn)練數(shù)據(jù)中知識(shí)的掌握程度發(fā)生顯著變化。用AI完全不懂的知識(shí)來(lái)訓(xùn)練它,就像用高難度的題目來(lái)訓(xùn)練初學(xué)者,結(jié)果是AI在其他方面的表現(xiàn)也變差了。相反,如果用AI已經(jīng)掌握得很好的知識(shí)來(lái)訓(xùn)練,雖然不會(huì)造成太大傷害,但對(duì)于提升AI處理新知識(shí)的能力也沒(méi)有太大幫助。
研究團(tuán)隊(duì)發(fā)現(xiàn),用中等掌握程度的知識(shí)來(lái)訓(xùn)練AI效果最好,這就像給學(xué)生選擇難度適中的練習(xí)題,既不會(huì)讓他們感到過(guò)于困難而產(chǎn)生挫敗感,也不會(huì)因?yàn)檫^(guò)于簡(jiǎn)單而無(wú)法提升能力。當(dāng)使用AI完全不懂的知識(shí)訓(xùn)練時(shí),模型在處理其他類型問(wèn)題時(shí)的表現(xiàn)會(huì)大幅下降,而使用AI已經(jīng)熟練掌握的知識(shí)訓(xùn)練時(shí),雖然不會(huì)造成太大損害,但也無(wú)法有效提升整體能力。
二、深入調(diào)查:AI說(shuō)話方式的變化透露了什么秘密
為了理解為什么會(huì)出現(xiàn)這種反?,F(xiàn)象,研究團(tuán)隊(duì)決定深入分析AI在訓(xùn)練前后說(shuō)話方式的變化。他們使用了一種叫做"KL散度"的數(shù)學(xué)工具來(lái)測(cè)量這種變化,就像用精密儀器測(cè)量一個(gè)人說(shuō)話語(yǔ)調(diào)的細(xì)微變化一樣。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的規(guī)律:當(dāng)訓(xùn)練數(shù)據(jù)較少時(shí)(比如60個(gè)樣本),AI的說(shuō)話方式會(huì)發(fā)生很大變化,這是因?yàn)閿?shù)據(jù)太少導(dǎo)致訓(xùn)練不穩(wěn)定,就像一個(gè)人剛開(kāi)始學(xué)習(xí)新語(yǔ)言時(shí)說(shuō)話會(huì)很不自然。隨著訓(xùn)練數(shù)據(jù)增加到240個(gè)樣本左右,AI的說(shuō)話方式逐漸穩(wěn)定下來(lái),與原來(lái)的表達(dá)方式差異最小。
然而,當(dāng)訓(xùn)練數(shù)據(jù)繼續(xù)增加時(shí),一個(gè)意想不到的現(xiàn)象出現(xiàn)了:AI的說(shuō)話方式又開(kāi)始偏離原來(lái)的模式,而且偏離程度越來(lái)越大。這種現(xiàn)象在使用AI不熟悉的知識(shí)進(jìn)行訓(xùn)練時(shí)尤其明顯,就像一個(gè)人被強(qiáng)迫學(xué)習(xí)完全陌生的內(nèi)容時(shí),不僅沒(méi)有掌握新知識(shí),連原來(lái)會(huì)說(shuō)的話都變得不自然了。
研究團(tuán)隊(duì)通過(guò)仔細(xì)分析發(fā)現(xiàn),AI說(shuō)話方式的變化程度與其表現(xiàn)下降程度高度相關(guān)。當(dāng)AI的表達(dá)方式偏離原來(lái)的模式越遠(yuǎn),它在回答問(wèn)題時(shí)的準(zhǔn)確率就越低。這就像一個(gè)原本口齒伶俐的人,如果說(shuō)話方式突然變得奇怪,那么他表達(dá)的內(nèi)容準(zhǔn)確性也會(huì)下降。
這個(gè)發(fā)現(xiàn)特別重要,因?yàn)檠芯繄F(tuán)隊(duì)選擇的測(cè)試問(wèn)題都是AI在訓(xùn)練前就能較好回答的問(wèn)題。當(dāng)AI在大量訓(xùn)練后反而無(wú)法正確回答這些問(wèn)題時(shí),說(shuō)明訓(xùn)練過(guò)程中發(fā)生了"災(zāi)難性遺忘"——AI在學(xué)習(xí)新內(nèi)容時(shí)忘記了原來(lái)已經(jīng)掌握的知識(shí),就像一個(gè)學(xué)生在學(xué)習(xí)新課程時(shí)把以前學(xué)過(guò)的內(nèi)容都忘了。
研究團(tuán)隊(duì)還發(fā)現(xiàn),使用AI完全不熟悉的知識(shí)進(jìn)行大規(guī)模訓(xùn)練時(shí),這種負(fù)面影響最為嚴(yán)重。AI不僅無(wú)法掌握新知識(shí),還會(huì)嚴(yán)重?fù)p害原有的知識(shí)儲(chǔ)備。這種現(xiàn)象提示我們,AI的學(xué)習(xí)過(guò)程并不是簡(jiǎn)單的"知識(shí)累積",而是一個(gè)復(fù)雜的"知識(shí)重組"過(guò)程,不當(dāng)?shù)挠?xùn)練方式可能會(huì)破壞這個(gè)精密的系統(tǒng)。
三、驚人發(fā)現(xiàn):90%的AI大腦變化都是無(wú)用的
基于前面的發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)大膽的假設(shè):也許訓(xùn)練過(guò)程中對(duì)AI大腦(參數(shù))的大部分修改都是不必要的,甚至是有害的。為了驗(yàn)證這個(gè)想法,他們?cè)O(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)——逐步將訓(xùn)練后的AI大腦"恢復(fù)"到訓(xùn)練前的狀態(tài),看看這樣做會(huì)對(duì)AI的表現(xiàn)產(chǎn)生什么影響。
研究團(tuán)隊(duì)首先分析了訓(xùn)練過(guò)程中AI大腦的所有變化,就像醫(yī)生分析病人身體各個(gè)部位的變化一樣。他們發(fā)現(xiàn)了一個(gè)令人震驚的事實(shí):超過(guò)70%的總體變化集中在不到1%的參數(shù)上。這就像發(fā)現(xiàn)一個(gè)人身體的大部分變化都集中在很小的一部分器官上,而其他大部分器官的變化都很微小。
接下來(lái),研究團(tuán)隊(duì)開(kāi)始了他們的"恢復(fù)實(shí)驗(yàn)"。他們按照變化程度的大小,逐步將那些變化最大的參數(shù)恢復(fù)到訓(xùn)練前的狀態(tài),然后觀察AI的表現(xiàn)如何變化。結(jié)果讓所有人都大吃一驚:不管使用什么類型的訓(xùn)練數(shù)據(jù),將一部分參數(shù)恢復(fù)到訓(xùn)練前狀態(tài)都能提升AI的表現(xiàn)。
更令人震驚的是,當(dāng)研究團(tuán)隊(duì)恢復(fù)了20%變化最大的參數(shù)后,所有模型的表現(xiàn)都得到了改善。對(duì)于那些用AI完全不懂的知識(shí)訓(xùn)練的模型,這種改善尤其明顯,性能提升了9.85%。這意味著訓(xùn)練過(guò)程中引入的大量參數(shù)變化不僅沒(méi)有幫助AI學(xué)到新知識(shí),反而損害了它的整體能力。
研究團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn),對(duì)于用1920個(gè)樣本訓(xùn)練的模型,即使恢復(fù)了40%的參數(shù)變化,AI的表現(xiàn)仍然在持續(xù)改善。而對(duì)于只用240個(gè)樣本訓(xùn)練的模型,通常在恢復(fù)20%的參數(shù)后就開(kāi)始出現(xiàn)性能下降。這說(shuō)明大規(guī)模訓(xùn)練確實(shí)引入了更多無(wú)用甚至有害的參數(shù)變化。
最令人驚訝的發(fā)現(xiàn)是,這種參數(shù)恢復(fù)不僅改善了AI在測(cè)試集上的表現(xiàn),甚至連在訓(xùn)練集上的表現(xiàn)也得到了提升。這就像發(fā)現(xiàn)一個(gè)學(xué)生不僅在新考試中表現(xiàn)更好,連在練習(xí)過(guò)的題目上也答得更準(zhǔn)確了。這強(qiáng)烈暗示訓(xùn)練過(guò)程中的許多參數(shù)更新既不能幫助AI記住訓(xùn)練內(nèi)容,也不能提升它的泛化能力,純粹是"畫(huà)蛇添足"。
研究團(tuán)隊(duì)還測(cè)試了這種發(fā)現(xiàn)在其他任務(wù)上的適用性。他們?cè)谖谋菊蛿?shù)學(xué)問(wèn)題解答等不同類型的任務(wù)上驗(yàn)證了參數(shù)恢復(fù)的效果,發(fā)現(xiàn)這種方法的改善效果具有一定的普遍性,盡管改善程度取決于任務(wù)與AI原有知識(shí)的相關(guān)性。
四、深層原理:為什么會(huì)出現(xiàn)這種反常現(xiàn)象
通過(guò)深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了兩個(gè)重要的規(guī)律,這些規(guī)律幫助我們理解為什么會(huì)出現(xiàn)這種看似反常的現(xiàn)象。
首先,用更大規(guī)模數(shù)據(jù)訓(xùn)練的AI模型受到無(wú)用參數(shù)變化的影響更嚴(yán)重。當(dāng)研究團(tuán)隊(duì)比較用240個(gè)樣本和1920個(gè)樣本訓(xùn)練的模型時(shí),發(fā)現(xiàn)后者可以承受更大比例的參數(shù)恢復(fù)而不損失性能。這說(shuō)明大規(guī)模訓(xùn)練確實(shí)引入了更多不必要的"噪音"變化,就像一個(gè)人接受了過(guò)多混亂信息后,大腦中產(chǎn)生了許多無(wú)用的神經(jīng)連接。
其次,用AI不熟悉的知識(shí)進(jìn)行訓(xùn)練會(huì)產(chǎn)生更多有害的參數(shù)變化。無(wú)論訓(xùn)練規(guī)模如何,用AI完全不懂的知識(shí)訓(xùn)練的模型總是能夠承受更大比例的參數(shù)恢復(fù),并且獲得更顯著的性能提升。這就像強(qiáng)迫一個(gè)人學(xué)習(xí)完全陌生的內(nèi)容時(shí),不僅學(xué)不會(huì)新知識(shí),還會(huì)在大腦中產(chǎn)生許多混亂的連接,影響原有知識(shí)的正常運(yùn)作。
研究團(tuán)隊(duì)還發(fā)現(xiàn),參數(shù)變化的集中程度非常高。在所有測(cè)試的模型中,無(wú)論訓(xùn)練數(shù)據(jù)規(guī)模如何,都有超過(guò)90%的總變化量集中在不到20%的參數(shù)中。這種高度集中的變化模式暗示,AI在學(xué)習(xí)過(guò)程中確實(shí)存在某些"關(guān)鍵節(jié)點(diǎn)",這些節(jié)點(diǎn)的變化對(duì)整體性能有決定性影響。
更深入的分析顯示,那些變化最大的參數(shù)往往不是對(duì)提升性能最重要的參數(shù)。這就像在調(diào)整一臺(tái)精密儀器時(shí),那些看起來(lái)變化最大的部件實(shí)際上可能是最不重要的,而真正關(guān)鍵的調(diào)整往往是細(xì)微而精準(zhǔn)的。這個(gè)發(fā)現(xiàn)挑戰(zhàn)了我們對(duì)AI學(xué)習(xí)過(guò)程的傳統(tǒng)理解,暗示現(xiàn)有的訓(xùn)練方法可能存在根本性的效率問(wèn)題。
研究團(tuán)隊(duì)通過(guò)對(duì)比不同類型訓(xùn)練數(shù)據(jù)的影響,發(fā)現(xiàn)了訓(xùn)練數(shù)據(jù)質(zhì)量與參數(shù)變化模式之間的密切關(guān)系。用AI已經(jīng)部分掌握的知識(shí)進(jìn)行訓(xùn)練時(shí),產(chǎn)生的無(wú)用參數(shù)變化相對(duì)較少,而用完全陌生或已經(jīng)完全掌握的知識(shí)訓(xùn)練時(shí),都會(huì)產(chǎn)生大量無(wú)用的參數(shù)變化。這說(shuō)明AI的最佳學(xué)習(xí)狀態(tài)存在于一個(gè)特定的"知識(shí)邊界"上,既不能太簡(jiǎn)單也不能太困難。
五、實(shí)際意義:這項(xiàng)發(fā)現(xiàn)將如何改變AI訓(xùn)練
這項(xiàng)研究的發(fā)現(xiàn)對(duì)AI開(kāi)發(fā)和應(yīng)用具有深遠(yuǎn)的實(shí)際意義。首先,它徹底顛覆了"數(shù)據(jù)越多越好"的傳統(tǒng)觀念。研究結(jié)果表明,盲目增加訓(xùn)練數(shù)據(jù)不僅浪費(fèi)計(jì)算資源,還可能損害AI的性能。這就像發(fā)現(xiàn)給學(xué)生布置過(guò)多作業(yè)不僅不能提高成績(jī),反而會(huì)讓他們產(chǎn)生學(xué)習(xí)疲勞和知識(shí)混亂。
對(duì)于AI開(kāi)發(fā)者來(lái)說(shuō),這項(xiàng)研究提供了一個(gè)全新的優(yōu)化思路。與其花費(fèi)大量資源收集和處理更多訓(xùn)練數(shù)據(jù),不如專注于提高訓(xùn)練數(shù)據(jù)的質(zhì)量和相關(guān)性。研究顯示,用適量的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,然后通過(guò)參數(shù)恢復(fù)技術(shù)去除無(wú)用的變化,可能是一種更高效的AI訓(xùn)練方法。
這種發(fā)現(xiàn)也為解決AI訓(xùn)練中的"災(zāi)難性遺忘"問(wèn)題提供了新的解決方案。傳統(tǒng)上,研究人員試圖通過(guò)各種復(fù)雜的技術(shù)來(lái)防止AI在學(xué)習(xí)新知識(shí)時(shí)忘記舊知識(shí)。而這項(xiàng)研究表明,簡(jiǎn)單地恢復(fù)一部分參數(shù)就能有效緩解這個(gè)問(wèn)題,這種方法不僅簡(jiǎn)單易行,而且效果顯著。
從計(jì)算資源的角度來(lái)看,這項(xiàng)發(fā)現(xiàn)具有重要的經(jīng)濟(jì)意義。如果90%的參數(shù)變化都是無(wú)用的,那么我們可以大幅減少訓(xùn)練過(guò)程中的計(jì)算需求,同時(shí)獲得更好的性能。這就像發(fā)現(xiàn)了一種新的節(jié)能技術(shù),既能提高效率又能降低成本。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究的意義在于未來(lái)的AI產(chǎn)品可能會(huì)變得更加智能和可靠。通過(guò)更精確的訓(xùn)練方法,AI可以在保持原有知識(shí)的基礎(chǔ)上更好地學(xué)習(xí)新技能,減少出現(xiàn)錯(cuò)誤或"胡言亂語(yǔ)"的情況。這意味著我們?nèi)粘J褂玫腁I助手、翻譯工具、寫(xiě)作軟件等產(chǎn)品都可能變得更加準(zhǔn)確和有用。
研究團(tuán)隊(duì)還指出,這種參數(shù)恢復(fù)技術(shù)可以與其他AI優(yōu)化方法結(jié)合使用。比如,可以先用傳統(tǒng)方法訓(xùn)練AI,然后應(yīng)用參數(shù)恢復(fù)技術(shù)進(jìn)行優(yōu)化,或者在訓(xùn)練過(guò)程中實(shí)時(shí)監(jiān)控參數(shù)變化,及時(shí)調(diào)整訓(xùn)練策略。這種組合方法可能會(huì)產(chǎn)生更好的效果。
六、未來(lái)展望:AI訓(xùn)練的新時(shí)代
這項(xiàng)研究開(kāi)啟了AI訓(xùn)練領(lǐng)域的一個(gè)新時(shí)代,但同時(shí)也提出了許多需要進(jìn)一步探索的問(wèn)題。研究團(tuán)隊(duì)坦承,雖然他們發(fā)現(xiàn)了問(wèn)題并提出了解決方案,但還沒(méi)有開(kāi)發(fā)出一套完整的新訓(xùn)練方法。這就像發(fā)現(xiàn)了一個(gè)新大陸,但還需要更多的探索才能充分開(kāi)發(fā)其潛力。
目前的研究主要集中在LLaMA系列模型上,雖然初步驗(yàn)證顯示這些發(fā)現(xiàn)具有一定的普遍性,但還需要在更多不同類型的AI模型上進(jìn)行驗(yàn)證。不同的AI架構(gòu)可能會(huì)表現(xiàn)出不同的參數(shù)變化模式,需要針對(duì)性地調(diào)整優(yōu)化策略。
研究團(tuán)隊(duì)提出了幾個(gè)值得進(jìn)一步探索的方向。首先是開(kāi)發(fā)自適應(yīng)的訓(xùn)練策略,能夠根據(jù)訓(xùn)練過(guò)程中的參數(shù)變化情況實(shí)時(shí)調(diào)整訓(xùn)練方法,最大化有用變化的同時(shí)最小化無(wú)用變化。其次是研究如何在訓(xùn)練開(kāi)始前就預(yù)測(cè)哪些參數(shù)變化可能是有用的,從而從源頭上提高訓(xùn)練效率。
另一個(gè)重要的研究方向是理解為什么會(huì)出現(xiàn)這種現(xiàn)象的深層機(jī)制。雖然研究團(tuán)隊(duì)觀察到了參數(shù)變化的規(guī)律,但對(duì)于為什么會(huì)產(chǎn)生這么多無(wú)用變化的根本原因還需要更深入的理論研究。這種理解將有助于開(kāi)發(fā)更加根本性的解決方案。
從技術(shù)應(yīng)用的角度來(lái)看,這項(xiàng)研究為開(kāi)發(fā)新一代AI訓(xùn)練工具提供了理論基礎(chǔ)。未來(lái)可能會(huì)出現(xiàn)專門的參數(shù)優(yōu)化工具,幫助AI開(kāi)發(fā)者自動(dòng)識(shí)別和去除無(wú)用的參數(shù)變化。這種工具不僅能提高AI的性能,還能大幅降低訓(xùn)練成本和時(shí)間。
對(duì)于AI安全和可靠性來(lái)說(shuō),這項(xiàng)研究也具有重要意義。通過(guò)更好地控制AI的學(xué)習(xí)過(guò)程,我們可以減少AI出現(xiàn)意外行為的可能性,提高AI系統(tǒng)的可預(yù)測(cè)性和穩(wěn)定性。這對(duì)于在關(guān)鍵應(yīng)用領(lǐng)域部署AI系統(tǒng)尤其重要。
說(shuō)到底,這項(xiàng)研究告訴我們一個(gè)簡(jiǎn)單而深刻的道理:在AI的世界里,"精準(zhǔn)"比"大量"更重要。就像一個(gè)好老師不會(huì)給學(xué)生布置無(wú)意義的大量作業(yè),而是會(huì)精心選擇最有價(jià)值的學(xué)習(xí)內(nèi)容一樣,訓(xùn)練AI也需要更加精準(zhǔn)和有針對(duì)性的方法。這不僅能讓AI學(xué)得更好,還能讓整個(gè)訓(xùn)練過(guò)程變得更加高效和經(jīng)濟(jì)。
這項(xiàng)研究為我們展示了AI訓(xùn)練的一個(gè)新方向,雖然還有很多問(wèn)題需要解決,但它已經(jīng)為構(gòu)建更智能、更高效的AI系統(tǒng)奠定了重要基礎(chǔ)。隨著更多研究者加入這個(gè)領(lǐng)域,我們有理由相信,未來(lái)的AI將會(huì)變得更加聰明、可靠和實(shí)用。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過(guò)論文編號(hào)arXiv:2509.16596v1查詢完整的研究報(bào)告。
Q&A
Q1:為什么給AI更多訓(xùn)練數(shù)據(jù)反而讓它表現(xiàn)變差?
A:研究發(fā)現(xiàn),當(dāng)訓(xùn)練數(shù)據(jù)超過(guò)一定量(如240個(gè)樣本增加到1920個(gè))時(shí),AI會(huì)產(chǎn)生大量無(wú)用甚至有害的參數(shù)變化。這些變化不僅不能幫助AI學(xué)到新知識(shí),還會(huì)干擾它原有的知識(shí),就像學(xué)生做太多練習(xí)題反而會(huì)產(chǎn)生混亂一樣。高達(dá)90%的參數(shù)更新實(shí)際上對(duì)提升AI能力沒(méi)有幫助。
Q2:什么是參數(shù)恢復(fù)技術(shù),它是如何改善AI性能的?
A:參數(shù)恢復(fù)技術(shù)是指將AI訓(xùn)練后發(fā)生最大變化的那些參數(shù)恢復(fù)到訓(xùn)練前的狀態(tài)。研究團(tuán)隊(duì)發(fā)現(xiàn),恢復(fù)20-40%變化最大的參數(shù)后,AI的表現(xiàn)反而提升了10%以上。這說(shuō)明訓(xùn)練過(guò)程中的許多參數(shù)變化是不必要的"噪音",去除這些噪音能讓AI回到更好的狀態(tài)。
Q3:這項(xiàng)研究對(duì)普通人使用AI產(chǎn)品有什么實(shí)際意義?
A:這項(xiàng)研究將讓未來(lái)的AI產(chǎn)品變得更智能、更可靠。通過(guò)更精確的訓(xùn)練方法,AI助手、翻譯工具、寫(xiě)作軟件等日常AI產(chǎn)品將減少出錯(cuò)和"胡言亂語(yǔ)"的情況,同時(shí)能更好地保持原有知識(shí)的同時(shí)學(xué)習(xí)新技能。此外,這種方法還能降低AI訓(xùn)練成本,可能讓AI產(chǎn)品變得更便宜、更普及。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。