這項由中科院計算技術(shù)研究所、中科院大學和美團公司合作完成的研究發(fā)表于2025年9月,論文編號為arXiv:2509.22072v2。研究團隊由楊萬里、孫飛、唐瑞等多位研究者組成,其中孫飛博士為通訊作者。這項研究徹底顛覆了學界對一種常用AI訓練方法的認知,就像發(fā)現(xiàn)了一個被誤用多年的"萬能工具"其實威力無窮。
當我們學習新知識時,大腦會在不遺忘舊知識的基礎(chǔ)上吸收新信息。然而,現(xiàn)在的大型語言模型(比如ChatGPT這類AI系統(tǒng))在學習新知識時卻面臨一個嚴重問題:它們要么無法有效學習新內(nèi)容,要么學會了新知識卻忘記了之前掌握的技能。這就像一個學生在學數(shù)學時把語文全忘了,或者學了語文卻怎么也記不住數(shù)學。
長期以來,研究人員認為傳統(tǒng)的"微調(diào)"方法(可以理解為給AI補課的一種方式)不適合用來教AI新知識。他們轉(zhuǎn)而開發(fā)了各種復(fù)雜的新方法,就像醫(yī)生放棄了常見藥物轉(zhuǎn)而研制昂貴的特效藥。然而,這項研究發(fā)現(xiàn),問題的根源不在于"微調(diào)"方法本身有缺陷,而是過去的使用方式完全錯了。
研究團隊通過深入分析發(fā)現(xiàn),過去的研究者在使用微調(diào)方法時,采用了一種類似"填鴨式"的教學方式:讓AI反復(fù)學習同一個知識點直到完全記住,然后再學下一個。這種做法導致后學的知識會覆蓋前面學過的內(nèi)容,就像在黑板上不停地擦掉舊內(nèi)容寫新內(nèi)容一樣。
真正的突破來自于改變學習策略。研究團隊發(fā)現(xiàn),如果讓AI像人類學生一樣,把所有要學的知識混在一起,分多次重復(fù)學習,效果會好得驚人。這就像學生不是把數(shù)學題做完再做語文題,而是數(shù)學做幾道,語文做幾道,然后再回過頭來復(fù)習,這樣循環(huán)往復(fù)。
這種方法被研究團隊稱為"廣度優(yōu)先"學習,相對于之前的"深度優(yōu)先"學習。通過這種改變,AI不僅能成功學會新知識,還能很好地保持原有能力。更重要的是,研究團隊還發(fā)現(xiàn)了AI大腦中最適合"動手術(shù)"的位置,就像找到了大腦中負責存儲特定知識的區(qū)域。
實驗結(jié)果令人震驚。使用這種優(yōu)化后的方法,AI的學習成功率比之前的最佳方法平均提高了33.72%。更令人驚訝的是,這種方法能夠讓AI連續(xù)學習10萬個新知識點而不崩潰,這個數(shù)量是之前方法極限的10倍。研究團隊還成功地將這種方法應(yīng)用到了擁有720億參數(shù)的超大型AI模型上,這也是該領(lǐng)域的首次突破。
這項發(fā)現(xiàn)的意義不僅在于技術(shù)突破,更在于它揭示了一個重要道理:有時候,最好的解決方案就在我們身邊,只是被錯誤的使用方式掩蓋了。正如馬克·吐溫曾說過的那句話:"讓你陷入困境的不是你不知道的事情,而是你確信無疑但實際錯誤的認知。"
研究團隊通過大量實驗證明了他們的發(fā)現(xiàn)。他們測試了多種不同類型的AI模型,包括廣受歡迎的LLaMA、Mistral和Qwen系列。在每一個測試中,改進后的方法都表現(xiàn)出色。特別是在持續(xù)學習能力測試中,這種方法展現(xiàn)了驚人的穩(wěn)定性,即使在學習了數(shù)萬個新知識后,AI仍然能夠保持原有的能力不受影響。
為了驗證方法的有效性,研究團隊設(shè)計了一個巧妙的實驗。他們把要學習的知識分成5個部分,然后觀察AI在學習過程中的表現(xiàn)變化。結(jié)果發(fā)現(xiàn),用傳統(tǒng)方法訓練的AI會出現(xiàn)"邊學邊忘"的現(xiàn)象:前面學的知識在學習后面內(nèi)容時逐漸消失。而用新方法訓練的AI則能夠穩(wěn)步提高,所有知識都能很好地保持。
這種現(xiàn)象可以用搬家來比喻:傳統(tǒng)方法就像每次只能搬一樣東西,而且每搬一樣新的就要扔掉一樣舊的;新方法則像有了一個足夠大的新房子,可以把所有東西都妥善安置,不需要丟棄任何物品。
研究團隊還深入研究了AI模型的內(nèi)部結(jié)構(gòu),尋找最適合進行知識更新的位置。這就像外科醫(yī)生需要精確地知道在哪里下刀才能達到最好的治療效果。通過系統(tǒng)性的分析,他們發(fā)現(xiàn)AI模型的后層結(jié)構(gòu)中的特定組件最適合進行知識編輯,這些位置既能有效地存儲新知識,又不會干擾模型的其他功能。
從技術(shù)角度來看,這項研究的創(chuàng)新主要體現(xiàn)在三個方面。首先是訓練流程的改進:從單個樣本反復(fù)訓練改為批量混合訓練。其次是梯度聚合方式的優(yōu)化:從單個樣本更新改為小批量更新,這就像從單兵作戰(zhàn)改為團隊協(xié)作,效果更加穩(wěn)定。最后是參數(shù)位置的精準定位:不再盲目選擇更新位置,而是基于大量實驗找到最優(yōu)的更新位置。
實驗覆蓋了三個主要的數(shù)據(jù)集:ZsRE、CounterFact和WikiBigEdit。這些數(shù)據(jù)集代表了不同類型的知識更新場景,從簡單的事實更新到復(fù)雜的推理知識修改。在所有測試中,改進后的方法都展現(xiàn)了卓越的性能,不僅學習效果好,而且速度快,每次知識更新只需要不到一秒鐘的時間。
特別值得注意的是規(guī)模化測試的結(jié)果。當研究團隊將編輯數(shù)量從常見的3000個增加到100000個時,大多數(shù)傳統(tǒng)方法都無法維持性能,而新方法依然穩(wěn)如磐石。這就像馬拉松比賽中,大多數(shù)選手在中途就體力不支,而經(jīng)過特殊訓練的選手卻能一直保持最佳狀態(tài)沖過終點。
在模型規(guī)模測試中,研究團隊成功地將方法擴展到了720億參數(shù)的大型模型。這相當于從訓練小學生擴展到了訓練博士生,難度和復(fù)雜性都有質(zhì)的飛躍。然而,新方法依然表現(xiàn)出色,證明了其強大的普適性和擴展性。
這項研究的實際應(yīng)用前景非常廣闊。在搜索引擎領(lǐng)域,可以讓AI及時更新最新信息而不影響原有知識;在智能客服領(lǐng)域,可以讓AI學習新的產(chǎn)品知識而不忘記基礎(chǔ)服務(wù)技能;在教育領(lǐng)域,可以讓AI助手持續(xù)學習新的教學內(nèi)容而保持教學能力的完整性。
值得強調(diào)的是,這種方法的簡潔性是其最大的優(yōu)勢之一。與其他復(fù)雜的方法相比,這種方法不需要額外的模型架構(gòu)設(shè)計,不需要預(yù)先計算復(fù)雜的矩陣,也不需要特殊的訓練數(shù)據(jù)。就像發(fā)現(xiàn)了一種簡單而有效的烹飪技巧,任何人都可以輕松掌握和使用。
研究團隊還進行了詳細的消融實驗,分別驗證了每個改進組件的貢獻。結(jié)果顯示,訓練流程的改進對于防止知識遺忘最為關(guān)鍵,而梯度聚合方式的優(yōu)化則主要提升了模型的整體穩(wěn)定性。參數(shù)位置的優(yōu)化雖然貢獻相對較小,但對于獲得最優(yōu)性能仍然重要。
從工程實踐的角度來看,這項研究提供了一套完整的實施方案。研究團隊不僅提出了理論方法,還給出了具體的參數(shù)選擇建議和實現(xiàn)細節(jié)。他們甚至為不同類型的模型提供了個性化的配置方案,就像量身定制的西裝一樣合身。
說到底,這項研究最重要的價值在于它改變了我們對AI學習能力的認知。長期以來,人們認為讓AI像人一樣持續(xù)學習是一個極其復(fù)雜的技術(shù)難題,需要開發(fā)全新的算法和架構(gòu)。然而,這項研究證明,有時候最好的解決方案就藏在最基礎(chǔ)的方法中,只是需要正確的使用方式。
這種發(fā)現(xiàn)在科學史上并不罕見。許多重大突破都來自于對現(xiàn)有方法的重新審視和改進,而不是完全推倒重來。這提醒我們,在追求創(chuàng)新的過程中,不應(yīng)該急于拋棄經(jīng)典方法,而應(yīng)該深入理解其本質(zhì),找到正確的使用方式。
對于普通人來說,這項研究意味著我們將看到更加智能和穩(wěn)定的AI系統(tǒng)。未來的AI助手可能真的能像人類一樣,在學習新知識的同時保持原有的能力和記憶。這將大大提升AI系統(tǒng)在實際應(yīng)用中的可靠性和實用性,讓AI真正成為我們生活和工作中可信賴的伙伴。
對于AI研究者來說,這項工作提供了一個重要的啟示:在開發(fā)新方法之前,首先要確?,F(xiàn)有方法已經(jīng)被正確使用。這種"回到基礎(chǔ)"的研究精神,可能是突破技術(shù)瓶頸的關(guān)鍵所在。感興趣的讀者可以通過論文編號arXiv:2509.22072v2查詢完整的技術(shù)細節(jié)和實驗結(jié)果。
Q&A
Q1:什么是模型編輯技術(shù)?為什么AI需要這種技術(shù)?
A:模型編輯技術(shù)是讓AI學習新知識而不忘記舊知識的方法。AI模型訓練完成后,如果要更新知識,傳統(tǒng)方法要么學不會新內(nèi)容,要么學會了新知識卻忘記原有技能。模型編輯技術(shù)就是解決這個"邊學邊忘"問題的關(guān)鍵技術(shù)。
Q2:LocFT-BF方法與傳統(tǒng)方法有什么不同?
A:LocFT-BF改變了AI的學習方式,從原來的"一個一個深入學習"改為"所有知識混合重復(fù)學習",就像學生不再是把數(shù)學題全做完再做語文題,而是交替學習。這種方法讓AI能連續(xù)學習10萬個知識點而不崩潰,學習成功率比之前最好方法提高了33.72%。
Q3:這項研究成果什么時候能應(yīng)用到實際的AI產(chǎn)品中?
A:這項研究已經(jīng)在多種主流AI模型上驗證成功,包括最大720億參數(shù)的模型。由于方法簡單且不需要復(fù)雜的額外設(shè)計,預(yù)計很快就能被AI公司采用。未來的AI助手、搜索引擎、智能客服等都可能受益于這項技術(shù),變得更加智能和穩(wěn)定。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。