這項(xiàng)由哈爾濱工業(yè)大學(xué)張育南、姜朔然、趙夢(mèng)晨等研究人員主導(dǎo)的研究發(fā)表在《Journal of LaTeX Class Files》第14卷第8期(2021年8月),為大語言模型的持續(xù)學(xué)習(xí)難題提供了突破性解決方案。有興趣深入了解的讀者可以通過論文代碼庫(kù)https://github.com/Qznan/GeRe獲取完整資料。
當(dāng)今的人工智能就像一個(gè)極其聰明但健忘的學(xué)生。它能快速掌握新知識(shí),卻常常在學(xué)會(huì)新技能后忘記之前學(xué)過的內(nèi)容。這種現(xiàn)象在學(xué)術(shù)界被稱為"災(zāi)難性遺忘",是困擾AI研究多年的核心難題。
考慮這樣一個(gè)場(chǎng)景:你有一個(gè)AI助手,最初它能流利地進(jìn)行日常對(duì)話,還具備豐富的常識(shí)知識(shí)。然后你教它學(xué)習(xí)醫(yī)學(xué)知識(shí),它很快就能回答各種醫(yī)學(xué)問題。但問題來了——當(dāng)你再問它一些基本的生活常識(shí)時(shí),它卻開始胡言亂語,仿佛完全忘記了之前掌握的基礎(chǔ)能力。這就是大語言模型在持續(xù)學(xué)習(xí)過程中面臨的核心困境。
哈工大的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚喜的解決方案。他們提出了一個(gè)名為GeRe(General Sample Replay,通用樣本回放)的框架,最關(guān)鍵的發(fā)現(xiàn)是:只需要一千個(gè)從互聯(lián)網(wǎng)上隨機(jī)挑選的普通文本,就能讓AI在學(xué)習(xí)新技能的同時(shí)保持原有能力不退化。
這個(gè)發(fā)現(xiàn)顛覆了傳統(tǒng)認(rèn)知。以往的研究認(rèn)為,要讓AI記住舊技能,必須不斷收集和存儲(chǔ)每個(gè)任務(wù)的專門樣本,這就像一個(gè)學(xué)生要想記住所學(xué)的每門課程,就必須保留每門課的所有筆記和練習(xí)題。但哈工大團(tuán)隊(duì)發(fā)現(xiàn),只要有一份"通用備忘錄"——也就是那一千個(gè)普通文本樣本——就足夠了。
這些普通文本樣本就像是AI的"營(yíng)養(yǎng)均衡餐"。正如人體需要各種營(yíng)養(yǎng)素來維持健康一樣,AI也需要多樣化的文本內(nèi)容來保持其語言理解能力的完整性。研究團(tuán)隊(duì)從SlimPajama-627B這個(gè)大型文本數(shù)據(jù)集中隨機(jī)抽取了一千個(gè)樣本,這些樣本涵蓋了各種主題和寫作風(fēng)格,從健身建議到動(dòng)物百科,從商業(yè)描述到技術(shù)文檔,應(yīng)有盡有。
更加精妙的是,研究團(tuán)隊(duì)不僅僅是簡(jiǎn)單地讓AI重復(fù)學(xué)習(xí)這些樣本,而是開發(fā)了一種全新的"神經(jīng)激活狀態(tài)約束優(yōu)化方法",他們稱之為閾值邊際損失(TM)。這個(gè)方法的核心思想是監(jiān)控AI大腦中神經(jīng)元的激活狀態(tài),確保在學(xué)習(xí)新任務(wù)時(shí)這些狀態(tài)保持穩(wěn)定。
把這個(gè)過程比作調(diào)音師調(diào)節(jié)鋼琴。鋼琴有很多琴弦,每根弦都有其特定的音調(diào)。當(dāng)鋼琴師彈奏不同曲子時(shí),不同的琴弦會(huì)被觸發(fā)。如果某些琴弦的音調(diào)發(fā)生了漂移,整個(gè)鋼琴的和聲就會(huì)變得不協(xié)調(diào)。TM損失就像一個(gè)精密的調(diào)音器,它時(shí)刻監(jiān)控著AI"大腦"中每個(gè)"琴弦"(神經(jīng)元)的狀態(tài),確保它們?cè)趯W(xué)習(xí)新曲子(新任務(wù))時(shí)仍然保持原有的音調(diào)(激活模式)。
研究團(tuán)隊(duì)的實(shí)驗(yàn)設(shè)計(jì)極其嚴(yán)密。他們選擇了Llama-3.1-8B這個(gè)擁有80億參數(shù)的大語言模型作為實(shí)驗(yàn)對(duì)象,讓它依次學(xué)習(xí)15個(gè)不同的下游任務(wù)。這些任務(wù)涵蓋了情感分析、自然語言推理、文本分類等多個(gè)領(lǐng)域,就像讓一個(gè)學(xué)生連續(xù)學(xué)習(xí)語文、數(shù)學(xué)、物理、化學(xué)等不同學(xué)科。
實(shí)驗(yàn)結(jié)果令人振奮。傳統(tǒng)的持續(xù)學(xué)習(xí)方法在面對(duì)這15個(gè)任務(wù)時(shí)表現(xiàn)得非常糟糕:不使用任何防遺忘措施的基線方法,在MMLU(一個(gè)衡量AI常識(shí)能力的標(biāo)準(zhǔn)測(cè)試)上的得分從66.5分暴跌到38.3分,平均任務(wù)表現(xiàn)也從理想的81.0分下降到37.5分。這就像一個(gè)原本成績(jī)優(yōu)秀的學(xué)生,在學(xué)習(xí)新課程后反而連基礎(chǔ)知識(shí)都忘記了。
但使用GeRe框架的AI表現(xiàn)截然不同。在全參數(shù)微調(diào)設(shè)置下,它不僅將MMLU得分維持在60.7分的高水平,15個(gè)任務(wù)的平均表現(xiàn)也達(dá)到了74.4分。在LoRA(一種參數(shù)高效的微調(diào)方法)設(shè)置下,表現(xiàn)更加出色:MMLU得分保持在66.3分,任務(wù)平均表現(xiàn)為64.4分。
這些數(shù)字背后蘊(yùn)含著深刻的意義。GeRe方法證明了一個(gè)重要理論:維護(hù)AI的通用能力本身就能促進(jìn)特定任務(wù)的表現(xiàn)。這就像一個(gè)擁有扎實(shí)基礎(chǔ)知識(shí)的學(xué)生,在學(xué)習(xí)新學(xué)科時(shí)往往能夠觸類旁通,表現(xiàn)更加優(yōu)異。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。他們通過優(yōu)化景觀可視化技術(shù)分析了不同方法在訓(xùn)練過程中的行為。結(jié)果顯示,GeRe方法具有更好的魯棒性,就像在崎嶇山路上行駛的越野車,它能夠在各種復(fù)雜地形上保持穩(wěn)定,而傳統(tǒng)方法則像普通轎車,在遇到路況變化時(shí)容易失控。
特別值得一提的是,GeRe方法對(duì)學(xué)習(xí)率這個(gè)關(guān)鍵參數(shù)表現(xiàn)出了驚人的魯棒性。學(xué)習(xí)率就像駕駛時(shí)的油門,踩得太輕學(xué)不到新知識(shí),踩得太重又容易忘記舊知識(shí)。傳統(tǒng)方法需要精心調(diào)節(jié)這個(gè)參數(shù),稍有不慎就會(huì)導(dǎo)致性能急劇下降。但GeRe方法即使在學(xué)習(xí)率增加3到10倍的情況下,仍能保持穩(wěn)定的性能表現(xiàn)。
研究團(tuán)隊(duì)還通過大量的對(duì)比實(shí)驗(yàn)驗(yàn)證了TM損失的優(yōu)越性。他們比較了多種不同的回放策略,包括簡(jiǎn)單的標(biāo)簽擬合、基于KL散度的邏輯模仿、基于L1/L2損失的特征模仿等。結(jié)果表明,TM損失在各種設(shè)置下都能取得最佳性能,展現(xiàn)出更好的魯棒性和泛化能力。
這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)范疇。在實(shí)際應(yīng)用中,大語言模型需要不斷適應(yīng)新的領(lǐng)域和任務(wù)。比如,一個(gè)客服AI可能需要從處理一般咨詢逐步擴(kuò)展到處理技術(shù)支持、投訴處理、銷售咨詢等多個(gè)專業(yè)領(lǐng)域。傳統(tǒng)方法要求為每個(gè)新領(lǐng)域?qū)iT收集和存儲(chǔ)大量訓(xùn)練樣本,不僅成本高昂,還面臨數(shù)據(jù)隱私和存儲(chǔ)空間的限制。
GeRe方法的出現(xiàn)徹底改變了這種狀況。它只需要一次性準(zhǔn)備一千個(gè)通用文本樣本,就能支持模型在任意多個(gè)任務(wù)上的持續(xù)學(xué)習(xí)。這就像擁有了一把萬能鑰匙,能夠打開所有領(lǐng)域的大門。
從技術(shù)實(shí)現(xiàn)角度來看,GeRe方法也展現(xiàn)出了極強(qiáng)的實(shí)用性。研究團(tuán)隊(duì)提供了完整的開源代碼和數(shù)據(jù),任何研究者或開發(fā)者都可以輕松復(fù)現(xiàn)和應(yīng)用這項(xiàng)技術(shù)。更重要的是,這種方法不依賴于特定的模型架構(gòu)或訓(xùn)練框架,具有很好的通用性。
當(dāng)然,這項(xiàng)研究也有其局限性。一千個(gè)樣本雖然相對(duì)簡(jiǎn)單,但如何選擇這些樣本仍然需要一定的技巧。研究團(tuán)隊(duì)使用的是隨機(jī)抽樣方法,但在特定應(yīng)用場(chǎng)景下,可能需要更加精心的樣本選擇策略。此外,雖然GeRe方法在多個(gè)基準(zhǔn)測(cè)試上表現(xiàn)優(yōu)異,但在更加復(fù)雜和多樣化的實(shí)際應(yīng)用中的表現(xiàn)還需要進(jìn)一步驗(yàn)證。
展望未來,這項(xiàng)研究為大語言模型的持續(xù)學(xué)習(xí)開辟了新的道路。隨著AI技術(shù)的快速發(fā)展,我們有理由相信,未來的AI系統(tǒng)將能夠像人類一樣,在不斷學(xué)習(xí)新知識(shí)的同時(shí)保持已有能力,實(shí)現(xiàn)真正意義上的終身學(xué)習(xí)。
說到底,哈工大團(tuán)隊(duì)的這項(xiàng)研究不僅解決了一個(gè)重要的技術(shù)難題,更重要的是,它證明了簡(jiǎn)單往往比復(fù)雜更有效。一千個(gè)普通的文本樣本,配合巧妙的算法設(shè)計(jì),就能讓AI獲得近乎人類的學(xué)習(xí)能力。這種"以簡(jiǎn)馭繁"的智慧,或許正是人工智能發(fā)展的正確方向。
Q&A
Q1:GeRe框架具體是怎么工作的?為什么只需要一千個(gè)樣本?
A:GeRe框架的核心是使用一千個(gè)從互聯(lián)網(wǎng)隨機(jī)收集的普通文本作為"營(yíng)養(yǎng)均衡餐",在AI學(xué)習(xí)新任務(wù)時(shí)同時(shí)讓它復(fù)習(xí)這些通用樣本。這些樣本就像維生素,能保持AI的基礎(chǔ)能力不退化。之所以一千個(gè)就夠,是因?yàn)檫@些樣本覆蓋了足夠多樣的語言模式和知識(shí)領(lǐng)域,能夠維持AI神經(jīng)網(wǎng)絡(luò)的整體平衡狀態(tài)。
Q2:閾值邊際損失(TM)比傳統(tǒng)方法好在哪里?
A:TM損失就像一個(gè)精密的調(diào)音器,它不是簡(jiǎn)單地要求AI完全復(fù)制舊的輸出,而是監(jiān)控AI大腦中神經(jīng)元的激活狀態(tài),只要這些狀態(tài)保持在合理范圍內(nèi)就行。這比傳統(tǒng)的L1/L2損失更加靈活,避免了過度嚴(yán)格的約束,讓AI在學(xué)習(xí)新知識(shí)時(shí)有更大的適應(yīng)空間,同時(shí)又不會(huì)偏離太遠(yuǎn)。
Q3:這項(xiàng)技術(shù)對(duì)普通用戶使用AI產(chǎn)品有什么影響?
A:這項(xiàng)技術(shù)最直接的影響是讓AI產(chǎn)品更加穩(wěn)定可靠。以后你使用的AI助手在學(xué)會(huì)新技能后不會(huì)忘記基本常識(shí),比如一個(gè)AI客服在學(xué)會(huì)處理技術(shù)問題后仍然能夠進(jìn)行正常的日常對(duì)話。對(duì)AI公司來說,這大大降低了維護(hù)成本,因?yàn)椴恍枰獮槊總€(gè)新功能都收集大量專門的訓(xùn)練數(shù)據(jù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。