av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 哈工大團(tuán)隊(duì)發(fā)現(xiàn)AI學(xué)新技能不忘老本事的秘訣:用一千個(gè)通用樣本就夠了!

哈工大團(tuán)隊(duì)發(fā)現(xiàn)AI學(xué)新技能不忘老本事的秘訣:用一千個(gè)通用樣本就夠了!

2025-08-15 08:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-15 08:26 ? 科技行者

這項(xiàng)由哈爾濱工業(yè)大學(xué)張育南、姜朔然、趙夢(mèng)晨等研究人員主導(dǎo)的研究發(fā)表在《Journal of LaTeX Class Files》第14卷第8期(2021年8月),為大語言模型的持續(xù)學(xué)習(xí)難題提供了突破性解決方案。有興趣深入了解的讀者可以通過論文代碼庫(kù)https://github.com/Qznan/GeRe獲取完整資料。

當(dāng)今的人工智能就像一個(gè)極其聰明但健忘的學(xué)生。它能快速掌握新知識(shí),卻常常在學(xué)會(huì)新技能后忘記之前學(xué)過的內(nèi)容。這種現(xiàn)象在學(xué)術(shù)界被稱為"災(zāi)難性遺忘",是困擾AI研究多年的核心難題。

考慮這樣一個(gè)場(chǎng)景:你有一個(gè)AI助手,最初它能流利地進(jìn)行日常對(duì)話,還具備豐富的常識(shí)知識(shí)。然后你教它學(xué)習(xí)醫(yī)學(xué)知識(shí),它很快就能回答各種醫(yī)學(xué)問題。但問題來了——當(dāng)你再問它一些基本的生活常識(shí)時(shí),它卻開始胡言亂語,仿佛完全忘記了之前掌握的基礎(chǔ)能力。這就是大語言模型在持續(xù)學(xué)習(xí)過程中面臨的核心困境。

哈工大的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚喜的解決方案。他們提出了一個(gè)名為GeRe(General Sample Replay,通用樣本回放)的框架,最關(guān)鍵的發(fā)現(xiàn)是:只需要一千個(gè)從互聯(lián)網(wǎng)上隨機(jī)挑選的普通文本,就能讓AI在學(xué)習(xí)新技能的同時(shí)保持原有能力不退化。

這個(gè)發(fā)現(xiàn)顛覆了傳統(tǒng)認(rèn)知。以往的研究認(rèn)為,要讓AI記住舊技能,必須不斷收集和存儲(chǔ)每個(gè)任務(wù)的專門樣本,這就像一個(gè)學(xué)生要想記住所學(xué)的每門課程,就必須保留每門課的所有筆記和練習(xí)題。但哈工大團(tuán)隊(duì)發(fā)現(xiàn),只要有一份"通用備忘錄"——也就是那一千個(gè)普通文本樣本——就足夠了。

這些普通文本樣本就像是AI的"營(yíng)養(yǎng)均衡餐"。正如人體需要各種營(yíng)養(yǎng)素來維持健康一樣,AI也需要多樣化的文本內(nèi)容來保持其語言理解能力的完整性。研究團(tuán)隊(duì)從SlimPajama-627B這個(gè)大型文本數(shù)據(jù)集中隨機(jī)抽取了一千個(gè)樣本,這些樣本涵蓋了各種主題和寫作風(fēng)格,從健身建議到動(dòng)物百科,從商業(yè)描述到技術(shù)文檔,應(yīng)有盡有。

更加精妙的是,研究團(tuán)隊(duì)不僅僅是簡(jiǎn)單地讓AI重復(fù)學(xué)習(xí)這些樣本,而是開發(fā)了一種全新的"神經(jīng)激活狀態(tài)約束優(yōu)化方法",他們稱之為閾值邊際損失(TM)。這個(gè)方法的核心思想是監(jiān)控AI大腦中神經(jīng)元的激活狀態(tài),確保在學(xué)習(xí)新任務(wù)時(shí)這些狀態(tài)保持穩(wěn)定。

把這個(gè)過程比作調(diào)音師調(diào)節(jié)鋼琴。鋼琴有很多琴弦,每根弦都有其特定的音調(diào)。當(dāng)鋼琴師彈奏不同曲子時(shí),不同的琴弦會(huì)被觸發(fā)。如果某些琴弦的音調(diào)發(fā)生了漂移,整個(gè)鋼琴的和聲就會(huì)變得不協(xié)調(diào)。TM損失就像一個(gè)精密的調(diào)音器,它時(shí)刻監(jiān)控著AI"大腦"中每個(gè)"琴弦"(神經(jīng)元)的狀態(tài),確保它們?cè)趯W(xué)習(xí)新曲子(新任務(wù))時(shí)仍然保持原有的音調(diào)(激活模式)。

研究團(tuán)隊(duì)的實(shí)驗(yàn)設(shè)計(jì)極其嚴(yán)密。他們選擇了Llama-3.1-8B這個(gè)擁有80億參數(shù)的大語言模型作為實(shí)驗(yàn)對(duì)象,讓它依次學(xué)習(xí)15個(gè)不同的下游任務(wù)。這些任務(wù)涵蓋了情感分析、自然語言推理、文本分類等多個(gè)領(lǐng)域,就像讓一個(gè)學(xué)生連續(xù)學(xué)習(xí)語文、數(shù)學(xué)、物理、化學(xué)等不同學(xué)科。

實(shí)驗(yàn)結(jié)果令人振奮。傳統(tǒng)的持續(xù)學(xué)習(xí)方法在面對(duì)這15個(gè)任務(wù)時(shí)表現(xiàn)得非常糟糕:不使用任何防遺忘措施的基線方法,在MMLU(一個(gè)衡量AI常識(shí)能力的標(biāo)準(zhǔn)測(cè)試)上的得分從66.5分暴跌到38.3分,平均任務(wù)表現(xiàn)也從理想的81.0分下降到37.5分。這就像一個(gè)原本成績(jī)優(yōu)秀的學(xué)生,在學(xué)習(xí)新課程后反而連基礎(chǔ)知識(shí)都忘記了。

但使用GeRe框架的AI表現(xiàn)截然不同。在全參數(shù)微調(diào)設(shè)置下,它不僅將MMLU得分維持在60.7分的高水平,15個(gè)任務(wù)的平均表現(xiàn)也達(dá)到了74.4分。在LoRA(一種參數(shù)高效的微調(diào)方法)設(shè)置下,表現(xiàn)更加出色:MMLU得分保持在66.3分,任務(wù)平均表現(xiàn)為64.4分。

這些數(shù)字背后蘊(yùn)含著深刻的意義。GeRe方法證明了一個(gè)重要理論:維護(hù)AI的通用能力本身就能促進(jìn)特定任務(wù)的表現(xiàn)。這就像一個(gè)擁有扎實(shí)基礎(chǔ)知識(shí)的學(xué)生,在學(xué)習(xí)新學(xué)科時(shí)往往能夠觸類旁通,表現(xiàn)更加優(yōu)異。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。他們通過優(yōu)化景觀可視化技術(shù)分析了不同方法在訓(xùn)練過程中的行為。結(jié)果顯示,GeRe方法具有更好的魯棒性,就像在崎嶇山路上行駛的越野車,它能夠在各種復(fù)雜地形上保持穩(wěn)定,而傳統(tǒng)方法則像普通轎車,在遇到路況變化時(shí)容易失控。

特別值得一提的是,GeRe方法對(duì)學(xué)習(xí)率這個(gè)關(guān)鍵參數(shù)表現(xiàn)出了驚人的魯棒性。學(xué)習(xí)率就像駕駛時(shí)的油門,踩得太輕學(xué)不到新知識(shí),踩得太重又容易忘記舊知識(shí)。傳統(tǒng)方法需要精心調(diào)節(jié)這個(gè)參數(shù),稍有不慎就會(huì)導(dǎo)致性能急劇下降。但GeRe方法即使在學(xué)習(xí)率增加3到10倍的情況下,仍能保持穩(wěn)定的性能表現(xiàn)。

研究團(tuán)隊(duì)還通過大量的對(duì)比實(shí)驗(yàn)驗(yàn)證了TM損失的優(yōu)越性。他們比較了多種不同的回放策略,包括簡(jiǎn)單的標(biāo)簽擬合、基于KL散度的邏輯模仿、基于L1/L2損失的特征模仿等。結(jié)果表明,TM損失在各種設(shè)置下都能取得最佳性能,展現(xiàn)出更好的魯棒性和泛化能力。

這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)范疇。在實(shí)際應(yīng)用中,大語言模型需要不斷適應(yīng)新的領(lǐng)域和任務(wù)。比如,一個(gè)客服AI可能需要從處理一般咨詢逐步擴(kuò)展到處理技術(shù)支持、投訴處理、銷售咨詢等多個(gè)專業(yè)領(lǐng)域。傳統(tǒng)方法要求為每個(gè)新領(lǐng)域?qū)iT收集和存儲(chǔ)大量訓(xùn)練樣本,不僅成本高昂,還面臨數(shù)據(jù)隱私和存儲(chǔ)空間的限制。

GeRe方法的出現(xiàn)徹底改變了這種狀況。它只需要一次性準(zhǔn)備一千個(gè)通用文本樣本,就能支持模型在任意多個(gè)任務(wù)上的持續(xù)學(xué)習(xí)。這就像擁有了一把萬能鑰匙,能夠打開所有領(lǐng)域的大門。

從技術(shù)實(shí)現(xiàn)角度來看,GeRe方法也展現(xiàn)出了極強(qiáng)的實(shí)用性。研究團(tuán)隊(duì)提供了完整的開源代碼和數(shù)據(jù),任何研究者或開發(fā)者都可以輕松復(fù)現(xiàn)和應(yīng)用這項(xiàng)技術(shù)。更重要的是,這種方法不依賴于特定的模型架構(gòu)或訓(xùn)練框架,具有很好的通用性。

當(dāng)然,這項(xiàng)研究也有其局限性。一千個(gè)樣本雖然相對(duì)簡(jiǎn)單,但如何選擇這些樣本仍然需要一定的技巧。研究團(tuán)隊(duì)使用的是隨機(jī)抽樣方法,但在特定應(yīng)用場(chǎng)景下,可能需要更加精心的樣本選擇策略。此外,雖然GeRe方法在多個(gè)基準(zhǔn)測(cè)試上表現(xiàn)優(yōu)異,但在更加復(fù)雜和多樣化的實(shí)際應(yīng)用中的表現(xiàn)還需要進(jìn)一步驗(yàn)證。

展望未來,這項(xiàng)研究為大語言模型的持續(xù)學(xué)習(xí)開辟了新的道路。隨著AI技術(shù)的快速發(fā)展,我們有理由相信,未來的AI系統(tǒng)將能夠像人類一樣,在不斷學(xué)習(xí)新知識(shí)的同時(shí)保持已有能力,實(shí)現(xiàn)真正意義上的終身學(xué)習(xí)。

說到底,哈工大團(tuán)隊(duì)的這項(xiàng)研究不僅解決了一個(gè)重要的技術(shù)難題,更重要的是,它證明了簡(jiǎn)單往往比復(fù)雜更有效。一千個(gè)普通的文本樣本,配合巧妙的算法設(shè)計(jì),就能讓AI獲得近乎人類的學(xué)習(xí)能力。這種"以簡(jiǎn)馭繁"的智慧,或許正是人工智能發(fā)展的正確方向。

Q&A

Q1:GeRe框架具體是怎么工作的?為什么只需要一千個(gè)樣本?

A:GeRe框架的核心是使用一千個(gè)從互聯(lián)網(wǎng)隨機(jī)收集的普通文本作為"營(yíng)養(yǎng)均衡餐",在AI學(xué)習(xí)新任務(wù)時(shí)同時(shí)讓它復(fù)習(xí)這些通用樣本。這些樣本就像維生素,能保持AI的基礎(chǔ)能力不退化。之所以一千個(gè)就夠,是因?yàn)檫@些樣本覆蓋了足夠多樣的語言模式和知識(shí)領(lǐng)域,能夠維持AI神經(jīng)網(wǎng)絡(luò)的整體平衡狀態(tài)。

Q2:閾值邊際損失(TM)比傳統(tǒng)方法好在哪里?

A:TM損失就像一個(gè)精密的調(diào)音器,它不是簡(jiǎn)單地要求AI完全復(fù)制舊的輸出,而是監(jiān)控AI大腦中神經(jīng)元的激活狀態(tài),只要這些狀態(tài)保持在合理范圍內(nèi)就行。這比傳統(tǒng)的L1/L2損失更加靈活,避免了過度嚴(yán)格的約束,讓AI在學(xué)習(xí)新知識(shí)時(shí)有更大的適應(yīng)空間,同時(shí)又不會(huì)偏離太遠(yuǎn)。

Q3:這項(xiàng)技術(shù)對(duì)普通用戶使用AI產(chǎn)品有什么影響?

A:這項(xiàng)技術(shù)最直接的影響是讓AI產(chǎn)品更加穩(wěn)定可靠。以后你使用的AI助手在學(xué)會(huì)新技能后不會(huì)忘記基本常識(shí),比如一個(gè)AI客服在學(xué)會(huì)處理技術(shù)問題后仍然能夠進(jìn)行正常的日常對(duì)話。對(duì)AI公司來說,這大大降低了維護(hù)成本,因?yàn)椴恍枰獮槊總€(gè)新功能都收集大量專門的訓(xùn)練數(shù)據(jù)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-