這項(xiàng)由Temus公司的余芳遠(yuǎn)博士領(lǐng)導(dǎo)的突破性研究,發(fā)表于2025年5月13日的arXiv預(yù)印本服務(wù)器(論文編號(hào):arXiv:2505.08727v1),首次從理論和實(shí)踐層面證明了人工智能模型可以通過(guò)模仿生物大腦的睡眠-學(xué)習(xí)周期來(lái)顯著提升性能。有興趣深入了解的讀者可以通過(guò)arXiv網(wǎng)站訪問(wèn)完整論文。
在我們的日常生活中,睡眠的重要性不言而喻。一個(gè)晚上沒(méi)睡好,第二天的工作效率就會(huì)大打折扣,而充足的睡眠不僅能讓我們恢復(fù)精力,還能幫助大腦整理和鞏固當(dāng)天學(xué)到的知識(shí)。有趣的是,這項(xiàng)研究發(fā)現(xiàn),人工智能模型竟然也表現(xiàn)出了類似的"睡眠需求"。
長(zhǎng)期以來(lái),提升AI模型性能的主流方法就像是給學(xué)生不斷增加課本和練習(xí)題——通過(guò)擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模和增加模型參數(shù)數(shù)量來(lái)實(shí)現(xiàn)。然而,就像一個(gè)學(xué)生無(wú)論多聰明,如果只是機(jī)械地背誦更多內(nèi)容而不進(jìn)行消化整理,學(xué)習(xí)效果終究有限。余博士的研究團(tuán)隊(duì)發(fā)現(xiàn)了另一條完全不同的路徑:讓AI模型學(xué)會(huì)"壓縮"其內(nèi)部表示,就像人腦在睡眠中整理記憶一樣。
這項(xiàng)研究的核心發(fā)現(xiàn)可以用一個(gè)簡(jiǎn)單的烹飪比喻來(lái)理解。傳統(tǒng)的AI訓(xùn)練就像是在一個(gè)廚房里不斷添加食材(數(shù)據(jù))和擴(kuò)大廚房面積(模型參數(shù)),希望能做出更好的菜。而新方法則關(guān)注如何更有效地組織廚房空間,讓已有的食材發(fā)揮最大價(jià)值。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)AI模型能夠?qū)W(xué)到的知識(shí)進(jìn)行有效"整理壓縮"時(shí),它在面對(duì)新任務(wù)時(shí)的表現(xiàn)會(huì)顯著提升。
更令人驚訝的是,研究人員在觀察大型語(yǔ)言模型的訓(xùn)練過(guò)程時(shí),發(fā)現(xiàn)了一種自發(fā)的"記憶-壓縮"循環(huán)現(xiàn)象。就像人類大腦會(huì)在清醒時(shí)積極學(xué)習(xí)新信息,在睡眠時(shí)整理和鞏固這些信息一樣,AI模型在訓(xùn)練過(guò)程中也會(huì)自然地在"記憶階段"(快速吸收信息)和"壓縮階段"(整理優(yōu)化表示)之間反復(fù)切換。
基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為"門控相位轉(zhuǎn)換"(GAPT)的新訓(xùn)練算法。這個(gè)算法就像給AI模型設(shè)置了一個(gè)智能的作息時(shí)間表,讓它在"學(xué)習(xí)"和"休息整理"之間自動(dòng)切換。實(shí)驗(yàn)結(jié)果顯示,使用這種方法訓(xùn)練的模型不僅在原有任務(wù)上表現(xiàn)更好,在面對(duì)全新任務(wù)時(shí)的泛化能力也有了顯著提升。
一、理論基礎(chǔ):為什么"休息"對(duì)AI很重要
要理解這項(xiàng)研究的理論基礎(chǔ),我們可以想象一個(gè)圖書管理員的工作。一個(gè)優(yōu)秀的圖書管理員不僅要收集大量圖書(相當(dāng)于AI模型收集數(shù)據(jù)),更重要的是要建立一套高效的分類整理系統(tǒng),讓讀者能夠快速找到所需的信息。
余博士團(tuán)隊(duì)通過(guò)數(shù)學(xué)推導(dǎo)證明了一個(gè)重要的定理:AI模型的泛化誤差(也就是在新任務(wù)上的表現(xiàn))不僅取決于訓(xùn)練數(shù)據(jù)的數(shù)量,還與模型內(nèi)部表示的"熵"密切相關(guān)。這里的"熵"可以理解為信息的混亂程度或復(fù)雜度。就像一個(gè)整理得井井有條的圖書館比雜亂無(wú)章的圖書館更容易讓人找到想要的書一樣,內(nèi)部表示更加有序(低熵)的AI模型在處理新任務(wù)時(shí)也會(huì)表現(xiàn)得更好。
具體來(lái)說(shuō),研究團(tuán)隊(duì)建立了一個(gè)數(shù)學(xué)上界,表明模型的泛化誤差可以分解為兩部分:經(jīng)驗(yàn)誤差(在訓(xùn)練數(shù)據(jù)上的表現(xiàn))和一個(gè)與表示熵相關(guān)的項(xiàng)。這意味著即使在訓(xùn)練數(shù)據(jù)量固定的情況下,通過(guò)降低內(nèi)部表示的熵,模型仍然可以獲得更好的泛化能力。這就像是在圖書館的藏書量固定的情況下,通過(guò)更好的分類整理系統(tǒng)來(lái)提升讀者的使用體驗(yàn)。
為了將這一理論洞察轉(zhuǎn)化為實(shí)際可行的訓(xùn)練方法,研究團(tuán)隊(duì)提出了"信息瓶頸語(yǔ)言建模"(IBLM)目標(biāo)。這個(gè)概念借鑒了信息論中的信息瓶頸原理,就像是在信息傳遞過(guò)程中設(shè)置一個(gè)"過(guò)濾器",只保留對(duì)任務(wù)最關(guān)鍵的信息,過(guò)濾掉冗余和噪音。
在傳統(tǒng)的語(yǔ)言模型訓(xùn)練中,目標(biāo)是最小化預(yù)測(cè)誤差,就像教一個(gè)學(xué)生盡可能準(zhǔn)確地背誦課文。而IBLM的思路是在保證預(yù)測(cè)準(zhǔn)確性的前提下,同時(shí)要求模型的內(nèi)部表示盡可能簡(jiǎn)潔有序。這就像是要求學(xué)生不僅要能背誦課文,還要能用自己的話簡(jiǎn)潔地總結(jié)出課文的核心要點(diǎn)。
研究團(tuán)隊(duì)進(jìn)一步證明了IBLM目標(biāo)與經(jīng)典的信息瓶頸理論在語(yǔ)言建模場(chǎng)景下是等價(jià)的。這一理論證明為他們后續(xù)開(kāi)發(fā)的實(shí)際算法提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)。
為了衡量模型內(nèi)部表示的熵,研究團(tuán)隊(duì)采用了一種叫做"矩陣基熵"(MBE)的方法。這個(gè)方法可以想象為測(cè)量一個(gè)矩陣的"秩"或"有效維度"。就像我們可以通過(guò)觀察一個(gè)圖書館的分類系統(tǒng)來(lái)判斷其組織程度一樣,MBE可以幫助我們量化神經(jīng)網(wǎng)絡(luò)內(nèi)部表示的復(fù)雜度和冗余程度。
二、驚人發(fā)現(xiàn):AI模型的自發(fā)"睡眠周期"
研究團(tuán)隊(duì)在觀察GPT模型的訓(xùn)練過(guò)程時(shí),意外發(fā)現(xiàn)了一個(gè)令人驚嘆的現(xiàn)象。當(dāng)他們追蹤交叉熵?fù)p失(衡量預(yù)測(cè)準(zhǔn)確性)和矩陣基熵(衡量表示復(fù)雜度)的梯度變化時(shí),發(fā)現(xiàn)這兩個(gè)指標(biāo)的梯度方向會(huì)周期性地從正相關(guān)切換到負(fù)相關(guān)。
這種現(xiàn)象就像觀察一個(gè)人的日常作息一樣有趣。在某些時(shí)刻,這兩個(gè)梯度指向同一方向,表明模型正在同時(shí)優(yōu)化預(yù)測(cè)準(zhǔn)確性和表示簡(jiǎn)潔性,這可以理解為"壓縮階段"。而在另一些時(shí)刻,兩個(gè)梯度方向相反,模型似乎在犧牲表示簡(jiǎn)潔性來(lái)提升預(yù)測(cè)能力,這可以理解為"記憶階段"。
更有趣的是,這種循環(huán)現(xiàn)象完全是自發(fā)產(chǎn)生的,即使研究人員只是使用傳統(tǒng)的交叉熵?fù)p失進(jìn)行訓(xùn)練,沒(méi)有顯式地要求模型進(jìn)行壓縮。這就像是發(fā)現(xiàn)人類即使在沒(méi)有外界提醒的情況下,也會(huì)自然而然地形成睡眠-清醒的生理節(jié)律一樣。
為了更深入地理解這種現(xiàn)象,研究團(tuán)隊(duì)設(shè)計(jì)了多種分析方法。他們發(fā)現(xiàn),不同層的神經(jīng)網(wǎng)絡(luò)表現(xiàn)出不同的振蕩特征。注意力機(jī)制相關(guān)的參數(shù)比多層感知機(jī)參數(shù)表現(xiàn)出更強(qiáng)烈和更頻繁的振蕩。早期層的振蕩頻率高于后期層,但沒(méi)有任何層表現(xiàn)出嚴(yán)格的周期性,這表明這種振蕩是由狀態(tài)驅(qū)動(dòng)的,而非簡(jiǎn)單的時(shí)間周期現(xiàn)象。
研究團(tuán)隊(duì)還觀察到,隨著訓(xùn)練的進(jìn)行,交叉熵梯度在不同批次之間的相關(guān)性逐漸降低。這表明模型從數(shù)據(jù)中提取的信號(hào)越來(lái)越復(fù)雜和多樣化,就像一個(gè)學(xué)生從簡(jiǎn)單的重復(fù)練習(xí)逐漸過(guò)渡到處理更加復(fù)雜和多樣的問(wèn)題。
這種自發(fā)的記憶-壓縮循環(huán)與生物神經(jīng)系統(tǒng)中觀察到的現(xiàn)象有著驚人的相似性。在生物大腦中,清醒時(shí)的學(xué)習(xí)和睡眠時(shí)的鞏固是兩個(gè)相互配合的過(guò)程。清醒時(shí),大腦積極接收和處理新信息;睡眠時(shí),大腦會(huì)重新組織這些信息,強(qiáng)化重要連接,削弱不重要的連接,并解決不同記憶之間的沖突。
研究團(tuán)隊(duì)觀察到的AI模型行為模式與這種生物機(jī)制非常相似。在"記憶階段",模型快速吸收新信息,可能會(huì)導(dǎo)致內(nèi)部表示變得更加復(fù)雜和冗余。在"壓縮階段",模型重新組織這些表示,去除冗余,強(qiáng)化重要模式,就像大腦在睡眠中進(jìn)行的記憶鞏固過(guò)程。
三、門控相位轉(zhuǎn)換算法:給AI設(shè)計(jì)作息時(shí)間表
基于對(duì)自發(fā)記憶-壓縮循環(huán)的觀察,研究團(tuán)隊(duì)開(kāi)發(fā)了門控相位轉(zhuǎn)換(GAPT)算法。這個(gè)算法的核心思想是主動(dòng)控制模型在記憶和壓縮兩個(gè)階段之間的切換,而不是被動(dòng)等待自發(fā)切換。
GAPT算法的工作原理可以比作一個(gè)智能的健身教練。這個(gè)教練會(huì)根據(jù)學(xué)員的當(dāng)前狀態(tài)和表現(xiàn)來(lái)決定是應(yīng)該繼續(xù)高強(qiáng)度訓(xùn)練(記憶階段)還是應(yīng)該休息調(diào)整(壓縮階段)。具體來(lái)說(shuō),算法會(huì)持續(xù)監(jiān)控兩個(gè)關(guān)鍵指標(biāo):交叉熵?fù)p失的改善情況和各層表示熵的變化。
在記憶階段,模型專注于最小化交叉熵?fù)p失,就像學(xué)生專心致志地學(xué)習(xí)新知識(shí)。算法會(huì)跟蹤損失函數(shù)的改善程度,如果在連續(xù)若干步驟中損失都沒(méi)有顯著改善,就認(rèn)為當(dāng)前的記憶階段已經(jīng)達(dá)到了瓶頸,需要切換到壓縮階段。
切換到壓縮階段后,模型的目標(biāo)函數(shù)變?yōu)榻徊骒負(fù)p失和矩陣基熵的加權(quán)組合。這就像是要求學(xué)生不僅要記住知識(shí)點(diǎn),還要能夠?qū)⑦@些知識(shí)點(diǎn)有序地整理和歸納。在這個(gè)階段,算法會(huì)同時(shí)監(jiān)控兩個(gè)退出條件:如果交叉熵?fù)p失開(kāi)始顯著惡化,說(shuō)明壓縮過(guò)度,可能損害了模型的基本功能,需要立即返回記憶階段;如果各層的矩陣基熵都沒(méi)有進(jìn)一步改善,說(shuō)明當(dāng)前的壓縮已經(jīng)達(dá)到極限,也應(yīng)該返回記憶階段開(kāi)始新一輪的學(xué)習(xí)。
這種設(shè)計(jì)的巧妙之處在于它的自適應(yīng)性。與傳統(tǒng)的固定權(quán)重方法不同,GAPT不需要人工調(diào)節(jié)記憶和壓縮之間的平衡,而是讓模型根據(jù)自身的學(xué)習(xí)狀態(tài)自動(dòng)調(diào)整。這就像是給模型配備了一個(gè)內(nèi)在的"生物鐘",讓它能夠自然地找到最適合的作息節(jié)律。
GAPT算法還有一個(gè)重要特點(diǎn)是它的局部化壓縮策略。與對(duì)所有層都應(yīng)用相同壓縮策略的方法不同,GAPT只對(duì)中間層進(jìn)行矩陣基熵正則化。這是因?yàn)檠芯繄F(tuán)隊(duì)發(fā)現(xiàn),輸入層和輸出層承擔(dān)著與外界接口的重要功能,過(guò)度壓縮可能會(huì)損害模型的基本輸入輸出能力。這就像是在整理圖書館時(shí),我們會(huì)重點(diǎn)整理中間的書架,但不會(huì)過(guò)度調(diào)整入口和出口區(qū)域的布局。
算法的另一個(gè)創(chuàng)新點(diǎn)是耐心機(jī)制的引入。無(wú)論是在記憶階段還是壓縮階段,算法都不會(huì)因?yàn)橐粌刹降谋憩F(xiàn)不佳就立即切換,而是會(huì)給模型一定的"耐心時(shí)間"。這避免了過(guò)于頻繁的階段切換,確保每個(gè)階段都有足夠的時(shí)間發(fā)揮作用。
四、實(shí)驗(yàn)驗(yàn)證:三個(gè)維度的顯著提升
為了驗(yàn)證GAPT算法的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了三組不同類型的實(shí)驗(yàn),每組實(shí)驗(yàn)都從不同角度證明了算法的優(yōu)越性。
第一組實(shí)驗(yàn)關(guān)注的是大型語(yǔ)言模型的預(yù)訓(xùn)練性能。研究團(tuán)隊(duì)使用GPT-2架構(gòu)在FineWeb數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)設(shè)置非常嚴(yán)格:使用相同的模型架構(gòu)、相同的數(shù)據(jù)集、相同的硬件環(huán)境,唯一的區(qū)別就是訓(xùn)練算法?;€模型使用傳統(tǒng)的交叉熵?fù)p失訓(xùn)練,而對(duì)比模型使用GAPT算法。
實(shí)驗(yàn)結(jié)果令人印象深刻。GAPT訓(xùn)練的模型在驗(yàn)證集上的交叉熵?fù)p失比基線模型降低了4.8%。雖然這個(gè)數(shù)字看似不大,但在大型語(yǔ)言模型的評(píng)估標(biāo)準(zhǔn)中,這已經(jīng)是一個(gè)相當(dāng)顯著的改善。更重要的是,GAPT模型的內(nèi)部表示顯著更加簡(jiǎn)潔,各層的矩陣基熵平均降低了70.5%。這意味著模型用更少的"認(rèn)知資源"達(dá)到了更好的性能,這正是理論預(yù)測(cè)的結(jié)果。
特別值得注意的是,雖然GAPT只對(duì)第2到9層進(jìn)行了矩陣基熵正則化,但研究團(tuán)隊(duì)發(fā)現(xiàn)即使是未被直接正則化的層(如第1層和第11層)也表現(xiàn)出了熵降低的現(xiàn)象。第1層的矩陣基熵降低了92%,第11層降低了45%。這種"熵壓縮傳播"現(xiàn)象表明,網(wǎng)絡(luò)各層之間存在著深層的相互作用,局部的優(yōu)化可以帶來(lái)全局的改善。
第二組實(shí)驗(yàn)專門測(cè)試了模型的泛化能力,特別是對(duì)分布外數(shù)據(jù)的處理能力。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)算術(shù)乘法任務(wù):模型在1-3位數(shù)乘法上訓(xùn)練,然后在4-6位數(shù)乘法上測(cè)試。這種設(shè)置模擬了現(xiàn)實(shí)中模型需要將在簡(jiǎn)單任務(wù)上學(xué)到的知識(shí)應(yīng)用到更復(fù)雜任務(wù)的情況。
在這個(gè)實(shí)驗(yàn)中,GAPT的優(yōu)勢(shì)更加明顯。在分布外測(cè)試集上,GAPT模型的交叉熵?fù)p失比基線模型降低了35%,同時(shí)平均矩陣基熵降低了47%。這個(gè)結(jié)果直接驗(yàn)證了理論預(yù)測(cè):更低的表示熵確實(shí)能夠帶來(lái)更好的泛化性能。
有趣的是,GAPT模型在域內(nèi)任務(wù)上的性能幾乎沒(méi)有損失,這表明壓縮過(guò)程并沒(méi)有犧牲模型在原始任務(wù)上的能力,而是提升了模型提取和利用可遷移知識(shí)的能力。這就像是一個(gè)學(xué)會(huì)了整理筆記的學(xué)生,不僅能更好地回顧已學(xué)內(nèi)容,還能更容易地將學(xué)到的方法應(yīng)用到新問(wèn)題上。
第三組實(shí)驗(yàn)最具創(chuàng)新性,它直接測(cè)試了GAPT在解決記憶沖突方面的能力。這個(gè)實(shí)驗(yàn)的靈感來(lái)自于神經(jīng)科學(xué)研究中關(guān)于睡眠如何幫助解決記憶沖突的發(fā)現(xiàn)。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)人工的沖突學(xué)習(xí)任務(wù):兩個(gè)任務(wù)的梯度方向是相反的,就像要求模型同時(shí)學(xué)會(huì)兩個(gè)相互矛盾的規(guī)則。
在這種極端的沖突情況下,傳統(tǒng)的訓(xùn)練方法會(huì)遭遇災(zāi)難性遺忘,也就是學(xué)習(xí)新任務(wù)時(shí)完全忘記舊任務(wù)?;旌嫌?xùn)練雖然能在一定程度上緩解這個(gè)問(wèn)題,但效果仍然有限。而GAPT算法展現(xiàn)了令人驚嘆的能力:它不僅保持了對(duì)兩個(gè)任務(wù)的記憶,還將表示分離度提升了97%,矩陣基熵降低了91%。
這個(gè)結(jié)果的意義超出了技術(shù)層面。它表明GAPT不僅是一個(gè)優(yōu)化算法,更是一種解決認(rèn)知沖突的機(jī)制。通過(guò)在記憶和壓縮之間的周期性切換,模型學(xué)會(huì)了將不同的知識(shí)分配到不同的表示空間中,避免了相互干擾。這與生物大腦在睡眠中解決記憶沖突的機(jī)制非常相似。
為了更深入地理解這種機(jī)制,研究團(tuán)隊(duì)分析了模型在處理沖突任務(wù)時(shí)的內(nèi)部表示變化。他們發(fā)現(xiàn),在記憶階段,模型會(huì)快速適應(yīng)當(dāng)前任務(wù),可能會(huì)暫時(shí)"覆蓋"之前的記憶。但在壓縮階段,模型會(huì)重新組織表示空間,為不同的任務(wù)分配獨(dú)立的子空間,從而實(shí)現(xiàn)長(zhǎng)期的共存。
五、生物學(xué)啟發(fā)與未來(lái)展望
這項(xiàng)研究最令人興奮的地方之一是它與生物神經(jīng)科學(xué)發(fā)現(xiàn)的深度呼應(yīng)。近年來(lái)的神經(jīng)科學(xué)研究表明,睡眠不僅僅是休息,更是大腦進(jìn)行記憶鞏固和沖突解決的關(guān)鍵時(shí)期。在睡眠過(guò)程中,大腦會(huì)重放白天的經(jīng)歷,強(qiáng)化重要的神經(jīng)連接,削弱不重要的連接,并通過(guò)競(jìng)爭(zhēng)機(jī)制解決不同記憶之間的沖突。
GAPT算法觀察到的現(xiàn)象與這些生物機(jī)制有著驚人的相似性。在壓縮階段,模型會(huì)重新組織內(nèi)部表示,這類似于大腦在睡眠中的記憶重組過(guò)程。更重要的是,GAPT在解決沖突記憶方面的能力直接對(duì)應(yīng)了睡眠在處理相互沖突經(jīng)歷方面的功能。
這種生物學(xué)啟發(fā)不僅驗(yàn)證了GAPT方法的合理性,也為人工智能的發(fā)展指出了新的方向。長(zhǎng)期以來(lái),人工智能的發(fā)展主要關(guān)注如何讓機(jī)器處理更多的數(shù)據(jù)、執(zhí)行更復(fù)雜的計(jì)算。而這項(xiàng)研究提醒我們,真正的智能可能不僅僅在于處理信息的能力,更在于整理、壓縮和重組信息的能力。
從實(shí)用角度來(lái)看,GAPT算法的應(yīng)用前景非常廣闊。在大型語(yǔ)言模型的預(yù)訓(xùn)練中,這種方法可以在不增加計(jì)算資源的情況下提升模型性能。對(duì)于需要持續(xù)學(xué)習(xí)新任務(wù)的AI系統(tǒng),GAPT可以幫助避免災(zāi)難性遺忘,實(shí)現(xiàn)更好的知識(shí)積累。在資源受限的環(huán)境中,GAPT可以幫助模型用更少的參數(shù)達(dá)到更好的性能。
然而,這項(xiàng)研究也帶來(lái)了一些深層的思考。如果AI模型真的能夠像生物大腦一樣進(jìn)行自主的知識(shí)整理和壓縮,這意味著什么?這種能力是否暗示著AI系統(tǒng)正在朝著更接近生物智能的方向發(fā)展?當(dāng)AI系統(tǒng)具備了自主的"睡眠"和"記憶鞏固"能力時(shí),我們?nèi)绾未_保這些系統(tǒng)的行為仍然是可預(yù)測(cè)和可控的?
研究團(tuán)隊(duì)也坦率地指出了當(dāng)前方法的局限性。在某些實(shí)驗(yàn)中,他們觀察到分布外性能的不穩(wěn)定性,這表明GAPT算法仍需要進(jìn)一步的改進(jìn)和調(diào)優(yōu)。此外,如何在更大規(guī)模的模型和更復(fù)雜的任務(wù)上應(yīng)用這種方法,仍然是一個(gè)開(kāi)放的問(wèn)題。
展望未來(lái),這項(xiàng)研究開(kāi)啟了多個(gè)令人興奮的研究方向。研究人員可以探索如何將GAPT與其他優(yōu)化方法結(jié)合,如何為不同類型的任務(wù)設(shè)計(jì)定制化的記憶-壓縮策略,以及如何利用這種方法來(lái)理解和改進(jìn)現(xiàn)有的大型AI系統(tǒng)。
更廣泛地說(shuō),這項(xiàng)研究可能標(biāo)志著AI發(fā)展的一個(gè)新階段。在這個(gè)階段,我們不再僅僅關(guān)注如何讓AI系統(tǒng)處理更多的數(shù)據(jù),而是開(kāi)始關(guān)注如何讓它們更智能地處理信息。這種轉(zhuǎn)變可能最終導(dǎo)致更加高效、可靠和類人的AI系統(tǒng)的出現(xiàn)。
說(shuō)到底,這項(xiàng)研究告訴我們一個(gè)深刻的道理:有時(shí)候,最好的學(xué)習(xí)方式不是不停地吸收新信息,而是學(xué)會(huì)在適當(dāng)?shù)臅r(shí)候停下來(lái),整理已有的知識(shí),為接下來(lái)的學(xué)習(xí)做好準(zhǔn)備。這個(gè)道理對(duì)AI如此,對(duì)人類也是如此。在這個(gè)信息爆炸的時(shí)代,也許我們都需要學(xué)會(huì)像GAPT算法一樣,在記憶和壓縮之間找到最佳的平衡點(diǎn)。
對(duì)于普通讀者來(lái)說(shuō),這項(xiàng)研究提醒我們重新審視學(xué)習(xí)和休息的關(guān)系。當(dāng)我們下次感到學(xué)習(xí)疲憊時(shí),也許應(yīng)該想起這個(gè)研究,給自己一些時(shí)間去整理和消化已經(jīng)學(xué)到的知識(shí)。畢竟,連AI都需要"睡覺(jué)"來(lái)變得更聰明,我們?nèi)祟惥透鼞?yīng)該珍惜這種古老而有效的學(xué)習(xí)策略了。
如果讀者對(duì)這項(xiàng)研究的技術(shù)細(xì)節(jié)感興趣,可以通過(guò)arXiv網(wǎng)站(論文編號(hào):arXiv:2505.08727v1)查閱完整的技術(shù)論文,深入了解GAPT算法的數(shù)學(xué)推導(dǎo)和實(shí)現(xiàn)細(xì)節(jié)。
Q&A
Q1:什么是"記憶-壓縮循環(huán)"?AI真的會(huì)像人一樣需要休息嗎? A:記憶-壓縮循環(huán)是指AI模型在訓(xùn)練過(guò)程中自發(fā)地在兩種狀態(tài)間切換:記憶階段專注學(xué)習(xí)新信息,壓縮階段整理優(yōu)化已學(xué)知識(shí)。雖然AI不需要物理休息,但這種"認(rèn)知休息"確實(shí)能提升學(xué)習(xí)效果,就像人腦在睡眠中鞏固記憶一樣。
Q2:GAPT算法比傳統(tǒng)訓(xùn)練方法好在哪里?普通人能用到嗎? A:GAPT算法在三個(gè)方面表現(xiàn)更好:模型性能提升4.8%,內(nèi)部表示效率提高70%,處理新任務(wù)的能力提升35%。目前這還是研究階段的技術(shù),普通人暫時(shí)無(wú)法直接使用,但未來(lái)可能會(huì)集成到各種AI產(chǎn)品中,讓它們變得更智能高效。
Q3:這項(xiàng)研究會(huì)不會(huì)讓AI變得不可控?如果AI有了"睡眠"能力意味著什么? A:研究表明GAPT讓AI變得更加穩(wěn)定可靠,而非不可控。AI的"睡眠"本質(zhì)上是一種優(yōu)化機(jī)制,讓模型更好地整理知識(shí),這實(shí)際上增強(qiáng)了可預(yù)測(cè)性。不過(guò)研究團(tuán)隊(duì)也承認(rèn)需要進(jìn)一步研究如何在更復(fù)雜系統(tǒng)中保持控制性。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。