
這項(xiàng)由復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的劉小然、何思洋、王琪琪等研究團(tuán)隊(duì)聯(lián)合上海創(chuàng)新研究院、華為諾亞方舟實(shí)驗(yàn)室以及上海人工智能實(shí)驗(yàn)室共同完成的研究發(fā)表于2025年6月13日的arXiv預(yù)印本平臺。有興趣深入了解的讀者可以通過arXiv:2506.11886v1獲取完整論文。
想象一下,你正在和一個(gè)非常聰明的朋友聊天,他能記住你們之前聊過的所有內(nèi)容,甚至是幾個(gè)小時(shí)前提到的細(xì)節(jié)。但隨著對話越來越長,他的大腦開始變得越來越重,最終重到無法承受。這正是當(dāng)今大型語言模型(就是像ChatGPT這樣的AI聊天機(jī)器人)面臨的困境。
這些AI系統(tǒng)在處理長對話時(shí),需要把之前的所有信息都存儲在一個(gè)叫做"鍵值緩存"的地方,就像一個(gè)不斷膨脹的記憶庫。隨著對話變長,這個(gè)記憶庫會變得越來越龐大,最終導(dǎo)致計(jì)算機(jī)內(nèi)存不夠用,就像你的手機(jī)存儲空間被照片塞滿一樣。
現(xiàn)有的解決方案就像用錘子砸核桃一樣粗暴。有些方法會直接刪除一些舊的對話內(nèi)容,就像強(qiáng)迫你忘記昨天說過的話;有些方法則是把所有記憶都壓縮成更小的格式,但這樣往往會丟失重要信息,就像把高清照片強(qiáng)制壓縮成模糊的縮略圖。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,就像發(fā)現(xiàn)人類大腦的不同區(qū)域有不同功能一樣。他們發(fā)現(xiàn)AI的"注意力機(jī)制"中,不同的維度承擔(dān)著完全不同的任務(wù)。想象AI的大腦就像一個(gè)復(fù)雜的調(diào)音臺,有128個(gè)不同的旋鈕。研究人員發(fā)現(xiàn),前70個(gè)旋鈕主要負(fù)責(zé)處理最近的、局部的信息,就像專門記住剛才說過的話;而后58個(gè)旋鈕則負(fù)責(zé)處理長期的、全局的信息,就像專門記住整個(gè)對話的脈絡(luò)和重要背景。
為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)做了一個(gè)巧妙的實(shí)驗(yàn),就像給調(diào)音臺的不同旋鈕添加噪音來測試它們的重要性。他們給前70個(gè)維度添加了一些隨機(jī)干擾,結(jié)果發(fā)現(xiàn)AI的表現(xiàn)幾乎沒有受到影響,就像給負(fù)責(zé)短期記憶的旋鈕加點(diǎn)雜音,整體效果還是很好。但當(dāng)他們對后58個(gè)維度做同樣的事情時(shí),AI的表現(xiàn)就急劇下降了,就像破壞了負(fù)責(zé)長期記憶的核心部件,整個(gè)系統(tǒng)都亂套了。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一種叫做"FourierAttention"的新方法,就像為調(diào)音臺設(shè)計(jì)了一套智能壓縮系統(tǒng)。這個(gè)系統(tǒng)的核心思想是:既然前70個(gè)旋鈕對長期記憶不那么重要,我們就可以用一種特殊的數(shù)學(xué)技巧來壓縮它們,而完整保留那些真正重要的后58個(gè)旋鈕。
這種數(shù)學(xué)技巧叫做"傅里葉變換",聽起來很復(fù)雜,但其實(shí)就像音樂制作中的概念。想象你有一首復(fù)雜的交響樂,傅里葉變換就像能夠把這首音樂分解成不同頻率的純音調(diào)。研究團(tuán)隊(duì)發(fā)現(xiàn),那些對長期記憶不敏感的維度,其變化模式可以用幾個(gè)簡單的"音調(diào)"來很好地近似,就像用幾個(gè)基本音符就能大致重現(xiàn)一首歌的主旋律。
具體來說,他們的方法就像這樣工作:在AI處理長對話的過程中,系統(tǒng)會自動識別出哪些維度是"局部專家"(負(fù)責(zé)短期記憶),哪些是"全局專家"(負(fù)責(zé)長期記憶)。對于局部專家,系統(tǒng)會使用傅里葉變換將它們的長序列信息壓縮成固定長度的"頻譜系數(shù)",就像把一長串音符壓縮成幾個(gè)關(guān)鍵的音調(diào)參數(shù)。而對于全局專家,系統(tǒng)則完整保留它們的所有信息。
在實(shí)際應(yīng)用中,這個(gè)系統(tǒng)表現(xiàn)得相當(dāng)出色。研究團(tuán)隊(duì)在兩個(gè)重要的測試中驗(yàn)證了他們的方法:一個(gè)叫做LongBench的綜合測試,包含了各種長文檔理解任務(wù);另一個(gè)叫做"大海撈針"測試,專門檢驗(yàn)AI能否在長對話中找到特定信息。
結(jié)果令人印象深刻。在LLaMA3.1-8B模型上,F(xiàn)ourierAttention在大海撈針測試中獲得了93.17分的高分,遠(yuǎn)超其他壓縮方法。比如,StreamingLLM只得到了17.57分,就像一個(gè)健忘的朋友,很快就忘記了重要信息;而FourierAttention幾乎能達(dá)到完整模型100分的表現(xiàn)。
更重要的是,這種方法在保持高性能的同時(shí),大幅減少了內(nèi)存使用。通過壓縮76%的KV緩存維度到固定長度,系統(tǒng)的內(nèi)存需求顯著降低,就像把一個(gè)巨大的圖書館壓縮成一個(gè)小書架,但依然能找到所有重要的書籍。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的分析,發(fā)現(xiàn)他們的壓縮策略有一個(gè)有趣的特點(diǎn):它采用了"倒金字塔"的壓縮模式。在AI的不同層級中,低層級(就像大腦的基礎(chǔ)處理區(qū)域)被壓縮得更多,而高層級(就像大腦的高級認(rèn)知區(qū)域)被壓縮得較少。這與傳統(tǒng)方法正好相反,傳統(tǒng)方法通常認(rèn)為應(yīng)該保留更多的低層級信息。
這種差異的原因很有趣:傳統(tǒng)方法關(guān)注的是注意力的稀疏性(即AI只關(guān)注少數(shù)重要的詞),所以傾向于保留低層級的注意力模式。但FourierAttention關(guān)注的是維度的可重構(gòu)性(即哪些維度可以用簡單的模式很好地近似),結(jié)果發(fā)現(xiàn)高層級的維度由于承擔(dān)更復(fù)雜的語義理解任務(wù),反而更難壓縮,需要保留更多信息。
為了進(jìn)一步優(yōu)化系統(tǒng)性能,研究團(tuán)隊(duì)還開發(fā)了一個(gè)定制的計(jì)算內(nèi)核叫做"FlashFourierAttention"。這就像為他們的壓縮系統(tǒng)專門設(shè)計(jì)了一套高效的硬件操作程序,能夠在計(jì)算過程中直接進(jìn)行壓縮和解壓縮,避免了額外的內(nèi)存讀寫開銷。雖然這個(gè)優(yōu)化還在繼續(xù)完善中,但已經(jīng)顯示出了良好的潛力。
在比較不同的基礎(chǔ)數(shù)學(xué)方法時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)傅里葉變換確實(shí)比其他選擇(如多項(xiàng)式基函數(shù))更適合這個(gè)任務(wù)。這主要是因?yàn)楦道锶~變換具有良好的并行計(jì)算特性,就像它天生就適合在現(xiàn)代計(jì)算機(jī)上高效運(yùn)行。
研究團(tuán)隊(duì)的工作不僅解決了一個(gè)重要的技術(shù)問題,還揭示了AI系統(tǒng)內(nèi)部工作機(jī)制的深層奧秘。他們發(fā)現(xiàn)的維度專業(yè)化現(xiàn)象,就像發(fā)現(xiàn)了AI大腦中不同區(qū)域的分工合作模式,這為未來的AI架構(gòu)設(shè)計(jì)提供了新的思路。
值得注意的是,這種方法是"訓(xùn)練無關(guān)"的,意思是它可以直接應(yīng)用到現(xiàn)有的AI模型上,而不需要重新訓(xùn)練整個(gè)系統(tǒng)。這就像給現(xiàn)有的汽車加裝一個(gè)高效的燃油節(jié)約裝置,立即就能獲得更好的性能,而不需要重新制造整輛車。
當(dāng)然,這項(xiàng)研究也還有一些需要繼續(xù)改進(jìn)的地方。研究團(tuán)隊(duì)坦誠地指出,雖然他們的方法已經(jīng)很接近完整模型的性能,但仍然存在一些差距。同時(shí),他們正在繼續(xù)優(yōu)化那個(gè)定制的計(jì)算內(nèi)核,希望在保持高性能的同時(shí)進(jìn)一步提升計(jì)算效率。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面。隨著AI系統(tǒng)越來越多地被應(yīng)用到需要長時(shí)間對話和記憶的場景中,比如個(gè)人助手、教育輔導(dǎo)、客戶服務(wù)等,內(nèi)存效率的提升將直接影響這些應(yīng)用的可行性和成本。想象一下,如果你的AI助手能夠記住你們幾個(gè)月來的所有對話,同時(shí)不會因?yàn)閮?nèi)存不足而變慢或崩潰,這將大大改善用戶體驗(yàn)。
此外,這種維度專業(yè)化的發(fā)現(xiàn)也為我們理解AI系統(tǒng)的內(nèi)部工作機(jī)制提供了新的視角。就像神經(jīng)科學(xué)家通過研究大腦不同區(qū)域的功能來理解人類認(rèn)知一樣,這項(xiàng)研究幫助我們更好地理解AI是如何處理和存儲信息的。
從更宏觀的角度來看,這項(xiàng)研究代表了AI效率優(yōu)化領(lǐng)域的一個(gè)重要進(jìn)展。在AI模型越來越大、越來越復(fù)雜的今天,如何在保持性能的同時(shí)提高效率,已經(jīng)成為整個(gè)行業(yè)關(guān)注的焦點(diǎn)。FourierAttention提供了一種優(yōu)雅的解決方案,證明了通過深入理解系統(tǒng)內(nèi)部機(jī)制,我們可以找到既聰明又實(shí)用的優(yōu)化方法。
說到底,這項(xiàng)研究就像給AI系統(tǒng)安裝了一個(gè)智能的記憶管理器。它能夠識別出哪些記憶是必須完整保留的珍貴片段,哪些是可以巧妙壓縮的冗余信息,從而在不損失重要信息的前提下,大幅減少系統(tǒng)的負(fù)擔(dān)。這不僅解決了當(dāng)前AI系統(tǒng)面臨的實(shí)際問題,也為未來開發(fā)更高效、更智能的AI系統(tǒng)指出了新的方向。
對于普通用戶來說,這意味著未來的AI助手將能夠進(jìn)行更長、更有意義的對話,同時(shí)保持快速響應(yīng),不會因?yàn)閮?nèi)存問題而突然"失憶"或變慢。對于開發(fā)者和企業(yè)來說,這意味著可以用更少的計(jì)算資源提供更好的AI服務(wù),降低成本的同時(shí)提高用戶滿意度。
研究團(tuán)隊(duì)也誠實(shí)地承認(rèn)了當(dāng)前工作的局限性,并規(guī)劃了未來的改進(jìn)方向。他們正在繼續(xù)優(yōu)化計(jì)算效率,希望在實(shí)際部署中達(dá)到更好的性能平衡。這種誠實(shí)和持續(xù)改進(jìn)的態(tài)度,也體現(xiàn)了優(yōu)秀科研工作的品質(zhì)。
有興趣進(jìn)一步了解技術(shù)細(xì)節(jié)的讀者,可以通過論文的完整版本深入研究他們的具體實(shí)現(xiàn)方法和實(shí)驗(yàn)結(jié)果。這項(xiàng)工作不僅在技術(shù)上有所突破,也為整個(gè)AI研究社區(qū)提供了寶貴的思路和方法。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。