這項(xiàng)由ByteDance Seed團(tuán)隊(duì)的黃志豪、包宇、閔奇揚(yáng)等研究人員完成的重要研究,于2025年8月27日發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):arXiv:2508.18756v1),為人工智能領(lǐng)域帶來(lái)了突破性進(jìn)展。想要深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)論文代碼頁(yè)面https://github.com/ZihaoHuang-notabot/Ultra-Sparse-Memory-Network獲得完整資料。
現(xiàn)代人工智能就像一個(gè)擁有超強(qiáng)記憶力的學(xué)生,但傳統(tǒng)的AI系統(tǒng)在處理信息時(shí)面臨著一個(gè)根本矛盾:要么擁有強(qiáng)大的計(jì)算能力但記憶訪問(wèn)成本高昂,要么記憶訪問(wèn)便宜但性能受限。這個(gè)問(wèn)題困擾著整個(gè)AI界,就好比你想要一個(gè)既聰明又高效的助手,但現(xiàn)有的技術(shù)總是讓你在兩者之間做出妥協(xié)。
在AI的世界里,有一種叫做"混合專家"(MoE)的技術(shù),它就像一個(gè)擁有多位專業(yè)顧問(wèn)的智能系統(tǒng)。當(dāng)遇到問(wèn)題時(shí),系統(tǒng)會(huì)選擇最合適的幾位專家來(lái)協(xié)同工作。這種方法確實(shí)很聰明,特別是當(dāng)激活8位專家時(shí)效果最佳,但問(wèn)題在于每次咨詢專家都需要大量的"路費(fèi)"——也就是內(nèi)存訪問(wèn)開(kāi)銷,這讓整個(gè)系統(tǒng)運(yùn)行起來(lái)成本昂貴且緩慢。
與此同時(shí),另一種叫做"記憶層"的技術(shù)則像一個(gè)巨大的圖書館,系統(tǒng)可以直接從中檢索所需信息,訪問(wèn)成本相對(duì)較低。然而,之前的記憶層技術(shù)(比如UltraMem)雖然在效率方面表現(xiàn)不錯(cuò),但性能卻只能與使用2位專家的MoE系統(tǒng)相匹敵,與最優(yōu)的8專家配置相比存在顯著差距。
ByteDance的研究團(tuán)隊(duì)就像一群技藝精湛的工程師,他們決心打破這個(gè)技術(shù)瓶頸。他們開(kāi)發(fā)的UltraMemV2系統(tǒng),成功地讓記憶層架構(gòu)的性能追上了頂級(jí)的8專家MoE模型,同時(shí)保持了記憶訪問(wèn)的低成本優(yōu)勢(shì)。這項(xiàng)突破就好比他們找到了制造既快速又節(jié)能的超級(jí)計(jì)算機(jī)的方法。
研究團(tuán)隊(duì)的創(chuàng)新體現(xiàn)在五個(gè)關(guān)鍵改進(jìn)上。首先,他們將記憶層深度整合到每個(gè)變換器塊中,就像在每個(gè)房間都安裝了智能助手,而不是只在幾個(gè)房間設(shè)置。其次,他們簡(jiǎn)化了數(shù)值擴(kuò)展過(guò)程,使用單一的線性投影替代了復(fù)雜的多層結(jié)構(gòu),這就像用一個(gè)簡(jiǎn)單高效的工具替代了繁瑣的多步驟流程。
第三個(gè)改進(jìn)來(lái)自對(duì)PEER技術(shù)的采用,這種基于前饋神經(jīng)網(wǎng)絡(luò)的數(shù)值處理方法,讓系統(tǒng)能夠更好地處理激活的數(shù)值,就像給圖書管理員配備了更先進(jìn)的分類系統(tǒng)。第四個(gè)關(guān)鍵點(diǎn)是優(yōu)化了參數(shù)初始化方法,確保訓(xùn)練過(guò)程的穩(wěn)定性,避免了訓(xùn)練發(fā)散的問(wèn)題,這相當(dāng)于為系統(tǒng)的學(xué)習(xí)過(guò)程制定了科學(xué)的起步規(guī)則。最后,他們重新平衡了記憶層與傳統(tǒng)前饋網(wǎng)絡(luò)之間的計(jì)算比例,找到了最優(yōu)的資源分配方案。
實(shí)驗(yàn)結(jié)果令人印象深刻。在標(biāo)準(zhǔn)測(cè)試中,UltraMemV2達(dá)到了與8專家MoE模型相當(dāng)?shù)男阅芩剑谛枰罅坑洃浀娜蝿?wù)上表現(xiàn)更加出色。具體來(lái)說(shuō),在長(zhǎng)文本記憶任務(wù)上提升了1.6個(gè)百分點(diǎn),多輪對(duì)話記憶提升了6.2個(gè)百分點(diǎn),情境學(xué)習(xí)能力更是提升了7.9個(gè)百分點(diǎn)。這些數(shù)字背后反映的是系統(tǒng)在處理復(fù)雜、需要長(zhǎng)期記憶的任務(wù)時(shí)的顯著優(yōu)勢(shì)。
更重要的是,研究團(tuán)隊(duì)成功驗(yàn)證了這種技術(shù)在大規(guī)模場(chǎng)景下的可行性,他們構(gòu)建的模型擁有高達(dá)1200億個(gè)參數(shù),其中25億個(gè)參數(shù)在實(shí)際使用中被激活。這項(xiàng)工作還揭示了一個(gè)重要發(fā)現(xiàn):激活密度(即每次使用多少參數(shù))對(duì)性能的影響比總的稀疏參數(shù)數(shù)量更為關(guān)鍵,這為未來(lái)的系統(tǒng)設(shè)計(jì)提供了重要指導(dǎo)原則。
從技術(shù)發(fā)展的角度來(lái)看,UltraMemV2的成功意味著記憶層架構(gòu)終于可以與最先進(jìn)的MoE模型平起平坐,為高效稀疏計(jì)算提供了一個(gè)有力的替代方案。這不僅解決了一個(gè)長(zhǎng)期存在的技術(shù)難題,更為構(gòu)建更大規(guī)模、更高效的AI系統(tǒng)開(kāi)辟了新的道路。
然而,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前系統(tǒng)的一些局限性。UltraMemV2在訓(xùn)練初期表現(xiàn)不如MoE模型,需要更多高質(zhì)量數(shù)據(jù)才能發(fā)揮最佳性能。此外,要達(dá)到最優(yōu)效果,系統(tǒng)需要在每個(gè)模型塊中都配置記憶層,這增加了架構(gòu)的復(fù)雜性。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。它為AI領(lǐng)域提供了一種全新的思路,證明了通過(guò)精心設(shè)計(jì)的記憶機(jī)制可以實(shí)現(xiàn)高效且強(qiáng)大的智能系統(tǒng)。對(duì)于普通用戶而言,這意味著未來(lái)的AI助手可能會(huì)變得更加智能和高效,在處理需要長(zhǎng)期記憶的復(fù)雜任務(wù)時(shí)表現(xiàn)更佳,同時(shí)運(yùn)行成本更低。
展望未來(lái),UltraMemV2技術(shù)有望在需要處理大量歷史信息的應(yīng)用場(chǎng)景中發(fā)揮重要作用,比如長(zhǎng)文檔分析、多輪對(duì)話系統(tǒng)、個(gè)性化推薦等。隨著技術(shù)的進(jìn)一步成熟和優(yōu)化,我們可能會(huì)看到更多基于這種記憶層架構(gòu)的AI產(chǎn)品出現(xiàn)在日常生活中,為人們提供更智能、更高效的服務(wù)。
Q&A
Q1:UltraMemV2相比傳統(tǒng)的MoE模型有什么優(yōu)勢(shì)?
A:UltraMemV2的主要優(yōu)勢(shì)在于顯著降低了內(nèi)存訪問(wèn)成本,同時(shí)在性能上達(dá)到了與8專家MoE模型相當(dāng)?shù)乃?。特別是在需要長(zhǎng)期記憶的任務(wù)上表現(xiàn)更加出色,比如長(zhǎng)文本記憶提升1.6個(gè)百分點(diǎn),多輪對(duì)話記憶提升6.2個(gè)百分點(diǎn),情境學(xué)習(xí)能力提升7.9個(gè)百分點(diǎn)。這就像找到了一種既聰明又節(jié)能的計(jì)算方式。
Q2:UltraMemV2技術(shù)的核心改進(jìn)包括哪些方面?
A:研究團(tuán)隊(duì)主要做了五個(gè)關(guān)鍵改進(jìn):將記憶層集成到每個(gè)變換器塊中、簡(jiǎn)化數(shù)值擴(kuò)展過(guò)程使用單一線性投影、采用基于前饋網(wǎng)絡(luò)的PEER技術(shù)處理數(shù)值、優(yōu)化參數(shù)初始化方法防止訓(xùn)練發(fā)散、重新平衡記憶層與前饋網(wǎng)絡(luò)的計(jì)算比例。這些改進(jìn)協(xié)同工作,讓系統(tǒng)性能大幅提升。
Q3:UltraMemV2有什么局限性嗎?
A:是的,UltraMemV2也有一些局限性。它在訓(xùn)練初期表現(xiàn)不如MoE模型,需要更多高質(zhì)量數(shù)據(jù)才能發(fā)揮最佳性能,并且要達(dá)到最優(yōu)效果需要在每個(gè)模型塊中都配置記憶層。不過(guò)研究團(tuán)隊(duì)認(rèn)為這些問(wèn)題可以通過(guò)進(jìn)一步優(yōu)化得到改善。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。