av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="tdrgx"></blockquote>

<em id="tdrgx"><span id="tdrgx"></span></em>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

ByteDance的AI新突破：讓計(jì)算機(jī)記憶系統(tǒng)躍升到1200億參數(shù)規(guī)模

人工智能記憶層架構(gòu)稀疏計(jì)算

ByteDance的AI新突破：讓計(jì)算機(jī)記憶系統(tǒng)躍升到1200億參數(shù)規(guī)模

作者：科技行者

2025-09-03 11:37

分享至：

ByteDance研究團(tuán)隊(duì)開(kāi)發(fā)的UltraMemV2成功讓記憶層架構(gòu)性能追平頂級(jí)8專家MoE模型，同時(shí)大幅降低內(nèi)存訪問(wèn)成本。該技術(shù)通過(guò)五個(gè)關(guān)鍵改進(jìn)，在長(zhǎng)文本記憶等任務(wù)上表現(xiàn)更佳，驗(yàn)證了高達(dá)1200億參數(shù)的可擴(kuò)展性，為高效稀疏計(jì)算提供了重要替代方案，有望推動(dòng)AI系統(tǒng)向更智能高效方向發(fā)展。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-03 11:37 ? 科技行者

這項(xiàng)由ByteDance Seed團(tuán)隊(duì)的黃志豪、包宇、閔奇揚(yáng)等研究人員完成的重要研究，于2025年8月27日發(fā)表在arXiv預(yù)印本平臺(tái)上（論文編號(hào)：arXiv:2508.18756v1），為人工智能領(lǐng)域帶來(lái)了突破性進(jìn)展。想要深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)論文代碼頁(yè)面https://github.com/ZihaoHuang-notabot/Ultra-Sparse-Memory-Network獲得完整資料。

現(xiàn)代人工智能就像一個(gè)擁有超強(qiáng)記憶力的學(xué)生，但傳統(tǒng)的AI系統(tǒng)在處理信息時(shí)面臨著一個(gè)根本矛盾：要么擁有強(qiáng)大的計(jì)算能力但記憶訪問(wèn)成本高昂，要么記憶訪問(wèn)便宜但性能受限。這個(gè)問(wèn)題困擾著整個(gè)AI界，就好比你想要一個(gè)既聰明又高效的助手，但現(xiàn)有的技術(shù)總是讓你在兩者之間做出妥協(xié)。

在AI的世界里，有一種叫做"混合專家"（MoE）的技術(shù)，它就像一個(gè)擁有多位專業(yè)顧問(wèn)的智能系統(tǒng)。當(dāng)遇到問(wèn)題時(shí)，系統(tǒng)會(huì)選擇最合適的幾位專家來(lái)協(xié)同工作。這種方法確實(shí)很聰明，特別是當(dāng)激活8位專家時(shí)效果最佳，但問(wèn)題在于每次咨詢專家都需要大量的"路費(fèi)"——也就是內(nèi)存訪問(wèn)開(kāi)銷，這讓整個(gè)系統(tǒng)運(yùn)行起來(lái)成本昂貴且緩慢。

與此同時(shí)，另一種叫做"記憶層"的技術(shù)則像一個(gè)巨大的圖書館，系統(tǒng)可以直接從中檢索所需信息，訪問(wèn)成本相對(duì)較低。然而，之前的記憶層技術(shù)（比如UltraMem）雖然在效率方面表現(xiàn)不錯(cuò)，但性能卻只能與使用2位專家的MoE系統(tǒng)相匹敵，與最優(yōu)的8專家配置相比存在顯著差距。

ByteDance的研究團(tuán)隊(duì)就像一群技藝精湛的工程師，他們決心打破這個(gè)技術(shù)瓶頸。他們開(kāi)發(fā)的UltraMemV2系統(tǒng)，成功地讓記憶層架構(gòu)的性能追上了頂級(jí)的8專家MoE模型，同時(shí)保持了記憶訪問(wèn)的低成本優(yōu)勢(shì)。這項(xiàng)突破就好比他們找到了制造既快速又節(jié)能的超級(jí)計(jì)算機(jī)的方法。

研究團(tuán)隊(duì)的創(chuàng)新體現(xiàn)在五個(gè)關(guān)鍵改進(jìn)上。首先，他們將記憶層深度整合到每個(gè)變換器塊中，就像在每個(gè)房間都安裝了智能助手，而不是只在幾個(gè)房間設(shè)置。其次，他們簡(jiǎn)化了數(shù)值擴(kuò)展過(guò)程，使用單一的線性投影替代了復(fù)雜的多層結(jié)構(gòu)，這就像用一個(gè)簡(jiǎn)單高效的工具替代了繁瑣的多步驟流程。

第三個(gè)改進(jìn)來(lái)自對(duì)PEER技術(shù)的采用，這種基于前饋神經(jīng)網(wǎng)絡(luò)的數(shù)值處理方法，讓系統(tǒng)能夠更好地處理激活的數(shù)值，就像給圖書管理員配備了更先進(jìn)的分類系統(tǒng)。第四個(gè)關(guān)鍵點(diǎn)是優(yōu)化了參數(shù)初始化方法，確保訓(xùn)練過(guò)程的穩(wěn)定性，避免了訓(xùn)練發(fā)散的問(wèn)題，這相當(dāng)于為系統(tǒng)的學(xué)習(xí)過(guò)程制定了科學(xué)的起步規(guī)則。最后，他們重新平衡了記憶層與傳統(tǒng)前饋網(wǎng)絡(luò)之間的計(jì)算比例，找到了最優(yōu)的資源分配方案。

實(shí)驗(yàn)結(jié)果令人印象深刻。在標(biāo)準(zhǔn)測(cè)試中，UltraMemV2達(dá)到了與8專家MoE模型相當(dāng)?shù)男阅芩剑谛枰罅坑洃浀娜蝿?wù)上表現(xiàn)更加出色。具體來(lái)說(shuō)，在長(zhǎng)文本記憶任務(wù)上提升了1.6個(gè)百分點(diǎn)，多輪對(duì)話記憶提升了6.2個(gè)百分點(diǎn)，情境學(xué)習(xí)能力更是提升了7.9個(gè)百分點(diǎn)。這些數(shù)字背后反映的是系統(tǒng)在處理復(fù)雜、需要長(zhǎng)期記憶的任務(wù)時(shí)的顯著優(yōu)勢(shì)。

更重要的是，研究團(tuán)隊(duì)成功驗(yàn)證了這種技術(shù)在大規(guī)模場(chǎng)景下的可行性，他們構(gòu)建的模型擁有高達(dá)1200億個(gè)參數(shù)，其中25億個(gè)參數(shù)在實(shí)際使用中被激活。這項(xiàng)工作還揭示了一個(gè)重要發(fā)現(xiàn)：激活密度（即每次使用多少參數(shù)）對(duì)性能的影響比總的稀疏參數(shù)數(shù)量更為關(guān)鍵，這為未來(lái)的系統(tǒng)設(shè)計(jì)提供了重要指導(dǎo)原則。

從技術(shù)發(fā)展的角度來(lái)看，UltraMemV2的成功意味著記憶層架構(gòu)終于可以與最先進(jìn)的MoE模型平起平坐，為高效稀疏計(jì)算提供了一個(gè)有力的替代方案。這不僅解決了一個(gè)長(zhǎng)期存在的技術(shù)難題，更為構(gòu)建更大規(guī)模、更高效的AI系統(tǒng)開(kāi)辟了新的道路。

然而，研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前系統(tǒng)的一些局限性。UltraMemV2在訓(xùn)練初期表現(xiàn)不如MoE模型，需要更多高質(zhì)量數(shù)據(jù)才能發(fā)揮最佳性能。此外，要達(dá)到最優(yōu)效果，系統(tǒng)需要在每個(gè)模型塊中都配置記憶層，這增加了架構(gòu)的復(fù)雜性。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。它為AI領(lǐng)域提供了一種全新的思路，證明了通過(guò)精心設(shè)計(jì)的記憶機(jī)制可以實(shí)現(xiàn)高效且強(qiáng)大的智能系統(tǒng)。對(duì)于普通用戶而言，這意味著未來(lái)的AI助手可能會(huì)變得更加智能和高效，在處理需要長(zhǎng)期記憶的復(fù)雜任務(wù)時(shí)表現(xiàn)更佳，同時(shí)運(yùn)行成本更低。

展望未來(lái)，UltraMemV2技術(shù)有望在需要處理大量歷史信息的應(yīng)用場(chǎng)景中發(fā)揮重要作用，比如長(zhǎng)文檔分析、多輪對(duì)話系統(tǒng)、個(gè)性化推薦等。隨著技術(shù)的進(jìn)一步成熟和優(yōu)化，我們可能會(huì)看到更多基于這種記憶層架構(gòu)的AI產(chǎn)品出現(xiàn)在日常生活中，為人們提供更智能、更高效的服務(wù)。

Q&A

Q1：UltraMemV2相比傳統(tǒng)的MoE模型有什么優(yōu)勢(shì)？

A：UltraMemV2的主要優(yōu)勢(shì)在于顯著降低了內(nèi)存訪問(wèn)成本，同時(shí)在性能上達(dá)到了與8專家MoE模型相當(dāng)?shù)乃?。特別是在需要長(zhǎng)期記憶的任務(wù)上表現(xiàn)更加出色，比如長(zhǎng)文本記憶提升1.6個(gè)百分點(diǎn)，多輪對(duì)話記憶提升6.2個(gè)百分點(diǎn)，情境學(xué)習(xí)能力提升7.9個(gè)百分點(diǎn)。這就像找到了一種既聰明又節(jié)能的計(jì)算方式。

Q2：UltraMemV2技術(shù)的核心改進(jìn)包括哪些方面？

A：研究團(tuán)隊(duì)主要做了五個(gè)關(guān)鍵改進(jìn)：將記憶層集成到每個(gè)變換器塊中、簡(jiǎn)化數(shù)值擴(kuò)展過(guò)程使用單一線性投影、采用基于前饋網(wǎng)絡(luò)的PEER技術(shù)處理數(shù)值、優(yōu)化參數(shù)初始化方法防止訓(xùn)練發(fā)散、重新平衡記憶層與前饋網(wǎng)絡(luò)的計(jì)算比例。這些改進(jìn)協(xié)同工作，讓系統(tǒng)性能大幅提升。

Q3：UltraMemV2有什么局限性嗎？

A：是的，UltraMemV2也有一些局限性。它在訓(xùn)練初期表現(xiàn)不如MoE模型，需要更多高質(zhì)量數(shù)據(jù)才能發(fā)揮最佳性能，并且要達(dá)到最優(yōu)效果需要在每個(gè)模型塊中都配置記憶層。不過(guò)研究團(tuán)隊(duì)認(rèn)為這些問(wèn)題可以通過(guò)進(jìn)一步優(yōu)化得到改善。

人工智能記憶層架構(gòu)稀疏計(jì)算

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<sub id="n5pux"></sub>

<sub id="n5pux"><i id="n5pux"></i></sub>

<sup id="n5pux"></sup>