av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<nobr id="jsus6"></nobr>

<u id="jsus6"><th id="jsus6"><em id="jsus6"></em></th></u>

<ruby id="jsus6"><progress id="jsus6"><thead id="jsus6"></thead></progress></ruby>

<meter id="jsus6"></meter>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

Atlas：谷歌研究團隊打造的"超級記憶師"，讓AI模型記住整個上下文而非單個詞

人工智能長文本理解記憶優(yōu)化

Atlas：谷歌研究團隊打造的"超級記憶師"，讓AI模型記住整個上下文而非單個詞

作者：科技行者

2025-06-03 17:00

分享至：

Google研究團隊推出Atlas，一種革命性的AI記憶優(yōu)化模型，解決傳統(tǒng)Transformer架構(gòu)在處理長文本時的計算復(fù)雜度問題。Atlas通過三大創(chuàng)新：超線性容量的記憶模塊、基于上下文而非單詞的記憶優(yōu)化、及使用Muon優(yōu)化器的高效記憶管理，實現(xiàn)了在超長文本(10M)處理中保持80%以上的準(zhǔn)確率。研究還提出DeepTransformers架構(gòu)，作為傳統(tǒng)Transformer的嚴(yán)格泛化版本，在語言建模和常識推理任務(wù)中展現(xiàn)出色性能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-03 17:00 ? 科技行者

**論文：《Atlas: Learning to Optimally Memorize the Context at Test Time》**

這項由谷歌研究團隊的Ali Behrouz、Zeman Li、Praneeth Kacham、Majid Daliri、Yuan Deng、Peilin Zhong、Meisam Razaviyayn和Vahab Mirrokni共同完成的研究，于2025年5月29日發(fā)布在arXiv預(yù)印本平臺上（arXiv:2505.23735v1）。這項研究解決了AI模型處理超長文本時的記憶問題，讓我們一起看看他們是如何讓AI擁有"超級記憶力"的。

一、為什么需要更好的AI記憶力？

想象一下，你正在和一個朋友聊天，講了一個很長的故事。在故事的開頭，你提到了一個關(guān)鍵人物"小明"，而在故事結(jié)束時，你希望朋友能記住小明是誰，而不需要你重新解釋。在人類的對話中，這是很自然的事情——我們能夠記住對話的上下文。但對于現(xiàn)代AI模型來說，這卻是一個不小的挑戰(zhàn)。

當(dāng)前最流行的AI模型架構(gòu)是基于Transformer的，它們像是有著驚人記憶力的學(xué)習(xí)者，能夠處理和理解文本信息。但這些模型有一個明顯的缺點：它們的計算復(fù)雜度和內(nèi)存使用量會隨著文本長度的增加而呈現(xiàn)平方級增長。簡單來說，當(dāng)文本變得非常長時，它們需要的計算資源會爆炸式增長，就像你試圖同時記住一本書中的所有內(nèi)容一樣困難。

為了解決這個問題，研究人員開發(fā)了現(xiàn)代循環(huán)神經(jīng)網(wǎng)絡(luò)（如RWKV、RetNet、Titans等），它們更像是使用筆記本的學(xué)習(xí)者，將信息壓縮記錄下來，需要時再查閱。這些模型在處理長文本時效率更高，但研究人員發(fā)現(xiàn)它們在處理需要長期理解和記憶的任務(wù)時仍然存在三個主要問題：

1. **記憶容量有限**：就像一個筆記本的頁數(shù)是有限的，這些模型能存儲的信息量也受到其架構(gòu)和特征映射方式的限制。

2. **更新方式過于短視**：這些模型往往只根據(jù)最新輸入來更新記憶，就像只記錄剛剛聽到的內(nèi)容，而不考慮整個對話的上下文。

3. **記憶管理能力不足**：它們管理固定大小記憶的方式不夠靈活，就像一個人不知道該記住什么、忘記什么。

谷歌研究團隊提出的Atlas模型就像是一位訓(xùn)練有素的記憶大師，它不僅能記住單個詞語，更能記住整個上下文的含義。Atlas通過三個創(chuàng)新點解決了上述問題：首先，它擁有更大的記憶容量；其次，它不僅根據(jù)當(dāng)前輸入，還會根據(jù)過去的輸入優(yōu)化記憶；最后，它擁有更靈活的記憶管理能力。

二、Atlas如何工作：從記憶單詞到記憶上下文

傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)就像是一個人在記筆記時只關(guān)注當(dāng)前正在聽的那句話。每當(dāng)聽到新的一句話，他會根據(jù)這句話更新筆記，但不會回過頭去考慮前面所有筆記的整體含義。這就是所謂的"在線學(xué)習(xí)"（online learning）。

而Atlas則不同，它更像是一個聰明的學(xué)生，不僅記錄當(dāng)前聽到的內(nèi)容，還會不斷回顧前面的筆記，思考它們之間的聯(lián)系，并據(jù)此優(yōu)化自己的記錄方式。這種方法被研究者稱為"Omega規(guī)則"（Omega rule），它允許模型基于過去一段上下文中的所有內(nèi)容來優(yōu)化記憶，而不僅僅是最后一個詞或句子。

讓我們用一個具體例子來解釋：假設(shè)你正在閱讀一篇關(guān)于氣候變化的長文章。普通的AI模型在讀到第1000個詞時，只會根據(jù)這個詞來更新它的"筆記"。但Atlas會回顧前面的內(nèi)容，比如說前面100個詞，綜合考慮這100個詞的含義，然后更新它的"筆記"。這樣一來，Atlas就能更好地理解和記住文章的上下文，而不僅僅是孤立的詞語。

研究團隊還引入了一個重要概念——"多項式特征映射"。簡單來說，這就像是給每個詞語添加額外的標(biāo)簽，使得模型能夠從不同角度理解這個詞。普通模型可能只記錄"這是一個蘋果"，而Atlas會記錄"這是一個紅色的、圓形的、可食用的水果——蘋果"。這種多維度的理解大大增強了模型的記憶容量。

另一個關(guān)鍵創(chuàng)新是使用了名為"Muon"的優(yōu)化器，它就像是一個更聰明的記筆記方法。傳統(tǒng)的方法可能只是簡單地記下所聽到的內(nèi)容，而Muon會思考哪些信息最重要，應(yīng)該如何組織這些信息，從而使筆記更加高效和有用。在技術(shù)上，這相當(dāng)于使用了近似二階優(yōu)化方法，能夠更有效地管理模型的記憶。

三、DeepTransformers：傳統(tǒng)Transformer的強化版

研究團隊不僅開發(fā)了Atlas，還提出了一個名為DeepTransformers的新架構(gòu)系列，它們是傳統(tǒng)Transformer架構(gòu)的嚴(yán)格泛化版本。想象一下，如果傳統(tǒng)的Transformer是一輛普通汽車，那么DeepTransformers就是這輛汽車的升級版，保留了原車的所有功能，但增加了新的性能和特性。

DeepTransformers的核心創(chuàng)新在于使用了深度記憶模塊，而不是簡單的注意力機制。傳統(tǒng)的Transformer使用注意力機制來決定哪些信息重要，哪些不重要，就像一個人在閱讀文章時會關(guān)注一些關(guān)鍵詞而忽略其他內(nèi)容。DeepTransformers則使用更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)來管理這個過程，使得模型能夠?qū)W習(xí)更復(fù)雜的信息關(guān)聯(lián)模式。

研究團隊還提出了一個名為Dot（Deep Omega Transformer）的變體，它結(jié)合了DeepTransformers的深度記憶和Atlas的Omega規(guī)則，創(chuàng)造出一個更強大的架構(gòu)。

這些創(chuàng)新不僅理論上有意義，在實際應(yīng)用中也展現(xiàn)出了顯著的優(yōu)勢。研究表明，DeepTransformers和Dot在語言建模、常識推理和長文本理解任務(wù)上都優(yōu)于傳統(tǒng)的Transformer模型。

四、研究結(jié)果：Atlas在長文本處理中的驚人表現(xiàn)

研究團隊在多個基準(zhǔn)測試上評估了Atlas及其變體的性能，結(jié)果令人印象深刻。在語言建模和常識推理任務(wù)上，Atlas達到了18.92的困惑度（perplexity，越低越好）和52.77%的準(zhǔn)確率，明顯優(yōu)于現(xiàn)有的循環(huán)神經(jīng)網(wǎng)絡(luò)模型和Transformer模型。

更令人驚訝的是Atlas在處理超長文本時的能力。在"針在干草堆中"（needle-in-haystack）任務(wù)中，模型需要在大量文本中找到關(guān)鍵信息，就像在一大堆干草中找一根針。Atlas在這類任務(wù)中表現(xiàn)出色，能夠有效處理長達16K（16,000個詞）的文本，甚至可以擴展到比訓(xùn)練時使用的上下文長度多4倍的情況。

在BABILong基準(zhǔn)測試中，Atlas的表現(xiàn)尤為突出。這個測試要求模型理解和回答基于超長文本的問題。Atlas不僅在百萬級別（1M）的上下文長度上與Titans模型表現(xiàn)相當(dāng)，而且在千萬級別（10M）的上下文長度上仍然保持了超過80%的準(zhǔn)確率，而Titans的性能則顯著下降。這相當(dāng)于Atlas能夠記住并理解一本完整的長篇小說，而其他模型在處理如此長的文本時會"記憶力衰退"。

研究團隊還進行了"記憶能力"實驗，結(jié)果顯示Atlas能夠在MAD基準(zhǔn)測試（一個測試模型記憶、壓縮和復(fù)制能力的合成基準(zhǔn)）上達到79.50%的平均準(zhǔn)確率，超過了包括Transformer在內(nèi)的所有基線模型。

五、Atlas的實際應(yīng)用與未來展望

Atlas的創(chuàng)新不僅僅是學(xué)術(shù)上的進步，它還有廣泛的實際應(yīng)用前景。想象一下，一個能夠理解和記住整本書內(nèi)容的AI助手，它可以幫助學(xué)生復(fù)習(xí)考試，協(xié)助研究人員分析大量文獻，甚至幫助作家保持故事情節(jié)的一致性。

在客戶服務(wù)領(lǐng)域，Atlas可以記住與客戶的整個對話歷史，提供更連貫、更個性化的服務(wù)。在法律或醫(yī)療等需要處理大量文檔的領(lǐng)域，Atlas可以幫助專業(yè)人士快速找到相關(guān)信息，并理解不同文檔之間的關(guān)聯(lián)。

然而，研究團隊也承認(rèn)，Atlas仍然有改進的空間。盡管它在長文本理解方面取得了顯著進步，但在某些需要復(fù)雜推理的任務(wù)上，傳統(tǒng)的Transformer模型仍然具有優(yōu)勢。未來的研究方向可能包括進一步優(yōu)化Atlas的記憶管理機制，探索更有效的特征映射方法，以及將Atlas與其他AI技術(shù)結(jié)合，創(chuàng)造出更強大、更靈活的模型。

此外，研究團隊還提到，雖然Atlas的訓(xùn)練過程比傳統(tǒng)模型更加復(fù)雜，但它們設(shè)計的并行訓(xùn)練算法使得Atlas的訓(xùn)練效率與在線學(xué)習(xí)的模型相當(dāng)，這為Atlas的實際應(yīng)用提供了可能性。

總的來說，Atlas代表了AI長文本處理能力的一個重要飛躍。通過改進記憶容量、更新方式和記憶管理能力，Atlas讓AI模型更接近人類理解和記憶長篇文本的能力。隨著這項技術(shù)的進一步發(fā)展和應(yīng)用，我們可以期待AI助手能夠更好地理解和記住我們與它們的長對話，提供更自然、更有幫助的交互體驗。

對于有興趣深入了解Atlas技術(shù)細(xì)節(jié)的讀者，可以通過arXiv:2505.23735訪問完整論文。論文中提供了詳細(xì)的數(shù)學(xué)公式、實驗設(shè)置和結(jié)果分析，為理解這一創(chuàng)新技術(shù)提供了全面的資料。

人工智能長文本理解記憶優(yōu)化

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團隊提出SIRI方法，通過"壓縮-擴張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<thead id="rg0yc"><progress id="rg0yc"></progress></thead>