av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<acronym id="cten9"><menu id="cten9"><form id="cten9"></form></menu></acronym>

<sub id="cten9"></sub>

<var id="cten9"></var>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

重新思考循環(huán)神經(jīng)網(wǎng)絡(luò)中的雙線性狀態(tài)轉(zhuǎn)換：隱藏單元不僅是記憶，更是計(jì)算的主角

循環(huán)神經(jīng)網(wǎng)絡(luò)雙線性模型狀態(tài)跟蹤

重新思考循環(huán)神經(jīng)網(wǎng)絡(luò)中的雙線性狀態(tài)轉(zhuǎn)換：隱藏單元不僅是記憶，更是計(jì)算的主角

作者：科技行者

2025-06-05 09:33

分享至：

這篇研究重新審視了循環(huán)神經(jīng)網(wǎng)絡(luò)中的雙線性狀態(tài)轉(zhuǎn)換機(jī)制，挑戰(zhàn)了傳統(tǒng)觀點(diǎn)。高通AI研究團(tuán)隊(duì)證明，隱藏單元不僅是被動記憶存儲，更是網(wǎng)絡(luò)計(jì)算的積極參與者。研究建立了一個從實(shí)數(shù)對角線到完全雙線性的模型層級，對應(yīng)不同復(fù)雜度的狀態(tài)跟蹤任務(wù)。實(shí)驗(yàn)表明，雙線性RNN能有效學(xué)習(xí)各種狀態(tài)跟蹤任務(wù)，甚至只需極少量訓(xùn)練數(shù)據(jù)。研究還發(fā)現(xiàn)，純乘法交互比加法交互更有利于狀態(tài)跟蹤，為循環(huán)網(wǎng)絡(luò)設(shè)計(jì)提供了新視角。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 09:33 ? 科技行者

在2025年5月，高通AI研究團(tuán)隊(duì)的M.Reza Ebrahimi和Roland Memisevic發(fā)布了一篇深入探討循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu)的研究論文。這篇發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.21749v1)上的論文，重新審視了神經(jīng)網(wǎng)絡(luò)中一個被長期忽視的觀點(diǎn)：隱藏單元不僅僅是被動的記憶存儲器，它們還能作為網(wǎng)絡(luò)計(jì)算過程中的積極參與者。

一、研究背景：隱藏單元的雙重身份

當(dāng)我們談?wù)撗h(huán)神經(jīng)網(wǎng)絡(luò)時，大多數(shù)人會將其隱藏單元視為"記憶存儲器"，就像電腦中的RAM一樣，主要功能是記住過去看到的信息。這種觀點(diǎn)導(dǎo)致了大量研究集中在改進(jìn)這些"記憶單元"的信息保留能力上，比如通過各種"門控機(jī)制"來控制信息的流入流出。

然而，高通研究團(tuán)隊(duì)提出了一個不同的視角：隱藏單元不應(yīng)該僅僅被視為被動的記憶倉庫，而應(yīng)該被看作是網(wǎng)絡(luò)進(jìn)行實(shí)際計(jì)算的積極參與者。想象一下，這就像是將計(jì)算機(jī)中的RAM轉(zhuǎn)變?yōu)橐粋€小型處理器，不僅存儲數(shù)據(jù)，還能對數(shù)據(jù)進(jìn)行處理和變換。

這種觀點(diǎn)并不完全是新發(fā)明，而是對一種被稱為"雙線性操作"（bi-linear operations）的舊概念的重新審視。所謂雙線性操作，指的是隱藏單元與輸入嵌入之間的乘法交互作用。簡單來說，就是讓隱藏狀態(tài)的更新不僅受到當(dāng)前輸入的影響，還受到前一時刻隱藏狀態(tài)的影響，而且這種影響是相乘的關(guān)系，而非簡單的相加。

二、研究的核心：狀態(tài)跟蹤任務(wù)與雙線性轉(zhuǎn)換

為什么研究團(tuán)隊(duì)如此關(guān)注隱藏單元的這種雙線性更新機(jī)制呢？答案在于一類特殊的問題：狀態(tài)跟蹤任務(wù)。

想象你正在玩一個電子游戲，游戲中的角色會根據(jù)你的輸入（比如按下向左、向右、跳躍等按鈕）改變自己的狀態(tài)。游戲角色的下一個狀態(tài)不僅取決于你當(dāng)前的輸入，還取決于它目前所處的狀態(tài)。例如，如果角色正在空中，那么按"下蹲"鍵可能沒有效果；但如果角色在地面上，同樣的按鍵卻會讓角色蹲下。這就是一個典型的狀態(tài)跟蹤任務(wù)。

在形式化的語言中，狀態(tài)跟蹤可以被定義為正確表示一個狀態(tài)機(jī)在響應(yīng)給定輸入序列時所經(jīng)歷的任意長度的狀態(tài)序列。這等同于在喬姆斯基形式語言層級結(jié)構(gòu)中對有限自動機(jī)（FA）或正則語言的建模。

雖然狀態(tài)跟蹤看起來是神經(jīng)網(wǎng)絡(luò)應(yīng)該能輕松學(xué)習(xí)的簡單任務(wù)，但令人驚訝的是，許多模型在從數(shù)據(jù)中學(xué)習(xí)這類任務(wù)時表現(xiàn)不佳。這包括流行的Transformer模型，它們無法在比訓(xùn)練數(shù)據(jù)更長的序列上執(zhí)行狀態(tài)跟蹤，即使是經(jīng)過大規(guī)模預(yù)訓(xùn)練的基于Transformer的語言模型也是如此。

高通研究團(tuán)隊(duì)表明，雙線性狀態(tài)轉(zhuǎn)換為表示狀態(tài)跟蹤任務(wù)中隱藏狀態(tài)的演變提供了一種自然的歸納偏置。這種歸納偏置使得模型能夠以一種更自然的方式學(xué)習(xí)狀態(tài)轉(zhuǎn)換，從而在處理狀態(tài)跟蹤任務(wù)時表現(xiàn)出色。

三、雙線性RNN的數(shù)學(xué)原理與層級結(jié)構(gòu)

那么，什么是雙線性狀態(tài)轉(zhuǎn)換呢？讓我們用一個簡單的例子來解釋：

想象你正在學(xué)習(xí)彈鋼琴。每個音符（輸入）對你的彈奏狀態(tài)（隱藏狀態(tài)）的影響不僅取決于音符本身，還取決于你當(dāng)前的彈奏狀態(tài)。比如，如果你正在彈奏一個和弦，那么下一個音符可能需要你改變手指的位置；而如果你正在彈奏單音，下一個音符的影響可能完全不同。這種"輸入"和"當(dāng)前狀態(tài)"之間的相互作用就是雙線性關(guān)系的一個比喻。

在數(shù)學(xué)上，雙線性RNN的隱藏狀態(tài)更新可以表示為：

h_t_i = (h_{t-1})^T W_i x_t = ∑_{jk} W_{ijk} x_t_k h_{t-1}_j

這里，h_t_i是時間t時隱藏狀態(tài)向量的第i個元素，W_{ijk}是一個三維參數(shù)張量的元素，x_t是時間t的輸入向量。這個公式本質(zhì)上是說，當(dāng)前時刻的隱藏狀態(tài)是前一時刻隱藏狀態(tài)與當(dāng)前輸入的乘法交互作用。

研究團(tuán)隊(duì)發(fā)現(xiàn)，雙線性狀態(tài)更新形成了一個自然的層級結(jié)構(gòu)，對應(yīng)于日益復(fù)雜的狀態(tài)跟蹤任務(wù)：

1. 最簡單的形式是實(shí)數(shù)對角線雙線性RNN，它可以學(xué)習(xí)奇偶校驗(yàn)等簡單任務(wù)。 2. 復(fù)數(shù)對角線雙線性RNN可以學(xué)習(xí)模塊化加法等阿貝爾群結(jié)構(gòu)任務(wù)。 3. 因子化/塊對角線雙線性RNN可以處理更復(fù)雜的任務(wù)。 4. 完全無約束的雙線性RNN可以模擬任意狀態(tài)機(jī)。

有趣的是，目前流行的線性循環(huán)網(wǎng)絡(luò)，如Mamba，位于這個層級結(jié)構(gòu)的最低復(fù)雜度中心，因此它們的狀態(tài)跟蹤能力是有限的。

四、研究發(fā)現(xiàn)：雙線性RNN的驚人能力

研究團(tuán)隊(duì)通過理論分析和實(shí)驗(yàn)證明了幾個關(guān)鍵發(fā)現(xiàn)：

首先，研究表明，對于隱藏狀態(tài)來說，成為前一時刻隱藏狀態(tài)的純線性函數(shù)（而非仿射函數(shù)）總是足夠的，在某些情況下甚至是必要的。這意味著，移除任何加性項(xiàng)（如偏置項(xiàng)）使隱藏狀態(tài)具有尺度不變性，這反過來允許在訓(xùn)練和/或推理過程中對隱藏狀態(tài)進(jìn)行歸一化，而不會犧牲線性遞歸的特性。

一個特別有趣的發(fā)現(xiàn)是，具有隨機(jī)凍結(jié)權(quán)重和訓(xùn)練線性讀出層的純線性（非仿射）RNN可以從僅僅兩個訓(xùn)練樣本中學(xué)習(xí)奇偶校驗(yàn)任務(wù)，并達(dá)到完美的準(zhǔn)確率。這就像一個初學(xué)者鋼琴家只需要聽兩個例子就能完美地彈奏一首復(fù)雜的曲子！

此外，研究團(tuán)隊(duì)還發(fā)現(xiàn)，具有對角線轉(zhuǎn)換矩陣的線性RNN是一種特殊情況，僅限于學(xué)習(xí)具有交換結(jié)構(gòu)的狀態(tài)跟蹤任務(wù)。即使對于復(fù)值對角線轉(zhuǎn)換矩陣也是如此。因此，具有2×2塊對角線轉(zhuǎn)換矩陣的線性RNN無法學(xué)習(xí)一般狀態(tài)機(jī)（這是一個否定性結(jié)果）。

五、實(shí)驗(yàn)驗(yàn)證：雙線性模型在復(fù)雜任務(wù)中的表現(xiàn)

為了驗(yàn)證理論分析，研究團(tuán)隊(duì)在三種狀態(tài)跟蹤任務(wù)上測試了各種模型：模塊化加法、隨機(jī)狀態(tài)機(jī)和模塊化算術(shù)。

在模塊化加法任務(wù)中，模型處理一系列隨機(jī)整數(shù)，并預(yù)測它們在模m下的和。對于隨機(jī)狀態(tài)機(jī)任務(wù)，模型必須模擬一個隨機(jī)生成的有限狀態(tài)機(jī)，其中輸入字母表Σ和狀態(tài)集Q都與Zm相同。在模塊化算術(shù)任務(wù)中，模型需要處理交替出現(xiàn)的整數(shù)和算術(shù)運(yùn)算符（如+、×、-），并計(jì)算這些操作依次應(yīng)用的結(jié)果。

實(shí)驗(yàn)結(jié)果令人印象深刻：雙線性模型在所有任務(wù)上的表現(xiàn)普遍最佳。隨著塊大小增加，雙線性塊對角線變體的性能也有所提高。值得注意的是，實(shí)數(shù)對角線模型（塊大小為1的雙線性塊對角線模型）只能學(xué)習(xí)奇偶校驗(yàn)（即m=2的模塊化加法）；但將塊大小增加到2就能學(xué)習(xí)更大m值的模塊化加法。

非線性循環(huán)模型，如LSTM和簡單RNN，在這些狀態(tài)跟蹤任務(wù)上也表現(xiàn)良好。研究團(tuán)隊(duì)推測，隱藏狀態(tài)和輸入之間的乘法交互可能來自于門控機(jī)制和非線性激活函數(shù)。

而Mamba模型雖然可以學(xué)習(xí)小狀態(tài)大小m的任務(wù)，但很大程度上無法推廣到更長的序列。Transformer模型在長度泛化方面的失敗也是文獻(xiàn)中廣為人知的觀察結(jié)果。

六、數(shù)據(jù)效率與乘法vs加法交互的影響

關(guān)于雙線性模型的一個重要問題是數(shù)據(jù)效率。由于參數(shù)數(shù)量隨輸入嵌入維度和隱藏維度的乘積增長，它們的參數(shù)數(shù)量可能非常大。

為了了解雙線性模型的數(shù)據(jù)效率，研究團(tuán)隊(duì)在固定訓(xùn)練集大小的情況下訓(xùn)練和評估了各種模型。結(jié)果表明，盡管參數(shù)數(shù)量龐大，但這些模型的數(shù)據(jù)效率并不比LSTM差。這一點(diǎn)即使對于完全雙線性模型也是如此。

另一個有趣的實(shí)驗(yàn)是關(guān)于乘法與加法交互的影響。研究團(tuán)隊(duì)發(fā)現(xiàn)，對于完全雙線性模型，無論在哪種任務(wù)上，加性貢獻(xiàn)都不會改變性能；但對于旋轉(zhuǎn)模型，加性項(xiàng)會降低模塊化加法任務(wù)上的性能。

七、學(xué)習(xí)奇偶校驗(yàn)的隨機(jī)網(wǎng)絡(luò)：一個令人驚訝的發(fā)現(xiàn)

最后一個實(shí)驗(yàn)展示了一個特別令人驚訝的發(fā)現(xiàn)：具有凍結(jié)隨機(jī)權(quán)重和可訓(xùn)練線性讀出層的純雙線性模型可以解決奇偶校驗(yàn)任務(wù)，即使循環(huán)參數(shù)在訓(xùn)練期間被凍結(jié)（只訓(xùn)練讀出層）。

這就像給一個人一個隨機(jī)設(shè)置的鋼琴，卻發(fā)現(xiàn)他們只需調(diào)整最后一個音符就能彈奏出完美的曲子！這與Mamba等模型形成鮮明對比，后者的狀態(tài)轉(zhuǎn)換是對角線且為正值，因此即使在學(xué)習(xí)期間調(diào)整循環(huán)參數(shù)也無法學(xué)習(xí)奇偶校驗(yàn)。

八、研究意義與未來展望

這項(xiàng)研究的意義在于重新思考了循環(huán)神經(jīng)網(wǎng)絡(luò)中隱藏單元的角色，從被動的記憶存儲轉(zhuǎn)變?yōu)橛?jì)算的積極參與者。研究表明，雙線性模型在學(xué)習(xí)狀態(tài)跟蹤任務(wù)方面非常有效，這與許多線性RNN如Mamba、LRU等形成對比。

不過，需要注意的是，雙線性模型的參數(shù)數(shù)量會隨隱藏狀態(tài)數(shù)量的增加而大致立方增長。未來研究的一個重要問題是，是否有辦法在保持強(qiáng)大的狀態(tài)跟蹤能力的同時減少參數(shù)數(shù)量。一個密切相關(guān)的問題是，這種減少是否可能適得其反（或者龐大的參數(shù)數(shù)量甚至可能有益）在大規(guī)模多任務(wù)場景中，如語言建模。

研究還建議區(qū)分有無交換結(jié)構(gòu)的狀態(tài)跟蹤任務(wù)，后者可由更多類型的模型學(xué)習(xí)，特別是更小的模型。這引發(fā)了另一個未來研究方向：在哪些真實(shí)世界場景中，交換狀態(tài)跟蹤任務(wù)足夠或不足夠。

總的來說，這項(xiàng)研究重新審視了循環(huán)神經(jīng)網(wǎng)絡(luò)中的雙線性狀態(tài)轉(zhuǎn)換，展示了它們在狀態(tài)跟蹤任務(wù)中的強(qiáng)大能力，并為未來的研究提供了有價值的見解。就像鋼琴手不僅需要記住音符，還需要根據(jù)當(dāng)前狀態(tài)和輸入來決定下一個動作一樣，雙線性RNN的隱藏單元也不僅僅是記憶存儲器，而是計(jì)算過程中的積極參與者。

循環(huán)神經(jīng)網(wǎng)絡(luò)雙線性模型狀態(tài)跟蹤

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時"動態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時"動態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時"動態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<s id="hb1az"><form id="hb1az"></form></s>

<kbd id="hb1az"><center id="hb1az"></center></kbd>