av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 重新思考循環(huán)神經(jīng)網(wǎng)絡(luò)中的雙線性狀態(tài)轉(zhuǎn)換:隱藏單元不僅是記憶,更是計(jì)算的主角

重新思考循環(huán)神經(jīng)網(wǎng)絡(luò)中的雙線性狀態(tài)轉(zhuǎn)換:隱藏單元不僅是記憶,更是計(jì)算的主角

2025-06-05 09:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 09:33 ? 科技行者

在2025年5月,高通AI研究團(tuán)隊(duì)的M.Reza Ebrahimi和Roland Memisevic發(fā)布了一篇深入探討循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu)的研究論文。這篇發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.21749v1)上的論文,重新審視了神經(jīng)網(wǎng)絡(luò)中一個被長期忽視的觀點(diǎn):隱藏單元不僅僅是被動的記憶存儲器,它們還能作為網(wǎng)絡(luò)計(jì)算過程中的積極參與者。

一、研究背景:隱藏單元的雙重身份

當(dāng)我們談?wù)撗h(huán)神經(jīng)網(wǎng)絡(luò)時,大多數(shù)人會將其隱藏單元視為"記憶存儲器",就像電腦中的RAM一樣,主要功能是記住過去看到的信息。這種觀點(diǎn)導(dǎo)致了大量研究集中在改進(jìn)這些"記憶單元"的信息保留能力上,比如通過各種"門控機(jī)制"來控制信息的流入流出。

然而,高通研究團(tuán)隊(duì)提出了一個不同的視角:隱藏單元不應(yīng)該僅僅被視為被動的記憶倉庫,而應(yīng)該被看作是網(wǎng)絡(luò)進(jìn)行實(shí)際計(jì)算的積極參與者。想象一下,這就像是將計(jì)算機(jī)中的RAM轉(zhuǎn)變?yōu)橐粋€小型處理器,不僅存儲數(shù)據(jù),還能對數(shù)據(jù)進(jìn)行處理和變換。

這種觀點(diǎn)并不完全是新發(fā)明,而是對一種被稱為"雙線性操作"(bi-linear operations)的舊概念的重新審視。所謂雙線性操作,指的是隱藏單元與輸入嵌入之間的乘法交互作用。簡單來說,就是讓隱藏狀態(tài)的更新不僅受到當(dāng)前輸入的影響,還受到前一時刻隱藏狀態(tài)的影響,而且這種影響是相乘的關(guān)系,而非簡單的相加。

二、研究的核心:狀態(tài)跟蹤任務(wù)與雙線性轉(zhuǎn)換

為什么研究團(tuán)隊(duì)如此關(guān)注隱藏單元的這種雙線性更新機(jī)制呢?答案在于一類特殊的問題:狀態(tài)跟蹤任務(wù)。

想象你正在玩一個電子游戲,游戲中的角色會根據(jù)你的輸入(比如按下向左、向右、跳躍等按鈕)改變自己的狀態(tài)。游戲角色的下一個狀態(tài)不僅取決于你當(dāng)前的輸入,還取決于它目前所處的狀態(tài)。例如,如果角色正在空中,那么按"下蹲"鍵可能沒有效果;但如果角色在地面上,同樣的按鍵卻會讓角色蹲下。這就是一個典型的狀態(tài)跟蹤任務(wù)。

在形式化的語言中,狀態(tài)跟蹤可以被定義為正確表示一個狀態(tài)機(jī)在響應(yīng)給定輸入序列時所經(jīng)歷的任意長度的狀態(tài)序列。這等同于在喬姆斯基形式語言層級結(jié)構(gòu)中對有限自動機(jī)(FA)或正則語言的建模。

雖然狀態(tài)跟蹤看起來是神經(jīng)網(wǎng)絡(luò)應(yīng)該能輕松學(xué)習(xí)的簡單任務(wù),但令人驚訝的是,許多模型在從數(shù)據(jù)中學(xué)習(xí)這類任務(wù)時表現(xiàn)不佳。這包括流行的Transformer模型,它們無法在比訓(xùn)練數(shù)據(jù)更長的序列上執(zhí)行狀態(tài)跟蹤,即使是經(jīng)過大規(guī)模預(yù)訓(xùn)練的基于Transformer的語言模型也是如此。

高通研究團(tuán)隊(duì)表明,雙線性狀態(tài)轉(zhuǎn)換為表示狀態(tài)跟蹤任務(wù)中隱藏狀態(tài)的演變提供了一種自然的歸納偏置。這種歸納偏置使得模型能夠以一種更自然的方式學(xué)習(xí)狀態(tài)轉(zhuǎn)換,從而在處理狀態(tài)跟蹤任務(wù)時表現(xiàn)出色。

三、雙線性RNN的數(shù)學(xué)原理與層級結(jié)構(gòu)

那么,什么是雙線性狀態(tài)轉(zhuǎn)換呢?讓我們用一個簡單的例子來解釋:

想象你正在學(xué)習(xí)彈鋼琴。每個音符(輸入)對你的彈奏狀態(tài)(隱藏狀態(tài))的影響不僅取決于音符本身,還取決于你當(dāng)前的彈奏狀態(tài)。比如,如果你正在彈奏一個和弦,那么下一個音符可能需要你改變手指的位置;而如果你正在彈奏單音,下一個音符的影響可能完全不同。這種"輸入"和"當(dāng)前狀態(tài)"之間的相互作用就是雙線性關(guān)系的一個比喻。

在數(shù)學(xué)上,雙線性RNN的隱藏狀態(tài)更新可以表示為:

h_t_i = (h_{t-1})^T W_i x_t = ∑_{jk} W_{ijk} x_t_k h_{t-1}_j

這里,h_t_i是時間t時隱藏狀態(tài)向量的第i個元素,W_{ijk}是一個三維參數(shù)張量的元素,x_t是時間t的輸入向量。這個公式本質(zhì)上是說,當(dāng)前時刻的隱藏狀態(tài)是前一時刻隱藏狀態(tài)與當(dāng)前輸入的乘法交互作用。

研究團(tuán)隊(duì)發(fā)現(xiàn),雙線性狀態(tài)更新形成了一個自然的層級結(jié)構(gòu),對應(yīng)于日益復(fù)雜的狀態(tài)跟蹤任務(wù):

1. 最簡單的形式是實(shí)數(shù)對角線雙線性RNN,它可以學(xué)習(xí)奇偶校驗(yàn)等簡單任務(wù)。 2. 復(fù)數(shù)對角線雙線性RNN可以學(xué)習(xí)模塊化加法等阿貝爾群結(jié)構(gòu)任務(wù)。 3. 因子化/塊對角線雙線性RNN可以處理更復(fù)雜的任務(wù)。 4. 完全無約束的雙線性RNN可以模擬任意狀態(tài)機(jī)。

有趣的是,目前流行的線性循環(huán)網(wǎng)絡(luò),如Mamba,位于這個層級結(jié)構(gòu)的最低復(fù)雜度中心,因此它們的狀態(tài)跟蹤能力是有限的。

四、研究發(fā)現(xiàn):雙線性RNN的驚人能力

研究團(tuán)隊(duì)通過理論分析和實(shí)驗(yàn)證明了幾個關(guān)鍵發(fā)現(xiàn):

首先,研究表明,對于隱藏狀態(tài)來說,成為前一時刻隱藏狀態(tài)的純線性函數(shù)(而非仿射函數(shù))總是足夠的,在某些情況下甚至是必要的。這意味著,移除任何加性項(xiàng)(如偏置項(xiàng))使隱藏狀態(tài)具有尺度不變性,這反過來允許在訓(xùn)練和/或推理過程中對隱藏狀態(tài)進(jìn)行歸一化,而不會犧牲線性遞歸的特性。

一個特別有趣的發(fā)現(xiàn)是,具有隨機(jī)凍結(jié)權(quán)重和訓(xùn)練線性讀出層的純線性(非仿射)RNN可以從僅僅兩個訓(xùn)練樣本中學(xué)習(xí)奇偶校驗(yàn)任務(wù),并達(dá)到完美的準(zhǔn)確率。這就像一個初學(xué)者鋼琴家只需要聽兩個例子就能完美地彈奏一首復(fù)雜的曲子!

此外,研究團(tuán)隊(duì)還發(fā)現(xiàn),具有對角線轉(zhuǎn)換矩陣的線性RNN是一種特殊情況,僅限于學(xué)習(xí)具有交換結(jié)構(gòu)的狀態(tài)跟蹤任務(wù)。即使對于復(fù)值對角線轉(zhuǎn)換矩陣也是如此。因此,具有2×2塊對角線轉(zhuǎn)換矩陣的線性RNN無法學(xué)習(xí)一般狀態(tài)機(jī)(這是一個否定性結(jié)果)。

五、實(shí)驗(yàn)驗(yàn)證:雙線性模型在復(fù)雜任務(wù)中的表現(xiàn)

為了驗(yàn)證理論分析,研究團(tuán)隊(duì)在三種狀態(tài)跟蹤任務(wù)上測試了各種模型:模塊化加法、隨機(jī)狀態(tài)機(jī)和模塊化算術(shù)。

在模塊化加法任務(wù)中,模型處理一系列隨機(jī)整數(shù),并預(yù)測它們在模m下的和。對于隨機(jī)狀態(tài)機(jī)任務(wù),模型必須模擬一個隨機(jī)生成的有限狀態(tài)機(jī),其中輸入字母表Σ和狀態(tài)集Q都與Zm相同。在模塊化算術(shù)任務(wù)中,模型需要處理交替出現(xiàn)的整數(shù)和算術(shù)運(yùn)算符(如+、×、-),并計(jì)算這些操作依次應(yīng)用的結(jié)果。

實(shí)驗(yàn)結(jié)果令人印象深刻:雙線性模型在所有任務(wù)上的表現(xiàn)普遍最佳。隨著塊大小增加,雙線性塊對角線變體的性能也有所提高。值得注意的是,實(shí)數(shù)對角線模型(塊大小為1的雙線性塊對角線模型)只能學(xué)習(xí)奇偶校驗(yàn)(即m=2的模塊化加法);但將塊大小增加到2就能學(xué)習(xí)更大m值的模塊化加法。

非線性循環(huán)模型,如LSTM和簡單RNN,在這些狀態(tài)跟蹤任務(wù)上也表現(xiàn)良好。研究團(tuán)隊(duì)推測,隱藏狀態(tài)和輸入之間的乘法交互可能來自于門控機(jī)制和非線性激活函數(shù)。

而Mamba模型雖然可以學(xué)習(xí)小狀態(tài)大小m的任務(wù),但很大程度上無法推廣到更長的序列。Transformer模型在長度泛化方面的失敗也是文獻(xiàn)中廣為人知的觀察結(jié)果。

六、數(shù)據(jù)效率與乘法vs加法交互的影響

關(guān)于雙線性模型的一個重要問題是數(shù)據(jù)效率。由于參數(shù)數(shù)量隨輸入嵌入維度和隱藏維度的乘積增長,它們的參數(shù)數(shù)量可能非常大。

為了了解雙線性模型的數(shù)據(jù)效率,研究團(tuán)隊(duì)在固定訓(xùn)練集大小的情況下訓(xùn)練和評估了各種模型。結(jié)果表明,盡管參數(shù)數(shù)量龐大,但這些模型的數(shù)據(jù)效率并不比LSTM差。這一點(diǎn)即使對于完全雙線性模型也是如此。

另一個有趣的實(shí)驗(yàn)是關(guān)于乘法與加法交互的影響。研究團(tuán)隊(duì)發(fā)現(xiàn),對于完全雙線性模型,無論在哪種任務(wù)上,加性貢獻(xiàn)都不會改變性能;但對于旋轉(zhuǎn)模型,加性項(xiàng)會降低模塊化加法任務(wù)上的性能。

七、學(xué)習(xí)奇偶校驗(yàn)的隨機(jī)網(wǎng)絡(luò):一個令人驚訝的發(fā)現(xiàn)

最后一個實(shí)驗(yàn)展示了一個特別令人驚訝的發(fā)現(xiàn):具有凍結(jié)隨機(jī)權(quán)重和可訓(xùn)練線性讀出層的純雙線性模型可以解決奇偶校驗(yàn)任務(wù),即使循環(huán)參數(shù)在訓(xùn)練期間被凍結(jié)(只訓(xùn)練讀出層)。

這就像給一個人一個隨機(jī)設(shè)置的鋼琴,卻發(fā)現(xiàn)他們只需調(diào)整最后一個音符就能彈奏出完美的曲子!這與Mamba等模型形成鮮明對比,后者的狀態(tài)轉(zhuǎn)換是對角線且為正值,因此即使在學(xué)習(xí)期間調(diào)整循環(huán)參數(shù)也無法學(xué)習(xí)奇偶校驗(yàn)。

八、研究意義與未來展望

這項(xiàng)研究的意義在于重新思考了循環(huán)神經(jīng)網(wǎng)絡(luò)中隱藏單元的角色,從被動的記憶存儲轉(zhuǎn)變?yōu)橛?jì)算的積極參與者。研究表明,雙線性模型在學(xué)習(xí)狀態(tài)跟蹤任務(wù)方面非常有效,這與許多線性RNN如Mamba、LRU等形成對比。

不過,需要注意的是,雙線性模型的參數(shù)數(shù)量會隨隱藏狀態(tài)數(shù)量的增加而大致立方增長。未來研究的一個重要問題是,是否有辦法在保持強(qiáng)大的狀態(tài)跟蹤能力的同時減少參數(shù)數(shù)量。一個密切相關(guān)的問題是,這種減少是否可能適得其反(或者龐大的參數(shù)數(shù)量甚至可能有益)在大規(guī)模多任務(wù)場景中,如語言建模。

研究還建議區(qū)分有無交換結(jié)構(gòu)的狀態(tài)跟蹤任務(wù),后者可由更多類型的模型學(xué)習(xí),特別是更小的模型。這引發(fā)了另一個未來研究方向:在哪些真實(shí)世界場景中,交換狀態(tài)跟蹤任務(wù)足夠或不足夠。

總的來說,這項(xiàng)研究重新審視了循環(huán)神經(jīng)網(wǎng)絡(luò)中的雙線性狀態(tài)轉(zhuǎn)換,展示了它們在狀態(tài)跟蹤任務(wù)中的強(qiáng)大能力,并為未來的研究提供了有價值的見解。就像鋼琴手不僅需要記住音符,還需要根據(jù)當(dāng)前狀態(tài)和輸入來決定下一個動作一樣,雙線性RNN的隱藏單元也不僅僅是記憶存儲器,而是計(jì)算過程中的積極參與者。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-