在2025年5月,高通AI研究團(tuán)隊(duì)的M.Reza Ebrahimi和Roland Memisevic發(fā)布了一篇深入探討循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu)的研究論文。這篇發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.21749v1)上的論文,重新審視了神經(jīng)網(wǎng)絡(luò)中一個被長期忽視的觀點(diǎn):隱藏單元不僅僅是被動的記憶存儲器,它們還能作為網(wǎng)絡(luò)計(jì)算過程中的積極參與者。
一、研究背景:隱藏單元的雙重身份
當(dāng)我們談?wù)撗h(huán)神經(jīng)網(wǎng)絡(luò)時,大多數(shù)人會將其隱藏單元視為"記憶存儲器",就像電腦中的RAM一樣,主要功能是記住過去看到的信息。這種觀點(diǎn)導(dǎo)致了大量研究集中在改進(jìn)這些"記憶單元"的信息保留能力上,比如通過各種"門控機(jī)制"來控制信息的流入流出。
然而,高通研究團(tuán)隊(duì)提出了一個不同的視角:隱藏單元不應(yīng)該僅僅被視為被動的記憶倉庫,而應(yīng)該被看作是網(wǎng)絡(luò)進(jìn)行實(shí)際計(jì)算的積極參與者。想象一下,這就像是將計(jì)算機(jī)中的RAM轉(zhuǎn)變?yōu)橐粋€小型處理器,不僅存儲數(shù)據(jù),還能對數(shù)據(jù)進(jìn)行處理和變換。
這種觀點(diǎn)并不完全是新發(fā)明,而是對一種被稱為"雙線性操作"(bi-linear operations)的舊概念的重新審視。所謂雙線性操作,指的是隱藏單元與輸入嵌入之間的乘法交互作用。簡單來說,就是讓隱藏狀態(tài)的更新不僅受到當(dāng)前輸入的影響,還受到前一時刻隱藏狀態(tài)的影響,而且這種影響是相乘的關(guān)系,而非簡單的相加。
二、研究的核心:狀態(tài)跟蹤任務(wù)與雙線性轉(zhuǎn)換
為什么研究團(tuán)隊(duì)如此關(guān)注隱藏單元的這種雙線性更新機(jī)制呢?答案在于一類特殊的問題:狀態(tài)跟蹤任務(wù)。
想象你正在玩一個電子游戲,游戲中的角色會根據(jù)你的輸入(比如按下向左、向右、跳躍等按鈕)改變自己的狀態(tài)。游戲角色的下一個狀態(tài)不僅取決于你當(dāng)前的輸入,還取決于它目前所處的狀態(tài)。例如,如果角色正在空中,那么按"下蹲"鍵可能沒有效果;但如果角色在地面上,同樣的按鍵卻會讓角色蹲下。這就是一個典型的狀態(tài)跟蹤任務(wù)。
在形式化的語言中,狀態(tài)跟蹤可以被定義為正確表示一個狀態(tài)機(jī)在響應(yīng)給定輸入序列時所經(jīng)歷的任意長度的狀態(tài)序列。這等同于在喬姆斯基形式語言層級結(jié)構(gòu)中對有限自動機(jī)(FA)或正則語言的建模。
雖然狀態(tài)跟蹤看起來是神經(jīng)網(wǎng)絡(luò)應(yīng)該能輕松學(xué)習(xí)的簡單任務(wù),但令人驚訝的是,許多模型在從數(shù)據(jù)中學(xué)習(xí)這類任務(wù)時表現(xiàn)不佳。這包括流行的Transformer模型,它們無法在比訓(xùn)練數(shù)據(jù)更長的序列上執(zhí)行狀態(tài)跟蹤,即使是經(jīng)過大規(guī)模預(yù)訓(xùn)練的基于Transformer的語言模型也是如此。
高通研究團(tuán)隊(duì)表明,雙線性狀態(tài)轉(zhuǎn)換為表示狀態(tài)跟蹤任務(wù)中隱藏狀態(tài)的演變提供了一種自然的歸納偏置。這種歸納偏置使得模型能夠以一種更自然的方式學(xué)習(xí)狀態(tài)轉(zhuǎn)換,從而在處理狀態(tài)跟蹤任務(wù)時表現(xiàn)出色。
三、雙線性RNN的數(shù)學(xué)原理與層級結(jié)構(gòu)
那么,什么是雙線性狀態(tài)轉(zhuǎn)換呢?讓我們用一個簡單的例子來解釋:
想象你正在學(xué)習(xí)彈鋼琴。每個音符(輸入)對你的彈奏狀態(tài)(隱藏狀態(tài))的影響不僅取決于音符本身,還取決于你當(dāng)前的彈奏狀態(tài)。比如,如果你正在彈奏一個和弦,那么下一個音符可能需要你改變手指的位置;而如果你正在彈奏單音,下一個音符的影響可能完全不同。這種"輸入"和"當(dāng)前狀態(tài)"之間的相互作用就是雙線性關(guān)系的一個比喻。
在數(shù)學(xué)上,雙線性RNN的隱藏狀態(tài)更新可以表示為:
h_t_i = (h_{t-1})^T W_i x_t = ∑_{jk} W_{ijk} x_t_k h_{t-1}_j
這里,h_t_i是時間t時隱藏狀態(tài)向量的第i個元素,W_{ijk}是一個三維參數(shù)張量的元素,x_t是時間t的輸入向量。這個公式本質(zhì)上是說,當(dāng)前時刻的隱藏狀態(tài)是前一時刻隱藏狀態(tài)與當(dāng)前輸入的乘法交互作用。
研究團(tuán)隊(duì)發(fā)現(xiàn),雙線性狀態(tài)更新形成了一個自然的層級結(jié)構(gòu),對應(yīng)于日益復(fù)雜的狀態(tài)跟蹤任務(wù):
1. 最簡單的形式是實(shí)數(shù)對角線雙線性RNN,它可以學(xué)習(xí)奇偶校驗(yàn)等簡單任務(wù)。 2. 復(fù)數(shù)對角線雙線性RNN可以學(xué)習(xí)模塊化加法等阿貝爾群結(jié)構(gòu)任務(wù)。 3. 因子化/塊對角線雙線性RNN可以處理更復(fù)雜的任務(wù)。 4. 完全無約束的雙線性RNN可以模擬任意狀態(tài)機(jī)。
有趣的是,目前流行的線性循環(huán)網(wǎng)絡(luò),如Mamba,位于這個層級結(jié)構(gòu)的最低復(fù)雜度中心,因此它們的狀態(tài)跟蹤能力是有限的。
四、研究發(fā)現(xiàn):雙線性RNN的驚人能力
研究團(tuán)隊(duì)通過理論分析和實(shí)驗(yàn)證明了幾個關(guān)鍵發(fā)現(xiàn):
首先,研究表明,對于隱藏狀態(tài)來說,成為前一時刻隱藏狀態(tài)的純線性函數(shù)(而非仿射函數(shù))總是足夠的,在某些情況下甚至是必要的。這意味著,移除任何加性項(xiàng)(如偏置項(xiàng))使隱藏狀態(tài)具有尺度不變性,這反過來允許在訓(xùn)練和/或推理過程中對隱藏狀態(tài)進(jìn)行歸一化,而不會犧牲線性遞歸的特性。
一個特別有趣的發(fā)現(xiàn)是,具有隨機(jī)凍結(jié)權(quán)重和訓(xùn)練線性讀出層的純線性(非仿射)RNN可以從僅僅兩個訓(xùn)練樣本中學(xué)習(xí)奇偶校驗(yàn)任務(wù),并達(dá)到完美的準(zhǔn)確率。這就像一個初學(xué)者鋼琴家只需要聽兩個例子就能完美地彈奏一首復(fù)雜的曲子!
此外,研究團(tuán)隊(duì)還發(fā)現(xiàn),具有對角線轉(zhuǎn)換矩陣的線性RNN是一種特殊情況,僅限于學(xué)習(xí)具有交換結(jié)構(gòu)的狀態(tài)跟蹤任務(wù)。即使對于復(fù)值對角線轉(zhuǎn)換矩陣也是如此。因此,具有2×2塊對角線轉(zhuǎn)換矩陣的線性RNN無法學(xué)習(xí)一般狀態(tài)機(jī)(這是一個否定性結(jié)果)。
五、實(shí)驗(yàn)驗(yàn)證:雙線性模型在復(fù)雜任務(wù)中的表現(xiàn)
為了驗(yàn)證理論分析,研究團(tuán)隊(duì)在三種狀態(tài)跟蹤任務(wù)上測試了各種模型:模塊化加法、隨機(jī)狀態(tài)機(jī)和模塊化算術(shù)。
在模塊化加法任務(wù)中,模型處理一系列隨機(jī)整數(shù),并預(yù)測它們在模m下的和。對于隨機(jī)狀態(tài)機(jī)任務(wù),模型必須模擬一個隨機(jī)生成的有限狀態(tài)機(jī),其中輸入字母表Σ和狀態(tài)集Q都與Zm相同。在模塊化算術(shù)任務(wù)中,模型需要處理交替出現(xiàn)的整數(shù)和算術(shù)運(yùn)算符(如+、×、-),并計(jì)算這些操作依次應(yīng)用的結(jié)果。
實(shí)驗(yàn)結(jié)果令人印象深刻:雙線性模型在所有任務(wù)上的表現(xiàn)普遍最佳。隨著塊大小增加,雙線性塊對角線變體的性能也有所提高。值得注意的是,實(shí)數(shù)對角線模型(塊大小為1的雙線性塊對角線模型)只能學(xué)習(xí)奇偶校驗(yàn)(即m=2的模塊化加法);但將塊大小增加到2就能學(xué)習(xí)更大m值的模塊化加法。
非線性循環(huán)模型,如LSTM和簡單RNN,在這些狀態(tài)跟蹤任務(wù)上也表現(xiàn)良好。研究團(tuán)隊(duì)推測,隱藏狀態(tài)和輸入之間的乘法交互可能來自于門控機(jī)制和非線性激活函數(shù)。
而Mamba模型雖然可以學(xué)習(xí)小狀態(tài)大小m的任務(wù),但很大程度上無法推廣到更長的序列。Transformer模型在長度泛化方面的失敗也是文獻(xiàn)中廣為人知的觀察結(jié)果。
六、數(shù)據(jù)效率與乘法vs加法交互的影響
關(guān)于雙線性模型的一個重要問題是數(shù)據(jù)效率。由于參數(shù)數(shù)量隨輸入嵌入維度和隱藏維度的乘積增長,它們的參數(shù)數(shù)量可能非常大。
為了了解雙線性模型的數(shù)據(jù)效率,研究團(tuán)隊(duì)在固定訓(xùn)練集大小的情況下訓(xùn)練和評估了各種模型。結(jié)果表明,盡管參數(shù)數(shù)量龐大,但這些模型的數(shù)據(jù)效率并不比LSTM差。這一點(diǎn)即使對于完全雙線性模型也是如此。
另一個有趣的實(shí)驗(yàn)是關(guān)于乘法與加法交互的影響。研究團(tuán)隊(duì)發(fā)現(xiàn),對于完全雙線性模型,無論在哪種任務(wù)上,加性貢獻(xiàn)都不會改變性能;但對于旋轉(zhuǎn)模型,加性項(xiàng)會降低模塊化加法任務(wù)上的性能。
七、學(xué)習(xí)奇偶校驗(yàn)的隨機(jī)網(wǎng)絡(luò):一個令人驚訝的發(fā)現(xiàn)
最后一個實(shí)驗(yàn)展示了一個特別令人驚訝的發(fā)現(xiàn):具有凍結(jié)隨機(jī)權(quán)重和可訓(xùn)練線性讀出層的純雙線性模型可以解決奇偶校驗(yàn)任務(wù),即使循環(huán)參數(shù)在訓(xùn)練期間被凍結(jié)(只訓(xùn)練讀出層)。
這就像給一個人一個隨機(jī)設(shè)置的鋼琴,卻發(fā)現(xiàn)他們只需調(diào)整最后一個音符就能彈奏出完美的曲子!這與Mamba等模型形成鮮明對比,后者的狀態(tài)轉(zhuǎn)換是對角線且為正值,因此即使在學(xué)習(xí)期間調(diào)整循環(huán)參數(shù)也無法學(xué)習(xí)奇偶校驗(yàn)。
八、研究意義與未來展望
這項(xiàng)研究的意義在于重新思考了循環(huán)神經(jīng)網(wǎng)絡(luò)中隱藏單元的角色,從被動的記憶存儲轉(zhuǎn)變?yōu)橛?jì)算的積極參與者。研究表明,雙線性模型在學(xué)習(xí)狀態(tài)跟蹤任務(wù)方面非常有效,這與許多線性RNN如Mamba、LRU等形成對比。
不過,需要注意的是,雙線性模型的參數(shù)數(shù)量會隨隱藏狀態(tài)數(shù)量的增加而大致立方增長。未來研究的一個重要問題是,是否有辦法在保持強(qiáng)大的狀態(tài)跟蹤能力的同時減少參數(shù)數(shù)量。一個密切相關(guān)的問題是,這種減少是否可能適得其反(或者龐大的參數(shù)數(shù)量甚至可能有益)在大規(guī)模多任務(wù)場景中,如語言建模。
研究還建議區(qū)分有無交換結(jié)構(gòu)的狀態(tài)跟蹤任務(wù),后者可由更多類型的模型學(xué)習(xí),特別是更小的模型。這引發(fā)了另一個未來研究方向:在哪些真實(shí)世界場景中,交換狀態(tài)跟蹤任務(wù)足夠或不足夠。
總的來說,這項(xiàng)研究重新審視了循環(huán)神經(jīng)網(wǎng)絡(luò)中的雙線性狀態(tài)轉(zhuǎn)換,展示了它們在狀態(tài)跟蹤任務(wù)中的強(qiáng)大能力,并為未來的研究提供了有價值的見解。就像鋼琴手不僅需要記住音符,還需要根據(jù)當(dāng)前狀態(tài)和輸入來決定下一個動作一樣,雙線性RNN的隱藏單元也不僅僅是記憶存儲器,而是計(jì)算過程中的積極參與者。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。