在人工智能飛速發(fā)展的今天,我們每天都在與各種AI系統(tǒng)打交道,從智能手機(jī)的語音助手到各種文本生成工具。不過,你有沒有想過,這些AI系統(tǒng)是怎么理解語言中詞匯的先后順序的?比如,"我去商店"和"商店去我"這兩句話的意思完全不同,AI又是如何區(qū)分的呢?
這項(xiàng)由韓國(guó)科學(xué)技術(shù)院(KAIST)的Junu Kim、Edward Choi教授與微軟研究院的Xiao Liu、Zhenghao Lin、Lei Ji、Yeyun Gong等研究人員合作完成的研究,發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.21042v1),為我們揭開了AI語言模型中一個(gè)令人意外的秘密。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。
一直以來,研究人員都認(rèn)為AI語言模型主要依靠一種叫做"位置編碼"的技術(shù)來理解詞匯的順序。就像給每個(gè)詞匯貼上一個(gè)位置標(biāo)簽,告訴AI這個(gè)詞是第幾個(gè)出現(xiàn)的。其中,一種名為RoPE(旋轉(zhuǎn)位置嵌入)的技術(shù)在現(xiàn)代大型語言模型中被廣泛使用,包括我們熟悉的Llama-3.1、Phi-4和Qwen3等模型。
然而,這次研究卻發(fā)現(xiàn)了一個(gè)被忽視的重要機(jī)制。研究團(tuán)隊(duì)發(fā)現(xiàn),除了這些明確的位置編碼技術(shù)外,AI模型中還有一個(gè)"隱藏的助手"在默默工作——這就是所謂的"因果掩碼"。
一、意外發(fā)現(xiàn):不起眼的"門衛(wèi)"竟是位置專家
要理解這個(gè)發(fā)現(xiàn)的重要性,我們可以把AI語言模型想象成一個(gè)巨大的圖書館。在這個(gè)圖書館里,每當(dāng)有人提出問題時(shí),AI就需要從海量的文字信息中找到相關(guān)內(nèi)容來回答。傳統(tǒng)上,我們認(rèn)為AI主要依靠"位置編碼"這個(gè)圖書管理員來記住每本書的位置和順序。
但研究團(tuán)隊(duì)發(fā)現(xiàn),圖書館里還有一個(gè)看似不起眼的"門衛(wèi)"——因果掩碼。這個(gè)門衛(wèi)的工作看起來很簡(jiǎn)單:確保AI在處理文本時(shí),不會(huì)"偷看"后面還沒有出現(xiàn)的詞匯。就像你在讀小說時(shí),不能提前知道結(jié)局一樣。
令人驚訝的是,研究人員通過嚴(yán)密的數(shù)學(xué)推導(dǎo)證明,這個(gè)看似只是"維持秩序"的門衛(wèi),實(shí)際上也在默默地為AI提供位置信息。即使在完全沒有參數(shù)、沒有明確位置編碼,甚至沒有前后文邏輯關(guān)系的極簡(jiǎn)情況下,這個(gè)因果掩碼仍然能夠讓AI產(chǎn)生依賴位置的注意力模式。
這就好比你以為只有地圖能告訴你方向,結(jié)果發(fā)現(xiàn)連路邊的柵欄也在悄悄地為你指路。研究團(tuán)隊(duì)通過數(shù)學(xué)證明發(fā)現(xiàn),因果掩碼會(huì)自動(dòng)產(chǎn)生一種傾向:讓AI更關(guān)注距離當(dāng)前位置較近的詞匯,而對(duì)較遠(yuǎn)的詞匯關(guān)注度較低。這種行為模式與許多專門設(shè)計(jì)的位置編碼技術(shù)極其相似。
二、深入探索:用數(shù)學(xué)語言解開謎團(tuán)
為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)行了一系列精巧的實(shí)驗(yàn)。他們創(chuàng)建了一個(gè)極簡(jiǎn)版的AI模型——沒有任何可學(xué)習(xí)的參數(shù),沒有復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),甚至連前饋網(wǎng)絡(luò)都被移除了。這個(gè)模型就像一個(gè)被剝離了所有"裝飾"的基本框架,只保留最核心的注意力機(jī)制和因果掩碼。
在這種極簡(jiǎn)條件下,研究人員輸入了一系列隨機(jī)生成的向量(可以想象成隨機(jī)排列的數(shù)字序列),這些向量之間沒有任何實(shí)際的語義關(guān)系。按照常理,這樣的模型應(yīng)該無法產(chǎn)生任何有意義的位置相關(guān)模式。
然而,實(shí)驗(yàn)結(jié)果令人震驚。即使在這種看似"一無所有"的條件下,模型仍然表現(xiàn)出了明顯的位置偏好:對(duì)于任何給定位置的查詢,模型總是給距離較近的位置分配更高的注意力權(quán)重。這種模式在模型的第二層開始出現(xiàn),并隨著層數(shù)的增加而變得越來越明顯。
更有趣的是,研究人員發(fā)現(xiàn)這種位置模式具有一些獨(dú)特的性質(zhì)。與傳統(tǒng)的絕對(duì)位置編碼不同,它不會(huì)產(chǎn)生沿對(duì)角線對(duì)稱的注意力熱圖。與相對(duì)位置編碼也不同,同一對(duì)角線上的注意力分?jǐn)?shù)并不均勻。這表明因果掩碼產(chǎn)生的位置信息具有自己獨(dú)特的"個(gè)性",既不同于絕對(duì)位置編碼,也不同于相對(duì)位置編碼。
三、真實(shí)世界驗(yàn)證:從理論到實(shí)踐的跨越
理論發(fā)現(xiàn)固然令人興奮,但研究團(tuán)隊(duì)并沒有止步于此。他們決定在真實(shí)的語言模型訓(xùn)練中驗(yàn)證這個(gè)發(fā)現(xiàn)。研究人員基于Llama-3架構(gòu)訓(xùn)練了一個(gè)擁有15億參數(shù)的語言模型,但故意移除了所有明確的位置編碼。
這個(gè)實(shí)驗(yàn)就像是讓一個(gè)人在沒有地圖和GPS的情況下導(dǎo)航,看看他能否僅憑其他線索找到正確的路徑。模型在包含200億個(gè)詞匯的Fineweb-Edu語料庫上進(jìn)行訓(xùn)練,這相當(dāng)于讓它閱讀了海量的網(wǎng)絡(luò)文本內(nèi)容。
實(shí)驗(yàn)結(jié)果證實(shí)了理論預(yù)測(cè)。即使沒有明確的位置編碼,訓(xùn)練好的模型仍然展現(xiàn)出了明顯的位置相關(guān)注意力模式。更重要的是,這些模式與理論分析高度一致,但由于模型參數(shù)的學(xué)習(xí)和優(yōu)化,實(shí)際表現(xiàn)出的位置偏好比理論預(yù)測(cè)的更加強(qiáng)烈和清晰。
研究人員還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在真實(shí)訓(xùn)練的模型中,學(xué)習(xí)到的參數(shù)會(huì)進(jìn)一步放大因果掩碼產(chǎn)生的位置模式。這就像原本微弱的信號(hào)經(jīng)過放大器后變得更加清晰可辨。特別是注意力機(jī)制中的查詢(Q)和鍵(K)變換矩陣,它們的作用類似于調(diào)節(jié)對(duì)比度的濾鏡,讓原本就存在的位置模式變得更加突出。
四、意外發(fā)現(xiàn):兩個(gè)"導(dǎo)航系統(tǒng)"的相互影響
研究的最令人意外的發(fā)現(xiàn)來自對(duì)現(xiàn)代大型語言模型的分析。現(xiàn)在的主流模型通常同時(shí)使用RoPE位置編碼和因果掩碼,就像同時(shí)裝備了GPS和指南針的導(dǎo)航系統(tǒng)。研究人員好奇這兩個(gè)系統(tǒng)會(huì)如何相互作用。
通過對(duì)模型進(jìn)行細(xì)致的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:當(dāng)RoPE和因果掩碼同時(shí)存在時(shí),因果掩碼會(huì)"扭曲"RoPE的相對(duì)位置注意力模式,使其變成非相對(duì)的模式。
這種現(xiàn)象可以用一個(gè)生動(dòng)的比喻來理解。RoPE原本就像一個(gè)標(biāo)準(zhǔn)的尺子,能夠精確測(cè)量詞匯之間的相對(duì)距離。但當(dāng)因果掩碼這個(gè)"有色眼鏡"介入后,它會(huì)讓AI在觀察距離時(shí)產(chǎn)生系統(tǒng)性的偏差,使得原本應(yīng)該均勻分布的注意力變得不均勻。
為了驗(yàn)證這個(gè)發(fā)現(xiàn)的普遍性,研究團(tuán)隊(duì)分析了三個(gè)主流的大型語言模型:Llama-3.1-8B、Phi-4和Qwen3-8B。令人震驚的是,在所有這些模型中都觀察到了相同的現(xiàn)象。這個(gè)發(fā)現(xiàn)表明,我們過去對(duì)這些模型如何處理位置信息的理解可能并不完整。
五、深層含義:重新審視AI的"空間感"
這項(xiàng)研究的意義遠(yuǎn)不止于發(fā)現(xiàn)一個(gè)新的機(jī)制。它提醒我們,AI系統(tǒng)的工作原理可能比我們想象的更加復(fù)雜和微妙。就像人類的空間感知不僅依賴視覺,還受到聽覺、觸覺等多種感官的影響一樣,AI對(duì)位置信息的處理也可能涉及多個(gè)相互作用的機(jī)制。
研究結(jié)果顯示,因果掩碼產(chǎn)生的位置模式會(huì)特別偏向于序列開頭的幾個(gè)詞匯。這種偏向可能會(huì)對(duì)模型的長(zhǎng)文本處理能力產(chǎn)生影響。當(dāng)模型需要處理比訓(xùn)練時(shí)更長(zhǎng)的文本時(shí),這種偏向可能會(huì)導(dǎo)致性能下降,因?yàn)槟P瓦^度關(guān)注文本開頭而忽略了后續(xù)的重要信息。
更重要的是,這個(gè)發(fā)現(xiàn)挑戰(zhàn)了我們對(duì)AI系統(tǒng)設(shè)計(jì)的傳統(tǒng)假設(shè)。過去,研究人員通常認(rèn)為只要設(shè)計(jì)好明確的位置編碼就足夠了,就像為汽車安裝一個(gè)好的GPS就能解決導(dǎo)航問題。但這項(xiàng)研究表明,系統(tǒng)中看似無關(guān)的其他組件也可能在"暗中"影響位置信息的處理。
六、技術(shù)細(xì)節(jié):當(dāng)數(shù)學(xué)遇見直覺
雖然這項(xiàng)研究涉及復(fù)雜的數(shù)學(xué)推導(dǎo),但其核心思想可以用相對(duì)直觀的方式理解。研究人員通過嚴(yán)格的數(shù)學(xué)分析證明,即使在最簡(jiǎn)化的條件下,因果掩碼也會(huì)在注意力分?jǐn)?shù)中引入位置依賴性。
具體來說,當(dāng)AI模型處理一個(gè)序列時(shí),因果掩碼確保每個(gè)位置只能"看到"它之前的位置。這種限制雖然看似簡(jiǎn)單,但它會(huì)在模型的內(nèi)部表示中創(chuàng)造出一種漸進(jìn)的不對(duì)稱性。序列開頭的詞匯能夠被所有后續(xù)詞匯看到,而序列末尾的詞匯只能被很少的詞匯看到。
這種不對(duì)稱性就像滾雪球效應(yīng)一樣,隨著模型層數(shù)的增加而逐漸放大。到了第二層,這種效應(yīng)就足夠明顯,能夠產(chǎn)生可觀察的位置偏好模式。研究人員通過數(shù)學(xué)證明,這種模式會(huì)嚴(yán)格地偏向更近的位置,這與許多專門設(shè)計(jì)的位置編碼技術(shù)的行為驚人地相似。
研究團(tuán)隊(duì)還發(fā)現(xiàn),這種現(xiàn)象的強(qiáng)度受到一個(gè)叫做α的參數(shù)影響。當(dāng)α等于0時(shí)(對(duì)應(yīng)于完全獨(dú)立的輸入向量),位置模式最為純粹和清晰。當(dāng)α增大時(shí),模式仍然存在,但會(huì)更快地收斂到某個(gè)固定值。這為我們理解不同輸入條件下模型行為提供了重要insights。
七、實(shí)驗(yàn)驗(yàn)證:理論與現(xiàn)實(shí)的完美吻合
為了確保發(fā)現(xiàn)的可靠性,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)驗(yàn)證。他們首先在模擬環(huán)境中測(cè)試了理論預(yù)測(cè),使用了50個(gè)64維的向量進(jìn)行了超過10萬次的模擬實(shí)驗(yàn)。結(jié)果完美地驗(yàn)證了理論分析:在α=0的條件下,第一層的注意力矩陣確實(shí)在對(duì)角線上為1,其他位置為0。從第二層開始,清晰的位置依賴模式開始出現(xiàn)并逐層加強(qiáng)。
實(shí)驗(yàn)還驗(yàn)證了LayerNorm(層歸一化)與L2歸一化在這種情況下會(huì)產(chǎn)生類似的行為。雖然LayerNorm由于√d縮放因子的存在,會(huì)使softmax分布變得更加尖銳,從而減弱位置信息的影響,但通過調(diào)整縮放因子,可以恢復(fù)與L2歸一化類似的行為模式。
在真實(shí)模型的實(shí)驗(yàn)中,研究人員追蹤了注意力中間結(jié)果的整個(gè)計(jì)算流程。他們發(fā)現(xiàn),雖然輸入詞嵌入之間幾乎正交(內(nèi)積接近零),但經(jīng)過查詢和鍵變換后,非對(duì)角線元素顯著增加。這相當(dāng)于將理論分析中的α從0調(diào)整到一個(gè)較大的值,使得位置模式變得更加明顯。
特別值得注意的是,研究人員還發(fā)現(xiàn)了注意力權(quán)重在經(jīng)過值變換和輸出投影后的變化規(guī)律。對(duì)角線值隨位置遞減,而非對(duì)角線值保持相對(duì)均勻,這與理論分析中的h'(i)和g'(i)函數(shù)行為完全一致。
八、對(duì)現(xiàn)代AI模型的深入分析
研究的另一個(gè)重要貢獻(xiàn)是對(duì)當(dāng)前主流大型語言模型的系統(tǒng)性分析。研究團(tuán)隊(duì)深入分析了Llama-3.1-8B、Phi-4和Qwen3-8B這三個(gè)代表性模型,使用1000個(gè)長(zhǎng)度為1024的序列進(jìn)行了全面的注意力模式分析。
分析結(jié)果揭示了一個(gè)一致的現(xiàn)象:在所有這些模型中,從第二層開始都出現(xiàn)了明顯的非相對(duì)位置模式。這種模式表現(xiàn)為注意力熱圖左側(cè)區(qū)域的明顯偏向,即使在對(duì)角線歸一化后仍然清晰可見。
更重要的是,研究人員發(fā)現(xiàn)這種效應(yīng)的規(guī)模并不可忽略。在典型的注意力分?jǐn)?shù)范圍([-10?, 10?])中,非相對(duì)模式的幅度達(dá)到了[-1, 1]的規(guī)模,這足以對(duì)模型行為產(chǎn)生實(shí)質(zhì)性影響。
這個(gè)發(fā)現(xiàn)對(duì)我們理解現(xiàn)代AI模型具有重要意義。它表明這些模型實(shí)際上同時(shí)依賴于RoPE提供的相對(duì)位置信息和因果掩碼提供的絕對(duì)位置傾向。這種"雙重導(dǎo)航系統(tǒng)"可能是這些模型能夠在各種語言任務(wù)中表現(xiàn)出色的原因之一,但也可能是導(dǎo)致長(zhǎng)文本處理困難的潛在因素。
說到底,這項(xiàng)研究為我們揭示了AI語言模型中一個(gè)被長(zhǎng)期忽視但至關(guān)重要的機(jī)制。它告訴我們,AI對(duì)位置信息的理解不僅來自于明確設(shè)計(jì)的位置編碼,還來自于看似無關(guān)的結(jié)構(gòu)性約束。這就像發(fā)現(xiàn)除了明確的路標(biāo)外,道路的設(shè)計(jì)本身也在為行人提供方向指引。
這個(gè)發(fā)現(xiàn)對(duì)AI研究和應(yīng)用都具有深遠(yuǎn)的影響。對(duì)于研究人員來說,它提醒我們需要更全面地考慮模型中各個(gè)組件的相互作用,而不是將它們視為獨(dú)立的模塊。對(duì)于AI系統(tǒng)的設(shè)計(jì)者來說,它提供了優(yōu)化模型性能的新思路——既要考慮顯式的位置編碼設(shè)計(jì),也要考慮因果掩碼等結(jié)構(gòu)性約束的影響。
對(duì)于普通用戶而言,這項(xiàng)研究雖然技術(shù)性較強(qiáng),但它的意義在于幫助我們更好地理解AI系統(tǒng)的工作原理。當(dāng)我們與AI助手對(duì)話時(shí),當(dāng)我們使用AI工具處理文本時(shí),我們現(xiàn)在知道這些系統(tǒng)對(duì)語言順序的理解來自于多個(gè)相互配合的機(jī)制,而不是單一的技術(shù)方案。
這項(xiàng)研究也為未來的AI發(fā)展指明了方向。隨著我們對(duì)AI系統(tǒng)內(nèi)部機(jī)制理解的不斷深入,我們有望設(shè)計(jì)出更加高效、更能處理長(zhǎng)文本的新一代語言模型?;蛟S在不久的將來,我們會(huì)看到能夠更好地平衡相對(duì)位置信息和絕對(duì)位置傾向的新型模型架構(gòu),為人工智能的進(jìn)一步發(fā)展奠定基礎(chǔ)。
Q&A
Q1:什么是因果掩碼?它在AI語言模型中起什么作用?
A:因果掩碼是AI語言模型中的一個(gè)機(jī)制,它確保模型在處理文本時(shí)不能"偷看"后面還沒出現(xiàn)的詞匯,就像你讀小說時(shí)不能提前知道結(jié)局。這項(xiàng)研究發(fā)現(xiàn),這個(gè)看似只是維持處理順序的機(jī)制,實(shí)際上也在為AI提供位置信息,讓AI更關(guān)注距離當(dāng)前位置較近的詞匯。
Q2:RoPE位置編碼和因果掩碼同時(shí)使用會(huì)產(chǎn)生什么問題?
A:研究發(fā)現(xiàn)當(dāng)RoPE和因果掩碼同時(shí)存在時(shí),因果掩碼會(huì)"扭曲"RoPE的相對(duì)位置注意力模式,使其變成非相對(duì)的模式。這就像原本精確的尺子被有色眼鏡扭曲了,導(dǎo)致AI對(duì)位置距離的感知產(chǎn)生系統(tǒng)性偏差,可能影響模型處理長(zhǎng)文本的能力。
Q3:這個(gè)發(fā)現(xiàn)對(duì)現(xiàn)在的大型語言模型有什么影響?
A:研究團(tuán)隊(duì)在Llama-3.1、Phi-4和Qwen3等主流模型中都發(fā)現(xiàn)了這種現(xiàn)象,說明這是一個(gè)普遍存在的機(jī)制。這意味著這些模型實(shí)際上同時(shí)依賴兩套"導(dǎo)航系統(tǒng)"來理解位置信息,這可能既是它們表現(xiàn)出色的原因,也可能是處理超長(zhǎng)文本時(shí)遇到困難的潛在因素。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。