在人工智能快速發(fā)展的今天,有一個看似簡單卻至關(guān)重要的問題一直困擾著研究者:當(dāng)AI模型需要處理越來越長的文本時,為什么它們的表現(xiàn)會急劇下降?這就像一個學(xué)生在考試時,題目越多就越容易分心,最后什么都記不住。
最近,來自盧森堡大學(xué)的Timur Mudarisov、Tatiana Petrova、Radu State,以及倫敦數(shù)學(xué)科學(xué)研究所的Mikhail Burtsev組成的研究團(tuán)隊,對這個困擾AI領(lǐng)域多年的問題進(jìn)行了深入研究。他們的研究成果發(fā)表在2025年8月的預(yù)印本論文中(論文編號:arXiv:2508.17821v1),有興趣深入了解的讀者可以通過ArXiv平臺訪問完整論文。
研究團(tuán)隊將目光聚焦在AI模型的"注意力機(jī)制"上。如果把AI模型比作一個圖書管理員,那么注意力機(jī)制就是這個管理員挑選重要書籍的能力。當(dāng)圖書館里只有幾十本書時,管理員能夠輕松地找到最重要的幾本;但當(dāng)書籍?dāng)?shù)量增加到成千上萬本時,這個管理員就開始犯糊涂了,往往會平均地關(guān)注每一本書,而不是專注于真正重要的那幾本。
研究團(tuán)隊首次從數(shù)學(xué)理論的角度嚴(yán)格證明了這種"注意力衰退"現(xiàn)象的必然性。他們發(fā)現(xiàn),當(dāng)前廣泛使用的softmax歸一化方法就像一個天然的"容量限制器",無論怎么優(yōu)化,都無法突破這個基本限制。更令人意外的是,他們通過數(shù)學(xué)推導(dǎo)證明,即使在最理想的情況下,單個注意力頭也只能同時區(qū)分大約80%的重要信息,剩下的20%會不可避免地"淹沒"在噪音中。
這項研究的意義遠(yuǎn)超學(xué)術(shù)范疇。當(dāng)我們使用ChatGPT處理長文檔,或者讓AI翻譯長篇文章時,經(jīng)常會發(fā)現(xiàn)AI在處理后半部分內(nèi)容時出現(xiàn)質(zhì)量下降或遺漏關(guān)鍵信息的問題。這并不是AI"偷懶",而是受到了這種內(nèi)在限制的約束。研究團(tuán)隊通過對GPT-2模型的大規(guī)模實驗驗證了他們的理論預(yù)測,為理解和解決這類問題提供了重要的科學(xué)依據(jù)。
一、注意力機(jī)制的本質(zhì):AI如何"集中精神"
要理解這項研究,我們首先需要弄清楚什么是注意力機(jī)制。在日常生活中,當(dāng)你在嘈雜的咖啡廳里與朋友聊天時,你的大腦會自動過濾掉周圍的噪音,專注于朋友的聲音。這就是人類注意力的體現(xiàn)。AI模型中的注意力機(jī)制試圖模擬這種能力。
研究團(tuán)隊解釋說,注意力機(jī)制本質(zhì)上是一個"選擇器"。當(dāng)AI處理一段文本時,它會給每個詞匯分配一個權(quán)重分?jǐn)?shù),就像給學(xué)生的作業(yè)打分一樣。分?jǐn)?shù)高的詞匯會得到更多關(guān)注,分?jǐn)?shù)低的詞匯則被相對忽略。這個過程使用了一種叫做softmax的數(shù)學(xué)方法,它能夠確保所有權(quán)重的總和恰好等于1,就像把100分總分按比例分配給不同的詞匯。
但問題恰恰出現(xiàn)在這個看似合理的分配過程中。研究團(tuán)隊發(fā)現(xiàn),當(dāng)文本長度增加時,即使某些詞匯確實比其他詞匯重要得多,softmax方法也會強(qiáng)制性地給每個詞匯分配至少一點點權(quán)重。這就好比一個老師面對越來越多的學(xué)生時,即使有些學(xué)生表現(xiàn)優(yōu)異,有些表現(xiàn)平庸,老師也不得不給每個學(xué)生都分配一些關(guān)注時間,結(jié)果就是優(yōu)秀學(xué)生得到的關(guān)注被稀釋了。
研究團(tuán)隊通過嚴(yán)格的數(shù)學(xué)推導(dǎo)證明了一個令人震驚的結(jié)論:對于任何不依賴于序列長度的歸一化方法,當(dāng)序列長度L增長時,每個位置的注意力權(quán)重都會不可避免地趨向于1/L。換句話說,如果一個文檔有1000個詞匯,那么即使某個詞匯非常重要,它能獲得的最大關(guān)注度也被限制在千分之幾的水平。這種現(xiàn)象被研究團(tuán)隊稱為"消失的注意力"。
更進(jìn)一步,研究團(tuán)隊還發(fā)現(xiàn)了一個幾何層面的限制。他們假設(shè)詞匯在高維空間中的分布相對均勻(這在實際的AI模型中經(jīng)常出現(xiàn)),然后通過幾何分析證明,即使在最理想的情況下,單個注意力頭也最多只能清晰地區(qū)分大約80%的重要詞匯。這個80%的上限不是工程問題,而是數(shù)學(xué)上的硬性約束,就像物理學(xué)中的光速限制一樣不可突破。
二、距離分析:重要信息如何被"稀釋"
為了更深入地理解注意力機(jī)制的限制,研究團(tuán)隊開發(fā)了一套精巧的距離分析方法。他們將問題轉(zhuǎn)化為一個幾何問題:如何測量被選中的重要詞匯與被忽略的非重要詞匯之間的區(qū)別程度。
研究團(tuán)隊定義了一個叫做"累積距離"的指標(biāo),用來量化選中詞匯的聚合表示與所有未選中詞匯之間的差異程度。這個概念可以用一個簡單的比喻來理解:假設(shè)你要從一堆蘋果中挑出最好的幾個做果汁,累積距離就是衡量這杯果汁與剩余蘋果的差異程度。如果差異很大,說明你確實挑到了最好的蘋果;如果差異很小,說明你的挑選標(biāo)準(zhǔn)不夠有效,好蘋果和差蘋果混在了一起。
通過復(fù)雜的數(shù)學(xué)推導(dǎo),研究團(tuán)隊得出了兩個重要的理論結(jié)果。第一個結(jié)果針對固定選擇策略:當(dāng)選擇的詞匯數(shù)量N相對于總長度L保持較小時,累積距離主要由那些權(quán)重較小的詞匯的個體貢獻(xiàn)決定。這意味著即使我們只關(guān)注少數(shù)幾個重要詞匯,那些被"忽略"的詞匯仍然會通過它們微小但累積的影響來干擾最終結(jié)果。
第二個結(jié)果更加令人驚訝:當(dāng)選擇策略變?yōu)殡S機(jī)時(即隨機(jī)選擇N個詞匯作為"重要"詞匯),累積距離的期望值可以通過一個相對簡單的公式計算。這個公式顯示,當(dāng)N與L的比例固定時,隨著總長度L的增加,區(qū)分能力會按照可預(yù)測的模式下降。
研究團(tuán)隊進(jìn)一步分析了兩個極端情況。當(dāng)N遠(yuǎn)小于L時(比如從1000個詞中選擇5個),大部分詞匯被排除在外,此時累積距離主要取決于那些低權(quán)重詞匯的個體貢獻(xiàn)之和。由于每個詞匯的權(quán)重大約為1/L,而這樣的詞匯有L-N個,總的干擾效應(yīng)大致與L成正比。另一個極端是當(dāng)N接近L時(比如選擇其中的900個詞匯),幾乎所有詞匯都被包含進(jìn)來,此時累積距離趨向于零,因為"選中"和"未選中"之間幾乎沒有區(qū)別了。
這個分析的重要意義在于,它從數(shù)學(xué)上證明了一個直覺上的觀察:當(dāng)我們試圖從越來越長的序列中選擇重要信息時,選擇的有效性會不可避免地下降。這不是算法設(shè)計的缺陷,而是信息論層面的基本限制。
三、幾何視角:AI的"視野"究竟有多大
研究團(tuán)隊采用了一個全新的幾何視角來分析注意力機(jī)制的能力邊界。他們將每個詞匯表示為高維空間中的一個點,然后研究這些點在經(jīng)過注意力加權(quán)后的空間分布特性。
為了使分析更加嚴(yán)謹(jǐn),研究團(tuán)隊做出了兩個關(guān)鍵假設(shè)。第一個假設(shè)是詞匯向量均勻分布在高維球面上,這在實際的AI模型中經(jīng)常成立,因為大多數(shù)模型都會對詞匯向量進(jìn)行歸一化處理。第二個假設(shè)是任意兩個詞匯向量之間都有一個最小的距離下界,這確保了不同詞匯在語義上確實是可區(qū)分的。
基于這些假設(shè),研究團(tuán)隊定義了"幾何可區(qū)分性"的概念。他們構(gòu)建了一個以聚合向量(由所有選中詞匯按權(quán)重合成的向量)為中心的球形區(qū)域,然后統(tǒng)計有多少個選中的詞匯在加權(quán)后仍然落在這個區(qū)域內(nèi)。落在區(qū)域內(nèi)的詞匯被認(rèn)為是"幾何可區(qū)分的",因為它們與聚合表示足夠接近,能夠被有效地識別和利用。
通過精密的概率分析和幾何計算,研究團(tuán)隊推導(dǎo)出了一個令人意外的結(jié)果:在最優(yōu)情況下,幾何可區(qū)分詞匯的比例有一個明確的上界。這個上界大約在70%到85%之間,具體數(shù)值取決于詞匯向量的維度和分布特性。換句話說,即使在理想條件下,單個注意力頭也無法同時有效地處理所有它"認(rèn)為"重要的詞匯。
這個發(fā)現(xiàn)具有深刻的實際意義。它解釋了為什么現(xiàn)代AI模型通常需要多個注意力頭來并行工作。如果單個注意力頭只能處理約80%的重要信息,那么使用多個注意力頭就成為了必要的選擇。按照獨立性假設(shè),如果我們有H個注意力頭,每個頭能處理80%的信息,那么總的覆蓋率可以達(dá)到1-(1-0.8)^H。當(dāng)H=3時,覆蓋率就能達(dá)到99.2%,這為多頭注意力機(jī)制的設(shè)計提供了理論支撐。
研究團(tuán)隊還通過GPT-2模型的實驗驗證了這個理論預(yù)測。他們發(fā)現(xiàn),隨著選擇的詞匯數(shù)量增加,幾何可區(qū)分的詞匯比例確實會快速下降并趨于穩(wěn)定。在大多數(shù)情況下,這個穩(wěn)定值位于70%到85%的范圍內(nèi),與理論預(yù)測高度吻合。更有趣的是,當(dāng)選擇的詞匯數(shù)量超過某個臨界值時,增加更多的詞匯并不能提升模型的表達(dá)能力,反而會因為引入更多的"噪音"而降低整體性能。
四、梯度敏感性:訓(xùn)練過程的隱藏風(fēng)險
除了分析注意力機(jī)制本身的限制,研究團(tuán)隊還深入研究了訓(xùn)練過程中的一個關(guān)鍵問題:梯度敏感性。這個問題可能聽起來很技術(shù)化,但它對AI模型的實際性能有著直接而重要的影響。
在AI模型的訓(xùn)練過程中,系統(tǒng)需要根據(jù)預(yù)測錯誤來調(diào)整內(nèi)部參數(shù),這個過程依賴于計算梯度(即參數(shù)變化對性能影響的導(dǎo)數(shù))。理想情況下,我們希望梯度能夠提供穩(wěn)定而有用的指導(dǎo)信號。但研究團(tuán)隊發(fā)現(xiàn),softmax歸一化方法存在一個內(nèi)在的矛盾:為了讓注意力更加集中(即讓重要詞匯獲得更高權(quán)重),我們通常會降低"溫度"參數(shù),這相當(dāng)于讓系統(tǒng)做出更加"堅決"的選擇。但是,這種堅決性是有代價的。
研究團(tuán)隊通過一個簡單而深刻的例子說明了這個問題。考慮兩個幾乎相同的詞匯序列,它們之間只有微小的差別,比如最重要的兩個詞匯的相對重要性發(fā)生了輕微調(diào)換。在低溫度設(shè)置下,這種微小的變化會導(dǎo)致注意力權(quán)重的劇烈改變,因為系統(tǒng)會從專注于詞匯A切換到專注于詞匯B。這種切換會產(chǎn)生巨大的梯度值,使得訓(xùn)練過程變得不穩(wěn)定。
具體來說,研究團(tuán)隊證明了softmax函數(shù)的梯度范數(shù)(即梯度向量的長度)與溫度參數(shù)成反比關(guān)系。當(dāng)溫度T很小時,梯度范數(shù)可能達(dá)到1/(4T)的量級。這意味著如果我們將溫度設(shè)置為0.1來獲得更尖銳的注意力分布,梯度范數(shù)可能增加到2.5,相比于溫度為1時增加了150%。這種梯度放大效應(yīng)會讓訓(xùn)練過程變得極不穩(wěn)定,就像開車時方向盤變得異常敏感,輕微的轉(zhuǎn)動就會導(dǎo)致劇烈的方向改變。
通過對GPT-2模型的實驗分析,研究團(tuán)隊驗證了這個理論預(yù)測。他們測量了不同溫度設(shè)置下的實際梯度范數(shù),發(fā)現(xiàn)實驗結(jié)果與理論預(yù)測高度一致。當(dāng)溫度小于0.1時,梯度范數(shù)確實按照1/T的規(guī)律快速增長;而當(dāng)溫度大于1時,梯度范數(shù)趨于穩(wěn)定,但此時注意力分布也變得過于平緩,失去了選擇性。
這個發(fā)現(xiàn)揭示了AI訓(xùn)練中的一個基本兩難困境:我們既希望注意力機(jī)制能夠做出清晰的選擇(這需要低溫度),又希望訓(xùn)練過程保持穩(wěn)定(這需要高溫度)。傳統(tǒng)的解決方案通常是在這兩個目標(biāo)之間尋找妥協(xié),但研究團(tuán)隊的分析表明,這種妥協(xié)本質(zhì)上受到數(shù)學(xué)約束的限制。
五、實驗驗證:理論預(yù)測在真實模型中的表現(xiàn)
為了驗證他們的理論發(fā)現(xiàn),研究團(tuán)隊在廣泛使用的GPT-2模型上進(jìn)行了全面的實驗驗證。他們選擇了列夫·托爾斯泰的《戰(zhàn)爭與和平》作為測試文本,這部作品的長篇幅特性正好適合測試長序列處理能力。
在距離分析的驗證實驗中,研究團(tuán)隊設(shè)計了兩種互補(bǔ)的測試方案。第一種方案固定選擇詞匯數(shù)量為5個,然后逐步增加序列長度從32個詞匯到1024個詞匯。實驗結(jié)果顯示,隨著序列長度的增加,真實距離和理論預(yù)測的期望距離都呈現(xiàn)線性增長趨勢,這完美驗證了理論分析中的預(yù)測。更令人印象深刻的是,研究團(tuán)隊推導(dǎo)的上界雖然相對保守,但在所有測試情況下都能可靠地覆蓋實際觀測值。
第二種方案則固定序列長度為1024個詞匯,逐步增加選擇的詞匯數(shù)量從1個到100個。實驗結(jié)果再次證實了理論預(yù)測:當(dāng)選擇的詞匯數(shù)量較少時(比如5個以下),距離值保持相對穩(wěn)定;但隨著數(shù)量增加,距離開始快速下降,最終趨于平緩。當(dāng)選擇數(shù)量達(dá)到100個時,距離值已經(jīng)接近零,說明選擇失去了意義。
特別有價值的是,研究團(tuán)隊還進(jìn)行了統(tǒng)計顯著性測試。他們使用Kolmogorov-Smirnov檢驗來確定"臨界選擇數(shù)量",即經(jīng)驗分布與理論預(yù)測分布開始出現(xiàn)顯著差異的點。結(jié)果顯示,這個臨界點大約出現(xiàn)在序列長度的6%處。換句話說,當(dāng)我們選擇的詞匯數(shù)量超過總數(shù)的6%時,注意力機(jī)制的選擇行為就開始變得與隨機(jī)選擇無異。
幾何可區(qū)分性的實驗驗證同樣令人信服。研究團(tuán)隊將GPT-2模型中的詞匯向量按照理論假設(shè)進(jìn)行歸一化處理,然后計算幾何可區(qū)分詞匯的實際比例。實驗結(jié)果顯示,隨著選擇詞匯數(shù)量的增加,可區(qū)分比例快速下降,并在選擇數(shù)量達(dá)到16左右時穩(wěn)定在70%到85%之間。這個穩(wěn)定區(qū)間與理論預(yù)測完全一致,證明了幾何分析的有效性。
梯度敏感性的驗證實驗可能是最直觀的。研究團(tuán)隊測量了不同溫度設(shè)置下的有限差分梯度范數(shù),這是一種近似計算真實梯度的數(shù)值方法。實驗結(jié)果完美地再現(xiàn)了理論預(yù)測的1/T趨勢。當(dāng)溫度小于0.1時,梯度范數(shù)呈現(xiàn)明顯的反比例增長;當(dāng)溫度大于1時,所有曲線都趨于收斂,梯度范數(shù)下降了兩個數(shù)量級。這個實驗不僅驗證了理論分析,還為實踐中的溫度參數(shù)選擇提供了明確指導(dǎo)。
六、實際意義:從理論到應(yīng)用的橋梁
這項研究的價值不僅在于其理論深度,更在于它為解決AI系統(tǒng)的實際問題提供了科學(xué)依據(jù)和明確方向。當(dāng)我們理解了softmax歸一化的內(nèi)在限制后,就能夠更好地解釋和改進(jìn)現(xiàn)有AI系統(tǒng)的性能。
首先,這項研究解釋了為什么AI模型在處理長文檔時經(jīng)常出現(xiàn)"后勁不足"的問題。當(dāng)我們讓ChatGPT總結(jié)一篇長文章時,經(jīng)常會發(fā)現(xiàn)它對文章后半部分的處理質(zhì)量明顯下降,或者遺漏了一些重要細(xì)節(jié)。過去我們可能認(rèn)為這是模型容量不足或訓(xùn)練數(shù)據(jù)不夠的問題,但現(xiàn)在我們知道,這很可能是注意力機(jī)制本身的數(shù)學(xué)限制造成的。
其次,研究結(jié)果為AI系統(tǒng)的架構(gòu)設(shè)計提供了量化指導(dǎo)。80%的幾何可區(qū)分性上限告訴我們,單個注意力頭的處理能力是有限的,這為多頭注意力機(jī)制的必要性提供了理論支撐。根據(jù)研究團(tuán)隊的分析,要達(dá)到99%以上的信息覆蓋率,至少需要3個獨立的注意力頭。這個結(jié)論與現(xiàn)代Transformer架構(gòu)中廣泛使用多頭設(shè)計的實踐高度一致。
梯度敏感性分析則為訓(xùn)練策略的選擇提供了重要參考。研究結(jié)果表明,將溫度參數(shù)設(shè)置得過低(比如小于0.1)雖然能夠產(chǎn)生更尖銳的注意力分布,但會導(dǎo)致訓(xùn)練不穩(wěn)定。相反,適度的溫度設(shè)置(比如0.5到1.0之間)能夠在選擇性和穩(wěn)定性之間達(dá)到更好的平衡。
研究團(tuán)隊還提出了三個具體的實踐建議。第一個建議是"保持活躍集合的小規(guī)模"。根據(jù)臨界選擇數(shù)量的分析,當(dāng)選擇的詞匯數(shù)量超過序列長度的6%時,選擇效果會急劇下降。因此,在設(shè)計注意力機(jī)制時,應(yīng)該傾向于使用top-k或稀疏注意力等方法,將關(guān)注點集中在少數(shù)真正重要的位置上。
第二個建議是"監(jiān)控注意力熵值"。注意力分布的熵值可以作為模型飽和程度的指標(biāo)。當(dāng)熵值上升或幾何可區(qū)分比例下降時,說明某個注意力頭已經(jīng)接近其處理能力的上限,此時應(yīng)該考慮增加額外的注意力頭或切換到長度感知的歸一化方法。
第三個建議是"避免過度尖銳的softmax"。將溫度參數(shù)降到0.1以下雖然能夠提高選擇性,但會帶來梯度爆炸的風(fēng)險,得不償失。更好的策略是使用那些能夠?qū)⑦x擇性與梯度穩(wěn)定性解耦的新型歸一化方法,比如Sparsemax、Scalable-Softmax或Self-Adjusted Softmax。
這些發(fā)現(xiàn)對當(dāng)前AI技術(shù)的發(fā)展具有重要指導(dǎo)意義。例如,在長文本處理任務(wù)中,我們現(xiàn)在知道不應(yīng)該期待單個模型能夠同等地關(guān)注所有內(nèi)容,而應(yīng)該設(shè)計分層或分段的處理策略。在對話系統(tǒng)中,我們可以根據(jù)對話歷史的長度動態(tài)調(diào)整注意力參數(shù),避免在長對話中出現(xiàn)上下文遺忘問題。
說到底,這項研究最大的貢獻(xiàn)在于它將一個困擾AI領(lǐng)域多年的經(jīng)驗性觀察轉(zhuǎn)化為了嚴(yán)格的數(shù)學(xué)理論。我們現(xiàn)在不僅知道AI的注意力機(jī)制確實存在容量限制,還知道這個限制的具體數(shù)值和產(chǎn)生機(jī)理。這種理論理解為未來的技術(shù)改進(jìn)指明了方向,也為評估和比較不同AI系統(tǒng)的性能提供了科學(xué)標(biāo)準(zhǔn)。
當(dāng)我們下次使用AI工具處理長文檔或進(jìn)行復(fù)雜推理時,可以帶著這種新的理解來評判其表現(xiàn)。AI模型的某些"失誤"可能并不是缺陷,而是其內(nèi)在數(shù)學(xué)結(jié)構(gòu)的必然結(jié)果。而真正的進(jìn)步,就在于設(shè)計出能夠突破這些數(shù)學(xué)約束的新方法和新架構(gòu)。有興趣深入了解這項研究技術(shù)細(xì)節(jié)的讀者,可以通過ArXiv平臺查閱完整的論文內(nèi)容。
Q&A
Q1:softmax歸一化方法到底有什么問題?
A:softmax歸一化方法的核心問題是"注意力稀釋"。當(dāng)處理長文本時,它會強(qiáng)制給每個詞匯都分配一點權(quán)重,導(dǎo)致真正重要詞匯的關(guān)注度被攤薄。就像一個老師面對越來越多學(xué)生時,即使有些學(xué)生很優(yōu)秀,也不得不平均分配注意力,結(jié)果優(yōu)秀學(xué)生得到的關(guān)注被稀釋了。數(shù)學(xué)上證明,每個位置的注意力權(quán)重會趨向于1/L,其中L是序列長度。
Q2:為什么AI模型需要多個注意力頭?
A:研究證明單個注意力頭最多只能同時區(qū)分約80%的重要信息,這是數(shù)學(xué)上的硬性限制。就像一個人的視野有限,需要多雙眼睛才能看全景象。如果要達(dá)到99%以上的信息覆蓋率,至少需要3個獨立的注意力頭。這解釋了為什么現(xiàn)代AI模型都采用多頭注意力機(jī)制,不是工程選擇,而是數(shù)學(xué)必然。
Q3:降低溫度參數(shù)讓AI更專注,為什么不建議這樣做?
A:雖然降低溫度參數(shù)能讓AI的注意力更集中,但會帶來訓(xùn)練不穩(wěn)定的嚴(yán)重后果。研究顯示梯度范數(shù)與溫度成反比,當(dāng)溫度小于0.1時,梯度會劇烈波動,就像方向盤變得異常敏感。更好的做法是使用溫度0.5-1.0之間的適中值,或者采用Sparsemax等新型歸一化方法,既能保持選擇性又能確保訓(xùn)練穩(wěn)定。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。