av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 Kinetics:從全新視角重新思考大語言模型測試階段的資源分配,卡內(nèi)基梅隆大學(xué)研究表明稀疏注意力機(jī)制至關(guān)重要

Kinetics:從全新視角重新思考大語言模型測試階段的資源分配,卡內(nèi)基梅隆大學(xué)研究表明稀疏注意力機(jī)制至關(guān)重要

2025-06-10 13:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 13:52 ? 科技行者

卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊Ranajoy Sadhukhan、Zhuoming Chen(共同第一作者)、Haizhong Zheng、Yang Zhou、Emma Strubell和Beidi Chen在2025年6月5日發(fā)表了一項突破性研究,題為《Kinetics: Rethinking Test-Time Scaling Laws》。這項研究對大語言模型(LLM)在測試階段的資源分配策略提出了全新見解,有興趣深入了解的讀者可訪問他們的項目網(wǎng)站:https://infini-ai-lab.github.io/Kinetics。

想象一下,你有一輛賽車(大語言模型),希望它跑得又快又好。傳統(tǒng)觀點認(rèn)為,小型賽車只要加足夠的油(計算資源)也能跑得和大車一樣好。但這項研究發(fā)現(xiàn),事實并非如此簡單。

研究團(tuán)隊發(fā)現(xiàn),之前人們對小型語言模型的效率評估存在嚴(yán)重高估。以往的研究主要關(guān)注計算量(浮點運(yùn)算,即FLOPs),忽略了內(nèi)存訪問這一關(guān)鍵瓶頸。就像一輛車不僅需要油(計算能力),還需要足夠?qū)挼牡缆罚▋?nèi)存帶寬)。在實際應(yīng)用中,特別是當(dāng)模型需要生成長篇推理或多次嘗試解題時,內(nèi)存訪問常常成為真正的限制因素。

團(tuán)隊通過分析從0.6B到32B參數(shù)規(guī)模的多種模型,提出了一個名為"Kinetics"的全新縮放定律。這個定律不僅考慮計算量,還將內(nèi)存訪問成本納入考量,更全面地指導(dǎo)資源分配。就像物理學(xué)中的動能公式(Ek = 1/2mv?)一樣,Kinetics揭示了測試階段資源分配的本質(zhì)規(guī)律。

這一新定律得出了一個令人驚訝的結(jié)論:測試階段的計算資源在超過某個參數(shù)閾值(實證研究中約為14B)的模型上使用比在小型模型上更有效。這是因為在測試階段,真正的成本瓶頸不是模型參數(shù)數(shù)量,而是注意力機(jī)制(attention)的計算和內(nèi)存訪問。

受此啟發(fā),研究團(tuán)隊提出了一個基于稀疏注意力(sparse attention)的全新縮放范式。這種方法通過降低每個生成token的成本,使模型能在相同資源預(yù)算下生成更長的文本或并行處理更多樣本。就像讓賽車只關(guān)注真正重要的道路信息,而不是浪費(fèi)精力觀察所有細(xì)節(jié)。

實驗結(jié)果令人震驚:在美國數(shù)學(xué)邀請賽(AIME)問題解決任務(wù)上,采用稀疏注意力的模型在低成本場景下準(zhǔn)確率提高了60多個百分點,在高成本場景下也有超過5個百分點的提升。這一優(yōu)勢在所有測試的模型上都得到了驗證,包括最先進(jìn)的混合專家模型(MoEs)。

一、為什么我們需要重新思考測試階段的資源分配?

近年來,大語言模型展現(xiàn)出驚人的推理能力,特別是在復(fù)雜任務(wù)解決上取得了巨大突破。這些突破大多依賴于測試階段的特殊策略,比如長鏈思維(Long-CoT)和多次嘗試選最佳(Best-of-N)。想象你在解一道難題,不僅要寫下詳細(xì)的思考過程(長鏈思維),還可能嘗試多種不同方法(多次嘗試),最后選擇最好的那個答案。

然而,這些策略帶來了巨大的推理成本。就像一輛賽車參加比賽,不僅要考慮油耗(計算能力),還要考慮輪胎磨損和空氣阻力(內(nèi)存訪問)。之前的研究主要關(guān)注"油耗"(浮點運(yùn)算),卻忽略了"輪胎磨損"(內(nèi)存訪問成本),導(dǎo)致資源分配決策出現(xiàn)偏差。

研究團(tuán)隊通過詳細(xì)分析發(fā)現(xiàn),在長鏈思維和多次嘗試的場景下,注意力機(jī)制的計算和內(nèi)存訪問成本遠(yuǎn)遠(yuǎn)超過模型參數(shù)的計算成本,比例高達(dá)10-1000倍!這就像賽車比賽中,輪胎磨損比油耗更容易成為限制因素。

以Qwen3系列模型在AIME24數(shù)學(xué)競賽上的表現(xiàn)為例,按照傳統(tǒng)的計算量(FLOPs)評估方法,小型模型通過生成更長的推理或更多次嘗試,看起來能達(dá)到與大模型相似的性能。但當(dāng)把內(nèi)存訪問成本也考慮進(jìn)去后,實際情況截然不同——大模型的效率明顯更高,資源節(jié)省高達(dá)3倍!

二、Kinetics縮放定律:全面考慮計算與內(nèi)存訪問成本

想象你正在烹飪一道復(fù)雜菜肴。傳統(tǒng)觀點認(rèn)為,只要有足夠的烹飪時間(計算資源),一個小廚房(小模型)也能做出與大廚房(大模型)一樣好的菜。但實際上,廚房的操作空間(內(nèi)存帶寬)同樣至關(guān)重要,尤其是制作復(fù)雜菜肴時。

研究團(tuán)隊提出的Kinetics縮放定律,就像是一本考慮了廚房空間限制的烹飪指南。它綜合考慮了兩方面成本:

首先是計算成本,包括: - 模型參數(shù)計算:就像是按照菜譜步驟操作的時間 - 注意力機(jī)制計算:就像是不斷觀察和調(diào)整菜肴的時間

其次是內(nèi)存訪問成本,包括: - 模型參數(shù)訪問:就像是查閱菜譜的時間 - KV緩存訪問:就像是在廚房中取放各種食材和工具的時間

研究發(fā)現(xiàn),在生成長文本時,注意力機(jī)制相關(guān)的計算和內(nèi)存訪問成本成為主要瓶頸。具體來說,成本與生成長度的平方成正比(就像動能與速度的平方成正比)。這意味著生成兩倍長度的文本,成本不是增加兩倍,而是四倍!

這一發(fā)現(xiàn)徹底改變了我們對資源分配的理解。以AIME24數(shù)學(xué)競賽為例,團(tuán)隊發(fā)現(xiàn):

在長鏈思維場景下,只有14B和32B這樣的大模型才真正受益于生成10K以上的長文本。對于1.7B和4B等小模型,當(dāng)生成長度低于5K時,更明智的選擇是直接換用更大的模型。

在多次嘗試場景下,之前的理論認(rèn)為小模型多次嘗試是最經(jīng)濟(jì)的選擇。但Kinetics表明,使用14B模型并減少嘗試次數(shù)往往更有效率。研究還發(fā)現(xiàn)14B似乎是個臨界規(guī)模——小于這個規(guī)模的模型,資源最好用于增大模型;而達(dá)到或超過這個規(guī)模后,增加嘗試次數(shù)或生成更長文本更為有效。

三、為什么小模型效率被高估?解密內(nèi)存與計算的不平衡

要理解為什么小模型效率被高估,我們需要深入兩個關(guān)鍵因素:

首先是KV內(nèi)存大小與模型參數(shù)的不成比例關(guān)系。想象你有不同大小的廚房(模型),按理說廚房越大,需要的儲物空間(KV緩存)也應(yīng)該越大。但實際上,小廚房往往需要相對更多的儲物空間。

以Qwen3系列為例,0.6B模型處理32K長度的文本需要3.5GB的KV緩存,而模型本身只有1.2GB。相比之下,32B模型僅需要8GB的KV緩存。研究發(fā)現(xiàn),模型參數(shù)每增加一倍,KV緩存大小僅增加1.18倍左右。這一現(xiàn)象在OPT、Qwen2.5和LLaMA3等多個模型系列中都得到了驗證。

其次是從線性到二次方的成本模型轉(zhuǎn)變。在傳統(tǒng)FLOPs計算下,生成8K長度的文本用14B模型(通常不足以解決復(fù)雜任務(wù))的成本等同于用4B模型生成24K長度(足以完成大多數(shù)任務(wù))。但在考慮KV緩存后,同樣成本下14B@8K只相當(dāng)于4B@9K。這個更嚴(yán)格的限制使得小模型很難僅通過增加生成長度來彌補(bǔ)其能力不足。

通過詳細(xì)的等成本分析(Iso-Cost分析),研究團(tuán)隊發(fā)現(xiàn):在Kinetics模型下,成本隨生成長度呈二次方增長,而KV緩存與模型參數(shù)次線性增長。因此,當(dāng)總預(yù)算較低時,增加模型規(guī)模比增加生成長度更有效。相比之下,傳統(tǒng)基于FLOPs的模型會導(dǎo)致截然不同的結(jié)論。

四、稀疏注意力:測試階段縮放的關(guān)鍵突破

既然確定了注意力機(jī)制是測試階段的主要瓶頸,研究團(tuán)隊提出了一個創(chuàng)新方案:稀疏注意力。這就像是讓廚師只關(guān)注真正重要的食材和步驟,而不是平等對待所有細(xì)節(jié)。

在傳統(tǒng)注意力機(jī)制中,模型會考慮所有歷史token的信息,這會導(dǎo)致計算和內(nèi)存訪問成本隨文本長度呈二次方增長。稀疏注意力則只關(guān)注最相關(guān)的token,大幅降低成本。

研究團(tuán)隊提出了"Sparse Kinetics"縮放定律,探索了在稀疏注意力條件下的最佳資源分配策略。結(jié)果表明,在稀疏注意力下,計算資源應(yīng)該優(yōu)先用于測試階段策略(如增加生成長度或嘗試次數(shù)),而不是減少稀疏度。隨著測試階段投入更多計算資源,更高的稀疏度變得越來越重要。

實驗結(jié)果令人震驚:

在AIME24數(shù)學(xué)競賽上,與傳統(tǒng)密集注意力相比,稀疏注意力模型在低成本場景下提高了高達(dá)60個百分點的問題解決率,在高成本場景下也保持了5個以上百分點的優(yōu)勢。從效率角度看,密集注意力模型需要超過10倍的計算資源才能達(dá)到相同的解題率。

研究還發(fā)現(xiàn),稀疏注意力使小模型重新變得有價值。相比傳統(tǒng)密集注意力,稀疏注意力顯著提高了0.6B、1.7B和4B等小型模型的效率,使它們能在更廣泛的場景下應(yīng)用。

更重要的是,研究團(tuán)隊發(fā)現(xiàn)KV預(yù)算與生成token之間存在明確的權(quán)衡關(guān)系。在Best-of-N場景下,每當(dāng)計算成本增加一倍,最佳KV預(yù)算僅增加1.18倍,而生成的token總數(shù)則增加1.74倍。這表明,增加生成更多token通常比擴(kuò)大KV緩存更有效。

五、從理論到實踐:實現(xiàn)稀疏注意力的塊稀疏方法

為了驗證理論的實用性,研究團(tuán)隊實現(xiàn)了一個名為"塊稀疏注意力"(block top-k attention)的簡單方法。理想的稀疏注意力(逐token選擇最相關(guān)的K個token)在理論上效果最佳,但在實際中計算成本過高。塊稀疏注意力通過選擇整塊相關(guān)token來平衡效率和效果。

塊稀疏注意力的工作原理有點像購物時先選擇哪些商店值得逛,而不是逐個商品比較。它首先將歷史token分成多個塊,計算每個塊的平均表示,然后選擇最相關(guān)的K'個塊進(jìn)行注意力計算。這種方法利用了注意力模式的時間局部性,并且能與現(xiàn)有的分頁注意力技術(shù)無縫集成。

實驗表明,塊稀疏注意力雖然不如理想的token級稀疏方法,但仍然表現(xiàn)出色:在低成本場景下提高了45個百分點的準(zhǔn)確率,并能以僅用傳統(tǒng)方法1/8.58的資源達(dá)到同等準(zhǔn)確率。更重要的是,它在實際硬件上取得了顯著加速——在H200 GPU上實現(xiàn)了2.2×到33.3×的吞吐量提升。

研究還比較了塊稀疏注意力與本地注意力(只關(guān)注鄰近token的固定稀疏模式)。雖然本地注意力在實現(xiàn)上更簡單,但其性能明顯較差,除了在極低準(zhǔn)確率場景外,甚至無法超過密集注意力。

對于混合專家模型(如Qwen3-30B-A3B),稀疏注意力的優(yōu)勢更為明顯。這類模型通過激活部分參數(shù)降低計算成本,但注意力機(jī)制仍是主要瓶頸。實驗表明,塊稀疏注意力能在低成本場景下提高42-53個百分點的解題率,在高成本場景下也保持約8個百分點的優(yōu)勢。

六、更廣闊的影響與未來展望

這項研究的意義遠(yuǎn)超出學(xué)術(shù)范疇。隨著大語言模型在各領(lǐng)域的應(yīng)用日益廣泛,如何高效分配計算資源變得至關(guān)重要。Kinetics縮放定律為整個行業(yè)提供了新的視角,可能重塑從模型架構(gòu)設(shè)計到硬件系統(tǒng)開發(fā)的多個環(huán)節(jié)。

與預(yù)訓(xùn)練階段的縮放已經(jīng)出現(xiàn)收益遞減不同,測試階段的縮放仍有巨大潛力,特別是通過增加生成token和優(yōu)化推理路徑。稀疏注意力可能是釋放這一潛力的關(guān)鍵。

研究團(tuán)隊希望這項研究能引導(dǎo)并鼓勵未來模型架構(gòu)、測試階段策略和硬件系統(tǒng)的協(xié)同設(shè)計,充分釋放下一波大語言模型縮放的潛力。雖然本研究主要針對NVIDIA GPU進(jìn)行分析,但其核心原理——擴(kuò)展內(nèi)存帶寬比擴(kuò)展計算能力更具挑戰(zhàn)性和成本——適用于各種硬件平臺。

值得注意的是,研究也存在一些局限。實驗主要集中在Qwen3和DeepSeek-R1-Distilled-Qwen兩個預(yù)訓(xùn)練推理模型系列,未充分探索訓(xùn)練和后訓(xùn)練策略的影響。此外,研究假設(shè)云端服務(wù)環(huán)境,計算資源充足且批處理規(guī)模較大,而在本地部署場景(如使用ollama)中,由于VRAM有限,模型參數(shù)訪問可能成為主要成本,此時小模型可能更適合。

未來研究方向包括探索更多高級稀疏注意力算法,以及設(shè)計能適應(yīng)稀疏注意力的新型測試階段策略。研究還發(fā)現(xiàn)生成長度與最佳嘗試次數(shù)之間存在強(qiáng)相關(guān)性,這可能作為調(diào)整嘗試次數(shù)和KV預(yù)算的動態(tài)信號。稀疏注意力的減少推理成本,將為更多推理嘗試和更長生成創(chuàng)造可能,在固定資源預(yù)算內(nèi)提供更大的策略靈活性。

總的來說,這項研究不僅揭示了測試階段資源分配的新視角,還提出了一個實用的解決方案——稀疏注意力,讓我們能以更低的成本獲得更好的性能。正如研究團(tuán)隊所言,我們可能正站在大語言模型推理新范式的起點,即使在預(yù)訓(xùn)練已遇到瓶頸的情況下,測試階段的優(yōu)化仍可能帶來顯著性能提升。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-