av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<big id="ync2x"></big>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

CLaSp：讓大語言模型生成文本更快的自我推測解碼技術(shù)

大語言模型加速推測解碼動態(tài)層跳過

CLaSp：讓大語言模型生成文本更快的自我推測解碼技術(shù)

作者：科技行者

2025-06-04 15:37

分享至：

CLaSp是一項創(chuàng)新的自我推測解碼技術(shù)，能讓大語言模型生成文本的速度提高1.3到1.7倍，同時保持輸出質(zhì)量不變。由中國科學(xué)院等機(jī)構(gòu)聯(lián)合開發(fā)的這一技術(shù)，通過動態(tài)決定模型內(nèi)部哪些計算層可以被跳過，避免了傳統(tǒng)方法需要額外訓(xùn)練或模塊的缺點(diǎn)。CLaSp像是讓AI在不影響烹飪質(zhì)量的前提下，學(xué)會了根據(jù)菜肴復(fù)雜度靈活跳過某些烹飪步驟，從而更快地完成整道菜。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-04 15:37 ? 科技行者

在我們使用ChatGPT、Claude或文心一言這樣的大語言模型時，你是否注意到它們在生成文本時有時會有點(diǎn)"卡頓"？這種延遲不是因?yàn)檫@些AI不夠聰明，而是因?yàn)樗鼈兩晌谋镜姆绞酱嬖趦?nèi)在瓶頸。2025年5月，來自中國科學(xué)院深圳先進(jìn)技術(shù)研究院、中國科學(xué)院大學(xué)、新加坡科技設(shè)計大學(xué)、新南威爾士大學(xué)和Ritzz-AI的研究團(tuán)隊聯(lián)合發(fā)表了一項名為"CLaSp：用于自我推測解碼的上下文層跳過"的研究，旨在解決這一問題。論文發(fā)表于arXiv預(yù)印本平臺，編號為2505.24196v1。

想象一下，當(dāng)你使用ChatGPT時，AI需要一個一個地生成單詞，就像一個人一次只能寫一個字一樣。這種方式雖然確保了文本質(zhì)量，但速度較慢。研究人員發(fā)現(xiàn)，如果AI能夠"猜測"接下來的幾個單詞，然后一次性驗(yàn)證這些猜測，就能大大提高生成速度。這就是所謂的"推測解碼"技術(shù)。

傳統(tǒng)的推測解碼需要兩個模型：一個負(fù)責(zé)"猜測"（草稿模型），另一個負(fù)責(zé)"驗(yàn)證"（驗(yàn)證模型）。問題在于，為每個大語言模型專門訓(xùn)練一個匹配的草稿模型既費(fèi)時又費(fèi)力。這就像為每個廚師配備一個專門的助手，而且這個助手必須完全了解廚師的烹飪風(fēng)格才能有效協(xié)助。

CLaSp提出了一個聰明的解決方案：不需要額外的助手，而是讓廚師（大語言模型）自己"偷懶"，在某些步驟中跳過一些烹飪程序，從而加快整個過程。更專業(yè)地說，CLaSp讓AI在生成草稿文本時略過原始模型中的一些中間層計算，然后在驗(yàn)證階段使用完整模型。關(guān)鍵創(chuàng)新在于，CLaSp能夠根據(jù)當(dāng)前生成的文本內(nèi)容實(shí)時調(diào)整哪些層可以被跳過，就像廚師根據(jù)當(dāng)前烹飪的菜肴自動決定哪些步驟可以簡化一樣。

這種方法不需要額外訓(xùn)練，可以即插即用，適用于各種大語言模型。研究團(tuán)隊在LLaMA3系列模型上進(jìn)行了測試，發(fā)現(xiàn)CLaSp能夠?qū)⑽谋旧伤俣忍岣?.3到1.7倍，而且不會改變生成文本的質(zhì)量。這意味著用戶能夠獲得更快的AI響應(yīng)，同時保持回答的準(zhǔn)確性和連貫性。

一、推測解碼：加速AI文本生成的關(guān)鍵技術(shù)

首先，我們需要理解為什么大語言模型生成文本會有延遲。想象一下一個自動售票機(jī)，每次只能處理一個人的票務(wù)。如果有100個人排隊，那么第100個人必須等待前面99個人都完成才能買到票。大語言模型也是如此，它們采用"自回歸"方式生成文本，即一次只能生成一個單詞（或稱為"標(biāo)記"），然后基于已生成的內(nèi)容繼續(xù)生成下一個。

這種方式導(dǎo)致了一個問題：即使擁有強(qiáng)大的計算資源，大部分GPU（圖形處理單元，AI的計算引擎）在處理過程中也處于"閑置"狀態(tài)，因?yàn)樗鼈冊诘却耙粋€單詞生成完畢。就像一個多車道高速公路上只有一輛車在行駛，其他車道完全空著，這是對資源的巨大浪費(fèi)。

推測解碼技術(shù)借鑒了計算機(jī)系統(tǒng)中的"推測執(zhí)行"概念，它允許AI"預(yù)測"接下來可能出現(xiàn)的多個單詞，然后一次性驗(yàn)證這些預(yù)測。想象一個餐廳服務(wù)員不等你點(diǎn)完所有菜就預(yù)先猜測你可能想點(diǎn)的幾道菜，然后一次性確認(rèn)——如果猜對了，就節(jié)省了來回多次確認(rèn)的時間。

傳統(tǒng)的推測解碼需要兩個模型：一個輕量級的"草稿模型"快速生成候選單詞，一個完整的"驗(yàn)證模型"檢查這些單詞是否正確。如果驗(yàn)證通過，那么這些單詞就被接受；如果驗(yàn)證失敗，則從失敗點(diǎn)重新開始生成。

這種方法的挑戰(zhàn)在于找到或訓(xùn)練一個與驗(yàn)證模型行為一致的草稿模型。對于開源模型（如LLaMA系列），可以專門訓(xùn)練匹配的草稿模型。但對于那些專業(yè)或閉源的模型，找到合適的草稿模型變得異常困難。

二、CLaSp：動態(tài)層跳過的創(chuàng)新方法

CLaSp提出了一個巧妙的解決方案：不需要額外的模型，而是讓原始模型自己充當(dāng)"草稿模型"，方法是跳過部分中間計算層。這就像一個熟練的廚師在準(zhǔn)備簡單菜肴時，可以跳過一些不必要的準(zhǔn)備步驟，直接進(jìn)入關(guān)鍵烹飪環(huán)節(jié)。

傳統(tǒng)的自我推測解碼方法（Self-SD）也采用了類似的層跳過策略，但它們依賴于耗時的貝葉斯優(yōu)化過程來預(yù)先確定一組固定的層跳過配置。這就像廚師需要提前嚴(yán)格規(guī)定每道菜都跳過哪些步驟，無法根據(jù)實(shí)際烹飪過程進(jìn)行調(diào)整。而實(shí)際上，不同的菜肴（或在AI中，不同的生成內(nèi)容）可能需要不同的簡化策略。

CLaSp的關(guān)鍵創(chuàng)新在于它能夠在生成過程中動態(tài)調(diào)整跳過哪些層。想象一個廚師在烹飪過程中，根據(jù)當(dāng)前做的菜肴和進(jìn)展情況，實(shí)時決定哪些步驟可以簡化，哪些步驟必須仔細(xì)執(zhí)行。具體來說，CLaSp使用動態(tài)規(guī)劃算法，通過利用上一次驗(yàn)證階段的完整隱藏狀態(tài)作為目標(biāo)，優(yōu)化層跳過過程。

這種方法帶來了兩個主要挑戰(zhàn)：一是如何確定哪些層應(yīng)該被跳過，二是如何減少層優(yōu)化引入的額外延遲。為解決這些問題，研究團(tuán)隊設(shè)計了一個近似動態(tài)規(guī)劃算法，并實(shí)現(xiàn)了序列并行化以提高效率。

對于第一個挑戰(zhàn)，CLaSp利用了一個重要觀察：transformer模型的嵌入在不同層之間變化緩慢。這就像烹飪過程中，某些步驟對最終菜肴的影響較小，可以被簡化或跳過?；谶@一觀察，CLaSp在驗(yàn)證階段后，使用上一個被接受的標(biāo)記的完整隱藏狀態(tài)作為"地面真相"，預(yù)測并調(diào)整下一輪草稿階段的最佳層跳過策略。

對于第二個挑戰(zhàn)，CLaSp采用了兩種優(yōu)化策略：序列并行化和降低優(yōu)化頻率。序列并行化允許在單個前向傳遞中處理多個狀態(tài)，而降低優(yōu)化頻率則基于"稀疏持久性"觀察——相鄰標(biāo)記所需的層跳過策略通常非常相似，因此不需要在每個驗(yàn)證步驟后都更新策略。

三、CLaSp的工作流程：三步走的加速方案

CLaSp的工作流程可以分為三個階段：草稿生成、驗(yàn)證和層優(yōu)化。

第一階段是草稿生成。在這一階段，模型跳過預(yù)先確定的一些中間層，快速生成一系列候選標(biāo)記。想象一個作家在創(chuàng)作初稿時，不過多關(guān)注語法和措辭的精確性，而是快速將想法轉(zhuǎn)化為文字。

第二階段是驗(yàn)證。在這一階段，完整模型對草稿階段生成的標(biāo)記進(jìn)行驗(yàn)證。它在單個前向傳遞中預(yù)測每個草稿標(biāo)記的概率分布，并評估它們是否與完整模型的預(yù)測一致。一旦某個草稿標(biāo)記被拒絕，完整模型的預(yù)測將覆蓋該標(biāo)記，并從該點(diǎn)重新開始草稿生成。這就像編輯審查初稿，發(fā)現(xiàn)問題后修正并繼續(xù)向前。

第三階段是層優(yōu)化。使用最后一個被接受的標(biāo)記的隱藏狀態(tài)作為優(yōu)化目標(biāo)，CLaSp更新最佳層跳過策略，指導(dǎo)下一輪草稿生成。這就像作家根據(jù)編輯的反饋，調(diào)整自己的寫作策略以提高初稿質(zhì)量。

CLaSp的動態(tài)規(guī)劃算法是其核心創(chuàng)新。該算法定義了一個轉(zhuǎn)移方程，用于計算在前i個transformer層中跳過j層的情況下，所得隱藏狀態(tài)與最優(yōu)隱藏狀態(tài)之間的最大余弦相似度。通過維護(hù)一個狀態(tài)矩陣，算法能夠高效地找到近似最優(yōu)的層跳過策略。

盡管動態(tài)規(guī)劃通常要求滿足"無后效性"（當(dāng)前決策只依賴于當(dāng)前狀態(tài)，而非歷史狀態(tài)），但研究團(tuán)隊發(fā)現(xiàn)，由于transformer模型的嵌入在層間變化緩慢的特性，CLaSp的近似算法表現(xiàn)接近于暴力搜索的最優(yōu)解，遠(yuǎn)優(yōu)于隨機(jī)選擇層的效果。

為了進(jìn)一步提高效率，CLaSp實(shí)現(xiàn)了序列并行化，利用GPU并行計算的能力。當(dāng)計算狀態(tài)(i,j)時，只需要(i-1,·)的狀態(tài)，這使得對于相同i值的不同j值的計算可以獨(dú)立進(jìn)行。此外，研究團(tuán)隊設(shè)計了一個專門的掩碼矩陣，允許將這些狀態(tài)作為序列并行化，而無需重復(fù)KV緩存，顯著提高了內(nèi)存效率。

四、實(shí)驗(yàn)結(jié)果：速度與質(zhì)量的完美平衡

研究團(tuán)隊在LLaMA3系列模型上使用Spec-Bench評估了CLaSp的性能。Spec-Bench是一個綜合性推測解碼評估基準(zhǔn)，涵蓋了多種不同場景的數(shù)據(jù)集，包括多輪對話、翻譯、摘要、問答、數(shù)學(xué)推理和檢索增強(qiáng)生成等任務(wù)。

實(shí)驗(yàn)結(jié)果表明，CLaSp在不同模型和任務(wù)上始終如一地實(shí)現(xiàn)了1.3到1.7倍的加速，同時保持了生成文本的原始分布不變。與現(xiàn)有的訓(xùn)練自由層跳過方法（如Self-SD和SWIFT）相比，CLaSp展現(xiàn)出更優(yōu)的性能，尤其是在處理數(shù)據(jù)量有限的情況下。

CLaSp的效率主要?dú)w功于其有效利用模型層稀疏性的能力。在實(shí)驗(yàn)中，通過跳過50%到60%的層，CLaSp能夠同時保持高平均接受長度和接受率，從而實(shí)現(xiàn)更高的加速比。一般來說，更長的接受長度會導(dǎo)致更高的加速比。不過，研究團(tuán)隊也觀察到，在某些情況下，盡管接受長度較長，但加速比依然較低，這是因?yàn)樯深~外的標(biāo)記增加了時間消耗，降低了接受率和整體加速比。

CLaSp在較大模型（如LLaMA3-70B）上的性能優(yōu)勢更為明顯，相比于較小模型（如LLaMA2-13B和LLaMA3-8B）。這表明CLaSp能夠更好地利用較大模型中存在的更大層稀疏性，提高適應(yīng)性和效率。

研究團(tuán)隊還分析了三個關(guān)鍵超參數(shù)對加速效果的影響：跳過層數(shù)、層優(yōu)化間隔和草稿退出閾值。

對于跳過層數(shù)，研究團(tuán)隊發(fā)現(xiàn)，對于由80層組成的LLaMA3-70B模型，隨著跳過層數(shù)的增加，加速比逐漸上升，在跳過44層時達(dá)到最優(yōu)值1.64倍。超過這一點(diǎn)，更長的平均接受長度帶來的好處被生成高質(zhì)量草稿的增加成本所抵消，導(dǎo)致加速比下降。

對于層優(yōu)化間隔，延長優(yōu)化間隔可以減少動態(tài)規(guī)劃引入的額外延遲，同時對平均接受長度的影響較小。實(shí)驗(yàn)表明，隨著優(yōu)化間隔的增加，加速比先上升后下降，在間隔為128時開始明顯下降，這是由于平均接受長度的顯著下降對整體加速比產(chǎn)生了負(fù)面影響。

對于草稿退出閾值，研究團(tuán)隊發(fā)現(xiàn)調(diào)整閾值在0.7左右時能獲得最高加速比。即使在較高閾值下，加速比仍然保持較高水平，這表明該參數(shù)對于實(shí)現(xiàn)加速效果具有較強(qiáng)的魯棒性。

五、CLaSp的擴(kuò)展性與未來展望

為了評估CLaSp的可擴(kuò)展性，研究團(tuán)隊在不同規(guī)模的模型上進(jìn)行了測試，包括LLaMA2-13B和LLaMA3.1-405B，以及LLaMA3-8B和LLaMA3-70B。對于LLaMA2-13B，模型部署在單個A800 GPU上使用FP16精度；對于LLaMA3.1-405B，則使用INT8量化在8個A800 GPU上部署。

實(shí)驗(yàn)結(jié)果表明，隨著模型規(guī)模的增加，在各種任務(wù)上的加速比都有所提高。具體來說，在MT-bench上，加速比從LLaMA3-8B的1.24倍提高到LLaMA3.1-405B的1.73倍；在GSM8K基準(zhǔn)測試上，加速比從1.26倍提高到1.81倍；在Natural Questions基準(zhǔn)測試上，加速比從1.27倍提高到1.82倍。這些結(jié)果表明，更大的模型展現(xiàn)出更強(qiáng)的層稀疏性，使CLaSp能夠更有效地發(fā)揮其能力并實(shí)現(xiàn)更大的加速。

總的來說，CLaSp的出色表現(xiàn)證明了它作為一種即插即用解決方案的有效性，為各種大語言模型提供了一種通用的推理加速方法。它不需要額外的訓(xùn)練或復(fù)雜的模塊，只需要簡單地調(diào)整現(xiàn)有模型的計算流程，就能顯著提高推理速度，同時保持生成質(zhì)量。

未來的研究方向可能包括進(jìn)一步探索如何更好地利用大語言模型的層稀疏性，以在更大規(guī)模的模型中進(jìn)一步降低推理延遲。此外，CLaSp與其他推測解碼創(chuàng)新的結(jié)合也是一個有潛力的研究方向，可能帶來更顯著的加速效果。

CLaSp的研究不僅為大語言模型的推理加速提供了一種實(shí)用的解決方案，也為我們理解大型神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作機(jī)制提供了新的視角。它揭示了大語言模型中存在的層冗余現(xiàn)象，以及如何利用這種冗余來提高計算效率。這些發(fā)現(xiàn)對于未來設(shè)計更高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)具有重要啟示。

大語言模型加速推測解碼動態(tài)層跳過

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<wbr id="tloqd"><menu id="tloqd"></menu></wbr>

<s id="tloqd"><nav id="tloqd"></nav></s>

<button id="tloqd"><bdo id="tloqd"></bdo></button>