av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<var id="47tq0"></var>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

Fast-dLLM：NVIDIA研究團(tuán)隊通過KV緩存和并行解碼實(shí)現(xiàn)擴(kuò)散大語言模型的無訓(xùn)練加速

大語言模型擴(kuò)散模型推理加速

Fast-dLLM：NVIDIA研究團(tuán)隊通過KV緩存和并行解碼實(shí)現(xiàn)擴(kuò)散大語言模型的無訓(xùn)練加速

作者：科技行者

2025-06-03 16:59

分享至：

NVIDIA聯(lián)合麻省理工學(xué)院和香港大學(xué)的研究團(tuán)隊提出Fast-dLLM，一種無需重新訓(xùn)練即可顯著加速擴(kuò)散大語言模型的新方法。該技術(shù)通過兩大創(chuàng)新解決了擴(kuò)散模型的主要性能瓶頸：首先設(shè)計了適用于雙向注意力機(jī)制的塊式近似KV緩存，使模型能重用計算結(jié)果；其次提出基于置信度的并行解碼策略，只解碼超過閾值的高置信度詞元。實(shí)驗(yàn)證明，F(xiàn)ast-dLLM在保持準(zhǔn)確率的同時，能將LLaDA和Dream模型的推理速度提升高達(dá)27.6倍，徹底縮小了擴(kuò)散模型與自回歸模型之間的性能差距。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-03 16:59 ? 科技行者

在2025年5月發(fā)布于arXiv的最新研究中，來自NVIDIA、麻省理工學(xué)院(MIT)和香港大學(xué)的研究團(tuán)隊帶來了一項令人振奮的技術(shù)突破。由Chengyue Wu、Hao Zhang（共同第一作者）、Shuchen Xue、Zhijian Liu、Shizhe Diao、Ligeng Zhu、Ping Luo、Song Han和Enze Xie共同完成的這項研究，為擴(kuò)散型大語言模型(Diffusion LLM)的實(shí)際應(yīng)用掃清了一個關(guān)鍵障礙。有興趣深入了解的讀者可以通過arXiv:2505.22618v1查閱完整論文。

為什么擴(kuò)散大語言模型需要提速？

想象一下，你擁有一輛理論上能達(dá)到超高速的跑車，但在實(shí)際道路上卻總是被限速，無法發(fā)揮其真正潛力。這正是當(dāng)前開源擴(kuò)散大語言模型面臨的窘境。雖然這類模型在理論上具有并行生成文本的能力（就像多車道同時通行），但實(shí)際表現(xiàn)卻往往不盡如人意，甚至比傳統(tǒng)的自回歸模型還慢。

為什么會這樣呢？研究團(tuán)隊發(fā)現(xiàn)了兩個主要障礙：首先，擴(kuò)散大語言模型不支持鍵值(KV)緩存，這是自回歸模型中加速推理的關(guān)鍵組件；其次，當(dāng)模型嘗試同時生成多個詞時，文本質(zhì)量會明顯下降。就像十字路口的交通信號燈失靈，雖然所有車道都可以同時通行，但車輛之間會相互干擾，最終導(dǎo)致?lián)矶律踔潦鹿省?/p>

NVIDIA和合作伙伴的研究團(tuán)隊提出的Fast-dLLM正是為解決這些問題而生，它可以讓擴(kuò)散大語言模型真正釋放其潛力，在保持文本質(zhì)量的同時大幅提升生成速度。

核心創(chuàng)新：適合擴(kuò)散模型的KV緩存

傳統(tǒng)的自回歸語言模型之所以能高效運(yùn)行，很大程度上依賴于一種稱為"鍵值緩存"(KV Cache)的技術(shù)。想象一下，這就像是在寫一封長信時，你不必每寫一個字就重新閱讀之前寫過的所有內(nèi)容，而是可以記住上下文并直接繼續(xù)寫作。

然而，擴(kuò)散大語言模型的工作方式與自回歸模型完全不同。在自回歸模型中，文本是從左到右一個詞一個詞生成的，就像在一條單行道上駕駛；而擴(kuò)散模型則可以同時關(guān)注文本的所有部分，就像在一個開放空間中自由移動。這種雙向注意力機(jī)制使得傳統(tǒng)的KV緩存技術(shù)無法直接應(yīng)用。

研究團(tuán)隊巧妙地解決了這個問題。他們提出了一種"分塊近似KV緩存"機(jī)制，專為擴(kuò)散模型的雙向特性設(shè)計。具體來說，他們將文本生成過程分成多個塊：

1. 在生成一個新塊之前，計算并存儲其他塊的KV緩存以便重用。 2. 生成完一個塊后，重新計算所有塊的KV緩存。

這有點(diǎn)像在一個大型拼圖游戲中，你可以先完成某些區(qū)域，然后在這些已完成區(qū)域的基礎(chǔ)上繼續(xù)拼其他部分，而不必每次都從零開始審視整個拼圖。

研究團(tuán)隊通過可視化證明，在相鄰?fù)评聿襟E中，KV激活值之間具有很高的相似性，這意味著緩存的近似值足夠精確，不會影響模型性能。他們還提出了一個增強(qiáng)版本——DualCache，它不僅緩存前綴令牌，還緩存后綴令牌，進(jìn)一步提高了效率。

解決并行解碼的質(zhì)量下降問題

提高擴(kuò)散大語言模型速度的另一個關(guān)鍵是能夠同時生成多個詞。然而，之前的研究發(fā)現(xiàn)，當(dāng)嘗試同時生成多個詞時，文本質(zhì)量往往會下降。

想象一下，你正在玩一個填詞游戲："撲克牌中由兩個英文單詞組成的牌型有：___ ___"。這里的兩個空可能是"high card"（高牌）、"two pair"（兩對）等。關(guān)鍵在于，這兩個詞之間存在明顯的關(guān)聯(lián)性，第一個詞會影響第二個詞的選擇。

但在擴(kuò)散模型的多詞預(yù)測中，模型會為每個位置生成概率分布，然后獨(dú)立地從這些分布中采樣。這種獨(dú)立采樣可能導(dǎo)致不協(xié)調(diào)的組合，比如"high house"這樣的無意義搭配。這就像是兩個人各自選擇一個詞，但沒有相互溝通，最終可能拼湊出不通順的短語。

為解決這個問題，研究團(tuán)隊提出了一種基于置信度的并行解碼策略。不同于之前簡單地選擇固定數(shù)量的詞同時生成，他們的方法會計算每個詞的置信度分?jǐn)?shù)（基本上是模型對該預(yù)測的確信程度），只有那些超過特定閾值的詞才會在當(dāng)前步驟中生成。

研究團(tuán)隊通過理論分析和實(shí)驗(yàn)證明，當(dāng)模型對某些詞的預(yù)測具有高置信度時，這些詞可以安全地并行生成而不會破壞它們之間的依賴關(guān)系。這就像是在填字游戲中，有些詞組合非常明顯，即使獨(dú)立思考也會得出一致的結(jié)果，而有些則需要更謹(jǐn)慎的推理。

實(shí)驗(yàn)結(jié)果：速度與質(zhì)量的雙贏

研究團(tuán)隊在兩個主流擴(kuò)散大語言模型（LLaDA和Dream）上進(jìn)行了廣泛測試，評估包括GSM8K、MATH、HumanEval和MBPP四個基準(zhǔn)測試，涵蓋了數(shù)學(xué)推理和代碼生成等不同任務(wù)。

結(jié)果令人印象深刻：Fast-dLLM實(shí)現(xiàn)了高達(dá)27.6倍的吞吐量提升，同時準(zhǔn)確率幾乎不變。具體來說：

在LLaDA模型上，結(jié)合KV緩存和并行解碼的方法使GSM8K任務(wù)（長度512）的吞吐量提高了11倍，MBPP任務(wù)的吞吐量提高了9.2倍。在Dream模型上，MBPP任務(wù)的吞吐量提高了7.8倍，GSM8K任務(wù)的吞吐量提高了5.6倍。

更令人驚喜的是，這些加速幾乎不影響模型性能。在所有基準(zhǔn)測試中，加速后的模型準(zhǔn)確率與原始模型相差不超過1-2個百分點(diǎn)，有些情況下甚至略有提升。

研究還發(fā)現(xiàn)，前綴長度（提示詞的長度）和生成長度對加速效果有顯著影響。當(dāng)生成更長的序列時，緩存和并行技術(shù)的優(yōu)勢更為明顯。例如，在8-shot設(shè)置下，使用DualCache的加速比從生成長度256時的9.4倍增加到生成長度1024時的27.6倍。

這項技術(shù)為何如此重要？

Fast-dLLM的意義遠(yuǎn)不止于技術(shù)細(xì)節(jié)。它代表了擴(kuò)散大語言模型從理論優(yōu)勢到實(shí)際應(yīng)用的關(guān)鍵一步。

想象一下未來的AI助手，它能幾乎瞬間回應(yīng)你的問題，提供高質(zhì)量的文本、代碼或解決方案。Fast-dLLM使這種未來更近了一步。通過顯著提高擴(kuò)散大語言模型的速度，它使這類模型成為自回歸模型的真正競爭對手。

更廣泛地說，這項工作展示了如何通過算法創(chuàng)新而非硬件升級來提高AI系統(tǒng)的效率。在當(dāng)前計算資源日益緊張的背景下，這種"軟"優(yōu)化方法尤為寶貴。

未來展望

Fast-dLLM為擴(kuò)散大語言模型開辟了廣闊的應(yīng)用前景，但研究團(tuán)隊的工作并未止步于此。未來的研究方向可能包括：

1. 進(jìn)一步完善置信度閾值的動態(tài)調(diào)整機(jī)制，在不同語境中自動找到最佳平衡點(diǎn)。 2. 將這些技術(shù)擴(kuò)展到更大規(guī)模的模型和更復(fù)雜的任務(wù)。 3. 探索如何將Fast-dLLM的思想應(yīng)用到其他類型的生成模型中。

歸根結(jié)底，F(xiàn)ast-dLLM代表了AI研究中一個常見但重要的主題：理論突破只有轉(zhuǎn)化為實(shí)際可用的技術(shù)，才能真正改變世界。通過解決擴(kuò)散大語言模型的速度瓶頸，NVIDIA和合作伙伴的研究團(tuán)隊不僅推進(jìn)了學(xué)術(shù)前沿，也為下一代更快、更高效的AI系統(tǒng)鋪平了道路。

如果你對這項技術(shù)感興趣，可以訪問研究團(tuán)隊的GitHub代碼庫和項目頁面，或通過arXiv:2505.22618v1閱讀完整論文，深入了解這項創(chuàng)新技術(shù)的細(xì)節(jié)。

大語言模型擴(kuò)散模型推理加速

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn