av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) Fast-dLLM:NVIDIA研究團(tuán)隊(duì)通過(guò)KV緩存和并行解碼實(shí)現(xiàn)擴(kuò)散大語(yǔ)言模型的無(wú)訓(xùn)練加速

Fast-dLLM:NVIDIA研究團(tuán)隊(duì)通過(guò)KV緩存和并行解碼實(shí)現(xiàn)擴(kuò)散大語(yǔ)言模型的無(wú)訓(xùn)練加速

2025-06-03 16:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 16:59 ? 科技行者

在2025年5月發(fā)布于arXiv的最新研究中,來(lái)自NVIDIA、麻省理工學(xué)院(MIT)和香港大學(xué)的研究團(tuán)隊(duì)帶來(lái)了一項(xiàng)令人振奮的技術(shù)突破。由Chengyue Wu、Hao Zhang(共同第一作者)、Shuchen Xue、Zhijian Liu、Shizhe Diao、Ligeng Zhu、Ping Luo、Song Han和Enze Xie共同完成的這項(xiàng)研究,為擴(kuò)散型大語(yǔ)言模型(Diffusion LLM)的實(shí)際應(yīng)用掃清了一個(gè)關(guān)鍵障礙。有興趣深入了解的讀者可以通過(guò)arXiv:2505.22618v1查閱完整論文。

為什么擴(kuò)散大語(yǔ)言模型需要提速?

想象一下,你擁有一輛理論上能達(dá)到超高速的跑車(chē),但在實(shí)際道路上卻總是被限速,無(wú)法發(fā)揮其真正潛力。這正是當(dāng)前開(kāi)源擴(kuò)散大語(yǔ)言模型面臨的窘境。雖然這類(lèi)模型在理論上具有并行生成文本的能力(就像多車(chē)道同時(shí)通行),但實(shí)際表現(xiàn)卻往往不盡如人意,甚至比傳統(tǒng)的自回歸模型還慢。

為什么會(huì)這樣呢?研究團(tuán)隊(duì)發(fā)現(xiàn)了兩個(gè)主要障礙:首先,擴(kuò)散大語(yǔ)言模型不支持鍵值(KV)緩存,這是自回歸模型中加速推理的關(guān)鍵組件;其次,當(dāng)模型嘗試同時(shí)生成多個(gè)詞時(shí),文本質(zhì)量會(huì)明顯下降。就像十字路口的交通信號(hào)燈失靈,雖然所有車(chē)道都可以同時(shí)通行,但車(chē)輛之間會(huì)相互干擾,最終導(dǎo)致?lián)矶律踔潦鹿省?/p>

NVIDIA和合作伙伴的研究團(tuán)隊(duì)提出的Fast-dLLM正是為解決這些問(wèn)題而生,它可以讓擴(kuò)散大語(yǔ)言模型真正釋放其潛力,在保持文本質(zhì)量的同時(shí)大幅提升生成速度。

核心創(chuàng)新:適合擴(kuò)散模型的KV緩存

傳統(tǒng)的自回歸語(yǔ)言模型之所以能高效運(yùn)行,很大程度上依賴于一種稱為"鍵值緩存"(KV Cache)的技術(shù)。想象一下,這就像是在寫(xiě)一封長(zhǎng)信時(shí),你不必每寫(xiě)一個(gè)字就重新閱讀之前寫(xiě)過(guò)的所有內(nèi)容,而是可以記住上下文并直接繼續(xù)寫(xiě)作。

然而,擴(kuò)散大語(yǔ)言模型的工作方式與自回歸模型完全不同。在自回歸模型中,文本是從左到右一個(gè)詞一個(gè)詞生成的,就像在一條單行道上駕駛;而擴(kuò)散模型則可以同時(shí)關(guān)注文本的所有部分,就像在一個(gè)開(kāi)放空間中自由移動(dòng)。這種雙向注意力機(jī)制使得傳統(tǒng)的KV緩存技術(shù)無(wú)法直接應(yīng)用。

研究團(tuán)隊(duì)巧妙地解決了這個(gè)問(wèn)題。他們提出了一種"分塊近似KV緩存"機(jī)制,專(zhuān)為擴(kuò)散模型的雙向特性設(shè)計(jì)。具體來(lái)說(shuō),他們將文本生成過(guò)程分成多個(gè)塊:

1. 在生成一個(gè)新塊之前,計(jì)算并存儲(chǔ)其他塊的KV緩存以便重用。 2. 生成完一個(gè)塊后,重新計(jì)算所有塊的KV緩存。

這有點(diǎn)像在一個(gè)大型拼圖游戲中,你可以先完成某些區(qū)域,然后在這些已完成區(qū)域的基礎(chǔ)上繼續(xù)拼其他部分,而不必每次都從零開(kāi)始審視整個(gè)拼圖。

研究團(tuán)隊(duì)通過(guò)可視化證明,在相鄰?fù)评聿襟E中,KV激活值之間具有很高的相似性,這意味著緩存的近似值足夠精確,不會(huì)影響模型性能。他們還提出了一個(gè)增強(qiáng)版本——DualCache,它不僅緩存前綴令牌,還緩存后綴令牌,進(jìn)一步提高了效率。

解決并行解碼的質(zhì)量下降問(wèn)題

提高擴(kuò)散大語(yǔ)言模型速度的另一個(gè)關(guān)鍵是能夠同時(shí)生成多個(gè)詞。然而,之前的研究發(fā)現(xiàn),當(dāng)嘗試同時(shí)生成多個(gè)詞時(shí),文本質(zhì)量往往會(huì)下降。

想象一下,你正在玩一個(gè)填詞游戲:"撲克牌中由兩個(gè)英文單詞組成的牌型有:___ ___"。這里的兩個(gè)空可能是"high card"(高牌)、"two pair"(兩對(duì))等。關(guān)鍵在于,這兩個(gè)詞之間存在明顯的關(guān)聯(lián)性,第一個(gè)詞會(huì)影響第二個(gè)詞的選擇。

但在擴(kuò)散模型的多詞預(yù)測(cè)中,模型會(huì)為每個(gè)位置生成概率分布,然后獨(dú)立地從這些分布中采樣。這種獨(dú)立采樣可能導(dǎo)致不協(xié)調(diào)的組合,比如"high house"這樣的無(wú)意義搭配。這就像是兩個(gè)人各自選擇一個(gè)詞,但沒(méi)有相互溝通,最終可能拼湊出不通順的短語(yǔ)。

為解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種基于置信度的并行解碼策略。不同于之前簡(jiǎn)單地選擇固定數(shù)量的詞同時(shí)生成,他們的方法會(huì)計(jì)算每個(gè)詞的置信度分?jǐn)?shù)(基本上是模型對(duì)該預(yù)測(cè)的確信程度),只有那些超過(guò)特定閾值的詞才會(huì)在當(dāng)前步驟中生成。

研究團(tuán)隊(duì)通過(guò)理論分析和實(shí)驗(yàn)證明,當(dāng)模型對(duì)某些詞的預(yù)測(cè)具有高置信度時(shí),這些詞可以安全地并行生成而不會(huì)破壞它們之間的依賴關(guān)系。這就像是在填字游戲中,有些詞組合非常明顯,即使獨(dú)立思考也會(huì)得出一致的結(jié)果,而有些則需要更謹(jǐn)慎的推理。

實(shí)驗(yàn)結(jié)果:速度與質(zhì)量的雙贏

研究團(tuán)隊(duì)在兩個(gè)主流擴(kuò)散大語(yǔ)言模型(LLaDA和Dream)上進(jìn)行了廣泛測(cè)試,評(píng)估包括GSM8K、MATH、HumanEval和MBPP四個(gè)基準(zhǔn)測(cè)試,涵蓋了數(shù)學(xué)推理和代碼生成等不同任務(wù)。

結(jié)果令人印象深刻:Fast-dLLM實(shí)現(xiàn)了高達(dá)27.6倍的吞吐量提升,同時(shí)準(zhǔn)確率幾乎不變。具體來(lái)說(shuō):

在LLaDA模型上,結(jié)合KV緩存和并行解碼的方法使GSM8K任務(wù)(長(zhǎng)度512)的吞吐量提高了11倍,MBPP任務(wù)的吞吐量提高了9.2倍。在Dream模型上,MBPP任務(wù)的吞吐量提高了7.8倍,GSM8K任務(wù)的吞吐量提高了5.6倍。

更令人驚喜的是,這些加速幾乎不影響模型性能。在所有基準(zhǔn)測(cè)試中,加速后的模型準(zhǔn)確率與原始模型相差不超過(guò)1-2個(gè)百分點(diǎn),有些情況下甚至略有提升。

研究還發(fā)現(xiàn),前綴長(zhǎng)度(提示詞的長(zhǎng)度)和生成長(zhǎng)度對(duì)加速效果有顯著影響。當(dāng)生成更長(zhǎng)的序列時(shí),緩存和并行技術(shù)的優(yōu)勢(shì)更為明顯。例如,在8-shot設(shè)置下,使用DualCache的加速比從生成長(zhǎng)度256時(shí)的9.4倍增加到生成長(zhǎng)度1024時(shí)的27.6倍。

這項(xiàng)技術(shù)為何如此重要?

Fast-dLLM的意義遠(yuǎn)不止于技術(shù)細(xì)節(jié)。它代表了擴(kuò)散大語(yǔ)言模型從理論優(yōu)勢(shì)到實(shí)際應(yīng)用的關(guān)鍵一步。

想象一下未來(lái)的AI助手,它能幾乎瞬間回應(yīng)你的問(wèn)題,提供高質(zhì)量的文本、代碼或解決方案。Fast-dLLM使這種未來(lái)更近了一步。通過(guò)顯著提高擴(kuò)散大語(yǔ)言模型的速度,它使這類(lèi)模型成為自回歸模型的真正競(jìng)爭(zhēng)對(duì)手。

更廣泛地說(shuō),這項(xiàng)工作展示了如何通過(guò)算法創(chuàng)新而非硬件升級(jí)來(lái)提高AI系統(tǒng)的效率。在當(dāng)前計(jì)算資源日益緊張的背景下,這種"軟"優(yōu)化方法尤為寶貴。

未來(lái)展望

Fast-dLLM為擴(kuò)散大語(yǔ)言模型開(kāi)辟了廣闊的應(yīng)用前景,但研究團(tuán)隊(duì)的工作并未止步于此。未來(lái)的研究方向可能包括:

1. 進(jìn)一步完善置信度閾值的動(dòng)態(tài)調(diào)整機(jī)制,在不同語(yǔ)境中自動(dòng)找到最佳平衡點(diǎn)。 2. 將這些技術(shù)擴(kuò)展到更大規(guī)模的模型和更復(fù)雜的任務(wù)。 3. 探索如何將Fast-dLLM的思想應(yīng)用到其他類(lèi)型的生成模型中。

歸根結(jié)底,F(xiàn)ast-dLLM代表了AI研究中一個(gè)常見(jiàn)但重要的主題:理論突破只有轉(zhuǎn)化為實(shí)際可用的技術(shù),才能真正改變世界。通過(guò)解決擴(kuò)散大語(yǔ)言模型的速度瓶頸,NVIDIA和合作伙伴的研究團(tuán)隊(duì)不僅推進(jìn)了學(xué)術(shù)前沿,也為下一代更快、更高效的AI系統(tǒng)鋪平了道路。

如果你對(duì)這項(xiàng)技術(shù)感興趣,可以訪問(wèn)研究團(tuán)隊(duì)的GitHub代碼庫(kù)和項(xiàng)目頁(yè)面,或通過(guò)arXiv:2505.22618v1閱讀完整論文,深入了解這項(xiàng)創(chuàng)新技術(shù)的細(xì)節(jié)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-