av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 解密神秘語(yǔ)言模型:康奈爾大學(xué)研究團(tuán)隊(duì)突破性融合自回歸與擴(kuò)散技術(shù)

解密神秘語(yǔ)言模型:康奈爾大學(xué)研究團(tuán)隊(duì)突破性融合自回歸與擴(kuò)散技術(shù)

2025-06-06 12:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 12:24 ? 科技行者

在2025年6月2日發(fā)表于arXiv的預(yù)印本論文《Esoteric Language Models》中,康奈爾理工學(xué)院和康奈爾大學(xué)的研究團(tuán)隊(duì),包括Subham Sekhar Sahoo、Zhihan Yang(聯(lián)合第一作者)等多位研究者提出了一種突破性的語(yǔ)言模型新范式。這篇論文探索了如何巧妙地結(jié)合自回歸模型和擴(kuò)散模型的優(yōu)勢(shì),創(chuàng)造出一種既高效又靈活的語(yǔ)言生成技術(shù)。對(duì)于那些對(duì)人工智能語(yǔ)言模型發(fā)展感興趣的讀者,可通過(guò)論文項(xiàng)目頁(yè)面(https://s-sahoo.com/Eso-LMs)獲取更多信息和模型檢查點(diǎn)。

目前的人工智能語(yǔ)言模型領(lǐng)域正處于一個(gè)重要轉(zhuǎn)折點(diǎn)。長(zhǎng)期以來(lái),自回歸(Autoregressive,簡(jiǎn)稱(chēng)AR)模型一直是語(yǔ)言生成的黃金標(biāo)準(zhǔn),它們像寫(xiě)故事一樣,一個(gè)詞一個(gè)詞地生成文本。然而,近年來(lái)另一種名為"掩碼擴(kuò)散模型"(Masked Diffusion Models,簡(jiǎn)稱(chēng)MDMs)的技術(shù)正在迅速崛起,逐漸縮小與AR模型的差距,甚至在某些特定任務(wù)上表現(xiàn)更佳。

盡管MDMs具有并行生成和可控性等優(yōu)勢(shì),但它們?nèi)悦媾R兩個(gè)主要挑戰(zhàn):第一,推理速度慢,這主要是因?yàn)槿狈V緩存(一種加速文本生成的關(guān)鍵技術(shù));第二,在復(fù)雜語(yǔ)言建模任務(wù)上,其質(zhì)量仍然不如AR模型。

為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了一種名為"神秘語(yǔ)言模型"(Esoteric Language Models,簡(jiǎn)稱(chēng)Eso-LMs)的新方法。這種模型巧妙地融合了AR和MDM范式,使我們能夠在兩者之間平滑過(guò)渡,同時(shí)克服它們各自的局限性。這就像是一位廚師不再局限于中餐或西餐的烹飪技巧,而是能夠根據(jù)需要靈活切換不同的烹飪方法,從而創(chuàng)造出更美味的菜肴。

一、Eso-LMs:融合擴(kuò)散與自回歸的創(chuàng)新模型

傳統(tǒng)的自回歸語(yǔ)言模型工作原理就像人類(lèi)寫(xiě)作一樣,從左到右一個(gè)詞一個(gè)詞地生成文本。這種方法生成的文本質(zhì)量高,但速度較慢,因?yàn)楸仨毜却耙粋€(gè)詞生成后才能生成下一個(gè)詞。想象一下,這就像一個(gè)人一筆一畫(huà)地寫(xiě)書(shū)法,每一筆都必須等前一筆完成才能開(kāi)始。

而掩碼擴(kuò)散模型則采用了不同的方法。它們首先生成一個(gè)全是"掩碼"(可以理解為空白或占位符)的序列,然后通過(guò)多步迭代,逐漸將這些掩碼替換為實(shí)際單詞。這個(gè)過(guò)程的關(guān)鍵在于,多個(gè)位置的掩碼可以同時(shí)被替換,從而實(shí)現(xiàn)并行處理。這就像一群畫(huà)家同時(shí)在不同區(qū)域繪制一幅畫(huà),而不是一個(gè)人從左到右、從上到下地繪制。

Eso-LMs的核心創(chuàng)新在于它結(jié)合了這兩種方法的優(yōu)點(diǎn)。研究團(tuán)隊(duì)提出了一個(gè)兩階段的生成過(guò)程:首先使用掩碼擴(kuò)散模型生成部分填充的序列(包含一些實(shí)際單詞和一些掩碼),然后使用自回歸模型從左到右填充剩余的掩碼。這就像先由多人同時(shí)勾勒出畫(huà)作的主要輪廓和關(guān)鍵元素(擴(kuò)散階段),然后由一位細(xì)致的畫(huà)家從一端開(kāi)始逐步完善細(xì)節(jié)(自回歸階段)。

這種融合方法不僅在理論上很優(yōu)雅,在實(shí)踐中也表現(xiàn)出色。通過(guò)控制初始掩碼的比例(由參數(shù)α0控制),Eso-LMs可以平滑地在純擴(kuò)散模型(α0=1)和純自回歸模型(α0=0)之間過(guò)渡。當(dāng)α0值較高時(shí),模型行為更像擴(kuò)散模型;當(dāng)α0值較低時(shí),則更像自回歸模型。這種靈活性讓研究人員可以根據(jù)具體任務(wù)需求調(diào)整模型的行為。

二、創(chuàng)新的注意力機(jī)制:解鎖KV緩存的奧秘

Eso-LMs最重要的技術(shù)突破之一是它能夠在擴(kuò)散階段支持KV緩存,這是之前的擴(kuò)散模型所不具備的能力。

KV緩存是什么呢?想象你在解決一道復(fù)雜的數(shù)學(xué)題。如果每次需要用到前面的計(jì)算結(jié)果時(shí),你都必須重新計(jì)算一遍,那會(huì)非常耗時(shí)。KV緩存就像是把這些中間計(jì)算結(jié)果記錄下來(lái),需要時(shí)直接查表獲取,大大加快了解題速度。在語(yǔ)言模型中,這種技術(shù)可以避免重復(fù)計(jì)算已生成部分的表示,從而顯著提高生成速度。

傳統(tǒng)的掩碼擴(kuò)散模型不支持KV緩存,主要是因?yàn)樗鼈兪褂昧穗p向注意力機(jī)制,即每個(gè)位置都可以關(guān)注序列中的任何其他位置。這就像在寫(xiě)作時(shí),可以參考文章的任何部分來(lái)決定當(dāng)前寫(xiě)什么。這種方法雖然靈活,但每次生成新內(nèi)容時(shí)都需要重新計(jì)算整個(gè)序列的表示,無(wú)法有效重用之前的計(jì)算結(jié)果。

研究團(tuán)隊(duì)提出了兩種變體模型來(lái)解決這一問(wèn)題:Eso-LM (A)和Eso-LM (B)。

Eso-LM (A)通過(guò)限制掩碼之間的注意力,減少了計(jì)算量。在擴(kuò)散階段,它允許每個(gè)待解碼的掩碼只關(guān)注已解碼的掩碼和干凈的標(biāo)記(未被掩碼的原始單詞),而不需要關(guān)注其他未解碼的掩碼。這大大減少了每步需要處理的標(biāo)記數(shù)量,特別是對(duì)于長(zhǎng)序列。這就像在寫(xiě)一篇文章時(shí),你只需要關(guān)注已經(jīng)寫(xiě)好的部分和大綱中確定的關(guān)鍵點(diǎn),而不需要考慮尚未確定的所有細(xì)節(jié)。

Eso-LM (B)更進(jìn)一步,它在干凈標(biāo)記之間也強(qiáng)制使用因果注意力(causal attention,即只關(guān)注自己及之前的位置)。這種設(shè)計(jì)允許在擴(kuò)散階段完全支持KV緩存,因?yàn)槊總€(gè)位置只依賴(lài)于序列中排在它前面的位置。雖然這種限制可能會(huì)略微降低模型性能,但帶來(lái)的速度提升是顯著的。實(shí)驗(yàn)表明,在長(zhǎng)序列生成任務(wù)中,Eso-LM (B)比標(biāo)準(zhǔn)MDMs快65倍,比之前支持部分KV緩存的半自回歸方法(如BD3-LMs)快約4倍。

三、采樣策略:平衡效率與質(zhì)量的藝術(shù)

Eso-LMs的另一個(gè)關(guān)鍵創(chuàng)新是其獨(dú)特的采樣策略。在標(biāo)準(zhǔn)掩碼擴(kuò)散模型中,采樣過(guò)程從一個(gè)全部是掩碼的序列開(kāi)始,然后通過(guò)多步迭代,逐漸替換掩碼為實(shí)際單詞。這種方法雖然支持并行生成,但每一步都需要處理整個(gè)序列,導(dǎo)致計(jì)算效率低下。

Eso-LMs采用了更智能的方法。在擴(kuò)散階段,它使用一個(gè)經(jīng)過(guò)優(yōu)化的采樣調(diào)度器,預(yù)先計(jì)算每一步要解碼的掩碼位置。這樣,每一步只需要處理已解碼的標(biāo)記和當(dāng)前要解碼的掩碼,而不需要處理整個(gè)序列。想象一下,這就像是在裝修一棟大樓時(shí),有一個(gè)精確的工作計(jì)劃,指定每天要完成的具體區(qū)域,而不是所有工人每天都檢查整棟樓的所有區(qū)域。

在順序階段,Eso-LMs從左到右解碼剩余的掩碼,就像傳統(tǒng)的自回歸模型一樣。這個(gè)階段自然支持KV緩存,因?yàn)槊總€(gè)新解碼的標(biāo)記只依賴(lài)于其左側(cè)的內(nèi)容。有趣的是,與標(biāo)準(zhǔn)自回歸模型不同,Eso-LMs在這個(gè)階段還可以利用擴(kuò)散階段生成的右側(cè)干凈標(biāo)記作為額外條件,從而生成更連貫的文本。

研究者們將這兩個(gè)階段的采樣過(guò)程無(wú)縫集成,使Eso-LMs能夠高效地生成高質(zhì)量文本。通過(guò)調(diào)整擴(kuò)散階段解碼的標(biāo)記比例(由α0控制),可以在速度和質(zhì)量之間取得理想的平衡。

四、實(shí)驗(yàn)結(jié)果:突破性性能與效率提升

研究團(tuán)隊(duì)在兩個(gè)標(biāo)準(zhǔn)語(yǔ)言建模基準(zhǔn)上評(píng)估了Eso-LMs:One Billion Words(LM1B)數(shù)據(jù)集和OpenWebText(OWT)數(shù)據(jù)集。結(jié)果證明了Eso-LMs的卓越性能。

在困惑度(perplexity,衡量語(yǔ)言模型預(yù)測(cè)能力的指標(biāo),越低越好)方面,Eso-LM (A)在各種α0設(shè)置下都優(yōu)于之前的擴(kuò)散模型。特別是,它成功地實(shí)現(xiàn)了在自回歸模型和掩碼擴(kuò)散模型之間的平滑過(guò)渡。令人驚訝的是,即使在α0=1(純擴(kuò)散模式)下,Eso-LM (A)也比標(biāo)準(zhǔn)MDLM表現(xiàn)更好,這可能歸功于其改進(jìn)的訓(xùn)練方法。

在生成速度方面,Eso-LM (B)展示了令人印象深刻的提升。對(duì)于長(zhǎng)度為8192的序列,它比標(biāo)準(zhǔn)MDMs快約65倍,比BD3-LMs快3-4倍。這種速度提升主要來(lái)自于兩個(gè)方面:一是能夠在擴(kuò)散階段使用KV緩存,二是優(yōu)化的采樣調(diào)度器減少了每步需要處理的標(biāo)記數(shù)量。

在樣本質(zhì)量方面,研究者們發(fā)現(xiàn)Eso-LMs在高NFEs(函數(shù)評(píng)估次數(shù),衡量計(jì)算量)下接近自回歸模型的質(zhì)量,在低NFEs下保持與MDMs相當(dāng)?shù)馁|(zhì)量。相比之下,之前的半自回歸方法BD3-LMs在低NFEs下會(huì)出現(xiàn)嚴(yán)重的模式崩潰問(wèn)題(生成重復(fù)或無(wú)意義的文本)。

特別值得一提的是,Eso-LM (B)在速度與質(zhì)量的權(quán)衡方面建立了新的最先進(jìn)水平。通過(guò)調(diào)整α0和采樣步數(shù),它可以適應(yīng)不同的應(yīng)用場(chǎng)景需求:當(dāng)時(shí)間預(yù)算有限時(shí),高α0值(更多擴(kuò)散)模型表現(xiàn)最佳;當(dāng)有充足的生成時(shí)間時(shí),低α0值(更多自回歸)模型可以產(chǎn)生接近純自回歸模型的高質(zhì)量文本。

五、神秘語(yǔ)言模型的更廣泛意義

Eso-LMs不僅是一個(gè)技術(shù)上的進(jìn)步,也代表了語(yǔ)言建模領(lǐng)域的一個(gè)重要范式轉(zhuǎn)變。長(zhǎng)期以來(lái),自回歸模型和擴(kuò)散模型被視為兩種截然不同的方法,各有優(yōu)缺點(diǎn)。Eso-LMs打破了這種二元對(duì)立,證明了兩種方法可以有機(jī)結(jié)合,取長(zhǎng)補(bǔ)短。

這種融合思路可能對(duì)其他領(lǐng)域也有啟發(fā)。例如,在分子生成、圖生成等涉及離散結(jié)構(gòu)的任務(wù)中,擴(kuò)散模型已經(jīng)展現(xiàn)出超越自回歸模型的潛力。Eso-LMs的方法可能進(jìn)一步提升這些領(lǐng)域的生成質(zhì)量和效率。

對(duì)于實(shí)際應(yīng)用,特別是需要實(shí)時(shí)響應(yīng)的系統(tǒng)(如聊天機(jī)器人),Eso-LMs提供的KV緩存支持和高效采樣策略意味著可以在不犧牲太多質(zhì)量的情況下顯著提升響應(yīng)速度。這可能使得更先進(jìn)的語(yǔ)言模型能夠部署在計(jì)算資源有限的設(shè)備上。

從研究角度看,Eso-LMs還為進(jìn)一步探索自回歸和擴(kuò)散范式之間的聯(lián)系提供了一個(gè)有價(jià)值的框架。通過(guò)α0參數(shù),研究人員可以系統(tǒng)地研究不同混合比例下模型的行為,深入理解兩種范式的優(yōu)勢(shì)和局限性。

六、結(jié)論與未來(lái)展望

Eso-LMs代表了語(yǔ)言建模領(lǐng)域的一個(gè)重要?jiǎng)?chuàng)新,它巧妙地融合了自回歸和掩碼擴(kuò)散模型的優(yōu)點(diǎn),創(chuàng)造了一個(gè)既高效又靈活的新范式。通過(guò)創(chuàng)新的注意力機(jī)制和采樣策略,它解決了之前擴(kuò)散模型的關(guān)鍵限制,特別是在推理速度方面。

實(shí)驗(yàn)結(jié)果表明,Eso-LMs在標(biāo)準(zhǔn)語(yǔ)言建?;鶞?zhǔn)上建立了新的擴(kuò)散模型最高水平,同時(shí)在速度與質(zhì)量的權(quán)衡方面顯著超越了之前的方法。特別是Eso-LM (B)變體,在擴(kuò)散階段支持KV緩存的能力使其在長(zhǎng)序列生成任務(wù)中比標(biāo)準(zhǔn)MDMs快65倍,比之前的半自回歸方法快3-4倍。

這項(xiàng)研究打開(kāi)了語(yǔ)言建模的新方向,展示了不同范式之間的融合可以帶來(lái)超越各自局限的性能。未來(lái)的工作可能會(huì)進(jìn)一步探索這種融合思路在其他任務(wù)和領(lǐng)域中的應(yīng)用,以及如何進(jìn)一步優(yōu)化模型架構(gòu)和訓(xùn)練方法。

對(duì)于普通用戶(hù)來(lái)說(shuō),這項(xiàng)研究的意義在于,未來(lái)的AI語(yǔ)言模型可能會(huì)變得更快、更高效,同時(shí)保持高質(zhì)量的輸出。特別是在需要實(shí)時(shí)響應(yīng)的應(yīng)用場(chǎng)景中,如AI助手和聊天機(jī)器人,這種技術(shù)進(jìn)步可能帶來(lái)更流暢、更自然的交互體驗(yàn)。

總的來(lái)說(shuō),Eso-LMs是自回歸與擴(kuò)散范式之間橋梁的重要一步,為未來(lái)更先進(jìn)、更高效的語(yǔ)言模型鋪平了道路。如果你對(duì)這項(xiàng)研究感興趣,可以訪問(wèn)論文項(xiàng)目頁(yè)面(https://s-sahoo.com/Eso-LMs)了解更多細(xì)節(jié)并獲取代碼和模型檢查點(diǎn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-