這項(xiàng)由上海交通大學(xué)鄧志杰教授團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2025年1月,論文題為《Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing》。有興趣深入了解的讀者可以通過(guò)GitHub代碼庫(kù)https://github.com/zhijie-group/Discrete-Diffusion-Forcing訪問(wèn)完整資料,該研究同時(shí)得到了加州大學(xué)圣地亞哥分校和上海大學(xué)的合作支持。
人工智能文本生成的速度一直是個(gè)大問(wèn)題。就像以前的打字機(jī)需要一個(gè)字母一個(gè)字母地敲出來(lái)一樣,傳統(tǒng)的AI語(yǔ)言模型也必須按順序生成每個(gè)詞匯,前一個(gè)詞沒(méi)寫完,后面的詞就得等著。這種"排隊(duì)寫作"的方式雖然準(zhǔn)確,但速度實(shí)在太慢了。近年來(lái),研究者們開(kāi)始嘗試一種叫做"擴(kuò)散大語(yǔ)言模型"的新技術(shù),就像同時(shí)用多支筆并行書寫一樣,理論上可以大大提高生成速度。
然而現(xiàn)實(shí)情況卻讓人失望。這些號(hào)稱能"并行寫作"的擴(kuò)散模型在實(shí)際應(yīng)用中,速度竟然比傳統(tǒng)的"單線程"模型還要慢。這就像買了一臺(tái)據(jù)說(shuō)很快的新電腦,結(jié)果用起來(lái)比老電腦還卡頓。問(wèn)題出在哪里呢?原來(lái),這些并行模型無(wú)法有效利用計(jì)算機(jī)內(nèi)存中的緩存機(jī)制,每次生成文本時(shí)都要重新計(jì)算很多已經(jīng)算過(guò)的東西,白白浪費(fèi)了大量計(jì)算資源。
上海交通大學(xué)的研究團(tuán)隊(duì)決定徹底解決這個(gè)問(wèn)題。他們開(kāi)發(fā)出一種叫做"離散擴(kuò)散強(qiáng)制"(簡(jiǎn)稱D2F)的全新技術(shù),巧妙地將傳統(tǒng)模型的優(yōu)勢(shì)與并行處理的潛力結(jié)合起來(lái)。這就像設(shè)計(jì)了一條既能保持隊(duì)伍秩序、又能讓多個(gè)人同時(shí)工作的流水線。
這項(xiàng)突破的核心在于重新設(shè)計(jì)了AI思考文本的方式。傳統(tǒng)的擴(kuò)散模型就像一個(gè)畫家試圖同時(shí)畫完整幅畫的每個(gè)部分,結(jié)果反而畫得很亂。而D2F技術(shù)則像一個(gè)聰明的畫家,把畫布分成幾個(gè)區(qū)塊,先專心畫好左邊的區(qū)塊,同時(shí)開(kāi)始構(gòu)思右邊區(qū)塊的內(nèi)容,等左邊畫得差不多了,就可以利用已完成的部分來(lái)指導(dǎo)右邊的創(chuàng)作,這樣既保證了畫面的連貫性,又大大提高了作畫速度。
具體來(lái)說(shuō),D2F技術(shù)采用了一種"分塊自回歸生成"的策略。它將要生成的文本分成若干個(gè)小塊,每個(gè)塊內(nèi)部可以并行處理多個(gè)詞匯,而塊與塊之間則保持著有序的依賴關(guān)系。這樣既能享受并行處理的速度優(yōu)勢(shì),又能利用傳統(tǒng)模型中高效的緩存機(jī)制,避免重復(fù)計(jì)算。
更巧妙的是,D2F還實(shí)現(xiàn)了"預(yù)測(cè)未來(lái)"的能力。它不需要等前面的文本塊完全寫完,就可以開(kāi)始處理后面的內(nèi)容。這就像一個(gè)經(jīng)驗(yàn)豐富的作家,即使前面的段落還沒(méi)完全定稿,也能根據(jù)已有的思路開(kāi)始構(gòu)思后續(xù)章節(jié)。這種"超前思維"讓整個(gè)文本生成過(guò)程變得更加流暢高效。
在訓(xùn)練這種新模型時(shí),研究團(tuán)隊(duì)采用了一種名為"非對(duì)稱蒸餾"的技術(shù)。這個(gè)過(guò)程就像讓一個(gè)學(xué)徒向經(jīng)驗(yàn)豐富的師傅學(xué)習(xí)寫作。師傅能夠縱觀全局,在看到完整文章大綱的情況下寫出每個(gè)段落,而學(xué)徒則需要學(xué)會(huì)在只看到部分信息的情況下,也能寫出質(zhì)量相當(dāng)?shù)膬?nèi)容。通過(guò)這種訓(xùn)練方式,新模型既學(xué)會(huì)了老模型的寫作技巧,又具備了在信息不完整時(shí)也能高效工作的能力。
為了在實(shí)際應(yīng)用中發(fā)揮最大效果,研究團(tuán)隊(duì)還設(shè)計(jì)了一套"流水線并行解碼算法"。這個(gè)算法就像一條精心設(shè)計(jì)的生產(chǎn)線,能夠動(dòng)態(tài)調(diào)節(jié)工作節(jié)奏。當(dāng)系統(tǒng)檢測(cè)到某個(gè)文本塊的完成度達(dá)到一定標(biāo)準(zhǔn)時(shí),就會(huì)自動(dòng)啟動(dòng)下一個(gè)文本塊的處理流程。同時(shí),系統(tǒng)還會(huì)根據(jù)前面塊的完成情況,調(diào)整后續(xù)塊的工作強(qiáng)度——前面的內(nèi)容越完整,后面的塊就能越放心地"加速工作"。
在性能測(cè)試中,D2F技術(shù)展現(xiàn)出了令人震撼的效果。在數(shù)學(xué)推理任務(wù)GSM8K上,使用D2F技術(shù)的Dream-Base-7B模型達(dá)到了每秒119.9個(gè)詞匯的生成速度,比著名的LLaMA3-Instruct-8B模型快了2.5倍,比Qwen2.5-Base-7B模型快了2.3倍。更令人驚喜的是,這種大幅速度提升幾乎沒(méi)有犧牲文本質(zhì)量,生成內(nèi)容的準(zhǔn)確性和流暢度與傳統(tǒng)模型相當(dāng)。
與其他加速技術(shù)相比,D2F的優(yōu)勢(shì)更加明顯。以LLaDA-Instruct-8B模型為例,在編程任務(wù)MBPP上,D2F技術(shù)實(shí)現(xiàn)了52.9倍的速度提升,從原來(lái)的每秒0.9個(gè)詞匯躍升至47.6個(gè)詞匯,而文本質(zhì)量幾乎沒(méi)有下降。相比之下,其他加速方法如Fast-dLLM的最好成績(jī)也只是17倍的速度提升。
這種顯著的性能差異源于D2F技術(shù)的根本性創(chuàng)新。傳統(tǒng)的加速方法就像給舊汽車換個(gè)更強(qiáng)勁的發(fā)動(dòng)機(jī),雖然能提高一些速度,但車輛的基本結(jié)構(gòu)限制了提升空間。而D2F技術(shù)則相當(dāng)于重新設(shè)計(jì)了整個(gè)交通系統(tǒng),不僅車輛本身更高效,道路規(guī)劃也更合理,自然能實(shí)現(xiàn)質(zhì)的飛躍。
研究團(tuán)隊(duì)還進(jìn)行了大量的對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證各個(gè)技術(shù)組件的貢獻(xiàn)。他們發(fā)現(xiàn),僅僅啟用緩存機(jī)制就能帶來(lái)顯著的速度提升,比如在GSM8K任務(wù)上能達(dá)到2.4倍的加速效果。而加入并行解碼流水線后,速度提升進(jìn)一步躍升至7.3倍。這證明了D2F技術(shù)各個(gè)組件的協(xié)同效應(yīng)——每個(gè)部分都很重要,組合在一起產(chǎn)生的效果遠(yuǎn)超簡(jiǎn)單相加。
在實(shí)際應(yīng)用中,D2F技術(shù)還提供了靈活的調(diào)節(jié)機(jī)制。用戶可以根據(jù)具體需求在速度和質(zhì)量之間找到最佳平衡點(diǎn)。如果優(yōu)先追求速度,可以降低某些質(zhì)量閾值來(lái)獲得更快的生成速度;如果更看重內(nèi)容質(zhì)量,則可以提高標(biāo)準(zhǔn)來(lái)確保輸出文本的準(zhǔn)確性。這種靈活性使得D2F技術(shù)能夠適應(yīng)不同場(chǎng)景的需求。
從技術(shù)發(fā)展的角度來(lái)看,D2F代表了AI文本生成領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。它成功打破了長(zhǎng)期以來(lái)"要么快但不準(zhǔn),要么準(zhǔn)但很慢"的技術(shù)瓶頸,實(shí)現(xiàn)了速度與質(zhì)量的雙重突破。這種成功不僅僅是技術(shù)參數(shù)的改進(jìn),更是思維方式的根本轉(zhuǎn)變——從線性思維轉(zhuǎn)向并行思維,從局部?jī)?yōu)化轉(zhuǎn)向全局協(xié)調(diào)。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)技術(shù)的意義非常直觀。未來(lái)的AI寫作助手、智能客服、自動(dòng)翻譯等應(yīng)用都將因此變得更加高效。原本需要等待幾秒鐘才能生成的回復(fù),現(xiàn)在可能只需要不到一秒就能完成。這種體驗(yàn)改善將讓AI工具變得更加實(shí)用,更貼近人們的日常工作節(jié)奏。
當(dāng)然,這項(xiàng)技術(shù)目前還處于研究階段,要真正走向廣泛應(yīng)用還需要時(shí)間。研究團(tuán)隊(duì)已經(jīng)開(kāi)源了相關(guān)代碼,這意味著全世界的開(kāi)發(fā)者都可以基于這項(xiàng)技術(shù)進(jìn)行進(jìn)一步的優(yōu)化和應(yīng)用開(kāi)發(fā)。隨著更多研究者的加入,我們有理由相信這種技術(shù)會(huì)變得更加成熟和實(shí)用。
值得一提的是,D2F技術(shù)的成功還為其他AI領(lǐng)域提供了重要啟示。它證明了通過(guò)巧妙的架構(gòu)設(shè)計(jì)和訓(xùn)練策略,可以在不顯著增加計(jì)算成本的情況下大幅提升系統(tǒng)性能。這種思路對(duì)于圖像生成、語(yǔ)音處理等其他AI應(yīng)用同樣具有參考價(jià)值。
總的來(lái)說(shuō),上海交通大學(xué)團(tuán)隊(duì)的這項(xiàng)研究不僅解決了一個(gè)具體的技術(shù)難題,更重要的是為AI系統(tǒng)優(yōu)化提供了一種全新的思路。在AI技術(shù)日益成為生產(chǎn)力工具的今天,這樣的突破具有重要的現(xiàn)實(shí)意義。它讓我們看到,通過(guò)持續(xù)的技術(shù)創(chuàng)新,AI系統(tǒng)的性能邊界還在不斷擴(kuò)展,未來(lái)的應(yīng)用前景值得期待。
Q&A
Q1:D2F技術(shù)是什么?它是如何提高AI文本生成速度的?
A:D2F(離散擴(kuò)散強(qiáng)制)是上海交通大學(xué)開(kāi)發(fā)的一種新型AI文本生成技術(shù)。它通過(guò)將文本分成多個(gè)小塊,每個(gè)塊內(nèi)部可以并行處理,塊與塊之間保持有序關(guān)系,同時(shí)能預(yù)測(cè)未來(lái)內(nèi)容而無(wú)需等待前面完全完成,從而實(shí)現(xiàn)了比傳統(tǒng)模型快2.5倍的生成速度。
Q2:D2F技術(shù)相比其他AI加速方法有什么優(yōu)勢(shì)?
A:D2F技術(shù)的最大優(yōu)勢(shì)是實(shí)現(xiàn)了真正的"又快又好"。相比其他加速方法只能帶來(lái)幾倍到十幾倍的速度提升,D2F可以實(shí)現(xiàn)50倍以上的加速,同時(shí)幾乎不犧牲文本質(zhì)量。這是因?yàn)樗鼜母旧现匦略O(shè)計(jì)了AI的思考方式,而不是簡(jiǎn)單地在現(xiàn)有技術(shù)上打補(bǔ)丁。
Q3:普通用戶什么時(shí)候能體驗(yàn)到D2F技術(shù)帶來(lái)的改進(jìn)?
A:目前D2F技術(shù)還處于研究階段,研究團(tuán)隊(duì)已經(jīng)在GitHub上開(kāi)源了相關(guān)代碼,供全球開(kāi)發(fā)者使用和改進(jìn)。隨著更多研究者和公司的參與優(yōu)化,預(yù)計(jì)未來(lái)1-2年內(nèi)就能在各種AI寫作助手、智能客服、自動(dòng)翻譯等應(yīng)用中看到這項(xiàng)技術(shù)的實(shí)際應(yīng)用。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。