av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 解鎖長文推理效率:首爾國立大學(xué)和成均館大學(xué)開發(fā)的"推理路徑壓縮"技術(shù)讓LLM思考更快更省資源

解鎖長文推理效率:首爾國立大學(xué)和成均館大學(xué)開發(fā)的"推理路徑壓縮"技術(shù)讓LLM思考更快更省資源

2025-05-26 08:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 08:03 ? 科技行者

近日,首爾國立大學(xué)的宋志元(Jiwon Song)、趙東元(Dongwon Jo)、金在準(zhǔn)(Jae-Joon Kim)與成均館大學(xué)的金律華(Yulhwa Kim)共同發(fā)表了一項(xiàng)突破性研究《推理路徑壓縮:壓縮生成軌跡實(shí)現(xiàn)高效LLM推理》(Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning)。這項(xiàng)研究發(fā)表于2025年5月20日的arXiv預(yù)印本平臺(arXiv:2505.13866v1),源代碼已在GitHub開源(https://github.com/jiwonsong-dev/ReasoningPathCompression)。

想象一下,你是一位數(shù)學(xué)老師,讓學(xué)生解答復(fù)雜問題時,他們需要寫下詳細(xì)的解題步驟。這些步驟對思考過程至關(guān)重要,但有時會包含大量重復(fù)內(nèi)容——比如檢查已經(jīng)驗(yàn)證過的結(jié)果或重新推導(dǎo)相同的公式。這正是現(xiàn)代推理型大語言模型(LLM)面臨的情況。像OpenAI的o1、DeepSeek-R1這樣的推理型LLM通過生成詳細(xì)的思考過程來解決復(fù)雜問題,而這些"推理路徑"往往超過數(shù)萬個詞元(token),占用大量內(nèi)存并降低生成速度。

研究團(tuán)隊(duì)提出了一個有趣的發(fā)現(xiàn):這些推理路徑中存在"語義稀疏性"——大量生成的內(nèi)容實(shí)際上是重復(fù)或冗余的。就像學(xué)生解題時反復(fù)檢查某些步驟一樣,模型也會重復(fù)驗(yàn)證或重新推導(dǎo)已經(jīng)得出的結(jié)論。基于這一發(fā)現(xiàn),他們開發(fā)了"推理路徑壓縮"(Reasoning Path Compression,簡稱RPC)技術(shù),這是一種無需額外訓(xùn)練的方法,能在推理過程中動態(tài)壓縮KV緩存(存儲模型生成內(nèi)容的內(nèi)存區(qū)域)。

RPC的工作原理就像一個聰明的編輯,它會定期回顧模型正在寫的"草稿",找出哪些部分是真正重要的,哪些部分可以安全地省略。通過巧妙利用注意力機(jī)制,RPC能識別出對當(dāng)前推理最關(guān)鍵的信息,并優(yōu)先保留這些內(nèi)容。實(shí)驗(yàn)結(jié)果令人振奮:在應(yīng)用于QwQ-32B模型后,推理吞吐量提高了最多1.60倍,同時在AIME 2024基準(zhǔn)測試中的準(zhǔn)確率僅下降了1.2%。

讓我們深入了解這項(xiàng)研究如何解決大型推理模型的效率難題,以及它對未來AI應(yīng)用的潛在影響。

一、推理型LLM的挑戰(zhàn):思考需要時間和空間

現(xiàn)代大語言模型正逐漸掌握復(fù)雜的推理能力,這意味著它們不再只是簡單地生成文本,而是能夠像人類一樣,通過逐步思考來解決復(fù)雜問題。想象一下,當(dāng)你解決一道數(shù)學(xué)題或編寫一段復(fù)雜代碼時,你會在紙上寫下思考步驟,通過這種方式逐漸接近最終答案。推理型LLM也采用類似的方法,它們會生成所謂的"推理路徑"——詳細(xì)記錄從問題到解決方案的每一步思考過程。

OpenAI的o1、DeepSeek-R1和QwQ等模型都采用了這種"邊思考邊寫"的方式。這些模型通過生成詳細(xì)的中間推理步驟,顯著提高了解決復(fù)雜問題的準(zhǔn)確率。這種方法在科學(xué)、技術(shù)、工程和數(shù)學(xué)(STEM)問題以及代碼生成任務(wù)中特別有效。

然而,這種詳細(xì)的推理過程也帶來了嚴(yán)重的資源消耗問題。研究團(tuán)隊(duì)通過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)生成長度從1024個詞元增加到32768個詞元時,QwQ-32B模型的吞吐量從每秒242.5個詞元急劇下降到接近零,而峰值內(nèi)存使用量則從75.4GB飆升至接近300GB。在許多情況下,模型甚至?xí)騼?nèi)存不足而無法完成推理。

"想象一下,如果你的大腦在思考復(fù)雜問題時,必須同時記住每一個思考步驟的所有細(xì)節(jié),"研究團(tuán)隊(duì)解釋道,"最終,你的'工作記憶'會被填滿,思考速度也會大大減慢。這正是推理型LLM面臨的困境。"

雖然已有一些方法試圖通過訓(xùn)練模型生成更簡潔的推理路徑來解決這個問題,如LightThinker等,但它們在復(fù)雜推理任務(wù)上的表現(xiàn)往往不盡如人意。這是因?yàn)橛?xùn)練目標(biāo)之間存在沖突:一方面希望模型生成詳細(xì)的推理步驟以提高準(zhǔn)確率,另一方面又希望它生成簡短的輸出以提高效率。這種沖突使得僅依靠訓(xùn)練很難同時實(shí)現(xiàn)高準(zhǔn)確率和高效率。

二、發(fā)現(xiàn)推理路徑的"語義稀疏性"

研究團(tuán)隊(duì)的關(guān)鍵發(fā)現(xiàn)是推理路徑中存在"語義稀疏性"。這個概念可以這樣理解:當(dāng)我們解決復(fù)雜問題時,并非思考過程中的每一步都提供了同等價值的信息。有些步驟可能只是重復(fù)驗(yàn)證已經(jīng)確認(rèn)的結(jié)果,或者重新推導(dǎo)已經(jīng)得出的公式。

為了直觀理解這一點(diǎn),可以看看論文中的一個例子:當(dāng)QwQ-32B模型解決一個量子力學(xué)問題時,它會重復(fù)核對能量計(jì)算,反復(fù)確認(rèn)相同的公式,甚至多次得出相同的答案。這些重復(fù)內(nèi)容在最終解決問題時并不都是必要的。

研究團(tuán)隊(duì)通過計(jì)算n-gram香農(nóng)熵(一種衡量文本復(fù)雜度的方法)來量化這種語義稀疏性。他們比較了推理型LLM(DeepSeek-R1-Distill-Llama-8B)和非推理型LLM(LongWriter-8B)生成的文本,發(fā)現(xiàn)推理型模型生成的內(nèi)容確實(shí)存在更多重復(fù)模式,熵值明顯更低。

"這就像比較兩種寫作風(fēng)格:一種是步步為營、不斷回顧和重復(fù)檢查的解題過程,另一種是流暢連貫、較少重復(fù)的敘事文本。我們發(fā)現(xiàn)推理型模型的輸出更像前者,"研究者解釋道。

這一發(fā)現(xiàn)為優(yōu)化推理過程提供了重要線索:如果能夠識別并壓縮這些冗余信息,就可能在不顯著影響準(zhǔn)確率的情況下,大幅提高模型的運(yùn)行效率。

三、推理路徑壓縮:聰明地保留重要信息

基于對推理路徑語義稀疏性的理解,研究團(tuán)隊(duì)提出了推理路徑壓縮(RPC)方法。這種方法的核心思想是:在模型生成推理路徑的過程中,定期評估已生成內(nèi)容的重要性,只保留最關(guān)鍵的部分,從而減少內(nèi)存占用并提高生成速度。

想象RPC就像一位經(jīng)驗(yàn)豐富的編輯,定期回顧作者(模型)正在寫的草稿,保留關(guān)鍵的推理步驟,刪除不必要的重復(fù)內(nèi)容。與傳統(tǒng)的KV緩存壓縮方法不同,RPC專門為推理型LLM設(shè)計(jì),充分利用了推理路徑的特殊結(jié)構(gòu)。

RPC的工作流程可以分為三個關(guān)鍵步驟:

首先,RPC采用周期性壓縮策略,而不是在每個生成步驟都進(jìn)行壓縮。這大大降低了計(jì)算開銷。具體來說,RPC設(shè)定一個"壓縮間隔"P(如1024或4096個詞元),每當(dāng)生成這么多新詞元后,就觸發(fā)一次壓縮操作。

其次,RPC使用"選擇器窗口"來評估詞元的重要性。選擇器窗口由最近生成的R個詞元(如32個)組成,基于一個簡單而合理的假設(shè):最近生成的內(nèi)容更能反映當(dāng)前推理的關(guān)注點(diǎn)。RPC分析這些近期詞元如何"關(guān)注"先前生成的內(nèi)容,計(jì)算出每個歷史詞元的重要性分?jǐn)?shù)。

最后,基于設(shè)定的壓縮比率(如4倍),RPC保留重要性分?jǐn)?shù)最高的詞元,丟棄其余部分。隨著推理的進(jìn)行,RPC會重復(fù)這個過程,動態(tài)調(diào)整保留的內(nèi)容,確保模型始終能訪問到最相關(guān)的歷史信息。

"這有點(diǎn)像整理筆記本:隨著筆記越寫越多,我們定期回顧,保留重要的見解,刪除不必要的重復(fù)內(nèi)容,"研究者解釋道,"但關(guān)鍵是,我們不需要修改模型本身,也不需要額外的訓(xùn)練。RPC可以直接應(yīng)用于現(xiàn)有的推理型LLM。"

在實(shí)際實(shí)現(xiàn)中,RPC通過巧妙設(shè)計(jì)的算法,計(jì)算每個歷史詞元的重要性分?jǐn)?shù),并使用局部平均池化來促進(jìn)連貫的詞元選擇,減少詞元級別的噪聲。這種方法能夠有效識別語義相關(guān)的詞元群組,保證壓縮后的推理路徑仍然連貫有意義。

四、實(shí)驗(yàn)結(jié)果:更快的思考,相似的準(zhǔn)確度

為了驗(yàn)證RPC的有效性,研究團(tuán)隊(duì)在多個基準(zhǔn)測試和不同規(guī)模的模型上進(jìn)行了全面評估。他們主要使用了兩個開源的推理型LLM:DeepSeek-R1-Distill-Qwen-7B(7B參數(shù))和QwQ-32B(32B參數(shù))。評估包括三個推理密集型基準(zhǔn)測試:美國邀請數(shù)學(xué)考試(AIME)2024、LiveCodeBench編程任務(wù)和IFEval指令遵循測試。

研究團(tuán)隊(duì)首先將RPC與現(xiàn)有方法進(jìn)行比較,包括訓(xùn)練型推理路徑壓縮方法LightThinker和通用KV緩存壓縮技術(shù)H2O、TOVA。結(jié)果令人印象深刻:在AIME 2024測試中,使用RPC的DeepSeek-R1-Distill-Qwen-7B達(dá)到了52.9%的準(zhǔn)確率,僅比完整KV緩存的55.5%低2.6個百分點(diǎn),同時實(shí)現(xiàn)了4倍的壓縮比。相比之下,LightThinker的準(zhǔn)確率僅為6.7%,而且只能實(shí)現(xiàn)1.4倍的壓縮比;H2O和TOVA分別達(dá)到45.0%和31.7%的準(zhǔn)確率,雖然也實(shí)現(xiàn)了4倍壓縮,但準(zhǔn)確率損失明顯更大。

在更大規(guī)模的QwQ-32B模型上,RPC表現(xiàn)更加穩(wěn)定:在AIME 2024上,準(zhǔn)確率從79.5%輕微下降到78.3%;在LiveCodeBench上,從63.4%下降到62.2%;在IFEval上,從83.9%下降到82.6%。這表明RPC在較大模型上的性能更加穩(wěn)健,可能是因?yàn)榇竽P偷娜哂喽雀?,壓縮空間更大。

效率提升方面,RPC帶來了顯著的性能改善。對于DeepSeek-R1-Distill-Qwen-7B,當(dāng)生成32768個詞元時,RPC將吞吐量提高了1.68倍,將峰值內(nèi)存使用量從75.7GB減少到36.2GB,節(jié)省了50%以上的內(nèi)存。對于QwQ-32B,RPC不僅將16384詞元生成時的吞吐量提高了1.60倍,還成功解決了32768詞元生成時的內(nèi)存不足問題,使之成為可能。

"就像給思考過程裝上了一個智能壓縮器,"研究者形象地解釋道,"模型可以以幾乎相同的準(zhǔn)確度思考同樣的問題,但思考速度快了一倍多,所需空間也減少了一半以上。"

研究團(tuán)隊(duì)還對RPC的關(guān)鍵超參數(shù)進(jìn)行了消融研究,包括壓縮間隔P和選擇器窗口大小R。他們發(fā)現(xiàn),P=4096提供了最佳的準(zhǔn)確率-效率平衡,而R=32則是評估詞元重要性的最佳窗口大小。這些發(fā)現(xiàn)為實(shí)際部署RPC提供了有價值的指導(dǎo)。

五、未來展望:更高效的AI推理系統(tǒng)

推理路徑壓縮(RPC)技術(shù)的出現(xiàn),為解決推理型LLM的效率問題開辟了一條新路徑。與傳統(tǒng)方法不同,RPC不需要重新訓(xùn)練模型,也不需要預(yù)先知道生成長度,這使它易于集成到現(xiàn)有的推理管道中。

更重要的是,RPC揭示了推理路徑中存在大量冗余信息的現(xiàn)象,這一發(fā)現(xiàn)本身就具有重要價值。它提示我們,未來的推理型LLM可能需要更智能的注意力機(jī)制,能夠自動識別和忽略不必要的重復(fù)內(nèi)容,從而提高推理效率。

研究團(tuán)隊(duì)也嘗試了更激進(jìn)的8倍壓縮比,雖然在復(fù)雜推理任務(wù)上準(zhǔn)確率下降明顯,但在簡單任務(wù)如IFEval上表現(xiàn)依然穩(wěn)定。這表明壓縮比可以根據(jù)任務(wù)難度動態(tài)調(diào)整,為不同應(yīng)用場景提供更靈活的效率-準(zhǔn)確率平衡。

"我們的工作只是第一步,"研究團(tuán)隊(duì)在結(jié)論中指出,"未來可能會出現(xiàn)更多針對推理型LLM的專用優(yōu)化技術(shù),進(jìn)一步提高它們的效率和可擴(kuò)展性。"

隨著推理型LLM在科學(xué)研究、教育、醫(yī)療和工程設(shè)計(jì)等領(lǐng)域的應(yīng)用日益廣泛,提高它們的運(yùn)行效率變得至關(guān)重要。推理路徑壓縮技術(shù)為我們提供了一種實(shí)用的解決方案,讓這些強(qiáng)大的AI助手能夠以更快的速度、更低的資源消耗來解決復(fù)雜問題,從而為更廣泛的應(yīng)用鋪平道路。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-