在人工智能的世界里,有一個(gè)困擾研究者多年的難題,就像是讓一個(gè)人同時(shí)閱讀幾十本書并記住所有細(xì)節(jié)一樣困難。當(dāng)大型語(yǔ)言模型需要處理很長(zhǎng)的文本時(shí),它們的"注意力"就會(huì)變得力不從心,就好比一個(gè)學(xué)生試圖同時(shí)關(guān)注教室里每一個(gè)同學(xué)的發(fā)言,結(jié)果什么都聽不清楚。
這項(xiàng)由清華大學(xué)趙韋林、周子涵等研究者與OpenBMB團(tuán)隊(duì)、哈爾濱工業(yè)大學(xué)合作開展的研究,于2025年9月發(fā)表在arXiv預(yù)印本平臺(tái)(編號(hào):arXiv:2509.24663v1),為這個(gè)問題帶來了突破性的解決方案。研究團(tuán)隊(duì)開發(fā)出一種名為InfLLM-V2的全新注意力框架,能夠讓AI模型在處理長(zhǎng)文本時(shí)既保持高效率又不丟失準(zhǔn)確性,就像給學(xué)生配備了一副智能眼鏡,能夠自動(dòng)聚焦到最重要的信息上。
傳統(tǒng)的AI模型在處理長(zhǎng)文本時(shí)面臨著計(jì)算資源和內(nèi)存的雙重瓶頸。當(dāng)文本長(zhǎng)度增加時(shí),模型需要的計(jì)算量會(huì)呈平方倍數(shù)增長(zhǎng),這就像是一個(gè)圖書管理員需要同時(shí)管理的書籍?dāng)?shù)量翻倍時(shí),他的工作量卻要增加四倍。為了解決這個(gè)問題,研究人員此前提出了各種稀疏注意力機(jī)制,但這些方法往往存在一個(gè)關(guān)鍵缺陷:要么在訓(xùn)練時(shí)引入額外的參數(shù)負(fù)擔(dān),要么在短文本處理時(shí)效率低下,就像是為了節(jié)省時(shí)間而設(shè)計(jì)的快速通道,卻只在特定情況下才有用。
這項(xiàng)研究的創(chuàng)新之處在于設(shè)計(jì)了一個(gè)"密集-稀疏可切換"的注意力框架。簡(jiǎn)單來說,就是讓AI模型能夠根據(jù)文本長(zhǎng)度自動(dòng)調(diào)整自己的注意力模式:處理短文本時(shí)使用全面的密集注意力,就像仔細(xì)閱讀一篇短文章時(shí)關(guān)注每一個(gè)細(xì)節(jié);處理長(zhǎng)文本時(shí)則切換到稀疏注意力模式,重點(diǎn)關(guān)注最重要的信息片段,就像快速瀏覽長(zhǎng)篇小說時(shí)抓住關(guān)鍵情節(jié)。
一、傳統(tǒng)方法的困境與新思路的誕生
要理解這項(xiàng)研究的重要性,我們需要先了解AI模型處理文本的基本原理?,F(xiàn)代大型語(yǔ)言模型都基于一種叫做Transformer的架構(gòu),其核心是自注意力機(jī)制。可以把這個(gè)機(jī)制想象成一個(gè)會(huì)議室里的討論:每個(gè)與會(huì)者(文本中的每個(gè)詞)都需要聽取和回應(yīng)其他所有人的發(fā)言。在小型會(huì)議中這樣做很有效,但當(dāng)參會(huì)人數(shù)增加到幾百甚至幾千人時(shí),這種全員參與的討論模式就變得不現(xiàn)實(shí)了。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的稀疏注意力方法主要分為兩類。第一類是訓(xùn)練無關(guān)的方法,它們利用注意力權(quán)重的自然稀疏性來加速推理,就像在嘈雜的會(huì)議中只聽聲音最大的幾個(gè)人發(fā)言。然而,這種方法為了避免嚴(yán)重的性能下降,只能應(yīng)用有限的稀疏程度,最終的效率提升也很有限。
第二類是可訓(xùn)練的稀疏注意力方法,其中最具代表性的是NSA(原生稀疏注意力)方法。NSA的設(shè)計(jì)思路是創(chuàng)建三個(gè)不同的注意力模塊:壓縮注意力、選擇注意力和滑動(dòng)注意力,然后通過一個(gè)門控機(jī)制將它們的輸出進(jìn)行組合。這就像是在會(huì)議室里設(shè)置三個(gè)不同的討論小組,每個(gè)小組負(fù)責(zé)不同類型的信息處理,最后再將結(jié)果匯總。
然而,NSA方法存在一個(gè)根本性問題:它與標(biāo)準(zhǔn)的"短序列預(yù)訓(xùn)練、長(zhǎng)序列微調(diào)"工作流程不匹配。這種工作流程是目前構(gòu)建長(zhǎng)文本處理模型的主流方式,就像是先教學(xué)生處理簡(jiǎn)單問題,再逐步提高難度。NSA需要引入三套獨(dú)立的鍵值參數(shù)和三個(gè)注意力模塊,這使得模型從處理短文本的單輸出注意力架構(gòu)突然切換到多輸出注意力架構(gòu),造成了訓(xùn)練的不穩(wěn)定性。
二、密集-稀疏可切換注意力框架的設(shè)計(jì)原理
InfLLM-V2的核心創(chuàng)新在于設(shè)計(jì)了一個(gè)真正無縫的轉(zhuǎn)換機(jī)制。研究團(tuán)隊(duì)的方法建立在InfLLM這一無訓(xùn)練塊稀疏注意力機(jī)制的基礎(chǔ)上,但加入了三個(gè)關(guān)鍵創(chuàng)新。
首先是無縫的短到長(zhǎng)適應(yīng)能力。與NSA需要額外參數(shù)和多個(gè)注意力模塊不同,InfLLM-V2通過直接重用現(xiàn)有的密集注意力參數(shù)來實(shí)現(xiàn)從密集到稀疏注意力的轉(zhuǎn)換。這種設(shè)計(jì)就像是一個(gè)變形金剛,能夠在不更換零件的情況下改變自己的形態(tài)和功能。當(dāng)處理短文本時(shí),模型使用標(biāo)準(zhǔn)的密集注意力;當(dāng)文本長(zhǎng)度超過某個(gè)閾值時(shí),模型自動(dòng)切換到稀疏模式,但所有的核心參數(shù)保持不變。
第二個(gè)創(chuàng)新是對(duì)短序列和長(zhǎng)序列的統(tǒng)一效率優(yōu)化。由于InfLLM-V2的轉(zhuǎn)換過程不需要額外參數(shù)且引入的分布偏移很小,模型在短文本上保持了強(qiáng)大的性能,同時(shí)可以輕松切換回密集注意力模式以獲得短序列的高效率。這就像是一輛能夠在城市道路和高速公路之間自由切換駕駛模式的智能汽車,在每種環(huán)境下都能發(fā)揮最佳性能。
第三個(gè)創(chuàng)新是加速的塊選擇機(jī)制。研究團(tuán)隊(duì)發(fā)現(xiàn),稀疏注意力之前的塊選擇步驟本身就會(huì)損害稀疏注意力的效率增益。他們提出了一種硬件感知的高效實(shí)現(xiàn)方案,有效地消除了這個(gè)瓶頸,釋放了稀疏注意力的全部潛力。
具體來說,InfLLM-V2采用了統(tǒng)一的鍵值投影參數(shù)。研究團(tuán)隊(duì)發(fā)現(xiàn)NSA中使用三套獨(dú)立的鍵值投影參數(shù)是不必要的,這不僅復(fù)雜化了從短到長(zhǎng)序列的適應(yīng)過程,還顯著降低了短序列的計(jì)算速度。因此,他們提出使用單一共享的投影參數(shù)集,這些參數(shù)用預(yù)訓(xùn)練的密集注意力參數(shù)初始化,然后用于長(zhǎng)序列的微調(diào)。
在計(jì)算對(duì)齊方面,除了確保稀疏和密集注意力共享相同的參數(shù)外,它們的計(jì)算過程也必須緊密對(duì)齊。在NSA中,三個(gè)注意力模塊都會(huì)生成輸出,然后通過額外的門控模塊進(jìn)行聚合。這迫使即使在短序列上也要計(jì)算所有三個(gè)模塊,導(dǎo)致了大量的開銷。為了緩解這個(gè)問題,InfLLM-V2將選擇注意力和滑動(dòng)注意力這兩種稀疏模式合并,并消除了壓縮注意力的輸出,形成了統(tǒng)一的稀疏注意力模塊。
三、塊表示的三階段壓縮策略
在稀疏注意力的實(shí)現(xiàn)中,一個(gè)關(guān)鍵問題是如何有效地表示和選擇重要的信息塊。簡(jiǎn)單地用大塊大小在一個(gè)階段內(nèi)壓縮長(zhǎng)序列會(huì)導(dǎo)致粒度信息的顯著丟失。為了解決這個(gè)問題,研究團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)三階段的、從粗粒度到細(xì)粒度的壓縮過程。
第一階段處理輸入鍵序列,產(chǎn)生中間的粗粒度表示。通過將初始?jí)嚎s塊大小表示為lC1,步長(zhǎng)表示為sC1,他們通過對(duì)連續(xù)塊應(yīng)用均值池化操作來實(shí)現(xiàn)這一點(diǎn)。這就像是先用廣角鏡頭拍攝整個(gè)場(chǎng)景,獲得一個(gè)總體的印象。
第二階段采用塊級(jí)稀疏注意力而不是詞級(jí)方法,以提高稀疏注意力的效率。在使用分組查詢注意力的模型中,他們通過強(qiáng)制組內(nèi)所有頭的塊選擇模式相同來實(shí)現(xiàn)這一點(diǎn)。他們?cè)陬^組內(nèi)進(jìn)行求和以獲得共享的重要性分?jǐn)?shù)。這個(gè)階段就像是用中焦鏡頭重新審視重要區(qū)域,獲得更詳細(xì)的信息。
第三階段應(yīng)用最大池化操作,它可以保留最顯著的特征。聚合后的分?jǐn)?shù)被定義并用于稀疏注意力。這就像是用微距鏡頭仔細(xì)觀察最關(guān)鍵的細(xì)節(jié),確保不遺漏任何重要信息。
通過這種三階段方法,研究團(tuán)隊(duì)設(shè)置了特定的參數(shù)值:lC1等于塊大小B的一半,sC1等于B的四分之一,第三階段的參數(shù)l為5,s為4,這樣可以達(dá)到與一階段塊大小B壓縮相同的壓縮比率。直觀地說,他們基于塊內(nèi)的幾個(gè)滑動(dòng)子塊計(jì)算整個(gè)塊的稀疏分?jǐn)?shù)。
四、高效實(shí)現(xiàn)的技術(shù)突破
為了實(shí)現(xiàn)真正的加速效果,研究團(tuán)隊(duì)面臨的一個(gè)主要挑戰(zhàn)是壓縮分?jǐn)?shù)計(jì)算引入的顯著性能瓶頸。性能分析顯示,計(jì)算壓縮分?jǐn)?shù)Scmp引入了明顯的性能瓶頸。這種緩慢的一個(gè)主要來源是將第一階段注意力分?jǐn)?shù)SC1存儲(chǔ)到慢速GPU高帶寬內(nèi)存中所需的大量輸入輸出操作。
需要寫入的數(shù)據(jù)量是hqn?/sC1,其中n是完整序列長(zhǎng)度。由于sC1遠(yuǎn)小于n,將完整注意力分?jǐn)?shù)矩陣具體化到GPU高帶寬內(nèi)存會(huì)產(chǎn)生巨大的成本。受到FlashAttention的啟發(fā),研究團(tuán)隊(duì)的目標(biāo)是通過確保注意力分?jǐn)?shù)盡可能多地保留在快速GPU靜態(tài)隨機(jī)存取內(nèi)存中來最小化這種輸入輸出。
他們的方法是融合頭組求和,將第二階段壓縮所需的頭組求和直接融合到基于靜態(tài)隨機(jī)存取內(nèi)存的FlashAttention計(jì)算循環(huán)中。這樣,他們只需將減少后的注意力分?jǐn)?shù)Sshared存儲(chǔ)到GPU高帶寬內(nèi)存中,其大小為hqn?/(sC1G)。
然而,另一個(gè)挑戰(zhàn)來自于頭組維度上的求和和序列維度上的在線softmax不是可交換操作這一事實(shí)。這種沖突阻止了直接融合。為了克服這個(gè)問題,研究團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)兩遍方法。在第一遍中,他們?cè)陟o態(tài)隨機(jī)存取內(nèi)存中計(jì)算softmax歸一化所需的對(duì)數(shù)求和指數(shù)項(xiàng)。在第二遍中,他們利用對(duì)數(shù)求和指數(shù)來計(jì)算最終的注意力分?jǐn)?shù),在靜態(tài)隨機(jī)存取內(nèi)存中執(zhí)行頭組求和,并將減少后的分?jǐn)?shù)寫入高帶寬內(nèi)存。
這種兩遍方法的代價(jià)是它使計(jì)算工作量翻倍。因此,研究團(tuán)隊(duì)提出了對(duì)數(shù)求和指數(shù)近似,通過使用更粗粒度的注意力分?jǐn)?shù)SC2來近似對(duì)數(shù)求和指數(shù)計(jì)算。通過設(shè)置sC2為4sC1,lC2為4lC1,計(jì)算開銷從2倍減少到1.25倍。
五、實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)
研究團(tuán)隊(duì)在多個(gè)任務(wù)上評(píng)估了InfLLM-V2,從短文本到長(zhǎng)文本,并展示了其效率優(yōu)勢(shì)。他們使用標(biāo)準(zhǔn)的分組查詢注意力模型骨干,具有8B參數(shù),隱藏大小為4096,查詢頭數(shù)為32,鍵值頭數(shù)為2,頭維度為128。
在預(yù)訓(xùn)練階段,他們首先使用全注意力在短序列數(shù)據(jù)上預(yù)訓(xùn)練模型。預(yù)訓(xùn)練數(shù)據(jù)集包含8T個(gè)4k長(zhǎng)度序列的標(biāo)記,主要由FineWeb-Edu和Stack-v2組成。當(dāng)轉(zhuǎn)換到長(zhǎng)文本微調(diào)時(shí),他們切換到InfLLM-V2的稀疏模式。
在長(zhǎng)文本理解任務(wù)上,研究團(tuán)隊(duì)在RULER、LongBench和LongPPL基準(zhǔn)上比較了InfLLM-V2和不同基線方法。RULER是一個(gè)可配置平均長(zhǎng)度的合成數(shù)據(jù)集,LongBench是長(zhǎng)文本理解的雙語(yǔ)基準(zhǔn),LongPPL是長(zhǎng)序列的困惑度評(píng)估基準(zhǔn)。實(shí)驗(yàn)結(jié)果顯示,InfLLM-V2在所有稀疏方法中實(shí)現(xiàn)了最佳性能,結(jié)果與強(qiáng)大的全注意力基線高度競(jìng)爭(zhēng)且接近匹配。
在長(zhǎng)推理任務(wù)上,研究團(tuán)隊(duì)比較了幾個(gè)主要的長(zhǎng)推理任務(wù),包括MATH-500、AIME和LiveCodeBench。他們?cè)贠penMathReasoning和OpenCodeReasoning上微調(diào)了InfLLM-V2和基線方法。實(shí)驗(yàn)結(jié)果表明,InfLLM-V2達(dá)到了與全注意力相當(dāng)?shù)男阅?,證實(shí)了其在長(zhǎng)輸出場(chǎng)景中的有效性。
在效率方面,研究團(tuán)隊(duì)首先評(píng)估了在NVIDIA A100和NVIDIA 4090上的內(nèi)核實(shí)現(xiàn)效率。當(dāng)選擇塊數(shù)為16時(shí),InfLLM-V2在A100上實(shí)現(xiàn)了比FlashAttention高達(dá)7.4倍的加速,在4090上實(shí)現(xiàn)了9.3倍的加速。相比之下,NSA在相同設(shè)置下的加速僅限于3.5倍。端到端推理速度實(shí)驗(yàn)顯示,InfLLM-V2可以實(shí)現(xiàn)2.13倍的預(yù)填充加速和2.32倍的解碼加速。
六、與現(xiàn)有方法的深度對(duì)比
通過與現(xiàn)有方法的詳細(xì)比較,可以更清楚地看出InfLLM-V2的優(yōu)勢(shì)所在。訓(xùn)練無關(guān)的稀疏注意力方法,如InfLLM和MInference,雖然能夠利用注意力層的內(nèi)在稀疏性,但受限于稀疏度水平,為了避免嚴(yán)重的性能下降,最終的加速效果有限。
可訓(xùn)練的稀疏注意力方法中,SeerAttention采用自蒸餾后訓(xùn)練算法來訓(xùn)練選擇查詢塊相關(guān)上下文的路由器。MoBA在短到長(zhǎng)適應(yīng)階段采用塊稀疏注意力結(jié)構(gòu),訓(xùn)練查詢塊和鍵值塊之間的路由器進(jìn)行上下文選擇。這些方法將查詢標(biāo)記分割成塊,只能加速預(yù)填充階段。
NSA設(shè)計(jì)了三個(gè)注意力組件用于標(biāo)記級(jí)稀疏性,有效地加速了預(yù)填充和解碼過程。然而,NSA引入了大量額外參數(shù),使其不適合高效的短到長(zhǎng)適應(yīng),并在短序列處理上造成了顯著的計(jì)算開銷。
相比之下,InfLLM-V2專注于提出一種稀疏注意力機(jī)制,能夠有效且高效地處理短序列和長(zhǎng)序列,支持預(yù)填充和解碼。通過共享鍵值投影和統(tǒng)一的計(jì)算流程,InfLLM-V2實(shí)現(xiàn)了真正的無縫轉(zhuǎn)換,既保持了短序列的高效率,又在長(zhǎng)序列上達(dá)到了優(yōu)秀的性能。
特別值得注意的是,InfLLM-V2的一個(gè)獨(dú)特優(yōu)勢(shì)是能夠在密集模式和稀疏模式之間靈活切換。這種靈活性不僅提供了密集計(jì)算的選項(xiàng),還可以進(jìn)一步提升性能,甚至超越全注意力基線。實(shí)驗(yàn)中,使用LSE近似的InfLLM-V2稀疏變體沒有損失任何性能,證實(shí)了加速技術(shù)的有效性。
七、技術(shù)實(shí)現(xiàn)的創(chuàng)新細(xì)節(jié)
InfLLM-V2的技術(shù)實(shí)現(xiàn)包含多個(gè)創(chuàng)新細(xì)節(jié),這些細(xì)節(jié)共同確保了方法的實(shí)用性和高效性。在塊選擇機(jī)制方面,原始的選擇注意力模塊根據(jù)壓縮注意力模塊的注意力分?jǐn)?shù)識(shí)別重要的標(biāo)記塊。對(duì)于位于塊bi中索引為i的查詢標(biāo)記,注意力總是授予固定的初始?jí)K集合和局部塊集合。然后在剩余塊集合上應(yīng)用top-k選擇,完整的被關(guān)注塊索引集合是這三個(gè)集合的并集。
通過將選擇注意力和滑動(dòng)注意力中的局部塊和滑動(dòng)注意力中的窗口合并,研究團(tuán)隊(duì)通過擴(kuò)展統(tǒng)一稀疏注意力中的局部塊數(shù)量來嚴(yán)格覆蓋滑動(dòng)注意力的區(qū)域。這種單輸出設(shè)計(jì)更好地反映了密集注意力,有助于稀疏注意力模型的訓(xùn)練。
在硬件實(shí)現(xiàn)方面,研究團(tuán)隊(duì)遵循NSA的技術(shù),將分組查詢注意力的組大小設(shè)置為16,這是一個(gè)非常適合塊稀疏注意力的配置。他們的分析顯示,計(jì)算壓縮分?jǐn)?shù)的一個(gè)主要瓶頸來源是將第一階段注意力分?jǐn)?shù)存儲(chǔ)到慢速GPU高帶寬內(nèi)存所需的大量輸入輸出操作。
為了解決這個(gè)問題,研究團(tuán)隊(duì)實(shí)現(xiàn)了融合頭組求和技術(shù),將第二階段壓縮所需的頭組維度求和直接融合到基于靜態(tài)隨機(jī)存取內(nèi)存的FlashAttention計(jì)算循環(huán)中。通過這種方式,他們只需要將減少后的注意力分?jǐn)?shù)存儲(chǔ)到GPU高帶寬內(nèi)存中,顯著減少了內(nèi)存訪問開銷。
八、實(shí)際應(yīng)用前景與意義
InfLLM-V2的成功不僅僅是一個(gè)技術(shù)突破,更代表了AI模型處理長(zhǎng)文本能力的重要進(jìn)步。在實(shí)際應(yīng)用中,這項(xiàng)技術(shù)可以顯著改善多個(gè)領(lǐng)域的用戶體驗(yàn)。
在文檔處理領(lǐng)域,律師事務(wù)所和研究機(jī)構(gòu)經(jīng)常需要處理長(zhǎng)達(dá)數(shù)百頁(yè)的法律文件或研究報(bào)告。傳統(tǒng)的AI模型在處理這些長(zhǎng)文檔時(shí)往往會(huì)丟失重要信息或處理速度極慢。InfLLM-V2使得AI助手能夠快速閱讀和分析這些長(zhǎng)文檔,同時(shí)保持對(duì)關(guān)鍵信息的準(zhǔn)確理解。
在代碼開發(fā)領(lǐng)域,軟件工程師經(jīng)常需要理解和維護(hù)包含數(shù)千行代碼的大型項(xiàng)目。InfLLM-V2使得AI編程助手能夠更好地理解整個(gè)代碼庫(kù)的上下文,提供更準(zhǔn)確的代碼建議和錯(cuò)誤修復(fù)方案。這就像給程序員配備了一個(gè)能夠同時(shí)記住整個(gè)項(xiàng)目所有細(xì)節(jié)的超級(jí)助手。
在教育領(lǐng)域,學(xué)生和研究者經(jīng)常需要閱讀和理解長(zhǎng)篇學(xué)術(shù)論文或教材。基于InfLLM-V2的AI系統(tǒng)可以幫助他們快速提取關(guān)鍵信息,生成摘要,或回答特定問題,顯著提高學(xué)習(xí)效率。
在客服和咨詢領(lǐng)域,AI客服系統(tǒng)需要記住整個(gè)對(duì)話歷史來提供連貫的服務(wù)。InfLLM-V2使得這些系統(tǒng)能夠處理更長(zhǎng)的對(duì)話歷史,提供更個(gè)性化和上下文相關(guān)的回應(yīng)。
研究團(tuán)隊(duì)已經(jīng)基于InfLLM-V2框架訓(xùn)練并開源了MiniCPM4.1混合推理模型,為研究社區(qū)提供了可重現(xiàn)的實(shí)現(xiàn)。這個(gè)模型在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)了優(yōu)異的性能,證明了框架的實(shí)用性和可擴(kuò)展性。
InfLLM-V2的另一個(gè)重要意義在于它為未來的研究指明了方向。這項(xiàng)工作表明,通過巧妙的設(shè)計(jì),可以在不增加模型復(fù)雜性的情況下顯著提升性能。這種"做減法"的設(shè)計(jì)哲學(xué)對(duì)于構(gòu)建更高效、更實(shí)用的AI系統(tǒng)具有重要的指導(dǎo)意義。
說到底,InfLLM-V2代表了AI領(lǐng)域中一個(gè)重要的進(jìn)步方向:不是簡(jiǎn)單地增加模型規(guī)?;蛴?jì)算資源,而是通過更智能的設(shè)計(jì)來解決實(shí)際問題。這項(xiàng)研究讓我們看到,有時(shí)候最好的解決方案不是最復(fù)雜的,而是最優(yōu)雅的。就像一個(gè)經(jīng)驗(yàn)豐富的圖書管理員知道如何快速找到讀者需要的書籍一樣,InfLLM-V2教會(huì)了AI模型如何更聰明地管理和利用信息。
這項(xiàng)技術(shù)的成功也提醒我們,在追求AI能力提升的道路上,效率和實(shí)用性同樣重要。隨著AI模型越來越多地應(yīng)用到實(shí)際場(chǎng)景中,像InfLLM-V2這樣既能保持高性能又能提高效率的技術(shù)將變得越來越重要。對(duì)于想要深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,可以通過論文編號(hào)arXiv:2509.24663v1查詢完整的研究報(bào)告。
Q&A
Q1:InfLLM-V2與傳統(tǒng)稀疏注意力方法有什么不同?
A:InfLLM-V2的最大不同在于它能夠在密集和稀疏注意力模式之間無縫切換,不需要額外參數(shù)。傳統(tǒng)方法如NSA需要三套獨(dú)立的鍵值參數(shù)和多個(gè)注意力模塊,導(dǎo)致從短文本到長(zhǎng)文本適應(yīng)時(shí)出現(xiàn)訓(xùn)練不穩(wěn)定。InfLLM-V2直接重用現(xiàn)有的密集注意力參數(shù),確保了短到長(zhǎng)序列處理的一致性。
Q2:InfLLM-V2在實(shí)際應(yīng)用中能帶來多大的速度提升?
A:實(shí)驗(yàn)結(jié)果顯示,InfLLM-V2比傳統(tǒng)的FlashAttention在A100上快7.4倍,在4090上快9.3倍。在端到端推理中,它實(shí)現(xiàn)了2.13倍的預(yù)填充加速和2.32倍的解碼加速。同時(shí),它在長(zhǎng)文本理解任務(wù)上保持了98.1%的性能,在推理任務(wù)上保持了99.7%的性能。
Q3:普通開發(fā)者如何使用InfLLM-V2技術(shù)?
A:研究團(tuán)隊(duì)已經(jīng)基于InfLLM-V2框架訓(xùn)練并開源了MiniCPM4.1混合推理模型,開發(fā)者可以通過huggingface.co/openbmb/MiniCPM4.1-8B獲取。這個(gè)8B參數(shù)的模型提供了完整的實(shí)現(xiàn)代碼,讓開發(fā)者能夠直接應(yīng)用這項(xiàng)技術(shù)到自己的長(zhǎng)文本處理任務(wù)中。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。