這項(xiàng)由清華大學(xué)王宇教授團(tuán)隊(duì)與字節(jié)跳動(dòng)種子聯(lián)合實(shí)驗(yàn)室合作完成的突破性研究,于2025年6月發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)期刊上。研究團(tuán)隊(duì)包括來(lái)自清華大學(xué)的趙天辰、洪科、楊欣昊等多位研究者,以及字節(jié)跳動(dòng)的肖雪峰、李會(huì)霞、凌峰等工程師。這篇題為"PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models"的論文,為解決AI視頻生成中的計(jì)算效率問(wèn)題提供了全新的思路。對(duì)這項(xiàng)研究感興趣的讀者可以通過(guò)arXiv:2506.16054v1訪問(wèn)完整論文。
當(dāng)我們談?wù)揂I生成視頻時(shí),很多人可能會(huì)想到那些令人驚嘆的效果,比如幾秒鐘就能制作出一段高清視頻。然而,在這些炫目效果的背后,隱藏著一個(gè)巨大的技術(shù)挑戰(zhàn):計(jì)算資源的消耗簡(jiǎn)直是個(gè)"無(wú)底洞"。想象一下,如果你要手工制作一部6秒鐘的720P視頻,需要處理約17,000個(gè)獨(dú)立的信息片段,每個(gè)片段都要與其他所有片段進(jìn)行"對(duì)話",這意味著要進(jìn)行近3億次的計(jì)算。這就像是在一個(gè)17,000人的聚會(huì)上,每個(gè)人都要和其他所有人握手交談一樣復(fù)雜。
這種復(fù)雜性主要來(lái)源于AI模型中一個(gè)叫做"注意力機(jī)制"的核心組件。用烹飪來(lái)比喻,注意力機(jī)制就像是大廚在準(zhǔn)備一道復(fù)雜菜肴時(shí),需要同時(shí)關(guān)注鍋里的每一種食材,判斷它們之間的搭配關(guān)系。在AI視頻生成中,模型需要理解畫面中每個(gè)像素點(diǎn)與其他所有像素點(diǎn)的關(guān)系,這個(gè)過(guò)程的計(jì)算量會(huì)隨著畫面分辨率的增加而呈指數(shù)級(jí)增長(zhǎng)。
一、傳統(tǒng)優(yōu)化方法的困境
面對(duì)這個(gè)計(jì)算瓶頸,研究者們已經(jīng)嘗試了很多解決方案,主要分為兩大類:稀疏化技術(shù)和量化技術(shù)。稀疏化技術(shù)類似于在那個(gè)17,000人的聚會(huì)中,讓每個(gè)人只與部分重要的人交談,而不是和所有人都聊天。量化技術(shù)則像是簡(jiǎn)化對(duì)話內(nèi)容,用更簡(jiǎn)單的方式表達(dá)相同的意思。
然而,當(dāng)研究團(tuán)隊(duì)深入分析這些傳統(tǒng)方法時(shí),發(fā)現(xiàn)了一個(gè)令人困惑的現(xiàn)象。在文本處理的AI模型中,這些技術(shù)工作得很好,但在視覺(jué)生成模型中卻經(jīng)常表現(xiàn)不佳。這就像是同樣的社交策略在不同的文化背景下效果完全不同。
通過(guò)大量的實(shí)驗(yàn)和分析,研究團(tuán)隊(duì)終于找到了問(wèn)題的根源:視覺(jué)AI模型中的"注意力模式"與文本模型完全不同。在文本模型中,信息的關(guān)注點(diǎn)通常比較集中和規(guī)律,就像閱讀一本書時(shí),我們的注意力主要集中在當(dāng)前句子和相鄰的幾個(gè)句子上。但在視覺(jué)模型中,注意力模式變得極其復(fù)雜和分散,呈現(xiàn)出各種奇特的幾何圖案:有些像斜線條紋,有些像方格子,還有些像復(fù)雜的馬賽克。
這種復(fù)雜多樣的注意力模式給傳統(tǒng)優(yōu)化方法帶來(lái)了巨大挑戰(zhàn)。稀疏化技術(shù)難以設(shè)計(jì)出適合所有模式的"篩選規(guī)則",就像試圖用一個(gè)固定的模板去裁剪各種不同形狀的布料,總會(huì)有不合適的地方。量化技術(shù)則面臨"數(shù)據(jù)不均勻"的問(wèn)題,在同一個(gè)處理單元中,有些數(shù)值可能非常大,有些卻很小,這種巨大的差異導(dǎo)致信息壓縮時(shí)損失嚴(yán)重。
二、突破性的解決思路:重新排列的智慧
面對(duì)這些挑戰(zhàn),清華大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)全新的思路:既然傳統(tǒng)方法難以適應(yīng)復(fù)雜多樣的注意力模式,為什么不試試重新整理這些模式,讓它們變得更加規(guī)整和易于處理呢?
這個(gè)想法的靈感來(lái)自于對(duì)視覺(jué)信息處理本質(zhì)的深入思考。研究團(tuán)隊(duì)發(fā)現(xiàn),雖然AI模型中的注意力模式看起來(lái)千變?nèi)f化,但它們都有一個(gè)共同點(diǎn):都反映了視覺(jué)信息的"局部聚集"特性。簡(jiǎn)單來(lái)說(shuō),就是相鄰或相關(guān)的視覺(jué)元素傾向于相互關(guān)注,就像馬賽克畫中相鄰的小塊通常顏色相近一樣。
問(wèn)題在于,當(dāng)AI模型處理三維視頻信息時(shí),原本在空間中相鄰的信息被"拉平"成一維序列,就像把一個(gè)魔方拆散后排成一條線。這種轉(zhuǎn)換破壞了原有的鄰近關(guān)系,導(dǎo)致那些本應(yīng)相鄰的信息在處理序列中被分散到很遠(yuǎn)的位置。
基于這個(gè)洞察,研究團(tuán)隊(duì)設(shè)計(jì)了一種叫做"模式感知重排序"(PARO)的技術(shù)。這種技術(shù)的核心思想是通過(guò)重新排列信息的順序,讓那些需要相互關(guān)注的信息重新聚集在一起,從而將復(fù)雜分散的注意力模式轉(zhuǎn)化為規(guī)整的塊狀模式。
具體來(lái)說(shuō),對(duì)于視頻這種三維信息(幀數(shù)、高度、寬度),存在6種不同的排列方式,就像整理書架時(shí)可以按照作者、年份、主題等不同方式分類一樣。研究團(tuán)隊(duì)開(kāi)發(fā)了一套評(píng)估系統(tǒng),能夠?yàn)槊總€(gè)注意力頭(AI模型的處理單元)選擇最適合的排列方式。這個(gè)選擇過(guò)程考慮了兩個(gè)關(guān)鍵因素:稀疏化的友好程度和量化的友好程度。
三、定制化的優(yōu)化策略
有了重新整理后的規(guī)整注意力模式,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了專門針對(duì)這種模式的優(yōu)化技術(shù)。這就像為整理好的書架設(shè)計(jì)專門的管理系統(tǒng)一樣。
在稀疏化方面,團(tuán)隊(duì)采用了"靜態(tài)稀疏"策略,這意味著注意力的篩選規(guī)則是預(yù)先確定的,而不是在運(yùn)行時(shí)動(dòng)態(tài)生成的。這種方法的優(yōu)勢(shì)是避免了在線計(jì)算的開(kāi)銷,就像提前準(zhǔn)備好菜譜,做飯時(shí)就不需要臨時(shí)思考每個(gè)步驟。
為了進(jìn)一步提高效率,研究團(tuán)隊(duì)還開(kāi)發(fā)了"時(shí)間步驟感知的稀疏掩碼共享"技術(shù)。他們發(fā)現(xiàn),在視頻生成的不同階段,注意力模式的變化有一定規(guī)律:早期階段變化較大,后期階段趨于穩(wěn)定?;谶@個(gè)發(fā)現(xiàn),他們?yōu)榍鞍攵螘r(shí)間步驟設(shè)計(jì)了獨(dú)特的稀疏掩碼,而后半段則共享同一個(gè)掩碼,這樣既保證了效果,又減少了存儲(chǔ)開(kāi)銷。
在量化方面,團(tuán)隊(duì)采用了"塊對(duì)齊量化"策略。傳統(tǒng)的量化方法通常按行或列進(jìn)行處理,但這在塊狀注意力模式中會(huì)導(dǎo)致嚴(yán)重的信息不均勻問(wèn)題。新方法將量化單位改為64×64的方塊,每個(gè)方塊內(nèi)的數(shù)據(jù)經(jīng)過(guò)重排序后變得更加均勻,大大減少了量化誤差。
四、令人驚嘆的實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在多個(gè)主流視頻生成模型上測(cè)試了他們的技術(shù),包括CogVideoX、Wan和Flux等。實(shí)驗(yàn)結(jié)果令人印象深刻,可以說(shuō)是在效率和質(zhì)量之間找到了一個(gè)近乎完美的平衡點(diǎn)。
在視頻生成任務(wù)中,使用PAROAttention技術(shù)的模型能夠在保持幾乎相同的視覺(jué)質(zhì)量的情況下,將計(jì)算密度降低到原來(lái)的20%-30%,數(shù)據(jù)精度從16位浮點(diǎn)數(shù)降低到8位甚至4位整數(shù),整體推理速度提升了1.9到2.7倍。這就像是把一臺(tái)耗油的大卡車改造成了高效的混合動(dòng)力車,不僅速度更快,燃料消耗也大大降低。
更具體地說(shuō),在生成720P分辨率、6秒長(zhǎng)度的視頻時(shí),原本需要處理17,000個(gè)信息單元的完整注意力計(jì)算,現(xiàn)在只需要處理其中的30%,而生成質(zhì)量幾乎沒(méi)有下降。在一些關(guān)鍵指標(biāo)上,比如文本-視頻匹配度、視覺(jué)質(zhì)量評(píng)分等,優(yōu)化后的模型表現(xiàn)甚至略有提升。
在圖像生成任務(wù)中,技術(shù)的表現(xiàn)同樣出色。1024×1024分辨率的圖像生成速度提升了近2倍,而生成的圖像在專業(yè)評(píng)估指標(biāo)上與原始模型幾乎沒(méi)有差異。
五、技術(shù)創(chuàng)新的深層價(jià)值
這項(xiàng)研究的價(jià)值不僅僅在于提升了計(jì)算效率,更重要的是它為整個(gè)AI視覺(jué)生成領(lǐng)域提供了一種全新的思考方式。傳統(tǒng)的優(yōu)化思路是"適應(yīng)現(xiàn)有模式",就像為各種不同形狀的物品設(shè)計(jì)專門的包裝盒。而PAROAttention提出的思路是"重塑模式本身",就像把各種形狀的物品重新整理成標(biāo)準(zhǔn)形狀,然后用統(tǒng)一的包裝方式處理。
這種思路的轉(zhuǎn)變具有深遠(yuǎn)的意義。它揭示了視覺(jué)AI模型中注意力機(jī)制的本質(zhì)規(guī)律,為未來(lái)的模型設(shè)計(jì)和優(yōu)化提供了新的指導(dǎo)原則。同時(shí),這種重排序的思想也可以擴(kuò)展到其他類型的AI模型中,比如多模態(tài)大語(yǔ)言模型、視覺(jué)感知模型等。
從工程實(shí)現(xiàn)的角度來(lái)看,PAROAttention技術(shù)具有很好的通用性和易用性。它不需要重新訓(xùn)練模型,可以直接應(yīng)用到現(xiàn)有的模型中,就像給汽車安裝一個(gè)提高燃油效率的裝置,不需要更換整個(gè)引擎。研究團(tuán)隊(duì)還開(kāi)發(fā)了相應(yīng)的GPU計(jì)算內(nèi)核,確保理論上的優(yōu)勢(shì)能夠在實(shí)際硬件上得到體現(xiàn)。
六、面向未來(lái)的技術(shù)展望
當(dāng)然,任何技術(shù)都有其局限性和改進(jìn)空間。目前的PAROAttention主要針對(duì)的是后訓(xùn)練優(yōu)化,也就是在模型已經(jīng)訓(xùn)練好之后的效率提升。未來(lái)的研究方向可能包括將這種重排序思想融入到模型的訓(xùn)練過(guò)程中,讓AI模型從一開(kāi)始就學(xué)會(huì)更高效的注意力模式。
另外,目前的重排序策略相對(duì)簡(jiǎn)單,主要是在有限的幾種排列方式中選擇。未來(lái)可能會(huì)開(kāi)發(fā)更復(fù)雜、更自適應(yīng)的重排序算法,能夠針對(duì)不同類型的視覺(jué)內(nèi)容設(shè)計(jì)專門的排列策略。
從應(yīng)用前景來(lái)看,這項(xiàng)技術(shù)的影響可能會(huì)很快體現(xiàn)在我們的日常生活中。隨著AI視頻生成技術(shù)的普及,越來(lái)越多的內(nèi)容創(chuàng)作者、教育工作者、娛樂(lè)產(chǎn)業(yè)從業(yè)者都在使用這類工具。PAROAttention技術(shù)的推廣應(yīng)用,意味著這些用戶能夠以更低的成本、更快的速度生成高質(zhì)量的視頻內(nèi)容,從而降低了創(chuàng)意表達(dá)的門檻。
說(shuō)到底,這項(xiàng)研究的核心價(jià)值在于它提醒我們,面對(duì)復(fù)雜的技術(shù)挑戰(zhàn)時(shí),有時(shí)候最好的解決方案不是設(shè)計(jì)更復(fù)雜的工具去適應(yīng)復(fù)雜性,而是重新審視問(wèn)題本身,找到簡(jiǎn)化復(fù)雜性的方法。正如那句古老的智慧所說(shuō):"最聰明的解決方案往往是最簡(jiǎn)單的那一個(gè)。"清華大學(xué)團(tuán)隊(duì)的這項(xiàng)研究,正是這種智慧在AI技術(shù)領(lǐng)域的完美體現(xiàn)。
對(duì)于普通讀者來(lái)說(shuō),這項(xiàng)技術(shù)的意義在于它讓AI視頻生成變得更加普及和易用。在不久的將來(lái),我們可能會(huì)看到更多平價(jià)的AI視頻創(chuàng)作工具,讓每個(gè)人都能成為視頻創(chuàng)作者。而對(duì)于科研工作者來(lái)說(shuō),這項(xiàng)研究開(kāi)啟了一個(gè)新的研究方向,可能會(huì)催生更多創(chuàng)新性的AI優(yōu)化技術(shù)。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)論文的arXiv鏈接arXiv:2506.16054v1查閱完整的研究報(bào)告,其中包含了詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)、算法描述和代碼實(shí)現(xiàn)等信息。
Q&A
Q1:PAROAttention技術(shù)會(huì)不會(huì)影響AI生成視頻的質(zhì)量? A:不會(huì)。實(shí)驗(yàn)結(jié)果顯示,PAROAttention在大幅提升計(jì)算效率的同時(shí),生成視頻的質(zhì)量幾乎沒(méi)有下降,在一些評(píng)估指標(biāo)上甚至略有提升。這是因?yàn)樵摷夹g(shù)并沒(méi)有簡(jiǎn)單地刪除信息,而是通過(guò)重新組織信息來(lái)提高處理效率。
Q2:這種技術(shù)是不是只適用于特定的AI模型? A:不是的。PAROAttention具有很好的通用性,可以應(yīng)用到多種主流的視覺(jué)生成模型中,比如CogVideoX、Wan、Flux等。而且它不需要重新訓(xùn)練模型,可以直接集成到現(xiàn)有系統(tǒng)中,這大大降低了應(yīng)用門檻。
Q3:普通用戶什么時(shí)候能體驗(yàn)到這種技術(shù)帶來(lái)的改進(jìn)? A:雖然這項(xiàng)技術(shù)目前還處于學(xué)術(shù)研究階段,但考慮到其實(shí)用性和易于集成的特點(diǎn),預(yù)計(jì)很快就會(huì)被各大AI視頻生成平臺(tái)采用。用戶可能會(huì)發(fā)現(xiàn)視頻生成速度明顯加快,同時(shí)對(duì)硬件的要求降低,讓更多人能夠使用高質(zhì)量的AI視頻生成服務(wù)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。