這項由卡內基梅隆大學的Lijie Yang、Zhihao Zhang等研究者,聯(lián)合普林斯頓大學和微軟研究院共同完成的突破性研究,發(fā)表于2025年8月的arXiv預印本平臺。有興趣深入了解的讀者可以通過論文鏈接https://arxiv.org/abs/2508.07101訪問完整論文,代碼已開源于GitHub平臺。
當我們在手機上使用ChatGPT或Claude等AI助手解決數(shù)學題時,有沒有想過一個問題:為什么AI回答一個簡單問題需要生成那么多文字,而且速度還這么慢?這就像請一位數(shù)學老師解一道題,結果他要在黑板上寫滿幾十頁紙才能給出答案,不僅費時費力,還消耗大量資源。
這種現(xiàn)象在AI領域被稱為"推理任務",就像人類思考復雜問題時需要在腦海中進行多步驟分析一樣。最新的AI推理模型,比如DeepSeek-R1、OpenAI的o3系列等,為了保證準確性,經(jīng)常需要生成幾萬個字符來完成一次推理過程。這就好比你問朋友"2加2等于幾",朋友卻要給你寫一篇論文來解釋答案。
問題的關鍵在于,這些AI模型在處理推理任務時,就像一個健忘的學生做數(shù)學題——每寫一行都要重新翻閱前面所有內容來確認自己沒有遺漏重要信息。在計算機科學中,這被稱為"注意力機制",模型需要關注之前生成的所有內容來保證推理的連貫性。但是,當推理過程變得很長時,這種"全面關注"就變成了巨大的計算負擔。
就像一個人背著越來越重的行李箱旅行一樣,AI模型處理的內容越多,計算速度就越慢,消耗的資源也越多。以DeepSeek-R1-Distill-Llama-8B模型為例,在一塊NVIDIA RTX A5000顯卡上生成32768個字符來解決一道AIME數(shù)學競賽題目,竟然需要超過20分鐘的時間。這樣的速度顯然無法滿足實際應用的需求。
為了解決這個問題,計算機科學家們開發(fā)了"稀疏注意力"技術,就像教會健忘學生使用重點筆記一樣——不需要每次都翻閱所有內容,只要關注最重要的部分就可以了?,F(xiàn)有的稀疏注意力方法主要分為兩種:一種是"選擇式"方法,保留完整的記憶但只關注重要部分;另一種是"淘汰式"方法,直接丟棄不重要的信息來節(jié)省空間。
然而,現(xiàn)有的稀疏注意力方法在處理復雜推理任務時遇到了一個致命問題:準確性大幅下降。這就像學生做數(shù)學題時過度簡化筆記,雖然速度快了,但容易遺漏關鍵步驟導致答案錯誤。研究發(fā)現(xiàn),即使是表現(xiàn)最好的TidalDecode方法,在保持99.9%準確性的檢索任務上表現(xiàn)出色,但在AIME-24推理任務上必須將保留的信息比例從99.9%降低到50%以下才能維持準確性。這種性能下降在長時間推理過程中會不斷積累,最終導致推理質量嚴重受損。
面對這個挑戰(zhàn),卡內基梅隆大學的研究團隊決定深入研究AI模型在推理過程中的注意力分布規(guī)律,試圖找到更好的解決方案。他們的發(fā)現(xiàn)顛覆了傳統(tǒng)認知,為稀疏注意力技術帶來了革命性突破。
一、發(fā)現(xiàn)AI推理的兩大規(guī)律:空間局部性和時間局部性
研究團隊通過對Qwen3-8B模型在AIME數(shù)學競賽任務上的詳細分析,發(fā)現(xiàn)了AI推理過程中兩個重要的注意力分布規(guī)律,這些發(fā)現(xiàn)徹底改變了我們對AI模型工作方式的理解。
第一個發(fā)現(xiàn)是"空間局部性"現(xiàn)象。傳統(tǒng)觀點認為,AI模型的不同注意力頭(attention heads)就像不同的專家,各自負責處理特定類型的信息,因此需要關注不同的內容。但研究團隊發(fā)現(xiàn),在推理任務中,這些"專家"的關注點實際上高度重合。這就像一群醫(yī)生會診時,雖然每個醫(yī)生有自己的專業(yè)領域,但在診斷某個具體病例時,他們往往會關注相同的關鍵癥狀和檢查結果。
具體來說,研究人員分析了模型在處理2萬個字符長度的推理序列時,32個注意力頭對前4000個最重要字符的選擇情況。結果顯示,在分組查詢注意力(GQA)架構中,同一組內的注意力頭選擇的重要字符有著驚人的重疊度。更令人意外的是,跨組之間也存在大量重疊,特別是對于最近生成的字符,幾乎所有注意力頭都會一致地認為它們很重要。
這一發(fā)現(xiàn)挑戰(zhàn)了現(xiàn)有稀疏注意力方法的基本假設?,F(xiàn)有方法通常為每個注意力頭單獨選擇重要字符,就像讓每個醫(yī)生獨立寫診斷報告一樣,導致重復工作和效率低下。實際上,如果能夠統(tǒng)一這些"專家意見",不僅可以減少重復,還能提高選擇的準確性。
第二個發(fā)現(xiàn)是"時間局部性"現(xiàn)象,也就是最近生成內容的持續(xù)重要性。研究團隊觀察到,在推理的每個步驟中,模型都會持續(xù)高度關注最近幾步生成的內容。這種現(xiàn)象完美符合人類推理的邏輯:當我們解決復雜問題時,每一步都建立在前幾步結論的基礎上。
更有趣的是,研究人員發(fā)現(xiàn)這個"最近窗口"的大小與總體關注范圍的比例在整個推理過程中保持相對穩(wěn)定。這就像人類做數(shù)學題時,無論題目多復雜,我們總是會將大約四分之一的注意力放在剛剛完成的幾個步驟上,剩下的注意力才分配給更早的內容。這種穩(wěn)定的比例關系為設計更好的注意力機制提供了重要線索。
這兩個發(fā)現(xiàn)不僅揭示了AI推理的內在規(guī)律,更為開發(fā)新的稀疏注意力技術奠定了理論基礎。傳統(tǒng)方法忽視了這些規(guī)律,導致效率和準確性都不理想。而基于這些發(fā)現(xiàn)設計的新方法,有望實現(xiàn)效率和準確性的雙重提升。
二、LessIsMore:基于規(guī)律的智能注意力管理系統(tǒng)
基于對AI推理規(guī)律的深入理解,研究團隊開發(fā)了一套名為"LessIsMore"的創(chuàng)新注意力管理系統(tǒng)。這個名字完美概括了其核心理念:通過更智能的方式關注更少的內容,反而能獲得更好的效果。
LessIsMore系統(tǒng)的設計哲學就像重新組織一個效率低下的辦公室。在傳統(tǒng)的稀疏注意力系統(tǒng)中,每個"部門"(注意力頭)都要維護自己的"重要文件夾"(關鍵字符集),導致大量重復工作和資源浪費。而LessIsMore采用了"統(tǒng)一文檔管理"的方式,讓所有部門共享一套精心篩選的重要文件。
系統(tǒng)的核心創(chuàng)新體現(xiàn)在兩個關鍵技術上。第一個是"統(tǒng)一注意力頭選擇"機制。這個機制的工作方式就像組織一次民主投票:首先讓每個注意力頭獨立選出它認為最重要的內容,然后將所有投票結果匯總,按照得票數(shù)排序,最終選出全局最重要的信息。這種方法不僅避免了重復選擇,還通過"集體智慧"提高了選擇的準確性。
在具體實現(xiàn)上,系統(tǒng)會為每個注意力頭分配相同的"投票權",讓它們各自選出認為重要的字符。然后,系統(tǒng)會統(tǒng)計每個字符獲得的總票數(shù),優(yōu)先選擇得票最多的字符。這種方法既尊重了不同注意力頭的"專業(yè)意見",又避免了各自為政導致的資源浪費。
第二個核心技術是"穩(wěn)定時間窗口"機制。基于時間局部性的發(fā)現(xiàn),系統(tǒng)會自動為最近生成的內容預留固定比例的關注資源。這就像在圖書館里專門設置一個"新書專區(qū)",確保讀者總能輕松找到最新的重要資料。
具體來說,系統(tǒng)會將總的注意力預算按照固定比例分為兩部分:75%分配給通過統(tǒng)一投票選出的歷史重要內容,25%專門留給最近生成的內容。這個比例是通過大量實驗確定的最優(yōu)配置,既保證了歷史信息的充分利用,又確保了推理過程的連貫性。
LessIsMore的工作流程就像一個高效的新聞編輯室。在每個"新聞周期"(解碼步驟)開始時,編輯室會進行兩種不同類型的工作:對于"重要新聞日"(選擇層),所有編輯都會參與評估和篩選重要信息,確定下一階段的關注重點;對于"常規(guī)工作日"(稀疏注意力層),編輯們只關注已經(jīng)確定的重點內容,專心進行深入報道。
這種層次化的設計極大提高了系統(tǒng)效率。選擇層負責"戰(zhàn)略決策",確定哪些信息值得關注;稀疏注意力層負責"戰(zhàn)術執(zhí)行",基于已定策略高效處理信息。兩種層次的合理搭配,既保證了決策質量,又提高了執(zhí)行效率。
值得注意的是,LessIsMore是一個"免訓練"的解決方案,這意味著它可以直接應用到現(xiàn)有的AI模型上,無需重新訓練或調整模型參數(shù)。這就像給現(xiàn)有的汽車安裝一個智能導航系統(tǒng),不需要改造發(fā)動機就能提高行駛效率。這種設計大大降低了技術應用的門檻和成本。
三、實驗驗證:在保持準確性的同時顯著提升效率
為了驗證LessIsMore系統(tǒng)的實際效果,研究團隊進行了全面的實驗測試,涵蓋了多種不同難度的推理任務和不同規(guī)模的AI模型。實驗設計就像一場嚴格的汽車性能測試,不僅要在理想的高速公路上測試最高速度,還要在復雜的城市道路和惡劣天氣條件下驗證實際表現(xiàn)。
實驗選擇了兩種廣泛使用的推理模型:Qwen3-8B和Qwen3-4B,這兩個模型都專門針對推理任務進行了優(yōu)化訓練。測試任務包括了從極具挑戰(zhàn)性的AIME數(shù)學競賽題目,到相對簡單的MATH500和GPQA-Diamond推理題目,確保了測試結果的全面性和可靠性。
在最具挑戰(zhàn)性的AIME-24任務上,LessIsMore展現(xiàn)出了令人驚嘆的性能。當系統(tǒng)只關注2000個最重要字符時(這意味著忽略了大部分歷史信息),它仍然保持了73.75%的準確率,幾乎與完全注意力的74.48%準確率持平。相比之下,其他先進的稀疏注意力方法在相同條件下的表現(xiàn)要差得多:Quest方法只達到18.15%的準確率,TidalDecode為53.33%,即使需要重新訓練的SeerAttention-r方法也只有58.23%。
更令人印象深刻的是,隨著可用注意力資源的增加,LessIsMore的優(yōu)勢變得更加明顯。當關注字符數(shù)量增加到4000個時,LessIsMore的準確率達到75.83%,甚至略微超過了完全注意力基線。這種現(xiàn)象被研究團隊稱為"智能篩選紅利"——通過更精確的信息篩選,模型能夠更專注于真正重要的內容,有時甚至比"什么都看"的方式效果更好。
除了準確性提升,LessIsMore在計算效率方面的改進同樣顯著。研究團隊使用LLama-3.1-8B模型在NVIDIA RTX A5000顯卡上進行了詳細的性能測試。結果顯示,即使在最嚴苛的測試條件下(僅使用2K字符預算),LessIsMore仍然實現(xiàn)了1.10倍的解碼速度提升,同時保持了近乎完美的準確性。
更重要的是,LessIsMore解決了困擾現(xiàn)有稀疏注意力方法的一個關鍵問題:推理長度的異常增長。傳統(tǒng)方法由于選擇不準確,往往導致AI模型需要生成更多內容才能得出正確答案,這反而降低了整體效率。LessIsMore通過提高選擇準確性,使得推理長度保持與完全注意力相近的水平,甚至在某些情況下還能縮短7%的生成長度。
在與其他先進方法的直接比較中,LessIsMore展現(xiàn)出了全面的優(yōu)勢。即使與需要6K字符預算的TidalDecode相比,LessIsMore使用更少的資源(2K字符預算)就能達到更好的效果。具體來說,LessIsMore實現(xiàn)了1.06倍的平均解碼加速,加上7%的生成長度縮短,最終獲得了1.13倍的端到端加速效果。
研究團隊還測試了LessIsMore技術的普適性,證明其核心原理可以應用到其他稀疏注意力框架上。實驗表明,無論是應用到單一解碼層還是所有解碼層,LessIsMore的統(tǒng)一選擇策略都能顯著提升注意力召回率,特別是在計算資源受限的情況下優(yōu)勢更加明顯。
四、深入分析:為什么"少即是多"真的有效
LessIsMore的成功并非偶然,而是基于對AI推理本質的深刻理解。為了解釋這種"反直覺"的效果,研究團隊進行了詳細的機制分析,就像解剖一只青蛙來理解生物系統(tǒng)的工作原理。
首先,研究人員深入分析了"統(tǒng)一選擇"相比"分散選擇"的優(yōu)勢。傳統(tǒng)方法讓每個注意力頭獨立選擇重要信息,就像讓一群人各自獨立投票選擇旅游目的地,結果往往是每個人都選擇了不同的地方,最終無法形成統(tǒng)一的行動方案。而LessIsMore的統(tǒng)一選擇機制更像是先讓大家各自提名,然后集體投票決定,這樣既考慮了個體偏好,又能形成集體共識。
實驗數(shù)據(jù)清楚地展示了這種優(yōu)勢。當研究團隊比較三種不同的信息聚合策略時發(fā)現(xiàn),隨機選擇一個注意力頭的結果作為全局選擇的方法效果最差,為每個注意力頭單獨維護信息集合的方法稍好一些,而LessIsMore的統(tǒng)一聚合方法效果最佳。特別是在計算資源受限的情況下,這種差距變得更加明顯。
時間窗口機制的有效性同樣得到了詳細驗證。研究團隊測試了不同時間窗口比例對系統(tǒng)性能的影響,發(fā)現(xiàn)存在一個最優(yōu)的配置區(qū)間。當時間窗口比例過?。ū热?%)時,系統(tǒng)雖然能更多地關注歷史信息,但失去了推理的連貫性;當比例過大(比如100%,即只關注最近內容)時,系統(tǒng)雖然保持了連貫性,但缺乏足夠的歷史背景信息。
實驗結果顯示,25%、50%和75%的時間窗口比例都能讓系統(tǒng)成功解決復雜的AIME數(shù)學題,但25%的配置能夠在整個推理過程中保持最高的注意力召回率。這個發(fā)現(xiàn)證實了研究團隊最初觀察到的規(guī)律:AI模型在推理時自然地將約四分之一的注意力分配給最近的內容。
另一個重要發(fā)現(xiàn)是LessIsMore對推理效率的積極影響。傳統(tǒng)稀疏注意力方法經(jīng)常導致推理長度異常增長,這是因為不準確的信息選擇迫使模型進行更多的"迂回推理"。這就像走路時看不清路標,結果走了很多彎路才到達目的地。LessIsMore通過提供更準確的"路標"(重要信息),幫助模型更直接地進行推理。
實驗數(shù)據(jù)支持了這一解釋。在AIME-24任務上,當其他方法需要生成17.4K到30.0K個字符時,LessIsMore只需要15.8K個字符就能達到更好的結果。這種效率提升不僅體現(xiàn)在單步解碼速度上,更重要的是體現(xiàn)在整個推理過程的總體效率上。
研究團隊還分析了LessIsMore在不同類型任務上的適應性。結果顯示,該方法在各種難度的推理任務上都能保持一致的優(yōu)勢,這說明其發(fā)現(xiàn)的規(guī)律具有普遍性。無論是需要深度邏輯推理的數(shù)學競賽題,還是需要知識整合的科學問答題,LessIsMore都能有效提升性能。
這些分析結果表明,LessIsMore的成功不是偶然的工程技巧,而是基于對AI推理本質規(guī)律的準確把握。通過遵循這些規(guī)律而非對抗它們,系統(tǒng)能夠實現(xiàn)效率和準確性的雙重提升。
五、技術實現(xiàn)細節(jié):從理論到實踐的完美轉化
將LessIsMore的理論優(yōu)勢轉化為實際可用的系統(tǒng),需要解決許多工程技術挑戰(zhàn)。研究團隊不僅提供了完整的算法描述,還開發(fā)了針對現(xiàn)代GPU架構優(yōu)化的高效實現(xiàn),確保理論優(yōu)勢能夠在實際應用中得到充分體現(xiàn)。
LessIsMore的核心算法采用了分層設計架構,就像建造一棟高效的辦公大樓需要合理規(guī)劃不同樓層的功能一樣。系統(tǒng)將模型的各個解碼層分為三種類型:完全注意力層、令牌選擇層和稀疏注意力層。這種分層設計既保證了關鍵決策的質量,又最大化了整體執(zhí)行效率。
在完全注意力層,系統(tǒng)執(zhí)行傳統(tǒng)的全面注意力計算,確保模型能夠充分理解輸入信息并建立良好的推理基礎。這就像建筑的地基部分,必須足夠堅固才能支撐整個結構。實驗表明,保留前兩層作為完全注意力層是最優(yōu)配置,既能保證推理質量,又能最大化稀疏化的效益。
令牌選擇層是整個系統(tǒng)的"大腦",負責執(zhí)行統(tǒng)一選擇算法。在這些層中,系統(tǒng)首先計算完整的注意力分數(shù)矩陣,然后讓每個注意力頭獨立選擇其認為最重要的令牌。接下來,系統(tǒng)將所有頭部的選擇結果進行聚合和排序,選出全局最重要的令牌集合。最后,系統(tǒng)為這個集合添加最近生成的令牌,形成最終的注意力目標集合。
稀疏注意力層負責高效執(zhí)行,只對選定的令牌集合進行注意力計算。這種設計大大減少了計算量和內存訪問,就像在圖書館里只查閱已經(jīng)標記為重要的書籍,而不是每次都瀏覽整個書庫。
為了充分發(fā)揮硬件性能,研究團隊開發(fā)了專門針對分組查詢注意力(GQA)架構的定制化計算內核?,F(xiàn)代推理模型廣泛采用GQA來平衡計算效率和模型性能,但這也給稀疏注意力的實現(xiàn)帶來了新的挑戰(zhàn)。傳統(tǒng)的稀疏注意力實現(xiàn)往往無法充分利用GQA的特性,導致理論上的效率提升難以在實際硬件上實現(xiàn)。
LessIsMore的定制內核巧妙地利用了GQA中多個查詢頭共享鍵值對的特性。在傳統(tǒng)實現(xiàn)中,每個查詢頭都需要獨立訪問其選擇的鍵值對,導致大量重復的內存訪問。而LessIsMore通過統(tǒng)一選擇,使得所有查詢頭訪問相同的鍵值對集合,大大減少了內存帶寬需求并提高了緩存利用率。
內核優(yōu)化還包括了高效的令牌聚合算法實現(xiàn)。雖然令牌聚合在概念上很簡單,但在GPU上高效實現(xiàn)卻需要仔細的算法設計和內存管理。研究團隊使用了并行排序和去重算法,并通過合理的內存布局減少了數(shù)據(jù)傳輸開銷。
系統(tǒng)的另一個重要特性是其模塊化設計。LessIsMore被設計為一個可插拔的模塊,能夠輕松集成到現(xiàn)有的推理框架中。無論是使用HuggingFace Transformers、FlashInfer還是其他推理框架,開發(fā)者都可以通過簡單的配置修改來啟用LessIsMore優(yōu)化。
實際部署中,系統(tǒng)提供了靈活的參數(shù)配置選項。用戶可以根據(jù)具體的硬件條件和性能需求,調整令牌預算、時間窗口比例、選擇層位置等關鍵參數(shù)。系統(tǒng)還提供了自動調優(yōu)功能,能夠根據(jù)運行時的性能指標自動調整部分參數(shù),實現(xiàn)最佳的效率-準確性平衡。
性能監(jiān)控和調試工具也是系統(tǒng)的重要組成部分。LessIsMore提供了詳細的性能分析接口,允許開發(fā)者實時監(jiān)控注意力召回率、計算延遲、內存使用等關鍵指標。這些工具不僅有助于系統(tǒng)調優(yōu),也為進一步的研究提供了寶貴的數(shù)據(jù)支持。
六、影響與意義:開啟AI推理效率新時代
LessIsMore的成功不僅僅是一個技術優(yōu)化的成果,更代表了AI推理領域思維方式的根本轉變。這項研究的意義遠超其直接的性能提升,為整個人工智能領域帶來了深遠的啟示。
從技術發(fā)展的角度來看,LessIsMore證明了"基于原理的工程"相比"基于試驗的優(yōu)化"具有更大的潛力。過去的稀疏注意力研究大多采用啟發(fā)式方法,通過不斷試驗和調整來尋找更好的解決方案。而LessIsMore首先深入研究了AI推理的內在規(guī)律,然后基于這些規(guī)律設計解決方案。這種方法不僅獲得了更好的結果,還提供了可解釋的成功原理。
這種方法論的轉變對整個AI研究領域具有重要意義。它提醒研究人員,與其盲目地應用復雜的技術手段,不如先深入理解問題的本質。正如物理學家通過理解自然規(guī)律來設計更好的工程方案一樣,AI研究也應該更多地關注對智能行為本質的理解。
從實際應用的角度來看,LessIsMore為AI推理模型的大規(guī)模部署掃除了重要障礙。當前的推理模型雖然能力強大,但巨大的計算需求限制了它們的普及應用。LessIsMore通過顯著降低計算成本,使得高質量的AI推理服務能夠在更廣泛的硬件平臺上運行,從昂貴的數(shù)據(jù)中心擴展到普通的消費級設備。
這種技術民主化具有深遠的社會意義。當AI推理能力不再受限于昂貴的計算資源時,更多的個人、小型企業(yè)和發(fā)展中地區(qū)的機構將能夠享受到先進AI技術的好處。這有助于縮小數(shù)字鴻溝,推動技術普惠發(fā)展。
LessIsMore也為AI模型的設計理念帶來了新的思考。傳統(tǒng)觀點認為,更復雜、更大規(guī)模的模型必然帶來更好的性能,但LessIsMore表明,通過更智能的信息處理方式,較小的模型也可能達到甚至超越大模型的效果。這種"效率優(yōu)先"的設計理念可能會引發(fā)AI架構設計的新一輪革新。
從環(huán)境可持續(xù)性的角度來看,LessIsMore的貢獻同樣不容忽視。AI訓練和推理的能耗已經(jīng)成為一個嚴重的環(huán)境問題,特別是隨著模型規(guī)模的不斷增長。通過顯著減少計算需求,LessIsMore為構建更加環(huán)保的AI系統(tǒng)提供了可能。雖然單個應用的能耗節(jié)省看起來有限,但當這種技術被廣泛應用時,累積的環(huán)境效益將是巨大的。
研究的開源特性也值得特別關注。研究團隊不僅公開了完整的論文和實現(xiàn)代碼,還提供了詳細的技術文檔和使用指南。這種開放的態(tài)度加速了技術的傳播和改進,使得更多研究人員和開發(fā)者能夠基于這一成果繼續(xù)創(chuàng)新。
LessIsMore的成功還驗證了跨機構合作在解決復雜技術問題方面的價值。這項研究匯集了來自卡內基梅隆大學、普林斯頓大學和微軟研究院的專家,結合了學術界的理論深度和工業(yè)界的實踐經(jīng)驗。這種合作模式為未來的AI研究提供了良好的范例。
從長遠來看,LessIsMore所代表的研究方向可能會催生更多基于認知原理的AI優(yōu)化技術。隨著我們對人工智能和人類智能共同原理的理解不斷加深,類似的"原理導向"優(yōu)化方法可能會在AI的各個領域開花結果,推動整個人工智能技術向著更加高效、可解釋和可持續(xù)的方向發(fā)展。
當然,任何技術都有其局限性,LessIsMore也不例外。研究團隊坦誠地討論了當前方法的限制和未來改進方向。比如,固定的時間窗口比例可能不是所有任務的最優(yōu)選擇,未來需要開發(fā)自適應調整機制。又比如,當前的實現(xiàn)主要針對GQA架構進行了優(yōu)化,對其他注意力架構的支持還需要進一步完善。
說到底,LessIsMore的真正價值不僅在于其直接的技術貢獻,更在于它所體現(xiàn)的研究理念和方法論。它告訴我們,在追求技術突破的道路上,深入理解問題本質往往比盲目增加復雜性更有效。這個樸素而深刻的道理,不僅適用于AI研究,也適用于科學研究的各個領域。通過這種"少即是多"的智慧,我們或許能夠找到通向更加智能、高效和可持續(xù)未來的道路。
Q&A
Q1:LessIsMore是什么?它能解決AI推理的什么問題?
A:LessIsMore是由卡內基梅隆大學等機構開發(fā)的AI推理加速技術。它主要解決當前AI模型在處理復雜推理任務時速度慢、資源消耗大的問題。通過智能選擇關鍵信息而非關注所有內容,LessIsMore能讓AI推理速度提升1.1倍,同時保持甚至提高準確性。
Q2:為什么LessIsMore能做到"關注更少內容卻效果更好"?
A:LessIsMore基于兩個重要發(fā)現(xiàn):AI模型的不同"專家"在推理時實際關注相同的重要信息,以及模型總是持續(xù)關注最近生成的內容。基于這些規(guī)律,LessIsMore統(tǒng)一管理所有"專家"的關注點,避免重復工作,同時專門為最近內容預留資源,從而實現(xiàn)更精準高效的信息處理。
Q3:普通用戶什么時候能用上LessIsMore技術?
A:LessIsMore已經(jīng)開源,開發(fā)者可以立即使用。對于普通用戶,當AI服務提供商采用這項技術后,就能體驗到更快的AI推理速度和更低的使用成本。由于LessIsMore不需要重新訓練模型就能應用到現(xiàn)有AI系統(tǒng)中,預計很快就會在各種AI應用中普及。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。