這項(xiàng)由高通AI研究院的Raghavv Goel和Mingu Lee領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)表于2025年6月的IMCL 2025高效基礎(chǔ)模型系統(tǒng)研討會(huì),有興趣深入了解的讀者可以通過(guò)arXiv:2506.22694v1訪問(wèn)完整論文。
當(dāng)我們與ChatGPT這樣的AI助手對(duì)話時(shí),背后其實(shí)發(fā)生著一場(chǎng)復(fù)雜的"思維接力賽"。每當(dāng)AI需要回答問(wèn)題時(shí),它不是一口氣想出所有答案,而是像我們?nèi)祟愐粯?,一個(gè)詞一個(gè)詞地思考和表達(dá)。為了讓這個(gè)過(guò)程更快,科學(xué)家們想出了一個(gè)巧妙的辦法:讓一個(gè)"小助手"先猜測(cè)可能的答案,然后由"大師傅"來(lái)檢查和確認(rèn)。這種方法叫做"推測(cè)性解碼",就像是讓學(xué)徒先試著做菜,師傅再品嘗和修正一樣。
然而,這個(gè)"小助手"雖然體積小,但它需要掌握的詞匯量卻和"大師傅"一樣龐大。這就好比一個(gè)剛學(xué)會(huì)走路的孩子,卻要背誦一本十萬(wàn)詞匯的大字典。高通研究院的科學(xué)家們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在實(shí)際對(duì)話中,AI其實(shí)只會(huì)頻繁使用其中很小一部分詞匯,就像我們?nèi)粘A奶鞎r(shí),雖然認(rèn)識(shí)很多詞,但經(jīng)常說(shuō)的就那么幾百個(gè)。
研究團(tuán)隊(duì)通過(guò)分析Llama-3.2-3B-Instruct模型在功能調(diào)用任務(wù)上的表現(xiàn)發(fā)現(xiàn),在超過(guò)12萬(wàn)個(gè)詞匯中,只有15個(gè)詞匯被使用超過(guò)1萬(wàn)次,接下來(lái)的140個(gè)詞匯使用頻率在1千到1萬(wàn)次之間,而剩下的超過(guò)12萬(wàn)個(gè)詞匯幾乎很少被用到或根本沒(méi)有被使用。這種極度不均衡的使用模式為優(yōu)化提供了巨大的空間。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)名為"VOCABTRIM"的解決方案。簡(jiǎn)單來(lái)說(shuō),就是給AI的"小助手"制作一本"精簡(jiǎn)詞典",只包含那些最常用的詞匯。這就像是為一個(gè)專門負(fù)責(zé)日常對(duì)話的服務(wù)員準(zhǔn)備一本常用語(yǔ)手冊(cè),而不是讓他背誦整本百科全書。
一、發(fā)現(xiàn)問(wèn)題:AI的"詞匯負(fù)擔(dān)"
當(dāng)我們深入觀察現(xiàn)代AI語(yǔ)言模型的工作方式時(shí),會(huì)發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象。這些模型在生成文本時(shí),需要在每一步都考慮數(shù)以萬(wàn)計(jì)的可能詞匯選擇。對(duì)于像Llama 3這樣的先進(jìn)模型來(lái)說(shuō),它們的詞匯表包含了128,000個(gè)不同的詞匯單元。
在推測(cè)性解碼系統(tǒng)中,這種龐大的詞匯表成為了一個(gè)意想不到的負(fù)擔(dān)。推測(cè)性解碼的工作原理是讓一個(gè)較小的"草稿模型"先生成一些候選詞匯,然后由更大的"目標(biāo)模型"來(lái)驗(yàn)證這些選擇是否合適。這個(gè)過(guò)程可以大大加快AI的響應(yīng)速度,因?yàn)樾∧P瓦\(yùn)行更快,而大模型只需要做驗(yàn)證工作。
但是,即使草稿模型的主體部分很小,它的"語(yǔ)言建模頭"部分卻必須處理完整的詞匯表。語(yǔ)言建模頭就像是AI的"詞匯選擇器",負(fù)責(zé)從所有可能的詞匯中挑選最合適的下一個(gè)詞。這個(gè)組件通常通過(guò)一個(gè)線性投影層來(lái)實(shí)現(xiàn),將模型的內(nèi)部表示映射到詞匯空間的概率分布。
研究團(tuán)隊(duì)發(fā)現(xiàn),在一個(gè)只有314百萬(wàn)參數(shù)的草稿模型中,使用Llama 3的128K詞匯表時(shí),語(yǔ)言建模頭竟然占據(jù)了超過(guò)30%的總參數(shù)量。這意味著一個(gè)本來(lái)應(yīng)該輕量高效的小助手,卻背負(fù)著沉重的詞匯負(fù)擔(dān)。
更關(guān)鍵的是,在內(nèi)存受限的環(huán)境中(這在邊緣設(shè)備上很常見),這種龐大的語(yǔ)言建模頭會(huì)嚴(yán)重影響推理速度。由于現(xiàn)代GPU和處理器的內(nèi)存帶寬限制,訪問(wèn)這么多參數(shù)需要大量的內(nèi)存?zhèn)鬏敃r(shí)間,從而抵消了使用小模型的速度優(yōu)勢(shì)。
二、深入分析:詞匯使用的"二八定律"
為了驗(yàn)證他們的假設(shè),研究團(tuán)隊(duì)對(duì)實(shí)際的AI生成文本進(jìn)行了詳細(xì)分析。他們選擇了xLAM功能調(diào)用數(shù)據(jù)集,讓Llama-3.2-3B-Instruct模型在這個(gè)數(shù)據(jù)集上生成文本,然后統(tǒng)計(jì)每個(gè)詞匯的使用頻率。
分析結(jié)果令人印象深刻。在超過(guò)12萬(wàn)個(gè)可用詞匯中,使用頻率呈現(xiàn)出極度不平衡的分布。最高頻的15個(gè)詞匯被使用了超過(guò)1萬(wàn)次,這些通常是像"the"、"and"、"to"這樣的功能詞,以及一些常見的內(nèi)容詞。接下來(lái)的140個(gè)詞匯使用頻率在1千到1萬(wàn)次之間,這些可能包括一些專業(yè)術(shù)語(yǔ)和中等頻率的詞匯。
然而,剩下的12萬(wàn)多個(gè)詞匯中,絕大部分很少被使用或者根本沒(méi)有被使用。這種分布符合自然語(yǔ)言中著名的"齊夫定律",即少數(shù)詞匯占據(jù)了大部分使用頻率。
這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要的優(yōu)化機(jī)會(huì):如果草稿模型只需要預(yù)測(cè)那些最常用的詞匯,那么為什么要讓它承擔(dān)處理全部詞匯表的計(jì)算負(fù)擔(dān)呢?這就好比讓一個(gè)專門負(fù)責(zé)日常對(duì)話的客服代表背誦整本醫(yī)學(xué)詞典,顯然是不必要的資源浪費(fèi)。
研究團(tuán)隊(duì)進(jìn)一步分析了不同類型任務(wù)的詞匯使用模式。他們發(fā)現(xiàn),在不同的應(yīng)用場(chǎng)景中,常用詞匯集合會(huì)有所不同,但總體的不平衡分布模式是一致的。比如,在數(shù)學(xué)推理任務(wù)中,數(shù)字和數(shù)學(xué)符號(hào)會(huì)更頻繁地出現(xiàn),而在創(chuàng)意寫作任務(wù)中,形容詞和情感詞匯的使用頻率會(huì)更高。
三、解決方案:VOCABTRIM技術(shù)詳解
基于對(duì)詞匯使用模式的深入理解,研究團(tuán)隊(duì)設(shè)計(jì)了VOCABTRIM技術(shù)。這個(gè)技術(shù)的核心思想非常直觀:既然草稿模型只需要預(yù)測(cè)那些最常用的詞匯,那么就給它制作一個(gè)精簡(jiǎn)的詞匯表和對(duì)應(yīng)的語(yǔ)言建模頭。
VOCABTRIM的工作流程可以比作為不同崗位的員工定制專用工具包。首先,研究團(tuán)隊(duì)需要收集"校準(zhǔn)數(shù)據(jù)集"來(lái)了解在特定任務(wù)中哪些詞匯最常被使用。這個(gè)校準(zhǔn)數(shù)據(jù)集可以來(lái)自三個(gè)來(lái)源:原始文本數(shù)據(jù)、目標(biāo)模型生成的文本,或者草稿模型生成的文本。
通過(guò)對(duì)校準(zhǔn)數(shù)據(jù)集的分析,系統(tǒng)會(huì)統(tǒng)計(jì)每個(gè)詞匯的出現(xiàn)頻率,就像統(tǒng)計(jì)一個(gè)餐廳中每道菜的點(diǎn)單頻率一樣。然后,根據(jù)預(yù)設(shè)的詞匯表大小k,系統(tǒng)會(huì)選擇頻率最高的k個(gè)詞匯,構(gòu)建一個(gè)精簡(jiǎn)的詞匯表。
技術(shù)實(shí)現(xiàn)上,VOCABTRIM會(huì)從原始的語(yǔ)言建模頭權(quán)重矩陣中提取對(duì)應(yīng)于這k個(gè)高頻詞匯的行,形成一個(gè)新的、尺寸更小的權(quán)重矩陣。這個(gè)過(guò)程完全不需要重新訓(xùn)練模型,因此被稱為"訓(xùn)練免費(fèi)"的方法。
在推理過(guò)程中,草稿模型使用這個(gè)精簡(jiǎn)的語(yǔ)言建模頭來(lái)生成候選詞匯。當(dāng)草稿模型輸出一個(gè)詞匯ID時(shí),系統(tǒng)會(huì)通過(guò)一個(gè)簡(jiǎn)單的映射表將其轉(zhuǎn)換回原始詞匯空間的ID,這樣目標(biāo)模型就能正確理解和驗(yàn)證這些候選詞匯。
這種設(shè)計(jì)的巧妙之處在于它保持了推測(cè)性解碼的核心機(jī)制不變,只是優(yōu)化了草稿模型的詞匯選擇過(guò)程。目標(biāo)模型仍然使用完整的詞匯表,確保了生成質(zhì)量不會(huì)因?yàn)樵~匯限制而受損。
VOCABTRIM支持多種詞匯選擇策略。除了基于頻率的Top-K選擇外,還可以基于累積概率的Top-P選擇,或者基于最小頻率閾值的選擇。這種靈活性使得系統(tǒng)可以根據(jù)不同的應(yīng)用需求和硬件約束進(jìn)行調(diào)整。
四、實(shí)驗(yàn)驗(yàn)證:性能提升的量化分析
為了驗(yàn)證VOCABTRIM技術(shù)的有效性,研究團(tuán)隊(duì)在多個(gè)Llama 3模型上進(jìn)行了廣泛的實(shí)驗(yàn)。他們選擇了Llama-3.2-3B-Instruct和Llama-3.1-8B-Instruct作為目標(biāo)模型,并在Spec-Bench基準(zhǔn)測(cè)試套件上評(píng)估性能。
Spec-Bench是一個(gè)專門為推測(cè)性解碼設(shè)計(jì)的綜合評(píng)估基準(zhǔn),包含了總結(jié)、編程、數(shù)學(xué)推理、功能調(diào)用、開放式文本生成等多種任務(wù)。這些任務(wù)的多樣性確保了評(píng)估結(jié)果的全面性和可靠性。
實(shí)驗(yàn)采用了兩種類型的草稿模型架構(gòu)。第一種是基于EAGLE的推測(cè)性解碼架構(gòu),這是目前最先進(jìn)的推測(cè)性解碼方法之一。第二種是獨(dú)立的草稿模型架構(gòu),使用314M參數(shù)的小型模型作為草稿生成器。
在性能評(píng)估方面,研究團(tuán)隊(duì)使用了兩個(gè)關(guān)鍵指標(biāo)。第一個(gè)是"塊效率",即每次目標(biāo)模型運(yùn)行時(shí)平均能生成多少個(gè)詞匯。這個(gè)指標(biāo)反映了推測(cè)性解碼的接受率,數(shù)值越高表示草稿模型的預(yù)測(cè)越準(zhǔn)確。第二個(gè)是"內(nèi)存受限加速比",這個(gè)指標(biāo)考慮了草稿模型和目標(biāo)模型的參數(shù)比例,更準(zhǔn)確地反映了在內(nèi)存受限環(huán)境下的實(shí)際加速效果。
實(shí)驗(yàn)結(jié)果令人鼓舞。在Llama-3.2-3B-Instruct上,使用目標(biāo)模型生成的校準(zhǔn)數(shù)據(jù)集時(shí),VOCABTRIM在各個(gè)任務(wù)上的塊效率下降幅度控制在2-5%之間,而內(nèi)存受限加速比卻提升了14-18%。這意味著雖然草稿模型的預(yù)測(cè)準(zhǔn)確率略有下降,但由于計(jì)算效率的大幅提升,整體性能得到了顯著改善。
在更大的Llama-3.1-8B-Instruct模型上,VOCABTRIM同樣表現(xiàn)出色。由于目標(biāo)模型更大,草稿模型與目標(biāo)模型的參數(shù)比例更小,整體的內(nèi)存受限加速比更高。使用VOCABTRIM后,加速比提升了8-12%,而塊效率下降僅為1-4%。
特別值得注意的是,在功能調(diào)用任務(wù)(xLAM)上,VOCABTRIM展現(xiàn)出了特別突出的性能。使用EAGLE架構(gòu)的草稿模型,塊效率僅下降2.6%,但內(nèi)存受限加速比提升了25%。這種顯著的改善得益于功能調(diào)用任務(wù)中詞匯使用的高度集中性。
五、不同校準(zhǔn)策略的對(duì)比分析
研究團(tuán)隊(duì)還深入分析了不同校準(zhǔn)數(shù)據(jù)集對(duì)VOCABTRIM性能的影響。他們比較了三種校準(zhǔn)策略:使用原始文本數(shù)據(jù)、使用目標(biāo)模型生成的數(shù)據(jù),以及使用草稿模型生成的數(shù)據(jù)。
使用目標(biāo)模型生成的校準(zhǔn)數(shù)據(jù)表現(xiàn)最佳。這種策略能夠最準(zhǔn)確地反映目標(biāo)模型在實(shí)際應(yīng)用中的詞匯使用模式,因此精簡(jiǎn)后的詞匯表與目標(biāo)模型的需求匹配度最高。在這種配置下,塊效率的下降最小,而內(nèi)存受限加速比的提升最大。
使用原始文本數(shù)據(jù)作為校準(zhǔn)的效果次之。雖然原始文本數(shù)據(jù)容易獲取,但它可能無(wú)法完全反映特定模型在特定任務(wù)上的詞匯偏好。不過(guò),這種方法仍然能夠帶來(lái)可觀的性能提升,特別是在通用文本生成任務(wù)上。
使用草稿模型生成的數(shù)據(jù)進(jìn)行校準(zhǔn)的效果相對(duì)較差。這主要是因?yàn)椴莞迥P偷哪芰τ邢蓿渖傻奈谋究赡軣o(wú)法涵蓋目標(biāo)模型的完整詞匯需求。但在某些情況下,這種方法仍然有其價(jià)值,特別是當(dāng)目標(biāo)模型生成數(shù)據(jù)的成本很高時(shí)。
研究團(tuán)隊(duì)還發(fā)現(xiàn),校準(zhǔn)數(shù)據(jù)集的領(lǐng)域匹配度對(duì)性能有重要影響。當(dāng)校準(zhǔn)數(shù)據(jù)與評(píng)估任務(wù)的領(lǐng)域高度匹配時(shí),VOCABTRIM的效果最好。比如,在編程任務(wù)上使用編程相關(guān)的校準(zhǔn)數(shù)據(jù),會(huì)比使用通用文本數(shù)據(jù)獲得更好的效果。
六、詞匯表大小的優(yōu)化探索
為了找到最佳的詞匯表大小,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們?cè)诓煌脑~匯表大小下測(cè)試了VOCABTRIM的性能,從幾千個(gè)詞匯到幾萬(wàn)個(gè)詞匯都進(jìn)行了嘗試。
實(shí)驗(yàn)結(jié)果顯示,詞匯表大小與性能之間存在著明顯的權(quán)衡關(guān)系。詞匯表越大,草稿模型的預(yù)測(cè)能力越強(qiáng),塊效率越高,但同時(shí)語(yǔ)言建模頭的大小也越大,內(nèi)存和計(jì)算開銷也隨之增加。
對(duì)于Llama-3.2-3B-Instruct,最佳的詞匯表大小約為23,000個(gè)詞匯,對(duì)應(yīng)約70M的語(yǔ)言建模頭參數(shù)。在這個(gè)配置下,VOCABTRIM能夠在塊效率僅下降3%的情況下,將內(nèi)存受限加速比提升19.7%。
對(duì)于更大的Llama-3.1-8B-Instruct,最佳配置是35,000個(gè)詞匯,對(duì)應(yīng)143.4M的語(yǔ)言建模頭參數(shù)。這個(gè)配置下,塊效率下降僅為1.2%,而內(nèi)存受限加速比提升了11.6%。
這些結(jié)果表明,不同大小的目標(biāo)模型需要不同的詞匯表優(yōu)化策略。更大的目標(biāo)模型由于本身的參數(shù)量更大,對(duì)草稿模型的效率要求相對(duì)較低,因此可以使用稍大的精簡(jiǎn)詞匯表來(lái)保持更高的預(yù)測(cè)準(zhǔn)確率。
七、技術(shù)局限性與適用范圍
雖然VOCABTRIM技術(shù)表現(xiàn)出色,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了它的局限性。最明顯的限制是跨領(lǐng)域的泛化能力。當(dāng)評(píng)估任務(wù)與校準(zhǔn)數(shù)據(jù)的領(lǐng)域差異較大時(shí),性能提升會(huì)有所下降。
以編程任務(wù)為例,研究團(tuán)隊(duì)發(fā)現(xiàn)使用通用英語(yǔ)文本校準(zhǔn)的VOCABTRIM在代碼生成任務(wù)上的效果不如在文本生成任務(wù)上的效果。這是因?yàn)榫幊陶Z(yǔ)言中使用的詞匯集合與自然語(yǔ)言有顯著差異,包含大量的關(guān)鍵字、函數(shù)名和特殊符號(hào)。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)建議為不同的應(yīng)用領(lǐng)域準(zhǔn)備專門的精簡(jiǎn)詞匯表。這種策略類似于為不同專業(yè)的從業(yè)者準(zhǔn)備專用的工具包,能夠在特定領(lǐng)域內(nèi)獲得最佳性能。
另一個(gè)需要考慮的因素是詞匯表的動(dòng)態(tài)更新。隨著應(yīng)用場(chǎng)景的變化和新詞匯的出現(xiàn),精簡(jiǎn)詞匯表可能需要周期性的更新。不過(guò),由于VOCABTRIM是訓(xùn)練免費(fèi)的方法,這種更新的成本相對(duì)較低。
研究團(tuán)隊(duì)還指出,VOCABTRIM的效果與目標(biāo)模型的詞匯表大小密切相關(guān)。對(duì)于詞匯表較小的模型,語(yǔ)言建模頭本身就不會(huì)成為太大的瓶頸,因此VOCABTRIM的收益相對(duì)有限。但對(duì)于現(xiàn)代大型語(yǔ)言模型,其詞匯表通常包含數(shù)十萬(wàn)個(gè)詞匯,VOCABTRIM的價(jià)值就非常明顯了。
八、實(shí)用價(jià)值與未來(lái)展望
VOCABTRIM技術(shù)的實(shí)用價(jià)值不僅體現(xiàn)在性能數(shù)據(jù)上,更體現(xiàn)在它為AI系統(tǒng)部署帶來(lái)的實(shí)際好處。在資源受限的邊緣設(shè)備上,內(nèi)存帶寬往往是影響AI響應(yīng)速度的關(guān)鍵瓶頸。通過(guò)減少語(yǔ)言建模頭的大小,VOCABTRIM能夠顯著降低內(nèi)存訪問(wèn)壓力,讓AI助手在手機(jī)、平板等設(shè)備上運(yùn)行得更加流暢。
這種技術(shù)對(duì)于商業(yè)應(yīng)用也具有重要意義。云服務(wù)提供商可以通過(guò)部署VOCABTRIM來(lái)提高服務(wù)器的吞吐量,在相同的硬件資源下為更多用戶提供服務(wù)。這不僅能夠降低運(yùn)營(yíng)成本,還能夠改善用戶體驗(yàn)。
從技術(shù)發(fā)展的角度來(lái)看,VOCABTRIM開辟了一個(gè)新的優(yōu)化方向。傳統(tǒng)的推測(cè)性解碼研究主要關(guān)注草稿模型的架構(gòu)設(shè)計(jì)和訓(xùn)練策略,而VOCABTRIM則聚焦于詞匯空間的優(yōu)化。這種思路可能啟發(fā)更多類似的創(chuàng)新。
研究團(tuán)隊(duì)已經(jīng)計(jì)劃在未來(lái)的工作中探索更多的擴(kuò)展方向。比如,他們正在研究基于注意力機(jī)制的動(dòng)態(tài)詞匯選擇,讓系統(tǒng)能夠根據(jù)上下文自適應(yīng)地調(diào)整可用詞匯集合。他們還在考慮將VOCABTRIM與其他優(yōu)化技術(shù)結(jié)合,形成更加全面的加速方案。
另一個(gè)有前景的方向是多語(yǔ)言支持。目前的實(shí)驗(yàn)主要基于英語(yǔ),但不同語(yǔ)言的詞匯使用模式可能有所不同。研究團(tuán)隊(duì)正在收集多語(yǔ)言數(shù)據(jù),以驗(yàn)證VOCABTRIM在不同語(yǔ)言環(huán)境下的效果。
九、對(duì)AI發(fā)展的深遠(yuǎn)影響
VOCABTRIM技術(shù)的意義遠(yuǎn)超其技術(shù)細(xì)節(jié)本身。它體現(xiàn)了AI系統(tǒng)優(yōu)化的一個(gè)重要趨勢(shì):從追求模型能力的全面性轉(zhuǎn)向針對(duì)特定應(yīng)用場(chǎng)景的精準(zhǔn)優(yōu)化。這種思路變化對(duì)整個(gè)AI領(lǐng)域都有啟發(fā)意義。
在傳統(tǒng)的AI開發(fā)模式中,研究者往往追求構(gòu)建能夠處理所有可能情況的通用模型。但是,隨著AI應(yīng)用的深入,人們發(fā)現(xiàn)針對(duì)特定場(chǎng)景的專門優(yōu)化往往能夠帶來(lái)更好的效果和效率。VOCABTRIM正是這種理念的體現(xiàn),它通過(guò)分析實(shí)際使用模式來(lái)指導(dǎo)系統(tǒng)優(yōu)化。
這種方法也反映了AI系統(tǒng)設(shè)計(jì)中"實(shí)用主義"思維的重要性。與其讓草稿模型具備處理所有詞匯的能力,不如讓它專注于那些最有可能用到的詞匯。這種取舍既提高了效率,又保持了實(shí)用性。
從更廣泛的角度來(lái)看,VOCABTRIM的成功可能會(huì)推動(dòng)更多基于使用模式分析的優(yōu)化技術(shù)出現(xiàn)。比如,可以分析神經(jīng)網(wǎng)絡(luò)中哪些連接最重要,然后有選擇地優(yōu)化這些關(guān)鍵路徑。或者分析用戶查詢的模式,來(lái)優(yōu)化搜索和推薦系統(tǒng)的響應(yīng)速度。
說(shuō)到底,VOCABTRIM技術(shù)給我們上了一堂生動(dòng)的"效率課"。它告訴我們,有時(shí)候做減法比做加法更有效果。在追求AI系統(tǒng)性能的道路上,我們不僅要關(guān)注如何讓模型更強(qiáng)大,也要思考如何讓它們更智能地利用資源。
這項(xiàng)研究展示了一個(gè)簡(jiǎn)單而深刻的道理:了解你的任務(wù)需求,然后針對(duì)性地優(yōu)化,往往比盲目地增加資源更有效。對(duì)于那些正在開發(fā)AI應(yīng)用的工程師和研究者來(lái)說(shuō),VOCABTRIM提供了一個(gè)很好的參考范例。它提醒我們,在設(shè)計(jì)AI系統(tǒng)時(shí),要既考慮功能的完整性,也要考慮資源的有效利用。
高通研究院的這項(xiàng)工作不僅為推測(cè)性解碼技術(shù)帶來(lái)了實(shí)際的性能提升,更為AI系統(tǒng)優(yōu)化提供了新的思路。隨著AI技術(shù)的進(jìn)一步發(fā)展和普及,這種基于實(shí)際使用模式的優(yōu)化方法必將發(fā)揮更大的作用。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2506.22694v1獲取完整的研究論文。
Q&A
Q1:VOCABTRIM是什么?它是如何工作的? A:VOCABTRIM是高通研究院開發(fā)的AI優(yōu)化技術(shù),通過(guò)給AI的"小助手"制作精簡(jiǎn)詞典來(lái)提高效率。它分析AI實(shí)際使用的詞匯頻率,只保留最常用的詞匯(如23000個(gè)),將原本需要處理12萬(wàn)詞匯的負(fù)擔(dān)減輕75%,就像給專職客服準(zhǔn)備常用語(yǔ)手冊(cè)而非整本百科全書。
Q2:這個(gè)技術(shù)會(huì)不會(huì)影響AI回答的質(zhì)量? A:影響很小。研究顯示,雖然AI助手的預(yù)測(cè)準(zhǔn)確率會(huì)輕微下降2-5%,但由于計(jì)算效率大幅提升,整體響應(yīng)速度反而提高了14-25%。這是因?yàn)锳I在日常對(duì)話中主要使用高頻詞匯,就像我們聊天時(shí)雖然認(rèn)識(shí)很多詞,但常說(shuō)的就那幾百個(gè)一樣。
Q3:VOCABTRIM技術(shù)有什么實(shí)際應(yīng)用價(jià)值? A:主要體現(xiàn)在讓AI在手機(jī)、平板等設(shè)備上運(yùn)行更流暢,降低云服務(wù)商的運(yùn)營(yíng)成本。由于減少了內(nèi)存訪問(wèn)壓力,AI助手響應(yīng)更快,用戶體驗(yàn)更好。對(duì)于資源受限的邊緣設(shè)備特別有價(jià)值,讓更多人能夠享受到高效的AI服務(wù)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。