av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 小語言模型將成為AI智能代理的未來:NVIDIA研究團(tuán)隊(duì)揭示更高效的AI架構(gòu)

小語言模型將成為AI智能代理的未來:NVIDIA研究團(tuán)隊(duì)揭示更高效的AI架構(gòu)

2025-06-09 09:40
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 09:40 ? 科技行者

在當(dāng)前人工智能飛速發(fā)展的時(shí)代,來自NVIDIA研究團(tuán)隊(duì)的Peter Belcak、Greg Heinrich、Shizhe Diao、Yonggan Fu、Xin Dong、Saurav Muralidharan、Yingyan Celine Lin和Pavlo Molchanov等研究人員于2025年6月2日在arXiv上發(fā)表了一篇前瞻性論文《Small Language Models are the Future of Agentic AI》(小語言模型是智能代理AI的未來)。這篇尚在審核中的預(yù)印本論文提出了一個(gè)可能會(huì)改變整個(gè)AI行業(yè)運(yùn)營模式的重要觀點(diǎn)。

想象一下,如果我們把當(dāng)前的AI世界比作一個(gè)龐大的圖書館系統(tǒng)。大型語言模型(LLM)就像是那些能解答各種問題的百科全書館員,無論你問什么,他們都能給出合理回答。但問題是,這些"全能型館員"需要占據(jù)大量空間,消耗巨大能源,而且調(diào)用他們的成本非常高。而現(xiàn)在,NVIDIA的研究團(tuán)隊(duì)告訴我們,對(duì)于許多特定任務(wù),我們其實(shí)并不需要這些"全能型館員",一些專門負(fù)責(zé)特定區(qū)域的"專業(yè)館員"就足夠了——這些就是小型語言模型(SLM)。

研究團(tuán)隊(duì)指出,當(dāng)前大多數(shù)AI智能代理系統(tǒng)(就是那些能幫你預(yù)訂機(jī)票、編寫代碼或回答問題的AI助手)主要依賴于強(qiáng)大但資源密集的大型語言模型。然而,隨著智能代理應(yīng)用的興起,這些系統(tǒng)通常只執(zhí)行有限數(shù)量的專門任務(wù),而且是重復(fù)性地執(zhí)行,變化不大。這就像你每天只使用百科全書查幾個(gè)固定的問題,實(shí)在是大材小用。

在這種情況下,研究人員認(rèn)為小語言模型(SLM)——那些可以在普通消費(fèi)電子設(shè)備上運(yùn)行并具有實(shí)用響應(yīng)速度的模型——不僅足夠強(qiáng)大,而且在操作上更適合智能代理系統(tǒng),并且在經(jīng)濟(jì)上也必然更為節(jié)約。

一、小語言模型的力量:比你想象的更強(qiáng)大

你可能會(huì)想,小語言模型真的能勝任智能代理系統(tǒng)的復(fù)雜任務(wù)嗎?答案是肯定的。近年來,小語言模型的能力有了顯著提升。盡管語言模型的規(guī)模與能力之間的關(guān)系仍然存在,但最新的小語言模型與早期的大型模型相比已經(jīng)縮小了差距。

微軟的Phi系列就是一個(gè)很好的例子。Phi-2只有2.7億參數(shù),卻在常識(shí)推理和代碼生成方面達(dá)到了與30億參數(shù)模型相當(dāng)?shù)姆謹(jǐn)?shù),同時(shí)運(yùn)行速度快了約15倍。更新的Phi-3 small(7億參數(shù))在語言理解和常識(shí)推理方面與同一代的70億參數(shù)模型相當(dāng)。

NVIDIA自己的Nemotron-H系列(2/4.8/9億參數(shù)的混合Mamba-Transformer模型)在指令遵循和代碼生成準(zhǔn)確性上可以與同代的30億參數(shù)大型語言模型相媲美,而計(jì)算量只有后者的十分之一。

Huggingface的SmolLM2系列、NVIDIA的Hymba-1.5B、DeepSeek的R1-Distill系列等眾多小型模型都展示了類似的能力——在特定任務(wù)上能夠達(dá)到甚至超越更大模型的性能。

研究人員還指出,小語言模型的推理能力可以通過自一致性、驗(yàn)證器反饋或工具增強(qiáng)等技術(shù)在推理時(shí)進(jìn)一步提升。例如,Toolformer(6.7億參數(shù))通過API使用在特定任務(wù)上超越了GPT-3(1750億參數(shù)),而1-3億參數(shù)的模型通過結(jié)構(gòu)化推理在數(shù)學(xué)問題上媲美了30億以上的大型語言模型。

簡單來說,現(xiàn)在的小語言模型已經(jīng)足夠聰明,完全可以處理智能代理系統(tǒng)中的大部分任務(wù),而且它們正在變得越來越聰明。

二、經(jīng)濟(jì)與效率:小語言模型的無可爭(zhēng)議的優(yōu)勢(shì)

想象一下,你需要從城市的一端到另一端。大型語言模型就像是一輛大型豪華巴士——能載很多人,功能齊全,但即使只有你一個(gè)乘客,也需要消耗同樣多的燃料和占用同樣大的道路空間。而小語言模型則像是一輛電動(dòng)自行車——輕便、靈活、經(jīng)濟(jì),完全能滿足你的需求。

研究表明,服務(wù)一個(gè)7億參數(shù)的小語言模型比服務(wù)一個(gè)70-175億參數(shù)的大型語言模型要便宜10-30倍(無論是延遲、能耗還是計(jì)算量)。這使得智能代理系統(tǒng)能夠以更低的成本提供實(shí)時(shí)響應(yīng)。

小語言模型的微調(diào)也更加靈活高效。參數(shù)高效微調(diào)(如LoRA和DoRA)或全參數(shù)微調(diào)對(duì)于小語言模型來說只需要幾個(gè)GPU小時(shí),而不是幾周時(shí)間。這意味著開發(fā)者可以在一夜之間添加、修復(fù)或?qū)iT化模型行為,而不是等待數(shù)周。

邊緣部署是另一個(gè)巨大優(yōu)勢(shì)。像ChatRTX這樣的設(shè)備內(nèi)推理系統(tǒng)展示了小語言模型可以在消費(fèi)級(jí)GPU上本地執(zhí)行,實(shí)現(xiàn)實(shí)時(shí)、離線的智能代理推理,延遲更低,數(shù)據(jù)控制更強(qiáng)。

此外,大型語言模型雖然看起來像單體系統(tǒng),但實(shí)際上在生成輸出時(shí)只使用了一小部分參數(shù)。研究表明,小語言模型在這方面可能從根本上更有效率,因?yàn)樗鼈冇懈弑壤膮?shù)實(shí)際參與推理過程。

模塊化系統(tǒng)設(shè)計(jì)是另一個(gè)支持小語言模型的強(qiáng)有力論點(diǎn)。研究人員指出,利用不同規(guī)模的多個(gè)模型組成智能代理系統(tǒng)——通過添加小型專家模型而不是擴(kuò)大單一模型——可以產(chǎn)生更便宜、更容易調(diào)試和部署的系統(tǒng),同時(shí)更好地適應(yīng)實(shí)際應(yīng)用的多樣性。

三、靈活性與適應(yīng)性:小語言模型的天然優(yōu)勢(shì)

小語言模型就像是能迅速適應(yīng)不同環(huán)境的小型哺乳動(dòng)物,而大型語言模型則像是龐大的恐龍——強(qiáng)大但適應(yīng)性較差。由于小語言模型的規(guī)模小和相關(guān)的預(yù)訓(xùn)練和微調(diào)成本降低,它們?cè)谥悄艽硐到y(tǒng)中比大型語言模型具有更大的操作靈活性。

這種效率使得為不同的智能代理程序訓(xùn)練、調(diào)整和部署多個(gè)專業(yè)專家模型變得更加經(jīng)濟(jì)實(shí)惠和實(shí)用。開發(fā)者可以快速迭代和適應(yīng),滿足不斷變化的用戶需求,包括支持新行為、滿足新的輸出格式要求,以及遵守特定市場(chǎng)的不斷變化的本地法規(guī)。

這種靈活性的一個(gè)特別值得注意的積極后果是智能代理的民主化。當(dāng)更多的個(gè)人和組織能夠參與語言模型開發(fā)并將其部署在智能代理系統(tǒng)中時(shí),智能代理的總體人口更有可能代表更多樣化的觀點(diǎn)和社會(huì)需求。這種多樣性可以幫助減少系統(tǒng)性偏見的風(fēng)險(xiǎn),并鼓勵(lì)競(jìng)爭(zhēng)和創(chuàng)新。

四、智能代理系統(tǒng)的本質(zhì)需求與小語言模型的契合性

智能代理應(yīng)用本質(zhì)上是一個(gè)被嚴(yán)格指導(dǎo)和外部編排的語言模型網(wǎng)關(guān),它具有人機(jī)界面和一系列工具,當(dāng)正確使用時(shí),可以完成有用的任務(wù)。從這個(gè)角度來看,原本被設(shè)計(jì)為強(qiáng)大通用型的大型語言模型通過一系列精心編寫的提示和精心編排的上下文管理,被限制在其技能范圍的一小部分內(nèi)運(yùn)行。

這就像一位多才多藝的廚師被限制只能做簡單的煎蛋一樣——大材小用。而小語言模型針對(duì)特定提示進(jìn)行適當(dāng)微調(diào),就足以完成任務(wù),同時(shí)還具有上述更高效率和更大靈活性的優(yōu)勢(shì)。

此外,智能代理系統(tǒng)需要與代碼頻繁交互,無論是通過語言模型工具調(diào)用還是返回由智能代理代碼解析的輸出。這些交互的成功關(guān)鍵在于生成的工具調(diào)用和生成的輸出符合工具參數(shù)的順序、類型和性質(zhì)以及調(diào)用語言模型的代碼的預(yù)期所施加的嚴(yán)格格式要求。

在這種情況下,經(jīng)過單一格式?jīng)Q策訓(xùn)練的小語言模型比通用大型語言模型更可取,因?yàn)樗豢赡艹霈F(xiàn)偶然的幻覺錯(cuò)誤,導(dǎo)致回復(fù)的格式與智能代理系統(tǒng)的"代碼部分"所期望的不同。

五、智能代理系統(tǒng)的自然異構(gòu)性與數(shù)據(jù)收集優(yōu)勢(shì)

語言模型本身可以是由另一個(gè)語言模型調(diào)用的工具。同樣,每次智能代理的代碼調(diào)用語言模型時(shí),原則上可以選擇任何語言模型。這種架構(gòu)為引入不同規(guī)模和能力的多個(gè)語言模型提供了自然途徑。

研究人員提出,在智能代理過程中調(diào)用工具和語言模型時(shí),通常會(huì)附帶精心提示,將語言模型集中在當(dāng)時(shí)所需的狹窄功能上。這些調(diào)用本身就是未來改進(jìn)的數(shù)據(jù)來源(假設(shè)沒有處理不可保留的機(jī)密數(shù)據(jù))。

監(jiān)聽工具/模型調(diào)用接口的程序可以收集專門的指令數(shù)據(jù),以后可用于微調(diào)專家小語言模型,降低未來調(diào)用的成本。研究人員認(rèn)為,這種途徑是由智能代理的架構(gòu)啟用的,產(chǎn)生高質(zhì)量的有機(jī)數(shù)據(jù),從而使生產(chǎn)專家小語言模型取代大型語言模型成為智能代理部署中的自然步驟。

六、轉(zhuǎn)換過程:從大型語言模型到小語言模型的智能代理轉(zhuǎn)換算法

智能代理應(yīng)用的本質(zhì)使它們最終能夠在許多接口上從使用大型語言模型通用型模型轉(zhuǎn)向使用小語言模型專家。研究團(tuán)隊(duì)概述了一種可能的算法,描述了如何無痛地進(jìn)行底層模型更改:

首先,部署儀器記錄所有非人機(jī)交互代理調(diào)用,捕獲輸入提示、輸出響應(yīng)、單個(gè)工具調(diào)用的內(nèi)容,以及可選的延遲指標(biāo),以便后期有針對(duì)性的優(yōu)化。在實(shí)施方面,建議設(shè)置加密日志管道,并在存儲(chǔ)前匿名化所有數(shù)據(jù)。

接下來是數(shù)據(jù)策劃和過濾。一旦收集了足夠的數(shù)據(jù)(按照經(jīng)驗(yàn)法則,10-10萬個(gè)示例足以微調(diào)小型模型),就需要移除任何個(gè)人身份信息、健康信息或可能在用戶賬戶之間造成數(shù)據(jù)泄露的其他應(yīng)用特定敏感數(shù)據(jù)。

然后對(duì)收集的提示和代理操作進(jìn)行無監(jiān)督聚類,以識(shí)別請(qǐng)求或內(nèi)部代理操作的重復(fù)模式。這些集群有助于定義小語言模型專業(yè)化的候選任務(wù)。任務(wù)的粒度將取決于操作的多樣性。

隨后為每個(gè)已識(shí)別任務(wù)選擇一個(gè)或多個(gè)候選小語言模型,選擇標(biāo)準(zhǔn)包括小語言模型的固有能力、其在相關(guān)基準(zhǔn)測(cè)試上的性能、許可和部署足跡。前面提到的模型都是很好的起點(diǎn)。

最后,為每個(gè)選定任務(wù)和相應(yīng)的小語言模型候選從步驟二和三中收集的數(shù)據(jù)中準(zhǔn)備特定于任務(wù)的數(shù)據(jù)集。然后在這些專業(yè)數(shù)據(jù)集上微調(diào)所選小語言模型??梢岳脜?shù)高效微調(diào)技術(shù)(如LoRA或QLoRA)來降低與微調(diào)相關(guān)的計(jì)算成本和內(nèi)存要求。在某些情況下,使用知識(shí)蒸餾可能有益,其中專家小語言模型被訓(xùn)練模仿更強(qiáng)大的通用大型語言模型在特定于任務(wù)的數(shù)據(jù)集上的輸出。

最后,可以定期用新數(shù)據(jù)重新訓(xùn)練小語言模型和路由模型,以保持性能并適應(yīng)不斷變化的使用模式。這形成了一個(gè)持續(xù)改進(jìn)循環(huán)。

七、潛在障礙與應(yīng)對(duì)之策

你可能會(huì)問:如果小語言模型真的這么有優(yōu)勢(shì),為什么現(xiàn)在的智能代理系統(tǒng)似乎仍然主要使用大型語言模型呢?研究團(tuán)隊(duì)認(rèn)為,目前存在幾個(gè)主要障礙:

首先是對(duì)中央化大型語言模型推理基礎(chǔ)設(shè)施的大量前期投資。正如論文開頭所述,大量資本押注于中央化大型語言模型推理將成為未來提供AI服務(wù)的主導(dǎo)范式。因此,行業(yè)在構(gòu)建工具和基礎(chǔ)設(shè)施方面速度更快,忽略了在不久的將來,更分散的小語言模型或設(shè)備內(nèi)推理可能同樣可行的可能性。

其次是在小語言模型訓(xùn)練、設(shè)計(jì)和評(píng)估中使用通用基準(zhǔn)。研究人員指出,小語言模型設(shè)計(jì)和開發(fā)的許多工作都遵循大型語言模型設(shè)計(jì)的軌跡,側(cè)重于在開發(fā)中使用相同的通用基準(zhǔn)。然而,如果只關(guān)注衡量智能代理實(shí)用性的基準(zhǔn),研究中的小語言模型很容易就能勝過更大的模型。

第三是缺乏普及意識(shí)。小語言模型通常沒有接收到大型語言模型那樣的營銷強(qiáng)度和媒體關(guān)注,盡管它們?cè)谠S多工業(yè)場(chǎng)景中更適合。

研究人員強(qiáng)調(diào),這些障礙都是實(shí)際障礙,遠(yuǎn)非小語言模型技術(shù)在智能代理AI背景下的根本缺陷。隨著先進(jìn)的推理調(diào)度系統(tǒng)(如Dynamo)的出現(xiàn),第一個(gè)障礙正在被減少為單純的慣性效應(yīng)。第二個(gè)障礙在該領(lǐng)域越來越被認(rèn)可,第三個(gè)障礙一旦小語言模型在智能代理應(yīng)用中的經(jīng)濟(jì)效益更廣為人知,自然會(huì)消失。

八、實(shí)際案例研究:小語言模型替代的潛力

為了具體說明小語言模型替代大型語言模型的潛力,研究團(tuán)隊(duì)對(duì)三個(gè)流行的開源智能代理進(jìn)行了案例研究:MetaGPT、Open Operator和Cradle。

MetaGPT是一個(gè)多智能代理框架,旨在模擬軟件公司。它為產(chǎn)品經(jīng)理、架構(gòu)師、工程師和QA工程師等角色分配任務(wù),協(xié)作處理包括需求起草、系統(tǒng)設(shè)計(jì)、實(shí)施和測(cè)試在內(nèi)的任務(wù)。對(duì)于MetaGPT,研究人員估計(jì)約60%的大型語言模型查詢可以由適當(dāng)專業(yè)化的小語言模型可靠處理。小語言模型特別適合常規(guī)代碼生成和樣板任務(wù),以及基于預(yù)定義模板生成結(jié)構(gòu)化響應(yīng)。

Open Operator是一個(gè)工作流自動(dòng)化智能代理,使用戶能夠定義可以使用工具和服務(wù)執(zhí)行API調(diào)用、監(jiān)控和編排等任務(wù)的智能代理行為。研究人員估計(jì)約40%的大型語言模型查詢可以由小語言模型處理,特別是簡單的命令解析和路由,以及基于預(yù)定義模板生成消息。

Cradle專為通用計(jì)算機(jī)控制設(shè)計(jì),使智能代理能夠通過屏幕截圖輸入和模擬用戶交互操作GUI應(yīng)用程序。研究人員估計(jì)約70%的大型語言模型查詢可以由小語言模型處理,特別是處理重復(fù)性GUI交互工作流和執(zhí)行預(yù)學(xué)習(xí)的點(diǎn)擊序列。

這些案例研究表明,在實(shí)際的智能代理應(yīng)用中,相當(dāng)大比例的大型語言模型調(diào)用可以由小語言模型替代,從而提高效率和降低成本。

九、結(jié)論與展望

智能代理AI行業(yè)正在迅速發(fā)展,有望對(duì)各行各業(yè)產(chǎn)生變革性影響。研究團(tuán)隊(duì)認(rèn)為,任何能夠降低AI基礎(chǔ)設(shè)施成本或提高可持續(xù)性的措施都將加速這一轉(zhuǎn)變。

小語言模型在智能代理系統(tǒng)中提供了一條更高效、更靈活、更經(jīng)濟(jì)的路徑。盡管目前的行業(yè)慣性仍然支持大型語言模型的廣泛使用,但小語言模型的優(yōu)勢(shì)——從計(jì)算效率到經(jīng)濟(jì)性再到適應(yīng)性——表明它們很可能成為未來智能代理AI的基石。

研究團(tuán)隊(duì)呼吁對(duì)他們的觀點(diǎn)進(jìn)行討論、貢獻(xiàn)和批評(píng),承諾在research.nvidia.com/labs/lpr/slm-agents發(fā)布所有此類通信。他們的觀點(diǎn)不是提出一個(gè)建議或試圖強(qiáng)加義務(wù),而是陳述他們所看到的社區(qū)價(jià)值觀在這一背景下的忠實(shí)反映。

隨著技術(shù)的不斷進(jìn)步和經(jīng)濟(jì)壓力的增加,我們很可能會(huì)看到行業(yè)逐漸從單一使用大型語言模型過渡到更模塊化、異構(gòu)的系統(tǒng),其中小語言模型扮演著越來越重要的角色。這種轉(zhuǎn)變不僅可以降低成本,還可以實(shí)現(xiàn)更可持續(xù)、更民主化的AI部署。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-