av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 微調(diào)小模型還是提示大模型?ServiceNow揭秘低代碼工作流程生成的最佳選擇

微調(diào)小模型還是提示大模型?ServiceNow揭秘低代碼工作流程生成的最佳選擇

2025-06-05 09:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 09:32 ? 科技行者

近日,來自ServiceNow的研究團隊Orlando Marquez Ayala、Patrice Bechard、Emily Chen、Maggie Baird和Jingfei Chen在2025年5月30日發(fā)表了一篇題為"Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows"的研究論文。這項研究針對一個實際應用場景進行了深入探索:在生成低代碼工作流程時,到底是微調(diào)小型語言模型更有效,還是直接提示大型語言模型更劃算?隨著大型語言模型(LLM)如GPT-4o等的不斷發(fā)展和每個token成本的降低,微調(diào)小型語言模型(SLM)的優(yōu)勢似乎變得不那么明顯。那么在實際應用中,這兩種方法哪一種更勝一籌呢?讓我們一起來看看ServiceNow團隊的發(fā)現(xiàn)。

一、研究背景:工作流自動化的挑戰(zhàn)

想象一下,你是一家企業(yè)的IT管理員,每天都需要處理大量重復但復雜的流程。比如"當用戶變?yōu)榉腔钴S狀態(tài)時,找出該用戶負責的所有事件工單,并將它們分配給用戶的經(jīng)理"。這看似簡單的任務,實際上需要系統(tǒng)執(zhí)行多個步驟:檢測用戶狀態(tài)變化、查找相關(guān)工單、循環(huán)處理每個工單、更新工單信息等。

在企業(yè)環(huán)境中,這類重復性任務通常通過"工作流"來自動化處理。雖然現(xiàn)代企業(yè)系統(tǒng)提供了低代碼界面來創(chuàng)建這些工作流,但用戶仍然需要了解系統(tǒng)的專業(yè)知識。就像你想要使用家庭自動化系統(tǒng),即使有圖形界面,你也需要知道哪些設備可以連接,以及如何設置它們之間的關(guān)系。

ServiceNow團隊正在開發(fā)一個名為"Flow Generation"的應用,它能根據(jù)用戶的文字需求自動生成這些低代碼工作流。這就像是給你一個智能助手,你只需說"當我離家時,關(guān)閉所有燈并鎖上門",它就能自動創(chuàng)建完整的家庭自動化流程。

但是,創(chuàng)建這樣的工作流面臨著幾個主要挑戰(zhàn):

首先,每個系統(tǒng)環(huán)境中可用的步驟各不相同,就像不同品牌的智能家居設備提供不同功能一樣。用戶甚至可以添加自定義步驟,進一步增加了復雜性。

其次,工作流必須遵循嚴格的結(jié)構(gòu)規(guī)則,包括條件(如IF語句)和循環(huán)(如FOREACH)等概念,就像編程一樣需要遵循語法規(guī)則。

再者,每個步驟會產(chǎn)生特定類型的輸出數(shù)據(jù)(如整數(shù)或布爾值),這些輸出可用于后續(xù)步驟,形成一個連貫的數(shù)據(jù)流。

最后,步驟的輸入可以引用數(shù)據(jù)庫表、列和值。例如,在查找事件記錄的步驟中,需要匹配事件表中"assigned_to"列的值與觸發(fā)步驟中的用戶記錄值,這就像在Excel中使用VLOOKUP函數(shù)查找相關(guān)數(shù)據(jù)。

二、研究方法:微調(diào)小模型 VS 提示大模型

面對這樣復雜的任務,ServiceNow團隊探索了兩種主要方法:直接使用現(xiàn)成的大型語言模型(LLM)通過精心設計的提示來生成工作流,或者微調(diào)一個小型語言模型(SLM)以專門處理這項任務。

想象一下,這就像是在兩個選擇之間權(quán)衡:是聘請一位經(jīng)驗豐富的通用咨詢顧問(大模型)并向他詳細解釋你的企業(yè)需求,還是培訓一位新員工(小模型)專門處理你公司的特定任務。通用顧問可能知識面更廣,但可能需要更多時間來理解你的具體需求;而經(jīng)過專門培訓的員工雖然知識面不那么廣,但對你的業(yè)務流程可能更加熟悉。

研究團隊的方法很直接:他們創(chuàng)建了一個小型但具有代表性的訓練數(shù)據(jù)集,用于微調(diào)Mistral-Nemo-12B-Base模型(這個模型有120億參數(shù),相比之下,GPT-4o等大模型可能有數(shù)萬億參數(shù))。這就像是給新員工提供一套精心設計的培訓材料,涵蓋公司的各種典型場景。

為了測試效果,他們標注了大約一千個來自十個不同領域的工作流(每個領域約100個)。此外,他們還邀請企業(yè)用戶專家與該工具交互,收集了真實使用場景生成的數(shù)據(jù)。這相當于既準備了標準測試案例,又進行了實際用戶測試。

在評估指標方面,團隊開發(fā)了一個名為"Flow Similarity"(FlowSim)的度量標準,這是一種樹編輯距離的變體,將工作流表示為樹結(jié)構(gòu)來比較生成結(jié)果與預期結(jié)果的相似度。想象成比較兩張家譜樹的相似程度,看看節(jié)點和連接有多少是匹配的。

三、數(shù)據(jù)集與模型:從理論到實踐的跨越

為了確保研究結(jié)果的可靠性,研究團隊精心準備了多個數(shù)據(jù)集。他們從內(nèi)部部署的企業(yè)系統(tǒng)中提取了1,512個工作流,并由專業(yè)團隊將這些工作流用自然語言描述出來,就像用戶可能提出的需求一樣。由于現(xiàn)有工作流通常是完整的,而用戶在實際使用中可能會先創(chuàng)建簡單版本再逐步添加復雜性,團隊還使用領域?qū)I(yè)知識創(chuàng)建了766個較簡單的合成工作流。

這就像是同時準備了專業(yè)級和入門級的烹飪食譜,以測試AI系統(tǒng)能否適應不同復雜度的需求。

評估數(shù)據(jù)分為兩部分:一部分是從10個客戶部署中提取的約1,000個工作流(OOD集),涵蓋零售、銀行等不同領域;另一部分是邀請專家用戶模擬與應用交互生成的108個工作流(TEST集)。前者代表了完整的專業(yè)工作流,后者更接近真實用戶的使用場景。

在模型選擇方面,研究團隊考慮了多個小型語言模型,最終選擇了Mistral-Nemo-12B-Base,主要是因為這個模型架構(gòu)在企業(yè)系統(tǒng)中得到了良好支持和優(yōu)化。作為基線,他們使用了同樣架構(gòu)和大小但沒有在工作流領域數(shù)據(jù)上微調(diào)的Mistral-Nemo-12B-Instruct模型。

他們還比較了多種大型語言模型: - 封閉源碼模型:GPT-4o-mini、GPT-4o和Gemini-2.0-Flash - 開源模型:Llama-3.3-70B-Instruct - 推理增強模型:o3-mini(配置為中等推理水平)

為了讓這些模型處理工作流生成任務,研究團隊設計了兩個提示模板,分別用于生成工作流大綱和填充步驟輸入。這些模板包含上下文信息、任務定義、輸入數(shù)據(jù)、指南、約束條件和輸出格式等部分。在提示大型語言模型之前,這些模板會根據(jù)系統(tǒng)數(shù)據(jù)和檢索到的建議進行動態(tài)填充。

四、研究流程:分解復雜任務為簡單步驟

由于工作流是復雜的結(jié)構(gòu)化輸出,需要在步驟和輸入中使用各種數(shù)據(jù),研究團隊設計了一個依賴檢索增強生成(RAG)的流水線,通過讓語言模型逐步解決子任務來迭代生成工作流。

這個過程就像是拆解一個復雜的樂高積木組裝任務。首先,你需要整體規(guī)劃(生成工作流大綱),然后再逐步處理每個細節(jié)(生成每個步驟的具體輸入)。

具體來說,工作流生成被分解為兩個主要階段:

第一階段:根據(jù)用戶的自然語言需求,生成工作流的計劃或大綱,確定步驟名稱、執(zhí)行順序,并從需求中提取每個步驟的注釋(描述)。

第二階段:對于大綱中的每個步驟,使用其注釋從環(huán)境中收集必要的數(shù)據(jù),并生成步驟輸入。

連接這兩個階段的關(guān)鍵是"注釋",它們不僅解釋了生成的步驟,還允許模型填充步驟詳情。當系統(tǒng)檢索表名或列名等數(shù)據(jù)時,這些注釋是搜索輸入的重要組成部分。

在實際系統(tǒng)架構(gòu)中,用戶界面接收用戶需求并顯示生成的工作流;AI層包含語言模型和檢索器;數(shù)據(jù)層存儲索引的數(shù)據(jù)源,檢索器從中向語言模型提供步驟和數(shù)據(jù)元素建議。數(shù)據(jù)層可以在系統(tǒng)的每次安裝中被替換,允許語言模型為每個客戶生成特定的輸出。

五、研究結(jié)果:數(shù)據(jù)勝于規(guī)模的明顯證據(jù)

研究團隊的結(jié)果令人深思。總的來說,微調(diào)的小型語言模型在這個領域特定任務上確實表現(xiàn)出了優(yōu)勢,平均提高了約10%的質(zhì)量。

當我們查看具體數(shù)字時,在小型TEST數(shù)據(jù)集上,微調(diào)的Mistral-Nemo-12B-Base模型在生成完整工作流(大綱和輸入)時實現(xiàn)了67.8%的FlowSim分數(shù),而GPT-4o為59.8%,Gemini-2.0-Flash為60.6%。在更大的OOD數(shù)據(jù)集上,差距更為明顯:微調(diào)模型達到79.8%,而GPT-4o為67.4%。

這就像是比較一位經(jīng)過專門培訓的新員工和一位經(jīng)驗豐富的通用顧問的表現(xiàn)。雖然通用顧問知識面更廣,但在特定領域任務上,專門培訓的員工能更準確地完成工作。

更值得注意的是結(jié)構(gòu)錯誤方面的差異。在TEST數(shù)據(jù)集上,GPT-4o生成的工作流中有12.0%存在至少一個結(jié)構(gòu)錯誤(如在沒有IF的情況下使用ELSE步驟),而微調(diào)的SLM只有5.6%。這表明微調(diào)的模型更好地理解了工作流的結(jié)構(gòu)規(guī)則。

研究團隊還進行了另一項實驗,看看檢索增強生成(RAG)的質(zhì)量對結(jié)果的影響。他們發(fā)現(xiàn)即使使用"完美RAG"(所有預期工作流中的步驟都包含在建議中),改進也只有最多4%,這表明大多數(shù)錯誤來自模型本身,而不是檢索質(zhì)量不佳。

六、錯誤分析:理解模型的局限性

為了更深入地了解各個模型的表現(xiàn),研究團隊進行了系統(tǒng)的錯誤分析。他們首先通過定性錯誤分析,識別出了訓練數(shù)據(jù)集中影響模型輸出的特征,然后將這些特征組織成一個二元矩陣(1表示特征存在,0表示不存在)。

這種方法就像是醫(yī)生分析多個病例,找出共同的癥狀模式,從而更好地理解疾病。通過這種方式,研究團隊可以快速評估新模型運行的表現(xiàn),而無需逐個樣本進行評審。

他們在TEST數(shù)據(jù)集上重點關(guān)注了三類特征: 1. 結(jié)構(gòu)(STRUCTURE):包含結(jié)構(gòu)邏輯特征,如FOREACH、PARALLEL和TRY/CATCH 2. 輸入(INPUT):包含輸入相關(guān)特征,如工作筆記/描述、觸發(fā)條件和多條件 3. 企業(yè)(ENTERPRISE):包含特定于企業(yè)系統(tǒng)的特征,如服務級別協(xié)議(SLA)、服務目錄和Glide日期時間

研究發(fā)現(xiàn),微調(diào)的SLM在包含結(jié)構(gòu)邏輯步驟的工作流上表現(xiàn)不如大型語言模型。進一步分析表明,SLM經(jīng)常錯過與這些結(jié)構(gòu)相關(guān)的依賴步驟(例如,F(xiàn)OREACH通常與之前的look_up_records步驟配對,PARALLEL應該始終包含多個分支)。

然而,微調(diào)的SLM在其余兩個子集上始終優(yōu)于大型語言模型。最大的差距出現(xiàn)在ENTERPRISE集上,微調(diào)SLM的平均FlowSim分數(shù)比GPT-4o高12.16%,比Gemini-2.0-Flash高5.35%。研究團隊推測,通過示例學習比在提示中包含復雜指令更有效,這是由于工作流領域的復雜性和特殊性。

最后,研究團隊觀察到,TEST數(shù)據(jù)集中的工作流步驟和條件通常以隱含方式表達。例如,需求"查找事件任務并關(guān)閉它們"暗含了一個FOREACH和更新步驟,但并未明確說明。結(jié)果表明,微調(diào)的SLM在處理這類例子時遠優(yōu)于大型語言模型,F(xiàn)lowSim分數(shù)為65.1,而Gemini的為57.6,GPT-4o的為58.5。這表明標注過程的價值,因為這類例子是基于應用程序預期使用方式的標注指令的一部分。

七、結(jié)論與未來展望

ServiceNow團隊的研究為人工智能在企業(yè)軟件中的應用提供了重要見解。他們證明,對于生成低代碼工作流這類領域特定的結(jié)構(gòu)化輸出任務,微調(diào)小型語言模型比使用更大的通用語言模型更有效,平均質(zhì)量提高約10%。

這項研究的意義在于,它挑戰(zhàn)了"更大就是更好"的常見觀念。就像一個專注于特定領域的專家往往比知識面廣但深度不夠的通才更擅長解決該領域的問題一樣,經(jīng)過領域特定數(shù)據(jù)微調(diào)的小型模型可以在特定任務上超越更大的通用模型。

研究團隊還展示了一種系統(tǒng)的錯誤分析方法,揭示了模型的局限性并補充了定量指標。這種方法可以幫助開發(fā)人員識別模型的弱點并有針對性地改進。

未來的工作可能包括改進自定義指標和解決錯誤分析方法識別的差距。例如,研究團隊可能會探索如何改進小型語言模型在處理結(jié)構(gòu)邏輯步驟方面的能力,或者開發(fā)更復雜的評估方法,考慮到一個需求可能有多個有效的工作流實現(xiàn)方式。

總的來說,這項研究表明,盡管大型語言模型在許多任務上表現(xiàn)出色,但對于特定領域的復雜任務,精心微調(diào)的小型模型仍然具有明顯優(yōu)勢。這不僅可以提高質(zhì)量,還可能帶來更快的推理速度和更低的成本,這對于實際部署至關(guān)重要。

正如研究團隊所示,在人工智能應用開發(fā)中,模型大小并不是唯一重要的因素;數(shù)據(jù)質(zhì)量、領域適應性和任務分解策略同樣重要,甚至可能更為關(guān)鍵。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-