近日,來(lái)自ServiceNow的研究團(tuán)隊(duì)Orlando Marquez Ayala、Patrice Bechard、Emily Chen、Maggie Baird和Jingfei Chen在2025年5月30日發(fā)表了一篇題為"Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows"的研究論文。這項(xiàng)研究針對(duì)一個(gè)實(shí)際應(yīng)用場(chǎng)景進(jìn)行了深入探索:在生成低代碼工作流程時(shí),到底是微調(diào)小型語(yǔ)言模型更有效,還是直接提示大型語(yǔ)言模型更劃算?隨著大型語(yǔ)言模型(LLM)如GPT-4o等的不斷發(fā)展和每個(gè)token成本的降低,微調(diào)小型語(yǔ)言模型(SLM)的優(yōu)勢(shì)似乎變得不那么明顯。那么在實(shí)際應(yīng)用中,這兩種方法哪一種更勝一籌呢?讓我們一起來(lái)看看ServiceNow團(tuán)隊(duì)的發(fā)現(xiàn)。
一、研究背景:工作流自動(dòng)化的挑戰(zhàn)
想象一下,你是一家企業(yè)的IT管理員,每天都需要處理大量重復(fù)但復(fù)雜的流程。比如"當(dāng)用戶變?yōu)榉腔钴S狀態(tài)時(shí),找出該用戶負(fù)責(zé)的所有事件工單,并將它們分配給用戶的經(jīng)理"。這看似簡(jiǎn)單的任務(wù),實(shí)際上需要系統(tǒng)執(zhí)行多個(gè)步驟:檢測(cè)用戶狀態(tài)變化、查找相關(guān)工單、循環(huán)處理每個(gè)工單、更新工單信息等。
在企業(yè)環(huán)境中,這類重復(fù)性任務(wù)通常通過(guò)"工作流"來(lái)自動(dòng)化處理。雖然現(xiàn)代企業(yè)系統(tǒng)提供了低代碼界面來(lái)創(chuàng)建這些工作流,但用戶仍然需要了解系統(tǒng)的專業(yè)知識(shí)。就像你想要使用家庭自動(dòng)化系統(tǒng),即使有圖形界面,你也需要知道哪些設(shè)備可以連接,以及如何設(shè)置它們之間的關(guān)系。
ServiceNow團(tuán)隊(duì)正在開(kāi)發(fā)一個(gè)名為"Flow Generation"的應(yīng)用,它能根據(jù)用戶的文字需求自動(dòng)生成這些低代碼工作流。這就像是給你一個(gè)智能助手,你只需說(shuō)"當(dāng)我離家時(shí),關(guān)閉所有燈并鎖上門",它就能自動(dòng)創(chuàng)建完整的家庭自動(dòng)化流程。
但是,創(chuàng)建這樣的工作流面臨著幾個(gè)主要挑戰(zhàn):
首先,每個(gè)系統(tǒng)環(huán)境中可用的步驟各不相同,就像不同品牌的智能家居設(shè)備提供不同功能一樣。用戶甚至可以添加自定義步驟,進(jìn)一步增加了復(fù)雜性。
其次,工作流必須遵循嚴(yán)格的結(jié)構(gòu)規(guī)則,包括條件(如IF語(yǔ)句)和循環(huán)(如FOREACH)等概念,就像編程一樣需要遵循語(yǔ)法規(guī)則。
再者,每個(gè)步驟會(huì)產(chǎn)生特定類型的輸出數(shù)據(jù)(如整數(shù)或布爾值),這些輸出可用于后續(xù)步驟,形成一個(gè)連貫的數(shù)據(jù)流。
最后,步驟的輸入可以引用數(shù)據(jù)庫(kù)表、列和值。例如,在查找事件記錄的步驟中,需要匹配事件表中"assigned_to"列的值與觸發(fā)步驟中的用戶記錄值,這就像在Excel中使用VLOOKUP函數(shù)查找相關(guān)數(shù)據(jù)。
二、研究方法:微調(diào)小模型 VS 提示大模型
面對(duì)這樣復(fù)雜的任務(wù),ServiceNow團(tuán)隊(duì)探索了兩種主要方法:直接使用現(xiàn)成的大型語(yǔ)言模型(LLM)通過(guò)精心設(shè)計(jì)的提示來(lái)生成工作流,或者微調(diào)一個(gè)小型語(yǔ)言模型(SLM)以專門處理這項(xiàng)任務(wù)。
想象一下,這就像是在兩個(gè)選擇之間權(quán)衡:是聘請(qǐng)一位經(jīng)驗(yàn)豐富的通用咨詢顧問(wèn)(大模型)并向他詳細(xì)解釋你的企業(yè)需求,還是培訓(xùn)一位新員工(小模型)專門處理你公司的特定任務(wù)。通用顧問(wèn)可能知識(shí)面更廣,但可能需要更多時(shí)間來(lái)理解你的具體需求;而經(jīng)過(guò)專門培訓(xùn)的員工雖然知識(shí)面不那么廣,但對(duì)你的業(yè)務(wù)流程可能更加熟悉。
研究團(tuán)隊(duì)的方法很直接:他們創(chuàng)建了一個(gè)小型但具有代表性的訓(xùn)練數(shù)據(jù)集,用于微調(diào)Mistral-Nemo-12B-Base模型(這個(gè)模型有120億參數(shù),相比之下,GPT-4o等大模型可能有數(shù)萬(wàn)億參數(shù))。這就像是給新員工提供一套精心設(shè)計(jì)的培訓(xùn)材料,涵蓋公司的各種典型場(chǎng)景。
為了測(cè)試效果,他們標(biāo)注了大約一千個(gè)來(lái)自十個(gè)不同領(lǐng)域的工作流(每個(gè)領(lǐng)域約100個(gè))。此外,他們還邀請(qǐng)企業(yè)用戶專家與該工具交互,收集了真實(shí)使用場(chǎng)景生成的數(shù)據(jù)。這相當(dāng)于既準(zhǔn)備了標(biāo)準(zhǔn)測(cè)試案例,又進(jìn)行了實(shí)際用戶測(cè)試。
在評(píng)估指標(biāo)方面,團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為"Flow Similarity"(FlowSim)的度量標(biāo)準(zhǔn),這是一種樹(shù)編輯距離的變體,將工作流表示為樹(shù)結(jié)構(gòu)來(lái)比較生成結(jié)果與預(yù)期結(jié)果的相似度。想象成比較兩張家譜樹(shù)的相似程度,看看節(jié)點(diǎn)和連接有多少是匹配的。
三、數(shù)據(jù)集與模型:從理論到實(shí)踐的跨越
為了確保研究結(jié)果的可靠性,研究團(tuán)隊(duì)精心準(zhǔn)備了多個(gè)數(shù)據(jù)集。他們從內(nèi)部部署的企業(yè)系統(tǒng)中提取了1,512個(gè)工作流,并由專業(yè)團(tuán)隊(duì)將這些工作流用自然語(yǔ)言描述出來(lái),就像用戶可能提出的需求一樣。由于現(xiàn)有工作流通常是完整的,而用戶在實(shí)際使用中可能會(huì)先創(chuàng)建簡(jiǎn)單版本再逐步添加復(fù)雜性,團(tuán)隊(duì)還使用領(lǐng)域?qū)I(yè)知識(shí)創(chuàng)建了766個(gè)較簡(jiǎn)單的合成工作流。
這就像是同時(shí)準(zhǔn)備了專業(yè)級(jí)和入門級(jí)的烹飪食譜,以測(cè)試AI系統(tǒng)能否適應(yīng)不同復(fù)雜度的需求。
評(píng)估數(shù)據(jù)分為兩部分:一部分是從10個(gè)客戶部署中提取的約1,000個(gè)工作流(OOD集),涵蓋零售、銀行等不同領(lǐng)域;另一部分是邀請(qǐng)專家用戶模擬與應(yīng)用交互生成的108個(gè)工作流(TEST集)。前者代表了完整的專業(yè)工作流,后者更接近真實(shí)用戶的使用場(chǎng)景。
在模型選擇方面,研究團(tuán)隊(duì)考慮了多個(gè)小型語(yǔ)言模型,最終選擇了Mistral-Nemo-12B-Base,主要是因?yàn)檫@個(gè)模型架構(gòu)在企業(yè)系統(tǒng)中得到了良好支持和優(yōu)化。作為基線,他們使用了同樣架構(gòu)和大小但沒(méi)有在工作流領(lǐng)域數(shù)據(jù)上微調(diào)的Mistral-Nemo-12B-Instruct模型。
他們還比較了多種大型語(yǔ)言模型: - 封閉源碼模型:GPT-4o-mini、GPT-4o和Gemini-2.0-Flash - 開(kāi)源模型:Llama-3.3-70B-Instruct - 推理增強(qiáng)模型:o3-mini(配置為中等推理水平)
為了讓這些模型處理工作流生成任務(wù),研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)提示模板,分別用于生成工作流大綱和填充步驟輸入。這些模板包含上下文信息、任務(wù)定義、輸入數(shù)據(jù)、指南、約束條件和輸出格式等部分。在提示大型語(yǔ)言模型之前,這些模板會(huì)根據(jù)系統(tǒng)數(shù)據(jù)和檢索到的建議進(jìn)行動(dòng)態(tài)填充。
四、研究流程:分解復(fù)雜任務(wù)為簡(jiǎn)單步驟
由于工作流是復(fù)雜的結(jié)構(gòu)化輸出,需要在步驟和輸入中使用各種數(shù)據(jù),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)依賴檢索增強(qiáng)生成(RAG)的流水線,通過(guò)讓語(yǔ)言模型逐步解決子任務(wù)來(lái)迭代生成工作流。
這個(gè)過(guò)程就像是拆解一個(gè)復(fù)雜的樂(lè)高積木組裝任務(wù)。首先,你需要整體規(guī)劃(生成工作流大綱),然后再逐步處理每個(gè)細(xì)節(jié)(生成每個(gè)步驟的具體輸入)。
具體來(lái)說(shuō),工作流生成被分解為兩個(gè)主要階段:
第一階段:根據(jù)用戶的自然語(yǔ)言需求,生成工作流的計(jì)劃或大綱,確定步驟名稱、執(zhí)行順序,并從需求中提取每個(gè)步驟的注釋(描述)。
第二階段:對(duì)于大綱中的每個(gè)步驟,使用其注釋從環(huán)境中收集必要的數(shù)據(jù),并生成步驟輸入。
連接這兩個(gè)階段的關(guān)鍵是"注釋",它們不僅解釋了生成的步驟,還允許模型填充步驟詳情。當(dāng)系統(tǒng)檢索表名或列名等數(shù)據(jù)時(shí),這些注釋是搜索輸入的重要組成部分。
在實(shí)際系統(tǒng)架構(gòu)中,用戶界面接收用戶需求并顯示生成的工作流;AI層包含語(yǔ)言模型和檢索器;數(shù)據(jù)層存儲(chǔ)索引的數(shù)據(jù)源,檢索器從中向語(yǔ)言模型提供步驟和數(shù)據(jù)元素建議。數(shù)據(jù)層可以在系統(tǒng)的每次安裝中被替換,允許語(yǔ)言模型為每個(gè)客戶生成特定的輸出。
五、研究結(jié)果:數(shù)據(jù)勝于規(guī)模的明顯證據(jù)
研究團(tuán)隊(duì)的結(jié)果令人深思??偟膩?lái)說(shuō),微調(diào)的小型語(yǔ)言模型在這個(gè)領(lǐng)域特定任務(wù)上確實(shí)表現(xiàn)出了優(yōu)勢(shì),平均提高了約10%的質(zhì)量。
當(dāng)我們查看具體數(shù)字時(shí),在小型TEST數(shù)據(jù)集上,微調(diào)的Mistral-Nemo-12B-Base模型在生成完整工作流(大綱和輸入)時(shí)實(shí)現(xiàn)了67.8%的FlowSim分?jǐn)?shù),而GPT-4o為59.8%,Gemini-2.0-Flash為60.6%。在更大的OOD數(shù)據(jù)集上,差距更為明顯:微調(diào)模型達(dá)到79.8%,而GPT-4o為67.4%。
這就像是比較一位經(jīng)過(guò)專門培訓(xùn)的新員工和一位經(jīng)驗(yàn)豐富的通用顧問(wèn)的表現(xiàn)。雖然通用顧問(wèn)知識(shí)面更廣,但在特定領(lǐng)域任務(wù)上,專門培訓(xùn)的員工能更準(zhǔn)確地完成工作。
更值得注意的是結(jié)構(gòu)錯(cuò)誤方面的差異。在TEST數(shù)據(jù)集上,GPT-4o生成的工作流中有12.0%存在至少一個(gè)結(jié)構(gòu)錯(cuò)誤(如在沒(méi)有IF的情況下使用ELSE步驟),而微調(diào)的SLM只有5.6%。這表明微調(diào)的模型更好地理解了工作流的結(jié)構(gòu)規(guī)則。
研究團(tuán)隊(duì)還進(jìn)行了另一項(xiàng)實(shí)驗(yàn),看看檢索增強(qiáng)生成(RAG)的質(zhì)量對(duì)結(jié)果的影響。他們發(fā)現(xiàn)即使使用"完美RAG"(所有預(yù)期工作流中的步驟都包含在建議中),改進(jìn)也只有最多4%,這表明大多數(shù)錯(cuò)誤來(lái)自模型本身,而不是檢索質(zhì)量不佳。
六、錯(cuò)誤分析:理解模型的局限性
為了更深入地了解各個(gè)模型的表現(xiàn),研究團(tuán)隊(duì)進(jìn)行了系統(tǒng)的錯(cuò)誤分析。他們首先通過(guò)定性錯(cuò)誤分析,識(shí)別出了訓(xùn)練數(shù)據(jù)集中影響模型輸出的特征,然后將這些特征組織成一個(gè)二元矩陣(1表示特征存在,0表示不存在)。
這種方法就像是醫(yī)生分析多個(gè)病例,找出共同的癥狀模式,從而更好地理解疾病。通過(guò)這種方式,研究團(tuán)隊(duì)可以快速評(píng)估新模型運(yùn)行的表現(xiàn),而無(wú)需逐個(gè)樣本進(jìn)行評(píng)審。
他們?cè)赥EST數(shù)據(jù)集上重點(diǎn)關(guān)注了三類特征: 1. 結(jié)構(gòu)(STRUCTURE):包含結(jié)構(gòu)邏輯特征,如FOREACH、PARALLEL和TRY/CATCH 2. 輸入(INPUT):包含輸入相關(guān)特征,如工作筆記/描述、觸發(fā)條件和多條件 3. 企業(yè)(ENTERPRISE):包含特定于企業(yè)系統(tǒng)的特征,如服務(wù)級(jí)別協(xié)議(SLA)、服務(wù)目錄和Glide日期時(shí)間
研究發(fā)現(xiàn),微調(diào)的SLM在包含結(jié)構(gòu)邏輯步驟的工作流上表現(xiàn)不如大型語(yǔ)言模型。進(jìn)一步分析表明,SLM經(jīng)常錯(cuò)過(guò)與這些結(jié)構(gòu)相關(guān)的依賴步驟(例如,F(xiàn)OREACH通常與之前的look_up_records步驟配對(duì),PARALLEL應(yīng)該始終包含多個(gè)分支)。
然而,微調(diào)的SLM在其余兩個(gè)子集上始終優(yōu)于大型語(yǔ)言模型。最大的差距出現(xiàn)在ENTERPRISE集上,微調(diào)SLM的平均FlowSim分?jǐn)?shù)比GPT-4o高12.16%,比Gemini-2.0-Flash高5.35%。研究團(tuán)隊(duì)推測(cè),通過(guò)示例學(xué)習(xí)比在提示中包含復(fù)雜指令更有效,這是由于工作流領(lǐng)域的復(fù)雜性和特殊性。
最后,研究團(tuán)隊(duì)觀察到,TEST數(shù)據(jù)集中的工作流步驟和條件通常以隱含方式表達(dá)。例如,需求"查找事件任務(wù)并關(guān)閉它們"暗含了一個(gè)FOREACH和更新步驟,但并未明確說(shuō)明。結(jié)果表明,微調(diào)的SLM在處理這類例子時(shí)遠(yuǎn)優(yōu)于大型語(yǔ)言模型,F(xiàn)lowSim分?jǐn)?shù)為65.1,而Gemini的為57.6,GPT-4o的為58.5。這表明標(biāo)注過(guò)程的價(jià)值,因?yàn)檫@類例子是基于應(yīng)用程序預(yù)期使用方式的標(biāo)注指令的一部分。
七、結(jié)論與未來(lái)展望
ServiceNow團(tuán)隊(duì)的研究為人工智能在企業(yè)軟件中的應(yīng)用提供了重要見(jiàn)解。他們證明,對(duì)于生成低代碼工作流這類領(lǐng)域特定的結(jié)構(gòu)化輸出任務(wù),微調(diào)小型語(yǔ)言模型比使用更大的通用語(yǔ)言模型更有效,平均質(zhì)量提高約10%。
這項(xiàng)研究的意義在于,它挑戰(zhàn)了"更大就是更好"的常見(jiàn)觀念。就像一個(gè)專注于特定領(lǐng)域的專家往往比知識(shí)面廣但深度不夠的通才更擅長(zhǎng)解決該領(lǐng)域的問(wèn)題一樣,經(jīng)過(guò)領(lǐng)域特定數(shù)據(jù)微調(diào)的小型模型可以在特定任務(wù)上超越更大的通用模型。
研究團(tuán)隊(duì)還展示了一種系統(tǒng)的錯(cuò)誤分析方法,揭示了模型的局限性并補(bǔ)充了定量指標(biāo)。這種方法可以幫助開(kāi)發(fā)人員識(shí)別模型的弱點(diǎn)并有針對(duì)性地改進(jìn)。
未來(lái)的工作可能包括改進(jìn)自定義指標(biāo)和解決錯(cuò)誤分析方法識(shí)別的差距。例如,研究團(tuán)隊(duì)可能會(huì)探索如何改進(jìn)小型語(yǔ)言模型在處理結(jié)構(gòu)邏輯步驟方面的能力,或者開(kāi)發(fā)更復(fù)雜的評(píng)估方法,考慮到一個(gè)需求可能有多個(gè)有效的工作流實(shí)現(xiàn)方式。
總的來(lái)說(shuō),這項(xiàng)研究表明,盡管大型語(yǔ)言模型在許多任務(wù)上表現(xiàn)出色,但對(duì)于特定領(lǐng)域的復(fù)雜任務(wù),精心微調(diào)的小型模型仍然具有明顯優(yōu)勢(shì)。這不僅可以提高質(zhì)量,還可能帶來(lái)更快的推理速度和更低的成本,這對(duì)于實(shí)際部署至關(guān)重要。
正如研究團(tuán)隊(duì)所示,在人工智能應(yīng)用開(kāi)發(fā)中,模型大小并不是唯一重要的因素;數(shù)據(jù)質(zhì)量、領(lǐng)域適應(yīng)性和任務(wù)分解策略同樣重要,甚至可能更為關(guān)鍵。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。