網(wǎng)絡(luò)安全是一場永無休止的攻與防較量。在這個(gè)戰(zhàn)場上,準(zhǔn)確識(shí)別攻擊者使用的技術(shù)至關(guān)重要,就像醫(yī)生需要精準(zhǔn)診斷病癥才能開出有效藥方。2025年5月,卡塔爾計(jì)算研究所的艾哈邁德·萊克薩伊斯(Ahmed Lekssays)、獨(dú)立研究員烏薩夫·舒克拉(Utsav Shukla)以及卡塔爾計(jì)算研究所的胡斯雷夫·塔哈·森卡爾(Husrev Taha Sencar)和穆罕默德·里茲萬·帕爾維茲(Md Rizwan Parvez)在論文《TECHNIQUERAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text》中,提出了一種創(chuàng)新的解決方案。這項(xiàng)研究發(fā)表于arXiv預(yù)印本平臺(tái)(arXiv:2505.11988v1),為安全分析師提供了更精準(zhǔn)的工具,幫助他們在復(fù)雜的安全報(bào)告中識(shí)別攻擊者的技術(shù)手段。
一、為什么我們需要自動(dòng)識(shí)別攻擊技術(shù)?
想象一下,你是一名網(wǎng)絡(luò)安全分析師,每天面對(duì)大量的安全報(bào)告和事件描述。這些文本中隱藏著攻擊者使用的戰(zhàn)術(shù)、技術(shù)和程序(TTPs)信息,但要手動(dòng)識(shí)別它們卻異常耗時(shí)且需要專業(yè)知識(shí)。就像在厚厚的偵探小說中找出關(guān)鍵線索一樣,這項(xiàng)工作既繁瑣又容易出錯(cuò)。
MITRE ATT&CK框架已成為網(wǎng)絡(luò)安全行業(yè)的標(biāo)準(zhǔn),它提供了一個(gè)全面的知識(shí)庫,用于分類和映射攻擊者的行為。然而,將模糊的威脅描述與標(biāo)準(zhǔn)化的ATT&CK(子)技術(shù)對(duì)應(yīng)起來是一項(xiàng)挑戰(zhàn)。例如,當(dāng)你看到"Monero礦工腳本從TeamTNT的服務(wù)器下載,并通過使用存儲(chǔ)在'/tmp/TeamTNT'的私鑰以'root'用戶身份建立的SSH會(huì)話管道到'bash'"這樣的描述時(shí),你需要識(shí)別出多個(gè)相關(guān)技術(shù),如"T1098.004:SSH授權(quán)密鑰"、"T1195:供應(yīng)鏈攻擊"、"T1059.004:Unix Shell"等。
現(xiàn)有的自動(dòng)識(shí)別方法面臨一個(gè)根本性的權(quán)衡:它們要么依賴通用模型(準(zhǔn)確性有限),要么需要資源密集型管道(依賴大量標(biāo)記數(shù)據(jù)和特定任務(wù)優(yōu)化)。這就像是在選擇快速但粗略的草圖和精細(xì)但耗時(shí)的油畫之間做選擇。而在專業(yè)領(lǐng)域中,像網(wǎng)絡(luò)安全這樣的專業(yè)領(lǐng)域中,我們很少有足夠的資源來支持后者。
二、TECHNIQUERAG:構(gòu)建一座通用性和專業(yè)性之間的橋梁
TECHNIQUERAG像是一位經(jīng)驗(yàn)豐富的偵探助手,它能夠在有限的線索和資源下,幫助分析師快速定位攻擊技術(shù)。這個(gè)框架采用了一種領(lǐng)域特定的檢索增強(qiáng)生成(RAG)方法,巧妙地將三個(gè)關(guān)鍵部分組合在一起:現(xiàn)成的檢索器、經(jīng)過指令微調(diào)的大語言模型(LLM)和最少量的文本-技術(shù)配對(duì)數(shù)據(jù)。
想象一下,這就像是一個(gè)三步法烹飪菜肴:首先,我們使用現(xiàn)成的食材(檢索器從現(xiàn)有數(shù)據(jù)中找出相關(guān)例子);然后,我們有一位經(jīng)驗(yàn)豐富的廚師(LLM重新排序這些例子);最后,我們有一本精簡的食譜(少量的文本-技術(shù)配對(duì)數(shù)據(jù)用于微調(diào)生成模型)。
TECHNIQUERAG通過兩個(gè)創(chuàng)新點(diǎn)解決了現(xiàn)有方法的局限性:
首先,它巧妙地緩解了數(shù)據(jù)稀缺問題。傳統(tǒng)方法需要大量的標(biāo)記數(shù)據(jù)來訓(xùn)練整個(gè)系統(tǒng),但TECHNIQUERAG只對(duì)生成組件進(jìn)行微調(diào),僅使用有限的領(lǐng)域內(nèi)示例,從而避免了對(duì)檢索組件進(jìn)行資源密集型的訓(xùn)練。這就像是我們不需要從頭開始訓(xùn)練一名偵探,而只需要教會(huì)他如何使用現(xiàn)有的工具和少量示例進(jìn)行推理。
其次,它增強(qiáng)了檢索質(zhì)量和領(lǐng)域特定性。雖然常規(guī)的RAG方法通過耦合檢索和生成來減少"幻覺"(AI生成不存在的內(nèi)容),但它們對(duì)通用檢索器的依賴往往會(huì)引入噪聲候選項(xiàng),從而限制了領(lǐng)域特定的精確性。TECHNIQUERAG通過零樣本LLM重新排序來解決這個(gè)問題,明確地將檢索到的候選項(xiàng)與對(duì)抗性技術(shù)對(duì)齊。這就像是讓一位專家對(duì)初步搜集的線索進(jìn)行二次篩選,確保它們真正與案件相關(guān)。
三、TECHNIQUERAG如何工作?
讓我們深入了解TECHNIQUERAG的工作原理,就像拆解一臺(tái)精密儀器看它內(nèi)部的齒輪如何運(yùn)轉(zhuǎn)。
首先,我們需要理解問題:給定一段安全文本(如攻擊行為描述),我們的目標(biāo)是預(yù)測相應(yīng)的對(duì)抗性(子)技術(shù),這些技術(shù)來自MITRE ATT&CK框架中定義的標(biāo)準(zhǔn)集合。
TECHNIQUERAG框架包含三個(gè)主要組件:檢索器、重新排序器和生成器。
**檢索器:找出相似的案例**
檢索器的工作就像是在案例檔案庫中查找類似案例。當(dāng)收到一個(gè)查詢安全文本時(shí),檢索器會(huì)在已有的數(shù)據(jù)集中找出最相關(guān)的文本和相應(yīng)的技術(shù)對(duì)。比如,當(dāng)看到一個(gè)描述使用PowerShell下載文件的文本時(shí),它會(huì)找出過去類似的例子,如"PowerShell.exe從45.33.12.x下載文件"及其對(duì)應(yīng)的技術(shù)標(biāo)簽(如T1059.001、T1105)。
TECHNIQUERAG可以使用任何現(xiàn)成的檢索器,不論是基于關(guān)鍵詞的(如BM25)還是基于語義的(如預(yù)訓(xùn)練的句子嵌入模型)。這種靈活性使系統(tǒng)能夠適應(yīng)不同的場景和資源限制。
**重新排序器:專家審核初步結(jié)果**
檢索出初步的候選項(xiàng)后,LLM重新排序器會(huì)對(duì)它們進(jìn)行更精細(xì)的評(píng)估。這不是簡單的排序,而是一次深入的分析過程,考慮到安全領(lǐng)域的特殊需求。
重新排序器面臨三個(gè)關(guān)鍵挑戰(zhàn),并通過巧妙的提示工程來解決:
首先,安全文本中很少提供技術(shù)映射的明確理由。例如,文本"惡意軟件連接到C2使用自定義編碼"暗示了命令與控制(TA0011)和防御規(guī)避(TA0005)策略,但并未直接說明這種關(guān)系。重新排序器指導(dǎo)LLM通過結(jié)構(gòu)化推理來分解這些隱含連接,將文本拆解為不同的攻擊步驟或階段,識(shí)別任何隱含或明確提到的行為。
其次,安全活動(dòng)通常涉及多種技術(shù)。重新排序器確保通過并行評(píng)估進(jìn)行全面覆蓋,指導(dǎo)LLM探索每種可能的技術(shù)。對(duì)于同一個(gè)查詢"惡意軟件連接到C2使用自定義編碼",它會(huì)分析主要技術(shù)(T1071應(yīng)用層協(xié)議,因?yàn)橹苯拥腃2通信行為)和次要技術(shù)(T1027混淆文件或信息,因?yàn)槭褂米远x編碼進(jìn)行規(guī)避)。
第三,某些技術(shù)有多個(gè)子技術(shù),而有些則沒有。TECHNIQUERAG評(píng)估它們之間的細(xì)微差異,來指導(dǎo)整體排名。它不僅分析主要技術(shù),還評(píng)估特定的子技術(shù)是否適用,比如對(duì)編碼PowerShell腳本的查詢,會(huì)識(shí)別出PowerShell的精確子技術(shù)T1059.001。
這種結(jié)構(gòu)化、推理式的方法使重新排序器能夠重新排列候選項(xiàng),同時(shí)保持與ATT&CK分類法的一致性,解決初始檢索中的模糊之處。
**生成器:產(chǎn)生最終答案**
生成器是系統(tǒng)的最后一環(huán),它接收查詢文本和重新排序后的候選項(xiàng),然后生成最終的技術(shù)標(biāo)注。生成器通過微調(diào)訓(xùn)練,學(xué)習(xí)如何根據(jù)上下文生成最相關(guān)的技術(shù)。
這個(gè)過程就像是一位有經(jīng)驗(yàn)的偵探,在檢查了所有證據(jù)和相似案例后,做出最終的判斷。生成器被設(shè)計(jì)為不僅關(guān)注文本的直接內(nèi)容,還考慮到示例中提供的上下文,從而減少"幻覺"并提高預(yù)測的準(zhǔn)確性。
四、實(shí)驗(yàn)設(shè)置與實(shí)施細(xì)節(jié)
研究團(tuán)隊(duì)在三個(gè)安全基準(zhǔn)數(shù)據(jù)集上測試了TECHNIQUERAG,這些數(shù)據(jù)集代表了不同的挑戰(zhàn)級(jí)別:Tram(單標(biāo)簽,包含198個(gè)唯一技術(shù))、Procedures(單標(biāo)簽,包含488個(gè)唯一技術(shù))和Expert(多標(biāo)簽,包含290個(gè)唯一技術(shù))。
作為檢索器,團(tuán)隊(duì)使用了BM25,設(shè)置為檢索前40個(gè)結(jié)果,并選擇前3個(gè)用于增強(qiáng)。對(duì)于重新排序,他們使用了DeepSeek v3模型,處理批次大小為40,重疊為20。生成器則是一個(gè)8B參數(shù)的Ministral Instruct模型,通過LoRA方法進(jìn)行微調(diào)。
為了全面評(píng)估TECHNIQUERAG的性能,研究團(tuán)隊(duì)將其與多種基線方法進(jìn)行比較:
基于檢索/排序的方法:包括NCE(用于對(duì)比領(lǐng)域特定學(xué)習(xí))、Text2TTP(結(jié)合雙編碼器語義搜索和交叉編碼器重新排序)、基礎(chǔ)BM25檢索器和RankGPT重新排序框架。
基于生成的方法:包括強(qiáng)大的LLM模型如GPT-4、DeepSeek V3和Ministral 8B。對(duì)每個(gè)模型,團(tuán)隊(duì)實(shí)現(xiàn)了直接提示和思維鏈方法與自反思。他們還比較了IntelEX,這是一種混合檢索和LLM判斷方法。
此外,研究團(tuán)隊(duì)還實(shí)現(xiàn)了上述LLM的檢索增強(qiáng)版本,使用來自TECHNIQUERAG檢索和重新排序的相同示例。
五、令人印象深刻的實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果令人振奮,證明了TECHNIQUERAG的有效性和優(yōu)勢。
在技術(shù)級(jí)別預(yù)測方面,TECHNIQUERAG在Procedures數(shù)據(jù)集上取得了91.09%的F1分?jǐn)?shù),遠(yuǎn)超其他方法。在更具挑戰(zhàn)性的Expert數(shù)據(jù)集上,它達(dá)到了50.19%的F1分?jǐn)?shù),與專有模型GPT-4o(RAG)的51.30%相當(dāng)。當(dāng)計(jì)算三個(gè)數(shù)據(jù)集上的平均F1分?jǐn)?shù)時(shí),TECHNIQUERAG達(dá)到了約80.76%,而GPT-4o(RAG)僅約58.11%。
在子技術(shù)級(jí)別預(yù)測方面,我們看到了類似的趨勢。TECHNIQUERAG在Procedures上保持領(lǐng)先(F1為88.11%,而NCE為73.74%),并在Expert上取得了與GPT-4o(RAG)相近的性能(42.22%比43.73%)。
多標(biāo)簽預(yù)測任務(wù)證明比單標(biāo)簽更具挑戰(zhàn)性。例如,GPT-4o在Procedure(單標(biāo)簽)數(shù)據(jù)集上達(dá)到了76.75%的F1分?jǐn)?shù),但在Expert(多標(biāo)簽)數(shù)據(jù)集上僅為19.77%。雖然檢索增強(qiáng)生成提高了所有生成模型的性能,但開源LLM的提升仍然有限。
重新排序器的貢獻(xiàn)尤為突出。在Expert數(shù)據(jù)集上的排名方法比較中,TECHNIQUERAG的重新排序器在技術(shù)級(jí)別取得了47.2%的F1@1分?jǐn)?shù),遠(yuǎn)高于其他方法,如NCE(35.9%)和Text2TTP(35.1%)。
六、深入分析:TECHNIQUERAG的優(yōu)勢與局限性
TECHNIQUERAG方法的成功歸功于幾個(gè)關(guān)鍵因素的結(jié)合。
首先,它優(yōu)雅地解決了數(shù)據(jù)稀缺性問題。網(wǎng)絡(luò)安全領(lǐng)域特有的標(biāo)記數(shù)據(jù)有限——盡管MITRE ATT&CK框架定義了550多種對(duì)抗性(子)技術(shù),但公開可用的標(biāo)記示例僅約10,000個(gè)。TECHNIQUERAG通過僅對(duì)生成組件進(jìn)行微調(diào),最大化了這些有限數(shù)據(jù)的使用。
其次,通過零樣本LLM重新排序,TECHNIQUERAG增強(qiáng)了領(lǐng)域特定性,而無需額外的訓(xùn)練數(shù)據(jù)。普通LLM在排序?qū)剐裕ㄗ樱┘夹g(shù)時(shí)面臨挑戰(zhàn),因?yàn)檫@需要區(qū)分可能在文本中共同出現(xiàn)且沒有明確指標(biāo)的細(xì)微不同技術(shù)。TECHNIQUERAG通過結(jié)構(gòu)化分解和明確推理解決了這一問題。
然而,研究也揭示了一些限制和挑戰(zhàn):
預(yù)測不足:模型通常能夠捕捉主要技術(shù),但可能錯(cuò)過同一攻擊模式中的相關(guān)技術(shù)。例如,識(shí)別T1055(進(jìn)程注入)但錯(cuò)過T1106(本機(jī)API)。
上下文錯(cuò)誤:模型在區(qū)分同一策略族內(nèi)的類似技術(shù)時(shí)面臨困難,特別是命令和腳本解釋器技術(shù)(T1059.*)。它還可能錯(cuò)過文本中隱含但未明確說明的技術(shù)。
層次問題:在處理父子技術(shù)關(guān)系時(shí)存在困難,有時(shí)會(huì)生成無效的子技術(shù)ID。
重新排序器限制:由于模糊查詢和復(fù)合語句,某些技術(shù)被遺漏,并通過傳播影響生成器。
技術(shù)相似性:難以區(qū)分具有重疊描述和關(guān)鍵詞的技術(shù)(如網(wǎng)絡(luò)釣魚相關(guān)技術(shù)T1598.003、T1566.002、T1204.001)。
類別不平衡的影響:模型性能受到數(shù)據(jù)不平衡的根本影響——在203種技術(shù)中,只有47種(23.2%)有超過50個(gè)訓(xùn)練樣本。數(shù)據(jù)豐富的技術(shù)顯示出高精確度和召回率,而稀有技術(shù)則受到誤分類和預(yù)測不足的困擾。
七、TECHNIQUERAG對(duì)安全領(lǐng)域的意義
從MITRE ATT&CK框架中標(biāo)注威脅情報(bào)文本中的對(duì)抗性技術(shù)是安全分析師每天必須執(zhí)行的手動(dòng)和耗時(shí)任務(wù)。其自動(dòng)化需要能夠在數(shù)百種可能性中準(zhǔn)確識(shí)別技術(shù)和子技術(shù)的方法,同時(shí)處理復(fù)雜的安全術(shù)語、多樣的文本格式和有限的標(biāo)記數(shù)據(jù)。
TECHNIQUERAG通過檢索增強(qiáng)微調(diào)方法有效地解決了這些挑戰(zhàn)。它不僅在技術(shù)性能上超越了現(xiàn)有方法,還提供了一個(gè)實(shí)用的框架,該框架可以利用有限的資源進(jìn)行部署和使用。
對(duì)于網(wǎng)絡(luò)安全行業(yè),這意味著:
更高效的威脅情報(bào)處理:分析師可以更快地處理更多的報(bào)告,從文本中自動(dòng)提取關(guān)鍵技術(shù)信息。
更一致的分析:減少依賴分析師個(gè)人專業(yè)知識(shí)的差異,提供更標(biāo)準(zhǔn)化的結(jié)果。
更好的知識(shí)共享:系統(tǒng)地映射技術(shù)可以改進(jìn)組織間的信息共享和威脅情報(bào)的整合。
在不斷發(fā)展的網(wǎng)絡(luò)安全領(lǐng)域,TECHNIQUERAG代表了一個(gè)重要進(jìn)步,將人工智能的最新進(jìn)展應(yīng)用于實(shí)際安全挑戰(zhàn),幫助防御者更好地理解和應(yīng)對(duì)復(fù)雜的威脅形勢。
八、未來研究方向
盡管TECHNIQUERAG取得了顯著成果,但研究團(tuán)隊(duì)也認(rèn)識(shí)到了一些局限性和未來改進(jìn)的方向:
數(shù)據(jù)平衡和覆蓋:獲取更加平衡的訓(xùn)練數(shù)據(jù),特別是對(duì)于那些在現(xiàn)有數(shù)據(jù)集中代表性不足的技術(shù)。這就像是確保我們的偵探有足夠多樣的案例經(jīng)驗(yàn),涵蓋各種類型的犯罪手法。
上下文理解增強(qiáng):改進(jìn)模型在識(shí)別文本中隱含但未明確說明的技術(shù)方面的能力,這需要更深入的上下文理解和推理能力。
跨語言和跨格式支持:擴(kuò)展框架以支持多語言威脅情報(bào)和各種文檔格式,增強(qiáng)其在國際網(wǎng)絡(luò)安全環(huán)境中的適用性。
這些改進(jìn)將進(jìn)一步增強(qiáng)TECHNIQUERAG框架的有效性和實(shí)用性,使其成為網(wǎng)絡(luò)安全社區(qū)中更加強(qiáng)大和全面的工具。
總的來說,TECHNIQUERAG不僅代表了一種技術(shù)創(chuàng)新,還為網(wǎng)絡(luò)安全領(lǐng)域中人工智能應(yīng)用開辟了新的可能性。它展示了如何將先進(jìn)的AI技術(shù)與領(lǐng)域?qū)I(yè)知識(shí)相結(jié)合,創(chuàng)造出既精確又實(shí)用的解決方案,幫助防御者在不斷演變的網(wǎng)絡(luò)威脅形勢中保持領(lǐng)先地位。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。