網(wǎng)絡(luò)安全是一場永無休止的攻與防較量。在這個(gè)戰(zhàn)場上,準(zhǔn)確識別攻擊者使用的技術(shù)至關(guān)重要,就像醫(yī)生需要精準(zhǔn)診斷病癥才能開出有效藥方。2025年5月,卡塔爾計(jì)算研究所的艾哈邁德·萊克薩伊斯(Ahmed Lekssays)、獨(dú)立研究員烏薩夫·舒克拉(Utsav Shukla)以及卡塔爾計(jì)算研究所的胡斯雷夫·塔哈·森卡爾(Husrev Taha Sencar)和穆罕默德·里茲萬·帕爾維茲(Md Rizwan Parvez)在論文《TECHNIQUERAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text》中,提出了一種創(chuàng)新的解決方案。這項(xiàng)研究發(fā)表于arXiv預(yù)印本平臺(arXiv:2505.11988v1),為安全分析師提供了更精準(zhǔn)的工具,幫助他們在復(fù)雜的安全報(bào)告中識別攻擊者的技術(shù)手段。
一、為什么我們需要自動識別攻擊技術(shù)?
想象一下,你是一名網(wǎng)絡(luò)安全分析師,每天面對大量的安全報(bào)告和事件描述。這些文本中隱藏著攻擊者使用的戰(zhàn)術(shù)、技術(shù)和程序(TTPs)信息,但要手動識別它們卻異常耗時(shí)且需要專業(yè)知識。就像在厚厚的偵探小說中找出關(guān)鍵線索一樣,這項(xiàng)工作既繁瑣又容易出錯(cuò)。
MITRE ATT&CK框架已成為網(wǎng)絡(luò)安全行業(yè)的標(biāo)準(zhǔn),它提供了一個(gè)全面的知識庫,用于分類和映射攻擊者的行為。然而,將模糊的威脅描述與標(biāo)準(zhǔn)化的ATT&CK(子)技術(shù)對應(yīng)起來是一項(xiàng)挑戰(zhàn)。例如,當(dāng)你看到"Monero礦工腳本從TeamTNT的服務(wù)器下載,并通過使用存儲在'/tmp/TeamTNT'的私鑰以'root'用戶身份建立的SSH會話管道到'bash'"這樣的描述時(shí),你需要識別出多個(gè)相關(guān)技術(shù),如"T1098.004:SSH授權(quán)密鑰"、"T1195:供應(yīng)鏈攻擊"、"T1059.004:Unix Shell"等。
現(xiàn)有的自動識別方法面臨一個(gè)根本性的權(quán)衡:它們要么依賴通用模型(準(zhǔn)確性有限),要么需要資源密集型管道(依賴大量標(biāo)記數(shù)據(jù)和特定任務(wù)優(yōu)化)。這就像是在選擇快速但粗略的草圖和精細(xì)但耗時(shí)的油畫之間做選擇。而在專業(yè)領(lǐng)域中,像網(wǎng)絡(luò)安全這樣的專業(yè)領(lǐng)域中,我們很少有足夠的資源來支持后者。
二、TECHNIQUERAG:構(gòu)建一座通用性和專業(yè)性之間的橋梁
TECHNIQUERAG像是一位經(jīng)驗(yàn)豐富的偵探助手,它能夠在有限的線索和資源下,幫助分析師快速定位攻擊技術(shù)。這個(gè)框架采用了一種領(lǐng)域特定的檢索增強(qiáng)生成(RAG)方法,巧妙地將三個(gè)關(guān)鍵部分組合在一起:現(xiàn)成的檢索器、經(jīng)過指令微調(diào)的大語言模型(LLM)和最少量的文本-技術(shù)配對數(shù)據(jù)。
想象一下,這就像是一個(gè)三步法烹飪菜肴:首先,我們使用現(xiàn)成的食材(檢索器從現(xiàn)有數(shù)據(jù)中找出相關(guān)例子);然后,我們有一位經(jīng)驗(yàn)豐富的廚師(LLM重新排序這些例子);最后,我們有一本精簡的食譜(少量的文本-技術(shù)配對數(shù)據(jù)用于微調(diào)生成模型)。
TECHNIQUERAG通過兩個(gè)創(chuàng)新點(diǎn)解決了現(xiàn)有方法的局限性:
首先,它巧妙地緩解了數(shù)據(jù)稀缺問題。傳統(tǒng)方法需要大量的標(biāo)記數(shù)據(jù)來訓(xùn)練整個(gè)系統(tǒng),但TECHNIQUERAG只對生成組件進(jìn)行微調(diào),僅使用有限的領(lǐng)域內(nèi)示例,從而避免了對檢索組件進(jìn)行資源密集型的訓(xùn)練。這就像是我們不需要從頭開始訓(xùn)練一名偵探,而只需要教會他如何使用現(xiàn)有的工具和少量示例進(jìn)行推理。
其次,它增強(qiáng)了檢索質(zhì)量和領(lǐng)域特定性。雖然常規(guī)的RAG方法通過耦合檢索和生成來減少"幻覺"(AI生成不存在的內(nèi)容),但它們對通用檢索器的依賴往往會引入噪聲候選項(xiàng),從而限制了領(lǐng)域特定的精確性。TECHNIQUERAG通過零樣本LLM重新排序來解決這個(gè)問題,明確地將檢索到的候選項(xiàng)與對抗性技術(shù)對齊。這就像是讓一位專家對初步搜集的線索進(jìn)行二次篩選,確保它們真正與案件相關(guān)。
三、TECHNIQUERAG如何工作?
讓我們深入了解TECHNIQUERAG的工作原理,就像拆解一臺精密儀器看它內(nèi)部的齒輪如何運(yùn)轉(zhuǎn)。
首先,我們需要理解問題:給定一段安全文本(如攻擊行為描述),我們的目標(biāo)是預(yù)測相應(yīng)的對抗性(子)技術(shù),這些技術(shù)來自MITRE ATT&CK框架中定義的標(biāo)準(zhǔn)集合。
TECHNIQUERAG框架包含三個(gè)主要組件:檢索器、重新排序器和生成器。
**檢索器:找出相似的案例**
檢索器的工作就像是在案例檔案庫中查找類似案例。當(dāng)收到一個(gè)查詢安全文本時(shí),檢索器會在已有的數(shù)據(jù)集中找出最相關(guān)的文本和相應(yīng)的技術(shù)對。比如,當(dāng)看到一個(gè)描述使用PowerShell下載文件的文本時(shí),它會找出過去類似的例子,如"PowerShell.exe從45.33.12.x下載文件"及其對應(yīng)的技術(shù)標(biāo)簽(如T1059.001、T1105)。
TECHNIQUERAG可以使用任何現(xiàn)成的檢索器,不論是基于關(guān)鍵詞的(如BM25)還是基于語義的(如預(yù)訓(xùn)練的句子嵌入模型)。這種靈活性使系統(tǒng)能夠適應(yīng)不同的場景和資源限制。
**重新排序器:專家審核初步結(jié)果**
檢索出初步的候選項(xiàng)后,LLM重新排序器會對它們進(jìn)行更精細(xì)的評估。這不是簡單的排序,而是一次深入的分析過程,考慮到安全領(lǐng)域的特殊需求。
重新排序器面臨三個(gè)關(guān)鍵挑戰(zhàn),并通過巧妙的提示工程來解決:
首先,安全文本中很少提供技術(shù)映射的明確理由。例如,文本"惡意軟件連接到C2使用自定義編碼"暗示了命令與控制(TA0011)和防御規(guī)避(TA0005)策略,但并未直接說明這種關(guān)系。重新排序器指導(dǎo)LLM通過結(jié)構(gòu)化推理來分解這些隱含連接,將文本拆解為不同的攻擊步驟或階段,識別任何隱含或明確提到的行為。
其次,安全活動通常涉及多種技術(shù)。重新排序器確保通過并行評估進(jìn)行全面覆蓋,指導(dǎo)LLM探索每種可能的技術(shù)。對于同一個(gè)查詢"惡意軟件連接到C2使用自定義編碼",它會分析主要技術(shù)(T1071應(yīng)用層協(xié)議,因?yàn)橹苯拥腃2通信行為)和次要技術(shù)(T1027混淆文件或信息,因?yàn)槭褂米远x編碼進(jìn)行規(guī)避)。
第三,某些技術(shù)有多個(gè)子技術(shù),而有些則沒有。TECHNIQUERAG評估它們之間的細(xì)微差異,來指導(dǎo)整體排名。它不僅分析主要技術(shù),還評估特定的子技術(shù)是否適用,比如對編碼PowerShell腳本的查詢,會識別出PowerShell的精確子技術(shù)T1059.001。
這種結(jié)構(gòu)化、推理式的方法使重新排序器能夠重新排列候選項(xiàng),同時(shí)保持與ATT&CK分類法的一致性,解決初始檢索中的模糊之處。
**生成器:產(chǎn)生最終答案**
生成器是系統(tǒng)的最后一環(huán),它接收查詢文本和重新排序后的候選項(xiàng),然后生成最終的技術(shù)標(biāo)注。生成器通過微調(diào)訓(xùn)練,學(xué)習(xí)如何根據(jù)上下文生成最相關(guān)的技術(shù)。
這個(gè)過程就像是一位有經(jīng)驗(yàn)的偵探,在檢查了所有證據(jù)和相似案例后,做出最終的判斷。生成器被設(shè)計(jì)為不僅關(guān)注文本的直接內(nèi)容,還考慮到示例中提供的上下文,從而減少"幻覺"并提高預(yù)測的準(zhǔn)確性。
四、實(shí)驗(yàn)設(shè)置與實(shí)施細(xì)節(jié)
研究團(tuán)隊(duì)在三個(gè)安全基準(zhǔn)數(shù)據(jù)集上測試了TECHNIQUERAG,這些數(shù)據(jù)集代表了不同的挑戰(zhàn)級別:Tram(單標(biāo)簽,包含198個(gè)唯一技術(shù))、Procedures(單標(biāo)簽,包含488個(gè)唯一技術(shù))和Expert(多標(biāo)簽,包含290個(gè)唯一技術(shù))。
作為檢索器,團(tuán)隊(duì)使用了BM25,設(shè)置為檢索前40個(gè)結(jié)果,并選擇前3個(gè)用于增強(qiáng)。對于重新排序,他們使用了DeepSeek v3模型,處理批次大小為40,重疊為20。生成器則是一個(gè)8B參數(shù)的Ministral Instruct模型,通過LoRA方法進(jìn)行微調(diào)。
為了全面評估TECHNIQUERAG的性能,研究團(tuán)隊(duì)將其與多種基線方法進(jìn)行比較:
基于檢索/排序的方法:包括NCE(用于對比領(lǐng)域特定學(xué)習(xí))、Text2TTP(結(jié)合雙編碼器語義搜索和交叉編碼器重新排序)、基礎(chǔ)BM25檢索器和RankGPT重新排序框架。
基于生成的方法:包括強(qiáng)大的LLM模型如GPT-4、DeepSeek V3和Ministral 8B。對每個(gè)模型,團(tuán)隊(duì)實(shí)現(xiàn)了直接提示和思維鏈方法與自反思。他們還比較了IntelEX,這是一種混合檢索和LLM判斷方法。
此外,研究團(tuán)隊(duì)還實(shí)現(xiàn)了上述LLM的檢索增強(qiáng)版本,使用來自TECHNIQUERAG檢索和重新排序的相同示例。
五、令人印象深刻的實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果令人振奮,證明了TECHNIQUERAG的有效性和優(yōu)勢。
在技術(shù)級別預(yù)測方面,TECHNIQUERAG在Procedures數(shù)據(jù)集上取得了91.09%的F1分?jǐn)?shù),遠(yuǎn)超其他方法。在更具挑戰(zhàn)性的Expert數(shù)據(jù)集上,它達(dá)到了50.19%的F1分?jǐn)?shù),與專有模型GPT-4o(RAG)的51.30%相當(dāng)。當(dāng)計(jì)算三個(gè)數(shù)據(jù)集上的平均F1分?jǐn)?shù)時(shí),TECHNIQUERAG達(dá)到了約80.76%,而GPT-4o(RAG)僅約58.11%。
在子技術(shù)級別預(yù)測方面,我們看到了類似的趨勢。TECHNIQUERAG在Procedures上保持領(lǐng)先(F1為88.11%,而NCE為73.74%),并在Expert上取得了與GPT-4o(RAG)相近的性能(42.22%比43.73%)。
多標(biāo)簽預(yù)測任務(wù)證明比單標(biāo)簽更具挑戰(zhàn)性。例如,GPT-4o在Procedure(單標(biāo)簽)數(shù)據(jù)集上達(dá)到了76.75%的F1分?jǐn)?shù),但在Expert(多標(biāo)簽)數(shù)據(jù)集上僅為19.77%。雖然檢索增強(qiáng)生成提高了所有生成模型的性能,但開源LLM的提升仍然有限。
重新排序器的貢獻(xiàn)尤為突出。在Expert數(shù)據(jù)集上的排名方法比較中,TECHNIQUERAG的重新排序器在技術(shù)級別取得了47.2%的F1@1分?jǐn)?shù),遠(yuǎn)高于其他方法,如NCE(35.9%)和Text2TTP(35.1%)。
六、深入分析:TECHNIQUERAG的優(yōu)勢與局限性
TECHNIQUERAG方法的成功歸功于幾個(gè)關(guān)鍵因素的結(jié)合。
首先,它優(yōu)雅地解決了數(shù)據(jù)稀缺性問題。網(wǎng)絡(luò)安全領(lǐng)域特有的標(biāo)記數(shù)據(jù)有限——盡管MITRE ATT&CK框架定義了550多種對抗性(子)技術(shù),但公開可用的標(biāo)記示例僅約10,000個(gè)。TECHNIQUERAG通過僅對生成組件進(jìn)行微調(diào),最大化了這些有限數(shù)據(jù)的使用。
其次,通過零樣本LLM重新排序,TECHNIQUERAG增強(qiáng)了領(lǐng)域特定性,而無需額外的訓(xùn)練數(shù)據(jù)。普通LLM在排序?qū)剐裕ㄗ樱┘夹g(shù)時(shí)面臨挑戰(zhàn),因?yàn)檫@需要區(qū)分可能在文本中共同出現(xiàn)且沒有明確指標(biāo)的細(xì)微不同技術(shù)。TECHNIQUERAG通過結(jié)構(gòu)化分解和明確推理解決了這一問題。
然而,研究也揭示了一些限制和挑戰(zhàn):
預(yù)測不足:模型通常能夠捕捉主要技術(shù),但可能錯(cuò)過同一攻擊模式中的相關(guān)技術(shù)。例如,識別T1055(進(jìn)程注入)但錯(cuò)過T1106(本機(jī)API)。
上下文錯(cuò)誤:模型在區(qū)分同一策略族內(nèi)的類似技術(shù)時(shí)面臨困難,特別是命令和腳本解釋器技術(shù)(T1059.*)。它還可能錯(cuò)過文本中隱含但未明確說明的技術(shù)。
層次問題:在處理父子技術(shù)關(guān)系時(shí)存在困難,有時(shí)會生成無效的子技術(shù)ID。
重新排序器限制:由于模糊查詢和復(fù)合語句,某些技術(shù)被遺漏,并通過傳播影響生成器。
技術(shù)相似性:難以區(qū)分具有重疊描述和關(guān)鍵詞的技術(shù)(如網(wǎng)絡(luò)釣魚相關(guān)技術(shù)T1598.003、T1566.002、T1204.001)。
類別不平衡的影響:模型性能受到數(shù)據(jù)不平衡的根本影響——在203種技術(shù)中,只有47種(23.2%)有超過50個(gè)訓(xùn)練樣本。數(shù)據(jù)豐富的技術(shù)顯示出高精確度和召回率,而稀有技術(shù)則受到誤分類和預(yù)測不足的困擾。
七、TECHNIQUERAG對安全領(lǐng)域的意義
從MITRE ATT&CK框架中標(biāo)注威脅情報(bào)文本中的對抗性技術(shù)是安全分析師每天必須執(zhí)行的手動和耗時(shí)任務(wù)。其自動化需要能夠在數(shù)百種可能性中準(zhǔn)確識別技術(shù)和子技術(shù)的方法,同時(shí)處理復(fù)雜的安全術(shù)語、多樣的文本格式和有限的標(biāo)記數(shù)據(jù)。
TECHNIQUERAG通過檢索增強(qiáng)微調(diào)方法有效地解決了這些挑戰(zhàn)。它不僅在技術(shù)性能上超越了現(xiàn)有方法,還提供了一個(gè)實(shí)用的框架,該框架可以利用有限的資源進(jìn)行部署和使用。
對于網(wǎng)絡(luò)安全行業(yè),這意味著:
更高效的威脅情報(bào)處理:分析師可以更快地處理更多的報(bào)告,從文本中自動提取關(guān)鍵技術(shù)信息。
更一致的分析:減少依賴分析師個(gè)人專業(yè)知識的差異,提供更標(biāo)準(zhǔn)化的結(jié)果。
更好的知識共享:系統(tǒng)地映射技術(shù)可以改進(jìn)組織間的信息共享和威脅情報(bào)的整合。
在不斷發(fā)展的網(wǎng)絡(luò)安全領(lǐng)域,TECHNIQUERAG代表了一個(gè)重要進(jìn)步,將人工智能的最新進(jìn)展應(yīng)用于實(shí)際安全挑戰(zhàn),幫助防御者更好地理解和應(yīng)對復(fù)雜的威脅形勢。
八、未來研究方向
盡管TECHNIQUERAG取得了顯著成果,但研究團(tuán)隊(duì)也認(rèn)識到了一些局限性和未來改進(jìn)的方向:
數(shù)據(jù)平衡和覆蓋:獲取更加平衡的訓(xùn)練數(shù)據(jù),特別是對于那些在現(xiàn)有數(shù)據(jù)集中代表性不足的技術(shù)。這就像是確保我們的偵探有足夠多樣的案例經(jīng)驗(yàn),涵蓋各種類型的犯罪手法。
上下文理解增強(qiáng):改進(jìn)模型在識別文本中隱含但未明確說明的技術(shù)方面的能力,這需要更深入的上下文理解和推理能力。
跨語言和跨格式支持:擴(kuò)展框架以支持多語言威脅情報(bào)和各種文檔格式,增強(qiáng)其在國際網(wǎng)絡(luò)安全環(huán)境中的適用性。
這些改進(jìn)將進(jìn)一步增強(qiáng)TECHNIQUERAG框架的有效性和實(shí)用性,使其成為網(wǎng)絡(luò)安全社區(qū)中更加強(qiáng)大和全面的工具。
總的來說,TECHNIQUERAG不僅代表了一種技術(shù)創(chuàng)新,還為網(wǎng)絡(luò)安全領(lǐng)域中人工智能應(yīng)用開辟了新的可能性。它展示了如何將先進(jìn)的AI技術(shù)與領(lǐng)域?qū)I(yè)知識相結(jié)合,創(chuàng)造出既精確又實(shí)用的解決方案,幫助防御者在不斷演變的網(wǎng)絡(luò)威脅形勢中保持領(lǐng)先地位。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。