av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 TECHNIQUERAG:一種創(chuàng)新方法,讓安全專家更準(zhǔn)確找出網(wǎng)絡(luò)威脅技術(shù)

TECHNIQUERAG:一種創(chuàng)新方法,讓安全專家更準(zhǔn)確找出網(wǎng)絡(luò)威脅技術(shù)

2025-05-23 07:39
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:39 ? 科技行者

網(wǎng)絡(luò)安全是一場永無休止的攻與防較量。在這個(gè)戰(zhàn)場上,準(zhǔn)確識別攻擊者使用的技術(shù)至關(guān)重要,就像醫(yī)生需要精準(zhǔn)診斷病癥才能開出有效藥方。2025年5月,卡塔爾計(jì)算研究所的艾哈邁德·萊克薩伊斯(Ahmed Lekssays)、獨(dú)立研究員烏薩夫·舒克拉(Utsav Shukla)以及卡塔爾計(jì)算研究所的胡斯雷夫·塔哈·森卡爾(Husrev Taha Sencar)和穆罕默德·里茲萬·帕爾維茲(Md Rizwan Parvez)在論文《TECHNIQUERAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text》中,提出了一種創(chuàng)新的解決方案。這項(xiàng)研究發(fā)表于arXiv預(yù)印本平臺(arXiv:2505.11988v1),為安全分析師提供了更精準(zhǔn)的工具,幫助他們在復(fù)雜的安全報(bào)告中識別攻擊者的技術(shù)手段。

一、為什么我們需要自動識別攻擊技術(shù)?

想象一下,你是一名網(wǎng)絡(luò)安全分析師,每天面對大量的安全報(bào)告和事件描述。這些文本中隱藏著攻擊者使用的戰(zhàn)術(shù)、技術(shù)和程序(TTPs)信息,但要手動識別它們卻異常耗時(shí)且需要專業(yè)知識。就像在厚厚的偵探小說中找出關(guān)鍵線索一樣,這項(xiàng)工作既繁瑣又容易出錯(cuò)。

MITRE ATT&CK框架已成為網(wǎng)絡(luò)安全行業(yè)的標(biāo)準(zhǔn),它提供了一個(gè)全面的知識庫,用于分類和映射攻擊者的行為。然而,將模糊的威脅描述與標(biāo)準(zhǔn)化的ATT&CK(子)技術(shù)對應(yīng)起來是一項(xiàng)挑戰(zhàn)。例如,當(dāng)你看到"Monero礦工腳本從TeamTNT的服務(wù)器下載,并通過使用存儲在'/tmp/TeamTNT'的私鑰以'root'用戶身份建立的SSH會話管道到'bash'"這樣的描述時(shí),你需要識別出多個(gè)相關(guān)技術(shù),如"T1098.004:SSH授權(quán)密鑰"、"T1195:供應(yīng)鏈攻擊"、"T1059.004:Unix Shell"等。

現(xiàn)有的自動識別方法面臨一個(gè)根本性的權(quán)衡:它們要么依賴通用模型(準(zhǔn)確性有限),要么需要資源密集型管道(依賴大量標(biāo)記數(shù)據(jù)和特定任務(wù)優(yōu)化)。這就像是在選擇快速但粗略的草圖和精細(xì)但耗時(shí)的油畫之間做選擇。而在專業(yè)領(lǐng)域中,像網(wǎng)絡(luò)安全這樣的專業(yè)領(lǐng)域中,我們很少有足夠的資源來支持后者。

二、TECHNIQUERAG:構(gòu)建一座通用性和專業(yè)性之間的橋梁

TECHNIQUERAG像是一位經(jīng)驗(yàn)豐富的偵探助手,它能夠在有限的線索和資源下,幫助分析師快速定位攻擊技術(shù)。這個(gè)框架采用了一種領(lǐng)域特定的檢索增強(qiáng)生成(RAG)方法,巧妙地將三個(gè)關(guān)鍵部分組合在一起:現(xiàn)成的檢索器、經(jīng)過指令微調(diào)的大語言模型(LLM)和最少量的文本-技術(shù)配對數(shù)據(jù)。

想象一下,這就像是一個(gè)三步法烹飪菜肴:首先,我們使用現(xiàn)成的食材(檢索器從現(xiàn)有數(shù)據(jù)中找出相關(guān)例子);然后,我們有一位經(jīng)驗(yàn)豐富的廚師(LLM重新排序這些例子);最后,我們有一本精簡的食譜(少量的文本-技術(shù)配對數(shù)據(jù)用于微調(diào)生成模型)。

TECHNIQUERAG通過兩個(gè)創(chuàng)新點(diǎn)解決了現(xiàn)有方法的局限性:

首先,它巧妙地緩解了數(shù)據(jù)稀缺問題。傳統(tǒng)方法需要大量的標(biāo)記數(shù)據(jù)來訓(xùn)練整個(gè)系統(tǒng),但TECHNIQUERAG只對生成組件進(jìn)行微調(diào),僅使用有限的領(lǐng)域內(nèi)示例,從而避免了對檢索組件進(jìn)行資源密集型的訓(xùn)練。這就像是我們不需要從頭開始訓(xùn)練一名偵探,而只需要教會他如何使用現(xiàn)有的工具和少量示例進(jìn)行推理。

其次,它增強(qiáng)了檢索質(zhì)量和領(lǐng)域特定性。雖然常規(guī)的RAG方法通過耦合檢索和生成來減少"幻覺"(AI生成不存在的內(nèi)容),但它們對通用檢索器的依賴往往會引入噪聲候選項(xiàng),從而限制了領(lǐng)域特定的精確性。TECHNIQUERAG通過零樣本LLM重新排序來解決這個(gè)問題,明確地將檢索到的候選項(xiàng)與對抗性技術(shù)對齊。這就像是讓一位專家對初步搜集的線索進(jìn)行二次篩選,確保它們真正與案件相關(guān)。

三、TECHNIQUERAG如何工作?

讓我們深入了解TECHNIQUERAG的工作原理,就像拆解一臺精密儀器看它內(nèi)部的齒輪如何運(yùn)轉(zhuǎn)。

首先,我們需要理解問題:給定一段安全文本(如攻擊行為描述),我們的目標(biāo)是預(yù)測相應(yīng)的對抗性(子)技術(shù),這些技術(shù)來自MITRE ATT&CK框架中定義的標(biāo)準(zhǔn)集合。

TECHNIQUERAG框架包含三個(gè)主要組件:檢索器、重新排序器和生成器。

**檢索器:找出相似的案例**

檢索器的工作就像是在案例檔案庫中查找類似案例。當(dāng)收到一個(gè)查詢安全文本時(shí),檢索器會在已有的數(shù)據(jù)集中找出最相關(guān)的文本和相應(yīng)的技術(shù)對。比如,當(dāng)看到一個(gè)描述使用PowerShell下載文件的文本時(shí),它會找出過去類似的例子,如"PowerShell.exe從45.33.12.x下載文件"及其對應(yīng)的技術(shù)標(biāo)簽(如T1059.001、T1105)。

TECHNIQUERAG可以使用任何現(xiàn)成的檢索器,不論是基于關(guān)鍵詞的(如BM25)還是基于語義的(如預(yù)訓(xùn)練的句子嵌入模型)。這種靈活性使系統(tǒng)能夠適應(yīng)不同的場景和資源限制。

**重新排序器:專家審核初步結(jié)果**

檢索出初步的候選項(xiàng)后,LLM重新排序器會對它們進(jìn)行更精細(xì)的評估。這不是簡單的排序,而是一次深入的分析過程,考慮到安全領(lǐng)域的特殊需求。

重新排序器面臨三個(gè)關(guān)鍵挑戰(zhàn),并通過巧妙的提示工程來解決:

首先,安全文本中很少提供技術(shù)映射的明確理由。例如,文本"惡意軟件連接到C2使用自定義編碼"暗示了命令與控制(TA0011)和防御規(guī)避(TA0005)策略,但并未直接說明這種關(guān)系。重新排序器指導(dǎo)LLM通過結(jié)構(gòu)化推理來分解這些隱含連接,將文本拆解為不同的攻擊步驟或階段,識別任何隱含或明確提到的行為。

其次,安全活動通常涉及多種技術(shù)。重新排序器確保通過并行評估進(jìn)行全面覆蓋,指導(dǎo)LLM探索每種可能的技術(shù)。對于同一個(gè)查詢"惡意軟件連接到C2使用自定義編碼",它會分析主要技術(shù)(T1071應(yīng)用層協(xié)議,因?yàn)橹苯拥腃2通信行為)和次要技術(shù)(T1027混淆文件或信息,因?yàn)槭褂米远x編碼進(jìn)行規(guī)避)。

第三,某些技術(shù)有多個(gè)子技術(shù),而有些則沒有。TECHNIQUERAG評估它們之間的細(xì)微差異,來指導(dǎo)整體排名。它不僅分析主要技術(shù),還評估特定的子技術(shù)是否適用,比如對編碼PowerShell腳本的查詢,會識別出PowerShell的精確子技術(shù)T1059.001。

這種結(jié)構(gòu)化、推理式的方法使重新排序器能夠重新排列候選項(xiàng),同時(shí)保持與ATT&CK分類法的一致性,解決初始檢索中的模糊之處。

**生成器:產(chǎn)生最終答案**

生成器是系統(tǒng)的最后一環(huán),它接收查詢文本和重新排序后的候選項(xiàng),然后生成最終的技術(shù)標(biāo)注。生成器通過微調(diào)訓(xùn)練,學(xué)習(xí)如何根據(jù)上下文生成最相關(guān)的技術(shù)。

這個(gè)過程就像是一位有經(jīng)驗(yàn)的偵探,在檢查了所有證據(jù)和相似案例后,做出最終的判斷。生成器被設(shè)計(jì)為不僅關(guān)注文本的直接內(nèi)容,還考慮到示例中提供的上下文,從而減少"幻覺"并提高預(yù)測的準(zhǔn)確性。

四、實(shí)驗(yàn)設(shè)置與實(shí)施細(xì)節(jié)

研究團(tuán)隊(duì)在三個(gè)安全基準(zhǔn)數(shù)據(jù)集上測試了TECHNIQUERAG,這些數(shù)據(jù)集代表了不同的挑戰(zhàn)級別:Tram(單標(biāo)簽,包含198個(gè)唯一技術(shù))、Procedures(單標(biāo)簽,包含488個(gè)唯一技術(shù))和Expert(多標(biāo)簽,包含290個(gè)唯一技術(shù))。

作為檢索器,團(tuán)隊(duì)使用了BM25,設(shè)置為檢索前40個(gè)結(jié)果,并選擇前3個(gè)用于增強(qiáng)。對于重新排序,他們使用了DeepSeek v3模型,處理批次大小為40,重疊為20。生成器則是一個(gè)8B參數(shù)的Ministral Instruct模型,通過LoRA方法進(jìn)行微調(diào)。

為了全面評估TECHNIQUERAG的性能,研究團(tuán)隊(duì)將其與多種基線方法進(jìn)行比較:

基于檢索/排序的方法:包括NCE(用于對比領(lǐng)域特定學(xué)習(xí))、Text2TTP(結(jié)合雙編碼器語義搜索和交叉編碼器重新排序)、基礎(chǔ)BM25檢索器和RankGPT重新排序框架。

基于生成的方法:包括強(qiáng)大的LLM模型如GPT-4、DeepSeek V3和Ministral 8B。對每個(gè)模型,團(tuán)隊(duì)實(shí)現(xiàn)了直接提示和思維鏈方法與自反思。他們還比較了IntelEX,這是一種混合檢索和LLM判斷方法。

此外,研究團(tuán)隊(duì)還實(shí)現(xiàn)了上述LLM的檢索增強(qiáng)版本,使用來自TECHNIQUERAG檢索和重新排序的相同示例。

五、令人印象深刻的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果令人振奮,證明了TECHNIQUERAG的有效性和優(yōu)勢。

在技術(shù)級別預(yù)測方面,TECHNIQUERAG在Procedures數(shù)據(jù)集上取得了91.09%的F1分?jǐn)?shù),遠(yuǎn)超其他方法。在更具挑戰(zhàn)性的Expert數(shù)據(jù)集上,它達(dá)到了50.19%的F1分?jǐn)?shù),與專有模型GPT-4o(RAG)的51.30%相當(dāng)。當(dāng)計(jì)算三個(gè)數(shù)據(jù)集上的平均F1分?jǐn)?shù)時(shí),TECHNIQUERAG達(dá)到了約80.76%,而GPT-4o(RAG)僅約58.11%。

在子技術(shù)級別預(yù)測方面,我們看到了類似的趨勢。TECHNIQUERAG在Procedures上保持領(lǐng)先(F1為88.11%,而NCE為73.74%),并在Expert上取得了與GPT-4o(RAG)相近的性能(42.22%比43.73%)。

多標(biāo)簽預(yù)測任務(wù)證明比單標(biāo)簽更具挑戰(zhàn)性。例如,GPT-4o在Procedure(單標(biāo)簽)數(shù)據(jù)集上達(dá)到了76.75%的F1分?jǐn)?shù),但在Expert(多標(biāo)簽)數(shù)據(jù)集上僅為19.77%。雖然檢索增強(qiáng)生成提高了所有生成模型的性能,但開源LLM的提升仍然有限。

重新排序器的貢獻(xiàn)尤為突出。在Expert數(shù)據(jù)集上的排名方法比較中,TECHNIQUERAG的重新排序器在技術(shù)級別取得了47.2%的F1@1分?jǐn)?shù),遠(yuǎn)高于其他方法,如NCE(35.9%)和Text2TTP(35.1%)。

六、深入分析:TECHNIQUERAG的優(yōu)勢與局限性

TECHNIQUERAG方法的成功歸功于幾個(gè)關(guān)鍵因素的結(jié)合。

首先,它優(yōu)雅地解決了數(shù)據(jù)稀缺性問題。網(wǎng)絡(luò)安全領(lǐng)域特有的標(biāo)記數(shù)據(jù)有限——盡管MITRE ATT&CK框架定義了550多種對抗性(子)技術(shù),但公開可用的標(biāo)記示例僅約10,000個(gè)。TECHNIQUERAG通過僅對生成組件進(jìn)行微調(diào),最大化了這些有限數(shù)據(jù)的使用。

其次,通過零樣本LLM重新排序,TECHNIQUERAG增強(qiáng)了領(lǐng)域特定性,而無需額外的訓(xùn)練數(shù)據(jù)。普通LLM在排序?qū)剐裕ㄗ樱┘夹g(shù)時(shí)面臨挑戰(zhàn),因?yàn)檫@需要區(qū)分可能在文本中共同出現(xiàn)且沒有明確指標(biāo)的細(xì)微不同技術(shù)。TECHNIQUERAG通過結(jié)構(gòu)化分解和明確推理解決了這一問題。

然而,研究也揭示了一些限制和挑戰(zhàn):

預(yù)測不足:模型通常能夠捕捉主要技術(shù),但可能錯(cuò)過同一攻擊模式中的相關(guān)技術(shù)。例如,識別T1055(進(jìn)程注入)但錯(cuò)過T1106(本機(jī)API)。

上下文錯(cuò)誤:模型在區(qū)分同一策略族內(nèi)的類似技術(shù)時(shí)面臨困難,特別是命令和腳本解釋器技術(shù)(T1059.*)。它還可能錯(cuò)過文本中隱含但未明確說明的技術(shù)。

層次問題:在處理父子技術(shù)關(guān)系時(shí)存在困難,有時(shí)會生成無效的子技術(shù)ID。

重新排序器限制:由于模糊查詢和復(fù)合語句,某些技術(shù)被遺漏,并通過傳播影響生成器。

技術(shù)相似性:難以區(qū)分具有重疊描述和關(guān)鍵詞的技術(shù)(如網(wǎng)絡(luò)釣魚相關(guān)技術(shù)T1598.003、T1566.002、T1204.001)。

類別不平衡的影響:模型性能受到數(shù)據(jù)不平衡的根本影響——在203種技術(shù)中,只有47種(23.2%)有超過50個(gè)訓(xùn)練樣本。數(shù)據(jù)豐富的技術(shù)顯示出高精確度和召回率,而稀有技術(shù)則受到誤分類和預(yù)測不足的困擾。

七、TECHNIQUERAG對安全領(lǐng)域的意義

從MITRE ATT&CK框架中標(biāo)注威脅情報(bào)文本中的對抗性技術(shù)是安全分析師每天必須執(zhí)行的手動和耗時(shí)任務(wù)。其自動化需要能夠在數(shù)百種可能性中準(zhǔn)確識別技術(shù)和子技術(shù)的方法,同時(shí)處理復(fù)雜的安全術(shù)語、多樣的文本格式和有限的標(biāo)記數(shù)據(jù)。

TECHNIQUERAG通過檢索增強(qiáng)微調(diào)方法有效地解決了這些挑戰(zhàn)。它不僅在技術(shù)性能上超越了現(xiàn)有方法,還提供了一個(gè)實(shí)用的框架,該框架可以利用有限的資源進(jìn)行部署和使用。

對于網(wǎng)絡(luò)安全行業(yè),這意味著:

更高效的威脅情報(bào)處理:分析師可以更快地處理更多的報(bào)告,從文本中自動提取關(guān)鍵技術(shù)信息。

更一致的分析:減少依賴分析師個(gè)人專業(yè)知識的差異,提供更標(biāo)準(zhǔn)化的結(jié)果。

更好的知識共享:系統(tǒng)地映射技術(shù)可以改進(jìn)組織間的信息共享和威脅情報(bào)的整合。

在不斷發(fā)展的網(wǎng)絡(luò)安全領(lǐng)域,TECHNIQUERAG代表了一個(gè)重要進(jìn)步,將人工智能的最新進(jìn)展應(yīng)用于實(shí)際安全挑戰(zhàn),幫助防御者更好地理解和應(yīng)對復(fù)雜的威脅形勢。

八、未來研究方向

盡管TECHNIQUERAG取得了顯著成果,但研究團(tuán)隊(duì)也認(rèn)識到了一些局限性和未來改進(jìn)的方向:

數(shù)據(jù)平衡和覆蓋:獲取更加平衡的訓(xùn)練數(shù)據(jù),特別是對于那些在現(xiàn)有數(shù)據(jù)集中代表性不足的技術(shù)。這就像是確保我們的偵探有足夠多樣的案例經(jīng)驗(yàn),涵蓋各種類型的犯罪手法。

上下文理解增強(qiáng):改進(jìn)模型在識別文本中隱含但未明確說明的技術(shù)方面的能力,這需要更深入的上下文理解和推理能力。

跨語言和跨格式支持:擴(kuò)展框架以支持多語言威脅情報(bào)和各種文檔格式,增強(qiáng)其在國際網(wǎng)絡(luò)安全環(huán)境中的適用性。

這些改進(jìn)將進(jìn)一步增強(qiáng)TECHNIQUERAG框架的有效性和實(shí)用性,使其成為網(wǎng)絡(luò)安全社區(qū)中更加強(qiáng)大和全面的工具。

總的來說,TECHNIQUERAG不僅代表了一種技術(shù)創(chuàng)新,還為網(wǎng)絡(luò)安全領(lǐng)域中人工智能應(yīng)用開辟了新的可能性。它展示了如何將先進(jìn)的AI技術(shù)與領(lǐng)域?qū)I(yè)知識相結(jié)合,創(chuàng)造出既精確又實(shí)用的解決方案,幫助防御者在不斷演變的網(wǎng)絡(luò)威脅形勢中保持領(lǐng)先地位。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-