在網(wǎng)絡(luò)安全日益重要的今天,每天都有成千上萬的軟件漏洞被發(fā)現(xiàn),就像醫(yī)院里不斷涌入的病人一樣。但是,給這些漏洞評定危險等級(就像給病人分診輕重緩急)卻是一個既費(fèi)時又費(fèi)力的過程?,F(xiàn)在,盧森堡計算機(jī)事件響應(yīng)中心(CIRCL)的研究團(tuán)隊帶來了一個革命性的解決方案——他們開發(fā)了一個名為VLAI的人工智能系統(tǒng),能夠僅僅通過閱讀漏洞的文字描述,就立即判斷出它的危險程度。
這項(xiàng)研究由CIRCL的兩位研究員Cédric Bonhomme和Alexandre Dulaunoy共同完成,于2025年7月4日發(fā)表在計算機(jī)科學(xué)領(lǐng)域的權(quán)威預(yù)印本平臺arXiv上。感興趣的讀者可以通過arXiv:2507.03607v1來訪問完整論文。這項(xiàng)工作不僅在學(xué)術(shù)界引起了廣泛關(guān)注,更重要的是,它已經(jīng)被實(shí)際部署到了真實(shí)的網(wǎng)絡(luò)安全服務(wù)中,為全球的網(wǎng)絡(luò)安全專家提供實(shí)時幫助。
要理解這項(xiàng)研究的重要性,我們需要先了解當(dāng)前網(wǎng)絡(luò)安全面臨的挑戰(zhàn)。每當(dāng)發(fā)現(xiàn)一個新的軟件漏洞時,安全專家需要使用一套復(fù)雜的評分系統(tǒng)(稱為CVSS,通用漏洞評分系統(tǒng))來判斷這個漏洞的嚴(yán)重程度。這個過程就像醫(yī)生診斷病情一樣,需要考慮多個因素:漏洞能否被遠(yuǎn)程利用、是否需要特殊權(quán)限、會造成什么樣的影響等等。然而,這種人工評估往往需要幾天甚至幾周的時間,而在這個等待期間,網(wǎng)絡(luò)管理員們必須在沒有明確指導(dǎo)的情況下決定優(yōu)先修復(fù)哪些漏洞。
研究團(tuán)隊的解決方案就像是為網(wǎng)絡(luò)安全領(lǐng)域培養(yǎng)了一個"速讀醫(yī)生"。他們使用了一種名為RoBERTa的先進(jìn)人工智能模型作為基礎(chǔ),這種模型原本就擅長理解人類語言的細(xì)微差別。然后,他們收集了超過60萬個真實(shí)世界的漏洞案例,包括這些漏洞的文字描述和最終的危險等級評分,用這些數(shù)據(jù)來訓(xùn)練AI系統(tǒng)。就像教一個醫(yī)學(xué)生通過閱讀病癥描述來快速判斷病情輕重一樣,這個AI系統(tǒng)學(xué)會了從漏洞描述中識別關(guān)鍵信息,并據(jù)此預(yù)測危險程度。
這個數(shù)據(jù)集的構(gòu)建過程本身就是一個工程奇跡。研究團(tuán)隊從多個權(quán)威來源收集信息,包括官方的CVE程序(這是全球最主要的漏洞數(shù)據(jù)庫)、GitHub安全公告、Python包安全公告,以及來自紅帽、思科和美國網(wǎng)絡(luò)安全局等組織的安全通告。這些數(shù)據(jù)源就像是不同醫(yī)院的病歷檔案,每個都有自己的特點(diǎn)和側(cè)重點(diǎn)。CVE程序提供了標(biāo)準(zhǔn)化的漏洞描述和官方評分,GitHub安全公告涵蓋了開源軟件中的安全問題,而各廠商的安全通告則提供了更詳細(xì)的技術(shù)信息。
整個系統(tǒng)的運(yùn)行過程就像是一條高度自動化的生產(chǎn)線。首先,系統(tǒng)會從各種來源持續(xù)收集新的安全公告,這個過程每小時進(jìn)行一次,確保信息的及時性。然后,每天系統(tǒng)會將收集到的數(shù)據(jù)整理成標(biāo)準(zhǔn)格式,生成一個訓(xùn)練數(shù)據(jù)集。這個數(shù)據(jù)集不僅會用于訓(xùn)練AI模型,還會公開發(fā)布到Hugging Face平臺上,供其他研究人員和開發(fā)者使用。
訓(xùn)練過程是整個系統(tǒng)的核心環(huán)節(jié)。研究團(tuán)隊使用了兩塊強(qiáng)大的NVIDIA L40S圖形處理器,每塊都配備了48GB的顯存,來處理這個龐大的數(shù)據(jù)集。訓(xùn)練過程就像是讓AI學(xué)生反復(fù)練習(xí)閱讀理解題——系統(tǒng)會讀取漏洞描述,然后嘗試預(yù)測其危險等級,如果預(yù)測錯誤,就會調(diào)整自己的判斷標(biāo)準(zhǔn)。這個過程重復(fù)了5輪,每輪都會處理約55萬個訓(xùn)練樣本,整個訓(xùn)練過程大約需要6個小時才能完成。
AI系統(tǒng)的架構(gòu)相對簡單但非常有效。它基于RoBERTa模型,這是一種經(jīng)過大量文本訓(xùn)練的語言理解模型,就像是一個精通多種語言的翻譯專家。在這個基礎(chǔ)上,研究團(tuán)隊添加了一個分類層,專門用于將漏洞描述分類為四個危險等級:低、中、高、嚴(yán)重。系統(tǒng)會將漏洞描述轉(zhuǎn)換成數(shù)字序列(最多512個標(biāo)記),然后通過復(fù)雜的神經(jīng)網(wǎng)絡(luò)處理,最終輸出每個危險等級的概率分?jǐn)?shù)。
為了評估系統(tǒng)的準(zhǔn)確性,研究團(tuán)隊設(shè)計了一個特別有意思的實(shí)驗(yàn)。他們選擇了一批剛剛發(fā)布但尚未獲得官方危險等級評分的漏洞,讓AI系統(tǒng)進(jìn)行預(yù)測,然后等待官方評分出來后進(jìn)行對比。結(jié)果顯示,AI系統(tǒng)的預(yù)測準(zhǔn)確率達(dá)到了85%,這意味著在絕大多數(shù)情況下,AI給出的危險等級都與人類專家的最終判斷一致。即使在不完全匹配的15%情況下,AI的預(yù)測通常也只是偏差一個等級,比如將"高危"預(yù)測為"嚴(yán)重",很少出現(xiàn)完全錯誤的判斷。
這個系統(tǒng)的實(shí)際應(yīng)用效果令人印象深刻。當(dāng)一個新的漏洞被發(fā)現(xiàn)時,網(wǎng)絡(luò)安全專家只需要將漏洞描述輸入系統(tǒng),幾秒鐘內(nèi)就能得到一個初步的危險等級評估。比如,如果輸入"緩沖區(qū)溢出漏洞允許遠(yuǎn)程代碼執(zhí)行并獲取根權(quán)限"這樣的描述,系統(tǒng)會立即識別出"遠(yuǎn)程代碼執(zhí)行"和"根權(quán)限"這些關(guān)鍵詞,并以98%的置信度將其分類為"嚴(yán)重"等級。這種快速響應(yīng)能力對于需要處理大量漏洞信息的安全團(tuán)隊來說具有巨大價值。
系統(tǒng)的部署架構(gòu)也經(jīng)過了精心設(shè)計。研究團(tuán)隊開發(fā)了一個名為ML-Gateway的輕量級服務(wù)器,專門用于在本地環(huán)境中運(yùn)行AI模型。這個設(shè)計確保了所有的漏洞信息都在內(nèi)部處理,不會泄露給外部服務(wù)提供商,這對于處理敏感安全信息來說至關(guān)重要。同時,系統(tǒng)還提供了完整的API接口和文檔,使得其他開發(fā)者可以輕松地將這個AI功能集成到自己的安全工具中。
值得特別提到的是,整個項(xiàng)目都采用了開源的方式。訓(xùn)練好的模型、數(shù)據(jù)集、訓(xùn)練工具都可以在Hugging Face平臺上免費(fèi)獲取,任何人都可以下載使用或者基于這些資源進(jìn)行二次開發(fā)。這種開放的態(tài)度不僅促進(jìn)了學(xué)術(shù)研究的發(fā)展,也為整個網(wǎng)絡(luò)安全行業(yè)提供了寶貴的資源。
當(dāng)然,這個系統(tǒng)也不是完美無缺的。研究團(tuán)隊坦誠地指出了幾個潛在的風(fēng)險和限制。首先,由于系統(tǒng)完全依賴于文字描述來判斷危險程度,惡意的漏洞報告者可能會故意使用模糊或誤導(dǎo)性的語言來影響AI的判斷。比如,他們可能會避免使用"遠(yuǎn)程代碼執(zhí)行"這樣的關(guān)鍵詞,或者用更模糊的表述來掩蓋漏洞的真實(shí)嚴(yán)重程度。
另外,就像任何AI系統(tǒng)一樣,這個模型也可能會反映訓(xùn)練數(shù)據(jù)中存在的偏見。如果某些類型的漏洞在歷史數(shù)據(jù)中被低估或高估,模型可能會學(xué)習(xí)到這些偏見并在新的預(yù)測中重復(fù)這些錯誤。因此,研究團(tuán)隊強(qiáng)調(diào),這個AI系統(tǒng)應(yīng)該被視為輔助工具,而不是人類專家判斷的替代品。
為了解決這些問題,研究團(tuán)隊提出了幾個改進(jìn)方向。首先,他們計劃增加模型的可解釋性,讓用戶能夠看到AI在做出判斷時重點(diǎn)關(guān)注了哪些詞語或短語。這就像是讓醫(yī)生不僅給出診斷結(jié)果,還要解釋他是根據(jù)哪些癥狀做出的判斷。其次,他們希望將模型擴(kuò)展到預(yù)測完整的CVSS評分向量,而不僅僅是危險等級分類,這將提供更詳細(xì)和精確的風(fēng)險評估。
研究團(tuán)隊還看到了這項(xiàng)技術(shù)在其他網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用潛力。比如,可以將類似的方法應(yīng)用到威脅情報分析平臺,幫助自動分析和分類各種安全事件報告。他們還計劃開發(fā)多語言版本,使得這個工具能夠處理中文、日語等非英語的漏洞描述,這對于全球化的網(wǎng)絡(luò)安全防護(hù)來說具有重要意義。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究代表了AI技術(shù)在網(wǎng)絡(luò)安全領(lǐng)域應(yīng)用的一個重要里程碑。它不僅展示了現(xiàn)代自然語言處理技術(shù)的強(qiáng)大能力,也為如何將學(xué)術(shù)研究成果轉(zhuǎn)化為實(shí)際應(yīng)用提供了一個優(yōu)秀的范例。更重要的是,這個系統(tǒng)的開源特性和持續(xù)更新機(jī)制,為整個網(wǎng)絡(luò)安全社區(qū)提供了一個可以共同改進(jìn)和完善的平臺。
目前,這個AI系統(tǒng)已經(jīng)被集成到了CIRCL的Vulnerability-Lookup服務(wù)中,每天為全球的網(wǎng)絡(luò)安全專家提供實(shí)時的漏洞危險等級評估。用戶可以通過該服務(wù)的網(wǎng)站查詢?nèi)魏我阎┒吹男畔ⅲ绻俜皆u分還未發(fā)布,系統(tǒng)會自動顯示AI預(yù)測的危險等級,幫助用戶做出更好的安全決策。
說到底,這項(xiàng)研究解決了網(wǎng)絡(luò)安全領(lǐng)域一個實(shí)際而緊迫的問題:如何在官方評分發(fā)布之前快速判斷漏洞的危險程度。通過將先進(jìn)的AI技術(shù)與大規(guī)模的實(shí)際數(shù)據(jù)相結(jié)合,研究團(tuán)隊創(chuàng)造了一個既實(shí)用又準(zhǔn)確的解決方案。雖然這個系統(tǒng)還不能完全替代人類專家的判斷,但它確實(shí)為網(wǎng)絡(luò)安全防護(hù)提供了一個強(qiáng)有力的輔助工具。
對于普通互聯(lián)網(wǎng)用戶來說,雖然他們可能不會直接使用這個AI系統(tǒng),但這項(xiàng)技術(shù)的廣泛應(yīng)用將間接提高整個網(wǎng)絡(luò)環(huán)境的安全性。當(dāng)網(wǎng)絡(luò)管理員和安全專家能夠更快速、更準(zhǔn)確地識別和修復(fù)高危漏洞時,我們所有人都能從中受益。這就像是有了更高效的疫苗分發(fā)系統(tǒng),雖然普通人不需要了解具體的技術(shù)細(xì)節(jié),但整個社會的健康水平都會得到提升。
這項(xiàng)研究也為未來的網(wǎng)絡(luò)安全AI應(yīng)用指明了方向。隨著漏洞數(shù)量的不斷增加和攻擊手段的日益復(fù)雜,傳統(tǒng)的人工分析方法已經(jīng)難以應(yīng)對。通過AI技術(shù)的幫助,我們可以建立更加智能和高效的安全防護(hù)體系,讓網(wǎng)絡(luò)空間變得更加安全可靠。
Q&A
Q1:VLAI是什么?它能做什么? A:VLAI是由盧森堡計算機(jī)事件響應(yīng)中心開發(fā)的AI系統(tǒng),基于RoBERTa模型。它能夠僅通過閱讀軟件漏洞的文字描述,就立即判斷出漏洞的危險等級(低、中、高、嚴(yán)重),準(zhǔn)確率達(dá)到82.8%。這個系統(tǒng)主要用于在官方評分發(fā)布之前,為網(wǎng)絡(luò)安全專家提供快速的漏洞風(fēng)險評估。
Q2:VLAI會不會取代網(wǎng)絡(luò)安全專家的工作? A:不會完全取代,但會大大提高工作效率。研究團(tuán)隊明確表示,VLAI應(yīng)該被視為輔助工具,而不是人類專家判斷的替代品。它的主要作用是在官方評分發(fā)布之前提供初步的危險等級評估,幫助安全專家更快地確定優(yōu)先處理的漏洞,最終的決策仍需要人類專家的參與。
Q3:普通人可以使用VLAI嗎?如何使用? A:可以間接使用。VLAI已經(jīng)集成到CIRCL的Vulnerability-Lookup服務(wù)中(網(wǎng)址:https://vulnerability-lookup.org/),任何人都可以免費(fèi)查詢漏洞信息。對于技術(shù)開發(fā)者,完整的模型和數(shù)據(jù)集都在Hugging Face平臺上開源發(fā)布,可以下載使用或進(jìn)行二次開發(fā)。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。