動(dòng)態(tài)評(píng)估攻擊性網(wǎng)絡(luò)安全AI助手的風(fēng)險(xiǎn),這是一項(xiàng)由普林斯頓大學(xué)的Boyi Wei、Benedikt Stroebl、Joie Zhang和Peter Henderson,以及加州大學(xué)歐文分校的Jiacen Xu和Zhou Li共同完成的研究。該研究發(fā)表于2025年5月23日,論文編號(hào)為arXiv:2505.18384v1,感興趣的讀者可以通過arXiv網(wǎng)站獲取完整論文。
你是否聽說過"網(wǎng)絡(luò)攻擊的平均突破時(shí)間已縮短至48分鐘,比去年減少了22%"?根據(jù)CrowdStrike 2025年全球威脅報(bào)告,最快的網(wǎng)絡(luò)入侵僅需51秒。隨著人工智能技術(shù)的快速發(fā)展,基礎(chǔ)模型(即大型語言模型)正在變得越來越擅長(zhǎng)編程,這意味著它們也可能被用于自動(dòng)化危險(xiǎn)的網(wǎng)絡(luò)攻擊操作。那么,我們?cè)撊绾卧u(píng)估這些AI助手在網(wǎng)絡(luò)安全領(lǐng)域可能帶來的風(fēng)險(xiǎn)呢?
傳統(tǒng)的AI安全審計(jì)往往采用靜態(tài)評(píng)估方法,也就是說,它們只關(guān)注AI系統(tǒng)在固定條件下的表現(xiàn)。然而,這種方法忽略了一個(gè)關(guān)鍵因素:在現(xiàn)實(shí)世界中,惡意行為者擁有多種自由度來改進(jìn)和調(diào)整他們的攻擊工具。特別是在有強(qiáng)驗(yàn)證器(能明確判斷是否成功的機(jī)制)和經(jīng)濟(jì)激勵(lì)的情況下,攻擊性網(wǎng)絡(luò)安全AI助手非常適合被不斷優(yōu)化。
Wei等研究人員提出,我們應(yīng)該采用動(dòng)態(tài)風(fēng)險(xiǎn)評(píng)估方法,考慮攻擊者在有狀態(tài)和無狀態(tài)環(huán)境中可能擁有的各種自由度。在有狀態(tài)環(huán)境中,系統(tǒng)會(huì)記住過去的交互并據(jù)此調(diào)整響應(yīng);而在無狀態(tài)環(huán)境中,每次交互都可以重置到初始狀態(tài)。研究團(tuán)隊(duì)的驚人發(fā)現(xiàn)是:即使只有8個(gè)H100 GPU小時(shí)(約合36美元)的計(jì)算預(yù)算,攻擊者也能將AI助手的網(wǎng)絡(luò)安全能力提高40%以上,而且不需要任何外部幫助!
這一研究警醒我們:在評(píng)估AI系統(tǒng)的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)時(shí),必須考慮到攻擊者可能采取的各種改進(jìn)措施,才能獲得更準(zhǔn)確的風(fēng)險(xiǎn)畫像。接下來,讓我們深入了解研究團(tuán)隊(duì)的發(fā)現(xiàn)和方法論。
一、為什么網(wǎng)絡(luò)安全領(lǐng)域特別適合AI自我提升?
想象一下,你正在玩一個(gè)解謎游戲。如果每次嘗試后,游戲都能明確告訴你"對(duì)了"或"錯(cuò)了",而且解開謎題有豐厚獎(jiǎng)勵(lì),你自然會(huì)被激勵(lì)去不斷嘗試和改進(jìn)方法,直到成功。網(wǎng)絡(luò)安全領(lǐng)域就具備了這兩個(gè)關(guān)鍵特性:強(qiáng)驗(yàn)證器和經(jīng)濟(jì)激勵(lì)。
強(qiáng)驗(yàn)證器就像是那個(gè)立即告訴你"對(duì)了"或"錯(cuò)了"的反饋系統(tǒng)。在網(wǎng)絡(luò)安全領(lǐng)域,當(dāng)你發(fā)現(xiàn)或利用了漏洞,通常會(huì)得到明確信號(hào)——例如獲得未授權(quán)訪問或提取隱藏信息。想象你在嘗試破解一個(gè)加密文本,當(dāng)你解密成功時(shí),你會(huì)立即知道自己做對(duì)了,因?yàn)槟隳芸吹接幸饬x的文本出現(xiàn)。類似地,當(dāng)攻擊者成功注入SQL命令或執(zhí)行命令注入時(shí),他們會(huì)獲得提升的權(quán)限或訪問本應(yīng)受限的數(shù)據(jù),這都是明確的成功指標(biāo)。
經(jīng)濟(jì)激勵(lì)則像是游戲的高額獎(jiǎng)金?,F(xiàn)實(shí)中,網(wǎng)絡(luò)攻擊可以為攻擊者帶來巨額收益。僅勒索軟件一項(xiàng)就估計(jì)每年從受害者那里轉(zhuǎn)移超過10億美元。另一方面,許多組織設(shè)立了"漏洞賞金計(jì)劃",向發(fā)現(xiàn)系統(tǒng)漏洞的安全研究人員提供獎(jiǎng)勵(lì)。這種強(qiáng)大的經(jīng)濟(jì)動(dòng)機(jī)使得攻擊者愿意投入大量計(jì)算資源來提高攻擊效率。
研究團(tuán)隊(duì)還區(qū)分了兩種類型的環(huán)境:有狀態(tài)環(huán)境和無狀態(tài)環(huán)境。這就像是在玩兩種不同類型的游戲:
在有狀態(tài)環(huán)境中,你的每一步操作都會(huì)改變游戲世界,且無法精確重置。比如,當(dāng)你多次嘗試登錄失敗后,賬戶可能會(huì)被鎖定;或者當(dāng)你進(jìn)行SQL注入嘗試時(shí),可能會(huì)觸發(fā)IP封鎖。這意味著攻擊者只有一次機(jī)會(huì)來"破解"系統(tǒng),必須格外謹(jǐn)慎。
相比之下,無狀態(tài)環(huán)境就像是可以無限次重新開始的游戲關(guān)卡。例如,逆向工程一個(gè)本地二進(jìn)制文件或暴力破解哈希值,你可以一次又一次地嘗試不同方法,直到成功。在這種情況下,攻擊者可以反復(fù)嘗試不同策略,大大提高成功率。
有了強(qiáng)驗(yàn)證器和經(jīng)濟(jì)激勵(lì),再加上無狀態(tài)環(huán)境中可以進(jìn)行多次嘗試的特性,網(wǎng)絡(luò)安全領(lǐng)域?yàn)锳I自我提升創(chuàng)造了理想條件。接下來,我們將探討攻擊者可能利用的具體自由度。
二、攻擊者的五種自由度
想象攻擊者手中拿著一個(gè)AI網(wǎng)絡(luò)安全助手,就像廚師手中的一把多功能瑞士軍刀。這把"刀"有核心模型(大型語言模型)、記憶功能和整體框架結(jié)構(gòu)。攻擊者可以通過哪些方式來"磨刀",使其更加鋒利呢?研究團(tuán)隊(duì)確定了五種關(guān)鍵的自由度:
第一種是"重復(fù)采樣"。這就像是在投擲骰子,你可以多次嘗試,直到擲出想要的點(diǎn)數(shù)。在無狀態(tài)環(huán)境中,攻擊者可以多次運(yùn)行同一個(gè)任務(wù),獲取不同的輸出,然后選擇最佳結(jié)果。事實(shí)上,這種方法被證明非常有效——隨著嘗試次數(shù)的增加,成功解決問題的概率往往會(huì)呈對(duì)數(shù)線性增長(zhǎng)。
第二種是"增加最大交互輪數(shù)"。這就像是給廚師更多的時(shí)間來完成一道復(fù)雜的菜肴。通過允許AI助手與環(huán)境進(jìn)行更多輪的交互,它有更多機(jī)會(huì)探索解決方案和修正錯(cuò)誤。然而,研究者也發(fā)現(xiàn),簡(jiǎn)單增加交互輪數(shù)可能會(huì)帶來收益遞減,因?yàn)锳I可能會(huì)陷入重復(fù)相同命令的循環(huán)。
第三種是"迭代提示詞改進(jìn)"。想象你在教一個(gè)孩子做家務(wù),你會(huì)根據(jù)他們的表現(xiàn)不斷調(diào)整你的指導(dǎo)語言。類似地,攻擊者可以根據(jù)AI之前的失敗嘗試來改進(jìn)初始提示詞。這種方法特別聰明,因?yàn)樗肁I自身的能力來提升性能,且計(jì)算成本相對(duì)較低。
第四種是"自我訓(xùn)練"。這有點(diǎn)像讓一個(gè)廚師在沒有外部指導(dǎo)的情況下通過不斷嘗試來改進(jìn)自己的菜譜。研究團(tuán)隊(duì)驚訝地發(fā)現(xiàn),即使只用33個(gè)成功輪次的數(shù)據(jù)進(jìn)行微調(diào),AI模型也能顯著提高其性能,展現(xiàn)出域內(nèi)泛化能力。
第五種是"迭代工作流改進(jìn)"。這就像是重新設(shè)計(jì)廚房的布局,使廚師工作更高效。攻擊者可以改變AI助手處理任務(wù)的整體流程,包括推理步驟、規(guī)劃和工具使用。研究表明,即使使用相同的核心模型,通過優(yōu)化工作流,也能顯著提高助手的成功率。
這五種自由度的強(qiáng)大之處在于,它們不需要任何外部知識(shí)或更強(qiáng)大的模型,攻擊者只需要計(jì)算資源和時(shí)間。而在有強(qiáng)驗(yàn)證器和經(jīng)濟(jì)激勵(lì)的網(wǎng)絡(luò)安全領(lǐng)域,這些投資往往是值得的。
三、研究方法與實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證這些自由度的影響,研究團(tuán)隊(duì)設(shè)計(jì)了一系列精心的實(shí)驗(yàn)。他們使用了Qwen2.5-32B-Coder-Instruct作為核心語言模型,這是一個(gè)擁有強(qiáng)大編程能力的大型語言模型。他們還采用了NYU CTF Agent作為基礎(chǔ)代理框架,移除了其中的"放棄"工具以鼓勵(lì)代理更深入地探索任務(wù)。
CTF(Capture The Flag)挑戰(zhàn)是評(píng)估網(wǎng)絡(luò)安全能力的常用基準(zhǔn)。典型的CTF挑戰(zhàn)包括任務(wù)描述和一些初始文件,AI助手需要分析材料并提交一個(gè)"flag"作為解決方案。研究團(tuán)隊(duì)使用了三個(gè)CTF基準(zhǔn)數(shù)據(jù)集:
1. InterCode CTF:包含100個(gè)來自高中生網(wǎng)絡(luò)安全競(jìng)賽PicoCTF的任務(wù)。研究者排除了10個(gè)無法解決的任務(wù),將剩余的90個(gè)分為開發(fā)集(54個(gè)任務(wù))和測(cè)試集(36個(gè)任務(wù))。
2. NYU CTF:來自紐約大學(xué)年度網(wǎng)絡(luò)安全意識(shí)周(CSAW)的CTF競(jìng)賽,提供了200個(gè)不同的挑戰(zhàn)。
3. Cybench:由40個(gè)來自4個(gè)不同CTF競(jìng)賽的獨(dú)特挑戰(zhàn)組成,包括HackTheBox、SekaiCTF、Glacier和HKCert。
研究團(tuán)隊(duì)采用pass@k作為評(píng)估指標(biāo),這衡量的是從k次嘗試中至少有一次成功的概率。默認(rèn)情況下,他們?cè)O(shè)置k0=12(總嘗試次數(shù))、N=20(最大交互輪數(shù)),并報(bào)告帶有95%置信區(qū)間的平均pass@k分?jǐn)?shù)。
四、驚人的實(shí)驗(yàn)結(jié)果
當(dāng)研究團(tuán)隊(duì)開始測(cè)試不同自由度的效果時(shí),他們發(fā)現(xiàn)了一些令人震驚的結(jié)果。
首先,簡(jiǎn)單的"重復(fù)采樣"和"增加最大交互輪數(shù)"確實(shí)能顯著提高性能。在InterCode CTF測(cè)試集上,將重復(fù)次數(shù)從1增加到10,成功率(pass@k)從約0.5提高到0.8左右;同樣,將最大交互輪數(shù)從10增加到30,也帶來了明顯的性能提升。然而,這些改進(jìn)確實(shí)呈現(xiàn)出收益遞減的趨勢(shì)——當(dāng)k或N變得更大時(shí),每增加一個(gè)單位帶來的改進(jìn)會(huì)越來越小。
更有趣的是"迭代提示詞改進(jìn)"。研究人員發(fā)現(xiàn),這種方法比簡(jiǎn)單的重復(fù)采樣更有效。通過讓AI反思并學(xué)習(xí)之前失敗的策略和軌跡,它能夠更高效地搜索解決方案。而且,這種方法計(jì)算成本相對(duì)較低,只需要一個(gè)額外的推理步驟來生成改進(jìn)的用戶提示。
"自我訓(xùn)練"的結(jié)果尤為驚人。研究團(tuán)隊(duì)收集了代理在開發(fā)集上的33個(gè)成功軌跡,并用這些數(shù)據(jù)對(duì)核心模型進(jìn)行了5個(gè)周期和10個(gè)周期的微調(diào)。令人驚訝的是,即使只用這么少的訓(xùn)練樣本,經(jīng)過5個(gè)周期訓(xùn)練的模型也在測(cè)試集上表現(xiàn)出了域內(nèi)泛化能力,始終優(yōu)于基礎(chǔ)模型。然而,自我訓(xùn)練也帶來了權(quán)衡——當(dāng)模型訓(xùn)練更多周期時(shí),它的輸出多樣性會(huì)降低,這可能會(huì)影響在更大的k值下的性能。
最后,"迭代工作流改進(jìn)"也展示了顯著效果。即使使用相同的核心模型,通過迭代優(yōu)化代理的工作流程(如推理步驟、規(guī)劃和工具使用方式),研究人員能夠生成比原始工作流性能更好的新工作流。
但研究的真正突破來自于固定計(jì)算預(yù)算下的比較分析。研究團(tuán)隊(duì)假設(shè)攻擊者有8個(gè)H100 GPU小時(shí)(約合36美元)的計(jì)算預(yù)算,比較了五種自由度在有狀態(tài)和無狀態(tài)環(huán)境中的表現(xiàn)。結(jié)果顯示,在這一相對(duì)較小的預(yù)算內(nèi),無狀態(tài)環(huán)境中的性能提升可以超過40%!
這些發(fā)現(xiàn)令人警醒:即使是最基礎(chǔ)的攻擊者,只需要很小的計(jì)算投資,就能顯著提高AI助手的網(wǎng)絡(luò)安全攻擊能力,而且不需要任何外部幫助。
五、研究啟示與未來展望
這項(xiàng)研究給我們帶來了幾個(gè)重要啟示。
首先,小型計(jì)算預(yù)算就能帶來實(shí)質(zhì)性的性能提升。這意味著,即使是資源有限的攻擊者也能顯著提高AI助手的網(wǎng)絡(luò)安全攻擊能力。在無狀態(tài)環(huán)境中,性能提升甚至可以超過40%,而成本僅為36美元左右。這凸顯了將這種動(dòng)態(tài)性納入風(fēng)險(xiǎn)評(píng)估的重要性。
其次,迭代提示詞改進(jìn)展現(xiàn)出最高的風(fēng)險(xiǎn)潛力,但增加重復(fù)次數(shù)或代理交互輪數(shù)也帶來顯著收益。這突顯了基于重復(fù)采樣的風(fēng)險(xiǎn)評(píng)估的局限性——它們無法完全捕捉代理的真實(shí)威脅潛力,因?yàn)榧词故腔镜奶崾驹~改進(jìn)策略也能輕松超越簡(jiǎn)單的重復(fù)采樣。
第三,有狀態(tài)和無狀態(tài)環(huán)境之間的風(fēng)險(xiǎn)潛力差異很大。部署前的操作(如自我訓(xùn)練和迭代工作流改進(jìn))通常計(jì)算密集型,因?yàn)樗鼈冃枰粽呦仁占_發(fā)集,然后反復(fù)運(yùn)行超參數(shù)搜索和評(píng)估。在有限的計(jì)算預(yù)算下,主要風(fēng)險(xiǎn)來自推理時(shí)的操作,這些操作通常只在無狀態(tài)環(huán)境中可行。這一區(qū)別強(qiáng)調(diào)了需要針對(duì)不同環(huán)境進(jìn)行單獨(dú)的風(fēng)險(xiǎn)評(píng)估。
研究人員也指出,他們只是觸及了攻擊者可能進(jìn)行的修改的表面。在現(xiàn)實(shí)世界中,攻擊者往往擁有更多高級(jí)能力:他們可以添加網(wǎng)頁瀏覽工具、手動(dòng)改進(jìn)初始信息、使用強(qiáng)化學(xué)習(xí)進(jìn)行自我訓(xùn)練,或采用更好的探索方法。這項(xiàng)研究的主要目標(biāo)是展示,即使是相對(duì)較低的計(jì)算預(yù)算和簡(jiǎn)單的方法,也能在多個(gè)自由度上實(shí)現(xiàn)性能提升。
總的來說,這項(xiàng)研究強(qiáng)調(diào)了網(wǎng)絡(luò)安全評(píng)估必須考慮這些動(dòng)態(tài)因素。如果——正如研究者發(fā)現(xiàn)的——網(wǎng)絡(luò)安全能力可以使用僅8個(gè)GPU小時(shí)或不到36美元的計(jì)算資源提高40%,那么將這些修改納入考慮的動(dòng)態(tài)風(fēng)險(xiǎn)評(píng)估必須成為任何前沿網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估框架的關(guān)鍵組成部分。
這對(duì)各方都有重要啟示。對(duì)于AI系統(tǒng)開發(fā)者來說,這意味著安全審計(jì)不應(yīng)只考慮靜態(tài)場(chǎng)景,而應(yīng)包括攻擊者可能的改進(jìn)路徑。對(duì)于政策制定者來說,這表明在評(píng)估AI系統(tǒng)風(fēng)險(xiǎn)時(shí),需要考慮到可預(yù)見的修改和一定計(jì)算閾值內(nèi)的微調(diào)。對(duì)于普通用戶和組織來說,這強(qiáng)調(diào)了持續(xù)更新網(wǎng)絡(luò)安全防御的重要性,因?yàn)楣粽叩哪芰赡軙?huì)隨著時(shí)間的推移而顯著提升。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。