這項由亞馬遜AI實驗室Terry Yue Zhuo帶領,聯(lián)合莫納什大學研究團隊完成的突破性研究,于2025年2月發(fā)表在人工智能頂級會議論文中,研究編號為arXiv:2508.00910v2。對于那些想要深入了解技術細節(jié)的讀者,可以通過該編號在學術數據庫中查詢完整論文。
網絡安全專家訓練AI模型時一直面臨著一個令人頭疼的問題,就像想要培訓一個消防員,卻沒有真正的火災現場讓他練習一樣。在網絡安全領域,許多挑戰(zhàn)環(huán)境和執(zhí)行環(huán)境都是臨時性的或者受到嚴格限制的,這讓AI模型很難獲得足夠的實戰(zhàn)經驗。亞馬遜的研究團隊開發(fā)了一種名為"Cyber-Zero"的革命性框架,能夠在沒有任何運行環(huán)境的情況下,僅僅通過分析公開的CTF(奪旗賽)解題報告,就能生成高質量的訓練數據來培訓網絡安全AI。
CTF比賽就像網絡安全領域的奧林匹克競賽,參賽者需要破解各種安全挑戰(zhàn)來獲得"旗幟"。比賽結束后,許多參賽者會寫詳細的解題報告分享他們的思路和方法。研究團隊巧妙地利用這些報告,通過一種雙AI模型的對話機制,模擬出完整的解題過程。
這種創(chuàng)新方法的核心思想是讓兩個AI模型扮演不同角色:一個扮演CTF玩家,負責分析問題和輸入命令;另一個扮演終端系統(tǒng),負責模擬系統(tǒng)響應。通過這種角色扮演,研究團隊能夠重現真實的網絡安全操作場景,生成包含試錯、探索和自我修復行為的完整訓練軌跡。
研究團隊從CTFtime等公開平臺收集了6188個高質量的CTF解題報告,這些報告涵蓋了從2017年到2025年間543場CTF比賽的4610個獨特挑戰(zhàn)。經過精心的數據清洗和質量篩選,他們構建了一個規(guī)模龐大且多樣化的訓練數據集。
**一、突破傳統(tǒng)訓練模式的創(chuàng)新框架**
傳統(tǒng)的網絡安全AI訓練方式就像要求學生在沒有教科書的情況下自學高等數學一樣困難。以往的方法通常需要可執(zhí)行的運行環(huán)境來收集真實的代理軌跡,但在網絡安全領域,這樣的環(huán)境往往難以獲得或維護成本極高。許多CTF挑戰(zhàn)的配置和執(zhí)行上下文都是短暫的,比賽結束后很快就會消失,即使一些挑戰(zhàn)后來開源,缺乏可執(zhí)行環(huán)境也讓收集真實代理軌跡變得幾乎不可能。
Cyber-Zero框架的出現徹底改變了這種困境。研究團隊意識到,雖然真實的挑戰(zhàn)環(huán)境可能無法獲得,但參賽者撰寫的詳細解題報告卻是寶貴的知識資源。這些報告不僅包含了解題的最終答案,還詳細記錄了思維過程、嘗試的方法、遇到的錯誤以及解決問題的步驟。
框架的運作過程分為三個主要階段。首先是源數據收集階段,研究團隊從公開平臺系統(tǒng)性地收集CTF解題報告。這個過程并非簡單的數據抓取,而是需要精心的質量控制。許多網上的解題報告質量參差不齊,有些只是簡單的提示或指向外部鏈接,有些則缺乏關鍵信息如任務描述或可用文件說明。研究團隊使用了嚴格的篩選標準,只保留那些包含足夠詳細信息且能夠驗證最終答案的報告。
接下來是驗證無關的軌跡生成階段。這是整個框架最核心的創(chuàng)新部分。研究團隊設計了一個雙LLM方法來模擬完整的CTF解題過程。第一個模型被設定為經驗豐富的安全工程師角色,具備豐富的攻擊性安全知識,能夠逐步分析挑戰(zhàn)并發(fā)出相應的命令。第二個模型則扮演終端環(huán)境的角色,能夠產生系統(tǒng)響應并維持現實的格式和輸出結構。
這種雙模型方法的巧妙之處在于角色分工的清晰性。玩家模型只能看到挑戰(zhàn)內容,比如任務描述、可用文件和環(huán)境假設,但看不到原始解題報告或正確答案,這迫使它必須從基本原理出發(fā)來解決挑戰(zhàn)。而終端模型則可以訪問原始解題報告和參考答案,使其能夠在軌跡生成過程中充當弱監(jiān)督的角色。
為了提高交互質量,研究團隊還實現了一個選擇性干預機制。當玩家模型犯重復錯誤或走入死胡同時,終端模型可以注入最少的提示,用特殊的標簽標記。這些簡短的上下文建議能夠重新定向玩家模型的思路,而不會透露完整的解決方案。
**二、數據質量保證與規(guī)模化生產**
數據質量控制是整個框架成功的關鍵所在。研究團隊采用了多層驗證機制來確保生成軌跡的質量和一致性,就像食品生產線上的多道質檢程序一樣嚴格。
首先是成功驗證層面,每個生成的軌跡必須能夠成功恢復正確的旗幟,通過精確匹配檢測來驗證。這確保了生成的解題過程確實能夠達到預期目標,而不是半途而廢或者得出錯誤結果。
其次是格式一致性檢查,系統(tǒng)會驗證Markdown格式的一致性、與代理腳手架的結構對齊,以及確保每個玩家響應中只包含單個命令。這種格式標準化對于后續(xù)的模型訓練至關重要,就像標準化的教學材料能夠提高學習效果一樣。
第三層是輸出規(guī)范驗證,終端輸出必須遵循要求的格式約定,包括準確的元數據頭和現實的系統(tǒng)行為。這確保了生成的軌跡不僅在邏輯上正確,在表現形式上也足夠真實。
最后是內容對齊評估,研究團隊使用基于LLM的二元過濾器來評估原始CTF解題報告與生成軌跡之間的對齊程度。這個步驟就像讓專家評估學生作業(yè)是否真正理解了課程內容一樣重要。
在生成配置方面,研究團隊選擇了DeepSeek-V3-0324模型來同時扮演玩家和終端角色,這個選擇基于該模型在多輪推理和代碼生成方面的強大能力。每個模型都配置了溫度0.6和top-p 0.95的參數,以在輸出多樣性和穩(wěn)定性之間取得平衡。為了避免過長的代理軌跡,系統(tǒng)將最大代理-環(huán)境配對輪數限制為40輪。
為了增加采樣多樣性,研究團隊為每個CTF解題報告生成三個不同的軌跡。這種多樣性增強策略就像從不同角度拍攝同一個場景一樣,能夠提供更豐富的訓練素材。最終,通過這種方法生成的數據集包含了9464個高質量軌跡,涵蓋了密碼學、取證、二進制利用、逆向工程、Web利用和雜項等六個主要類別。
**三、模型訓練與性能突破**
基于Cyber-Zero生成的高質量軌跡數據,研究團隊開展了大規(guī)模的模型訓練實驗。他們選擇了三個不同的模型家族進行微調:Qwen3、Qwen2.5-Instruct和SWE-agent-LM。這種多模型驗證策略就像在不同品牌的汽車上測試同一種燃料的效果,能夠更全面地驗證方法的普適性。
訓練過程采用了監(jiān)督微調的方式,通過NVIDIA NeMo框架實現。由于計算資源的限制,研究團隊只保留了最大32768個令牌的合成樣本,最終使用了9464個軌跡進行訓練。訓練超參數被一致設置為全局批次大小16、學習率5e-6和2個訓練周期。這些參數的選擇經過了精心調試,既能確保模型充分學習,又能避免過擬合。
為了確保評估的公平性和效率,研究團隊還開發(fā)了ENIGMA+,這是對原有ENIGMA腳手架的增強版本。新版本實現了并行執(zhí)行所有評估任務,將評估時間從原來的1-3天大幅縮短到5小時以內。這種效率提升是通過為每個Docker容器分配專用網絡接口和隔離環(huán)境來實現的,讓并發(fā)任務執(zhí)行不會相互干擾。
實驗結果令人驚喜。在三個知名的CTF基準測試中,經過Cyber-Zero訓練的模型都取得了顯著的性能提升。在InterCode-CTF基準上,Qwen3-32B模型的Pass@1性能從60.0%提升到82.4%,絕對提升達到22.4%。在NYU CTF基準上,性能從4.7%提升到13.5%,絕對提升8.8%。在Cybench基準上,性能從5.0%提升到17.5%,絕對提升12.5%。
更重要的是,最佳模型Cyber-Zero-32B的平均性能達到了33.4%,這個成績能夠與DeepSeek-V3-0324和Claude-3.5-Sonnet等頂級專有系統(tǒng)相媲美。這意味著通過無運行時軌跡合成訓練的開源模型,已經能夠達到商業(yè)級專有模型的性能水平。
**四、多維度擴展性驗證**
為了深入理解網絡安全代理在不同維度上的擴展特性,研究團隊進行了三個關鍵維度的受控實驗:推理時計算、任務多樣性和軌跡密度。每個維度都提供了關于擴展網絡安全代理的機會和局限性的重要洞察。
在推理時計算擴展性方面,研究團隊通過生成多個推理輪次并計算Pass@k來研究增加采樣如何影響性能。實驗結果顯示,經過微調的模型在所有采樣預算下都始終優(yōu)于零樣本對應模型。例如,經過微調的Cyber-Zero-14B在NYU CTF基準上從2.6%的Pass@1提升到4.2%的Pass@2,并且隨著k值增加,差距進一步擴大。這種模式與軟件工程代理評估中的先前發(fā)現一致,即重復采樣只有在模型的候選解決方案多樣且基于有效推理模式時才有益。
更有趣的是,經過微調的模型的改進曲線在k超過5后顯示出收益遞減,這表明大多數有用的推理路徑已經在前幾個樣本中被捕獲。這個發(fā)現對于實際部署具有重要意義,因為它告訴我們不需要無限增加采樣次數就能獲得模型的最佳性能。
在任務多樣性擴展性方面,研究團隊在逐漸增大的Cyber-Zero數據集子集上微調Qwen3模型,分別使用10%、20%、50%和100%的可用挑戰(zhàn)。實驗結果展現了單調的性能改進趨勢。例如,在InterCode-CTF上,Cyber-Zero-14B的性能從使用10%數據時的58.2%提升到使用100%數據時的73.6%。這種一致的改進模式表明,接觸多樣化的挑戰(zhàn)類型能夠增強模型識別和利用各種漏洞模式的能力。
有趣的是,在專業(yè)級基準如Cybench上的改進相比教育挑戰(zhàn)InterCode-CTF來說不那么明顯。這種差異表明,復雜的現實世界挑戰(zhàn)需要更復雜的推理,這可能僅通過未經驗證的合成軌跡更難捕獲。這個發(fā)現提醒我們,雖然數據多樣性很重要,但質量和復雜性也同樣關鍵。
在軌跡密度擴展性方面,研究團隊通過改變每個CTF解題報告生成的合成軌跡數量來檢驗軌跡密度如何影響下游性能。比較了每個任務訓練1個、2個和3個軌跡的模型,同時保持任務覆蓋范圍不變以隔離軌跡多樣性的影響。
結果顯示,更密集的軌跡采樣能夠大幅提高所有基準測試的性能。對于NYU CTF基準上的Cyber-Zero-14B,性能從5.7%(1個軌跡)相對提升73%到9.9%(3個軌跡)。這種益處在長期或欠確定任務上尤為明顯,在這些任務中,單個采樣解決方案可能會錯過關鍵決策點或反映次優(yōu)推理路徑。
**五、實際應用價值與成本效益**
Cyber-Zero框架不僅在技術性能上取得了突破,在實際應用的成本效益方面也表現出色。這對于推動網絡安全AI技術的普及和民主化具有重要意義。
在成本效益分析中,研究團隊比較了不同模型在性能和成本之間的權衡。專有模型如Claude-3.7-Sonnet和Claude-3.5-Sonnet雖然能夠實現強勁的零樣本性能(分別為43.3%和37.2%),但成本高昂,平均需要44.4美元和22.2美元來完成成功的任務。
相比之下,Cyber-Zero-32B以33.4%的成功率實現了可比較的性能,但成本顯著降低。更重要的是,Cyber-Zero模型在提供顯著更好性能的同時,保持了與其基礎模型相似的成本效益。這些發(fā)現表明,在Cyber-Zero軌跡上訓練的代理不僅實現了有競爭力的性能,還為實際網絡安全應用提供了卓越的成本效益和樣本效率。
研究團隊還發(fā)現了一個有趣的現象:經過微調的模型顯著減少了陷入循環(huán)的情況。在零樣本設置下,模型經常在處理網絡安全任務時陷入循環(huán),即代理連續(xù)多輪生成相同動作。而在Cyber-Zero軌跡上的微調一致地將所有基準測試的陷入循環(huán)率降低了3.3%-28.7%。這種改進對于實際部署至關重要,因為陷入循環(huán)的代理無法有效完成任務。
從算法角度來看,研究團隊還進行了重要的對比實驗。他們發(fā)現,與單輪生成相比,多輪合成確實能提高探索效率。單輪軌跡往往過于直接,包含很少的執(zhí)行錯誤,縮短了玩家和終端之間的交互次數。而多輪生成的軌跡更能反映真實的試錯探索過程,這對于訓練魯棒的網絡安全代理是必要的。
**六、技術創(chuàng)新與方法論貢獻**
Cyber-Zero框架的技術創(chuàng)新不僅體現在具體的實現細節(jié)上,更重要的是它提出了一種全新的方法論,為在缺乏可執(zhí)行環(huán)境的領域訓練智能代理開辟了新的道路。
傳統(tǒng)的代理訓練方法嚴重依賴于可執(zhí)行環(huán)境來收集真實的交互軌跡。然而,在許多重要的應用領域,特別是網絡安全,這樣的環(huán)境往往不可用或成本極高。Cyber-Zero通過巧妙地利用人類專家知識(以解題報告的形式)來克服這一根本性挑戰(zhàn),展現了從文本知識到可執(zhí)行技能轉換的可能性。
框架中的雙LLM方法特別值得關注。這種設計不僅僅是技術實現的便利,更體現了對人機協(xié)作模式的深刻理解。通過讓一個模型扮演問題解決者,另一個模型扮演環(huán)境反饋者,系統(tǒng)能夠模擬出接近真實的學習交互過程。這種角色分工確保了生成的軌跡既保持了解決問題的邏輯性,又維持了環(huán)境反饋的真實性。
選擇性干預機制的設計也體現了研究團隊的精巧思考。在沒有真實環(huán)境的情況下,如何平衡指導和自主探索是一個微妙的問題。過多的指導會導致軌跡過于人工化,失去探索的自然性;過少的指導則可能導致代理無法找到正確的解決路徑。通過引入最小化的上下文提示,系統(tǒng)能夠在關鍵時刻提供必要的方向指引,同時保持解決過程的自然性。
數據質量控制流程的設計同樣體現了方法論的嚴謹性。多層驗證機制不僅確保了數據的正確性,更重要的是確保了數據的多樣性和代表性。通過成功驗證、格式檢查、輸出規(guī)范和內容對齊等多個維度的質量控制,系統(tǒng)能夠生成既準確又豐富的訓練數據。
**七、開源貢獻與社區(qū)影響**
Cyber-Zero項目的開源性質為整個網絡安全AI社區(qū)帶來了重要貢獻。研究團隊承諾將發(fā)布完整的數據集、代碼和預訓練模型,這種開放態(tài)度對于推動領域發(fā)展具有重要意義。
項目提供的修正版基準測試特別值得關注。在評估過程中,研究團隊發(fā)現了現有CTF基準測試中的一些問題,影響了約6%的挑戰(zhàn)。他們不僅識別了這些問題,還提供了修正版本,這對于確保未來研究的公平性和準確性至關重要。這種負責任的研究態(tài)度體現了學術界應有的嚴謹性。
ENIGMA+腳手架的開發(fā)和開源也是重要貢獻。相比原始的ENIGMA,新版本不僅大幅提升了評估效率,還提供了更公平的模型比較機制。通過使用最大交互輪數而非基于成本的預算來限制生成,新系統(tǒng)確保了不同定價結構模型之間的一致評估條件。
從技術棧的角度來看,Cyber-Zero的實現充分利用了現有的開源工具和框架,如NVIDIA NeMo訓練框架、pwntools安全測試工具等。這種基于開源生態(tài)的開發(fā)模式不僅降低了技術門檻,也為其他研究者復現和擴展這項工作提供了便利。
研究團隊還特別關注了不同規(guī)模模型的性能表現。從8B到32B參數的模型都顯示出了一致的性能擴展趨勢,這為不同計算資源條件下的用戶提供了選擇空間。較小的模型雖然絕對性能較低,但在成本效益方面仍然表現出色,這對于資源受限的組織或研究者來說具有重要意義。
說到底,Cyber-Zero框架的意義遠遠超出了技術創(chuàng)新本身。它展示了一種新的可能性:即使在缺乏理想訓練環(huán)境的情況下,我們仍然能夠通過巧妙的方法設計來培訓出高性能的AI系統(tǒng)。這種思路對于許多其他領域都具有啟發(fā)意義,比如醫(yī)療診斷、法律分析、科學研究等需要專業(yè)知識但又難以獲得大量實戰(zhàn)數據的領域。
從更廣闊的視角來看,這項研究體現了AI民主化的重要趨勢。通過讓開源模型能夠達到商業(yè)級專有模型的性能,Cyber-Zero為更多組織和個人獲得先進的網絡安全AI能力提供了可能。這種技術普及對于提升整個社會的網絡安全防護水平具有重要意義,特別是對于那些無法承擔昂貴商業(yè)解決方案的中小型組織。
當然,任何強大的技術都具有雙面性。正如研究團隊在論文中坦誠地討論的那樣,這些網絡安全能力既可以用于防御目的,也可能被惡意利用。無運行時方法使得先進的網絡安全代理訓練變得更加容易獲得,這可能會降低攻擊性和防御性應用的門檻。因此,研究團隊呼吁研究者、模型開發(fā)者和安全機構之間的持續(xù)合作,以確保這些強大工具的負責任開發(fā)和部署。
最終,Cyber-Zero代表了網絡安全AI發(fā)展的一個重要里程碑。它不僅解決了一個長期存在的技術挑戰(zhàn),更重要的是為未來的研究和應用開辟了新的方向。隨著這種方法的進一步發(fā)展和完善,我們有理由期待看到更多創(chuàng)新的AI訓練方法出現,推動整個人工智能領域向著更加實用和普惠的方向發(fā)展。
Q&A
Q1:Cyber-Zero框架是什么?它解決了什么問題?
A:Cyber-Zero是亞馬遜開發(fā)的首個無運行環(huán)境訓練網絡安全AI的框架。它解決了網絡安全領域訓練數據稀缺的問題,通過分析公開的CTF解題報告,用雙AI模擬的方式生成高質量訓練數據,無需真實的挑戰(zhàn)環(huán)境。
Q2:雙LLM方法具體是怎么工作的?
A:這種方法讓兩個AI模型分工合作:一個扮演CTF玩家角色,只看挑戰(zhàn)內容從零開始解題;另一個扮演終端系統(tǒng),能看到標準答案并模擬系統(tǒng)響應。通過這種對話互動,重現真實的網絡安全操作場景。
Q3:Cyber-Zero訓練的模型性能如何?有什么實際優(yōu)勢?
A:經過Cyber-Zero訓練的最佳模型性能達到33.4%,能與Claude-3.5-Sonnet等頂級商業(yè)模型媲美,但成本顯著更低。在三個主要CTF基準測試中都取得了顯著提升,最高絕對提升達22.4%。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。