这篇文章详细阐述了一种新颖的方法,用于在网络靶场中自动化评估蓝队的表现,并强调了该方法的可扩展性。文章指出,网络靶场已成为进行安全演练和模拟真实或假设场景的重要环境,但评估演练结果一直具有挑战性,通常依赖人工管理员进行手动干预。为了克服这一限制,文章提出了一种自动化评估方法,该方法利用蓝队和红队的报告以及安全数据库来自动评估和判断演习结果。
该方法的核心在于生成攻击和防御报告的基于树的表示,并通过比较不同红队和蓝队行动的模型来评估网络演练。这种方法允许同时对多个蓝队进行自动比较和评估,提供了一种有效且客观的方法来评估与演练相关的各个指标。此外,文章还介绍了如何从图形数据中计算分数和网络态势,以便对蓝队的表现进行全面评估。
该方法的优点在于其自动化和客观性。通过自动化评估过程,可以大大减少人工干预和评估时间,同时提高评估的准确性和一致性。此外,该方法还可以根据需要对多个指标进行评估,从而提供对蓝队表现的全面视图。
文章提出的方法已经具有很高的实用性和创新性,但仍然有一些可以改进的地方。首先,可以进一步完善和扩展评估指标,以便更加全面地评估蓝队的表现。例如,可以考虑加入对蓝队响应速度、资源利用率等方面的评估。其次,可以集成机器学习和人工智能技术来增强自动化过程。例如,可以利用机器学习算法来自动识别和分析攻击模式,提高评估的准确性和效率。
网络靶场中蓝队网络态势的自动化评估和可扩展性
Federica Bianchi、Enrico Bassetti、Angelo Spognardi
摘要
网络靶场是虚拟训练靶场,已成为开展安全演习和模拟真实或假设场景的不可或缺的环境。这些复杂的计算基础设施能够模拟攻击,便于评估防御工具和方法,并针对威胁制定新对策。网络靶场可扩展性的主要挑战之一是演习评估,这常常需要人工管理员(白队)进行手动干预。本文提出了一种新颖的方法,该方法使用蓝队和红队的报告以及安全数据库来自动评估和判断演习结果,克服了现有评估模型的局限性。本论文的提议包括评估各个方面和指标,明确强调蓝队的行动和策略,并允许自动生成他们的网络态势。
1 .绪论
面对不断增加的网络威胁,企业和其他组织必须加强防御来抵御恶意行为者。网络演练已经成为一种重要的训练工具,帮助安全团队模拟真实的攻击场景并评估他们的准备情况。这通常包括红蓝队之间的攻防对抗,通过演练活动提供安全团队安全防护技能和实践经验。然而,评估演练结果一直具有挑战性,因为依赖服务指标和人工评分的组合。这种方法耗时、容易出错,并且限制了对蓝队响应的及时反馈[16、15]。随着网络安全变得日益重要,对蓝队表现的稳健评估标准、自动化流程和客观洞察力变得迫切需要。
为了解决这些限制,本文提出了一种新颖的方法,该方法利用报告和著名的网络安全数据库来自动化评估网络演练结果,明确关注蓝队的表现。本论文提出的框架利用自动化的力量解决手动评估方法的局限性,提供一种有效且客观的方法来评估与演练相关的各个指标。
本研究的主要贡献在于开发一种自动化评估演练过程的全面且可扩展的方法。通过生成攻击和防御报告的基于树的表示,本论文建议通过比较不同红队和蓝队行动的模型来评估网络演练。本论文的方法允许同时对多个蓝队进行自动比较和评估,以帮助演练中的白队,并使组织能够迅速从结果中提取有价值的见解。提供的贡献涉及蓝队相关各个指标的评估的可能性,特别是与对红队攻击的响应的正确性和准确性相关的评估。
本文的结构如下:第 2 节提供了当前评估方法及其局限性的背景;第 3 节提供了本论文提案的总体构想;第 4、5 和 6 节详细描述了本论文提案的核心,即如何为团队定义网络演练报告以及如何处理这些报告。最后,第 7 节总结了本文并讨论了未来研究的构想。
2. 背景和相关工作
网络靶场目前的评估方法存在差异,越来越注重自动化评分以减少人工工作。通常情况下,网络靶场通过仪表盘显示演习进展,评估主要基于成功完成的挑战数量。一些平台,如 I-tee [14]、Hack The Box (HTB) [6]、iCTF [13]、Kypo [4] 和 Locked Shields [10] 使用基于目标完成度和服务可用性、完整性或保密性等附加指标的评分系统。然而,这些方法的局限性是显而易见的。自动评分引擎依赖基本计算,与获得特定目标或指标相关的得分相关,忽视了参与者采用的详细绩效和策略。这种评估通常缺乏对参与者能力的综合评估。Andreolini 等人 [1] 提出了一个评分系统,通过将参与者的行动与白队定义的“理想”行动进行比较来评估参与者的行动。这涉及构建表示理想行动和参与者行动的参考图和受训者图。尽管这是一步进步,但这种方法也有其局限性。首先,它可能无法完全获取蓝队的策略和防御,主要是因为它们依赖于红队的攻击,这些攻击是运行中动态决定的,很难根据白队输入的图表进行建模。其次,评估过程并非完全自动,需要白队持续手动工作,以定义参考图并使其适应不断发展的演习。后续章节将描述一种旨在通过白队的最小人工贡献自动评估蓝队结果的替代方法。
3. 自动评估练习
本文介绍了一种新的方法,用于自动评估网络靶场演习的结果,重点是蓝队的表现。这一新方法包括了红队和蓝队报告的明确定义模板,以及一系列用于获得最终分数的程序。同时,还提出了一个名为网络态势的可视化工具。
自动评估的流程可以简化为以下几个步骤:(1)收集蓝队和红队的报告;(2)根据报告制定参考/响应图;(3)利用图形自动评估多个中间分数;(4)计算最终分数和网络态势。
首先,本文定义了报告的结构。其次,解释了如何在演习结束后自动构建参考和响应图,这对于分数的定义非常重要。最后,本文说明了如何从图形数据中计算分数和网络态势。。
4. 团队报告
大多数先进的网络靶场都配备有报告系统,可在演习期间生成报告。这些报告由发动攻击的红队生成,并与描述已检测攻击的蓝队报告相匹配。鉴于白队的一项任务是根据这些报告评估蓝队,本论文的目的是通过使这些阶段自动进行来减轻白队的评估负担。
本论文为蓝队和红队报告提出的结构基于 MITRE ATT&CK [12] 矩阵(通过 STIX [3] 访问)的组成部分,该矩阵是安全社区收集的有关攻击者所用策略、技术和程序以及相应的可能缓解措施和检测的知识数据库。报告结构优先考虑简单性、易填充性和非侵入性,特别是对于蓝队,增强并有效和高效的报告编写以及自动分析的准确性。
红队报告模板包括攻击目标、技术、子技术、攻击目标、开始时间和结果等字段。它还可能任意包含预期的缓解措施和预期的检测,这些措施由白队在演习开始时或模拟结束时在自动评估阶段启动之前填写。
此外,白队还可以选择在报告中的特定字段[策略、技术、子技术、预期缓解措施和预期检测]中分配权重[0,1]。这些权重通过为他们可能希望更好地评估的特定方面分配优先级来影响蓝队的评估。如果未分配,则在评估过程中将应用自动权重(第 6 节)。
只有白队为上述字段分配权重,预期检测和预期缓解措施可选字段才会变得重要。通过这种方式,蓝队通过精确执行其中一种缓解措施和检测来获得更高的分数。无论如何,即使它使用了白队未列出的缓解或检测技术,但仍然出现在该攻击的 ATT&CK 中,其分数仍然会高于未执行适当缓解或检测的分数。
蓝队报告模板包括假设的策略、技术、子技术、应用的缓解措施、检测类型、受到攻击的目标和检测开始时间。
5.从报告到 ReportADTree
一旦团队填写报告,网络作战评分系统就会处理报告,为每份报告生成两个图,即参考图和响应图。在评分阶段使用这两个图来计算分配给每个蓝队的总分。本研究将这些图的结构命名为 ReportADTree,因为它们是作为 ADTree 的一个变体来构造的,这是一棵有向树,使用两种类型的节点(攻击节点和防御节点)来建模攻击-防御场景。
攻击节点由战术、技术和子技术节点组成,正如 MITRE ATT&CK 中所定义的那样。在 ReportADTree 中,初始顶点始终是战术,然后是技术,技术可以分为缓解、检测和子技术。反过来,子技术也可以有自己的缓解和检测作为子节点。
本研究将参考图定义为对演习参与者的攻击响应和检测进行评估的一个参考。该图是使用红队报告和 ATT&CK 数据库中的攻击信息组装而成的,遵循 ReportADTree 结构。每个 ReportADTree 节点都具有白队在红队报告中分配的权重,或者如果没有则自动生成权重。
本研究还定义了响应图来评估蓝队对红队攻击的响应:将其与相应的参考图进行比较,以给蓝队分配分数。响应图是使用从蓝队报告的字段中提取的防御信息构建的,其过程类似于参考图中描述的过程。然而,只有蓝队报告中定义的缓解和检测作为其引用的技术或子技术的孩子节点添加。
6. 评估
一旦构建了参考图和响应图,则自动评估阶段便会开始。本论文提出评估各种因素以捕捉到演习的各个指标。本论文定义了多个中间分数和每个蓝队评估的汇总最终分数。因素包括攻击管理、攻击战略理解、(子)技术知识、识别技术的准确性、响应能力以及可用性和完整性等指标。评估旨在衡量蓝队对红队攻击的响应能力、理解攻击策略以及准确识别和减轻技术的能力,最终形成汇总最终分数。
评估从初始阶段开始,旨在修改参考图和响应图,以便仅基于响应图节点及其相关权重实现直接评估。白队可以手动指定权重;如果缺少,则自动生成这些权重。
一旦设置了所有参考图权重,则使用广度优先搜索比较这两个图以将权重分配给蓝队正确识别的响应图节点。相反,在参考图中没有匹配项的节点将被移除。对于技术和子技术,即使与响应图没有完全匹配,本论文仍然可以估计蓝队猜测的准确性。本论文的想法是通过来自 MITRE 的已知攻击模式的公共数据库 CAPEC [8] 使用现有的 CAPEC-ATT&CK 映射 [9] 来计算正确技术与蓝队猜测的技术之间的距离。
分数计算涉及定义多个中间分数来评估前面提到的因素,并且可以选择根据演习目标将权重与每个中间分数相关联。一旦计算出所有这些中间分数,便会将它们平均到一个最终总分中。
第一个中间分数是理解分数,它是衡量(子)技术知识和攻击战略理解的指标。它评估蓝队识别红队在攻击中使用的技术和子技术以及蓝队理解总体攻击战略和策略的精确度。第二个中间分数是防御分数;它代表攻击管理因素,即蓝队理解如何响应红队攻击的能力。第三个是实施分数,它评估蓝队是否实施已识别的缓解措施。理解分数虽然评估团队识别技术或子技术正确缓解措施的能力,但实施分数明确关注这些缓解措施的实际执行情况。最后,最后一个分数是响应分数,它代表红队报告中报告的攻击开始时间与蓝队报告中报告的开始时间之间的间隔。
通过收集的信息,除了个人分数之外,还可以定义演习期间每个蓝队发展的能力的总体概况。这个方面通常称为网络态势[7]。这些措施反映了蓝队的整体防御能力,从而提供了演习结果和个人评估方面的全面视图。
7. 结论和未来工作
本篇文章介绍了一种新的方法,用于评估网络靶场演习的自动化系统,特别关注于蓝队。该框架利用自定义报告、图表和安全数据库,如MITRE ATT&CK和CAPEC,提供了一个全面的、可扩展的解决方案,以克服传统手动评估方法的局限性。自动化评估阶段解决了手动评估耗时且容易出错的挑战。
未来的工作包括设计一个完全有效的网络靶场评分平台,集成用于接收和评估报告的GUI。此外,计划完善和扩展自动化框架中使用的评估指标,识别可以提供对蓝队绩效进行更全面评估的其他指标和基准。最后,计划集成机器学习和人工智能技术以增强自动化过程,通过启用对评估结果的智能分析和解释来实现该目的。
8. 致谢
这项工作部分由项目“揭秘:预测和缓解社交媒体中的协同不真实行为”提供支持,该项目由罗马 Sapienza 大学资助。
参考文献
[1]M. Andreolini, V. G. Colacino, M. Colajanni, and M. Marchetti.A framework for the evaluation of trainee performance in cyber range exercises.Mobile Networks and Applications, 25:236–247, 2020.
[2]Bagnato, Alessandra and Kordy, B and Meland, Per Håkon and Schweitzer, Patrick.Attribute decoration of attack–defense trees.International Journal of Secure Software Engineering (IJSSE), 3:1–35, 01 2012.
[3]S. Barnum.Standardizing cyber threat intelligence information with the structured threat information expression (STIX).Mitre Corporation, 11:1–22, 2012.
[4]P. Čeleda, J. Čegan, J. Vykopal, D. Tovarňák, et al.Kypo–a platform for cyber defence exercises.M&S Support to Operational Tasks Including War Gaming, Logistics, Cyber Defence. NATO Science and Technology Organization, 2015.
[5]B. Kordy, S. Mauw, S. Radomirović, and P. Schweitzer.Attack–defense trees.Journal of Logic and Computation, 24(1):55–87, 2014.
[6]H. T. B. Ltd.Hack the box (HTB), 2023.Last Accessed: 5 Jul 2023.
[7]D. Massa.Cyber range: Virtual hacking warfare, 2019.Last Accessed: 5 Jul 2023.
[8]MITRE.CAPEC, 2007.Last Accessed: 5 Jul 2023.
[9]MITRE.CAPEC related projects, 2007.Last Accessed: 5 Jul 2023.
[10]N. C. C. D. C. of Excellence.Locked shields, 2010.Last Accessed: 5 Jul 2023.
[11]B. Schneier.Attack trees.Dr Dobb’s Journal-Software Tools for the Professional Programmer, 24(12):21–31, 1999.
[12]B. E. Strom, A. Applebaum, D. P. Miller, K. C. Nickels, A. G. Pennington, and C. B. Thomas.MITRE ATT&CK: Design and philosophy.In Technical report. The MITRE Corporation, 2018.
[13]E. Trickel, F. Disperati, E. Gustafson, F. Kalantari, M. Mabey, N. Tiwari, Y. Safaei, A. Doupé, and G. Vigna.Shell we play a game? CTF-as-a-service for security education.In 2017 USENIX Workshop on Advances in Security Education (ASE 17), Vancouver, BC, Aug. 2017. USENIX Association.
[14]C. Willems and C. Meinel.Online assessment for hands-on cyber security training in a virtual lab.In Proceedings of the 2012 IEEE Global Engineering Education Conference (EDUCON), pages 1–10. IEEE, 2012.
[15]M. M. Yamin and B. Katt.Modeling and executing cyber security exercise scenarios in cyber ranges.Comput. Secur., 116(C), may 2022.
[16]M. M. Yamin, B. Katt, and V. Gkioulos.Cyber ranges and security testbeds: Scenarios, functions, tools and architecture.Computers & Security, 88:101636, 2020.
声明:本文来自时间之外沉浮事,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。