引言

随着计算机的日益普及和网络技术的快速发展,网络在社会、政治、经济、军事等各个领域发挥着越来越大的作用,日益成为各行各业快速发展的重要工具。然而网络技术的快速发展也带来了诸多的网络安全问题,网络安全事件层出不穷,通过网络安全风险事件预测技术建立起网络隐患防护系统,对推动网络安全稳定具有重大意义。近年来,研究机构已经开始提出了数据驱动的网络安全风险事件预测方法与技术,挖掘网络安全事件与多维度网络特征间的关联性,利用机器学习或深度学习算法预测潜在的网络安全事件。

什么是网络安全风险事件预测?

网络安全风险事件大体上是指一切对网络安全保密性、完整性、可用性、可控性等造成破坏的事件,通俗讲即是指可能会损坏个人或组织利益的行为事件。总体而言,网络安全风险事件可以看做由资产、威胁和脆弱点三大元素组成的对网络安全造成损害的行为事件:

(1) 资产是指对组织或攻击者来说具有价值属性的事物,可主要分为数据、软件、硬件、服务和环境类等。例如服务器、主机。

(2) 威胁是指对网络及其资产构成潜在破坏的可能性因素,可主要分为软硬件故障、物理环境威胁、无作为或操作失误、管理不到位和恶意代码等。例如病毒。

(3) 脆弱点是指资产本身存在的漏洞或缺点,可以被攻击者威胁利用从而损害组织利益,主要分为物理脆弱性、网络脆弱性、系统脆弱性、应用脆弱性、管理脆弱性等。例如系统漏洞,网络的不规范管理。

举一个具体的例子,对于网络安全风险事件:“某公司的服务器因为存在系统漏洞,在某天遭到了入侵者的攻击,公司业务被迫中断三天。”,可如表1所示进行划分。

表1 风险分析举例

网络安全风险事件预测与风险检测不同。网络安全领域最先出现的概念是风险检测,风险检测是指通过实时地、持续地监测网络运行状态以发现网络中的多种漏洞或风险。如果将风险检测比喻成医生利用活组织检查等手段诊断患者身体状况,那么风险事件预测可以看作是医生通过一系列指标,预测当前健康的人是否会在未来患某种疾病(例如通过基因测试)。从后果和应用程序的角度来看,检测可以发现和减轻威胁,而预测可以提前了解网络系统中最危险的部分,使管理员可以主动有针对性地加强网络安全。数据驱动的网络安全风险事件预测技术,就是要充分利用已发生的网络安全风险事件库,针对特定类型的网络安全事件或特定的风险数据集的特点和需求,来构建合适的网络安全风险预测模型。

目前国内外的研究现状是怎样的呢?

目前已有很多研究工作致力于构建数据驱动的网络安全风险事件预测模型,所依赖的网络数据多种多样,包括使用网站功能、事件报告、运行日志文件等数据,所预测的安全风险事件有钓鱼邮件、恶意软件和恶意网页等。大多数现有研究都将网络安全风险预测视为判别风险事件发生与否的二元分类问题,并通过机器学习、深度学习和图形挖掘等方法进行预测。有些细粒度的网络安全风险事件预测,也会结合多个二分类预测模型组成更具体的多分类预测模型。

近年来在网络与信息安全相关的顶会上陆续出现了多篇有关网络安全风险事件预测的文章,例如:

Rhode等人使用递归神经网络算法(Recurrent Neural Network,RNN),在可执行文件仅运行5s的时间段内,利用用户终端简短的行为快照,包括最大进程ID、内存使用量、交换区的使用情况、数据包发送与接收情况等,预测可执行文件是否是恶意。

Sharif等人使用一个大型蜂窝网络提供商的HTTP traffic数据,通过提取多维度用户行为特征,包括发送URL请求次数、浏览会话的时长、一天内浏览行为的时序特征等,在单个浏览会话级别,预测用户的数据是否会接触网络中的恶意内容。

Liu等人从多个数据集收集了关于机构的258个外部可观测衡量的网络特征,并选取来自VERIS社区数据库、Hackmageddon和Web黑客事件数据库的网络安全事件作为标签,充分挖掘了网络中的不规范配置与数据泄漏的关系,预测一个机构在不久的将来是否会遭遇数据泄露。网络的不规范配置包含DNS源端口的随机化、BGP错误配置、不信任的HTTPs证书等。

Canali等人基于用户的网页历史浏览行为,对用户是否将被遭受网络攻击的风险进行预测。他们的分析基于某AntiVirus供应商收集的遥测数据集,包括在三个月内超过100,000个用户访问的数百万个URL,并通过逻辑回归方法预测用户的风险等级。文中涉及到的网页浏览行为包括访问的URLs的数量、访问恶意的URLs的数量及频次等。

此外,面对不断涌现的网络安全事件,工业界也在积极寻求更好的网络攻击防御手段。例如Alphabet旗下的一家网络安全子公司Chronicle,已发布了一个名为Backstory的信息安全数据平台,利用谷歌庞大的基础设施和数据分析能力,为信息安全分析师提供了从大量警报中解析出潜在威胁的能力,帮助企业在网络攻击造成损失之前及时发现和阻止。

总体来说,网络安全风险预测方面的研究工作还处在发展初期。面对网络安全中的新形势、新问题,大数据、行为分析的新型智能化安全管理工具大量涌现,数据驱动的基于网络安全风险事件预测的动态综合安全理念已成为网络安全解决思路的趋势和潮流。网络安全管理需要依靠对数据的深度挖掘,高效、准确地发现异常或危险行为,实现由“被动”到“主动”的信息安全防护。

如何构建数据驱动的网络安全风险事件预测模型?

网络安全风险预测模型的构建是个不断分析、验证与改进的过程,主要思想是利用收集到的网络安全风险事件数据,将预测目标建模为二元或多元分类问题,并利用机器学习或深度学习算法构建具有最佳预测效果的风险事件预测模型。

数据驱动的网络安全风险事件建模过程具体可分为五大步骤,包括网络安全风险事件定位与建模、数据收集和数据处理、特征工程、模型训练及模型评估。这几大步骤构成一个循环,以不断的改进和改善风险预测模型的预测效果。

图 网络安全风险预测关键技术

总结

近年来,由于网络安全风险事件的持续发生,网络运行状态、web应用、主机、弱密码、中间件等网络安全脆弱点持续监测,以及网络安全风险事件的采集,为实现数据驱动的网络安全风险事件预测提供了数据基础,它预测未来最容易被攻击的实体,对可能会产生的各类网络隐患进行定位预测,为后续制定各类应对策略奠定基础,从而在一定程度上有效地减少各类网络病毒或其他网络攻击手段对网络带来的危害,网络安全风险事件预测已成为近几年的研究热点。因此,通过网络安全风险预测技术建立起网络隐患防护系统,对学术界和工业界推动网络安全发展具有重大意义。

参考文献

[1] Sun N, Zhang J, Rimba P, et al. Data-driven cybersecurity incident prediction: A survey[J]. IEEE Communications Surveys & Tutorials, 2018.

[2] Bilge L, Han Y, Dell"Amico M. Riskteller: Predicting the risk of cyber incidents[C]//Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. ACM, Dallas, USA, 2017: 1299-1311.

[3] Shen Y, Mariconti E, Vervier P A, et al. Tiresias: Predicting Security Events Through Deep Learning[C]//Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. ACM, , Toronto, ON, Canada, 2018: 592-605.

[4] Degang Sun, Zhengrong Wu, Yan Wang, Qiujian Lv, Bo Hu. Risk Prediction for Imbalanced Data in Cyber Security : A Siamese Network-based Deep Learning Classification Framework [C]. //The 2019 International Joint Conference on Neural Networks (IJCNN), Budapest, Hungary, 2019.

[5] Canali D, Bilge L, Balzarotti D. On the effectiveness of risk prediction based on users browsing behavior[C]//Proceedings of the 9th ACM symposium on Information, computer and communications security. ACM, Kyoto, Japan, 2014: 171-182.

[6] Rhode M, Burnap P, Jones K. Early-stage malware prediction using recurrent neural networks[J]. computers & security, 2018, 77: 578-594.

[7] Sharif M, Urakawa J, Christin N, et al. Predicting impending exposure to malicious content from user behavior[C]//Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. ACM, Toronto, ON, Canada, 2018: 1487-1501.

[8] 周志华. 机器学习[M]. Beijing, China: Tsinghua University Press, 2016.

[9] Liu Y, Sarabi A, Zhang J, et al. Cloudy with a chance of breach: Forecasting cyber security incidents[C]//24th {USENIX} Security Symposium ({USENIX} Security 15). Washington, D.C., USA, 2015: 1009-1024.

作者:吕遒健 吴峥嵘

声明:本文来自中国保密协会科学技术分会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。