根据网络安全态势感知理论国内外发展现状,研究网络安全特征要素提取、网络安全态势评估和网络安全态势预测等关键技术主要方法研究现状及优缺点,分析当今大数据环境的安全风险和挑战以及大数据环境下网络安全态势感知面临的技术难点问题,对未来大数据环境下网络安全态势感知未来研究方向进行总结和展望。
网络安全态势感知模型研究现状
随着信息技术的快速发展,各种网络及应用越来越多涉入社会和人们的生活,云计算、大数据、物联网技术的兴起,网络的结构、规模、数据、应用也越来越复杂,网络安全问题日益成为关注的焦点。为了解决各种各样的安全问题,网络安全态势感知作为网络安全主动防御的新技术,逐渐成为目前研究热点之一。
1.2 国外网络安全态势感知模型研究
网络安全态势感知模型是开展网络安全态势感知研究的前提和基础,国外研究的网络安全态势感知模型主要有 JDL 模型 、Endsley 模型 和 Tim Bass 模型 等。
1.2.1 JDL 模型
JDL(Joint Directors of Laboratories) 模 型 是 面向数据融合的模型。JDL 模型包括五级处理,首先是对来自信息源的数据预处理,包括操作系统及应用程序日志、防火墙日志、入侵检测警报、弱点扫描结果等;然后是一级处理,主要是对数据进行分类、校准、关联、融合,并对精炼后的数据进行规范;数据精炼后进入二级处理,主要是对融合后的数据信息进行态势评估,评估当前的安全状况;三级处理是对威胁进行评估,评估当前威胁,包括未来可能发生的攻击等,以及威胁演变趋势;四级处理是对过程进行精炼,通过动态监控信息的反馈不断优化过程;五级处理是对认知精炼,根据监控结果不断改善人机交互方式,提高交互能力和交互效率 。
1.2.2 Endsley 模型
Endsley 模型包括态势觉察、态势理解、态势预测 3 个层次级别。第 1 级为态势要素提取,主要从海量数据信息中提取网络安全态势信息,并转化为统一的数据格式,为网络安全态势理解做准备;第 2 级为网络安全态势理解,通过对网络安全态势提取的特征要素分析,确定要素之间的关系,并根据分析对象所受到的威胁程度理解 / 评估当前网络安全状态;第 3 层为网络安全态势预测,主要依据历史网络安全态势信息和当前网络安全态势信息预测未来网络安全态势的发展趋势,并根据系统目标和任务,结合专家的知识、能力、经验制定决策,实施安全控制措施。
1.2.3 Tim Bass 模型
Tim Bass 模型是针对分布式入侵检测提出的融合模型。Tim Bass 模型基于入侵检测的多传感器数据包括四级,第 0 级为数据精炼,主要负责提取、过滤和校准入侵检测的多传感器原始数据;第 1 级为对象精炼,将数据规范化,统一格式后,进行关联分析,提炼分析对象,按相对重要性赋予权重;第 2 级为态势评估,根据提炼的分析对象和赋予的权重评估系统的安全状况;第 3 级为威胁评估,主要是基于网络安全态势库和对象库状况评估可能产生的威胁及其影响;第 4 级为资源管理,主要负责整个态势感知过程的资源管理,优化态势感知过程和评估预测结果。
此外,诸如加拿大国防部、美国 CERT 组织、美国圣地亚国家实验室、 美国哈佛大学、美国空军实验室等诸多知名大学和组织也都参与到了网络安全态势感知模型的研究中 。
1.3 国内网络安全态势感知模型研究
1.3.1 基于 Netflow 的网络安全态势感知模型
赖积保、王慧强等提出了一个由流数据采集、数据预处理、事件关联与目标识别、态势评估、威胁评估、响应与预警、态势可视化显示、过程优化控制与管理以及数据库管理系统等部分构成的基于 Netflow 的网络安全态势感知模型。流数据采集按一定时间间隔实现数据采集;事件关联与目标识别从时间、空间、协议等多个方面采用数据融合技术对多源流数据进行关联和识别。态势评估主要形成态势分析报告,包括特征提取、当前态势分析和态势预测等过程。威胁评估是对整个网络威胁程度的估计。态势可视化主要提供当前态势、未来态势、威胁评估结果等信息的显示。过程优化控制与管理负责从流数据采集到态势可视化的全过程的优化控制与管理。数据库管理系统负责包括原始数据、特征库、态势库等的管理。
1.3.2 基于信息融合的网络安全态势评估模型
韦勇等 提出基于信息融合的网络安全态势感知模型,分为量化评估和预测两部分。量化评估部分主要根据多个相关检测设备的检测日志、攻击依赖漏洞信息和主机节点漏洞信息、已知攻击信息等,计算攻击发生支持概率、攻击成功支持概率、攻击威胁等,并通过态势要素融合推断主机节点安全态势,然后,利用服务信息判断各主机节点权重,经过节点态势融合,得到网络安全态势。预测部分是根据安全态势评估结果,引入时间序列分析方法,对网络安全态势进行趋势预测。
1.3.3 面向大规模网络的安全态势感知模型
针对大规模网络中数据的海量、多模式、多粒度的特点 , 贾焰等 [8] 提出一个由数据集成、关联分析、指标体系与态势展示、态势预测等四个部分组成的面向大规模网络的安全态势感知模型。数据集成主要是不同数据源对网络安全事件的定义通常具有不同的格式 , 由态势感知系统通过向数据源部署 Agent 的方式将数据集成为统一格式 , 并去除冗余及噪声数据,进行预处理;关联分析是对不同的告警信息采用网络安全知识库中的关联规则进行逐级关联 , 匹配告警事件;指标体系及态势展示是该模型提出一套网络安全量化指标体系 , 基于知识库中的指标模型和关联分析的结果计算网络安全指标 , 并对网络安全态势进行可视化;态势预测主要根据历史数据学习的预测模型 , 预测网络安全事件。此外,Linqiang Ge 等 提出一个基于目标防御的网络框架可以有效地提高网络安全态势感知的有效性和灵活性;Xu, Guangquan 等提出了一种基于语义本体和用户自定义规则的态势推理方法的物联网网络安全态势感知模型;Fang Lan 等 提出了一种基于知识发现的网络安全态势感知框架;Alcaraz 等 提出了一种保护关键信息基础设施广域态势感知框架;Zhang,Haoliang 等阐述了国家安全态势感知的概念,提出一个态势感知多层次分析框架,这些都对网络安全态势感知模型进行了研究。
网络安全态势感知的关键技术
2.1 网络安全态势特征要素提取技术
网络安全态势特征要素提取是网络安全态势评估和预测的基础,在整个的网络安全态势感知系统中,安全事件的预处理与态势要素的提取处于网络安全态势感知底层,网络的安全态势要素主要包括网络的拓扑信息、脆弱性信息和状态信息等静态的配置信息和各种防护措施的日志采集和分析技术获取的威胁信息等动态的运行信息等 。
目前针对网络安全态势特征要素提取已经开展了许多研究工作。其中特征抽取方法包括主 成 分 分 析 (Principal Component Analysis,PCA或 称 K-L 变 换 )、 独 立 成 分 分 析 (Independent Component Analysis,ICA) 和聚类分析方法等。梁百川采用事件提取和分群技术实现态势要素的提取算法;陈佩研究了主成分分析法研究及其在特征提取中的应用;吴逊等研究了基于独立成分分析的特征提取方法;李文瑾研究了网络蠕虫特征自动提取技术;H Wu等基于复杂网络理论研究了入侵检测特征提取方法;CH Tsang 等研究了基于蚁群的聚类方法与无监督特征提取算法;聂小波 研究了基于蜜罐技术的攻击特征提取方法;翟光群等 研究了用无监督聚类算法分析入侵数据提取新的攻击特征;赵会锋等针对蜜网捕获的数据采用改进的无监督聚类算法进行分类处理和特征提取;C Torrano-Gimenez[24] 等研究了结合专家知识和自动特征提取的 Web 攻击检测。网络安全态势特征要素提取技术方法中主成分分析方法的优点是从 2 阶上消除了样本之间的相关性,实现了原始样本的维数压缩。独立成分分析方法是主成分分析方法在高阶上的推广,也在特征提取中发挥着重要的作用,主成分分析和独立成分分析特征提取方法有其优点,但得到的低维特征数据缺少鉴别信息,并不是最有助于分类的数据,近年来聚类分析特征提取方法在入侵检测方面也得到广泛研究,通过将数据集划分为不同的类别,由此分辨出正常和异常行为。
2.2 网络安全态势评估技术
网络安全态势评估是网络安全态势感知系统实现的重要环节,网络安全态势评估主要是在大规模网络环境中 , 融合获取各类网络监测数据,根据网络安全特征属性的领域知识和历史数据 , 借助数学模型综合评估网络安全状态,使网络管理者能够有目标地进行决策和做好防护准备。
目前,网络安全态势评估方法研究得比较多的包括基于数学模型的态势评估方法,基于知识推理的态势评估方法,基于模式识别的态势评估方法等 。基于数学模型的态势评估方法常见的有层次分析法、熵值法、集对分析法等;基于知识推理的态势评估方法充分利用经验知识建立态势评估模型 , 借鉴模糊集、概率论、证据理论等处理不确定性信息 , 常见的方法有模糊逻辑推理、贝叶斯推理、证据理论等;基于模式识别的态势评估方法通过机器学习建立态势模板 , 常用的网络安全态势模式识别方法有灰关联分析、粗糙集理论、贝叶斯分类法等。
网络安全态势评估技术方法中层次分析法相对比较简单,但对每一层次因素的相对重要性是基于人对客观现实的判断给出定量表示,再运用数学的方法确定每一层所有因素相对重要性次序的权值。熵值法比层次分析法具有较高的可信度和精确度,但熵值法的缺点是缺乏各指标之间的横向比较,无法减少评价指标的维数。集对分析方法的优点在于使用联系度统一处理随机、模糊和信息不完全所致的多种不确定性,但集对分析中如何构造同异反联系度 ,仍然缺少科学的依据和公认的方法。
基于知识推理的态势评估方法主要借鉴概率论、模糊集、证据理论等处理不确定性信息 , 利用经验知识建立态势评估模型 , 通过逻辑推理判断网络态势完成评估。基于知识推理的态势评估方法中模糊逻辑推理方法,包括直觉模糊集、L- 模糊集、区间值模糊集、Vague 集等,在网络安全态势评估中应用比较广泛;贝叶斯推理是在经典的统计归纳推理、估计和假设检验的基础上发展起来的,根据网络安全态势评估动态、不确定性的特点,许多学者研究中相继提出动态贝叶斯网络、加权贝叶斯推理、层次贝叶斯推理等,但在利用贝叶斯理论进行网络安全态势评估的过程中,存在的难点为情况复杂时,先验似然函数的获得十分困难,需要大量统计工作,而且贝叶斯推理要求各证据之间相互独立,这使得事件相关度比较高时复杂性迅速增加;证据理论中需要的先验数据比较直观,容易获得,且可以综合不同专家或数据源的知识或数据,这使得证据理论在网络安全态势评估中得到了广泛应用,证据理论对于解决非冲突的评价合成问题是非常有效的,但对于证据间存在冲突的情况下,计算复杂度高。
基于模式识别的态势评估方法是通过机器学习建立态势模版 , 经过模式匹配 , 完成对态势的划分,其目标是不过分依赖专家和经验。目前常用的网络安全态势模式识别方法有灰关联分析、粗糙集理论、贝叶斯分类法等。基于粗集理论的态势评估 , 兼具表达、学习与分类能力 ,突出的特点在于粗集学习能力强,具有从海量历史数据或者案例中发现隐含知识、揭示潜在规律并转化为逻辑规则的优势。其次 , 借助信息系统这一形式化模型 , 将知识的表达、学习和分析纳入统一的框架之中,而且无须提供所需处理数据集合之外的任何先验信息 , 科学、客观 , 避免了主观因素带来的影响,其难点在于决策表核的确定和属性约简算法 ( 求核与约简 ),其计算量大 , 在非实时环境中有很好的效果 , 但在实时环境中可能无法满足要求 。贝叶斯分类法先构造先验概率,之后使用新的证据改善对事件的先验假设,从而得到后验概率,其难点在于先验概率是在大量数据统计的基础上得出的,当情况比较复杂时,先验似然函数的获得比较困难,对于“不确定”和“不知道”两个概念,贝叶斯理论并没有直接的表示方法。
2.3 网络安全态势预测技术
网络安全态势预测是在大规模网络环境中基于对当前网络安全态势评估和已有的历史评估数据,对未来一段时间内的网络安全态势变化趋势进行预测,其是网络安全态势感知的一个重要组成部分。网络安全态势预测常用的方法有时间序列预测方法、马尔科夫链预测方法、集成学习预测方法、神经网络预测方法、深度学习预测方法等。
卓莹等人 提出了网络态势预测的广义回归神经网络模型,给出了模型的网络设计原则以及网络态势预测方法,并验证了模型的准确性和时效性;王宇飞等针对网络安全态势精确预测 , 提出一种基于改进广义回归神经网络的预测方法 , 以改善网络安全态势预测精度;YicunWang提出了一种基于模糊马尔可夫的预测方法预测网络安全威胁值;黄同庆等设计了基于隐马尔可夫模型的实时网络安全态势预测模型;王笑等 提出适用于实时风险概率预测的马尔科夫时变模型。刘杰等 提出基于 BP 神经网络的非线性网络流量预测方法,范九伦等基于径向基函数 (radial basis function,RBF) 神经网络 , 给出一种网络安全态势预测方法;孟锦等使用混合递阶遗传算法 (HHGA) 对 RBF 神经网络进行训练,提高 RBF 神经网络的预测精度;S. Chatterjeedeng 等研究了基于 NARX 神经网络的非线性自回归软件故障预测;王宇飞 使用集成学习的方法对网络安全态势进行评估和预测研究;魏彬等研究了基于集成学习算法的网络安全防御模型,并通过集成学习算法提高了模型的预测精度、泛化能力和稳定性 ;夏玉明等对基于卷积神经网络的网络攻击检测方法进行了研究;Kang H W 等 使用基于上下文和目标信息基于双列卷积神经网络对城市安全进行预测;周长建等 研究了基于深度学习的网络态势感知建模方法。
网络安全态势预测技术方法中时间序列预测法简单、直观、易于掌握,但对于预测精度有较高要求的需要有合适的模型阶数和最佳的模型参数估计,而且建模过程也比较复杂。此外,时间序列预测法对于有拐点的长期预测和有不规则、混沌等非线性特征的时间序列也不太适用。马尔科夫链预测对于非平稳随机过程有较好的预测效果,但如何合理确定模糊状态或隐状态数目及状态转移步数,进一步提高预测精度还有待继续探讨。
集成学习预测方法在机器学习算法中具有较高的准确率,因此也被用于网络安全态势预测。集成学习预测方法包括随机森林 (RandomForest,RF)、 梯度提升树 (Gradient Boosting Decision Tree,GBDT)、极端梯度提升 (eXtreme Gradient Boosting,XGBoost) 等 。随机森林具有极高的准确率,能处理很高维度的数据,训练速度快,缺点是在某些噪音较大的分类或回归问题上会过拟合;GBDT 可以灵活处理各种类型的数据,对异常值的鲁棒性非常强,由于弱学习器之间存在依赖关系,难以并行训练数据,且不适合高维稀疏特征;XGBoost 适应各种回归分类模型,泛化错误率低,缺点是数据不平衡易导致分类精度下降,训练比较耗时,对离群点敏感。
人工神经网络(Artificial Neural Networks)按照网络结构中有无反馈回路,又可以分为静态神经网络和动态神经网络两种。BP 神经网络、RBF 神经网络属于静态神经网络,动态神经网络如具有外部输入的非线性回归神经网络(nonlinear autoregressive network with exogenous inputs,NARX)等,神经网络在网络安全态势预测领域的应用取得了较多的良好的效果,但是由于确定神经网络结构的方法还不完备,选择何种网络结构对预测性能有不同的影响,在态势预测中存在训练不足、过拟合、特征相似而期望输出差异很大、难以消解样本间的冲突等现象,这些使神经网络训练模型也有一定的局限性。
深度学习是对具有深层结构的神经网络进行有效训练的方法,目前处于快速发展中,主要模型包括受限玻尔兹曼机((Restricted Boltzmann Machine, RBM))、自编码器(Autoencoder,AE)、卷积神经网络 (Convolutional Neural Network,CNN)、深层堆砌网络(Deep Stacking Network,DSN)、循环申请网络(Recurrent Neural,RNN)、长短记忆(Long Short-Term Memory,LSTM)网络等,运用这些模型能够从大量的复杂数据中学习到合适有效的特征,可以解决网络安全态势中的特征提取和预测问题。目前将深度学习方法应用于网络安全主要需要解决的问题包括算法性能问题等 , 如可解释性和可追溯性问题、自适应性和自学习性问题、存在误报以及数据集不均衡的问题 。
大数据环境下网络安全态势感知面临的问题及未来研究方向
大数据环境是采集、存储、分析计算、共享使用大数据的网络环境,属于一个庞大的非线性复杂系统,其复杂性主要表现在节点数目巨大、节点多样性、连接多样性、信息多样性、动力学复杂性、网络结构复杂多变、多重复杂性融合,因此大数据环境下网络面临更多的安全风险。
3.1 大数据环境下网络安全态势感知面临的技术难点问题
3.1.1 大数据环境下网络安全态势感知模型建立面临的难点问题
· 大数据环境下具有感知节点多、类型不同、连接多样、信息动态多变等特点,以往的网络安全态势感知模型还多是单源或多源同质模型,缺乏对大数据环境下复杂网络系统的网络安全态势感知模型进行建模。
· 现有网络安全态势感知模型仍然存在负荷重、响应延迟大,完整性、稳定性和准确性差等缺点。
3.1.2 大数据环境下网络安全态势特征要素提取面临的难点问题
· 大数据环境下数据来自多种数据,数据种类和格式丰富,海量历史数据存在的大量错误和冗余,不适合直接作为网络安全态势感知的分析对象。
· 大数据环境处理的数据量处理起来比较复杂,也会影响数据融合和事件关联分析的实时性。
· 大数据环境下影响网络安全状态的因素复杂多样,各安全特征要素之间存在关联关系,互相影响,实时变化,信息的融合处理存在很大难度。
· 融合大数据量网络安全特征数据时可能造成特征数据提取不完整,特征空间降维效果难以评价,最终可能导致从数据集中归纳出不准确的特征信息。
· 大量的安全数据关联分析处理流程比较复杂,基于云的分布式数据处理计算效率还需要提升。
3.1.3 大数据环境下网络安全态势评估面临的难点问题
· 大数据环境下网络安全感知的数据包含大量的不确定性信息,在一定程度上是不完整的、不精确的、矛盾的,需解决态势评估过程的不确定信息问题。
· 目前研究网络安全态势指标往往针对某一方面或某一应用场景,缺少刻画大数据环境下全局网络安全态势评估的指标体系,没有统一评价的标准。
· 大数据环境诸多不确定因素的存在增加了网络安全度量的复杂性 , 有些指标的度量无法进行直接量化,有些指标可以量化 , 但无法进行细粒度度量。因此 , 需要构建好指标度量的方法,满足网络安全态势量化计算的可行性。
· 对网络安全态势指标是否涵盖了大数据安全评估的所有方面无法验证,缺乏指标体系的有效性验证。
· 大数据环境下海量安全数据变化快,网络安全评估方法的选取需及时、准确地反映网络安全态势。
3.1.4 大数据环境下网络安全态势预测面临的难点问题
· 缺乏面向大数据环境的网络安全态势动态预测模型,无法实现对大数据环境下对全局网络安全态势实时、准确的预测。
· 现有的网络安全态势预测强烈依赖数据预处理和人工介入,对历史经验知识学习还缺乏智能化。
· 网络安全预测方法在提高学习效率、收敛速度、预测准确度方面未来还有待进一步研究。
· 现有网络安全态势预测方法难以预见到大数据环境下网络攻击发生的时间、节点位置和攻击类型,无法有效支撑大数据环境下网络安全主动防御的精准决策。
3.2 大数据环境下网络安全态势感知技术未来研究的方向
目前随着大数据时代的到来,大数据环境下的网络安全态势感知研究已经受到高度重视,通过对大数据环境下网络安全态势感知技术的研究可以增强网络安全态势感知效率,提高网络安全态势评估和预测的及时性和准确性,更好地保障大数据环境下的网络安全。未来,对大数据环境下网络安全态势感知技术可以从以下几个方面进行研究:
(1)研究面向大数据环境,系统化、标准化、适用不同应用场景的网络安全态势感知模型,研究自适应、高可扩展性、高稳定性的网络安全态势感知系统,突破大数据环境下网络安全态势提取、态势评估、态势预测关键技术。
(2)建立一套标准化的大数据环境下有效、完备、可度量的网络安全态势评价指标体系,客观、全面、准确刻画大数据环境下的网络安全态势,为态势评估和预测提供科学依据。
(3)深入研究安全大数据的特征,分析安全大数据特征要素之间的关系,研究多源动态异构安全大数据特征要素提取和分析方法。
(4)深入研究大数据环境下网络安全的度量模型,针对测量的安全对象深入研究测量方法、测量函数、分析模型和决策准则,突破对大数据环境网络安全细粒度度量系统、全面、深入的认知。
(5)吸收借鉴各学科优势,研究大数据环境下网络安全态势量化评估的新方法和新思路,针对大数据环境下海量安全数据特征,研究全面、高效、准确评估大数据环境下网络安全态势的方法。
(6)研究基于新一代人工智能科学技术的网络安全态势预测技术,以适应数据量大、动态多变、实时性要求高、高度协同的大数据网络环境安全保障需求,支撑网络安全管理的精准决策,为网络安全主动动态防御提供指导。
(为便于排版,已省去原文注释)
作者
韩晓露,北京交通大学电子信息工程学院博士研究生,高级工程师。主要研究领域为网络安全、大数据与大数据安全、工业信息化。
刘云,北京交通大学电子信息工程学院教授,主要研究方向为网络安全与舆情动态。
张振江,北京交通大学软件工程学院教授,主要研究方向为无线传感器网络、数据融合、信息安全。
吕欣,博士,国家信息中心研究员,主要研究方向为网络安全评价体系、网络安全战略、网络空间安全体系结构。
李阳,博士,国家信息中心高级工程师,主要研究方向为社交网络、大数据挖掘、信息安全。
(本文选自《信息安全与通信保密》2019年第七期)
声明:本文来自信息安全与通信保密杂志社,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。