一、国家高度重视态势感知和安全运营工作
2016年4月19日,习近平在京主持召开网络安全和信息化工作座谈会并发表重要讲话,强调要树立正确的网络安全观,加快构建关键信息基础设施安全保障体系,全天候全方位感知网络安全态势,增强网络安全防御能力和威慑能力。
2016年12月27日,国务院全文印发了《“十三五”国家信息化规划》,再次强调了态势感知的重要性。“十大任务”中的最后一项,健全网络安全保障体系,提出”全天候全方位感知网络安全态势”,与习近平总书记在419网络安全和信息化工作座谈会上的讲话一致。
在《中华人民共和国网络安全法》中,第五章明确了监测预警与应急处置内容:负责关键信息基础设施安全保护工作的部门,应当建立健全本行业、本领域的网络安全监测预警和信息通报制度,并按照规定报送网络安全监测预警信息。
二、当前安全运营工作面临的主要困难
(一)安全基础能力成熟度普遍不足
1、基础安全信息管理不足
安全治理工作的出发点在于基础信息台账的建立和维护。由于数据量大、关联关系复杂、变化频繁等原因,基础安全信息往往存在信息缺失和实效性差等问题。这一点在云计算技术快速发展的阶段尤为突出,由于云平台良好的伸缩性,基础资源常常处于快速变化的过程中,给基础信息管理带来巨大的挑战。
首当其冲的就是资产管理问题。一是IT资产与业务信息、人员信息脱钩。在进行安全事件处置时,不能确定目标IP的实际用途和业务状态,不清楚其在系统架构和技术栈中的作用,无法联系具体人员配合处置。二是资产信息不够深入和完善。在进行安全预警时,无法判断威胁影响范围和风险程度。比如某基础组件爆发新漏洞,无法掌握此组件在各信息系统的应用情况,影响后续防护、监测等一系列动作;再比如可能存在某些管理后台对外提供访问,或者某业务域名不在安全管理范围内,给了攻击者可乘之机。
2. 安全能力覆盖不足
在安全预算有限的情况下,安全团队一般会选择投入到ROI最高的地方。从实践情况来看,往往是网络侧的边界防御。而内部跨区防护由于资源需求较高、主机侧防护由于实施难度较大,被选择性忽视。久而久之,造成了安全建设“头重脚轻”的局面。在实际攻防场景中,再“高”再“厚”的墙也终将被绕过。一旦攻击者突破边界取得初步权限,内部安全能力的真空很容易导致整体网络空间的沦陷。
另外,规模较大的数据中心往往具有多条边界、多个安全域以及体量巨大的主机和应用,无论网络侧还是主机侧,覆盖率常常不能做到100%,成为攻击者的突破口,也给溯源工作带来困难。
3. 单点安全能力不足
单点安全能力永远存在漏报和误报的问题。由于攻击技术天然具有技术领先性和战术突然性,必然存在无法监测或防护的威胁。即使当前攻击被阻断,攻击者经过一段时间的研究,也有可能绕过防护。而安全规则设计存在缺陷、或者安全规则与本地业务不能全面兼容,将会导致出现无效告警,消耗大量人工进行修正。而真正有效的告警,往往被淹没其中。
(二)安全运营工作目标不够清晰
1、安全运营不是“万金油”
安全运营是安全治理工作的重要组成部分,但是不能指望安全运营解决全部安全问题。首先,安全运营需要基础安全能力,否则将成为“空中楼阁”。其次,从业务系统生命周期考虑,还包括了安全架构、安全开发、安全交付等开发和迭代环节,与安全运营互相补充,共同形成安全能力;从安全治理工作考虑,还有合规要求、风险评估和安全审计,与安全运营和攻防,共同形成安全工作的准绳和导向。
2. 安全运营不仅仅是“大而全”
安全团队往往希望能够收集尽可能多的数据,充分利用大数据分析、机器学习等先进技术,发现大量未知威胁。然而,这样遥远的目标可能反而不易达成。首先,海量的原始数据不但难以传输和存储,对安全分析的意义也比较有限。其次,安全运营的主体内容是将当前各项安全工作有机整合起来以提升效益,从本质上还是基于人的能力。因此,解决现实中的安全场景,才是相对有意义的工作目标。
(三)安全运营工具建设难度较大
1、技术路线难以统一
安全运营平台要打通全部安全系统实现业务交互。本来安全运营基于基础安全能力,客观上需要多种安全系统,兼容性方面就不太乐观了。这一点在商业路线的安全团队中更为明显,接口五花八门不说,还可能因为商业原因无法提供接口或者难以调通。即使通过大量努力调试成功,未来出现版本升级或者产品选型发生变化,也将产生大量维护成本。
2. 定制化要求较高
与具体的安全技术不同,安全运营工作与当前整体网络环境和业务系统架构紧密相关。首先,不同的网络环境和业务系统架构,其安全风险和面临的威胁不同,需要设计定制化的安全场景。其次,根据安全能力建设的实际情况,用于感知和控制风险的安全技术也存在差异。
(四)安全运营团队人才培养不足
从大环境来说,安全行业整体存在较大人才缺口。从行业内部来说,安全人员常常重攻轻防、重技术安全而轻业务安全。从具体培养过程来说,尚未形成成熟的培养体系,持证上岗不能保障,更不要说满足合规、审计的要求。
三、安全运营工作建设
(一)夯实基础
1、加强基础安全信息建设
通过对资产、日志、策略、情报等基础安全对象的管理,建立和维护台账,形成基础安全信息。主要打通以下三个通道:
资产和组织架构的通道:通过资产信息管理,包括CMDB等一系列工具的部署,在充分掌握信息系统技术架构、各服务互相调用关系的基础上,进一步关联设备和系统与开发、运行、业务人员之间的具体对应关系。
日志和策略“上传下达”的通道:建立统一的日志上收渠道,将全部安全工具的统一采集以备分析。建立有效的策略下发渠道,保证安全策略能够及时、有效、准确地下发到安全工具并执行。这里需要全部安全工具,无论商业、开源还是自研,都具有完备的API接口。
外部情报与本地安全能力的通道:将多渠道收集的外部预警、机读情报等信息,整合并输入本地情报库,进一步赋能本地安全工具,以提升防护和监测能力。
2. 扎实开展纵深防御建设
基于网络环境和技术架构,主要从以下几方面部署纵深防御:
网络侧:具备覆盖全部网络协议栈的分析、检测和防护能力,能够覆盖全部边界和跨区主要链路。
主机侧:具备覆盖操作系统、计算环境、数据层等全部技术栈的分析、检测和防护能力,能够覆盖应用、中间件、数据库等信息系统各个模块。
数据侧:具备覆盖数据使用各个环节的数据风险监测和控制能力。
攻防侧:能够有效收敛攻击面,具备有效防护各类已知攻击的能力。
(二)工作框架
1、组织架构
安全运营团队在明确负责人的基础上,根据实际工作情况,可划分如下工作组:
安全运营委员会:由技术团队负责人主持,以安全运营团队为主体,开发、运行、业务团队参加。对重大安全事件的响应处置进行指挥和决策。监督安全运营工作成效,推动风险控制和安全能力建设。
应急响应组:外部预警和威胁情报的渠道建立和信息采集。重大安全事件的应急响应和跟踪处置。前沿攻防技术研究和渗透测试。
安全架构组:安全体系建设。安全系统运维。基础安全信息管理。
安全技术组:根据不同安全技术方向,通过安全研究和实践,建设安全能力,开展安全监测,深入分析和追溯安全事件。
2. 工作机制
日例会和周报机制:每工作日确认当前存量重要安全事件处置情况,保证重要安全事件处置“不过夜”。每周确认当前存量安全事件追溯分析情况,保证安全事件“不跟丢”,相关情况形成书面记录存档。
事件处置生命周期:
重大安全事件由安全运营委员会现场分析、决策,并由应急响应组执行和推进解决方案,时限以风险得到有效控制为止,然后转为一般安全事件继续跟踪。
一般安全事件中,漏洞类事件由安全技术组按照“修复-验证-发布-监控”的方式,结合DevOps流程开展处置;木马类事件由安全技术组按照“止损-溯源-根除-优化”的方式开展处置;时限根据风险程度具体确定。除此之外,安全团队还应着手开展业务风险事件的监测和处置。
(三)主要工作内容和方法
1、大规模消除误报并实现事件分级
在体量庞大的攻击过程中,从监测视角来看,将会出现海量事件和告警。这些事件和告警的数量远远超过人力能够处理的范畴。因此安全运营首先要实现的是事件减少,一般存量待处理事件不超过10条。而其中最有效的就是降低误报并统一告警分级标准。对于级别最高的告警事件,一定是确认存在拒绝服务、系统受控、数据泄漏等现象或者实质性攻击造成了失陷,有效区分于大量无目的扫描(使用高危漏洞攻击脚本但自身实际上不受此漏洞影响)、风险较低的外联(如流氓推广)等“伪高风险”事件。
在安全运营过程中,监测只是第一步,后续还有处置、溯源、修复、优化等一系列过程,而这些后续过程不可避免地需要大量人工介入。为了避免人工成为整个流程中的瓶颈,需要对待处理事件区分优先级,形成小时级、日级、周级、月级处理梯队,让重要事件得到及时解决,同时兼顾全局。
小时级:实时发生的失陷事件,不断恶化的安全事件。
日级:存量高风险事件闭环处置。
周级:资产管理、脆弱性扫描、基线核查、安全更新等周期性任务执行,中低风险和潜在风险分析,外部重要安全事件跟踪。
月级:整体攻防演练,安全运行演练和有效性检验,事件回顾。
可以看出,其中最能够体现态势感知价值、有效减少MTTD和MTTR的就是小时级事件处置。作为入侵过程中具有实质性影响的标志,失陷事件易于准确发现。因此,小时级事件以失陷事件为主,经过经验积累,可以形成安全场景知识库。
2. 建设高阶威胁感知能力
高阶威胁发现是信息量增加的过程。这与事件减少并不矛盾。事件减少主要是去除大量误报和无实质性影响的告警,同时对事件进行整合和提炼。在这一过程中,信息量并没有增加。而高阶威胁发现是对监测数据的进一步加工,进行因果关系的串联和相关关系的关联,从而挖掘出新的事件。
1)定位入侵阶段和攻击过程还原
定位单体事件在渗透和攻击链中的所处阶段,结合溯源分析,进一步形成完整的证据链,还原攻击过程。通过还原攻击过程,有利于全面评估损失和安全风险,制定完善的解决方案。在还原攻击过程时,尤其要注意前后证据间严谨的因果关系,形成充分必要关系,否则应考虑补充必要证据或者去除冗余证据。
2)深度挖掘异常行为
对于外部已发生但本地仍未知的高阶威胁,通过引入多源外部威胁情报,与自身安全技术体系有机结合,具备检测和防护能力。目前,应用比较普遍是基于域名、IP地址、样本特征等进行失陷检测。
对于仍未公开的未知威胁,通过建模分析,基于大数据技术,从海量日志中检测异常行为,具备潜在威胁发现能力。未知威胁一般基于0 day漏洞或者特种木马。应对这一类高阶威胁,主要从两方面考虑。一是“降维防御”,首先要做好失陷准备,此类攻击具有技术优势和高度隐蔽性,无法通过已知规则进行检测;这样,才能将视角从攻击特征转移到行为特征。二是“干扰思维”,在具体操作层面,预置陷阱和诱饵有助于发现异常。
3. 基于运营业务划分安全视角
安全视角是对安全运营工作的分类。而安全运营工作服务于信息系统和业务运行,分为主体、客体和管道。其中主体主要是用户和终端,管道主要是网络环境和访问权限控制,客体主要是应用系统。而应用系统安全体系庞大、涉及面广,一般又根据技术栈分为系统、应用和数据。
同类安全工作在安全技术上具有相同的特征,比如终端安全侧重补丁和杀毒,而应用安全侧重应用漏洞攻击和木马检测。科学的安全视角划分,有利于制定统一日志格式和结构化数据处理,更好地进行分析和展示。
4. 基于平台工具推进自动化运营
为加快上述分析速度,快速分发防护和响应策略,节约人工成本,有效提升安全运营效率和规模,需要基于态势感知等平台工具实现运营工作自动化。目前主要有SOAR模型(Security Orchestration, Automationand Response,安全编排、自动化和响应)和OODA模型(Observe, Orient, Decide, Act,观察,调整,决策以及行动)。在具体落地方面,前者主要是基于Splunk的Phantom平台,后者主要是IACD框架(Integrated Adaptive Cyber Defense, 集成的自适应网络防御框架)。
在实施IACD的过程中,首先要制定剧本(Playbooks)。基于前文场景分析,结合实践中的事件处置知识积累,可以形成事件分析处置流程。进一步,对攻击和响应的流程进行分析设计形成工作流(Workflows),结合本地实际环境形成本地实例(Local Instances)进行试点和部署。
对于安全事件的处置方法,一般需要“一题多解”,以满足实际场景的复杂需求。
DDOS/CC:资源型攻击解决方案需要多层配合,从运营商、CDN、数据中心本地清洗、应用加固等方面,综合应对。
漏洞问题:一般在网络侧通过4层或者7层防火墙进行阻断。但是单纯基于特征的技术手段并不保险,一般主机和组件漏洞需要同步准备临时补丁,WEB应用类漏洞可以考虑RASP等运行环境防护。
木马问题:此问题又分为木马实体和木马外联两个方向。木马实体以主机防病毒和网络防毒墙查杀为主。木马外联是发现和控制木马活动的关键,而域名是又是木马外联的关键。对于高风险域名,除了直接阻断,也要有牵引等方法,配合实际场景。
四、结束语
安全运营是网络攻防、事件处置等传统基础安全工作的集中和升华,成为安全治理的主体工作。同时安全运营工作也面临较大压力,一旦安全风险无法控制,可能导致“满盘皆输”。安全运营建设既离不开人、财、物的投入和机制建设,更需要安全运营团队个人技术能力的提升。随着安全运营能力的不断成熟,安全治理效果也将显著提升,有助于实现企业安全战略,更好地保障数据中心安全稳定运行。
注:本文刊登于《中国信息安全》杂志2019年第8期。现将原文整理后在《仙人掌情报站》公众号发布。
作者简介:董祎铖 资深网络安全工程师,就职于中国人民银行金融信息中心信息安全部,国家注册信息安全专家(CISP),国家注册信息安全渗透测试专家(CISP-PTE),银行科技发展奖获得者。负责开展互联网安全防护体系建设和安全运营工作,专注于渗透测试、WEB安全、PKI/CA领域。
声明:本文来自仙人掌情报站,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。