金融企业信息安全建设初期,在网络层、系统层、应用层、数据层等部署了一系列安全设备和管控措施进行安全管控,并确保其稳定运行,但发现安全状况并没有得到有效改善、安全问题频发,其根本原因是没有进行有效的安全运营,金融企业如何建设有效的安全运营体系呢?

一、安全运营是什么

安全运营定义为:“为了实现安全目标,提出安全解决构想、验证效果、分析问题、诊断问题、协调资源解决问题并持续迭代优化的过程”。

二、 安全运营解决什么问题

安全管理员日常工作:

1)查看各类安全设备和软件是不是正常运行;安全设备和系统的安全告警查看和响应处理如入侵检测、互联网监测、蜜罐系统、防数据泄密系统的日志和告警,各类审计系统如数据库审计、防火墙规则审计,外部第三方漏洞平台信息;

2)处理各类安全检测需求和工单;有分支机构管理职责的还要督促分支机构的安全管理工作;填报各类安全报表和报告;推进各类安全项目;应对各类安全检查和内外部审计。

占据“半壁江山”的安全运营,重点要解决以下问题:

1)安全运营的第一个目标:将安全服务质量保持在稳定区间。

企业部署大量的安全防护设备和措施,在显著提升安全检测能力的同时带来问题,安全设备数量急剧增多,如何解决安全设备有效性的问题?在应对安全设备数量和安全日志告警急剧增多的同时,如何确保安全人员工作质量的稳定输出?

安全运营的目标是要尽可能消除人员责任心等因素对安全团队对外提供安全服务质量的影响。在企业逐渐增大,业务和系统日趋变复杂的情况下,在资源投入保持没有大的变化情况下,尽量确保安全团队的服务质量保持在稳定区间。

2)安全运营的第二个目标:安全工程化能力。

安全运营还需要解决的一个问题是安全工程化能力提升的问题。举个例子,企业内很多有经验的安全工程师能够对怀疑一台服务器被黑进行排查溯源,查看服务器进程和各种日志记录,这是工程师的个人能力。如何将安全工程师的这种能力转变成自动化的安全监测能力,并通过安全平台进行应急响应和处理,让不具备这种能力的安全人员也能成为对抗攻击者的力量,这是安全工程化能力提升的收益,也是安全运营关注的问题。

三、安全运营建设思路

从架构、工具和资源三个方面探讨安全运营的思路。

3.1 架构

安全运营架构如下图1所示:

图1 安全运营架构

为确保安全运营架构能够灵活扩展,推荐按功能模块划分成四个模块:安全防护框架、安全运维框架、安全验证框架、安全度量框架。

(1)安全防护框架的主要功能是通过不断的部署安全监测系统,提供实时检测的能力,称为安全感知器“Sensor”,为安全运维框架提供“天眼”。时下流行的态势感知、入侵感知,笔者理解为主要靠安全防护框架来保障。

(2)安全运维框架的主要功能是统一采集安全防护框架各Sensor的监测信息,并通过黑白灰名单处理和关联分析,处理监测信息并通过统一展示平台输出告警,进入事件处理平台和流程,人工介入处理。安全运维框架还包括安全事件的定期review和向管理层汇报,这部分可能比单个的事件处理要重要。

(3)安全验证框架主要功能是综合通过黑盒白盒验证措施,确保安全防护框架和安全运维框架的有效性。

(4)安全度量框架主要功能是通过一系列安全度量指标衡量评价安全运营质量水平,并针对性持续过程改进,实现质量的螺旋上升。

3.1.1 安全防护框架

安全防护框架的目的是部署尽可能多和有效的安全感知器Sensor,这些安全感知器构成了信息安全的“天网”,这部分是基础工作,也是传统安全的主战场,需要历经多年的持续投入积累。安全Sensor的部署遵循纵深防御的理念,如下图20-2所示:

图2 安全防护框架

实际中可能远远不止上述安全感知器(Sensor)。比如在网络层,可以把防火墙监测信息特别是防火墙规则拒绝的日志进行采集,有些防火墙还自带IPS功能,比如CheckPoint防火墙的SmartDefense模块,就是特别好用的安全感知器(Sensor),交换机、路由器的ACS认证服务器日志、堡垒机登录日志、虚拟化软件中虚拟主机操作信息、Windows、Linux主机日志、在主机上部署的安全客户端的监测日志、数据库审计系统监测日志、内网活动目录(AD)系统日志、存储备份系统的操作日志、KVM、ILO等带外管理系统日志、ITIL系统工单日志、其他应用系统的应用日志,如OA系统应用日志、SAP系统应用日志、公文传输系统日志、FTP数据传输日志,这些日志都是很好的安全感知器(Sensor)。

企业基础安全的很大内容就是建设各类安全Sensor,解决点状的安全问题和需求。比如企业防火墙多了,如何管理防火墙规则的有效性和合规性,可能需要部署诸如Algosec、firemon等防火墙规则审计工具,审计发现的信息就可以作为安全运维框架的输入。如果想监测企业内网或服务器访问了哪些恶意地址,可以采集类似ArcOSI这样的开源恶意地址库。

3.1.2 安全运维框架

安全运维框架的建设目标是成为企业安全的大脑、神经中枢、耳目和手脚。在军队现代化作战体系中,美军创造性的提出了C4ISR作战指挥系统,即指挥、控制、通信、计算机与情报、监视、侦察。一个完整的信息安全作战指挥自动化系统应包括以下几个分系统:基础架构平台、安全情报监视系统、数据分析系统、安全控制系统。

“以保障对安全控制设备的高效管理,主要技术是智能分析算法和模型及其实现。

“大脑”--基础架构平台。基础架构平台是构成指挥自动化系统的技术基础,指挥自动化系统要求容量大、速度快,兼容性强。

“耳目”--安全情报、安全监视、侦察系统。主要是对安全防护框架中各安全Sensor的安全信息的收集和处理,实现异常行为的实时安全监测。

“神经中枢”--数据分析系统。综合运用各类智能分析算法和数据挖掘分析技术,实现安全信息处理的自动化和决策方法的科学化,q “手脚”--安全控制系统。安全检测和控制系统是用来收集与显示安全信息、实施作战指挥系统发出安全控制指令的工具,主要是各类安全控制技术和设备,如防病毒和主机安全客户端、防火墙等,主要实现异常行为的实时安全控制。

安全运维框架实际落地时,企业会部署SIEM、安全大数据等类似平台实现安全检测信息的统一采集、分析处理和存储,大部分平台支持内置或自定义的黑名单检测规则进行实时检测。安全运维框架还有很重要的一部分,安全事件的流程化处理和定期review、汇报。安全事件的流程化处理应遵循企业事件管理流程如ITIL,通过自动化下发安全工单,发送告警邮件、短信等方式进行安全提醒,安全事件确认和溯源分析主要通过人工分析和确认的方式进行。对于100%确定异常的安全攻击通过自动化方式进行阻断。同时通过安全事件日例会、周报、月报、年报等方式进行闭环管理,并进行必要的管理层汇报。

3.1.3 安全验证框架

安全验证框架解决安全有效性的问题,承担对安全防护和安全运维两个框架的功能验证。安全验证框架是企业安全的蓝军,在和平时期,蓝军扮演着对手角色,利于及时发现、评估、修复、确认和改进安全防护和运维框架中的脆弱点,包括白盒检测(过程验证)和黑盒检测(结果验证)两部分。

白盒检测(过程验证)是指建立自动化验证平台,对安全防护框架的管控措施实现100%的全面验证,并可视化集成至安全运维平台中,管控措施失效能够在24小时内发现。通过自动化验证平台达到:

1、验证安全Sensor安全监测功能有效;

2、验证安全Sensor所产生监测信息到SIEM平台的信息采集有效;

3、验证SIEM平台的安全检测规则有效;

4、验证告警方式(邮件、短信与可视化 展示平台)有效;

基于上述目标,自动化验证要求所有的验证事件必须为自动化模拟真实事件产生,不能使用插入记录的方式产生,同时自动化验证事件应提供判断是否为验证事件的唯一标识,验证事件产生时间需统一安排,防止集中触发。安全运维平台应能够监测到安全验证未通过的系统和规则,并产生告警信息,通知安全运维人员介入处理。

黑盒检测(结果验证)是通过多渠道安全渗透机制和红蓝对抗演习等,先于对手发现自己的漏洞和弱点。多渠道安全渗透机制目前常见的就是安全众测,红蓝对抗演习需要企业具有较高攻防技能的安全人员,也可外聘外部专业机构完成,用于检测安全防护框架和安全运维框架的有效性。

3.1.4 安全度量框架

安全度量框架主要用于衡量评价安全有效性,可以分成几个层次。

一是技术维度。包括防病毒安装率、正常率,入侵检测检出率、误报率,安全事件响应时长、处理时长,高危预警漏洞排查所需时间和完全修复时间。还可以考虑安全运维平台可用性、事件收敛率等。合规性方面可以设置合规率、不合规项数量、内外部审计发现数量和严重度等;

二是安全运营成效。包括覆盖率、检出率、攻防对抗成功率。有多少业务和系统处于安全保护之下,有多少无人问津的灰色地带,安全能在企业内部推动得多深入,多快速,这是需要综合技术和软性技能的,成败主要系于安全团队负责人。检出率和攻防对抗成功率都是衡量安全有效性的有效指标,安全团队即使不能拍着胸脯保证不出事,也不能靠运气和概率活,那持续提升检出率和攻防对抗成功率就是努力的方向;

三是安全满意度和安全价值。安全价值反映在安全对业务支撑的能力,TCO/ROI,安全用多少资源,支撑了多少业务,支撑的程度。安全价值还体现在内部的影响力以及对业务的影响力,是做微观安全还是广义安全,是为业务带来正面影响还是负分拖后腿。安全满意度是综合维度指标,是对安全团队和人员的最高要求,既要满足上级领导和业务部门对安全的利益诉求,又要满足同级横向其他IT团队对安全的利益诉求,还要满足团队内部成员的利益诉求,要提供最佳的安全服务,让安全的用户成为安全的客户。

3.2. 工具

安全运营工具包括支撑安全运维框架实现的SIEM平台、安全事件处理标准化流程工具ITIL、安全控制自动化工具三部分:

(1)SIEM平台负责安全信息的统一收集和存储、基于检测规则的异常检测和告警;

(2)ITIL平台负责接收SIEM平台发送过来的安全事件信息并据此产生ITIL工单,推送到安全运营人员处理和关闭;

(3)安全控制自动化工具负责根据SIEM平台下发的安全控制指令进行自动化操作,例如,检测发现有外部攻击源,通过下发自动化指令实现防火墙或IPS封禁该攻击源;检测发现某主机有可疑进程,通过安全客户端收集该进程文件样本信息进一步手动分析;检测发现办公内网某用户计算机上有个可疑操作非人工操作,疑似程序自动操作,可通过安全客户端提示用户手工确认等。

SIEM平台、ITIL平台目前市面上成熟的产品不少,但安全控制自动化工具目前商业化程度不高。

3.2.1 检测规则

如果有合适的检测规则,SIEM是个非常强大的工具,可以检测其他安全工具无法捕获的安全事件。通常SIEM的检测规则有三类:

1.单一检测条件规则

满足单一特定检测条件则触发告警。如服务器主机登录来源非堡垒机地址。满足该条件则告警,该类型规则最简单,主要依靠安全Sensor的监测能力和规则过滤能力。

2.跨平台安全监测信息关联检测

最典型的规则为基于资产脆弱性的攻击告警,关联分析漏洞扫描和入侵检测告警信息进行关联检测。如防火墙permit日志中有连接ArcOSI中定义的恶意IP地址信息。该类型规则在跨平台系统监测信息之间进行关联,可以衍生出很多脑洞大开的检测规则。

3.针对长时间缓慢低频度攻击的检测规则

大部分的安全工具是以孤立方式识别潜在的安全事件,如IDS监测到某台工作站发出的可疑流量,然后从其他20台工作站上监测到同类流量,在IDS管理面板上,每个事件被当作单独事件处理(有些IDS厂商有高级功能),在SIEM中可以编写规则,根据事件发生的频率触发不同的告警,如果在几分钟内从IDS传来21次类似的事件可以触发一条规则。如果攻击者采取长时间缓慢低频度攻击入侵企业内网,可以编写一条SIEM规则,在较长时间内搜索特定事件,并在该事件范围内发生次数达到某个阈值时告警。

更进一步,这种检测规则对于不是即时安全事件形式出现的日志也同样有效。以检测DNS Tunnel为例。DNS Tunnel用于将C&C流量编码为DNS请求,从被感染机器发出,通过被感染企业的DNS服务器到达C&C服务器,然后再将响应返回给企业的DNS服务器,由其转发给受感染的内网机器。正常的DNS查询都有一定频率,DNS Tunnel需要在网络上发送许多DNS数据包,那么制定内网单台机器对同一个域名的查询达到某个阈值(如10分钟内1000个查询)的规则可以有效检测DNS Tunnel。

SIEM的检测规则还可以配置为在流量来源与旧模式不同时发出告警,也可以配置为在合法和以往正确的流量突然呈现指数上升或者下降时发出告警,如过去90天内产生一定数量日志的Web服务器突然开始产生于10倍于正常数量的日志,这可能是被入侵主机用于向其他主机发动攻击的迹象。通过SIEM规则,安全团队可以根据流量的标准差制定告警,如达到10个标准差阈值就告警。

3.2.2 健康度监控

从很多攻防案例中,防御方失败的原因主要归结于安全防护失效,其中SIEM平台工具健康度出了问题是比较常见的,包括:安全Sensor安全监测信息采集器失效、SIEM检测规则失效、安全告警失效、安全告警处理失效等。

安全检测信息采集器失效的原因主要是未对采集器的物理机器性能监控、采集数据正常监控、采集数据日志解析和映射入库(Parser)异常等;

SIEM检测规则失效包括设定条件无效、阈值无效、规则未生效等,有时告警阈值设置不合理频繁告警,SIEM平台会自动禁用规则导致规则无效;

安全告警失效,包括邮件、短信网关配置无效,配置用户失效、网络失效、配置变更异常、手机号码设置错误等等;

安全告警处理失效主要是人的因素,比如多条告警短信,选择性的忽略,假阳性告警太多淹没了真正有威胁告警等。

做好安全Sensor的安全性的重要性,需注意几个原则:

(1)控制指令仅允许固化的指令,严禁在Sensor端预留执行系统命令接口;

(2)更新包必须经过审核之后上传至更新Server保存,更新仅允许选择更新Server上以后的安装包,最好校验更新包的MD5;

(3)控制指令下发时必须人工审核确认后才执行。

为可用性起见,更新最好分批分区域完成,否则由于大量更新包的下载导致生产网被堵塞,恐怕也是不可承受之痛。

3.3. 所需资源

资源一般包括流程与机制、组织架构、人员等,是实现安全运营的保障性措施。

3.3.1 流程与机制

安全运营流程的核心是做好两个标准化的流程:安全事件处理流程、安全运营持续改进流程。有效果、高效率的安全运营流程与机制,是非常重要的。

安全事件处理流程,是定义什么级别的事件该由什么样的人,在什么时间按什么标准处理完成。一个外部攻击扫描,和一个内部分支机构持续不断的高权限账户猜解,两者安全级别肯定不同。前者最多为普通或关注事件,由安全一线工程师下发一个指令,在防火墙上自动封禁该外部IP地址一段时间即可。后者需要定义为高风险事件,需有经验的安全二线工程师或安全专家联系分支机构进行溯源排查,有可能是中了金融行业的特种木马,有可能是网络蓝军在偷袭,还可能真的是有攻击者进来了。不管如何,发现这些问题,意味着安全感知能力已经往前进步,安全终于不再是靠运气和概率。

安全运营持续改进流程,是安全事件的闭环管理,每笔安全事件的处理结果最终必须为误报或者属实,二者必选其一。如果是误报,必须改进SIEM安全检测规则或安全Sensor监测措施。如果属实,好的一面是安全检测能力有效,坏的一面是“坏人”已经进来了,则需要根据坏人已经突破的层面,进行针对性的改进。安全运营持续改进要求每天、每周、每月都坚持对安全事件进行回顾、回溯。安全运营持续改进流程的质量极大的可能决定整个安全运营质量。

3.3.2 组织与人员

我们期望的大型安全部门组织架构图应该是这样子,如下图20-3所示:

图3 期望的大型安全部门组织架构图

实际工作中安全部门组织架构图却是这样子,如下图20-4所示:

图4 实际工作中安全部门组织架构图

作为金融企业安全部门中的一个重要团队,安全运营的实现肯定也离不开组织与人员,以下是推荐的安全运营团队配置:

证券公司安全运营人员建议按1:2:3比例配置。即一个安全运营平台运维人员,包括服务器和应用运维,该部分可以交给IT部门的运维团队代为运维。2个安全人员互备,一个负责安全Sensor建设,一个负责安全检测规则和安全二线,事件调查、回顾与汇报、持续改进。3个外包安全一线,负责7*12事件响应和初步调查确认。

股份制银行安全运营人员推荐配置为证券公司的2-3倍,外包人员还可视事件类型和数量增加。

四、 安全运营的思考

有了架构、工具、资源,安全运营一定就能做得尽如人意吗?答案显然是否定的。因为实际工作中,还会遇到各种各样的突发问题,需要时刻保持思考,并做出适应和改变。

4.1 难点

安全运营的核心是安全运维框架,承载安全运维框架的是SIEM平台或SOC平台。SOC容易失败是常常遇到的问题,该问题等同为安全运营的难点在哪?

(1)企业自身基础设施成熟度不高

安全运营的质量高低和企业自身基础设施的成熟度有很大关联。一个企业自身的资产管理、IP管理、域名管理、基础安全设备运维管理、流程管理、绩效管理等方面不够完善,甚至一团糟,安全运营又怎么会能“独善其身”?防病毒客户端、安全客户端的安装率、正常率“惨不忍睹”,检测出某个IP有问题但却始终找不到该IP和资产,检测发现的安全事件没有合理的事件管理流程工具支撑运转,检测发现内部员工不遵循规范导致安全漏洞结果等等,各类问题层出不穷,安全运营也“无能为力”。

(2)安全运维不能包治百病

安全运维不能包治百病。安全运维框架自身并不具有安全监测能力,SOC平台自身不产生信息,因此安全监测仍需依靠安全防护框架,需要通过安全防护框架建设一系列安全Sensor,才能具备较强的安全监测能力,才能在企业内部具有一双安全之眼,所以安全运维建设并不能代替安全防护建设,该部署的安全系统、安全设备还是必不可少。

(3)难以坚持

安全从业者们都希望能有一双上帝之手,帮我们解决所有的问题,而安全问题,往往都是最棘手的问题。我们直观反映总是希望能有一个成本比较低,时间消耗比较少的安全解决方案,可安全没有速成,没有捷径。与运营相关的,往往是和琐碎、棘手、平淡相关,这也导致安全运营难以坚持。坚持把每个告警跟踪到底,坚持每天的安全日例会,坚持每周的安全分析,坚持把每件事每天都做好,是最难能可贵的。

4.2 安全检测为什么会失效

单点检测和防御,和企业内规模化检测和防御,这是两个概念,很多单点检测和防御很有效,但在企业内上了规模后就会出现安全检测失效的问题,严重的甚至导致无法推广和部署,最终不得不取消。通过每一次对问题的排查和解决,就可以逐步实现安全运营能力的进步。一般排查的顺序是:单点检测深度不足->覆盖率不足->安全运维平台可用性出了问题->告警质量问题->人员问题。

首先是单点检测手段不足导致,检测的正则表达式写的不好,或者是攻击者使用的方式没有预先考虑到,也有安全防护框架的安全监测根本就监测不到。

其次是覆盖率不足导致。出现问题的机器或网络区域就没有部署安全监测产品。

关于企业安全灰色地带,有几个值得关注的地方:

(1)无人关注的资产,特别是互联网资产。漏洞通报平台报出的很多安全漏洞,得到的企业回复很多是:这是一台(测试/即将下线/无人使用/外包人员使用……)的设备,我们已关闭。这些资产除了服务器,还分配了的互联网IP、域名,不在安全监测里的系统和应用;

(2)开放在互联网上的管理后台、高危端口、文件上传点;

(3)各种已被爆漏洞的第三方应用;

(4)弱口令,包括系统弱口令、应用弱口令、用户弱口令等各种弱口令,

第三是安全运维平台可用性出了问题在前面介绍了SIEM健康度监控的问题,这块也是安全检测失效的重要原因之一。

第四是告警质量的问题SOC被诟病最多的是采集了大量数据,但往往不能判断哪些是真正需要关注的告警。告警有效性较低,导致大量需要人工确认,管理成本太高。安全检测规则的设计不足导致告警数量太多,从而导致安全运营人员选择性的忽略。

第五是人员问题。机制流程也可以理解为是人的问题。如果前述原因排除,还是有安全检测失效的问题,那应归结于人的问题。

4.3 白名单还是黑名单

目前绝大多数安全防护措施、安全检测规则,基于黑名单原则,满足黑名单规则的给出告警。黑名单的优点显而易见,假阳性较低,认知理解容易,缺点是漏报率高。

如果从安全有效性角度出发,白名单可能会越来越受到重视。白名单的缺点是假阳性较高,运营成本高,所以需要安全检测具有自学习能力(姑且称为人工智能),形成自动或半自动可收敛的安全检测规则。

4.4安全类型和安全运营

企业需要什么类型的安全和安全运营?企业的安全投入跟公司的规模和盈利能力相关。

企业安全建设阶段论:

第一阶段:如果基本的安全体系尚不完备,处于救火阶段或者安全体系化建设捉襟见肘,建议先把安全中需要快速止血的工作做好,可以规避80%的安全问题,让企业有一个最基础的安全保障。

第二阶段:系统建设阶段,建设各种安全监测防护手段,以及各类安全规范和安全流程,一般采用27001体系+商业解决方案+少量自研可以实现。

第三阶段:安全高阶建设,在这个阶段,基本的商业产品很难满足企业安全需求,以自我研发和自动化智能化为特征,核心还是解决实际安全问题为目标。

类似软件能力成熟度模型CMMI,安全运营也有个成熟度问题:

(1)一级:自发级。部署了一些较为基础的安全措施和管控,单点防御投入了较多人力财力,比较依赖于厂商,对于企业安全没有整体把控。

(2)二级:基础级。具有安全运营的理念并付诸行动,建立了较为完善的安全防护体系,并通过安全运营保障安全有效性,具有攻防能力的个人或团队,能够解决实际安全问题。

(3)三级:自动化级。具有自动化监测、响应、处理甚至反击能力,对企业自身安全现状和能力具有全局掌控力,具有入侵感知能力,能进行一定级别的攻防对抗。

(4)四级:智能级。采用了白名单的安全防护原则,具有真正意义的智能安全检测,能够对偏离正常行为模式的行为进行识别。

(5)五级:天网级。天网恢恢疏而不漏,让所有恶意行为无所遁形。

安全运营是企业安全建设实际落地的必由之路。目前制约安全运营发展的最大因素主要包括两点,一是没有较好的商业化工具,能够结合企业内部的流程、人员,提高安全运营效率;二是想法各异,没有形成统一的安全运营标准。

五、 结语

企业需要什么样的安全和安全运营?适合自己的就是最好的,或者说投入和收益比最大比。前段时间Google发布了一份安全方面的白皮书,系统的阐述自己安全体系的设计与实现。基本涵盖了所有领域且都是自研,有朋友分析这是企业安全未来发展趋势。那是否所有企业安全都要学习这种模式?世界的精彩就在于,除了李白、杜甫等名家外,唐朝还有2534名诗人,如高适、刘长卿等,世界的多样性才更美。企业的安全投入跟公司的规模和盈利能力相关,公司规模大,盈利能力强,处于发展期时,预算和人员编制都会增加,业务停滞时安全做的再好也不会追加投入,所以适合自己就是最好的。

声明:本文来自国家信息安全服务资质,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。