一. 引言
灾难(Disaster)是指那些导致系统关键信息资源在一段时间内无法使用的中断事故,会对组织运作造成不利的影响。中断事故可能从几分钟到几个月不等,或者系统再也不能恢复运作,具体取决于信息资源的损坏程度。灾难可能由自然灾害引起,如地震、洪水、火灾等,也可能由人为事故造成,如黑客攻击、病毒、人为错误和恐怖袭击等,以及一些系统原因、技术原因等。
机构的灾难:
对于机构来说,任何导致机构关键业务功能(Critical Business Functions)在一定时间内无法进行的事件都被视为灾难,其特点表现为:
1.计划之外的服务中断
2.超期的服务中断
3.中断无法通过平常的事件管理程序得到解决
4.中断造成重大损失
二.业务连续性计划概述
业务连续性计划(Business Continuity Planning,缩写为BCP),是为了防止正常业务行为的中断而被建立的计划,是一套基于业务运行规律的管理要求和规章流程,使一个组织在面对由于自然或人为造成的故障或灾难以及由此造成的财产损和业务不能正常使用的情况时,能够迅速做出反应,以确保关键业务功能可以持续运行,而不造成业务中断或业务流程本质的改变。
业务连续性是指企业有应对风险、自动调整和快速反应的能力,以保证企业业务的连续运转。实现业务连续性的目的是确保企业能够在中断期间继续提供关键服务,并使企业从灾难性的中断事故中恢复活动。为企业重要应用和流程提供业务连续性应该包括以下三个方面:
1.高可用性(High availability),是指提供在本地故障情况下能继续访问应用的能力。无论这个故障是业务流程、物理设施,还是IT软硬件故障。
2.连续操作(Continuous operations),是指当所有设备无故障时保持业务连续运行的能力。用户不需要仅仅因为正常的备份或维护而需要停止应用的能力。
3.灾难恢复(Disaster Recovery),是指当灾难破坏生产中心时,在不同的地点恢复数据的能力。
三.业务连续性计划组织架构
要充分规划并实现业务连续性计划,需要进行严密计划和资源投入,因此BCP主要是由高级的管理层负责,因为他们负责保护资产和维持组织的生存能力。管理层在支持建立业务连续性计划后,首先应该指定一个业务连续性协调员,并建立BCP委员会,业务连续性协调员将成为BCP团队的领导者,将监督业务连续性计划和灾难恢复计划的制定、实施和测试等。业务连续性协调人作为BCP项目负责人,全面负责项目的规划(Planning)、准备(Preparing)、培训(Training)等各项工作,还包括:
– 接触高级管理层
– 影响高级管理层的决策
– 与管理层的沟通和联络
– 组建和领导BCP委员会
– 与计划相关所有人员进行直接接触和沟通
– 了解机构业务使命和高级管理层的意图
– 充分了解中断对机构业务的影响
– 熟悉机构的需求和运作,有能力平衡相关部门的不同需求
BCP委员会必须由公司内不同部门的人员组成,因为每个部门在其功能上是独特的,具有独特的风险和威胁。BCP委员会应至少包括以下几个部门的代表组成:业务部门、高级管理人员、IT部门、安全部门、通信部门、法律部门等。
四.业务连续性计划开发流程
业务连续性计划的开发管理流程可以分解成以下几个部分:
• 项目管理和启动
• 业务影响分析
• 确定预防措施
• 制定恢复策略
• 编制计划
• 测试、培训和维护
1.项目启动和管理
获得管理层的支持与投入:为了确保该程序能够成功,高级管理层必须参与其中。BCP计划必须成为公司的战略性业务计划之一,公司必须设定合理预算,并为BCP提供独立的预算。
建立团队:必须建立一个团队,人员包括财务部,审计部,信息技术部,人事部,行政部等等。当灾难开始时,这些部门在继续扮演他们原有的工作角色时,还应承担BCP事故/灾难恢复的支援角色。BCP团队要求:
• 团队成员选择
– 技能(Skills)
– 知识(Knowledge)
• 团队建设
– 充分的培训,至少一年一次
– 新员工上岗之前应该接受BCP培训
– 能够随时开展工作
– 小组应该具有足够规模,不存在人员单点
2.业务影响分析
业务影响分析(Business Impact Analysis,BIA),主要是识别关键功能和系统,并允许组织根据功能和系统的必要性,对其进行优先级排序。识别漏洞和威胁,并计算出风险。业务影响分析应该评估业务允许中断的时间长短;组织能提供多少时间的信息;当信息重新可用时,允许损失的信息是多少?这些问题可以通过恢复时间目标(recovery time objective ,RTO)、恢复点目标(recovery point objective ,RPO)和最大允许中断时间(Maximum Tolerable Downtime,MTD)来决定,中断时间过久将造成业务难以恢复,越是关键的功能或资源,RTO、RPO和MTD应该越短。业务影响分析的过程:
• 确定信息收集技术
– 查勘检测(surveys)、调查问卷(questionnaires)
– 定性(qualitative)、定量(quantitative)
• 选择受访者(Interviewees)
• 识别关键业务功能(critical business functions)及其支持资源
• 确定最大允许中断时间(MTD)
• 识别弱点和威胁
• 分析风险
• 向管理层汇报BIA结果
3.确定预防措施
预防的目的在于减少灾难发生的可能性。有关预防的策略应该包括制止和预防控制。制止控制可以减少风险的可能性。预防控制则是保护企业的弱点区域,以防御风险的发生并降低其影响。这两类控制在实际运营中广泛存在,比如经营场所的安全、人员控制、相关基础设施(如UPS、后备电池、烟火探测器、灭火器等)、软件控制、相关的存储和恢复等。
BCP预防原则
• 预防为先
– 通过遏制、探测或降低对系统影响的防御性措施予以消减或清除风险
– 达不到灾难级别的风险,采取预防措施规避或降低风险
– 灾难级别的风险,采取预防措施降低风险
• 恢复为后
– 对于不可忍受的灾难,采取恢复措施
BCP预防措施
• 设施采取加固材料(建筑设备等)
• 冗余服务器和通讯线路
• 多方多路供电、配置UPS和发电机
• 消防系统(火警发现、灭火)
• 防水措施
• 冗余供应商
• 购买保险
• 数据备份
• 介质保护
• 备用关键设备
• 人员培训
4.制定恢复策略
BCP策略技术指标:
• 恢复时间目标(Recovery Time Objectives,RTO )
RTO是指灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求,RTO对业务流程恢复优先级的确定有重要作用。
• 恢复点目标(Recovery Objectives,RPO )
RPO即灾难发生后,系统和数据必须恢复到的时间点要求,RPO标示了某项业务能容忍的最大数据损失。
业务连续性计划根据BCP策略技术指标恢复点目标(RPO)和恢复时间目标(RTO)的时间长短可以有不同的恢复策略,包括磁带备份、数据复制、系统切换、人工迁移等,如下图所示:
不同层次的BCP恢复策略:
• 业务恢复(Business Recovery)
确定关键业务功能及其支持资源的恢复顺序;
• 设施和供应恢复(Facility and Supply Recovery)
确定备用设施的恢复流程,包括建筑、场地、安防、环境、供电等配套设施,包括热站点(Hot Site)、冷站点(Cold Site)、温站点(Warm Site)、移动站点(Mobile Site)、冗余站点(Redundant Site)等;
• 用户恢复(User Recovery)
确定人工操作规程及其相关的关键记录的管理、人员通知等;
• 技术恢复(Technical Recovery)
确定数据中心和网络的恢复方法;
• 数据恢复(Data Recovery)
确定关键软件、数据的备份、存储和恢复方法。
5.编制计划
制定业务连续性计划应该从基于BIA收到的输入信息、重要性分析以及管理人员选择的恢复策略来制定或审核BCP计划,这些计划应解决业务流程中断所涉及的业务连续性范围内的所有问题,包括灾难恢复。制定/审核BCP计划时应考虑的各种因素包括:
• 灾难发生之前的准备工作,包括用于解决影响业务流程的所有相关事件的突发事故应对管理
• 疏散程序
• 灾难宣告流程(评级与升级程序)
• 宣告灾难的条件(并非所有的中断都是灾难)
• 各项职责和职能负责人
• 明确列出合同信息
• 恢复流程的分布详细说明
• 明确列出灾难恢复和组织连续运营所需的各种资源
应使用易于理解的简单语音来记录和编写计划。
业务连续性计划也可以分为通知/启动阶段、恢复阶段、重建阶段、计划附录等4个阶段,如下图:
6.测试、培训和维护
制定好的BCP计划需要进行适当地演练测试才能投入使用。这一过程必须经常周期性地进行。省略了这一过程就意味着BCP只能等灾难实际发生之后进行实地测试,这样做的风险太大,恐怕任何一家企业都不敢做这种尝试。制定BCP演练测试计划应明确演练目标以及演练成功的标准,在演练中和演练后收集到的有助于提高计划效率的信息应该修订BCP计划,演练结果和学习到的经验应该记录到文档。规划一次BCP演练测试需要规定以下事项:
a准备一份测试计划,选择测试脚本,说明预期要达到的结果;
b执行该计划;
c记录测试结果;
d评估测试结果,报告存在差距;
e将测试结果和报告向团队公布;
f确认需要做何改进以弥补差距 ;
g培训团队
建立BCP后,应向公司人员对业务BCP进行宣传和培训,并对关键岗位人员及其他相关人员进行特殊培训,需要的特殊培训如下:
a有紧急情况时可应用替代的技术流程
b当自动操作系统正在恢复时可替代的人工操作流程
c确保团队成员达到推动BCP所需能力的技术培训
BCP必须周期性地加以检查和维护。一旦有新的系统、新的业务流程、或者新的商业行动计划加入企业的生产系统或者信息系统,引起企业整体系统发生变化时,就更应该强制启动这种检查程序。每一次在进行这种检查程序时,最好是与对BCP的改进相互结合,BCP的维护应该是变化和改进的结合与不断促进。每一次对BCP计划所作的改动都应该及时通知所有的BCP团队,并具体落实到每一次的培训和测试过程中去。
五.业务连续性计划与其他计划
根据组织的规模/或要求的不同,BCP可能包括多个计划文档,如业务恢复计划、灾难恢复计划、IT应急计划、计算机事件响应计划等,具体如下图所示:
业务恢复计划:着重于恢复必须重建的业务流程而非IT组件,即面向流程,非面向措施;
灾难恢复计划:重点说明在发生灾难后如何恢复各种IT机制,主要针对需要将IT数据处理转移到另一处设施的灾难事故;
IT应急计划:在破坏发生后,用于网络、系统和主要应用程序恢复过程的计划,每个主要的系统和应用程序都应分别制定一个应急计划;
计算机事件响应计划:建立处理针对机构IT系统攻击的计划,用于协助安全人员对有害的计算机事件进行识别、消减并进行恢复;
场所应急计划:建立人员安全和撤离程序,着重于人员和设备财产,不是任务/业务过程或者信息系统;
危机沟通计划:包括内部和外部通信结构和角色,确定与外部实体进行通信的具体人员,并包含写好的即将发布的声明。
参考文献
GB/T 20988-2007《信息安全技术信息系统灾难恢复规范》
NIST 800-34《信息技术(IT)系统应急计划指南》
CISSP认证考试指南(第6版) 第8章 业务连续性与灾难恢复
CISA认证考试指南 第2章 IT治理与管理
魏荣辉,专注于非银行支付系统检测、认证等工作。2017年至今曾参与起草、修订非银行支付领域相关标准,实施过50多家支付机构业务系统检测工作,对支付业务安全、风险合规管理、支付系统安全、支付数据安全等有较为深入的理解,熟悉我国金融领域信息安全监管要求(网络安全等级保护、电子银行安全评估指引、支付信息安全标准等)。作者邮箱:weironghui@cfca.com.cn
声明:本文来自网安前哨,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。