作者:中国农业银行数据中心 董闯 徐淼
当前现状:随着FinTech的不断发展,银行业对数据分析和应用的需求日益增加,“数据”在金融决策、风险控制等方面发挥着越来越重要的作用。经营类数据报送系统,对内为全行用户提供全面、及时、准确的经营指标数据;对外向人民银行、银监会等监管机构及时报送经营数据,相关数据的报送具有实时性强、重要性高、影响度大三大特点,对商业银行提出了较高的运维保障要求。
应对措施:中国农业银行数据中心通过梳理数据报送信息系统的应用架构、部署架构、关联系统和运维特点,不断优化系统运维保障方案和应急保障策略等,探索出一套适用于此类系统的特殊运维保障方案。制订了针对性的优化运维策略,形成独特的运维保障体系,提高了此类系统的安全稳定性和数据报送及时性,取得了良好效果。2017年,农行在监管数据报送时效性上,名列前茅。
数据报送信息系统运维情况分析
中国农业银行现有的数据报送信息系统,有监管信息报告系统(DIRS)和统一指标库系统(UIDS)等。这些系统的数据流链路主要由源数据生产、数据抽取、数据传送、数据加载、数据加工和数据应用六个环节构成。下面以监管信息报告系统为例,梳理数据报送信息系统投产上线后的前期运维情况。
1.监管信息报告系统。监管信息报告系统(DIRS)是农行全行统一的监管报表集中生产报送系统,主要功能包括报表管理、业务监测表填制、监管报表组装报送等,承担向人民银行、银监会等监管部门报送数据的任务。
2.DIRS前期运维保障情况。日常运维:一线运维值班人员根据系统运维要求,定时查看作业状态和实时监控系统告警,发现异常第一时间报告应用支持人员。支持人员开展处置或联系开发人员做进一步原因分析及处置。
故障事件应急流程:(1)一线运维人员发现报送数据加工作业链未按时完成,及时向应用支持人员报告。(2)应用支持人员联系应用开发人员分析延迟原因,向业务部门反馈情况。(3)业务部门、应用开发部门和运维部门召开电话会议,分析影响,排查和定位问题。(4)应用支持人员处置问题。(5)故障修复,数据成功报送。
前期系统运维保障中存在的问题
DIRS的前期运维方式,虽可基本保障系统运行正常,但运维保障工作缺乏统一性和全面性。主要体现在只监控DIRS系统本身,未对数据流整个链路进行集中化、自动化的监控,关键节点的检查及处理完全依赖人工完成。
由此产生的问题也日益明显,主要有以下几方面。(1)运维工具自动化率低。(2)运维信息分散,查询时间长。数据报送信息系统的数据链路长,运维信息涉及多个运维平台,查询过程复杂,花费时间长。(3)监控信息繁杂,无突出重点。数据报送信息系统的监控条目繁多,未结合数据报送的数据处理流程特点,重点突出报送指标关键数据流链路的状态信息。(4)链路环节长,故障定位速度慢。数据流链路由六环节组成(见图1),涉及的数据源系统有IFAR等多个系统。因此出现报送异常时,需要检查的节点多,故障定位复杂且缓慢。(5)缺乏完备的事后分析机制。事件解决后,除了简单的事件信息记录,未形成有效的事后评价改进机制。同时,当前事件记录信息的标准化程度低,无法通过大数据挖掘分析等来预测潜在风险并提前预警。
图1 数据流链路由六环节组成
运维体系的研究
随着经营类数据报送信息系统新功能的持续投产,前期的运维手段和应急方法已难以满足今后的应急保障需求,因此开展了以下三方面的研究。
1.加强系统运维保障手段。针对数据报送信息系统关键数据流链路,改进监控内容和处理策略,确保故障异常可被快速发现;建立信息系统关键作业节点预警机制,给应急处置留出时间。
2.提高系统应急保障能力。完善该类系统故障异常的应急管理,建立专属应急保障团队,保证发生突发事件时,应急保障团队能做到快速响应、快速处置。同时,通过召开应急交流会,对已发生事件进行回顾讨论,总结分析系统隐患,不断提高应急团队的应急响应效率和处置能力。
3.建立统一监控运维平台。自动化采集数据流链路各环节上运维平台的信息,实现运维信息的集中化和可视化,并为运维人员提供方便快捷的查询功能,助力运维人员快速定位故障。
运维体系的实践
农业银行DIRS系统,2017年率先在四大行实现了监管统计系统全国集中。通过开展研究并付诸实践,有效地提高了农行监管数据报送效率。
1.加强运维保障的方法和手段。一是建立运维保障方案。规范日常态和紧急态运维操作流程,确保故障异常及时被发现和处置。针对数据报送系统的运维特点,将运维保障方案划分为实时监控保障方案和预警管理保障方案。二是加强实时监控管理。对环境、应用、系统、网络状态等进行全面实时监控,保证在异常出现时,运维人员能第一时间发现并报告异常,快速开展异常评估并启动事件处置流程。三是建立异常预警机制。梳理关键数据流链路处理节点,设置安全预警时点,保证数据流链路发生异常时,可及时向运维保障人员发送提醒信息。
2.提升突发事件的应急保障能力。一是组建专属应急保障团队。应急保障团队负责故障事件的应急响应、故障排查、辅助决策及分析报告编写等工作。应急保障团队联系人负责维护应急联络群,团队成员根据专业分工做好日常运维。当故障事件发生时,事发条线联系人及时报告事件现象;应急响应时,各条线互相配合,排查事件原因;应急处置过程中,各条线共享信息并报告处置进度。应急保障团队横向打通各条线沟通壁垒,提高突发事件应急处置效率,确保故障异常快速解决。
二是建立应急保障信息文档。应急保障信息文档包含系统应用架构、部署架构、关键数据流链路、应急处置流程和故障定位方法等知识,是该系统专属的应急响应操作规范,指导运维人员快速开展应急响应。应急处置涉及多个部门,通过共享和宣讲该文档,帮助应急保障团队成员深入了解并掌握系统架构、关键数据流链路和应急响应流程等内容,促使团队成员更加有效沟通和协同配合,缩短事件应急处置时间。
三是建立交流会机制。交流会分为定期召开和紧急召开两种类型。定期召开是通过周期性召开会议,回顾分析近期的事件、投产、变更等,剖析存在的问题和不足,吸取经验教训,并应用到实际工作中。紧急召开是针对系统中重大故障事件或重复发生的复杂事件,临时组织召开的会议;各条线就遇到的问题,深入探究事件原因、共享事件信息、组织问题排查、确定后续改进事项等。通过召开应急保障交流会,各专业条线之间搭建起高效通畅的沟通渠道,可快速完成故障事件的分析,减少事件的重复发生,保障系统安全稳定运行。
3.建立统一监控运维平台。集中化、可视化、自动化的统一监控运维平台具有以下功能。一是自动整合信息,提高效率。自动获取并整合各个运维平台的关键数据流链路运维信息。实现运维信息的集中整合和快速查询功能,运维人员可在该平台,直接查看数据流链路各个环节的运行情况。二是可视化数据流链路,快速定位问题。通过生成可视化数据流链路拓扑图,直观展示整个数据流链路各关键作业节点的运行情况。当有异常或告警通知时,平台第一时间将异常信息发送至相关运维人员,快速、精确定位到问题节点,节约问题排查时间,减少数据报送事件的发生。三是完善事件分析回顾机制,形成良好循环机制。完善事件事后处理机制,推进事件记录标准化自动化建设。由平台自动记录并保存事件信息,实现标准事件数据的积累。依托平台数据,构建历史记录快速查询功能,定期自动数据挖掘事件规律,提供运维保障方案的新思路,降低故障发生概率,形成良好循环。
本文节选自《金融电子化》2018年10月刊
声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。