经营类数据报送信息系统运维体系的研究与实践

作者：中国农业银行数据中心董闯徐淼

当前现状：随着FinTech的不断发展，银行业对数据分析和应用的需求日益增加，“数据”在金融决策、风险控制等方面发挥着越来越重要的作用。经营类数据报送系统，对内为全行用户提供全面、及时、准确的经营指标数据；对外向人民银行、银监会等监管机构及时报送经营数据，相关数据的报送具有实时性强、重要性高、影响度大三大特点，对商业银行提出了较高的运维保障要求。

应对措施：中国农业银行数据中心通过梳理数据报送信息系统的应用架构、部署架构、关联系统和运维特点，不断优化系统运维保障方案和应急保障策略等，探索出一套适用于此类系统的特殊运维保障方案。制订了针对性的优化运维策略，形成独特的运维保障体系，提高了此类系统的安全稳定性和数据报送及时性，取得了良好效果。2017年，农行在监管数据报送时效性上，名列前茅。

数据报送信息系统运维情况分析

中国农业银行现有的数据报送信息系统，有监管信息报告系统（DIRS）和统一指标库系统（UIDS）等。这些系统的数据流链路主要由源数据生产、数据抽取、数据传送、数据加载、数据加工和数据应用六个环节构成。下面以监管信息报告系统为例，梳理数据报送信息系统投产上线后的前期运维情况。

1.监管信息报告系统。监管信息报告系统（DIRS）是农行全行统一的监管报表集中生产报送系统，主要功能包括报表管理、业务监测表填制、监管报表组装报送等，承担向人民银行、银监会等监管部门报送数据的任务。

2.DIRS前期运维保障情况。日常运维：一线运维值班人员根据系统运维要求，定时查看作业状态和实时监控系统告警，发现异常第一时间报告应用支持人员。支持人员开展处置或联系开发人员做进一步原因分析及处置。

故障事件应急流程：（1）一线运维人员发现报送数据加工作业链未按时完成，及时向应用支持人员报告。（2）应用支持人员联系应用开发人员分析延迟原因，向业务部门反馈情况。（3）业务部门、应用开发部门和运维部门召开电话会议，分析影响，排查和定位问题。（4）应用支持人员处置问题。（5）故障修复，数据成功报送。

前期系统运维保障中存在的问题

DIRS的前期运维方式，虽可基本保障系统运行正常，但运维保障工作缺乏统一性和全面性。主要体现在只监控DIRS系统本身，未对数据流整个链路进行集中化、自动化的监控，关键节点的检查及处理完全依赖人工完成。

由此产生的问题也日益明显，主要有以下几方面。（1）运维工具自动化率低。（2）运维信息分散，查询时间长。数据报送信息系统的数据链路长，运维信息涉及多个运维平台，查询过程复杂，花费时间长。（3）监控信息繁杂，无突出重点。数据报送信息系统的监控条目繁多，未结合数据报送的数据处理流程特点，重点突出报送指标关键数据流链路的状态信息。（4）链路环节长，故障定位速度慢。数据流链路由六环节组成（见图1），涉及的数据源系统有IFAR等多个系统。因此出现报送异常时，需要检查的节点多，故障定位复杂且缓慢。（5）缺乏完备的事后分析机制。事件解决后，除了简单的事件信息记录，未形成有效的事后评价改进机制。同时，当前事件记录信息的标准化程度低，无法通过大数据挖掘分析等来预测潜在风险并提前预警。

图1 数据流链路由六环节组成

运维体系的研究

随着经营类数据报送信息系统新功能的持续投产，前期的运维手段和应急方法已难以满足今后的应急保障需求，因此开展了以下三方面的研究。

1.加强系统运维保障手段。针对数据报送信息系统关键数据流链路，改进监控内容和处理策略，确保故障异常可被快速发现；建立信息系统关键作业节点预警机制，给应急处置留出时间。

2.提高系统应急保障能力。完善该类系统故障异常的应急管理，建立专属应急保障团队，保证发生突发事件时，应急保障团队能做到快速响应、快速处置。同时，通过召开应急交流会，对已发生事件进行回顾讨论，总结分析系统隐患，不断提高应急团队的应急响应效率和处置能力。

3.建立统一监控运维平台。自动化采集数据流链路各环节上运维平台的信息，实现运维信息的集中化和可视化，并为运维人员提供方便快捷的查询功能，助力运维人员快速定位故障。

运维体系的实践

农业银行DIRS系统，2017年率先在四大行实现了监管统计系统全国集中。通过开展研究并付诸实践，有效地提高了农行监管数据报送效率。

1.加强运维保障的方法和手段。一是建立运维保障方案。规范日常态和紧急态运维操作流程，确保故障异常及时被发现和处置。针对数据报送系统的运维特点，将运维保障方案划分为实时监控保障方案和预警管理保障方案。二是加强实时监控管理。对环境、应用、系统、网络状态等进行全面实时监控，保证在异常出现时，运维人员能第一时间发现并报告异常，快速开展异常评估并启动事件处置流程。三是建立异常预警机制。梳理关键数据流链路处理节点，设置安全预警时点，保证数据流链路发生异常时，可及时向运维保障人员发送提醒信息。

2.提升突发事件的应急保障能力。一是组建专属应急保障团队。应急保障团队负责故障事件的应急响应、故障排查、辅助决策及分析报告编写等工作。应急保障团队联系人负责维护应急联络群，团队成员根据专业分工做好日常运维。当故障事件发生时，事发条线联系人及时报告事件现象；应急响应时，各条线互相配合，排查事件原因；应急处置过程中，各条线共享信息并报告处置进度。应急保障团队横向打通各条线沟通壁垒，提高突发事件应急处置效率，确保故障异常快速解决。

二是建立应急保障信息文档。应急保障信息文档包含系统应用架构、部署架构、关键数据流链路、应急处置流程和故障定位方法等知识，是该系统专属的应急响应操作规范，指导运维人员快速开展应急响应。应急处置涉及多个部门，通过共享和宣讲该文档，帮助应急保障团队成员深入了解并掌握系统架构、关键数据流链路和应急响应流程等内容，促使团队成员更加有效沟通和协同配合，缩短事件应急处置时间。

三是建立交流会机制。交流会分为定期召开和紧急召开两种类型。定期召开是通过周期性召开会议，回顾分析近期的事件、投产、变更等，剖析存在的问题和不足，吸取经验教训，并应用到实际工作中。紧急召开是针对系统中重大故障事件或重复发生的复杂事件，临时组织召开的会议；各条线就遇到的问题，深入探究事件原因、共享事件信息、组织问题排查、确定后续改进事项等。通过召开应急保障交流会，各专业条线之间搭建起高效通畅的沟通渠道，可快速完成故障事件的分析，减少事件的重复发生，保障系统安全稳定运行。

3.建立统一监控运维平台。集中化、可视化、自动化的统一监控运维平台具有以下功能。一是自动整合信息，提高效率。自动获取并整合各个运维平台的关键数据流链路运维信息。实现运维信息的集中整合和快速查询功能，运维人员可在该平台，直接查看数据流链路各个环节的运行情况。二是可视化数据流链路，快速定位问题。通过生成可视化数据流链路拓扑图，直观展示整个数据流链路各关键作业节点的运行情况。当有异常或告警通知时，平台第一时间将异常信息发送至相关运维人员，快速、精确定位到问题节点，节约问题排查时间，减少数据报送事件的发生。三是完善事件分析回顾机制，形成良好循环机制。完善事件事后处理机制，推进事件记录标准化自动化建设。由平台自动记录并保存事件信息，实现标准事件数据的积累。依托平台数据，构建历史记录快速查询功能，定期自动数据挖掘事件规律，提供运维保障方案的新思路，降低故障发生概率，形成良好循环。

本文节选自《金融电子化》2018年10月刊

声明：本文来自金融电子化，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

经营类数据报送信息系统运维体系的研究与实践

比特币创新高，特朗普组建“加密政府”

关于信息科技外包风险管控的探索与研究

“支付宝崩了”冲上热搜，官方致歉