作者:大连银行股份有限公司 张子超 王瑶
中国人民银行大连市中心支行 周涛
大连银行自2017年起着手进行基于运维大数据实施业务渠道态势感知项目的建设与研究工作。通过大数据、机器学习和深度学习技术,挖掘并充分利用海量运维数据中蕴含的有价值的规律和情报,并在2018年上线运行取得以下阶段性成果:
一是设计并落地实现对海量运维行为数据采集、管理的技术解决方案,初步构建运维大数据平台,实现运维行为数据的融合管理;
二是选择机器学习和深度学习技术中与运维行为数据特征相匹配的算法模型,应用于机器行为和客户行为的分析,从数据中找到机器和客户行为规律,发现机器和客户异常行为;
三是基于发现的机器和客户行为规律,对机器和客户未来行为进行预测;
四是基于运维大数据平台和机器学习技术,完成系统运维管理、业务特征分析、业务趋势对比、安全风险识别防范等应用场景的开发、推广试行,逐步完善和丰富行为数据分析的模型、智能联动处理模型。
项目目标
1.银行业务运营保障。通过实时的旁路业务数据解析,实现业务逻辑梳理、可视化业务访问逻辑拓扑;通过对业务态势数据的大数据分析和机器学习,自动形成业务时间基带,直观反映出偏离时间基带的异变交易行为;通过进一步多维指标关联分析,实现精准告警和快速故障定位,由被动运维向主动运维转变,提高运维服务质量,并积累海量的业务态势数据。
2.银行业务运营支撑。借助已经积累的生产运维数据,通过区分线上、线下各业务渠道态势数据,依托大数据分析和机器学习,建立平均办理主要业务的时间基线,有效识别影响整个业务流程的长时间交易操作和行为;通过分析柜面柜员、机具柜员的行为习惯,寻求加速业务办理和提升用户体验的优化方案;通过渠道动态态势感知,了解各新兴渠道、新发布产品在各业务渠道的数量变化、客户体验、热点页面等,为优化渠道业务流程和产品种类提供支撑;开展大额实时交易流动性监测,提升大额资金变动提醒时效性,为营销、挽留、业务推广创造了可能。
平台架构实现
数据按照主题的方式存储管理,不同主题的数据聚集存储在不同的数据集群中,集群间通过联邦的方式管理,构建融合的运维数据平台,实现跨主题数据的联邦化管理。
按照属性特征将数据分类:客户与业务交易行为数据集群,网络行为数据集群,系统与软件行为数据机器,日志类数据集群,操作、流程、资产数据集群,构建后端的运维大数据管理平台,实现单类数据自治化管理+统一融合数据联合化管理。
平台技术实现
构建机器大数据平台,实现实时态势感知,按照对数据的处理过程,划分为数据采集、数据存储、构建数据模型、数据智能分析四大部分。
1.数据采集实现。为实现对信息系统和管理员的行为全面的感知,需从各个维度去捕获各类行为和数据,这些数据是智慧运维的基础。具体包括的数据有如下几类:
第一类:客户行为和体验数据。主要为客户在浏览器Web页面、WAP页面及APP上的访问、交易、终端、点击、设备、地域等信息;客户体验数据包括:客户访问不同业务请求响应速度、响应率、成功率等信息。此类数据是分析客户对商业银行信息系统服务水平的基础。
第二类:业务和交易行为数据。主要为客户发起的每笔转账、存款、理财查询等业务交易的详细属性信息,例如:业务代码、金额、发起渠道、交易对手、交易路径等。此类数据是分析业务交易运行效率,以及为客户提供服务的水平的基础。
第三类:应用系统行为数据。主要为访问日志、业务与交易日志、应用软件行为日志等记录客户访问信息、应用软件详细运行行为等信息。此类数据息是分析应用系统状态和行为的基础,也是及时发现和定位应用系统故障、异常的基础。
第四类:管理员操作行为。主要为系统登录行为与操作行为、堡垒机记录的人员操作行为、流程管理系统记录的人员操作行为、终端记录的操作行为等。
图 大数据平台架构
2.数据存储。在数据存储管理方面,选择搜索引擎ES(elasticsearch)作为大数据管理平台的核心,依托ES与主流大数据平台(如hadoop,storm,spark等)之间深度的双向集成能力,以及ES与主流数据采集平台(kafka,flume,logstash等)有成熟且稳定的对接渠道,来共同实现对实时数据和历史数据的集中存储并高性能搜索。
3.数据模型构建。采用行内已经部署的各种监控系统输出的指标,如:每秒监控系统交易请求数量、交易响应时间、交易成功率、交易响应率、IO利用率、网络吞吐量等一系列指标来描述某台机器的机器行为,机器行为分析的主要目的就是通过对这些数据的分析,准确发现机器行为的异常并进行告警。并从中提取出来各时间序列的特征周期,这些特征作为训练样本对机器行为模型进行训练,最终生成行为模型用于对监控指标的预测。
4.数据智能分析。针对发现的信息系统的告警事件、异常情况、潜在风险、运行规律等情报,通过与其他运维支撑类系统联动,以智能化的方式进行处置。具体包括:针对已固化处理模式的场景,发送指令给配套的自动化调度系统,根据预定的处置方案和步骤,自动化进行故障修复、风险隔离,提高应急处置效率,保障信息系统稳定运行;针对发现偏离正常行为模式的业务交易行为、应用系统行为、网络行为,及时产生告警信息,通过流程化的方式通知到各技术域进行深入研判;针对发现偏离正常行为模式的人员操作行为,及时通过运维支撑系统之间的联动,控制人员的操作权限,必要时立即阻断,避免对信息系统带来危害;针对发现的攻击行为、安全漏洞、内部违规等暂未对业务和信息系统的安全稳定运行造成影响的潜在风险,将相关信息转入专门的安全管理系统处理。
项目技术特点
透彻感知能力:可以测量、捕获、监控和传递系统相关的信息(业务、交易、应用访问、系统性能、网络流量等),通过大数据技术、机器学习技术等先进创新的感知手段,快速、全面、精确的获取系统相关信息并进行分析。
全面的可见性:通过有效的展现方式,将信息系统的实时状态、规律性、异变行为、潜在特征等,以直观、形象的方式提供给运维管理人员。
多维的关联性:用便捷的方式,将业务态势与机器态势进行有效关联并以直观的形式进行展现,让运维管理人员了解业务逻辑的同时,引入多技术域思维模式,把多维性能指标和业务指标进行关联分析,将稳定运行与业务优化、拓展关联。
发展的多面性:基于实时流量数据和日志数据的大数据平台既可以满足当下敏捷运维和业务分析的迫切需求,又可作为将来AIOps、风控和BI补充过程数据、建立数据仓库,进而为实现智能运营的愿景助力。
成果推广应用情况
大幅提升运维能力:精确的监控告警、多维的数据展示及完善的配套体系,帮助运维人员及时掌握系统运行情况,快速发现、定位和处理系统故障,提升故障解决效率,促进了系统的优化,保障了系统稳定运行。
有效支撑业务优化:通过业务的实时态势感知和对大数据、机器学习技术的有效运用,用网络数据实现了实时的感知同时给相关业务系统的优化和拓展提供参考依据,并取得成效。
良好示范作用:业务渠道态势感知平台于2018年2月上线运行,每日获取交易过程数据超过60G,日交易量超过5500万笔,稳定高效的对各类重要应用系统进行着业务状态全面监控,使大连银行业务态势感知的能力得到进一步完善;同时,向各业务管理部门推广“电子渠道交易态势感知”“柜面渠道交易态势感知”“日间大额交易态势感知”,推动并促进了传统业务流程的优化,以及对渠道资源的有效整合和成本控制。
大连银行作为东北地区借助业务交易数据实现多渠道业务态势感知的首家银行,在探索新运维模式及推进运维向运营转变,以及提升智能运维程度方面起到了良好的示范作用,并将持续开展智能化运维的探索与实践。
本文选自《金融电子化》2019年09月刊
声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。