银行数据中心管理着庞杂的IT资产,每天都有大量繁杂的运维活动作用在IT资产上,以维持信息系统的持续稳定运行并提供服务。在传统运维风控模式下,事中风控主要依靠人力对各流程的控制点进行人为控制,对过程行为的事中“技控”不足,难以确保不出操作风险。在事后环节主要依靠人工检查的方式,面对大量数据时,存在时效性差、覆盖率低、效率不佳等问题。面临日益复杂的内外部环境和“严监管、重处罚”的监管局面,依靠人工的传统运维风控手段已越来越难以为继。
银行运维智能风控体系
在此背景下,如何在事中有效控制操作风险,确保信息系统安全稳定运行,以及在事后及时、无遗漏地发现不合规甚至违法行为,避免“堡垒被内部攻破”,造成数据泄露、数据篡改、系统异常等不良影响甚至案件,解决分行运维风控痛点,同时满足监管要求,是运维管理面临的难题。为此,中信银行立足于科技创新赋能,利用大数据、人工智能、流程及操作自动化等各种技术手段,探索建立全行运维智能风控体系。
1.以技术手段实现事中“硬控制”。有机整合堡垒机、服务流程平台、门禁系统、自动化平台等运维支撑系统,实现管理流程的自动化和风险管控的嵌入化。实现了敏感数据访问实时屏蔽、非授权高危命令自动封禁、高权用户“一事一授权”及“自动精准授权”、变更实施及故障处理操作“线上双敲”、安全区门禁授权与变更审批自动联动等“硬控制”手段。实现管理要求在行为级的工具“固化”,事中风控从“人控”向“机控”转变。
2.利用大数据及人工智能技术实现覆盖全行的运维自动化合规检查。建设全行运维自动化合规检查平台,基于对数据中心风险的梳理和多年内外审积累,并参考ISO27001等标准,制定了覆盖操作行为、用户管理、数据安全、物理安全、网络安全等运维主要风险领域的违规行为模型,利用大数据及人工智能技术对全行运维海量数据进行分析,实现对全行运维违规和异常行为的自动识别。打造“随时查”(实时、T+N)、“马上改”(自动阻断或纠正、派单整改)、“全覆盖”(风险全覆盖、总分行全覆盖、数据全覆盖)的运维合规内控新形态。
大数据及人工智能技术在运维智能风控体系中的应用
在运维智能风控体系中,全行运维自动化合规检查平台基于主流大数据开源技术构建,并应用了机器学习算法进行个性化的行为模式建模和异常识别,各组件采用分布式环境部署,实现高可用、高并发。
平台纳入全行全量运维日志类、流程类、权限类、活动类、配置类等各类数据。一方面通过“数据+规则”的模式,通过大数据技术实现从实时至T+N的通用自动化检查模型;另一方面通过机器学习算法建模,实现个性化的自动化检查模型。此外,通过对接监控系统与企业微信,实现对高风险违规行为的实时报警。通过对接流程平台、堡垒机、自动化平台等运维支撑平台,实现检查问题与整改流程联动,以及非授权高权用户登录自动阻断、网络设备安全基线自动修复等“自免疫”功能。系统总体框架见图1。
图1 系统总体框架图
1.利用大数据技术实现通用自动检查模型库。平台采用ElasticSearch、Kibana、Logstash、Flume等主流大数据开源技术,实现数据采集、解析、存储、分析、展示,支持实时在线计算和离线批量计算两种模式,在此基础上实现各类实时/T+N的通用自动化检查模型。平台在总行部署,实现全行覆盖。
在实现方面,首先通过风险分析、内外审规范、历史内外审问题梳理、相关标准对照等方式,识别违规行为场景,之后对行为场景进行数据特征解析与数据源定位,制定具体数据分析规则,形成通用数据分析模型。对于不同的数据分析模型,根据对应违规行为的风险等级,在平台中进行实时/非实时的分级处理:对于高风险违规行为,利用ElasticSearch的近实时特性进行实时分析,并联动告警、阻断、纠正等实时处置措施;对于低风险违规行为,通过JSON方式结构化数据,按照分析规则实现T+N分析,并联动整改流程。在模型投入使用后,结合使用情况不断迭代,以达到最优效果。在此过程中,违规场景识别及模型制定为难点和关键环节。
依靠平台的海量数据分析能力,实现了传统人工检查模式下难以企及的效果,尤其对于大基数检查对象,由之前的人工抽查变为100%全查,检查周期由最长每年查一次,变为实时查或天天查。如:对防火墙技术规范落地执行情况的检查,由之前的3人2月仅查10%,变为每天进行100%全覆盖检查。
2.利用机器学习算法实现个性化自动检查模型。通用模型“数据+规则”的模式,适用于规则明确且普遍适用、数据要素较少的场景,取得了明显效果,但无法实现面向个体的“千人千面”的个性化规律提取及行为分析。为此,在全行运维自动化合规检查平台中引入了机器学习DBscan聚类算法,通过对堡垒机历史操作日志数据进行学习,进行原始数据间关联处理,提取模型的特征维度,建立基于具体用户或某类用户的普遍性行为规律,最终形成用户画像。结合用户偏爱使用的高频命令、常见登录堡垒机时段及所访问的服务器等信息,使用聚类模型对具体个体行为进行分析,发现与其行为习惯不一致的可疑动作,实现了通用模型不可能达到的个性化违规行为识别(见图2)。
图2 基于机器学习的个性化自动检查架构
取得的效果
全行运维智能风控体系的投入使用,对提升我行运维风控水平起到了显著作用:
一是大幅降低全行运维操作风险。目前已实现非授权高危命令自动封禁、高权用户“一事一授权”及“自动精准授权”、变更实施及故障处理操作的“线上双敲”等事中“硬控制”手段8项,并在总行及分行全面推广。全面降低全行由于操作风险引发的各类生产事件数量,为实现操作风险0事件、0案件提供有力保障。
二是大幅降低了全行运维合规风险。实现对总行数据中心和所有分行的运维合规检查,违规模型覆盖运维所有重要风险领域,实现“随时查”“马上改”“全覆盖”。截止2021年初,已投入使用162个检查模型,涵盖网络安全、用户管理、数据安全、物理安全、终端管理等12个关键风险领域,其中实时模型16个,自动阻断/纠正模型7个。包括:非授权高权用户登录、非授权敏感数据查询、非授权操作、防火墙策略开通过宽、开通高危端口等。累计发现全行运维各类不合规风险或问题261个,其中大部分为传统运维风控“想得到但做不到、想不到也做不到”的难题。
三是大幅降低全行运维风控成本。在创新手段的加持下,只需总行设置5~8名人员即可实现模型制定与优化、全行检查实施、检查结果沟通与确认以及整改跟踪与复检的全流程工作。有效解决人工检查效率低、覆盖面不全、检查效果依赖个人经验和能力,以及分行合规能力与资源不足等问题。在实现同等检查效果下,较传统风控模式节省人力超过300人年。
未来展望
目前全行运维风控体系主要针对线上行为及其后果,且以事后为主。后续将结合中信银行数据中心数字化转型的进程,向覆盖“线上+线下”“事前+事中+事后”的全息式、免疫式智慧运维风控体系演进。主要包括:建设对人脸及线下行为的自动识别能力,实现对线下违规行为的自动化识别;全面拓展事中“硬控制”场景,实现管理要求的全面“机控”;完善基于风险严重程度的实时+事后自动化违规行为识别,以及违规行为发现后的多层次处置机制;利用人工智能探索进行个人合规画像、合规旅程,以及基于之上的违规行为预判。
声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。