一文看懂银行智能欺诈风险预测模型的构建

近年来，伴随移动互联网、虚拟现实等技术的飞速发展，银行服务模式日趋多样化。在客户享受灵活便捷服务的同时，银行欺诈风险呈现出更加隐蔽、专业的特点，发展出更多的作案手法和表现形式。

传统欺诈检测通常依赖专家规则、黑名单库等方法，已经不能适应新的欺诈挑战。

因此，银行需要充分利用金融科技的支持，培养以科技和数据为支撑的风险识别能力，建设更加智能化的、量化的、主动型的风险管理体系，实现健康与可持续的发展。

★★★ 银行反欺诈发展趋势

国内外银行在传统反欺诈管理中主要依赖专家经验，通过人工方式制定检测规则，当申请交易信息与反欺诈规则匹配后即执行相应的业务策略。这种管理模式得出的反欺诈规则存在一定的局限性，不能枚举所有业务场景，无法对各类欺诈行为进行全面覆盖。与此对应，欺诈者会针对性的对已有规则进行回避，导致专家规则处于被动调整的位置，无法跟上欺诈手段的更新换代，从而导致误报率通常会比较高，影响实际风险决策制定和实际业务开展。

机器学习是一种重要的金融科技创新手段，近年来在国内外金融机构和金融科技企业中被尝试应用到风险防范、反欺诈等领域。通常针对大规模数据集进行全方位综合考量，挖掘深层次业务场景特征进而建立监督、无监督等类型的学习模型，在大量应用中模型的准确性、稳定性也得到了充分验证。例如花旗银行、美国银行、汇丰银行等机构广泛应用逻辑回归、神经网络等技术以提升欺诈识别能力。

★★★“会思考”的风控模型

在应用大数据支持业务发展转型的过程中，一个完善的风控管理体系至少包括客户画像、数据挖掘模型和决策引擎三个组成部分。数据挖掘模型是智能化的核心，客户画像为建模过程持续提供特征输入，决策引擎将模型输出成果转换为实际业务行动。

构建风控系统过程中，大数据能力主要体现在更好的客户认知、更智能化的算法、更快速的决策支持，如下图：

数据挖掘模型发挥动力引擎作用，吸收学术界和产业界先进机器学习知识成果并应用于银行实践。

客户画像重点体现大数据背景下的客户多维度刻画，在静态信息和交易行为信息之外可以补充社交网络维度特征信息。伴随大数据的持续采集、生产和交换，为数据挖掘建模提供源源不断的能源输入。

决策引擎能够面对业务场景进行快速响应，通过可视化等手段提供自助式业务分析能力，促进数据价值转化为业务行动。

践行上述思路，结合传统风险管控和社交网络分析技术，加工基础维度及社交维度等信息特征指标组成反欺诈客户画像，并应用随机森林等分布式机器学习算法建立欺诈风险预测模型。智能化预测模型每天都能够进行“思考”，在研发和使用的过程中能够催生新型数据产品的开发与应用从而带动传统业务流程的优化。

★★★ 模型构建与结果分析

以银行信用卡申请反欺诈为应用场景，这里主要跟大家探讨社交网络构建、特征处理、算法实现等问题。

1、结合社交视角构造客户特征信息

社交网络分析方法旨在建立一个网络与真实世界的实体与关系映射，在银行应用中的典型实体包括客户、账户、员工等。社交网络分析通常关注静态和动态两个层面的网络特征，静态特征包括提取网络指标、对网络特征刻画、识别网络群组等；动态特征主要包括描述网络如何随时间推移进行扩散、如何影响其他节点等。

分析信用卡审批数据，在建模实施过程中将申请人角色作为社交网络的关键节点，从网络视角衡量欺诈风险的传播，分析节点关联好友数量、节点间亲密程度等。此外，建模中的客户基础信息包括申请人年龄、手机号、电子邮箱等，针对这些信息需要进行结构化分解、离散化、频度计算等数据预处理操作，共同构建特征以用于后续模型的训练和验证。

2、建模方案设计

对进行特征工程化处理的数据进行拆分，采用交叉验证的方式完成欺诈风险预测模型建立和训练，并比较多组模型输出的计算结果。

算法选择方面，可选择逻辑回归、随机森林和深度学习。

逻辑回归是银行风控领域的经典算法，以此作为模型结果的标杆参考。

随机森林是一种集成学习算法，利用多棵决策树对样本进行训练并预测；通常单棵树性能表现较弱，但进行组合之后能够提供较好的分类性能，算法稳定性好。

深度学习模型是包含多隐层的多层感知器系统，通过应用综合复杂结构和多重非线性变换构成的多个处理层及对数据进行高层抽象的一系列算法，建立具有数个隐层的多层感知网络并实现各种模式的识别和认知。

模型评价方面，选用AUC、Precision、Recall、Accuracy、F1-measure等指标。其中AUC(Area under Curve)是ROC曲线下的面积，介于0和1之间；AUC值表示将两样本正确分类的概率，AUC值越大说明模型分类性能越好。其他指标均是从不同角度衡量模型性能，这里不再详细说明。

★★★ 欺诈监控数据产品

大数据在实际应用中体现出强产品化的特点，通过构建反欺诈数据产品（如态势感知）能够快速实现决策引擎的功能；原始数据从积累到建模均与该数据产品关联，用户画像建立和持续丰富也与反欺诈业务场景相结合。数据产品通过可视化技术实现自助式分析能力，在数据价值转化为业务行动过程中发挥桥梁作用。

针对信用卡申请反欺诈场景，设计专项数据产品对接相关业务系统。数据产品提供全国审批疑似欺诈情况分布图，实时获得所关注区域的欺诈操作分布、欺诈发展趋势、欺诈比重等动态。另外，能够在系统页面查询基础指标统计图（手机和电话特征分布）、不同模型输出的欺诈风险概率值、网络特征、社交指标统计等内容。

★★★ 总结与展望

不论是与金融科技企业合作，还是基于自身开展线上业务创新，银行业金融机构必须打造技术与数据驱动的风险管控机制。基于大数据挖掘方法，综合应用社交网络分析和机器学习算法进行风险量化预测；客户识别角度综合基础维度和社交维度信息，技术角度应用随机森林、深度学习等算法大幅提升预测准确性，共同构成“会思考“的风控模型。模型能够进一步区分欺诈特征，提升业务申请欺诈侦测能力，该模型构建在银行风险防范和反欺诈领域具有一定的推广价值。

此外，若能进一步打破行业数据孤岛，结合更多银行内外部数据完善社交网络特征，对客户进行更加全面的特征刻画将助力复杂机器学习算法发挥巨大威力；同时，在业务系统部署智能化反欺诈监控模块，通过数据产品提供欺诈操作分布、欺诈发展趋势、欺诈比重等动态场景以辅助决策，打造系统化的信息科技安全解决方案，有效推动银行业务的发展与转型升级。

（内容参考自金融科技实战,作者田江）

声明：本文来自金融科技安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

一文看懂银行智能欺诈风险预测模型的构建

比特币创新高，特朗普组建“加密政府”

关于信息科技外包风险管控的探索与研究

“支付宝崩了”冲上热搜，官方致歉