机器学习技术的应用经验及建议

作者：浙商银行金融科技部臧铖周林娜陈嘉俊

行业现状：2017年，国务院在《关于积极推进“互联网+”行动的指导意见》中将人工智能推上国家战略层面，人工智能在中国掀起了新一轮技术创新的浪潮。作为人工智能的基础和核心，机器学习通过丰富的大数据处理和信息挖掘技术，可快速生成数千万甚至上亿条相比传统专家模型更为精准有效的规则，可有效对用户的金融需求进行预测，对用户的金融行为进行引导，扩大金融服务的可得性和覆盖率。在解决银行业转型升级难题的过程中，以机器学习为基础和核心的人工智能显示出巨大的推动能力。

机器学习在银行业的应用情况

作为人工智能的核心，机器学习是一门多领域交叉学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能。目前众多银行已建立了机器学习平台，作为业务智能化发展的基础性平台，支持对结构化和非结构化数据的深度数据分析，应用场景囊括精准营销、风险控制、产品设计和内部管理等多重领域。当前精准营销和风险控制是银行业的主要应用场景，以智能投顾为代表的智能化产品设计也实现初步应用，而机器学习在银行内部管理领域的应用尚不多见，但也提供了一个新的思路和展望。作为金融科技的积极探索者，浙商银行利用自身的技术和数据优势在此领域展开了积极探索，对业务发展起到了实实在在的促进作用。

浙商银行对机器学习技术的应用探索

银行零售业务长期面临营销客群无法准确锁定，营销成本高企但效率低下的问题，同时由于国内信用体系尚待健全，银行也长期承受着难以预测的资金风险。以往银行通过采用专家规则的方式进行客户营销和风险控制，即专家通过吸取业务专家经验和过往案例来建立规则库，以实现对多数典型目标客户的锁定或风险行为的预警。但是，专家规则存在规则更新滞后、误报率高、无法覆盖长尾客户或场景等问题。随着机器学习技术日趋完善，以数据为驱动建立智能化精准营销和风险控制模型受到银行业的广泛认可，浙商银行在机器学习领域的实践也收获了良好的业务成效。

1.机器学习平台建设经验。2017年，浙商银行打造了智能化基础性平台——机器学习平台，以加快推动本行业务的智能化转型。不同于大数据平台关注解决数据存储与读取，机器学习是一种强调内存密集计算的技术，需要针对应用架构、计算框架、通信机制等方面做针对性的设计与开发（见图1）。

图1 人工智能机器学习系统架构

人工智能机器学习平台作为基础平台，各类业务场景应可基于此平台进行建模，实现资产复用。由于机器学习算法日新月异，人工智能机器学习平台对不同算法的支持需要具备很强的泛化性。因此有必要建立一个分布式机器学习算法的统一高性能架构，快速实现或引入适合于业务需要的不同机器学习算法。机器学习平台数据架构见图2。

图2 机器学习平台数据架构

根据上述设计思想，浙商银行机器学习平台采用了中央化部署结构，由三大主体共同组成：一是模型数据集市，模型数据集市可实现跨系统数据共享，解决信息孤岛的问题，为数据分析提供有效支持；二是建模分析平台，可直接使用SQL或者Python进行数据清洗，从而生成特征文件用于模型训练；三是机器学习系统，提供模型训练、模型评估、模型部署等功能。通过中央化部署，一个平台上可以部署不同业务模型，同时为多个业务系统提供服务，同时支持离线决策和在线决策两种模式，以满足不同网络条件下的业务场景。系统的逻辑架构设计如下。

外围业务系统将客户信息、交易明细等数据批量同步到数据集市/大数据平台。人工智能机器学习平台根据历史数据样本和特征，通过机器学习引擎建立模型。模型建立后，人工智能机器学习平台提供平台化的模型发布和模型上线能力，高效地完成线下模型向线上模型服务的实例化和投产。模型服务实例建立后，运用于具体业务场景进行事前、事中、事后分析及处理。通过外围业务系统提供的批量文件或实时联机交互接口请求智能应用服务和模型智能服务，并由人工智能机器学习平台提供批量或实时反馈。外围业务系统在根据人工智能机器学习平台反馈完成决策和执行之后，将最终外部反馈批量同步到数据集市/大数据平台，然后再同步到人工智能机器学习平台完成模型的自学习迭代优化，并自动更新线上模型服务。

基于上述建设思路，浙商银行机器学习平台可支撑机器学习建模的全部流程，包括数据采集、清洗与分析，模型训练、预测与监控在内的完整模型训练与学习工作流，可实现多类场景的快速应用部署，并具备如下创新特点。

采用基于资金敏感的预测算法。根据金融行业特点，通过对传统分类算法进行优化，灵活控制资金收益或损失的关注度，给出更符合业务场景的模型，在保证命中率的同时，大幅提高最终收益。

智能规则灵活组合。通过数据和算法训练出的智能规则，可携带模型的参数，实际建模人员可以自主选择测试集对单条智能规则或智能规则组进行评估，并对模型效果进行灵活跟踪和优化。

可视化的算法效果展示。通过图形化界面动态展示模型评估结果，包含阈值调节、分段信息展示以及多种评估指标的图形化结果，为模型训练与决策提供依据。

基于机器学习平台，实现了对行内客户数据、交易数据等进行深度挖掘，针对不同场景建立相应的强规则模型。相比专家规则，机器学习模型内集成的规则更健壮，预测效果更好。不论是公司业务、零售业务、小微业务，甚至是人力资源管理等内部管理，机器学习技术都有丰富的应用空间。

2.机器学习在信用卡业务的应用经验。目前，浙商银行将机器学习技术应用在精准营销和风险预警领域，在机器学习平台运行了信用卡账单分期营销、信用卡逾期M2预测、信用卡逾期催收等三个场景的模型。这三个模型都是通过随机森林、决策树等算法，基于现有客户的历史行为和个人信息进行分析和预测，对不同类型的客户进行分类，最终得到需要的客户名单，实现精准的客户营销和风险预测。

信用卡精准营销的应用。传统的零售金融服务营销主要通过线下网点开展，客户获取的精准度低、营销成本高，较难实现客户的服务增值。互联网环境下的客户营销，利用机器学习技术对用户特征、交易行为以及服务需求进行全面采集和刻画，提取关键标签并形成客户分层体系，为用户推荐合适的产品。在减少用户打扰和营销成本的情况下增加运营效益，是商业银行零售业务继续提升的关键所在。

机器学习平台上线后首先上线了信用卡账单分期预测场景，通过机器学习算法模型对用户接受账单分期的可能性进行预测，指导客服平台进行外呼客户名单筛选。信用卡账单分期预测上线初期，呼叫转化率便相比专家经验提升50%以上；随着模型的优化与迭代，分期总金额平均提升30%以上，业务效果突出，显著提升了信用卡业务的精准营销能力。

信用卡风险预警的应用。商业银行信用卡客户的风险等级一般在发卡时便给予确定，但是发卡过程中银行难以完全掌握申请人资信情况；同时持卡人的经济情况和资信情况在用卡过程中都会发生一系列的变化，如果对持卡人后续监管不到位，便不能及时进行风险预警和调整风险等级。我国银行的信用卡风险管理更多的是事后处理，而不是事前预防和事后处理相结合。随着机器学习技术的成熟，浙商银行及时整合行内外客户行为数据、多维客户行为特征及其衍生逻辑，利用机器学习构建了具备自主学习、迭代优化的风控模型，通过客户信用风险动态画像为信用卡风控团队提供决策支持，提高客户信用风险防控工作的前瞻性和及时性。

信用卡M2逾期预测场景。根据信用卡业务特征，将客户基本信息、消费信息、调额信息、风险信息等各类信息进行统计、模型运算、标签化管理，实现前瞻性的信用卡客户风险预测。机器学习平台预测的前5%客户覆盖80%的M2逾期风险客户，前20%可以覆盖全部M2逾期风险客户，在M1期间，优先对该预测客户进行催收并特别关注。此外，将逾期预测排名靠后的客户尝试提额，实现了单一模型的多场景应用。

信用卡逾期催收模型。信用卡逾期催收模型（M1-M2）与信用卡M2逾期预测模型（M0-M2）的特征工程类似，前9%可以预测命中50%以上的逾期客户，前30%可以覆盖所有逾期客户，相比于专家经验规则取得明显提升，可及时采取降额止付的风控措施。

机器学习的应用成效

浙商银行将机器学习技术应用于信用卡业务营销和风险预测，使得有限的营销资源被更加高质量利用；同时也有效缓解了以往单纯依靠专家经验和事后处理的业务风险高压，大大增强了我行未来进一步深化机器学习技术应用的信息和决心。根据实践经验，机器学习技术应用具有如下成效。

机器学习技术可应用的场景众多。理论上讲，只要业务场景中存在分类或预测的需求并且有海量的数据，都可以尝试使用机器学习技术。而如今机器学习技术正在渗透各行各业，银行作为数据量庞大的机构，具有广阔的应用空间。

机器学习技术具有极强的数据挖掘能力。金融业应用较为广泛的信用评分卡，其可解释性强并且易用，但是受限于其底层算法，分类准确率其实不高。机器学习技术采用的底层算法更加强大，对数据的分析能力更强，模型的分类准确率更高。

机器学习技术建模简单，迭代方便。受益于科学界日复一日对机器学习技术的研究，机器学习算法集成度越来越高，建模过程不断简化。只要找到可应用的场景，使用机器学习平台，只需几个月时间便可完成从建模到上线，并且后续模型迭代方便。

机器学习技术的应用建议

机器学习是一项发展当中的技术，鉴于数据敏感性、基础设施建设、业务模型灵活性等原因，机器学习的应用尚有一定局限性。但机器学习确实有助于解决很多问题，在银行业应用前景广阔。为了迎接智能时代的到来、加速银行业实现转型突破，现根据机器学习实践经验提出如下建议。

进一步丰富机器学习应用场景。通过对典型银行场景分析，我们认为机器学习技术非常适合客户营销、事后反欺诈等场景，商业银行可按先事后、再事中的实施路线进行推动。先通过事后批量处理数据，降低与业务系统耦合度，减少系统风险；待事中交易充分验证后，选择特定的场景适时介入，对交易实时进行处理、准实时更新模型规则，提升风险控制能力。

由监管机构牵头解决数据的可得性和合理授权使用问题。数据是机器学习技术的基础燃料，但目前不管是企业数据还是个人数据，都存在分布分散、数据产权不明、难以合理获取或使用等问题。例如客户希望利用网络消费数据作为银行业务申请的授信依据，但目前对于银行和客户本人都是难以便捷、高效地获得个人数据的合理使用权利的。在智能化时代，数据资源的规范整合和管理是监管机构在保护数据隐私的同时应当进行思考的重要问题。

本文节选自《金融电子化》2019年01月刊

声明：本文来自金融电子化，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

机器学习技术的应用经验及建议

揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐

美国人工智能国家安全备忘录核心解读

美国土安全部发布关键基础设施安全部署人工智能框架