作者:中国建设银行信用卡中心数据管理处 宋丹蒂

当前,在加快构建以国内大循环为主体、国内国际双循环相互促进的新发展格局背景下,我国形成了包括1亿多市场主体、4亿多中等收入群体在内的14亿人口所组成的超大规模内需市场。2021年,尽管新冠肺炎疫情对经济运行有所冲击,但消费对经济增长的贡献稳步提升,据国家统计局数据,2021年,我国最终消费支出对经济增长的贡献率为65.4%,全国居民人均消费支出实际增长12.6%。居民消费意愿持续回升,消费信贷市场发展仍处于战略机遇期。同时,数字经济时代已经到来,其“连接、开放、智能、敏捷、利他”等特征要求消费信贷业务必须坚持以客户为中心,做好全量客户经营、全渠道服务、全生命周期管理。因此,有机融入数字经济时代商业逻辑,基于客户旅程构建消费信贷业务数字化整体解决方案和数据闭环,迭代打造智能风控算法核心能力,研究推进“线上化、移动化、场景化、生态化”融合变革,对消费信贷业务发展具有很好的指导和实践意义。

一、消费信贷业务客户旅程

消费信贷业务客户旅程是指客户直接或间接使用信贷机构的产品与服务来实现用信需求所经历的全部物理或虚拟事件的集合,除了“客户视角、端到端覆盖、全渠道触点”之外,更加注重“金融与非金融相融合”。因此,信贷机构要从产品搜索、购买决策、产品购买、客户引入、客户忠诚度管理等环节,全方位构建业务流程并嵌入风控埋点和管控措施。

基于客户旅程的消费信贷数字化解决方案重点在于打造全流程数据闭环:一是通过线上化、移动化的“无边界”服务,全力拓展服务对象的数据触点,使得产品能够以极高的效率覆盖海量客户群体,并基于科技的发展与应用,推出更多、更便捷、更具创新性的业务模式;二是通过金融线上场景的结合,形成场景服务、线上消费、交易与金融服务的生态闭环,有效提升客户体验,为客户提供“不离场”的金融服务,从而提高客户黏性与综合价值;三是基于全流程客户旅程数据迭代构建AI算法中台核心能力,训练提升客户触点营销、场景秒批秒贷、交易用途管控、贷后资产管理等智能决策能力,打造数字化智能消费信贷服务。

二、消费信贷业务数字化整体解决方案

消费信贷业务数字化整体解决方案以移动互联网为载体,从全景数据、基础算法、模型能力、业务应用四个方面进行赋能,整合打通不同系统、平台间的基础数据和渠道埋点捕获的客户行为数据,打破数据孤岛,形成从客户旅程触点数字化、客户多维数据整合、客户行为偏好洞察、数字模型引擎和数字化应用合理切入客户旅程的数据闭环,构建全景数据、算法货架、模型引擎、应用组装和渠道对接体系,助力消费信贷产品的智能营销、智能运营和智能风控。

1.全景数据层

全景数据层主要通过融合的实时数据湖方案和数据治理方案,深入结合客户旅程场景,运用流批一体、联邦查询、统一元数据管理等技术,打通跨平台、跨系统数据链路,形成多维度、跨行业、跨场景的数据体系,实现包括实时数据在内的分析和处理,从而构建360°实时用户画像、产品画像、风险画像,主要包括以下几个方面:

(1)基础数据

最底层基础数据来自于客户信息、历史交易数据、埋点行为数据、人行征信数据、外部数据等,可以通过埋点、API对接、技术清洗等方式获得。

(2)数据质量验证

通过信息不对称偏差分析、交叉验证/逻辑验证等方式进行数据验证,从而避免数据被篡改和错误记录。

(3)数据清洗

数据经过抽取、清洗、转换之后加载存储为结构化数据或图数据,以便将信贷机构内分散、零乱、标准不统一的数据整合到一起。

(4)衍生加工

结合业务专家经验,以及各种数据变换加工的方式,把可能刻画用户的变量特征展现出来。

(5)变量组合

对转换的变量进行组合,这里以业务经验为主,也可以结合因子分解机等技术进行辅助,更多的是将非线性关系通过组合的方式进行提炼。

(6)特征工程

引入自动化特征工程,通过衍生加工和变量组合,构建信贷机构零售业务的通用特征库,丰富数据中台能力,为大数据分析、建模打下良好的基础。

2.基础算法层

基础算法层主要基于SAS/Python/Spark对常见的分析和挖掘算法能力进行封装,基于机器学习运维(MLOps)连接模型构建团队和业务运营团队,建立标准化的模型开发、部署与运营流程。同时,基础算法层还可帮助建模人员快速完成模型的训练、调优、上线,如通过分类、聚类、关联、统计、推荐、知识图谱、图像识别、文本挖掘来分析数据,构建信贷需求感知模型、欺诈模型、申请评分模型、风险预警模型、交易用途侦测模型等。

3.模型能力应用层

模型能力应用层结合不同模型的应用场景,通过对场景特征库和基础算法的封装,构建模型中台能力,主要聚焦在信贷需求感知、信用模型、团伙挖掘、风险预警、交易用途侦测等方面。

4.业务应用层

业务应用层基于实时策略引擎,结合模型算法和专家经验,设计构建评分模型和规则的决策规则集。在此基础上,信贷机构可围绕客户体验设计客户旅程,在整个流程中打通从数据、算法、模型到策略的应用闭环。

三、迭代构建智能风控算法核心能力

AI算法是消费信贷业务数字化解决方案的核心,覆盖了客户消费信贷旅程的各个节点。在信贷营销方面,可实现从需求感知、个性定制、智能推荐到精准触达的实时解决方案;在信贷风控方面,可覆盖信贷受理、授信申请、预授信额度、放款出账以及贷后预警的关键节点;在交易风控方面,通过连接渠道、打通数据,可实现事前预防、事中控制、事后分析的闭环管理。

1.AI算法部署场景

基于消费信贷业务全流程管控触点,AI算法分类及部署场景见表1。

同时,为实现与外部数据的合法合规共享流通,发挥数据价值,算法平台还需要提供隐私计算能力,在多个参与方不泄露数据前提下,即保持数据不透明、不泄露、无法被计算方及其他非授权方获取,通过联合计算的技术和系统对数据进行联合机器学习和联合分析,包括多方安全计算、可信计算和联邦学习等。

2.智能风控算法应用研究

以消费信贷申请反欺诈环节能力提升为目标,部署智能风控算法应用要点如下:

(1)用户真实性验证

识别用户真实身份是互联网信贷行为的基础前提,即确认“你”是“你”。一般会结合多种身份识别的手段,如身份证二要素(姓名和身份证号)、银行卡三要素(姓名、身份证号、银行卡号)、运营商实名、人脸识别等。其中,人脸识别主要使用了基于CNN的深度学习算法。

随着移动互联网的日益普及和黑产欺诈手段的不断升级,设备指纹也成为用户追踪的重要手段。设备指纹生成算法是指根据采集的数据,包括硬件信息、IP地址、GPS地址、网络类型等,利用一定的算法识别唯一设备,可分为主动式、被动式以及混合式设备指纹技术及算法。

(2)黑白名单

黑白名单是信贷机构最常用的反欺诈手段,但也存在黑名单数据不公开、数据未集中、获取难度大等行业痛点。区块链技术因其分布式架构、数字签名、不可篡改、可追溯、去中心化等特征,通过连通链上及链下的数据,可有效保障黑名单数据的安全共享和隐私保护。

(3)规则引擎

规则引擎是黑白名单的升级版本,规则部分来自专家经验,也可运用关联规则、交叉验证、图规则等基于历史数据进行规则的提炼。交叉验证应用了关键字提取、相似度计算、模糊匹配、错别字/同音字识别、文本分类等算法;树规则和图规则使用决策树、知识图谱算法进行规则抽取。

(4)有监督学习

有监督学习是目前应用最为广泛的反欺诈方法。一般将申请反欺诈定义为二分类问题,以申请人为粒度,融合申请信息、埋点的渠道和行为信息、征信信息、外部信息,以及基于关系图谱提取的各类图特征等共同作为属性特征,以此来训练并预测该笔申请属于欺诈的概率。

值得一提的是,欺诈样本的高稀疏性和共线性使得金融行业普遍使用的逻辑回归模型难以应对多变的欺诈行为,因此通常采用XGBoost、LightGBM等机器学习算法进行建模,以保证在泛化性、稳定性的前提下,模型取得较佳的效果,以应对欺诈的多样性和复杂性。

(5)无监督学习

通常情况下,信贷申请没有明显或足够的欺诈标签;即便有标签,监督模型也仅能检测到当时存在以及比较类似的欺诈,对于差异较大或从未见过的欺诈类型,模型预测效果较差。因此,实际业务一般不单独依靠监督学习模型来检测所有欺诈,常见做法是使用无监督模型,主要为异常检测。

异常检测通常也称为离群点检测,是找出与预期对象行为差异较大的对象的一种检测过程,其主要思想是基于样本(小群体)之间的相似度,常用的算法有Z-score、KNN、Local Outlier Factor、孤立森林等。

无监督算法应用于贷中交易反欺诈检测,通常还具备提前预警的优势。例如部分欺诈人员会潜伏一段时间再发起攻击,以免被侦测人员发现,而由于其在潜伏期的行为依然符合某种规律,具有某些一致性,所以同样还是会被无监督算法捕捉到。这也是无监督算法普遍应用于反欺诈检测的重要原因之一。

(6)网络图谱

从近年的欺诈案例看,不法分子的作案手段日渐呈现团伙化、专业化特征,基于“单点”的传统建模方法对团伙欺诈的覆盖度和准确性较低。知识图谱技术因其可视化和关系连接的天然优势,目前被广泛应用于团伙反欺诈的识别与防御。

知识图谱利用关系来描述各类数据间的团伙关联关系,通过数据清洗加工抽象进行团伙识别,其在信贷反欺诈领域常用的关联信息包括申请信息、渠道环境信息、征信信息、行内信息、资金流向等(如图1所示)。

在应用场景中,一是基于图谱可视化的关联分析,发现可疑对象后,主动分析探索关联的其他申请进件;二是利用图谱社群挖掘算法,寻找欺诈团伙并提炼规则完善行内规则库,常用的社群发现方法有Walktrap、Infomap、FastGreedy等;三是使用图卷积神经网络(GCN)等算法,从关系网络中抽取图表示信息,与结构化数据合并,构建反欺诈的监督学习模型。

以社区发现为例,如图2所示,图中左侧是正常用户的行为网络图谱,不同设备的行为是分散且不一致的;图中右侧是欺诈团伙的行为网络图谱,其设备行为呈现出高度的一致性和集中性。路径是利用样本间的传递关系从已标记的好坏(是否欺诈)节点标签信息来预测未标记的节点标签信息,可以使用标签传播算法(Label Propagation)、传染病学模型(SIR Model),以及概率图模型(MRF、CRF等),最终根据欺诈指标来判定其是否为欺诈团伙,比如团伙中整体逾期率,一度、二度联系人逾期,一度、二度联系人黑名单数量,团伙中是否命中黑中介等。

3.智能风控算法优化路径

为提升智能风控算法表现,可从特征工程、算法应用等方面进行优化,并提升算法应用的解释性。一是在特征工程方面,可引入时间序列数据、图数据及高维稀疏数据,使用合适的算法、模型构建时间维度特征、图特征、隐因子特征等,更好地表示业务逻辑;二是在算法应用方面,可结合具体数据和场景特点,研究多模型融合以及知识图谱、深度学习、图神经网络等前沿算法的应用,以提升模型表现;三是从模型可解释性角度,可使用局部图依赖、SHAP值等对模型和样本进行解释。

本文刊于《中国信用卡》2022年第4期

声明:本文来自中国信用卡,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。