天津金城银行风险管理部副总经理兼互联网金融部风险官 王劼
中小银行尤其是新成立的中小银行,往往面临市场定位、业务方向选择等问题。经营区域受限、传统业务市场竞争激烈等因素驱动很多中小银行把目光投向了互联网金融。但当接触互金业务时,中小银行又往往会面临获客、产品、风控、人才、系统等一系列问题。天津金城银行从自身条件出发,选择以联合贷款、助贷等间接获客方式的TOC资产业务为主,发挥银行在风控方面长期积累的优势,展开了有益探索。
风险管理是银行开展各项业务的根本,自然也是贯穿银行互金业务全流程的主线。因此,金城银行在涉足互金业务之初就坚持在市场调研、产品设计、增信措施、风控建模、全流程动态管理等过程中强调风控的重要作用。考虑到互金业务风控必须具有低成本试错、模型快速迭代的特点,在资产期限、笔均额度方面优选期限在45天至数月、笔均在数千元的短期、小额资产开展合作。在建模数据方面,采用对合作机构存量数据进行脱敏抽样的方式获得,一定程度上规避了自身数据基础薄弱的劣势。同时结合业务的开展,分期建设了一套完整的互金业务自动化风控体系,如图1所示。集合了行内懂业务、懂风控、懂数据、懂建模的人员,组建了一只小而精的建模队伍,所建模型的精度、稳定性、通过率均十分理想。
图1 金城银行互金业务自动化风控体系
风控模型效果
风控模型是实现互金业务高效自动化运行、风险可控的关键。以金城银行某联合贷款业务的信用审批模型为例,该环节将借款人划分为A、B、C类,分别进入不同的审批模型,实现了差异化的模型审批,每类借款人又对应1个生产模型的4个影子模型。审批环节15个模型的K-S值(用于衡量模型精度)基本在0.923以上,PSI值(用于衡量模型稳定性)则在0.06~0.000008之间,表现十分理想。同时,这套模型可以保持合作机构进件通过率高于80%,且将30天以上逾期从合作方进件原始状态的12%~18%降至1%~3%。此外,该套模型在建模过程中的人力、物力、财力和时间的投入也很小,中小银行完全能够承担。如表1所示。
表1 某项目差异化审批模型及影子模型风控能力
影子模型不参与实际信贷决策,在生产模型给出审批结果的同时,影子模型给出虚拟审批结果。系统定期将生产模型的审批结果、各影子模型的虚拟审批结果和贷款实际表现进行自动比较。当系统发现某个影子模型的虚拟审批结果已经在较长时间内稳定的优于生产模型,则自动向风控人员发出提示。风控人员考察后决定是否由该影子模型替换生产模型,或者进行其他调整。
建模流程及方法
1.深入了解合作方。建模工作从深入了解合作机构开始,将合作机构尽调、准入等传统银行风控手段与互联网思维风控结合。前者可以从合作机构的股东结构、经营历史、发展前景、业务模式、财务表现、合规性等方面进行考察。后者可以从了解对方获客渠道、风控流程、资产质量、可提供的各项数据入手。一方面为下一步设计有针对性的抽样方案做准备,另一方面也与传统思维的尽调结论相互辅证。
2.设计抽样方案。抽样方案要在考虑抽样误差和非抽样误差的前提下,根据合作模式、合作方可提供的字段及字段定义(包括可提供的全部自变量定义,以及对应不同建模目标的不同因变量定义)、建模目标而进行订制化设计,一事一议,不能照搬照抄。抽样误差的控制主要依靠两阶段抽样来实现,第一阶段抽取小样本(一般以千为数量级),由小样本推算总体方差,再结合预期的抽样精度来确定第二阶段样本容量,从而使抽样误差得到控制。非抽样误差的控制相对困难,需要抽样方案制订者具有较为丰富的抽样经验,并对抽样对象、建模目标有深入了解。抽样方案一般至少应明确:数据采集自合作方业务流程的哪些环节、抽样方法、样本详细需求、字段需求、数据覆盖的时间跨度等。在实际抽样工作中还要特别注意确保样本框无偏。
抽样为后续建模工作奠定了数据基础,同时也是银行了解合作机构真实资产质量、真实风控能力的关键。因此,除了抽样方案,一般还需要设计抽样实施方案,明确抽样实施的细节,以确保从合作机构采集到真实、全面、有效的数据。同时,考虑到数据的合规性,在抽样实施过程中,采集到的数据应由合作方进行脱敏处理并加密。
为了提高抽样精度,实际工作中都采用了分层抽样的方法。表2中的样本详细需求就是在深入了解合作方风控流程的基础上,有针对性地在其反欺诈环节、贷款审批环节、拒绝推断环节设计了分层抽样方案,抽取了6组样本。这6组样本将支撑后续的反欺诈、评级、差异化信用风险审批等全部建模工作。
表2 某合作项目抽样方案的样本详细需求
3.建模、投产及后续管理。建模流程包括数据清洗、变量处理和衍生、风险特征挖掘、样本分群、差异化建模、投产、管理等多个步骤。做好这些步骤不仅要求建模人员对数据和建模方法有透彻理解和实操经验,更要在金融产品和风控方面有充分积累。变量衍生以及基于风险特征挖掘的样本分群和差异化建模,往往会对模型效果起到决定性提升作用。
(1)数据清洗。数据清洗是对通过抽样获得的每个字段进行逐一考察和处理,包括数据缺失是否严重、数据分布(必要时进行分布拟合)、逻辑异常值、特异值。考察中发现的问题要深入挖掘,必要时要向合作机构再次了解其数据采集过程、数据定义等方面是否存在失误或双方理解差异。此外,还应考察自变量集合中是否存在对因变量解释能力特别强的“超级自变量”。在实际工作中,笔者曾经通过一个逻辑异常值发现:合作机构对该数据给出的定义与实际采集过程可能存在差异,最终合作机构通过回检确认了数据定义的失误。
(2)变量处理和衍生。不同的建模方法对输入变量有不同要求,要根据拟采用的建模方法对清洗后的变量进行差异化处理,以达成特定建模算法对输入变量的要求。例如,多元线性回归要求自变量独立同分布,且与因变量存在线性相关关系;而决策树、马尔科夫链就对变量的分布没有要求;有些算法则可能需要对输入变量预先进行标准化处理。
变量衍生是保障模型取得良好效果的重要因素。变量衍生可以分为四类,一是基于数理统计学的变量衍生,例如对清洗后的数据进行对数变换、指数变换、一阶差分、提取主成分等。二是基于业务逻辑的变量衍生,例如从“个人住房公积金”衍生出“月均工资”等。三是基于传统风控思维的变量衍生,例如从“授信额度”和“提用额度”衍生出“额度使用率”。四是基于互联网风控思维的变量衍生,例如从“借款人填报的工作性质”与“借款人手机活动范围”可以衍生出“活动范围与填报工作性质是否基本吻合”。初级的数据分析员可完成第一类的变量衍生工作,第二、三类变量衍生可由行内经验丰富的审批人员完成,第四类变量衍生需要由熟悉互联网业务、互联网风控和传统风控的人员完成。
(3)风险特征挖掘、样本分群、差异化建模、投产、后续管理。风险特征挖掘是对自变量集合进行分析,在各种变量维度或组合维度下,根据不同的风险特征将原始样本细分为若干个子样本群,并达成群内的方差尽量小、群间的方差尽量大的效果,也即各子样本群内的客户尽量具有相同的风险特征,各子样本群之间的客户尽量具有不同的风险特征,为下一步差异化建模打好基础。同时,对每个子样本群的自变量集合,都要通过相关系数矩阵、方差膨胀因子、IV等观察其多重共线性,必要时进行变量筛选或后续选择适当的建模方法,以减少多重共线性对模型的干扰。
目前建模工作中常用且实际表现较好的建模算法包括逻辑回归、随机森林、决策树、GBDT等等。每种算法都有其适用前提、适用范围、潜在缺陷。建模人员应在充分了解算法细节和特点的基础上,区别应用。对每个子样本群可以采用多种算法建模,产生多个模型,成为后续生产模型和影子模型的备选范围。所有备选模型还要经过可解释性考察以及压力测试,进而提交行内审批。最终选定每个子样本群的生产模型,准备投产,并开展投产后的全生命周期管理。
工作体会
一是互金业务风控建模并不神秘,建模人员队伍也可以小而精,但至少应具备四个方面的专业能力:懂业务、懂风控、懂数据、懂建模。二是传统的金融风控思维与互联网的大数据风控建模思维充分结合,才能建立优秀的模型。三是业务落地前的工作只是一小部分,正所谓“三分建七分管”。互金业务的大量后续管理工作难以手工完成,需要由图1系统自动化实现,包括投产后的合作机构监控、资产质量监控、模型效果监控、模型迭代等都需系统自动化完成。四是小额、短周期、间接获客的TOC资产比较适合中小银行试水互联网金融业务。五是互金风控要突出订制化,从抽样方案、建模、后续管理等都是一事一议,甚至是一时一议的。思想可以相互借鉴,但方案和模型不能照搬照抄。
声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。