文 / 浙商银行数字化改革推进办公室主任 董佳艺

浙商银行科技部 钟礼斌 吕龙 张益维 

随着银行业数字化转型的深入,数字化金融服务已与人们日常生活深度绑定,服务门槛降低、覆盖面迅速扩张,使得金融数据资源呈现爆炸式增长态势。如何妥善管理海量数据资源、深入挖掘数据价值并赋能业务成为银行数字化转型进程中面临的重要课题。大数据、人工智能等技术为银行数据治理、数据分析、数据应用提供了丰富的技术工具,成为银行提升营销、风控等领域业务效率的关键手段。

作为人工智能的重要应用之一,知识图谱在关系识别、关系挖掘、关联分析等方面具有天然优势,能够更好地赋予人工智能理解数据、发现关系、形成认知的能力,从而对数据进行更为深入地分析与展现,为上层决策提供更科学、更有前瞻性的参考,近年来成为银行等金融机构的技术创新热点。尤其在风控领域,以知识图谱为核心的大数据风控体系能够帮助银行精确识别企业复杂关系、分析群体特征、进行风险预警与评估,为银行提升风险防控能力、提高风险管理精确性和效率提供技术支撑。

数智风控应用的挑战

银行业数字化转型进程中,风险管控一直被视为重中之重。风险管理涉及金融服务、产品创新、运营管理等方方面面,风险控制则在反欺诈、反洗钱、信贷风控等外部业务和运营风险排查、内控合规、招投标风险监测等内部环节发挥重要作用。随着金融科技的发展,部分银行致力于探索打造可以涵盖各类交易的风控体系,以增强对各类风险的预防、控制、管理。然而,银行传统风控体系普遍存在信息不对称、成本高、时效性差、效率低等问题。

一是数据管理使用困难。金融领域数据存在典型的“4V”特征,即数据海量(Volume)、多结构多维度(Variety)、价值巨大(Value)、及时性要求高(Velocity)。一方面,银行内部大量PDF、图片格式的非结构化金融数据未得到有效利用,分散在不同业务系统中的金融数据缺乏全局整合,难以治理。另一方面,多源、异构的银行外部数据难以有效与内部数据进行关联整合、适配,导致数据使用、分析效率低下。

二是复杂关系缺乏挖掘。传统关系型数据库对数据中实体关联关系分析的效率极低,往往采用迭代等方法进行层级计算,面对具有海量、多维度、高频次等特点的金融数据,计算难度呈指数级增长。技术层面的缺陷导致隐藏在数据中的深层次复杂关系难以被挖掘,难以应对相应潜在风险。

三是关系风控不够深入。在使用关系型数据库的情况下,传统风控体系难以对个人客户、企业客户的关联关系、潜在关系进行深入分析,导致客户关联风险难以被发现,当相关风险被风控系统捕获时往往已经过长时间的发酵。关系风控的薄弱使得传统风控体系面临风险发现滞后、缺乏风险提前预警能力的难题。

知识图谱赋能下的数智风控

知识图谱、大数据、人工智能等技术的综合应用为解决传统风险管控难问题、加速风控数字化转型、打造智能风控体系提供了技术支持与解决方案。浙商银行于2018年开始研究知识图谱技术应用,并率先将其应用于风控核心业务领域,通过打造基于知识图谱的大数据风控体系,提高风控的数字化、智能化、自动化程度,提升风控效率。

一是利用知识图谱在知识融合、关系表达方面的优势,对内外部数据进行全面的知识提取、整合、积累,打造全行级知识管理网络。通过基于Caffe深度学习框架的OCR引擎处理非结构化金融数据,提升数据治理能力;通过LTP、BERT等NLP技术对海量内外部金融数据进行清洗,抽取实体、关系与属性,形成统一、简洁的知识图谱;通过图谱构建技术对知识图谱进行集合、关联、补全,打造覆盖全行各条线、部门、业务的知识网络,形成数智大脑。

二是构建图分析挖掘算法,结合特定业务场景建立风控模型。在全行级知识管理网络的基础上,基于图挖掘算法,针对客户准入、尽职调查、不良预警、催收等各类风险场景搭建风控模型,从复杂的关系网络中挖掘特定风险图结构模式,从而识别潜在风险。在图分析、图机器学习等算法的帮助下,知识图谱能够大幅提升关联关系、关联交易、拆分转移等交易风险行为的识别及时性与准确性。

三是打造数智风控能力,提升风险发现与风险预警水平。基于行内、行外、同业共享数据建立覆盖个人客户与企业客户的全面关系风险管理网络,利用NLP等技术实时获取公开风险事项,并通过深入的知识图谱关联关系分析挖掘风险事项与客户间的潜在关系,实现智能化、自动化的风险发现,从而大幅提高风险预警能力,提升风控效能。

基于知识图谱的大数据风控实践

浙商银行综合应用知识图谱、人工智能、大数据等技术推出金融知识图谱平台,基于工商、监管、征信、舆情等外部数据以及行内业务数据,自主构建了涵盖自然人、公司客户、个人账户及集团关系、股权关系、担保关系、资金关系等20多种实体类型和关系类型的金融知识图谱,打造了基于知识图谱的大数据风控体系,为风控全流程中客户准入、关联关系、客户画像、预警管理、反欺诈等环节与功能提供数据和技术支撑。

金融知识图谱平台于2018年11月上线,2023年上半年已受理数千万次大数据风控请求。在客户准入方面,超4.8万笔客户风险分类由系统自动认定,同期占比92.2%,大幅减轻分支行人工认定风险工作量;在反欺诈方面,通过团伙等级、特殊名单评分卡等图分析反欺诈模型,完成了超过1900万次反欺诈识别,核实并成功劝阻风险交易307笔、近2.9亿元;在风险预警方面,通过关联分析、风险发现能力产生超140万条预警信号,实现了78%的风险提前预警率与55天的平均提前预警时间,大幅提升了风险提前预警能力。

浙商银行金融知识图谱平台由数据平台、AI支撑平台、知识图谱平台和图谱应用层组成(平台架构如图所示)。数据源包括工商、监管、征信、舆情等外部数据以及行内业务数据;数据平台采用了包括分布式数据平台、数据仓库、流计算平台等大数据技术,对数据源中的非结构化数据进行识别、提取与加工;AI支撑平台采用了标注管理、机器学习模型、NLP分析引擎等AI技术,为知识图谱提供图关联分析、路径查询、优先遍历、图特征统计等图分析引擎;知识图谱平台包括图谱构建模块和能力封装模块,为上层应用提供图谱服务;图谱应用层则与风控、反欺诈、营销、搜索推荐等场景密切连接。

图 浙商银行金融知识图谱平台架构

经过不断的迭代更新、数据补充,浙商银行金融知识图谱已达10亿级节点和关系规模,支持20余种图算法,具备亿级别规模图计算能力,技术指标处于业内领先水平。

银行业金融知识图谱应用思考

金融知识图谱在当前风控场景中的应用取得了良好成效,其未来的迭代创新应用还需持续提升、不断精进。

一是加强数据治理,提升图谱质量。构建知识图谱的过程本质上是对各类底层数据进行梳理和融合,通过本体建模将数据整合为结构化。因此,底层数据的质量决定了知识图谱的质量,知识图谱的应用成效依赖于底层数据的治理程度。在金融知识图谱的应用过程中,应加强底层数据治理,为构建高质量知识图谱打下坚实的数据基础。

二是打通多源数据,多跨场景应用。目前大多数金融知识图谱在单一场景中进行应用,难以向多跨场景金融应用进一步推广。一方面,多跨场景涉及业务范围广,本体建模难;另一方面,多源异构数据的识别、提取、清洗、标注、治理难。因此,应加强跨业务条线金融科技专家人才培养,深入NLP、深度学习、知识融合等技术研发,加强图谱构建能力,打通多源数据,构建多跨场景图谱应用。

三是提高技术能力,支撑规模图谱。受制于图数据库性能、存储能力等,大规模知识图谱往往面临图查询效率低、并发低等问题,限制了金融知识图谱的应用规模。在后续迭代过程中,应深入技术研发,进一步提升技术能力,加强知识图谱性能与大数据并发能力,实现百亿级知识图谱构建。

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。