作者:上海浦东发展银行信息科技部 徐宏杰 陆燕

当前,浦发银行正全面推进数字化转型,构建数据驱动的经营体系。数据驱动能力提升对数据治理提出了更高的要求。良好的数据治理能够打通企业内部数据壁垒,全面提升数据质量,支撑业务创新发展,加速数据价值释放。随着大数据技术在商业银行的广泛应用,数据作为基础性战略资源的地位日益凸显,但大数据的“4V”特性(巨量性、多样性、快速性、低密性)给传统的数据治理带来挑战,催生出大数据治理,而大数据治理的难点在于非结构化数据的治理。

商业银行非结构化数据主要来源于日常与客户相关的经营活动,如客户在办理业务时产生的身份核查信息和业务凭证影像;客户在购买理财产品、远程开户时按监管要求进行“双录”产生的音频和视频;以及银行系统内记录的日志文件和市场调查等非结构化数据。随着数字化转型战略的实施,客户旅程分析、数据驱动网点重构、智能风控等举措相继落地,需要使用情绪识别、生物识别、OCR、智能语音等AI技术对客户的生物特征、影像资料、语音等非结构化数据进行加工处理,实现“千人千面”客户营销、智能的投资顾问、基于知识图谱的风险共同体识别等应用,这在客观上也对非结构化数据治理提出要求。

2018年5月,银保监会发布了《银行业金融机构数据治理指引》,不仅强调数据质量与安全等方面的治理,而且重视数据应用与数据治理互相促进,通过数据驱动发挥数据价值。本文基于浦发银行现有数据治理成果,探索了非结构化数据治理的方法和实践。

一、非结构化数据治理体系

非结构化数据与业务流程中产生或使用的结构化数据密切关联,例如,一张业务凭证的影像是非结构化数据,但影像中的具体业务要素,如账号是作为结构化数据存储在关系型数据库中的,因此非结构化数据治理与结构化数据治理密切相关,是建立在传统的数据治理基础之上的;从非结构化数据生命周期来看,非结构化数据的产生、应用是与特定的业务场景相关联的,如一段客服中心的音频数据可以从投诉、咨询、电话营销等业务场景中产生,因此非结构化数据治理应该是业务驱动的,即采取业务驱动的数据治理方法。非结构化数据治理框架如图1所示。

图1 非结构化数据治理框架

经过十余年的持续建设,浦发银行已建立较为完善的数据治理体系,包括明确数据治理组织架构、开展十大领域数据管理、发布各项规章制度和管理流程以及优化数据治理支撑工具,同时将现有的数据治理模式延伸并覆盖到非结构化数据。业务驱动是推进非结构化数据治理的关键,具体内容包括:以业务流程为主线,根据业务场景开展非结构化数据治理;发挥现有的集中作业优势,使用先进技术手段将非结构化数据转换为结构化数据,重点解决业务主数据的一致性问题;设计非结构化元数据模型,创新应用人工智能的信息提取技术,解析不确定、不易获取(如影音、视频)的非结构化数据内容;建立非结构化数据资产目录,形成业务人员能看懂的数据地图,实现非结构化数据资产业务价值。

二、非结构化数据治理方法

非结构化数据的格式非常多样,标准也是多样的,而且在技术上非结构化信息比结构化信息更难标准化和被理解。例如,一张汇款凭证影像作为非结构化数据存在两类数据标准:一类是影像本身的标准,必须达到200DPI以上(业内实践标准),否则无法进行自动验印;另一类是凭证承载的业务要素,如账号、金额等也必须遵从数据标准。同时,非结构化数据治理是基于Schema on Read的模式,即在采集各类非结构化数据时不需要定义各种数据库对象。这就导致非结构化数据在“本体”描述方面,即数据本身的定义和格式上无法清晰描述,因此需要为非结构化数据提供分类、语义支持。

目前,业内权威的数据管理理论模型在具体到非结构化数据治理的实践方面,仅具有一般性的指导意义,距离治理的落地实施还有一定的差距。笔者团队通过基于非结构化数据在数据获取、数据存储、数据应用等方面的调研,从实际业务场景出发,归纳总结实际操作过程中的经验和教训,提炼出非结构化数据治理的方法。

1.以业务流程为抓手,在场景中进行数据治理

由于非结构化数据与结构化数据有着紧密的联系,如客户贷款申请的影像资料必然关联一笔贷款业务,需要遵从会计凭证档案管理的相关规定;同时这些影像资料如营业执照、会计报表等记载了丰富的客户信息和财务信息,通过大数据分析,可以从中识别出客户的经营状况、企业间的关联信息,用于担保圈风险识别。因此,需要在业务分析场景中提炼出关键数据,与客户数据进行融合,再以数据服务的方式为全行提供服务,通过开放银行API服务的方式为合作生态圈提供服务。考虑到非结构化数据的海量性且治理成本较高,因此必须在业务流程中识别出业务价值较大的主数据进行治理,获取最大的投资回报。例如,如果客户在柜面填写业务凭证时不规范,账号、户名等主数据超出填写框格,凭证影像在后台集中作业中心进行切片录入时出错,将导致业务处理失败。因此,需要从数据治理的角度提出操作规范,柜员应在审单时严格遵照填写标准。

2.转换为结构化数据,利用现有数据治理成果

结构化的数据可以在现有的数据治理体系下清晰地定义数据项的数据标准和数据质量标准。但非结构化和半结构化数据无法采取同样的方式进行精细化描述,需要将非结构化数据转换为结构化数据,才能进行数据标准及数据质量管理。例如,在银行业务流程中各类单据、凭证等可以用数字文件的形式呈现,对于凭证影像可以由集中作业中心进行录入,或使用机器人流程自动化(RPA)技术进行手写识别并转换为结构化数据;对于音频文件可以采取语音转换技术提取信息,转换为结构化数据后,再利用现有的数据标准及数据质量标准进行治理。

3.创建结构化元数据,实现非结构化数据共享

结构化数据的元数据模型包括业务、技术和管理属性信息,如业务含义、数据结构定义、管理部门等。对于非结构化数据,由于无法用固定的格式组织和定义,不能使用软件系统直接解析数据所需的形式语义,需要借助AI技术转化为人工或者机器可以解析的内容。因此,需要单独设计非结构化数据的元数据模型,包括文件类型、文件格式、文件内容描述、业务类型、内容要素、所属业务部门等属性信息。在元数据基础上,构建非结构化数据资产全息视图,将数据融合到数据资产管理中。通过对非结构化数据资产进行智能化标签标识和管理,提高搜索灵活度和数据资产的业务易用性,便于非结构化数据资产多维度的监控和价值评价,实现数据共享。

三、非结构化数据治理应用

非结构化数据治理的目的是为了消除信息孤岛,提高数据质量,共享信息资源,更好地探索大数据背景下的数据应用,其业务价值体现在许多场景中。

1.智能贷款风险识别

利用自然语言处理技术,从客户的贷款申请资料、工商注册信息、客户的资金社交圈等文本数据中提取特征信息,构建风险共同体数据、复杂循环担保信息、可疑交易对手信息,在此基础上通过建立社交网络分析模型,筛选出预警客户名单,全面掌握风险信息,追踪风险成因,及时把控影响。

2.数字人客服

浦发银行通过智能客服“小浦”打造“浦发大脑”语言与听觉中枢,实现电话银行基于自然语言的人机智能产品推荐、业务咨询等智能场景化服务,并具备快速自学习及迭代优化能力,确保“人机交互”服务体验与服务质量持续提升。目前,浦发银行语音识别率超95%,智能客服服务占比85%,达到业内领先水平。

3.智能内审

对于需要人工查阅的非结构化数据,如合同、内部公文制度以及人民银行和银保监会发文等,在海量、复杂非结构数据背景下,传统的审查方式需要大量的人工查阅工作,效率低下。利用自然语言技术归类整理文本资料、挖掘审查要点,可形成包含标题及核心内容简练报告,实现文档归类。这一过程替代审阅人员完成资料初步整理工作,简化了大量而繁复的阅读过程,可以让审阅人员快速抓住重点,工作效率得到显著提高。

综上所述,商业银行可基于现有的数据治理体系,依托数据智能技术,进一步完善非结构化数据治理机制。在确保数据质量、安全的基础上,积极探索非结构化数据在业务智能化上的应用,能够帮助银行进一步实现数字化转型。同时,人工智能和机器学习将广泛应用于大数据治理领域,通过将认知智能(自然语言处理、知识图谱)、感知智能(语音识别、图像识别)、计算智能(大数据分析、深度学习)等智能化技术嵌入数据治理工具中,提升数据治理工具易用性,助力商业银行高效、便捷地开展非结构化数据治理工作。

本文刊于《中国金融电脑》2023年第2期

声明:本文来自中国金融电脑,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。