本文节选自《金融电子化》2018年5月刊

作者:中信银行  吴毓毅 王晶 裴云龙

行业背景:随着信息技术的发展以及金融环境的深刻变化,人工智能技术已广泛应用于金融领域。其中基于机器学习的生物识别技术因其良好的客户体验,被广泛应用于各种业务场景,开启了金融智能化、移动化的新时代。面对新技术带来的服务模式的变化,以客户体验为重的银行业也纷纷引入生物识别技术,在安全可靠和用户体验方面,生物识别技术发挥了传统核身手段所无法比拟的优越性,并逐渐被应用到远程开户、转账取款和支付结算等金融场景。

当前问题:创新技术的引入在提供更便捷服务的同时也带来新的问题,比如安全与客户体验如何平衡、客户生物特征信息如何保护传输存储安全等等,这些都是在应用生物识别技术时需要考虑的。

应对措施:中信银行完成了企业级生物识别平台的构建,提供人脸识别和语音识别服务能力,用于各类用户服务场景,并取得了良好效果。在确保安全性的基础上让生物识别技术更好地服务于业务。

中信银行生物识别应用状况

目前,我行已经完成了企业级生物识别平台的构建,提供人脸识别和语音识别服务能力,用于各类用户服务场景,取得了良好效果。具体的实践场景包括基于人脸的身份认证应用、基于人脸的身份鉴别应用和基于语音识别的分析应用。

基于人脸的身份认证方面,平台已经集成了业内主流厂商的1:1的人脸识别能力,柜面、智慧柜台、手机银行、信用卡营销移动端等所有涉及客户身份核实的开户、转账的风险场景已全部覆盖。

基于人脸的身份鉴别方面,平台目前已经集成了主流厂商的1:N的人脸识别能力,采用了GPU设备进行开发部署,并完成了10万量级的人脸生物信息库建设。目前主要应用于我行的网点智能机器人项目,可用于实现VIP客户身份的自动识别,提升网点的智能化水平和客户服务质量。

基于语音识别应用方面,平台目前已经集成了两家主流公司的语音识别能力,初步实现了离线和在线语音转译服务,后续将根据呼叫中心智能语音分析系统客服通话质检和智能客服的实际需求进行性能扩展,提供基础支撑能力。

生物识别平台架构简介

图1是我行的企业级生物识别平台架构。生物识别平台内部集成了多种生物识别引擎、生物特征信息库等能力,对接入系统提供统一标准输入/输出接口,为上层身份鉴别、数据分析、人工智能等业务需求提供能力输出。另外,为使生物识别平台在能力扩展方面具备更加灵活的特性,适应技术快速更新迭代的变化带来的挑战,我们对平台的应用架构进行了分层设计,具体如下面图2所示。应用架构由接入层、控制层和能力层构成,通过三个部分之间的有机结合,形成一个完整的服务链路。

图1   生物识别平台系统架构

图2  生物识别平台应用架构

基于我行生物识别平台的系统架构和应用架构,我们在设计和实际应用中进行了如下关键技术点的设计与实现:

1.建立多维度的生物信息库

随着业务量的增长,每天会有大量的业务场景使用到人脸识别和语音识别,会产生很多的有价值的数据。为保证客户生物特征的一致性以及数据的安全存储,我行以企业级生物识别平台为基础,基于大数据技术设计了统一的生物信息库,对客户的各种生物特征信息进行集中存储和管理。这样可以避免不同业务系统独立存储相同客户的生物特征产生的数据冗余,将来不仅可用于为外围业务系统提供统一的、基于多样化生物特征的身份认证和身份鉴别能力输出,同时也可为后续识别模型持续优化提供训练数据。对于人脸识别,我们还可以结合银行的客户信息,从生物信息库中定期提取更新贵宾客户图片信息,生成贵宾客户人脸特征库,为厅堂机器人识别VIP客户提供身份鉴别能力。

2.整合多样化的生物识别能力

不同厂商提供的生物识别解决方案大多是一体化的,会把全部的功能封装为一个黑匣子产品。虽然这样看上去便于集成,但是后续升级、维护和变更都存在隐患。而且,银行出于系统运行风险的考虑一般会引入多家厂商确保业务连续性,多产品的引入又使各接入系统的开发工作变得更加复杂。我们的做法是,一方面通过对厂商产品进行模块化拆解,只保留其核心的识别模块,并将其融合到生物识别平台的能力层;另一方面通过标准接口屏蔽各自差异性,为多个应用提供统一、集中的生物识别服务。这样既可以发挥银行应用集成能力强的特点,也可以充分利用不同厂商的技术优势,实现银行最大程度的自主掌控,便于长期的发展和维护。

3.验证人脸识别最佳辨识阈值

人脸识别系统是根据识别引擎对比图片得到的分值来辨识图片的相似度,进而确定是否通过身份识别。该分值一般厂商会给出基于其内部测试数据的建议阈值。在我行业务实际应用过程中,我们会根据我行已有数据,判断该阈值的准确性和可用性。我们要求误识率要达到万分之一,亦即10000对不是同一人的图片对中,机器误认为同一人的样本数为1。具体做法如下:

首先从生产上选取1000对正样例图片,通过两两交叉比对,产生1000000个比对结果(其中正样本个数为1000,负样本个数为999000,万分之一误识率下允许机器误认的个数为99.9);然后从负样本最高值往下数,选取第100条数据对应的人脸比对分数。若该分数同厂商提供的阈值分数差别不大,则可认为厂商提供的阈值设定合理,否则需要同厂商沟通查找问题原因,优化识别模型,以达到最佳的应用效果。

4.采集高质量的人脸图像数据

人脸信息采集是人脸识别中重要的一项技术环节,与周围环境、影像采集技术等多方面因素密切相关。在应用过程中,我行通过对识别失败的生产数据进行分析,发现多数为采集影像时逆光、光暗等原因导致。针对这类问题,我行对采集条件可控的环境(比如柜面、智慧柜台)进行实地考察分析,通过采取遮光、调光等措施提升采集图像质量,极大提升了人脸识别的准确性。同时还研究了HDR图像采集技术,HDR是指摄像头以不同的曝光度采集多张影像,然后再利用算法将这些照片合成为一张照片,确保在逆光以及弱光环境下图片质量的技术,对该技术的运用目前尚处于研究阶段,还未投产应用。

取舍和平衡

生物识别技术作为一种安全技术手段,在为银行带来创新应用和为客户提供更加便捷服务的同时,必须要考虑易用性,关注客户体验。系统的安全性和易用性好像跷跷板的两端,安全性提高易用性则会降低;反之,易用性提高则安全性会降低。本节将从这两个角度分析如何保持生物识别本身易用的同时又确保其安全性。

 1.客户体验和安全性的取舍与平衡

随着人脸识别技术的广泛应用,针对该技术的攻击手段也层出不穷,例如通过人脸照片、模型面具、录像视频等手段进行假冒身份攻击。为了确保身份验证的安全性,在采集影像时一般会增加活体检测,确保是对真人操作,具体的方法包括人机互动(例如张嘴、摇头、眨眼之类)、红外双目摄像技术等。活体检测技术是提升了安全性,但是另一方面人机互动降低了客户体验,红外双目技术需要特殊的终端设备提高了使用的门槛。我行通过分析不同业务的应用场景和特点,做了不同的应用设计,以期达到客户体验和安全的平衡,具体方式为: 

(1)对于类似柜面这种现场交易场景,人脸识别只是作为辅助柜员对客户进行身份验证的手段,取消活体检测的功能,简化客户操作;采用自动照相方式获取客户现场照片并通过质检,降低了柜员采集影像的难度。

(2)对于类似智慧柜台这种半自助的交易场景,一般机器都是部署在网点且有厅堂柜员,受到照片、面具等攻击的可能性不大。所以我们采取了减少人机动作交互的次数,例如原来需要做点头、摇头、张嘴、眨眼等动作,调整为只做一个眨眼的动作。这样一来可以降低交易的复杂性,二来也不会让客户觉得过于傻气,影响客户体验。

(3)对于类似回单机登陆这种非金融交易场景,对安全性要求不强,我们采取的是合理降低阈值分数,注重于提高客户体验。

(4)对于类似手机银行转账这种金融交易场景,易被攻击,对安全要求高。我们正在研究通过增加炫彩活体验证、音视频结合验证等技术方式提高认证的可靠性,另一方面是将人脸识别仅作为一种辅助的认证手段,同时通过交易限额方式控制风险。

2.成本和收益之间的取舍和平衡

创新技术的引入和基于新技术的平台架构设计都需要考虑建设成本,同时,为确保生物识别技术的长期可用性,还需考虑模型优化等运维成本。针对以上问题,我行在部署生物识别平台时采用以下方式在不影响客户体验前提下最大限度的节约成本:

(1)GPU和DOCKER相结合的高可用部署方式

 生物识别技术是基于神经网络的机器学习算法,计算过程非常消耗CPU资源。考虑到GPU技术适合简单重复的,有大量并行计算需求的场景,我行研究了通过GPU技术提升人脸识别引擎的单机性能的可行性并进行初步实践验证,发现采用GPU技术确实可以大幅提升人脸识别的效率。但是GPU造价昂贵,全部采用GPU设备构建集群成本高。生物识别平台作为基础应用服务系统,除了要考虑性能之外,还必须考虑部署的灵活性,支持快速弹性部署。所以我们采用了GPU设备和DOCKER集群联合部署的方式,对于需要高计算能力的人脸识别身份鉴别服务使用GPU服务器部署,对于语音识别以及人脸识别身份认证服务采用DOCKER容器技术实现高性能和易扩展,通过快速增加和减少容器实现集群节点的弹性伸缩容,应对业务峰值突增的场景。

(2)自建语音识别模型优化训练系统

目前各厂商提供的生物识别技术都是基于深度神经网络(DNN)实现,需要针对具体业务场景数据进行大量的模型训练才能达到一个较好的识别效果。人脸识别模型复杂度高,样例数目庞大,因此模型训练需要搭建上百台GPU设备,以完成近百层深度神经网络的训练,同时人脸特征与银行具体业务关联性小,银行完全可以使用厂商定期优化的通用模型。但是对于语音识别模型,因语音与银行的业务密切相关,且随着业务的变化语音模型的识别效果会降低,故需要通过持续的优化训练来提高识别效果。语音数据涉及银行敏感信息不能提供给厂商做模型训练,所以我行采用的是自建语音识别模型优化训练系统的方式,来保持对模型的持续优化,同时解决敏感信息泄露问题。图3是语音模型的优化流程,优化后语音识别准确率可提高5%~10%,达到85%以上。

图3  语音识别模型优化流程

生物识别技术的未来

根据前瞻产业研究院发布的统计数据显示(详情可参见《2014-2018年中国生物识别技术行业市场前瞻与投资战略规划分析报告》),2007年至2013年六年期间,生物识别技术的全球市场规模年均增速为21.7%,这在全球大部分行业增长率不到5%的对比下实属罕见。2015年生物识别技术全球市场规模将达到130亿美元,2020年将达到250亿美元,5年内年均增速约14%。生物识别技术的应用前景可以说是非常光明,应用的广度和深度都将不断扩大。在安全性和扩展应用方面,未来可能会向以下方向发展:

1.软件硬件结合,提升生物识别安全

生物识别技术涉及生物信息的采集、传输、特征提取、存储等环节,每个环节被攻击都可能会带来安全隐患。因此,生物识别过程中需要确保原始信息是从活体人现场采集、确保信息在传输中不被篡改和替换、确保后端特征提取算法的可靠和数据的存储安全等等。目前,这些环节从原理上都存在被破解的可能性,未来需要采用软件与硬件相结合的方式来实现全链路的安全保障,提供更加安全可靠的身份验证服务。目前IFAA联盟(互联网身份认证联盟)正在推行包括硬件芯片在内的一整套利用生物识别进行身份验证的体系。

2.生物数据挖掘,发现潜在客户需求

生物识别技术的数据源为非结构化的生物特征信息,其中有些信息可以被以结构化的方式进行解析。比如客服语音,将客服录音文件转译后的文本存储于大数据平台,可将非结构化的语音数据转化为可分析的文本信息。然后再使用大数据技术进行数据挖掘,发现潜在客户需求,为业务人员推广营销提供导向。

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。