作者简介
吕博良 就职于工商银行业务研发中心,从事安全攻防研究工作,主要关注应用安全、智能反欺诈、AI安全等技术领域。
程佩哲 就职于工商银行业务研发中心,从事安全攻防研究工作,主要关注应用安全、人工智能安全、黑产防护等技术领域。
引言:
随着信息技术的发展,移动化数字化已经成为未来的业务方向,这些技术为我们带来便捷的同时,也引来了黑产及不法分子的关注,各类业务如何确保业务在高速发展的同时也能保证安全“不掉队”成为业界的首要难题。而以机器学习、神经网络为代表的人工智能技术的引入解决了这一难题,在各类安全、业务风控场景中实现了自动、高效的风险识别,因此,我们推出了“獬豸之眼——人工智能安全”系列文章,以獬豸辨别是非的才能,喻人工智能技术对威胁风险的识别,本次系列文章中,将介绍我们如何运用人工智能技术解决各位传统技术无法处理的安全问题、识别传统无法理解的风险,抛砖引入,为读者带来启示
注:獬豸(xièzhì),为中国传说中的神兽,性情忠贞,若见二人相斗,它就会以角撞不对的一方;见二人争吵则会去咬理亏者,因其与生俱有辨别是非,公正不阿的本能。
近年来,基于机器学习的大数据反欺诈风控技术迅猛发展,各行业头部企业在反欺诈风控领域取得长足进步。然而,在巨大的经济利益驱动下,黑色产业链的规模、手段、技术不断升级,金融行业反欺诈在与黑产的博弈过程中仍然面临以下困难:
一是中小银行普遍交易量少、科技实力不足,黑产样本不足及建模能力的缺乏,限制其反欺诈系统的建设,急需成熟反欺诈能力的支持。同时,由于机器学习的特殊性,一般科技企业的风控产品由于缺少银行数据,并不能有效解决问题,拥有大型银行那样的海量数据及反欺诈能力已成为很多中小银行的迫切需求。
二是针对电商、O2O交易的作弊行为日益猖獗,羊毛党利用代理IP、群控设备、自动化工具对这类企业进行刷单、秒杀等欺诈操作,破坏交易规则,严重损害了商家及平台营销效果。电商、O2O仅依靠IP、设备等订单信息进行反欺诈风控的难度较大,希望关联银行支付账户的信息实现完整交易环节的闭环监控。
三是随着黑产行业的智能化与集团化,各类欺诈手段的特征越发隐蔽,跨行业欺诈逐渐成为常态,单次欺诈行为贯穿社交媒体、银行多个环节,各机构基于自身数据无法应对,例如在社交欺诈场景中,社交企业侧掌握黑客针对用户的撒网、信任欺诈等行为的特征,银行侧则掌握受害者向黑客转账以及后续资金转移等特征,两方的特征均不足以对欺诈行为进行有效识别。
同时也要看到,在数据成为企业核心优势的今天,各企业更重视对数据资产的保护,这导致数据资产的输出与保护相互矛盾。国内乃至全球针对隐私数据监管的法律体系不断完善,由于反欺诈信息涉及大量隐私数据,使得企业间反欺诈协作难以开展,企业自身的大数据反欺诈风控能力也无法输出。
我国个人信息保护相关法律发展情况如下图所示。
我国个人信息保护相关法律政策发展情况
因此,反欺诈行业急需通过安全多方计算、联邦学习技术等前沿技术解决大数据能力共享协作与数据保护的矛盾,构建跨行业反欺诈生态联盟服务平台。
一、技术可行性分析
安全多方计算的概念于1982年提出,在此基础上联邦学习技术于2016年问世,并在2019年发布首个工业级技术框架。其中,安全多方计算技术实现了数据的加密共享,联邦学习计算框架又基于该技术,实现了在满足数据安全和监管要求前提下,机器学习模型的共建共享。目前此类技术已成为业界热点,其技术原理和技术方案如下:
1.安全多方计算
安全多方计算(Secure Muti-party Computation,简称MPC,亦可简称SMC或SMPC)是密码学领域的重要技术分支。安全多方计算在不泄露数据提供者原始数据的条件下,可以实现多个数据提供者在联合数据上进行协同计算,得到准确的运算结果。
安全多方计算问题首先由华裔计算机科学家、图灵奖获得者姚期智教授于1982年提出,经过三十余年的发展与丰富,已经成为现代密码学中非常活跃的研究领域。安全多方计算问题的数学描述为:
同态加密(Homomorphic Encryption)是一种解决安全多方计算问题的加密方案,能够在不解密的情况下,对密文数据进行计算。对经过同态加密的数据进行数学运算得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的,即对同态加密后的密文直接运算,跟对明文进行运算后再对运算结果加密,得到的结果相同。
同态加密技术实现了数据处理权与数据所有权分离,企业可以在防止自身数据泄露的同时,完成数据的运算处理。
同态加密分为半同态加密和全同态加密两种:
半同态加密函数指的是加密函数满足加法同态或乘法同态,其中,如果满足 f(A)+f(B)=f(A+B), 我们将这种加密函数叫做加法同态,加法同态只能进行加减法运算;如果满足 f(A)×f(B)=f(A×B), 我们将这种加密函数叫做乘法同态,乘法同态只能进行乘除法运算。
全同态加密函数同时满足加法同态和乘法同态,这个加密函数可以完成加减乘除、多项式求值、指数、对数、三角函数等多种加密后的运算。
2.联邦学习
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等其他算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。
根据数据提供者提供的样本和特征的重叠情况,可将联邦学习分为横向联邦学习、纵向联邦学习和迁移联邦学习三大类:
横向联邦学习也称特征对齐的联邦学习,适用于数据提供方的数据特征重叠很多,但样本重叠较少的场景中。在横向联邦学习过程中,各数据提供方联合具有相同特征的多行样本进行模型训练,即各数据提供方的训练数据是横向划分的,使得训练样本的总数量增加。
纵向联邦学习也称样本对齐的联邦学习,适用于数据提供方的样本重叠很多,但数据特征重叠较少的场景中。在纵向联邦学习过程中,各数据提供方先进行样本对齐,即找出共有样本,再联合共同样本的不同特征进行模型训练,使得训练样本的特征维度增加。
迁移联邦学习适用于数据提供方的样本和特征重叠都较少的场景。在迁移联邦学习的过程中,不对数据进行划分,而利用迁移学习来解决单边数据规模小和标签样本少的问题,从而提升模型效果。
下面以两个数据提供方(即企业A和企业B)共建机器学习模型的场景为例详细介绍联邦学习的工作流程。
该框架可扩展至包含多个数据拥有方的场景。假设企业A和B想联合训练一个机器学习模型,它们的业务系统分别拥有各自用户的相关数据,出于数据隐私保护和安全考虑,A和B无法直接进行数据交换,可使用联邦学习技术共同训练模型。联邦学习计算框架如下图所示:
联邦学习计算框架
(1)加密样本对齐
企业A和企业B采用非对称加密协议(如RSA加密算法等)在数据加密的前提下找到双方的共有样本。具体地,企业A和企业B对各自拥有的样本ID进行加密,得到样本ID的哈希(Hash)值,然后,将各自样本ID的哈希值利用非对称加密协议发给对方,以便对方根据哈希值确定样本ID的交集,确定出共有的样本ID。在整个交互过程中,没有明文数据交互,即使采用暴力或者碰撞的方式也无法解析原始样本ID,从而保护双方数据样本的差集部分。
(2)加密模型训练
在确定共有样本ID后,企业A和企业B分别在本地环境利用本地数据训练各自子模型,然后把子模型的中间计算参数(如梯度值、损失值)基于同态加密进行传输,多方子模型的中间计算参数进行聚合运算,得到联合模型的中间参数,最后再把更新后的模型参数更新到各数据提供方,反复迭代直至收敛完成模型训练。
以逻辑回归模型为例,企业A利用本地特征X1和X2进行训练,两个特征的模型权重分别为W1和W2,计算中间结果为:W1×X1+W2×X2;企业B利用本地特征X3和X4进行训练,两个特征的模型权重分别为W3和W4,计算中间结果为W3×X3+W4×X4。两家企业分别将中间结果和样本标签进行同态加密后传输到联合平台。联合平台将两方的中间结果进行聚合(W1×X1+W2×X2)+(W3×X3+W4×X4),得到模型预测值,然后利用损失函数对模型预测值和样本标签进行计算得到总损失。利用总损失,根据反向传播算法计算模型参数基于损失函数的偏导数,通过梯度下降迭代更新模型参数W1、W2、W3和W4。随后联合平台将更新后的W1、W2传输给企业A,W3、W4传输给企业B,两家企业利用更新后的模型参数重新计算中间结果,反复迭代直至收敛。
3.总体方案
依托安全多方计算及联邦学习计算框架,可实现跨行业反欺诈生态联盟服务平台的构建,平台主要由四大模块构成(如下图所示),控制模块和计算模块作为平台的“大脑”部署在企业,负责控制和计算,实现模型的融合共建,加密模块和学习模块作为平台的“手脚”部署在合作方,提供开箱即用的建模和加密服务。
技术方案示意
二、应用场景
依托联邦学习技术等前沿技术,可打通银行间、银企间存在的数据孤岛,基于金融特征、交易特征、行为特征和干系人特征等信息构建联合反欺诈体系,共同提升银行业和其他企业反欺诈能力,针对银行业当前面临的主要欺诈风险和联邦学习技术特点,工商银行安全攻防实验室对相关技术在反欺诈领域的运用进行了可行性分析,针对性地设计了三个主要的反欺诈场景,能够有效解决目前跨行业反欺诈的数据孤岛问题。
1.金融同业反欺诈
大型银行已具备成熟的反欺诈能力和金融数据样本,反欺诈服务平台保证在数据资产、模型资产不外流的情况下,将大型银行积累的欺诈黑样本特征如欺诈交易、欺诈账户、恶意设备等特征通过共建模型的方法向中小银行输出,一方面弥补了中小行欺诈样本少和反欺诈能力不足的困境,另一方面通过对同业欺诈数据的整合,将更多样的欺诈数据特征纳入共建反欺诈模型,提升了银行业反欺诈的能力。
2.消费金融反欺诈
针对羊毛党利用代理IP、群控设备、自动化工具对电商、O2O平台进行刷单、秒杀等交易作弊的攻击行为,仅依靠电商侧数据建模很难识别现在的羊毛党欺诈行为,无法进行有效防护和阻断。每一笔订单背后都需要银行卡进行支付,金融数据可以帮助电商从银行卡数据、支付数据、账户数据中挖掘羊毛党。可通过反欺诈服务平台实现消费交易数据与银行支付数据的联合建模,提高交易作弊反欺诈的精确度及时效性。模型可结合下单、秒杀环节获取的设备、行为、订单、物流信息和支付环节银行卡的开户、资金来源信息进行联合建模,实现消费支付环节信息的闭环,帮助电商提升反欺诈能力。
3.社交金融反欺诈
通过银行与社交媒体或电信运营商的联合建模,通讯企业提供社交行为数据如微信账号身份、收发短消息数据量、在线时长等,银行业提供电子银行账户身份、交易记录等数据,共同训练反欺诈模型对不法分子进行识别,弥补跨行业欺诈行为难以识别的痛点,更精准地发现不法分子欺诈行为。实现对黑产钓鱼撒网、社会工程诱骗客户、客户受骗转账支付、黑产资金转移等完整欺诈链条的反欺诈监控,提高网络诈骗风控的时效性及精准度,在欺诈初始阶段发现并及时拦截,一方面保护银行客户资金安全,另一方面实现与电信运营商及社交媒体的共赢,提升跨行业电信诈骗打击能力。
三、总结与展望
基于安全多方计算的联邦学习是目前处于互联网风口的前沿技术,将深刻影响大数据及反欺诈行业的生态及运作模式。随着数字化转型的不断推进,面对来势汹汹的网络诈骗犯罪,商业银行急需利用多方数据协同构建反欺诈风控体系,提升反欺诈能力,创造新的社会及经济价值。在此背景下,反欺诈生态联盟服务平台的方案设计切实履行网络安全法、数据安全法等法律法规要求,可有效避免中心化的信任问题,实现多方协同数据联合分析。
未来,随着反欺诈生态联盟服务平台的建立和完善,反欺诈生态中的各数据提供方无需将数据集中到一起,即可进行统一的建模分析,避免了数据在多方间的跨企业流动,继而解决各方之间互不信任的问题。在保护企业数据资产、满足数据隐私监管要求的同时,打通了金融、消费、运营商、互联网、政务数据孤岛,实现数据共享使用和反欺诈机器学习模型共建,共同提升反欺诈能力。
声明:本文来自FCC30+,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。