本文选自《交易技术前沿》总第四十五期文章(2021年6月)
陈镇光、丁一 / 国信证券股份有限公司
邮箱 :chenzguang@guosen.com.cn
一、概述
联邦学习的概念在2016年由谷歌率先提出,最初用于解决安卓手机更新本地模型的问题。而近年来随着各个国家对个人隐私和数据安全的重视逐步提高,联邦学习作为机器学习和隐私计算的结合体,为解决数据孤岛问题开辟了一片全新领域。在医疗、金融、零售等领域逐渐涌现出了一些很有价值的应用场景,有部分场景已进入具体的落地应用阶段;在业界也出现了支持联邦学习架构体系的工业级开源框架,如FATE(Federated AI Technology Enabler)。
作为金融行业数字化转型的践行者,国信证券走在探索科技改变金融的道路前列,积极投入探索联邦学习在证券行业的应用,期望更好的支持未来证券业务的发展。联邦学习是否有价值,主要取决于它的关键应用场景。本文结合国信证券的研究和实践,重点介绍了联邦学习在证券行业可行应用场景的探索。
二、什么是联邦学习
当多个数据拥有方想要联合他们各自的数据训练机器学习模型时,传统做法是把数据整合到一方进行训练。然而该方案由于涉及隐私和数据安全等合规问题通常难以实施,于是联邦学习出现了。它是指在进行机器学习的过程中,各参与方可借助其他方数据进行联合建模,并且各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。
因此,联邦学习总结起来具有如下3个方面的特点:(1)分布式计算,各参与方地位平等。(2)原始数据不出库,减少了数据泄露的风险。(3)模型共享,各方都可以从训练的结果中获益。
从联邦学习的特点我们可以看到它的核心用途是通过分散的数据进行联合训练,以解决本地数据不足的问题。所以它特别适合如下的应用场景:
(1)某些行业或者公司本地数据量很少,但仍想应用先进的人工智能技术。现实中除了有限的几个行业外,更多领域存在数据有限且质量较差的问题,不足以支撑人工智能技术的实现或者实现的效果不佳,于是它们可以考虑借助外部的数据来达到目的。
(2)不同的机构为了获得更多的收益,有意愿推动数据做联合训练。例如在产品推荐服务中,产品销售方拥有产品的数据、用户购买商品的数据,而第三方支付公司有用户购买能力和支付习惯的数据,于是两家公司为了共同的利益可以进行数据的联合训练。
(3)数据源之间存在难以打破的壁垒。在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、法律法规、行政手续复杂等问题,即使是在同一个公司的不同部门之间,实现数据整合也面临着重重阻力。
三、联邦学习的应用方式
根据多方数据集的用户、特征重叠量的不同,可以将联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习(如图1所示)。
图1:联邦学习的分类
横向联邦学习应用于用户交叉不多、特征重叠较多的场景。例如一家券商在不同地区的两个分支机构,或者两家不同区域的地方性券商,他们服务的是不同的客户群体,但客户的金融属性大致相似。纵向联邦学习则应用于特征重叠不多、用户交叉较多的场景。例如服务同个地区的券商和通信运营商,他们的客户必然会有很多的交叉,但由于业务领域不同他们拥有的客户标签属性也会有很大不同。而联邦迁移学习是应用于用户和特征的交叉都不多的场景,例如一家中国的银行和一家美国的互联网公司,各自的用户群和用户特征都不太相同。
3种不同类型的联邦学习所采用的应用方式各不相同。目前生产中的应用主要还是以纵向联邦学习为主,因此下面以纵向联邦学习为例介绍它的应用方式,主要分为以下几个步骤(如图2所示)。
图2:联邦学习应用步骤
第一步隐私求交,就是双方在不暴露各自数据的前提下,通过加密标识对齐共有的客户,这些客户的数据就是后面训练的原始数据。
第二步隐私特征处理,利用同态加密等技术,在保证双方数据不泄漏的情况下,实现特征相关性分析、特征权重分析、特征预测能力分析,抽取出原始特征后再通过特征的组合、特征升维等衍生处理生成目标特征。
第三步就是最重要的联合建模,原始数据都在各自本地,每一轮迭代都要交换中间的梯度数据,同步更新各自模型参数。目前的实现方式中大都需要借助中间的控制结点完成一些控制指令的汇总、分发。
最后输出一个联合模型,根据这个模型,双方都可以应用在自己的业务场景中。
四、国信的试点应用
联邦学习在证券行业目前还没有先驱应用,但它显现出来的价值是非常明确的。国信证券正在尝试营销领域的试点应用,包括以下的场景。
(一)基金推荐
在财富管理领域,基金代销是其不可或缺的重要组成部分。国信的金太阳APP中就为客户提供了大量的代销基金产品。但面对海量的产品,客户往往无从下手。因此我们要从客户的角度出发,帮助客户挑选适合自己的理财产品。
传统的做法更多的是不管什么类型的客户都为其推荐收益率最靠前的基金,达到“吸引眼球”的效果。但这种方法往往不能带来高的转化率,因为没有考虑客户的风险偏好等因素,客户往往并不买账。
另一种逐渐流行的方法是引进AI技术,通过对券商自有数据进行分析形成客户画像和基金画像,再结合个性化推荐算法,能够为不同客户推荐更匹配自身投资需求的产品,达到了一定程度的“千人千面”的效果。但券商自有的数据毕竟有限,无法覆盖客户离开自家APP后的行为方向,也无法覆盖非自家客户的潜在客户,因此客户画像的精度和广度具有一定的局限性。
联邦学习为券商的AI画像技术打开了另一扇大门。
图3:联邦学习在基金推荐场景的应用
国信证券拥有客户的账户、交易,以及基金的资料等数据,能够对客户的购买能力、基金的特性等进行画像。而互联网公司拥有客户上网的行为数据,能够刻画用户的爱好和习惯。例如客户在搜索引擎中检索的关键字反映了客户某个时刻的关注点,通过收集客户的检索信息可以挖掘客户短期或长期的兴趣爱好;又比如通过收集浏览器数据,分析那些经常浏览金融、财经网页的人群,因为他们相对来说有更强烈的投资需求。
因此,通过结合这两类数据进行联合训练形成联合预测模型,能够达到任何单独一方无法取得的模型精度,从而能够为客户精准推荐更加合理的理财产品。
(二)休眠户激活
国信对休眠户的定义是指年手续费低于一定阈值的客户,这些客户虽然已经开了户但并不能为公司带来价值。根据统计,休眠户的数量随着整体客户数量的增加而呈每年上升的态势。如何充分挖掘这部分客户的潜在价值,是每家券商都需要面对的难题。
这个问题之所以难以解决,一方面是因为这部分客户的基数往往不少,远远超出了营销人员的覆盖能力,全部进行激活的成本太高;另一方面由于休眠客户的交易不活跃,公司内部缺乏有效的支撑数据去分析客户的意向。因此,一般的做法都是基于一些专家规则挑选出部分客户去做营销。但由于针对性不强,营销的效果往往并不理想。
国信正在尝试的解决思路,是通过采用联邦学习的方法,借助第三方通信运营商的数据来补充本地数据的不足,从而对客户进行更精准的分析。
图4:联邦学习在休眠户激活场景的应用
如果一个客户在国信内部看来处于休眠状态,但在国信外部却经常存在跟金融相关的网上行为,例如打开证券或银行APP、浏览金融理财的网页等,说明他很可能是可以被激活的潜在客户,这时候我们就可以加紧对其做针对性营销。通过引入这种外部的相关数据进行联合建模,预测每个休眠户是否仍存在理财投资的意向,并对其进行打分排序,精准定位出潜在人群,从而提高营销的投入产出比。
五、存在的问题分析
联邦学习作为最近几年兴起的一项新技术,不可避免的存在一些仍待解决或优化的难题,例如:
(1)模型训练时间比较长。训练时由公司A训练出部分结果,B训练出部分结果,再进行参数的交换,相比本地训练多了几次外网的交互。如果A的数据量较大,或者机器设备较差导致训练较慢,这时B需要等待;反过来也一样。因此,每一轮迭代时间延长了,而一个模型的训练需要成千上万轮迭代,这将导致训练时间大大延长,影响机器学习的效率。
(2)系统复杂度比较高。参与训练的相关方之间存在强依赖的关系,只要有一方出问题,整个训练流程就会被阻塞。如果涉及三方、甚至更多方的联合训练时,系统将更加复杂,因为它是一个网状的互联结构。这就涉及到网络的稳定性、异构系统的高可靠、分布式系统的故障排查等问题;参与方越多可能越增加系统的脆弱性。
(3)隐私问题。尽管联邦学习的目的是解决多方协同中的隐私问题,但目前的技术还难以做到百分之百规避隐私问题。例如在隐私求交时,双方通过加密ID的碰撞,能够知道对方的部分用户列表,尽管原始数据并没有暴露,但这也限制了某些敏感场景的应用。
六、总结和展望
联邦学习的用途是非常明确和有价值的,因为数据孤岛已经越来越成为制约人工智能全面爆发的瓶颈。因而,很多科技公司都纷纷布局并参与其中,逐步把联邦学习推向更加成熟的应用模式。国信证券率先在证券行业开展联邦学习应用的研究和实践,通过尝试新技术与现有业务的结合,用科技来改善业务效果,甚至期望在未来开创新的业务模式。可以预期的是,未来很多场景将需要行业共同参与和培育,才能发挥更大的价值,就像区块链的应用。
联邦学习的应用场景跟区块链中的联盟链有异曲同工之处。区块链是用去中心化、防篡改等技术实现数据的静态共享,而联邦学习则是用去中心化、隐私保护的技术实现数据的动态协同。随着这两项技术的快速发展,未来很可能走向融合,将数据共享的应用场景推向更加广阔的空间。
参考文献:
Yang Q, Liu Y, Chen T, et al. Federated machine learning: Concept and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2): 1-19.
声明:本文来自上交所技术服务,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。