联邦学习技术发展研究及政策建议

摘自：《网络安全技术和产业动态》2021年第8期，总第14期。

中国网络安全产业联盟（CCIA）主办，绿盟科技集团股份有限公司供稿。

联邦学习（Federated Learning，FL）又名为联邦机器学习（Federated Machine Learning），是一种具有隐私和敏感数据保护能力的分布式机器学习技术。在联邦学习技术的应用中，有两个及以上的参与方，各个参与方之间不直接共享原始数据，而是通过安全的算法协议实现“数据不出本地域”的联合机器学习建模、训练以及模型预测。

联邦学习的概念最早由谷歌公司于2016年提出，原本用于解决大规模Android终端协同分布式机器学习和涉及的用户隐私问题。经过研究与发展，目前它不仅可应用在面向用户的移动终端场景，也可以扩展面向企业的多方的敏感数据共享场景。作为一种新兴的技术，它有机融合了机器学习、分布式通信、以及密码学与隐私保护理论。

一、技术发展情况

联邦学习技术发展的初衷是在保障各参与方数据保密和隐私保护的前提下，破除数据孤岛、加强数据流动与共享，通过机器学习结合同态加密、安全多方计算和差分隐私等多种密码学技术实现安全的联合建模与分析，最终使得各参与方共同受益，实现数据的最大化利用。

随着研究的不断深入，目前出现了多种联邦学习算法。从算法的框架与数据集来看，它可以分为三种类别：

（1）横向联邦学习（Horizontal Federated Learning， HFL），各方使用的数据集样本维度大部分是重叠的，但各方所提供的数据集样本ID是不同的。训练过程相当于将各方收集的数据样本进行横向“累加”，通过“虚拟的”样本扩展提高训练数据样本规模从而改进机器学习模型的性能。

（2）纵向联邦学习（Vertical Federated Learning，VFL），各方使用的数据集样本ID大部分是重叠的，但各方所提供的数据集样本维度不尽相同，即分别持有同一个实体不同属性维度的信息。训练过程相当于将各方收集的数据样本按照ID进行纵向的“连接”，通过“虚拟的”样本维度的关联与扩展，增强训练模型的预测性能。

（3）联邦迁移学习（Federated Transfer Learning，FTL），各参与方使用的数据集样本具有高度的差异，即样本ID以及样本维度仅有少部分重叠，且只有少部分的标注数，该协作训练过程中利用模型的迁移学习能力，进行标签的预测与回归。

在企业间联合机器学习建模场景中，HFL适合应用于多家企业业务较为类似，但用户群体不同的场景，如各个地级银行的联合风控建模；而VFL适合应用于多家企业业务不同，但用户群体有大部分重合的场景，如同一地级银行和保险公司的联合建模。在这三种联邦学习算法的框架中，通过密码学与隐私保护协议和分布式机器学习的设计，可实现线性回归、逻辑回归、决策树、随机森林和深度学习等联邦学习的算法模型。

二、技术发展难点

联邦学习技术目前已在工业界受到了很大的关注度，并在金融、营销等领域开始落地应用，但技术发展仍面临一些困难，包括：（1）原始数据加密处理及参与方之间交互轮数过多等原因，造成的联邦学习训练效率低下难题；（2）各参与方贡献数据的数据异构问题导致联合训练效果不理想难题；（3）联合建模中的个别参与方可能伪造数据进行“数据投毒”攻击，引发的数据可信性问题和建模结果不可用难题；（4）缺乏有效的激励机制促进各方积极贡献数据的难题，尤其是用户体量大的头部企业；（5）缺乏统一的联邦学习平台评测标准，导致评测各类联邦学习平台的安全性与性能较为困难。

三、技术产业落地情况

联邦学习作为工业界近年来的一大热点，国内外多家企业开展了探索，并且实现了一些商业落地案例。例如谷歌将联邦学习应用在Android手机的新闻推荐上、输入法Gboard，并推出TensorFlow Federated联邦学习开源框架；苹果将联邦学习应用在iOS 13跨设备QuickType键盘“Hey Siri”的人声分类器应用；Intel将TEE（可信任执行环境）技术与联邦学习进行结合；NVIDIA推出的NVIDIA Clara医疗联邦学习平台，将联邦学习技术应用在医疗领域。

国内的企业，如微众银行为代表将联邦学习应用在保险定价、图像检测等领域，并开源了联邦学习FATE框架；百度在自研开源深度学习平台飞桨（PaddlePaddle）基础上，推出了开源联邦学习框架PaddleFL，推动了联邦学习在计算机视觉、自然语言处理、推荐算法等领域的应用；阿里云利用联邦学习等隐私计算技术实现的DataTrust平台，已通过阿里云数据中台在“智能营销”“智能广告推荐”等场景进行落地实践；腾讯公司的安全联邦学习应用服务，目前也已在银行金融风控领域、信贷业务领域、反欺诈领域、反黑产欺诈领域等有实际项目落地。

总体来看，当前联邦学习落地项目中应用领域最多的三大方向为金融风控领域、广告营销领域、联合数据分析领域，其次是医疗领域、智慧城市领域和自动驾驶领域。

四、意见和建议

联邦学习是网络数据安全领域的前沿研究方向，目前仍处于初步发展阶段，面临诸多问题与挑战。针对联邦学习的技术研究和应用现状，提出以下三个方面的建议：

（1）在标准制定方面。一是积极推动联邦学习技术规范、实施指南标准的制定，促进联邦学习技术与应用的标准化、规范化；二是健全和完善联邦学习系统的性能测试标准与规范，逐步建立联邦学习的产品认证体系；三是建议主管部门设置安全评测的第三方，根据评测标准对联邦学习产品与系统进行安全评估与认定。

（2）在科技研发方面。鼓励开展产学研相结合，引导高校、研究院所、企业积极开展在联邦学习系统的通信优化、计算优化、算法模型、抗攻击能力和激励机制等关键问题上的技术攻关，力求达到国际先进水平，落地更多适用性场景。

（3）在产业应用方面。鼓励通过一系列成功项目的示范，促进和带动联邦学习在更多场景与领域的应用与发展。推动联邦学习技术开源，促进隐私计算生态的形成与良性发展。

声明：本文来自CCIA网安产业联盟，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

联邦学习技术发展研究及政策建议

迈向自动化渗透测试：引入大语言模型基准、分析与改进

从传统企业资产管理到CAASM

英国ICO报告：使用AI招聘工具的数据保护注意事项