摘自:《网络安全技术和产业动态》2023年第2期,总第32期。

隐私保护联邦学习(Privacy-Preserving Federated Learning)通过引入密码、差分隐私等安全技术来保护联邦学习中传递的数据和信息,以保护联邦学习中的隐私数据。

在联邦学习中,参与者尽管不需要共享训练数据,但依然要传递模型信息和训练结果用于全局训练。已有研究证明通过参与者传递的信息有可能推测出某条数据是否在训练集中,甚至还可能推测出参与者的隐私信息。为此,隐私保护联邦学习作为安全解决方案被提出。

隐私保护联邦学习提供了一种安全的协同工作方式,使参与者可以在不暴露隐私的前提下共享和利用数据,从而提高了数据的可用性和安全性。

0技术发展情况

联邦学习(Federated Learning,FL)是一种分布式机器学习框架。2016年,谷歌在开发输入法软件时,设计了需要采集用户输入的信息并进行机器学习,以便为用户提供更准确的语句补全能力。然而,采集用户的输入信息并传输到集中的服务器是不安全的,也不符合隐私保护规范要求,所以谷歌提出了联邦学习,这种方法不需要传输原始数据到服务器。

随着研究的深入,发现联邦学习并不能提供充分的隐私保护,攻击者可以采取推理攻击、重构攻击等方法来推断或获取隐私数据。

1.成员推理攻击:通过分析系统模型的输出来推测是否使用了某个特定的样本数据进行训练。如在医疗领域应用中,攻击者可以利用模型训练结果推断出特定用户是否参与了某疾病研究的训练。

2.属性推理攻击:通过分析模型的输出来推测训练数据中隐含的敏感属性。如在人脸识别领域中,攻击者可以利用属性推理攻击来确定某个人的敏感属性,如种族、性别等。

3.重构攻击:通过利用机器学习模型的输出或参数,推断出原始数据信息。攻击者可以使用反向工程技术(如生成对抗网络)分析模型参数并估计原始数据的可能性。如假设一个联邦学习模型旨在预测医疗图像的诊断结果,攻击者可能会使用已知的医学知识和一些反向工程技术来推断出原始图像,然后使用这些信息来破坏隐私。

如上所述,安全和隐私保护一直是联邦学习在发展过程中讨论的重要方向。隐私保护联邦学习作为安全解决方案被提出,从技术层面通常采用如下几种方式:

1.密码技术:加密通常是使用某种算法将可读信息转变为不可读的形式,之后过解密算法恢复其可读性。在联邦学习中,密码技术被用来保护训练数据或交互过程中需要传递的信息,其常用的加密算法包括传统加密算法、秘密分享、同态加密等。

2.差分隐私技术:差分隐私技术是联邦学习中最常用的混淆技术,其方式就是向数据中加入随机噪声以防止第三方推测出原始数据。混淆技术可以在保留数据统计特征的同时弱化了个体特征,从而达到了隐私保护效果。

3.安全多方计算:安全多方计算允许多个数据所有者在互不信任的情况下进行协同计算,计算过程中不会泄漏任何一方的隐私数据。

4.可信执行环境:该方法基于硬件构造一个可信执行环境,将隐私数据和需要保密的操作放在可信执行环境中执行,即利用安全硬件保证联邦学习本地训练的完整性和隐私数据的安全性。

在实际应用中,通常可以采取多种技术结合的方式来进行联邦学习中的隐私保护。如多方安全计算可以通过结合差分隐私算法来平衡效率和准确性,还可以结合可信执行环境从硬件层面达到隐私保护的效果。

0技术发展难点

随着隐私保护技术的不断发展,以及社会对隐私保护的重视程度日益增强,推动隐私保护联邦学习应用已成为共识,特别是金融、医疗等用户信息敏感行业的落地应用。但是,隐私保护联邦学习目前仍然面临一些技术难点,主要包括:

1.计算效率和通信成本高:联邦学习通常需要在多个设备之间的传递信息,而针对隐私保护的密码、多方安全计算等技术,会明显增加计算和通信负担,因此需要研究更加高效的安全算法和协议来降低计算和通信成本。

2.影响计算精度或准确率:由于差分隐私技术会向数据中加入噪声,可能会导致系统计算结果准确率下降,因此需要设计更加精准的噪声处理算法来保证计算精度和准确率。

3.缺乏有效的效果评估办法:在联邦学习中,数据集通常分布在不同设备上,对于隐私保护联邦学习算法的效果评估需要考虑不同设备上的数据贡献。同时,隐私保护技术会增加计算和通信的开销,也需要考虑评估的综合性和公正性,需要设计更加全面、有效和公正的效果评估办法。

0技术产业落地情况

目前,在github上开源的联邦学习项目已超过2900个,国外:如谷歌TTF、OpenMind社区PySyft、Intel OpenFL、FedML、Flower等;国内:如百度PaddleFL、微众FATE、字节跳动FedLearner、京东FedLearn、阿里巴巴达摩院FederatedScope、华为MindSpore Federated、矩阵元Rosetta等。

NVIDIA推出的Clara联邦学习,使用NVIDIA的EGX边缘运算平台进行数据存储和模型训练,通过安全链接与联邦学习中心服务器共享训练结果,由中心服务器对全局模型进行更新并与各医院服务器同步。Clara在保护患者数据隐私的前提下,助力于开发个性化的医疗AI应用。

由OpenMined社区开发的PySyft开源项目是一个基于安全和隐私保护的深度学习库,提供了包括联邦学习、安全多方计算(MPC)和差分隐私等多种隐私计算策略。

百度推出的飞桨PaddlePaddle(PaddleFL)基于自研的底层多方安全计算协议实现联邦学习框架,集成了密码学、联邦学习和可信执行环境等主流的隐私计算技术,助力于构建安全及功能完备的深度学习平台,当前已实际应用在安全医疗、安全巡检等领域。

2021年阿里推出隐私增强计算产品DataTrust,是基于可信执行环境、安全多方计算、联邦学习、差分隐私等技术构建,助力于构建数据安全流通解决方案,当前已实际应用在联合智能风控、广告搜索推荐等场景。

腾讯TEG提出的去中心化联邦学习框架PowerFL,其基于可信执行环境、安全多方计算、联邦学习等技术,目前已落地应用场景包括金融风控、智能终端等领域。

总体而言,各企业在构建联邦学习框架时都会将安全和隐私保护作为重要考虑因素,根据应用场景和需求采用不同的安全计算协议来保障用户数据的隐私和安全。隐私保护技术也为大规模的分布式联邦学习计算提供了安全防护,为用户提供了安全可信的计算环境及资源。

0意见和建议

随着隐私保护联邦学习产品逐步在各行业落地,其依然面临着来自技术、行业、政策等方面的考验,为此提出以下建议:

1.政策支持

主管部门在规划、计划和政策上支持助力隐私保护联邦学习的技术创新和产业发展。

2.协同攻关

鼓励政府、高校、企业等共同开展专项课题研究,推动高校及社会各企业对隐私保护联邦学习技术难点的攻关。

3.指导应用

指导典型行业、重点领域开展隐私保护联邦学习的试点示范应用,推广成功经验,普及成熟技术。

中国网络安全产业联盟(CCIA)主办,北京百度网讯科技有限公司供稿。

声明:本文来自CCIA网安产业联盟,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。