一个鲜为人知却可以保护隐私的数据训练方法：联合学习

来源：麻省理工科技评论

编译：stats熊

无论是国内还是国外，公众对隐私保护的意识越来越强烈。

尤其是医疗数据，因为大部分病人不愿意将自己的诊断结果等这类隐私信息拿出来，所以机器学习在疾病诊断和探索潜力被大大压制。

在2017年的时候，谷歌曾经悄悄的发表了一篇关于机器学习新方法的博客。

与常规方法需要把数据集中不同的是，新的方法会从多个数据源获取数据进行学习。这种新方法的出现，让谷歌可以不需要通过读取或者转移安卓手机用户的短信，就可以训练他们用在这些收发短信上的预测语义模型。

这是一个鲜为人知却可以保护隐私的训练方法。

数据不离开每家医院就可以完成整体模型训练，并且准确率可以媲美整合多家医院数据训练的模型。

尽管这种联合学习方式很聪明，但正如那些研究人员所言，这个在当时人工智能的圈子里并没有太多吸引力。现在，随着在全新领域得到应用，这种情况也将发生改变：这种隐私优先的方法将会是解决人工智能在医疗健康领域障碍的一针强心剂。

MIT计算机科学相关的副教授Ramesh Raskar，曾这样说过：“在病人数据隐私方面和数据对于社会的效用之间存在着一种错误的二分法，现在我们可以同时实现数据的隐私和效用，而数据就像脚下流走的沙子，人们完全察觉不到。”

过去的十年间，深度学习的迅速崛起引起了很多企业的变革。正是因为这种崛起推动了无人汽车的发展，从根本上改变了我们与设备交互方式，让我们对网络安全产生了新发明。在健康领域，尽管有许多研究表明深度学习可以探测和诊断疾病，但是利用机器学习来帮助真正的病人方面还是进展缓慢。

现在那些最流行的算法需要有大量数据做学习，在绝大多数情况下，越多数据算法的结果会越好。如果医院和研究机构想要有一个又大又多的数据资源池，那他们就需要把数据存储在一起。

特别在美国和英国，将那些掌握在科技巨头手中的敏感医疗信息中心化被多次证明极不受欢迎，而且并不让人感到意外。

因此，将人工智能投入诊断研究的眼界和适用性就变得十分狭小。你不能在全世界推广乳腺癌的探测模型，因为它只在来自同一家医院的几千名病人身上做过验证。

这些都会通过联合学习改变。这种技术可以用来自几家不同医院的数据，同时这些数据从来没有离开过医院环境或者触碰一家技术公司的服务器。

具体操作方式

这是如何做到的？首先在不同医院用它自己的数据训练出来不同的模型，然后把这些模型送到中心处理器并整合为一个完美模型。

当每个医院不停获取数据，通过把最新的完美模型下载到医院端，并将新数据导入，再推送回中心服务器。通过这样的步骤，新的数据不会被交换出去，被交换的只有模型，所以数据也不会被反向揭露。

联合学习面临的挑战

当然这种联合学习还面对许多挑战。其中之一，将几个独立模型合并成一个完美模型面临的风险，要比每一个单独的模型都要大。Raskar说，研究人员正在改善现有技术，以保证这类问题不再发生。

另一个挑战，就是联合学习需要每个医院有训练机器学习模型的基础设施和基本能力。同时，如何把从全医院收集来的数据进行标准化也是一大障碍。但是正如Raskar所说，“虽然说还有许多工作需要完成，但大多只是创可贴一样的修修补补”，没有什么困难是不能克服的。

其他隐私优先的机器学习

事实上，其他的隐私优先分布式学习技术已经可以解决那些问题。例如，Raskar和他的学生近期研究出了分离学习。在联合学习中，每个医院开始都是训练独立模型，但只仅仅训练半程。这些半成品模型之后被送往中心服务器去合并，同时完成训练。

这样做的优点可以减轻一些医院独立计算的负担。虽然说这个技术还是停留在概念证明阶段，但是先前的试验，让Raskar的研究团队同样也证明了，如果在中心数据池里进行训练，会形成一个接近于完美的模型。

少部分公司，包括IBM研究中心在内，正在推动联合学习在现实生活中的人工智能在医疗健康方面的应用。总部设在巴黎的Owkin公司，在Google投资公司的帮助下，开始应用联合学习来预测病人的抗药性和抗治疗性，同时观测他们在确定疾病下的存活率。

这家公司同时借助在美国和欧洲的癌症研究中心提供的数据来进行模型研究。公司创始人提到，合作的结果会被发表在一篇即将发表的研究论文上，是一个基于病人病理图可以预测一种罕见癌症存活率的模型。

Owkin公司联合创始人兼临床研究医生Thomas Clozel，这样说到：“我十分激动。现如今在肿瘤学最大的障碍就是知识。让我们感到非常兴奋的是现在有能力解锁这些知识，同时也可以在医疗领域开展创新性探索。”

Raskar相信这些在分布式学习应用将会远远拓展到医疗健康之外的企业，尤其是那些人们不想分享数据的地方。最后他总结到：“在分散的、缺乏信任的环境下，这种学习方法将会十分十分十分有用。”

欧盟开放数据发展对我国公共数据资源开发利用的启示