编译|刘耀华 信通院互联网法律研究中心研究员

杨默涵 信通院互联网法律研究中心实习生

2021年7月15日,几位欧盟隐私保护专家针对欧盟立法中对于匿名化的不一致性做出了评判和分析,并为欧盟相关机构的下一步工作提出了意见。本中心对该报告进行了整理,具体内容如下:

欧盟《通用数据保护条例》(GDPR)是世界上最具有影响力的个人数据保护法之一,其在许多方面为全球组织如何实施数据隐私计划设定了标准。但是GDPR和以及其他相关的欧盟数据保护立法中存在一个核心问题:其中一项最重要的关于匿名化的条款规定并不是不明确。

GDPR将匿名数据定义为“与已识别或可识别的自然人的个人数据无关的数据”,即数据主体“不可识别或不再可识别”。符合此标准的数据可以不受GDPR的约束。但问题是,即使GDPR明确规定了匿名数据,而且欧洲数据保护机构几十年来一直在讨论匿名化问题,但目前还是不能真正清楚“匿名化”在实践中的真正含义。甚至监管机构也承认这一点,西班牙的数据保护机构Agencia Española de Protección de Datos 和欧洲数据保护监督员发布了一份名为“与匿名化相关的10个误解”的联合文件,以澄清这些问题。但总体来看,其仍然存在极大的不确定性。

一、欧盟的监管指南互相矛盾

2007年,第29条工作组曾经发表了一份意见,明确阐明了“匿名化”和“假名化”之间的区别,将假名定义为隐私保护和技术可逆,将匿名化定义为“可以通过一种不可能重新识别的方式来完成,例如通过单向密码术,通常会创建匿名数据。”但是后来第29条工作组在规定灵活性方面的问题凸显,当时明确的是只要采取“适当的技术措施”来防止数据重新识别,这些数据就可以被认为是匿名的。这在2007年发表的意见中被认为是合理的,并且符合其他匿名化标准。

2014年第29条工作组又发布了关于匿名化技术的意见,该意见颠覆了上述分析,并导致了欧盟匿名化标准在以后产生了重大混淆。特别是,第29条工作组重新审视了匿名化和假名化之间的区别,并宣称“一个明显的误区是将假名化数据视为等同于匿名化数据。”第29条工作组写道,假名允许可识别性,“因此应当遵守数据保护法律制度的相关要求。”

在第29条工作组新的分析中,匿名化和假名化之间的区别在于可重新识别的可能性——是否有可能从去识别化数据中获取个人信息。然而,一项又一项研究表明,完全匿名化数据几乎是不可能的,这意味着重新识别的可能性仍然存在。

第29条工作组列举了三种特定的重新识别风险:

·精准定位——在数据集中情况下定位个人记录的能力。

·可连接性——属于同一个人或个人群体链接的两个记录。

·推理——使用其他信息猜测或进行估计的能力。

第29条工作组表示,匿名化解决方案可以抵御这些风险,“对于数据控制者和任何第三方可能采用的最可能和最合理的方式进行的重新识别个人具有强大的抵抗力。”然而,当第29条工作组继续建议对原始数据进行匿名化时,问题就出现了:

“重要的是要了解,当数据控制者未删除原始(可识别)数据,并且数据控制者移交该数据集的一部分(例如在删除或屏蔽可识别数据后)时,生成的数据集仍然是个人数据。只有当数据控制者将数据聚合到无法再识别单个事件的级别时,生成的数据集才能被认定为匿名。”

也就是说,只有将数据汇总到统计数据并永久删除原始数据,才能够完全相信他们的数据是匿名的,因此超出了欧盟数据保护法规的范围。

欧盟监管机构在2007年和2014年的标准之间摇摆不定,一些监管机构表示,只要采取了正确的预防措施,重新识别的残余风险是可以接受的。但其他DPA如法国国家信息和自由委员会,在其指南中使用了更加绝对主义的语言。

二、监管机构能做什么?

下一步,为了完善对于匿名化、假名化的要求,解决不同指南中存在的冲突,欧盟可选择从以下方面解决问题。

(一)放弃匿名化并接受假名化

第一种选择是完全放弃数据匿名化的项目,简单地将所有去标识化数据视为假名。虽然假名数据不属于欧盟数据保护规定的非个人数据,但假名数据的合规负担可能要轻很多——假设处理目的是合法的,法律依据已经建立(或次要目的被认为是与初始目的相兼容的),并且数据控制者无法识别到个人(大多数个人数据相关权利并无必要行使)。

如何实施假名化技术的标准各不相同,但许多标准与欧盟以外其他法律框架下的匿名化做法重叠。例如,以下是欧盟网络安全局对假名技术的描述:

“假名化技术和策略的选择取决于不同的参数设计,主要是数据保护级别和假名化数据集能够发挥的效用存在不同。效用要求可能会导致假名实体采用不同方法的组合,同样,关于假名化策略,完全随机化的假名化提供了最好的保护级别,但阻止了数据库之间的任何比较。”

(二)认为重新识别的风险足够小

即确认数据被重新识别的方法不太可能被使用,呢么,问题就变成了,如何保证即便重新识别数据的风险仍然存在,但这些风险足够遥远,因此可以保证数据在较大程度上是匿名的。

2014年第29条工作组的指南中提到了联系上下文的重要性,并确认为了满足法律规定,“必须考虑‘所有’‘可能合理’的、被控制者和第三方进行识别的手段,特别注意在当前的技术状态下,最近变得‘可能合理’(考虑到计算能力和可用工具的增加)的可能性。”第29条工作组还表示,当无法采取基于缓解上述三种风险的方法时,基于风险的方法仍然是一种选择。

基于风险的方法意味着采用以攻击者为中心的匿名化定义,这在很大程度上与法律要求具有一定兼容性。事实上,法律规定更侧重于对控制者或其他人(即攻击者)合理的、可能使用的重新识别手段的评估。为了预测攻击者的行为,去标识化专家依靠风险模型来指导他们对数据和上下文环境进行评估。

(三)受信任的第三方

这一选择是依靠所谓的“可信第三方”或技术合作(TTP),可以帮助充当拥有原始数据的组织和寻求使用匿名数据的组织之间的中介。具体来说,当一方想要与二级组织共享匿名数据时,TTP可以实现“代理”交换,对原始数据实施去标识化技术,在与二级组织共享去标识化数据的同时,原始数据仍处于原始方的控制之下。

2013年,第29条工作组在关于目的限制的指南中描述了这种模式。其将TTP描述为“在许多组织都希望将他们持有的用于项目协作的个人数据匿名化的情况下”运行,这可用于“链接来自不同组织的数据集,然后为研究人员创建匿名记录。”

第29条工作组建议,引入第三方来执行去标识化并将原始数据分开,这似乎是实现匿名化的另一种有效方法。2013年的意见甚至描述了在这种情况下可以实现的“完全匿名化”的状态。2020年,英国ICO将这种类型的协议描述为“在许多组织都希望将他们持有的个人数据匿名用于项目协作的情况下,特别有效。”ICO不遗余力地描述了这种方法如何实现匿名化。

将第三方插入去识别化过程是支持匿名化个人数据的一种重要方式,并且可以在不同来源的数据汇集在一起时促进匿名数据的创建。

(四)新兴技术方法

上述所有匿名化现象的流程要求都很重要,但有一种方法可以简化和加速这些过程。这一方法依赖于一组新兴技术来进行自动化去识别化过程。值得注意的是,由于这些技术仍在不断涌现,并且还处在被证明过程中,因此尚不清楚它们在多大程度上能够符合欧盟框架下的匿名化。但是有明显迹象表明这些技术经得起监管审查。

以合成数据为例,它包括从一组样本数据中创建新数据,这些数据保留了该样本集中的相关性,但不重新创建任何直接标识符。特别是在医疗保健领域,合成数据的使用正在增长,这使得可以在不直接使用患者标识符的情况下从健康数据中提取相关的内容。事实上,法国数据保护机构CNIL将这样一种解决方案指定为GDPR标准下的匿名数据。该技术仍处于起步阶段,并不一定能消除所有重新识别风险,因此它在现实环境中的有用性还有待观察,但欧盟很多DPA表达了根据数据保护标准将此类数据标记为匿名数据的意愿。

差分隐私是一种数学隐私框架,也有望实现匿名化。该框架是一种通过随机化插入数据进行分析的方法,从而限制了任何攻击者可推断的个人信息量。美国人口普查局使用该技术来保护受访者的数据隐私。但欧盟DPA尚未正式就差异隐私发表意见。

综上,如果没有欧盟监管机构本身的进一步澄清,对于寻求遵守欧盟数据保护标准的实体来说,就没有一种万能的匿名化方法。但上述的许多具体选择和明确论据,使得这些实体可能用来从数据中获取价值,同时确保数据受到保护。

声明:本文来自CAICT互联网法律研究中心,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。