From Knowing by Name to Personalisation: Meaning of Identification Under the GDPR

从知道姓名到个体化:GDPR下识别的含义

本推送基于该文献的SSRN版本;其正式发表版本为:

Nadezhda Purtova, From Knowing by Name to Personalisation: Meaning of Identification Under the GDPR, International Data Privacy Law (2021).

作者信息

Nadezhda Purtova

Tilburg University

UVT·Tilburg Institute for Law,Technology,and Society "TILT"

Nadezhda Purtova是蒂尔伯格大学(Tilburg University) 助理教授,是著名的数据保护学者,研究领域涉及数据保护、社会化媒体、云计算、信息技术、数据安全、信息隐私、社交网络分析、信息社会、隐私法等。她的代表作包括《个人数据中的财产权:欧洲视角》(Property Rights in Personal Data: A European Perspective)。

文章背景

识别(identification)既指识别某人的过程,也指已识别的事实。它将个人数据(即与已识别或可识别的自然人相关的数据)与非个人数据分离开来,从而触发《一般数据保护条例》(GDPR)的适用。尽管识别在欧盟数据保护体系中发挥着核心作用,然而在数据保护法和学术界却一直是一个被忽视的主题。什么是识别?GDPR下的识别又应该如何理解?作者在本篇文章中对此进行了深入研究。

文章结构

本文整体上采用“总-分-总”的结构,共分为五个部分。

第一部分,作者揭示当下数据保护法律和学术界关注的焦点集中在“可识别性”概念上,对识别的含义阐述不充分和不明确,但由于可识别性是从识别的基本概念中派生出来的,因此任何关于可识别性的论证如果没有建立在对识别性的充分理解上,都可能是空洞的,进而提出“GDPR下的识别应该如何理解”的问题

第二部分,作者介绍了三种GDPR之外的识别的含义和社会技术方法,分别为Leenes的识别四重分类、Marx的身份认知的七种类型以及Nissenbaum的匿名信息的不可接触性,在整合三种观点的基础上,提出了一个综合的社会技术性身份识别类型,并将个体化(personalisation)作为一种新的识别模式

第三部分,作者介绍了第29条工作组对识别的非约束性解释,即将一个人从一个群体中区分出来,并从直接识别与间接识别、客观识别与相对识别的角度阐明了GDPR下识别的法律含义

第四部分,首先,作者通过Bodil Lindqvist案和Breyer案,阐明欧盟法院在适用识别的概念时的不同态度;其次,作者基于数据保护的有效和全面保护原则对Breyer案重新进行场景化解读,否定了Breyer案对识别的限制性解释,强调应对识别进行广义的解释,并将所有识别类型纳入GDPR

第五部分,作者讨论了识别的广义解读对数据保护实践和研究的影响,包括GDPR对新的数据技术和实践的适用性(如面部检测和基于非跟踪的目标广告),对某些隐私保护技术的影响(如群组的联合学习),以及明确定义数据保护法的目标的必要性。

主要内容

与个人相关的信息技术促进数据保护并要求明确数据保护的边界,识别的重要性不言而喻。尽管识别在欧盟数据保护体系中发挥着核心作用,但法律和相关学者的关注点主要集中于“可识别性”,“识别”一直是一个被忽视的主题。可识别性的含义是一种识别可能性,其含义来自于识别的含义,如果对识别理解不到位,任何关于可识别性的讨论都有可能是空洞的。那么,我们应如何理解GDPR下的识别?

/01/

GDPR外识别的含义和社会技术方法

(1)并列的识别类型

学者Leenes将识别概念化为一个过程或事实,即“在一组主体(身份识别集)中被个体化”,并区分了四种身份识别类型:查找型(look-up),辨认型(recognition),分类型(classification),会话型(session)。

学者Gary Marx提出了一种称为“身份认知”的社会身份类型(即匿名的反面),这种“身份认知”包含七种类型,能够反映可识别性的程度,分别为法定名称、可定位性、可以与法定名称和/或可定位性相联系的假名、不能与其他类型的身份认知相联系的假名、模式认知、社会分类、资格/无资格型符号。

学者Helen Nissenbaum没有直接讨论识别的含义,但她关于匿名的含义和价值的研究对识别的概念化产生直接影响。Nissenbaum认为,传统意义上匿名的价值是确保不可接触性,即确保当一个人以某种方式行事时,没有人会找到他并“要求解释、道歉、回答、惩罚或付款”。因此,如果匿名被理解为不可接触,那么识别就相应地可以被理解为某人被接触的过程或事实。

上述关于识别的三种观点都反映了与词典中的识别含义相一致的理解,即识别是区别某人的过程或事实。参照Nissenbaum的研究,Leenes和Marx关于识别的理解实际上隐含着一种独特的识别类型,即把一个人从一个群体中区分出来。这就是个体化识别。

(2)新的识别类型:个体化识别

个体化可以通过多种方式实现。例如,基于该个人显示的将其与这些类别联系在一起的特征,个体化可以通过实时地将个人(例如网站访问者)置于多个已知或未知的静态或动态类别中来实现,而不考虑之前的任何交互。

个体化作为一种识别模式,是分类实践向算法分类转变的产物。通过在多维空间中对多个维度或轴进行分类(其中一个维度可以是该个体的个人属性或周围环境的属性),从而实现个体化识别。个体化与分类是不同的,分类本质上是将一个个体放在一个或多个由更多个体(俄罗斯人、荷兰人、25岁的人、金发或黑发)组成的盒子中,个体化则是使用差异化隐私的术语。虽然许多人可能表现出相同的特征,并位于一个或多个轴上的同一点上,但使用的特征轴越多,共享轴上相同位置的人就越少,特征描述就越接近于唯一。

在通过个人设备进行交互的在线识别的环境中,通过独特的辨认或会话标识符(如IP地址、cookie或独特的设备号)进行个体化身份识别是常见的。并且,无论是在网络环境还是非网络环境中,个体化识别是独立于查找标识符和辨认标识符而存在的。然而,在撰写该论文时,由于数据处理活动的不透明性,作者难以用更多的现实生活中的例子来说明这一点,因此尚不能确定这种新型个体化识别类型在实践中的应用程度。不可否认的是,随着“隐私保护技术”对查找和辨认标识符日益增强的关注,独立于查找型或辨认型识别的个体化识别很可能成为日益流行的获胜策略。

/02/

第29条工作组对识别的广义解释

GDPR并没有直接定义识别。GDPR中与识别唯一相关的规定是第4条第1款对个人数据的定义,即“个人数据”指的是任何已识别或可识别的自然人(“数据主体”)相关的信息;一个可识别的自然人是一个能够被直接或间接识别的个体,特别是通过诸如姓名、身份编号、地址数据、网上标识符或者自然人所特有的一项或多项的身体、生理、遗传、精神、经济、文化或社会身份。

第29条工作组(The Article 29 Working Party, WP29) 通过了关于个人数据概念的非约束性建议(WP136),针对识别提供了一些解释,即“一般来说,当一个自然人在一个群体中该群体的所有其他成员‘区别开来’时,可以将其视为‘已识别的’”,以及“当该自然人虽然尚未被识别,但可以识别时,该自然人是‘可识别的’”。由于个人数据的概念没有发生重大变化,而且新成立的欧洲数据保护委员会(相当于第29条工作组的职能机构)尚未发布自己的GDPR具体指南,因此,该建议在GDPR下仍然具有重要意义。

作者指出,需要更多关注的是WP29对直接和间接识别的理解,以及因此而导致的一个人直接和间接被识别(或可识别)的情况。WP29认为一个人可以直接或间接地被识别或确认。换言之,个人数据定义中的“直接或间接”适用于已识别以及可识别的自然人,而不仅仅是后者。

一个人是否被识别出来,在很大程度上取决于具体的场景。例如,在一个国家的范围内,即使是一个普通的名字,也可能不足以识别到某一个特定的人,但在一个教室的范围内却可能据此识别到某一个特定的学生。在前一种情况下,额外的信息,如地址和出生日期,可能对间接识别是必要的。同时,一个本来不具有唯一性的标识符,例如一个人穿着黑色的西装,可能会成为唯一的,从而足以在特定的环境中直接识别一个人,例如,在没有任何额外信息的情况下能够将一个人与站在交通灯前的人区分开来。因此,直接识别是指在不需要其他信息的情况下,可以通过姓名或其他唯一标识符识别一个人,即与群体区分开来。而若可以通过一个完整的非唯一标识符的独特组合区分一个人,或者这种独特的标识符的组合是不完整的,并且需要额外的信息才能区分一个人时,该个体是可以间接识别的。

在作者看来,虽然工作组没有详细讨论,但识别的唯一性问题对于理解GDPR下的身份识别的含义是很重要的。识别可以是客观上唯一的,即另一个人拥有相同识别属性的机会为零或者接近于零;识别也可以是相对唯一的,即一个识别属性可能不是世界上唯一的,但在一个群体或样本中是唯一的。工作组似乎采用的标准是相对识别,这是由于工作组强调具体的场景对识别的重要意义。

作者认为,WP29的身份识别方法确保了GDPR的广泛应用,因为它涵盖了本文提出的整个综合识别类型。举例来说,通过某人的设备的MAC地址来追踪其设备,至少在追踪期间,这构成了对被识别者的个人数据的处理,如果MAC地址是静态的,则这属于辨认型识别;如果MAC地址是动态的,则这属于会话型识别。使用丰富的数据集针对个别网站访问者定制内容,就是在数据集使用时以个体化识别方式处理与已识别自然人有关的个人数据。这是因为,显示不同于其他网站访问者的定制内容,构成了对当时访问网站的群体中的某个人的接触或区分。

类似地,使用丰富的数据集(本地存储在用户设备上或以其他方式存储)对个人进行唯一描述,以便将其归入更大的类别,这构成了个体化识别,因此,即使这些个人后来被视为相同的群体,也会处理与已识别个人相关的数据。谷歌提出的FLoC跟踪(Federated Learning of Cohurs)似乎就是这种情况,它可以替代基于兴趣的广告中的第三方cookie的跟踪。虽然其想法是“在人群中隐藏个人”和“使用设备处理在浏览器上保持个人网络历史的私密性”,以形成具有相同兴趣的群体,但这项技术仍然需要使用丰富的浏览历史数据,在多维空间中映射每个个体以查看它们如何相互连接。

/03/

Breyer案关于IP地址的场景化解读与数据保护原则

作者指出,关于识别含义的判例法非常有限,且没有定论。在Scarlet诉SABAM案中,法院判定互联网用户的IP地址是受保护的个人数据,因为它们“允许用户被精确识别”,这可以被解释为:IP地址背后的计算机用户可以被识别,IP地址是标识符;计算机用户可以被识别,因为IP地址使识别有合理的可能性。在Breyer案中,法院特别关注了“可识别”的含义。在Breyer一案中,法院判决IP地址与已识别的自然人无关,而是与可识别的自然人有关,支持对可识别性标准的广义解释,从而支持对个人数据概念的广义解释,总的来说,Breyer案是欧洲数据保护法的一个积极发展。然而,Breyer案在确立身份识别的含义和被识别的自然人的含义方面的作用仍然没有得到足够的关注。

在作者看来,必须根据数据保护法的目的来解读Breyera案的判决,以确保对数据主体的有效和全面的保护。作者对重述了Breyera案,认为IP地址提供了一个与正在浏览网站内容的个人的直接联系,在这种情况下,网站访问者在会话识别的意义上被动态IP地址所直接识别一旦会话结束,互联网连接中断,保留的动态IP地址就不再指向网络上的一个特定节点,与访问者的直接联系被切断了。因此,对Breyer案的这样一种场景化解读不会影响第29条工作组将身份识别理解为“将个人与群体区分开来的有效性”,并保留了GDPR的广泛适用性。这种解读不仅是可能的,而且鉴于对数据主体的有效和全面保护原则,这种解读也是必要的。因此,作者否定了Breyer案的对识别进行限制性解释的潜在可能性。

识别的含义不应被狭义地理解,例如,简化为查找型识别,因为越来越多的侵入性数据处理活动,如在线广告、人脸识别、用户特征分析等,不必而且往往不依赖于姓名、地址或另一个真实世界的标识符。可识别性的含义是一种识别的可能性,其含义来自于识别的含义。因此,对识别以及“被识别的自然人”的含义的狭义解释将使这些行为及其影响排除在数据保护法的调整范围外,并剥夺了GDPR对受其影响的人的保护。

/04/

结论:这对数据保护意味着什么?

识别的广义解读对数据保护法有重大影响,既包括实践层面的短期影响,也包括理论研究层面的长期影响。

在数据保护法实践层面的影响方面,首先,对识别的广义解释扩大了GDPR的适用范围,在数据主体未通过其公民身份识别但仍受影响的情况下,也给予其GDPR的保护。其次,将个体化识别纳入为GDPR范围下的识别,也会对一些隐私保护技术提出疑问,即它们到底在保护什么。具体而言,作者提供的分析反驳了某些技术背后的参与者所提出的实现匿名的主张,例如谷歌以FLoC替代基于网络跟踪的行为广告。再次,识别的广义解释与GDPR第11条的适用具有关键意义。最后,本文的分析对于生物特征数据作为一种特殊个人数据类别的地位保护也具有重要意义。

识别的含义的理解对明确界定数据保护法的目标具有重要意义。识别与“个人数据”这一概念的其他要素一起共同构成了GDPR的实质范围,因此反映了数据保护的存在理由。作者认为,我们赋予这个触发概念(即识别)的含义实际上反映了我们认为数据处理中存在的问题,即:数据保护法要解决什么问题,哪些数据或何时数据是“危险的”,法律何时应当干预?虽然所有这些都构成了个体化的一种形式,但五种识别类型是不同的。

正如作者所指出的,只有查找型识别与数据主体的现实身份相联系;只有查找型、辨认型识别以及在有限程度上的会话型识别能够在不同时间和不同背景下对个人进行追踪,而时间维度与分类识别和个体化识别不相关。不同类型的识别关涉不同的实践情况,这种多样性可能需要不同的法律保护方法,并非所有这些方法都必须纳入GDPR的范围。分类和个体化识别虽然与要求数据主体对过去的行为负责不相关,但对于广义的自动化决策的许多其他情况(包括向个人展示什么产品、价格或内容的实时决定)是有帮助的。这不可避免地回到了数据保护法的目的问题:我们希望它能做什么?将尽可能多的自动化决策纳入GDPR保护伞下的愿望是否证明了扩大GDPR的范围是合理的,以及有哪些权衡?

识别在欧盟数据保护体系中发挥着核心作用,关于GDPR中识别的含义的讨论将比纯粹的法律分析更难,它可以为研究数据保护法的基础和实践开辟路径,并要求我们对数据保护法的定义做出一些规范性选择。

推荐阅读:

Frederik教授:“假名化信息”是个人信息吗?

翻译:荆文琦

指导:李锦华

审核:张白荟

编辑:荆文琦

声明:本文来自网络西东,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。