前不久,本公号贴出了知名个人信息保护学者Graham Greenleaf对国家标准《个人信息安全规范》(2018年5月1日生效)的分析文章【域外学者对国家标准《个人信息安全规范(报批稿)》的详尽分析】。分析文章的全文译文将于近期贴出,与大家分享。而此次,仅仅就Greenleaf教授所做分析中的一点——个人数据的分类,展开讨论。

Greenleaf教授的分类

在Greenleaf教授看来,《个人信息安全规范》将数据划分为三类:

(i) Identifiable Data. PI which gives the PIC who holds it the capacity to identify a data subject (i.e. is identifiable data); 可识别的数据,即个人数据控制者能够从所持数据中识别出特定个人数据主体。

(ii) Non-identifiable Data. PI which does not allow the PIC who holds it to identify a data subject, but does enable interactions with that person (e.g. behavioural advertising or other uses of ‘reflective’ information). This data has not been anonymized, but it does not enable the PIC to identify (i.e. the person’s identity could be recovered, but not by this PIC at the present time). So it is data which is neither identifiable nor anonymous. 不可识别的数据,即个人数据控制者无法从所持数据中识别出特定个人数据主体,但是这类数据能够支撑个人数据控制者与特定个人数据主体开展互动。

(iii) Anonymized Data. Data which has been anonymised (i.e. processed so identity cannot be recovered), whether it was originally in category (i) or (ii). It is no longer PI, and can be used for behavioural marketing or other uses, irrespective of privacy laws. 匿名化数据,即将第一类、第二类的数据进行技术处理,使得个人数据控制者无法识别出特定个人数据主体,也无法与特定个人数据主体开展互动,因此不属于个人数据,也就不受个人数据保护法律的管辖了。

在Greenleaf教授看来,《个人信息安全规范》所建立的三类数据划分,“从全球范围来看,处于非常领先的位置” (is at least one which is at the more advanced end globally),“反映了当今的实际情况”(This tripartite categorisation of data affecting persons does reflect modern realities)。

对Greenleaf教授所做分类的简要分析

我想,Greenleaf教授的划分建立在一个预设至上——即在他看来,“identify a data subject” 是指识别特定个人的身份。但是,在此应当强调一点,在Greenleaf教授看来,包括说从GDPR看来,这个身份应当做扩大的理解,比中文语境下对个人身份的解释范围要大得多。

先看欧盟GDPR对个人数据的界定。personal data' means any information relating to an identified or identifiable natural person ('data subject'); an identifiable natural person is one who can be identified, directly or indirectly, in particular by reference to an identifier such as a name, an identification number, location data, an online identifier or to one or more factors specific to the physical, physiological, genetic, mental, economic, cultural or social identity of that natural person. 翻译出来就是:个人数据是指“与已识别出(identified)或可被识别(identifiable)的自然人相关联的任何信息;可被识别的自然人指,借助标识符,例如姓名、识别号码、位置数据、网上标识符,或借助与该个人生理、心理、基因、精神、经济、文化或社会身份特定相关的一个或多个因素,可被直接或间接识别出的个人。”

从上述定义看,GDPR中定义的identity,虽然中文应当翻译成身份,但是这个身份包括了“与该个人生理、心理、基因、精神、经济、文化或社会身份”。而我们中文中所说的身份,绝非如此广泛,更多的是指这个人的名字、职业、职位等。例如,小明患有抑郁症,在中文语境中,我们一般不会讲抑郁症患者认为是小明的身份。但是GDPR会认为是。因此,GDPR所说的identity,已经有很强的profiling的意思,就是画像。因此,同样是用了身份的字眼,GDPR的个人信息范围要比《网络安全法》规定的范围要大。

顺着Greenleaf教授的思路,还有一些信息,是无法识别这些“生理、心理、基因、精神、经济、文化或社会身份”,但是却能够使得个人数据控制者与个人数据主体产生互动。手机的IMEI号就是恰当的例子。IMEI号就是国际移动设备身份码,是对设备的唯一标识。肯定无法描述特定个人的“生理、心理、基因、精神、经济、文化或社会身份”,但是却能够让个人数据控制者在茫茫人海中持续跟踪持有该设备的特定个人,并由此记录这个设备所曾经出现的位置、设备的浏览记录等等。这就是Greenleaf教授说的non-identifiable data.

以上是Greenleaf教授将数据划分为三类的基本逻辑。总的来说,他把重点放在了identity(身份)上面。第一类identifiable data是指能够通过这些数据识别特定个人的身份,这个身份包括了“与该个人生理、心理、基因、精神、经济、文化或社会身份”。第二类non-identifibale data,虽然无法识别这些“生理、心理、基因、精神、经济、文化或社会身份”,但是却能够使得个人数据控制者与个人数据主体产生互动。第三类,anonymized data,是指无法识别身份,也无法支撑互动的数据。那就不是个人数据了。

另一种看法

Greenleaf教授将重点放在了identity。另外一个思路是把重点放在identify上,就是识别上。

对此,我个人比较认同美国商务部下属的NIST(美国国家标准与技术研究院)的Special Publication 800-122:Guide to Protecting the Confidentiality of Personally Identifiable Information (PII) 中对identify的定义。

PII is ―any information about an individual maintained by an agency, including (1) any information that can be used to distinguish or trace an individual‘s identity, such as name, social security number, date and place of birth, mother‘s maiden name, or biometric records; and (2) any other information that is linked or linkable to an individual, such as medical, educational, financial, and employment information.  从这个定义来看,PII有两类。第一类是能够用来区别(distinguish)或勾勒(trace)个体身份的信息。第二类是能够和个人向关联(linked or linkable)的信息。当然,美国人说的身份,是个大概念,和欧洲人说的类似。

另外来看欧盟的定义。第29条工作组曾对个人数据的定义专门发表一份意见Opinion 4/2007 on the concept of personal data。在这份意见中,第29条工作组认为,a natural person can be considered as “identified” when, within a group of persons, he or she is "distinguished" from all other members of the group. Accordingly, the natural person is “identifiable” when, although the person has not been identified yet, it is possible to do it. 在此,识别就是把一个人从一群人中区分开来,也就是说,“allow anyone to single out a particular person”. 在这点,无论是美国还是欧盟,identify的含义都是相同的。

如果identify是single out的意思,那么Greenleaf教授所提出的non-identifiable data,实际上本来就是identify a data subject的题中之意。所以identify a data subject这句话,本来就包括Greenleaf教授所讲的第一类和第二类数据。

回到《个人信息安全规范》

在这个标准中,个人信息是指“以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息”。这个定义来自于两高的司法解释。

在附录A中,标准进一步提出:“判定某项信息是否属于个人信息,应考虑以下两条路径:一是识别,即从信息到个人,由信息本身的特殊性识别出特定自然人,个人信息应有助于识别出特定个人。二是关联,即从个人到信息,如已知特定自然人,则由该特定自然人在其活动中产生的信息(如个人位置信息、个人通话记录、个人浏览记录等)即为个人信息。符合上述两种情形之一的信息,均应判定为个人信息。”

本质上这个进一步的阐释,是既遵循了我国的现行法律,也遵循了SP800-122中关于PII的定义。第一类是识别——“以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份”,这是《网络安全法》的定义,也是SP800-122中的distinguish or trace。第二类是关联,“反映特定自然人活动情况的各种信息”,这是两高司法解释新增的内容,也就是SP800-122中的linked or linkable。

但是,Greenleaf教授确实提出了非常重要的一点:就算都是个人信息,里面还应该存在分类。有一些个人信息,是用于在个人信息控制者与个人信息主体之间建立一个管道或者说互动的渠道。还有一些个人信息,直接是对个人的某些方面进行了标注或描述。对于前者,个人往往可以行使拒绝的权利,比如退订广告,或者更换邮箱、电话号码、移动终端等。对于后者,个人无可遁形。

未完待续......

声明:本文来自网安寻路人,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。