tencentccc,题图 | 网络
一 引言
2014年“朱烨诉百度案”中,百度公司利用Cookies技术记录朱烨的搜索信息,并根据大数据算法提供个性化推荐服务。朱烨以隐私权侵权为由起诉百度公司。一审法院认为,“Cookies所抓取的信息展示了个人上网的偏好,反映个人的兴趣、需求等私人信息,在一定程度上标识个人基本情况和个人私有生活情况。”并判决百度公司构成隐私侵权。二审法院却认为,“个性化推荐服务中运用网络技术收集、利用的是未能与网络用户个人身份对应识别的数据信息,该数据信息的匿名化特征不符合‘个人信息’的可识别性要求。”又由于相关信息只在计算机系统内部进行处理并未被公开,遂撤销一审判决并驳回朱烨全部诉讼请求。
该案中,相关信息的匿名是二审改判的重要依据。然而,案涉Cookies抓取的信息究竟为何属于匿名信息,二审法院论证不足。让人不禁疑惑,案涉信息当真不具识别性吗?一审法院所指的“在一定程度上标识个人”的间接识别性也不存在吗?尤其是在涉及大数据分析时,匿名仍能轻易达成吗?这些问题不得不求解于个人信息匿名的法律制度。
本文立足于大数据的时代背景,以《网络安全法》42条第1款、第76条第5款作为我国个人信息匿名的制度原点,结合本土情境与域外经验,重新思考我国个人信息匿名的制度设计,探寻匿名信息的法律标准、处理方式与制度价值。
二 大数据时代下匿名的界定
匿名信息即《网络安全法》42条第1款规定的“经过处理无法识别特定个人且不能复原的”信息。虽经一定处理,但仍有识别特定个人的可能且能被复原的信息系假名信息。识别性是个人信息的首要特性,不具识别性的匿名信息不是个人信息。面对大数据时代的挑战,匿名应回归到对信息可识别程度的关切之上。
1.从个人信息到匿名信息
根据《网络安全法》76条第5款,个人信息即“以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息”。识别是个人信息概念的核心。参照欧盟的相关规定,识别需结合判断基准、信息相关性、识别可能性来判断。不具识别性的匿名信息并不符合个人信息的概念构成。
在个人信息的属性问题上,司法实践中许多法院将个人信息划入名誉权或隐私权的范畴。在匿名信息的相关争议中,亦时常出现隐私的诉求,如前述“朱烨诉百度案”中原告即以隐私侵权为由起诉。理论上,更是存在法益说、一般人格权说、隐私权说、新型财产权说、宪法人权说、独立人格权说等学说。其中,隐私权说源于美国法上信息隐私学说。然而,这一学说在实践上常常无力保护个人信息,且难以与中国法上的隐私权相容。个人信息与隐私在总体上是两个不同的法律概念,二者在内涵、外延、理论背景、价值基础、保护原则、权能范围、侵权判断、责任承担各个方面均存在区别。
另外,财产权说则存在证明力不足、不利于个人信息保护、混淆个人信息与数据、忽视人格权商品化理论等问题。法益说及一般人格权说忽视个人信息权的积极权能、适用一般侵权行为的构成要件,不利于保护个人信息。宪法人权说更是与我国司法体制不符。笔者赞同将个人信息作为具体人格权客体的独立人格权说。《民法总则》111条应解释为个人信息权。在大数据时代中,并不存在与人格尊严无关的个人信息,个人信息权独特的权能、范围与内容均无法为其他权利所替代。
个人信息兼具人格利益与财产利益,个人信息权通过人格权商品化实现个人信息的财产利益。当个人信息经过匿名化处理成为匿名信息后,其人格利益与财产利益实现分离,匿名信息只包含财产利益。笔者认为,匿名信息应属数据财产权的客体。匿名化实质上亦是从个人信息权到数据财产权的转化过程。通过匿名化,数据控制者在维护数据主体个人信息权的前提下,获得了相关的数据财产权。
数据与个人信息存在区别,作为数据财产权客体的数据只能是匿名化的不具可识别性的数据。具体而言,信息控制者只有在对个人信息匿名化处理后,才能享有数据财产权;对于合法掌握的可识别信息,控制者虽有财产利益但不享有财产权,控制者只能行使商业秘密以及《反不正当竞争法》上的请求权;且当匿名信息通过再识别(re-identification)手段被恢复识别可能性时,这些数据即成为了个人信息,控制者无法再主张财产权。
由此可见,虽然匿名信息与个人信息属于两种不同权利的客体,但其实是一个问题的两个方面。匿名信息的制度设计从来就离不开个人信息的规定,尤其离不开识别性的判断。
2.匿名、去身份与去标识
除了《网络安全法》的规定外,我国的规范性文件中同时存在匿名、去身份、去标识几个术语。“匿名化处理”的概念被用于2010年《电子病历系统功能规范(试行)》与2011年《中医医院信息化建设基本规范》之中。2014年《互联网企业个人信息保护测评标准》4条更将匿名与去身份一并界定为“信息或信息集合无法合理识别特定用户身份的信息”。2014年《中国互联网定向广告用户信息保护行业框架标准》(以下简称“定向广告行业标准”)3条第1款指出,去身份化使得“信息无法用于识别、确认或关联至某个特定用户”。同时,去身份有时也被称为去标识。2014年《征信机构信息安全规范》第9.6条第c款规定了去标识化使“个人身份不被直接或间接识别。”2017年《信息安全技术个人信息去标识化指南(征求意见稿)》第3.3条更是明确界定了去标识化的概念,即“通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程”。
实际上,匿名、去身份、去标识的含义并无本质区别。匿名(Anonymization)的概念一般为欧洲地区所采用,而去身份、去标识只是对北美地区常采用的De-identification概念的不同译称。
匿名的法律概念源于1995年欧盟《数据保护指令》条款第26条的规定。该条指出,数据主体无法确定的匿名信息不适用数据保护原则。2018年生效并替代《数据保护指令》的《统一数据保护条例》(以下简称GDPR)鉴于条款第26条进一步指出,匿名信息即“与识别或可识别自然人无关的信息或以数据主体不能或不再可识别的方式匿名提供的个人信息”。为推动GDPR的实施,欧盟委员会将匿名信息的概念进一步解释为“任何被收集的个人信息,被替换或以其他处理方式处理使得该信息在没有使用附加信息时不能归属于数据主体,并且通过区别和区分的技术和组织手段保障这种非关联的属性,或者关联到个人需要一个总量不合适的时间、成本和精力”,并指出“匿名信息不应被认为是个人信息”。
在美国法中,去身份(或译“去标识”)意味着所有可能与特定个人的身份相关联的信息已被从相关的报告、数据或其他信息中移除。美国商务部与国家标准化和技术机构指出,“去身份移除识别信息目的在于使得数据不能与特定个人相关联”。根据美国政府2010年发布的《个人信息保护指引》,去身份即“通过移除足够的个人可识别信息以至于剩余的信息不能识别特定个人,以及没有合理的理由相信这些信息能被用于识别特定个人。”加拿大安大略省信息和隐私专员亦指出,“去身份的信息是不能直接或间接识别个人的信息。如果信息不识别个人,并且在信息可单独使用或与其他信息一起使用的情况下识别个人是不合理预见的,则信息已被去身份。”
由此可见,匿名与去身份只是同一术语在不同法域的不同表述,均指使得个人信息不再能识别个人。实际上,两个概念的同一性已被广泛认可。国际标准化组织对匿名与去身份的界定亦是高度相似。FredH.Cate直接将匿名信息与去身份信息等同。Gregory S. Nelson将匿名化处理称之为个人信息去身份的过程。为便于理解,本文将统一采取匿名的表述。笔者认为,匿名化处理即数据控制者运用特有的处理方式,删除或替换可识别个人身份的信息,使得个人信息达到不具识别可能性的标准。由于匿名信息已非个人信息,处理匿名信息不受个人信息保护规范的约束。
3.假名与匿名
在匿名的概念外,域外个人信息保护立法中还存在假名(Pseudonymization)的概念。德国《联邦数据保护法》第3条在第6款匿名的概念后规定了第6(a)款,“假名指用其他标志替代姓名或者识别符号,以便无法确认数据当事人或者实质性增加确认数据当事人的困难。”欧盟第29条数据保护工作组(以下简称WP29)即指出,假名只是对信息主体身份进行伪装,形成的假名信息可被复原;假名并非匿名的一种方式,其仅仅减少了数据与可识别数据主体之间的关联能力,是一种有用的安全措施;如网络用户的网名属于假名,但仍属于个人信息。
GDPR鉴于条款第4条第5款亦对假名进行了详细规定,“假名意味着通过这样一个方式处理个人信息:若不使用附加信息,个人信息将不再与一个特定数据主体相连,且附加信息被分别保存并使用技术和组织措施保障个人信息不被与一个已识别或可识别的自然人相连。”换言之,借助辅助信息,假名信息仍有可能识别特定的自然人。因此,GDPR鉴于条款第26条指出,“经过假名的个人信息,可以通过使用附加信息识别个人,应被认为是一个可识别的自然人的信息。”
由此可见,假名与匿名具有一定的相似性,均具有防止信息主体身份泄露的作用。假名与匿名最根本的区别即在于假名存在被识别的可能性,因此,假名信息仍是个人信息。在某些情形中,甚至可以通过假名直接识别特定个人。欧盟《电子签名指令》第8条第3款即规定,签名人有权使用假名在文件中作合格签名。
虽然假名信息仍是个人信息,但其实际上起到降低风险的作用。GDPR鉴于条款第28条明确指出,“将假名应用于个人信息可以减少有关数据主体的风险,并帮助控制者和处理者实现其数据保护义务。”对此, WP29曾经认为,数据保护规则应被更加灵活地适用于假名信息之中。然而, GDPR鉴于条款第28条对这一理论进行修正并明确指出,“假名并不排除任何其他数据保护措施。”因此,处理未达到匿名标准的假名信息,仍需遵循个人信息保护规范。
4.匿名与再识别
大数据时代下,匿名与假名的边界逐渐模糊,匿名信息也可能通过再识别处理而被复原。PaulOhm研究指出,现行的匿名手段所起到的作用有限,无法起到预期的个人信息保护效果,恶意的入侵者可获取相关身份信息,匿名已经成为了一个“破碎的承诺”。美国在线(AOL)曾经将用户搜索信息删除用户名称和用户地址后附加上唯一数字编码发布,记者通过这些数据却识别出了部分用户。在线电影租赁网址Netflix亦曾以删除用户名并以编码替换的形式公开了其用户数据,德克萨斯州大学的研究者则发现这些数据非常容易被再识别。
正是由于再识别变得简单易行,几乎各种信息都可能识别个人而构成个人信息,个人信息的法律概念本身亦受到了挑战。有学者称之为“匿名的迷思”。对此, Paul Ohm主张放弃匿名的概念,其宣称“匿名已死”并认为“个人可识别信息(P.I.I.)的概念已走向终结”。PaulM. Schwartz与Daniel J. Solove亦认为,数据再识别技术将使得个人可识别信息的概念走向消亡。
笔者并不赞同该种观点。
第一,匿名追求的是风险最小化,而非100%的安全。事实上,100%的安全措施并不存在。一些怵目惊心的再识别个案只能说明,大数据背景下匿名无法做到100%安全,并不能说明相关风险已超出匿名信息的法律标准。再识别技术发展的同时,匿名技术也在不断更新。加拿大安大略省信息和隐私专员认为,匿名信息再识别的风险被一些研究者错误地高估了。美国联邦通讯委员会也指出,匿名信息的再识别通常是琐碎的。据Jane Yakowitz研究,匿名化处理后信息的识别率只有0.013%。可见,匿名信息的再识别风险仍是极小的。
第二,否定匿名信息,将造成意料之外的后果。否定匿名,必将降低信息主体将个人信息匿名的积极性,从而不利于个人信息保护。另外,对匿名信息适用个人信息保护规则亦不可行。若匿名信息处理须获得信息主体同意,则为了明确信息主体,还需先将相关信息作再识别处理,反而更不利于个人信息保护。
笔者认为,大数据时代下,匿名应更加关注信息的可识别程度。可识别程度的层次性特征已为国外学者所注意。根据可识别程度,美国商务部与国家标准化和技术机构将信息分为与个人无关的信息、不能被关联到任何个人的信息、可被模糊地关联到某些个人的信息、可被不模糊地关联到一个特定个人的信息、关联到一个特定个人的信息。因此,《网络安全法》42条第1款“无法识别特定个人且不能复原”中的“无法”亦应按可识别程度解释,理解为可识别程度极低,而实际上无法做到的100%不可识别。在大数据的背景下充分衡量信息风险、判定信息的可识别程度,是反思与重构匿名的法律标准与处理方式的必由之路。
三 匿名信息的法律标准
匿名信息的法律标准各国不尽一致。由于有效的匿名将使得信息处理不受个人信息保护制度约束,达到匿名信息的标准通常是非常严格的。如英国信息专员公署指出,有效的匿名应建立在对个人信息构成的全面理解之上,并保障不被不恰当的再识别所损害。域外法中,影响最为深远的是欧盟在“数据保护指令”鉴于条款第26条的基础上发展出了所有合理可能性标准,以及美国在《健康保险流通与责任法案》(以下简称HIPAA)“隐私规则”中确立了专家标准与安全港标准。
1.欧盟法上的所有合理可能性标准
欧盟法上的所有合理可能性标准充分考虑了信息的可识别程度,该标准由“控制者和其他任何人”的主体标准,以及“所有合理可能性”的识别方式标准构成。欧盟“数据保护指令”鉴于条款第26条指出,判断是否可识别“控制者和任何人应采取所有合理的可能措施”。GDPR鉴于条款第26条进一步指出,“为确定自然人是否可识别,应考虑到所有合理可能使用的方式,包括控制者或其他人直接或间接地识别自然人所选择的方式。为了确定用于识别自然人的手段是否合理,应考虑所有客观因素,例如,识别所需的成本和时间,同时考虑到处理时可用的技术以及技术的发展。”
(1)主体标准:控制者和其他任何人
是否存在识别的可能须从控制者和其他任何人的角度进行判断。诚如英国Hope勋爵在2008年“公共事务管理局诉苏格兰隐私专员案”所指,相关技术处理后是否达到匿名的关键即在于从控制者和任何其他人的角度判断是否可被识别。不同主体所能掌握的外部信息并不相同,这一主体标准实际上要求在匿名判断中考虑所有可能获取的外部信息。就IP地址而言,一般社会公众可能难以凭此识别特定用户,但对于网络服务提供商(控制者)而言识别却并不困难。又如没有拍摄到脸部的图像,虽然控制者可能难以识别,但仍有被其朋友、亲属邻居通过衣着、发型、体型等特征识别出特定个人的可能。
在此基础上,2012年英国信息专员公署进一步提出了积极侵权人测试(the “motivated intruder” test)用以衡量除控制者外任何其他人的识别能力。该测试下,试图识别个人信息的主体被假设为一个没有任何先前的知识,但希望实现再识别的个人(一个积极侵权人)。在识别能力上,积极侵权人代表了理性且有能力的一般公众,其可利用公共可获取的资源(如网络或图书馆),但不具专业知识或设备(如黑客技术/设施)。在2012年英国“信息专员诉马拉费尔地区议会案”中,这一测试方法亦为法院所采纳。该案中,一个记者要求地方议会披露关于雇员惩罚状况的“简明进度表”,遭议会拒绝。法院认为,虽然“简明进度表作了化名处理,但一个积极入侵者可以通过走访这个地区而轻易识别出其中的自然人,因此仍属于个人信息,不得公布。”
(2)识别方式标准:所有合理可能性
具体而言,于控制者和任何其他人而言均不具识别的合理可能性的信息方为匿名信息。换句话说,存在两种匿名信息类型,一种为完全不能揭示原始识别信息的匿名信息,另一种为需要不合理的努力(unreasonable effort)方能实现识别的匿名信息。诚如VladislavArkhipov所言,“有足够的精力和时间,蛛丝马迹都能识别到个人,这就是世界上私家侦探的工作方式,但并不应当是法律的工作方式”。识别是否具有合理的可能,需通过时间、成本、技术手段在个案中进行动态的衡量。如前所述,在技术角度以及法律目的看来,匿名并非绝对的,而是一个可识别程度问题。欧洲理事会指出,当可识别程度低至需要不合理的时间和人力时,信息便被认为是不可识别的。英国信息专员公署亦指出,通过极大的努力以及耗费巨大的资源方可实现的识别特定个人的信息,并非“可识别”的个人信息。
因此,须以技术中立的方式,根据再识别所需的成本对其实现的可能性和严重程度进行评估,并根据信息通讯技术的发展动态分析相关成本。如在当前的技术下,破解工业级的加密和安全信息,仍需不合理的努力,这些信息便应构成匿名信息。英国2011年“R诉信息专员案”中,“生命支持联盟”组织的成员要求英国卫生署公布晚期堕胎的详细数据,卫生署拒绝了详细披露的请求,转而披露了匿名化处理的聚合统计数据。英国高等法庭Cranston法官判决认为,卫生署已有效地将数据匿名,考虑到所有可能合理使用的方法,任何接收该统计资料的人均无法识别与该统计资料有关的特定个人,因此,卫生署披露的相关信息不是个人信息。
2.美国法中的专家标准与安全港标准
美国HIPAA第164.514条规定了健康信息匿名的判断标准。其中,第b款第1项规定,经专家判断信息不能具识别性则不属于法案规制的“可识别健康信息”,被称之为专家标准。同时,该款第2项规定,删除18种识别符的健康信息不是“可识别健康信息”,被称为安全港标准。
(1)专家标准
根据HIPAA第164.514条第b款第1项规定,判断主体信息是否可识别的主体是具有一定知识和经验的专业人员,这些人需掌握统计科学相关知识和方法。当这些专家应用相关原则和方法,确定这些信息单独或与其他合理可用的信息相结合后,被预期接收者识别信息主体的风险非常小时,即可判定相关信息构成匿名信息。同时,专家需记录相关分析的方法和结果,以证明该判断的合理性。
不难看出,专家标准仍是通过对可识别程度进行判断以衡量信息主体被识别的风险。美国法上的匿名信息并未脱离识别的合理可能性的判断。HIPAA第164.514条第a款即明确指出,“不能识别特定个体并且没有合理理由相信可以被用于识别特定个体的健康信息不是可识别健康信息”。美国联邦通讯委员会亦指出,匿名信息判断的第一步即判定“信息是否具有与特定个人或设备的合理关联性(reasonably linkable)”。所谓合理关联性,实质上相当于识别的合理可能性,其指的是“信息根据其自身,在上下文中,或在组合中被用以识别个体或设备,或者符合逻辑地与其他相关特定个体或设备的信息相结合”。
(2)安全港标准
HIPAA第164.514条第b款第2项事无巨细地列举了名称、地理区域、日期、电话号码、电子邮件地址、证件号码、网络通用资源定位符(URL)、IP地址、生物特征标识符等18项识别符。控制者在完全删除这些识别符,且并不实际知悉该信息可单独或与其他信息相结合用于识别信息主体时,信息视为已被安全地匿名。另外,该条第e款还规定,在签订相关数据使用协议的条件下,控制者可以使用或披露删除了16种识别符的有限数据集(limited data set)。
安全港标准对识别符的列举在世界立法中堪称最全。然而,这一标准却因未能确保信息不被合理地再识别而广受批评。
一方面,就识别符本身而言, HIPAA的列举仍未周延。加拿大安大略信息和隐私专员指出,删除识别符并不能保证匿名。通过一些未被HIPAA列举的辅助信息亦有可能识别到特定的个人。如就一些极其罕见的病例而言,仅通过医院名称、诊断结果也可识别出特定的患者。美国联邦通讯委员会亦认为, HIPAA的安全港标准不够灵活,随着数据技术的发展,这些识别符不可避免将被淘汰。然而,若根据技术的发展不断调整需要删除的识别符,则必将如“打地鼠”游戏一样无穷无尽。
另一方面,如WP29所指,所识别的可能性不仅与识别符有关,还与样本量有关。若原始样本过小,则仍有可能被再识别。在总体样本足够大的情况下,若子类别成员过少,也能被轻易实现再识别,如6000名居民中的唯一一名医生的数据便可明确指向特定的医生。此外, Fred H.Cate还质疑18项识别符去除后可能已无法满足医疗研究的目的。在多数医疗研究中研究者需获取病人的病史信息、用药时间和日期等信息。
由此可见,安全港标准并不安全,并且也可能无法满足数据利用的需要。美国知名法官RichardPosner在2004年“西北纪念医院诉阿什克罗夫特案”判决中即指出,以删除识别符的方式重新编辑的医学记录也可构成个人可识别信息。该案中,司法部想要从医院获取晚期堕胎的特定病人的记录。Posner认为,就堕胎这一敏感问题而言,完全可以理解这些妇女对记录公开的恐惧。即便是删除特定识别符,通过结合额外的辅助信息,堕胎妇女的身份仍有可能被识别。
3.匿名标准的反思
根据《网络安全法》42条第1款,匿名信息需同时符合“无法识别特定个人”与“不能复原”两个条件。实质上,“无法识别特定个人”中的识别,按《网络安全法》76条第5款的理解即包括“单独或者与其他信息结合识别”。而“复原”实际上属于“与其他信息结合识别”的间接识别。强调不能复原类似于欧盟法上匿名与假名的区分。
能否复原取决于识别主体所掌握的外部信息与信息处理技术。外部信息的更新、聚合和新技术的发展,可能使以前不能复原的信息在某个特定时点后变得能够复原。因此,匿名不可仅关注信息本身。Paul Ohm提出“门廊理论”亦指出,个人信息就像是在长廊中隔离我们与损害的许多扇门,法律不能只关注离我们最近的那扇门。匿名标准关注的就是如何堵住这些门,使得个人信息不被泄露。
虽然HIPAA的安全港标准事无巨细地列出了18种识别符,但与其说这是一个标准(standard)不如说是一个规则(rule)。这一规则在识别符删除的具体操作中可供借鉴,但对于个人信息匿名的法律标准构建而言,则显得僵化无益。尤其是在外部信息与信息处理技术的判断中,必须综合考量各种实际的可能性。因此,能否识别或复原,宜借鉴欧盟法上的所有合理可能性标准,在可据识别程度上对“无法识别”进行判断,结合技术的发展在个案中动态地分析“复原”所需的成本和时间。
在识别的主体上,由于HIPAA上的专家标准仅考虑具有一般统计知识人员的判断,缺乏对不同主体合理可能掌握的所有外部信息的考量,更无对侵权人的恶意作出推定,无法穷尽识别主体上的一切合理可能性,不利于对信息的可识别程度与风险进行判断。因此亦应借鉴欧盟控制者和其他任何人标准。尤其是在对控制者以外的主体上,研究表明再识别的经济利益驱动不容忽视。可借鉴英国的积极侵权人测试,从一个希望实现再识别的普通人的角度进行考察。
值得注意的是,对所有可能性标准的不同理解可得出不同结论。以控制者保留密匙的加密信息为例,欧盟的标准最为严格。2007年WP29指出,对于控制者而言,即便是将密匙单独保存,其仍有可能使用密匙解密,相关加密信息属于个人信息。对于加密信息的接收者而言,若再识别被明确禁止并且采取合理的技术手段排除再识别的可能,相关加密信息属于匿名信息19-20。2014年WP29提出了更严格的标准,控制者若没有删除原始数据而将数据集的一部分提供给第三方,其所提供的信息也属于个人信息。
与之相比,英国的标准较为宽松。英国信息专员公署认为,无论原始数据是否删除、密匙是否保留,只要控制者未泄露相关信息并保证信息具有适当的安全性,相关信息即属于匿名信息。在2011年“议会引渡小组诉信息专员及国防部案”中,英国法院指出,虽然控制者持有密匙的匿名化信息对控制者而言仍是个人信息,但相关加密信息可被披露。前述“R诉信息专员案”中,英国法院判决更是指出,“控制者保留密匙的信息对于控制者而言还是个人信息,控制者将来处理这一信息仍受数据保护法约束,但(对于其他人而言)被发布的匿名信息已经失去了个人信息的特征。”然而,苏格兰法院却认为,“除非控制者销毁了原始文件,否则加密信息不能被发布。”
笔者认为,对于控制者保留密匙的加密信息,英国法上的标准更为科学。必须承认对于保留密匙的控制者而言,即便将密匙与加密信息分别存放,仍有充分的合理可能性复原这一信息。在必要时,控制者必须复原相关信息,如对加密的医疗信息分析后认为病人需要治疗时,须复原信息以识别特定病人。因此,若控制者未销毁密匙或原始信息,其持有的加密信息属个人信息。
另一方面,在大数据时代下,从有无销毁密匙的角度判断个人信息并不可行。如在云计算服务中,服务提供者由于并不掌握相应的密匙,可能并不知道他人所处理的信息内容,要求其承担个人信息保护制度上的义务显然是不恰当的。实际上,除2014年WP29的意见外,苏格兰法院的观点并未在欧盟法中得到普遍认可。2016年“欧盟-美国安全盾协议”亦认为传输保留密匙的编码信息不属于个人信息传输。美国法上更是只要控制者不披露任何关于密匙的信息,就不影响加密信息的披露。
对于没有掌握密匙的信息接收者而言,是否构成匿名取决于信息被复原的一切合理可能性。当任何一个理性的人,利用一切公开资源,也无法复原这一信息,或需通过不合理的努力才能复原这一信息时,该加密信息是足够安全的匿名信息。诚然,仅仅由于加密,不能使得信息匿名。信息接收者仍有可能保留了解密数据的能力或将样本与其他信息相关联的能力。有效的加密必须达到不可重新编辑、不可重新更改的“不可复原”程度。加密的有效性取决于一系列因素,如采取的步骤、对抗反向追踪的安全性、信息样本数、密匙保存者的泄密风险等。
综上,我国应采取的匿名信息标准为:对于控制者与积极侵权人而言,在现有的技术水平条件下,耗费合理的成本与时间,该信息本身或结合其他一切可获取的信息均无法识别出特定的个人。对于已达匿名标准的加密信息,虽然对保留密匙的控制人而言仍是个人信息,但对其他人已属匿名信息,因此,控制者可披露该信息。
四 匿名化处理规范
国际经合组织《21世纪的数据保护原则(说明性文件)》指出,匿名化处理至少包括识别符的去除或隐藏、不得再识别的要求、评估数据被不当再识别的影响3个方面。加拿大认为对结构化数据进行匿名化处理应分9步:决定披露模型、对变量分类、决定可接受的风险门槛、衡量数据风险、衡量内容风险、统计总体风险、匿名化处理、评估数据效用、记录处理过程。韩国规定了先行检视、移除识别符、适当评估、安全保护4个匿名化步骤。我国《信息安全技术个人信息去标识化指南(征求意见稿)》规定,应通过确定目标、识别标识、处理标识、验证批准、监控审查5个方面进行匿名化处理。虽然不同规定采用了不同术语及描述方式,但不难看出,匿名化处理方式主要包括处理识别符、个案风险评估、反对再识别3个方面。
1.处理识别符
我国许多法律法规及司法解释对识别符进行了列举,如《网络安全法》76条第5款列举了“姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码”;《精神卫生法》4条、《艾滋病防治条例》39条第2款中的“姓名、肖像、住址、工作单位、病历资料以及其他可能推断出其身份的信息”;法释〔2016〕19号第10条规定的“家庭住址、通讯方式、身份证号码、银行账号、健康状况、车牌号码、动产或不动产权属证书编号”;法释〔2017〕10号第1条规定的“姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹”。与HIPAA不同的是,通过这些规范只能得出应处理这些识别符的结论,绝不可认为处理所列举的识别符后信息即实现匿名。具体而言,识别符的处理包括通过相关技术手段删除或替换全部直接识别符(direct identifiers)与部分准识别符(quasi-identifiers)。
(1)删除或替换全部直接识别符
直接识别符也称唯一识别符(uniqueidentifiers),即直接识别信息。其无需附加信息或与公共领域内的其他信息进行比对,即可在特定环境中单独识别出特定个人。如学校通过学号可直接识别出特定学生。除出生日期外,《网络安全法》76条第5款所列举的姓名、身份证件号码、个人生物识别信息、住址、电话号码都可在特定场景中直接识别特定个人。除此之外,直接识别符还包括:邮件地址、信用卡号、社会保险号码、驾照号、设备号、健康卡号、病历号、设备识别符、IP地址、URL等。直接识别符可识别度极高,且对数据分析并无效用,在匿名化处理中必须全部删除或替换。
其中,姓名是最为明显的直接识别符,在大多数场景中姓名均可直接识别出特定个人。即便是在重名的情况下,姓名与其他信息相结合亦可轻易识别出特定个人。《美国加利福尼亚州民法典》规定,个人的名、名的首字母、姓的首字母与未加密的社保号、驾照号或身份证号、金融账户访问号码、医疗信息、健康保险信息的任意组合均属个人信息。
其次,由于生物识别符总是直接指向数据主体,因此生物识别信息难以实现匿名。“匿名生物识别信息”本身就是一个悖论。能够匿名的是生物识别信息的处理过程本身,而非生物识别信息。如就基因信息而言,可实现基因信息匿名的技术手段目前仍未出现。2013年怀特海德研究机构的研究员仅仅利用网络公开数据就识别出了将近50个作为提供了基因信息的志愿者身份。
另外,对于IP地址、URL存在争议,部分学者认为IP地址、URL属于间接识别个人身份的信息,甚至不属于个人信息。香港特别行政区法院曾经判决, IP地址与电子邮箱均不是个人信息。然而,欧盟法院却一直认为静态IP地址属于个人信息。2016年欧盟法院通过“布瑞耶尔案”进一步指出,即便是动态IP地址也构成个人信息。对于网络服务提供商而言, IP地址、URL就足以识别用户。实际上通过IP地址进行人肉搜索的案例不胜枚举,网络犯罪案件中司法机关亦常常根据IP地址判断犯罪主体。因此,从基于特定场景识别个人的角度来看, IP地址、URL无疑应属直接个人信息,系应被删除或替换的直接识别符。
(2)部分准识别符的处理
只删除或替换直接识别符往往不足以使得信息不能识别特定个人,还需对部分准识别符进行处理。准识别符也被称为间接识别符,即间接识别信息。其自身不能识别数据主体,与其他信息结合后可识别数据主体。准识别符包括:性别、婚姻状况、种族、民族、出生国、邮政编码或其他地理位置信息、出生日期或年龄、重要事件日期、职业、语言、公民状态、受教育情况、犯罪历史、奖惩记录、总收入、宗教信仰等。准识别符范围广泛,且在不同的具体语境中发挥不同的作用。若将全部准识别符删除,必将导致数据再无效用。为保留数据的再利用价值,对准识别符的处理应在个案中根据风险评估结果决定。
值得注意的是,准识别符的判断还受数据样本大小、类别与性质的影响。若数据样本中所有主体都是女性,性别就不是准识别符。若数据样本中只有一名男性,则通过性别便能识别该名男性。又如某些特殊的职业或罕见的疾病信息,就可能与其他信息相结合揭示出特定个人的身份。HIPAA避风港规则规定,应将20000人以下的地理单位邮政编码的最初3位数字全部改为0,且删除89岁以上的人的出生年份。
此外,通过某些准识别符还可以推知其他可识别信息。如通过入学年份可推测年龄,通过住址信息可推测收入,通过网络活动信息推测消费习惯。据调查,75%的网址都将用户的网上活动记录与其个人识别相关联。网络服务提供者通过Cookies抓取用户的网络浏览记录常常亦是为了推测用户行为或消费习惯,以作个性化定向推广。域外相关案例中,法院一般并不认为网络服务提供商抓取的用户信息构成匿名信息。
2006年“冈萨雷斯诉谷歌案”中,美国法院注意到了“虚荣搜索”这一现象,许多人会在搜索引擎中输入自己的名字进行搜索,因此判决用户搜索查询样本是可以识别个人身份的信息。2014年的一起案件中,英国法院判决谷歌浏览器通过Cookies抓取用户信息并出售给相关公司违反《数据保护法》,相关信息并不构成匿名信息,对于广告公司而言,这些信息仍是可识别的个人信息。反观“朱烨诉百度案”,二审法院仅凭Cookies所抓取的信息不存在直接识别符而认定其属于匿名信息并不妥当。相关信息是否匿名仍与准识别符的处理有关,必须在匿名信息的法律标准下对百度公司实际抓取的信息进行考察。
(3)相关技术手段
《网络安全法》42条第2款规定,“网络运营者应当采取技术措施和其他必要措施”确保个人信息安全。在匿名化处理中,对识别符进行处理的技术措施包括统计技术、密码技术、抑制技术、假名化技术、泛化技术、随机化技术、数据合成技术等。其中,密码技术本质上属于数据安全措施。采取不同的匿名化技术获得的效果不尽相同, WP29认为假名化技术获得的效果最差,而差异化技术获得的效果相对较好。LatanyaSweeney提出的“K-匿名化”在世界范围内被较为普遍地采用。“K-匿名化”通过抑制标识符和输出干扰,使得释放特定数据时准标识符关联到其他信息的能力有限。简单来说,即获得相关匿名数据将至少获得K个不同个体的记录,因此K价越大,可识别度越低,但数据的可用性也越低。
这些匿名化技术都是在技术层面上处理识别符的方法、算法和工具,只是匿名化处理的手段,并不能保证必然产生匿名信息。匿名化处理必须根据匿名信息的法律标准,结合能接受的最低效用与最高风险,选择相关技术手段。
2.个案风险评估
个案式的风险评估贯穿于匿名化处理的全过程,且在匿名化处理后还需持续监控信息的再识别风险。匿名信息的再利用为匿名化处理的重要目的,诚如国际标准化组织所指,风险评估在根本上需平衡匿名信息的效用(Utility of De-identification Data)与个人信息被揭露的风险。在最低可接受效用之上,将再识别的风险控制在“通过不合理的努力方能实现”的阀值之内。
欧盟认为,风险评估应综合考虑数据处理的目的、可能的攻击者与一切相关因素。这些因素包括:数据的任何可能用途、原始数据的性质,现有的控制机制、样本量、公开的信息资源、数据传输给第三方的形式、数据的敏感度和数据的性质等。加拿大认为,除此之外还需考虑:再识别可能性、数据接收者再识别数据的动机与能力、不恰当地披露信息可能导致的伤害、相关法律的规定、信息的范围、信息主体的知情同意。
在上述一般的风险评估框架外, Paul Ohm指出风险评估应从特定行业的特性出发,利用“成本-收益”的方法评估是否需对个人信息进行规制,若规制成本巨大而收益甚微则应放弃。这一评估中需考虑信息处理技术、公开的范围、信息量、识别动机、信任。在无法评估识别可能性的时候,数据控制者可将信息转让给研究机构、高校等“可信主体”进行研究。Paul Ohm的“成本-收益”评估框架是建立在“匿名已死”的理论之上的,其显然不同于一般意义上的风险评估框架。控制者的成本与收益绝不等同于再识别的成本与信息本身的效用。所谓“可信任主体”关注的也只是在通常情况下信息是否发生泄露,而非信息是否能被识别。因此,在匿名信息的法律标准下,个案风险评估应回归到识别可能性本身。
以识别符种类为例, Latanya Sweeney研究指出,通过邮政编码、出生日期、性别的结合,能识别61%~63%的美国人;通过城市、出生日期、性别的组合识别率降至53%,通过国籍、出生日期、性别识别的组合仍有18%的识别率。据此, Hrynaszkiewicz指出,3种或以上的准识别符即呈现足够的识别风险。若信息包括3种或以上准识别符,则披露前需独立审查相关风险。
具体而言,向不特定公众公开披露的风险大于向特定第三方披露的风险;敏感信息可能导致的伤害较大,风险也较高;识别符种类、数据样本量、可获取的公开信息、再识别技术与风险度正相关;履行法律义务、完善控制机制、获得信息主体的知情同意可规避相关风险。
此外,由于信息的可识别度与技术发展及可获取信息的增加密切相关,即便是匿名化处理完成后也需要密切监控并控制风险。WP29强调,识别新风险并定期重新评估存留风险是控制者的义务。随着数据来源不断地增多,需要不断评估信息是否不可识别。需要考虑是否存在新技术或新的可用信息以及这些技术、信息是否可以被用于再识别个人。若相关信息已被识别而失去匿名信息的属性,则需要重新进行匿名化处理。
由此可见,控制者不仅在匿名化处理过程中需贯彻个案风险评估,而且需定期审查新型风险,确保信息的匿名化继续符合法律要求与行业标准。当监测到可能存在个人信息泄露的风险之时,应根据《网络安全法》42条第2款的规定,立即采取补救措施、告知用户并向有关主管部门报告。
3.反对再识别
反对再识别指的是控制者须承诺不再重新识别信息,且通过合同禁止信息接收方尝试再识别。我国“定向广告行业标准”第3条明确指出,信息提供方向接收方提供匿名信息前,应要求接收方书面承诺保证不试图再识别,且按约定目的使用相关匿名信息,接收方再次转移信息时也应与其他接收方签订相关合同。然而,由于该标准不具强制执行力,网络服务提供商往往忽视反对再识别的要求。以腾讯公司为例,其“隐私政策”不但未表明任何反对再识别的措施,反而强调对第三方的信息使用不承担任何责任。
美国法上,有无反对再识别,是判断信息是否匿名的依据之一。美国联邦通讯委员会指出,不能合理关联(reasonably linkable)到个人或设备的匿名信息需要满足3个要求:信息并非合理关联到个人或设备;公开承诺不会试图重新识别数据;通过合同禁止下游接收者尝试重新识别数据。只有当信息高度抽象且不可能被重新识别时,才不要求合同承诺。同时,与信息接收方签订禁止再识别的合同常常还是法律的强制性要求。如HIPAA规定分享健康信息的有限数据集必须与第三方签订数据使用协议。美国《金融服务现代化法案》规定,金融机构分享相关信息前必须与第三方签订信息保密协议。
此外,再识别目的在于识别个人、收集相关个人信息,属于个人信息处理。未经信息主体的知晓或同意而进行的再识别属于非法收集个人信息。毫无疑问,非法再识别是违反个人信息保护相关法律规范的。反对再识别应属于《网络安全法》42条第2款所规定的确保个人信息安全的“其他必要措施”。
笔者认为,反对再识别可概括为以下3点要求:第一,除非为履行法律义务或保护信息主体的权益,匿名信息的提供方应承诺原则上不再重新识别信息。第二,除非信息已绝无被复原的可能,或向社会公众公开无法签订相关协议,提供方应通过合同禁止信息接收方尝试进行再识别。借鉴加拿大的相关规定,合同内容应包括:明确禁止再识别的尝试;信息处理的限制;确保获得相关信息的人员得到与个人信息保护相关的适当培训;存在违约时接收方必须通知提供方;以及此类违约的后果。第三,任何再识别的处理都将被视为个人信息处理行为,受个人信息保护规范的调整,非法进行再识别须承担相应的法律后果。信息提供方由于未经信息主体知悉或授权披露了相关匿名信息,因此应对再识别的后果承担责任。
五 匿名在个人信息保护中的功能与价值
英国信息专员公署认为,匿名可对抗个人信息的不恰当披露;允许以新的和不同的方式使用匿名信息;在公开信息的同时遵循个人信息保护义务。Paolo Balboni指出,匿名能促进个人信息保护;对处理个人敏感信息尤其有利;有助于数据最小化原则的实施。笔者认为,匿名在个人信息保护制度中发挥着独特的功能与价值,一方面使得充分发挥信息效用,另一方面又恰当地控制了信息风险。
1.排除个人信息以发挥信息效用
匿名在大数据与技术创新中扮演着重要的角色。数据通过匿名化处理后已不再是个人信息,对匿名信息的利用无需信息主体知情同意,亦无需受信息收集目的所限制。匿名信息能充分发挥其信息效用,被用于科学研究、商业调查与其他大数据分析之中。
从数据主体的权利与控制者的义务来看,数据主体行使权利的对象是个人信息,控制者行使义务的前提是能识别出特定的数据主体。而匿名信息本身即无法识别数据主体且不能复原的非个人信息。GDPR鉴于条款第11条第1款明确反对控制者仅以遵守规定为由保存、获取或处理辅助信息以识别数据主体。美国法亦规定,匿名信息的披露不受信息披露规则的约束。1999年美国“R诉健康部及单方信息源公司案”中,药剂师经开药医生的同意在未获得病人授权的情况下将匿名的处方信息发送给制药公司。上诉法院Simon Brown法官认为,由于所有的利益相关方都没有被识别的风险,因此,病人的利益没有被侵犯。2008年美国“Zyprexa产品责任诉讼”中,州政府对制药商披露关于一款非典型的抗抑郁药物的适用记录提起诉讼。地区法院RoanneL. Mann法官判决,相关信息构成匿名信息,原告无从行使知情权以及选择退出的权利。
从数据保护原则的排除来看,德国《联邦数据保护法》第30a条第2款明确规定,匿名信息不受目的特定原则限制,可在收集目的之外使用;欧盟“数据保护指令”鉴于条款第26条以及GDPR鉴于条款第26条均指出,数据保护原则不应适用于匿名信息;2014年我国台湾地区“台北高等行政法院”亦指出,已进行相当严格的匿名化处理的数据,“无从识别特定个人之信息,并于数据提供之审查及作业过程设有相当严谨之管控及作业规范”,因此可在特定目的之外使用。
大数据时代中,个人信息被称为“新石油”,蕴含着巨大的经济、社会价值。然而,从我国刑法关于“侵犯公民个人信息罪”的规定可见,个人信息交易在我国被绝对禁止。唯有通过匿名化处理,匿名信息才能自由流通、发挥数据价值。有学者将之称为“数据流通的去身份原则。”通过匿名个人信息中的人格属性被剥离,经济、社会价值又得以保留,由此使得匿名信息能被充分利用,发挥数据价值。控制者对个人信息进行匿名化处理往往也正是为了更自由地使用、披露相关信息。通过匿名化处理排除个人信息及其保护规范,使得信息效用得以充分发挥,是信息社会的必然选择。
2.控制信息风险以履行法律义务
如前所述,风险评估在匿名化处理中处于关键位置。通过匿名化处理,虽无法100%排除再识别的可能,但个人信息的风险变得可控。通过个人信息法律标准下识别成本、相关技术、动机以及一切可获取资源的考察,适格的匿名信息被再识别的风险是极小的。
匿名化处理就是保护个人信息的重要手段之一。我国《中医医院信息化建设基本规范》《电子病历系统功能规范(试行)》等规范性文件均提倡对相关信息进行匿名化处理以保护个人信息。此外,匿名化机制更是“自设计保护隐私”(privacy by design)的重要组成部分。“自设计保护隐私”的概念诞生于荷兰数据保护局的报告《隐私增强技术:通往匿名之路》,指的是应从信息系统设计时起,从开端设计隐私保护机制以避免日后昂贵的更正成本。匿名化机制,即属于信息系统隐私保护机制的重要环节。
根据法律规定,尤其是数据最小化原则的要求,匿名化处理是控制者必须履行的法律义务。根据德国《联邦数据保护法》第3a条的规定,数据最小化原则指的是“个人数据的收集、处理、使用以及数据处理系统的选择和构建应符合尽可能少的收集、处理和使用个人信息的目标。”该条同时指出,对个人信息进行匿名有助于这一原则的实现。欧盟“隐私与电子通信指令”鉴于条款第9条指出,应尽可能地使用匿名信息以实现数据最小化的目标。GDPR鉴于条款第25条第1款、第89条第1款均指出,为确保遵循数据最小化原则,建议采取匿名化措施。
对于特定类型的信息,控制者必须采取匿名的形式处理。如“欧盟-美国隐私盾协议”规定,被用于药物研究的数据应被匿名。我国台湾地区“人体生物资料库管理条款”规定,生物检体及相关数据应被匿名。在我国法中,为履行《网络安全法》42条第2款所规定了信息安全保障义务,控制者有必要采取匿名化处理的方式控制信息风险。“定向广告行业标准”第3条第1款亦规定,匿名化处理是控制者应履行的义务。
然而,就匿名化处理本身而言,其是否属个人信息处理仍存在争议。DeryckBeyleveld认为,匿名化处理的过程也属于个人信息处理过程,需要通知数据主体处理的目的。W. KuanHon则认为匿名化处理的过程不构成个人信息保护规范意义上的处理。笔者认为,匿名化处理作为一种风险控制手段,有时还是控制者的法律义务,不属于个人信息处理,无需获得信息主体知情同意。若要求控制者在匿名化处理中承担个人信息处理的义务明显加重了控制者的负担,降低了其寻求信息匿名的积极性,逐一通知信息主体且在涉及敏感信息时征得其明确同意也不具可操作性。即便是将匿名化处理理解为个人信息处理,由于其归根结底是一种防止个人信息泄露的手段,其本身也应被认为符合数据处理的初始目的。
六 结论
由于匿名信息具有独特的功能与价值,匿名化处理被广泛运用于信息处理的各个方面。越来越多的信息控制者宣称其处理的是“匿名信息”。对于这些“匿名信息”匿名与否的判断必须结合匿名的法律标准以及考察匿名化处理的方式。“朱烨诉百度案”中二审法院轻率地认定相关信息为匿名信息并不妥当。至少从Cookies抓取的用于网络活动信息来看,便很有可能属于间接识别个人的信息。尤其是在涉及大数据分析之时,信息匿名的判定须慎之又慎。
匿名信息与个人信息是对立统一的,匿名信息的判断离不开个人信息的概念本身。结合《网络安全法》42条第1款和第76条第5款,匿名信息系经过处理无法识别特定个人且不能复原的,其中识别又包括单独或者与其他信息结合的识别。匿名信息已不再是个人信息。大数据时代下,匿名与否是一个可识别程度的问题,须从控制者与积极侵权人的角度,结合技术的发展在个案中动态地分析信息复原所需的成本和时间。经过处理识别符、个案风险评估、反对再识别的匿名化处理,方可获取符合法律标准的匿名信息。
基金项目:2017年中国法学会民法学研究会青年学者研究项目:“个人信息的私法界定”(2017MFXH004)
韩旭至(1987-),广东广州人,武汉大学法学院博士研究生,华东政法大学师资博士后,主要从事网络法研究。
来源:《大连理工大学学报(哲学社会科学版)》2018年第 4 期
声明:本文来自腾讯网络安全与犯罪研究基地,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。