前言
个人信息保护领域经常遇到与匿名化(Anonymization)相关且容易混淆的术语,比如数据脱敏(Data Masking)、数据加密(Encryption)、假名化(Pseudonymization)和去标识化(De-identification)。这些概念在不同的语境下可能有着不同的意义和法律效果,为此本文将从定义、法律效果和技术实现的角度逐一展开进行简要分析。
数据脱敏
数据脱敏是一个数据科学领域的常用术语,是指在不影响数据分析结果的准确性的前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度和减少个人隐私风险的技术措施。通常而言,数据脱敏分为三个阶段,首先,需要识别出数据库中的敏感字段信息;其次,采取替换、过滤、加密、遮蔽或者删除等技术手段将敏感属性脱敏,脱敏所使用的技术手段与下文提到的去标识化和匿名化用到的技术本质上没有不同;最后,需要对脱敏处理后的数据集进行评价,以确保其符合脱敏要求。总的来说,假名化、去标识化和匿名化都可以算是数据脱敏技术。但是需要注意的是,数据脱敏是一个技术术语,在法律语境下很少使用。
数据加密
密码技术在个人信息保护领域有很多应用。首先,各国的数据保护法律法规都对个人信息的存储和传输提出了加密的要求,以确保个人信息的安全。比如GDPR(General Data Protection Regulation)序言和第32条规定数据控制者和数据处理者应该采取加密之类的措施来减少数据处理的风险,确保个人信息的保密性(Confidentiality)与完整性(Integrity);新版《个人信息安全规范》6.3条规定,传输和存储个人敏感信息时,应采用加密等安全措施;HIPAA(Health Insurance Portability and Accountability Act)第164.312条也规定加密作为保证数据传输安全与访问控制的技术手段。
密码技术通常有狭义和广义之分,狭义的密码技术(或“加密技术”)是指对数据进行可逆的数学变化以隐藏信息的行为,加密前的信息称为明文(Plaintext),加密后的信息称为密文(Ciphertext),从密文还原成明文的过程叫解密(Decryption),加密与解密需要的参数叫做密钥(Key);此外,哈希函数(Hash Function)(或“消息摘要算法”,Message-Digest Algorithm)也属于广义上的密码技术,其可以将任意长度的数据转换为固定长度的哈希值,且原文与哈希值为一一映射的关系。相比狭义的密码技术,哈希函数特点在于不具有可逆性(无法解密),且不需要密钥参与加密过程。常见的哈希函数有MD5和SHA-1等。
对于狭义上的加密技术来说,其分为对称加密(Symmetric cryptography)与非对称加密(Asymmetric cryptography)两种类型。对称加密技术无论是加密还是解密都只采用同一密钥,常见的对称加密算法有DES、AES和RC系列;非对称加密体系指加密的密钥与解密的密钥不同的加密算法,加密密钥称之为公钥(Public key),解密密钥为私钥(Private key),常见的非对称加密算法有RSA、DSA和椭圆曲线算法等。但是无论是哪种加密技术,只要个人信息控制者拥有(私)密钥,就可以将加密后的密文还原成明文。
对于哈希函数而言,其没有密钥体系,且具有单向性,即任何人都无法从密文(哈希值)逆向求出相应的原始明文数据。但是仍然存在两种可能复原的情形:其一为映射表(Mapping table),即个人信息控制者在对标识符进行哈希处理时,通常会生成一张哈希值与原始标识符的映射表单另外单独保存起来,用于还原标识符;其二为彩虹表(Rainbow table),虽然哈希函数具有单向性,但是哈希函数明文与密文具有一一映射的性质。根据该性质,彩虹表是一种基于字典破解(提前构建一个“明文->密文”映射关系的一个大型数据库,破解时通过密文直接反查明文)与暴力破解(穷举所有可能的明文,将经过哈希后生成的密文与要还原的密文比较),在字典破解的基础上改进以时间换空间的破解方式。此外,考虑到需要破解的密文都有一定的顺序(Order),比如直接标识符手机号通常是11位数字,且前三位数通常固定,那么根据这些顺序规则,可以大大减少试错成本,从而快速的破解出哈希值的原文。
基于上述性质,加密除了可以作为个人信息传输与存储的安全保障技术外,还可以用作为下文所述的假名化、去标识化和匿名化的实现技术手段。然而,仅仅使用加密技术可能不足以达到去标识化或匿名化的要求,因为去标识化和匿名化往往需要防止重识别的能力。而狭义加密技术中的密钥和哈希函数中的映射表和彩虹表使得加密后的标识符的复原成为了可能。此外,即使采取了相应的措施(比如将密钥和映射表彻底删除等),使得该标识符无法被还原,攻击者仍可能将其他地方获取的数据与该数据其他字段结合起来识别出特定的个人信息主体。
假名化
假名化是指通过生成新的字符来替代原标识符(通常为直接标识符)的数据处理方式。假名化的概念在GDPR、CCPA(California Consumer Privacy Act)和各种标准文件中出现过,相关定义如下表所示:
根据上述定义,假名化技术是指用生成的新字符,即假名(pseudonym),取代原来的直接标识符,使得在不借助额外信息情况下无法识别出个人信息主体。WP29工作小组《Opinion 05/2014》中列举了常用的假名生成技术有如下几种:1)带密钥加密(Encryption with secret key);2)哈希函数(Hash Function);3)带密钥的哈希函数(Keyed-hash function with stored key);4)令牌化(Tokenization)等。带密钥的哈希函数其实是加盐(Add salt)哈希的一种情形。所谓加盐,是指一种增强哈希函数安全性以应对上文所述的彩虹表破解的常用技术手段,即在进行哈希加密前在原标识符的特定位置(通常是头部或者尾部)加上一串字符(盐值,Salt value)。对于盐值的选择,通常有固定字符串或一次性随机字符串等等。带密钥的哈希函数指的就是通过在标识符中加入一串密钥(Key)(密钥单独保密存储),这里的密钥就是盐值,比如对标识符手机号码进行加加盐哈希处理,即对“Key+手机号码”进行哈希处理得到假名。这样在攻击者不知道盐值的情况下,可以极大的提升彩虹表破解的难度。
如上文数据加密部分所述,通过加密标识符生成的假名的方式,用于还原标识符的信息为密钥;通过哈希函数和令牌化技术生成假名的情况下,通常会额外生成一张假名与原始标识的映射表单用来还原标识符。根据GDPR和CCPA等法律的要求,这些密钥或者映射表单等可用来还原标识符的“额外信息”需要与假名化后的个人信息分开存储以保证个人信息的安全。特别需要注意的是,假名化虽然可以在一定程度上可以减轻数据主体的风险和帮助数据控制者满足数据保护的义务。但相比下文将会提到的去标识化与匿名化措施相比,假名化后的信息仍然是个人信息,因而采用假名化技术处理的个人信息不能排除相关个人信息保护法律法规的适用。
去标识化
相比假名化,去标识化的概念更加复杂,在不同的地区可能有着不同的定义和法律效果。去标识化主要出现在美国和加拿大等地的隐私法律中,中国的《个人信息安全规范》亦有相关的规定,具体条文如下表所示:
从上述规定可以看出,去标识化是指一种对标识符进行处理,使其处理后的信息无法识别到特定个人信息主体的数据处理方式。其中中国的《个人信息安全规范》和《个人信息去标识化指南》与美国和加拿大等地区相关法律关于去标识化的定义最大的区别在于防止重识别是否需要考虑间接识别的可能性。中国限定了重识别时“不借助额外信息”,即否定了“间接识别”的情形,这一点与GDPR中的假名化非常类似;而CCPA和HIPAA等法律对防止重识别提出了要求更高,需要考虑到结合其他额外可能获得的信息综合评估重识别的可能性,其更接近下文将提到的匿名化技术。
除了定义上的区别,去标识化的法律效果在国内与美国和加拿大等地有着本质的区别。CCPA、HIPAA等法律都规定,经过去标识化处理的个人(健康)信息不再属于个人(健康)信息,从而不再适用CCPA、HIPAA和FIPPA等法律的约束。与之相反,在《个人信息安全规范》中,人信息经过“去标识化”后仍是个人信息。同样,与GDPR中的假名化类似,虽然去标识化后的数据仍然是个人信息,但是《个人信息安全规范》仍推荐个人信息控制者进行去标识化处理以减轻泄露个人信息的风险和其他法律效果。下表为相关条文:
虽然不同地区的去标识化在重识别标准或者法律效果上有显著差异,但是在实现技术上各国的规定大同小异。根据《个人信息安全规范》3.15条,去标识化的方式有假名、加密和哈希函数等技术手段;《去标识化指南》给出的常用去标识化技术有统计技术、密码技术、抑制技术、假名化技术、泛化技术和随机化技术等等;《HIPAA去标识化指引》给出的去标识化技术有抑制技术(Suppression techniques)、泛化技术(Generalization)、置换技术(Perturbation)等。可以看出,假名化实质上是去标识的一种技术手段,ISO-TS-25237-2008中也认为假名化是去标识化的一个子类(Subcategory)。与假名化类似,在进行去标识化处理后,个人信息控制者通常保留着可用于重识别个人信息主体的信息,这也是去标识化与下文即将提到的匿名化的一个显著差异。比如在《信息安全规范》6.2条规定,进行去标识化处理后需要“采取技术和管理方面的措施,将可用于恢复识别个人的信息与去标识化后的信息分开存储并加强访问和使用的权限管理”;HIPAA 第164.514(c)条规定,个人信息控制者可以分配代码(code)或者其他识别方式(other means of record identification)给去标识化的信息,以使得后续能够进行重新识别。因此,从某种意义上来说,去标识化所规定的“无法重新识别”主要针对的是个人信息控制者以外的其他信息接收者。相比去标识化,下文将介绍的匿名化所规定的防止重识别通常还包括了个人信息控制者本身。
匿名化
匿名化与去标识化的概念经常容易混淆,有些地区将这两个概念替换使用,而有些地区对匿名化与去标识化有着不同的定义。匿名化的概念主要在中国、欧盟、日本和新加坡等地的数据保护法的语境下出现,具体定义如下表:
从上述定义可以看出,匿名化与去标识化的目的都是对个人信息进行处理,使处理后的信息即使结合其他额外信息也无法识别到特定个人信息主体。此外,在法律效果上,除了日本的《个人信息保护法案》36条仍然规定控制者处理匿名化后的信息仍需遵循相关要求,匿名化与美国等地区的去标识化效果一致,即匿名化后的信息不再属于个人信息。但是相比去标识化,大多数法律对匿名化还要求匿名化后信息的不可复原性。欧盟WP29工作组在《Opinion 05/2014》中给出了不可复原性的两个要求:1)重识别的主体为个人信息控制者自身或其他第三方, ISO/IEC 29100:2011(E)2.2条关于匿名化的定义也是这一观点;2)需考虑到所有合理可能使用的重识别方法。如果基于该标准,那么上文所述的去标识化明显无法满足匿名化的要求,因为去标识化后的个人信息控制者通常保留了用于还原或重识别的信息。基于此,正如美国教育部下属PTAC(Privacy Technical Assistance Center)发布的《数据去标识化:基本术语概览》和NIST发布的《个人可识信息保护指引》提到的,如果用于复原或者重识别的信息不再存在,那么该去标识化信息可以认为是匿名化信息。
《网络安全法》第42条对个人信息的处理提出了诸多限制,但是同时也提供了免除这些限制的例外情形,即“经过处理无法识别特定个人且不能复原”。虽然法律条文没有明确使用“匿名化”的表述,但《<网络安全法>释义》提到42条为借鉴国外关于匿名化的规定制定的条款。42条在法律层面上给出了匿名化的效果,即不再适用《网安法》42条的限制要求。与之配套的国家标准《个人信息安全规范》3.14条再次明确了匿名化的“不可复原性”,以及匿名化后的信息不再属于个人信息。但是,中国语境下的匿名化仍有许多不清晰的地方,比如重识别的主体是否限制在控制者之外的第三方和“无法复原”的具体程度要求等等,需要新的立法或相关标准来界定。
匿名化与去标识化的技术实现手段大同小异,参考WP29的《Opinion 05/2014》、HIPAA的《去标识化指引》、加拿大安大略省信息与隐私委员会发布的《结构化数据的去标识化指南》、新加坡个人数据委员会发布的《匿名化指南》和国标《个人信息去标识化指南》等指南文件,匿名化与去标识化的技术主要有假名、抑制、泛化、随机化等等。由于篇幅原因,本文将不再详述这些技术。
通常来说,匿名化的第一步是针对直接标识符进行脱敏处理,比如将直接标识符假名化、加密、抑制或者屏蔽等等;其次,再对间接标识符进行泛化或者随机化,但是需要注意,泛化或者随机化程度越高,虽然安全性就越高,但是同时数据的可用性也就越低,因此,对数据处理时还需要对数据的可用性进行考虑,在匿名性与可用性之间达到一个平衡。此外,差分隐私和K-匿名模型的发展也为匿名化信息重识别风险评估提供了量化标准。但无论如何,不存在完全无法复原的匿名化信息。因此,在进行匿名化时,除了匿名化技术手段的使用,管理手段的使用也非常重要,比如控制者需要事先考虑匿名化后的数据使用场景和目的等,以此决定匿名化处理到什么程度以满足可用性的要求,以及考虑数据接收方可能具有的背景知识以及重识别技术能力等,决定一个可接受的重识别风险阈值,从而制定一个可行的匿名化方案;匿名化处理后,控制者需要进行重识别风险评估,以保证匿名化达到了要求;最后,持续的对匿名化效果进行跟踪也非常重要,随着时间推移,重识别技术和攻击者的重识别能力都在变化,因此需要定期进行去重标识风险评估,并与可接受的风险阈值进行比较。
总结
综上所述,数据脱敏作为一个技术用语,并没有出现在各地区的法律当中;加密技术作为一种假名化、去标识化或者匿名化的技术手段,其本身单独使用并不能达到去标识化与匿名化的要求,需要结合其他技术手段使用;假名化是指用生成的假名来替代直接标识符,使得不借助额外信息的情况下无法识别出个人信息主体的技术,其本身也是去标识化或者匿名化的一种技术实现方式;而去标识化在不同地区有着不同的定义,比如中国语境下的去标识化信息仍然属于个人信息;而在美国加拿大等地区的相关法律中,去标识化后的信息不再属于个人信息。此外,去标识化的标准在这两种语境下也不一样;而匿名化同样作为一种免除个人信息保护法限制的手段,相比去标识化有着更严格的要求。此外,去标识化或匿名化不单单是只靠技术手段就能实现,还需与管理手段相结合才能确保个人信息的安全。
参考文献:
1.朝乐门:《数据科学》,清华大学出版社2016年版。
2.张焕国,唐明:《密码学引论》,武汉大学出版社2015年版。
3.密码破解的利器——彩虹表(rainbow table),https://www.jianshu.com/p/732d9d960411,2020年9月11日。
4.Introduction to the hash function as a personal data pseudonymisation technique, https://edps.europa.eu/data-protection/our-work/publications/papers/introduction-hash-function-personal-data_en,2020年9月12日。
5.Opinion 05/2014 on Anonymisation Techniques,https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf,2020年9月12日。
6.GB/T 35273-2020,信息安全技术 个人信息安全规范。
7.GB/T 37964-2019,信息安全技术 个人信息去标识化指南。
8.Guidance Regarding Methods for De-identification of Protected Health Information in Accordance with the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule,https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html#protected,2020年9月12日。
9.Guide to Protecting the Confidentiality of Personally Identifiable Information(PII),https://nvlpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-122.pdf,2020年9月12日。
10.ADVISORY GUIDELINES ON THE PERSONAL DATA PROTECTION ACT FOR SELECTED TOPICS,https://www.pdpc.gov.sg/guidelines-and-consultation/2020/02/advisory-guidelines-on-the-personal-data-protection-act-for-selected-topics,2020年9月13日。
11.Data De-identification: An Overview of Basic Terms,https://www.mask-me.net/Downloads/data_deidentification_terms.pdf,2020年9月13日。
12.杨合庆:《中华人民共和国网络安全法释义》,中国民主法制出版社2016年版。
声明:本文来自北源有数,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。