作者:Luk Arbuckle
来源:IAPP官网(2020年4月27日)
翻译:林洁琼,上海交大凯原法学院硕士生
我们正处于全球病毒肆虐之中,为了制定基于证据的政策决定、开发有效治疗方法以及提高运营效率保持医疗体系持续运转,相关COVID-19数据的访问需求变得越来越重要。但访问个人数据面临隐私风险,许多案例已证明,被确诊患有COVID-19的人易受到伤害。这对处于数据共享和数据发布第一线的全球隐私专业人士提出了挑战。常见方法是利用“聚合”数据,使其安全共享或发布。尽管汇总似乎是一种创建数据安全输出的简单方法,但它充满了危险和陷阱。就像我们行业中其他事情一样,数据聚合是否安全的答案是“视情况而定”。
一、倒推数据
实际上,国家统计组织的统计信息披露控制很大程度是为了保护汇总或表格形式信息而诞生的。而且已经开发出多种方法。最为熟悉的是阈值规则(threshold rule),要求任何汇总数据的分类代表着最少人数。例如,当阈值为10时,至少有10个人以相同的区域、性别和年龄组合表示。这似乎很简单,但实际上很复杂。假设有一个汇总数据表格,各列代表区域、性别和年龄的识别属性。添加了另一列,代表这些标识属性组合的人数。应用阈值10意味着删除少于10的任何计数,如下表所示。但通常情况下,表格总结会提供总数(在统计数据中称为边际)。
区域 | 性别 | 年龄 | 人数 |
A | M | 10-19 | * |
A | M | 20-29 | 17 |
A | M | 30-39 | 15 |
A | M | All (10-39) | 39 |
如果有总结一行,即上表最后一行,我们可以轻松确定区域A、性别M和10–19岁的人数为39 – 15 – 17 =7。这是很明显例子。这也是一个普遍问题,一些已知方法可以在包含边际的情况下轻松地跨越多个维度进行逆向聚合(如穿梭算法shuttle algorithm)。这些边际可能来自发布版本,如某个地区COVID-19确诊病例的总数。那不包括总结或边际呢?随着时间的推移而生成聚合数据,也会产生此类总结。假设上面表格是2月份的,其中{区域A,性别M,年龄30-39} = 15,对于3月份,则生成了更新表格,其中{区域A,性别M,年龄30–39} =16。很容易看出在此期间增加了一个人,这违反了阈值规则的精神,因为计数差异的表示应少于10个人。
二、重构原始数据
上述挑战源于重叠计数。当考虑聚合数值数据时,事情会变得更加复杂。这就是开发其他方法的原因,如优势规则(dominance rule)——结合阈值规则与比例规则以确保汇总最终不会只代表一两个人。例如,包括家庭收入的数据。如果一个人的收入最终占总收入的80%及以上,即使加总10人以上的收入也可能无法提供足够保护。这导致了“聚合”问题。广义上,它可能意味着整理数据(最不适合当前讨论),计数一组人员,加总人员数值数据,或者计算任何有关人员数据的统计信息。统计可以引入一个全新的复杂性领域(不仅仅因为人们对统计研究感到恐惧)。当前挑战是所有这些聚合数字形式都可能重建原始数据,这称为数据库重建定理(database reconstruction theorem)。一般而言,根据相同基础数据产生的统计数据越多,则越可能从这些统计数据中重构基础数据。这是因为可能生成这些统计信息的数据组合数量是有限的。美国人口普查局投入巨资开发使用差异隐私的新型工具就是基于该原因。
三、视情况而定
去识别化或匿名化(两者通常可互换使用)被广泛定义为消除数据与人之间的关联。数据可以是记录级别或者聚合,遵循与ISO 20889术语和技术标准化工作相同的原则。将这些技术应用于聚合数据在某种程度上是事后事实,而应用于记录级别数据则更接近设计中的隐私精神。但有些方法可以将这些技术构建到聚合本身中。 无论如何,作为隐私权专业人员,仅从数据中删除直接标识属性不应被认为是去标识化或匿名化。考虑到GDPR的全球影响,也许应称其为假名化数据。建议使用聚合数据看似很简单,但在隐私世界中从来没有简单,“视情况而定”是普遍做法。实际上,使用去标识化或匿名化的聚合数据,或者去除聚合数据与人员之间的关联可能更安全。但不要以为聚合数据就是安全的,这会在共享或发布数据的方式上提供错误的安全感。
四、见机行事
这并不是要让数据的安全输出过于复杂。在COVID-19流行下,若非特殊情况,我们需要考虑产生被有效保护以及有效可扩展的实用数据的方法。对于非复杂数据输出(如计数),请保持简单:一组标准属性(例如区域、性别、年龄),属性聚合而成,不产生汇总统计信息的基础数据(降低可能会揭示潜在计数的重叠风险),与先前报告没有重叠的特定报告期间。详细数据方案可能更加复杂,尤其是潜在标识数据。除了变换数据输出外,还可以做很多事情。当具备适当技术和组织控制的数据保护环境,仅为了批准目的而共享或发布数据将降低威胁。有限语境可以限制保障数据输出安全的数据转换。尽管这似乎比聚合数据更为复杂,但确实回答了“视情况而定”问题。
https://iapp.org/news/a/aggregated-data-provides-a-false-sense-of-security/
声明:本文来自数据法盟,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。