预测性隐私：人工智能和大数据背景下的集体数据保护

译者按

本文是由德国奥斯纳布吕克大学认知科学研究所人工智能伦理研究员莱纳·米尔霍夫（Rainer Mühlhoff）所作。原文标题：Predictive privacy: Collective data protection in the context of artificial intelligence and big data，发表在《大数据与社会》(Big Data & Society)2023年第10卷第1期。本文指出大多数人工智能的应用在本质上是进行预测分析。在预测分析产生巨大社会影响的背景下，作者认为需要采用新的数据保护进路，提出“预测性隐私”的概念，主张从个人数据保护措施转向集体数据保护措施，将数据保护重点从个人信息转向数据处理，以此规范大型数据处理者所掌握的“预测能力”。

01 摘要

大数据和人工智能对数据保护提出了新的挑战，因为这些技术可以根据许多人的匿名数据对第三方进行预测。预测信息的例子包括权力、性别、年龄、健康状况、性取向、种族等。此类“预测分析”应用的基础是使用机器学习模型或更简单的统计方法，将相关个人的行为数据（如使用、跟踪或活动数据）与其他许多人的潜在匿名处理数据进行比较。文章首先指出，预测分析有很大的滥用潜力，其表现形式为社会不平等、歧视和排斥。这些可能性不受欧盟现行数据保护法的监管；事实上，匿名海量数据的使用在很大程度上是不受监管的。在 “预测性隐私”这一术语下，提出了一种数据保护方法，以应对预测分析被滥用的风险。当一个人的个人信息在其不知情且违背其意愿的情况下根据许多其他人的数据被预测出来时，他的预测性隐私就受到了侵犯。随后，预测性隐私被表述为一种受保护的物品，并提出了在预测性分析监管方面改进数据保护的建议。最后，文章指出，预测分析背景下的数据保护目标是监管“预测力”，这是平台公司与社会之间信息力量不对称的新表现。

02 引言

当今人工智能（AI）技术最重要的应用之一就是所谓的预测分析。我用这个术语来描述基于数据的预测模型，它可以根据现有数据对任何个人进行预测。这些预测可能涉及未来行为（例如，某人可能会购买什么？）、未知的个人属性（例如，性身份、种族、财富、教育水平）、一时的弱点（如挫折、抑郁、孤独、经济困难、怀孕等）或个人风险因素（例如，精神或身体疾病倾向、成瘾行为或信用风险）。预测分析之所以备受争议，是因为它虽然具有有益于社会的应用价值，但却有被滥用的巨大潜力，而且目前几乎不受法律监管。预测分析使自动化成为可能，从而大大增加了对个人弱点的利用，并助长了个人在获得就业、教育、知识、医疗保健和执法等经济和社会资源方面的不平等待遇。具体而言，在数据保护和反歧视的背景下，需要将预测性人工智能模型的应用作为大型 IT 公司掌握数据权力的一种新形式进行分析，这种权力关系到歧视性结构、剥削模式和基于数据的社会不平等的稳定和产生。

预测分析根据 “模式匹配 ”原则进行，通过学习算法，将目标个人的已知辅助数据（如社交媒体使用数据、浏览历史、地理位置数据）与成千上万其他用户的数据进行比较。这种模式匹配是预测性隐私侵犯行为的核心，只要有足够大的用户群披露他们的敏感属性以及行为和辅助数据，这种模式匹配就有可能发生——通常是因为他们不知道这些数据可以通过基于大数据的方法加以利用，或者是因为他们认为他们个人“没什么可隐瞒的”。正如我将论证的那样，预测性隐私问题表明了当代数据隐私观点中固有的自由主义的局限性，即个人有权控制关于他们的数据被共享。因此，预测性隐私问题加强了在数据保护中锚定集体主义保护产品和集体主义防御权利的理由。

在隐私权的哲学理论中，集体主义观点早已考虑到自己的数据也可能对其他人产生负面影响，因此认为个人不应在各个方面自由决定向现代数据公司披露自己的哪些数据。与许多个人相关的大量匿名数据不应由数据处理人员自由处理，因为可以从匿名数据集中提取预测能力。这与欧盟《通用数据保护条例》（GDPR）规定的当前法律状况形成了鲜明对比，该条例并不限制处理和存储匿名数据以及从中得出的预测模型。最后，我将呼吁以集体主义的方式重新制定 GDPR 中规定的数据主体权利（访问权、更正权、删除权等），以便受影响群体和整个社会为了共同利益而有权针对数据处理机构行使这些权利，从而防止预测能力的滥用。

03 预测分析

就本文而言，预测系统究竟基于哪种算法和程序并不重要。我将使用预测分析作为一个总括术语，既包括机器学习方法，也包括更简单的统计评估。预测分析指的是技术学科，而 “预测模型 ”指的是这一技术的具体表现。不过，为了充分理解数据保护问题，对预测模型进行功能性描述是有帮助的。预测模型是一种数据处理系统，它接收关于某个个体（或“案例”）的一组可用数据作为输入，并输出关于该个体的某些未知信息、分类或决策（以下称为“目标变量”）的估计值。

输入数据通常是现成的辅助数据，例如跟踪数据、浏览器或位置历史记录或社交媒体数据（如“喜欢”、帖子、好友、群成员）。目标变量通常是难以获取的个人相关信息，或者是与预测模型运营商业务相关的个人决策（例如，以何种价格向某人提供保险或信贷）。

如果在 20 多亿 Facebook 用户中，只有一小部分用户提供了自己的性取向信息，那么由此产生的训练数据集仍将包括数百万用户。根据该数据集训练出的预测模型可能会被该平台用于估计所有其他 Facebook 用户的性取向，包括那些未同意处理该信息、故意不提供该信息或可能不知道该公司可以估计其性取向的用户。

宾夕法尼亚大学的医学研究人员表明，这种方法可用于预测用户是否患有抑郁症、精神病、糖尿病或高血压等疾病。Facebook 声称，它可以通过用户发布的信息识别出有潜在自杀倾向的用户。Kosinski 等人的一项备受瞩目的研究表明，Facebook“点赞 ”数据可用于预测 “一系列高度敏感的个人属性，包括性取向、种族、宗教和政治观点、个性特征、智力、幸福感、成瘾物质的使用、父母离异、年龄和性别”。

图 1. 预测分析程序示意图。

04 预测的隐私

预测分析可以利用个人或群体的现成数据来估计未知的个人信息。每当数字平台的许多用户提供数据基础以确定辅助数据和目标数据之间的相关性时，使用现代机器学习技术就可以实现这一点。因此，我们面临的情况是，少数用户(例如Facebook用户提供有关其性取向的信息)的数据许可为同一平台上所有用户的可预测信息设定了标准。到目前为止，欧盟范围内的数据保护法规还没有有效地解决预测分析的问题，GDPR未能对预测模型的生产和使用施加合理的限制。

为了规范对预测信息滥用的保护，本文试图构建一种新的受保护的物。为了直接回应预测分析带来的危险，本文引入“预测性隐私”概念来描述这种受保护的物。在这个想法的最初版本中，预测性隐私可以通过详细说明侵犯案例来负面定义:

定义1:当个人或群体的个人信息在他们不知情或违背他们意愿的情况下被预测时，个人或群体的预测性隐私被侵犯，这种方式可能导致对个人或群体的不平等对待。

05 新的隐私问题:区分三种类型的攻击

预测分析的特定隐私威胁是在人工智能和大数据技术监管不足的情况下出现的，并且在过去10年才显现出来。为了了解这种威胁的新性质和相应的新保护需求，有必要将这种新型攻击场景与过去几十年来在数据保护和隐私的论述中各自发挥突出作用的两种旧攻击场景进行比较(概述见表1)。

A类:入侵

数据保护中的典型威胁可以描述为入侵。这种类型的攻击与针对特定个人或团体的目标监视密切相关。自20世纪60年代计算机化数据处理的扩散以来，数据从或多或少安全或至少是非公共区域被盗的风险一直是关于数据保护的辩论的主要内容(今天，防止这种威胁被称为数据安全)。虽然主要的潜在攻击者总是数据处理组织本身，但在大众的想象中，这种类型的攻击通常与犯罪分子或情报机构的黑客攻击和网络攻击有关。侵入性隐私泄露的攻击目标是关于个人、群体、公司和政府流程的敏感数据，这些数据没有被设计为攻击者可以访问。

B类: 重新识别

第二种类型的攻击被称为重新识别。这种类型直到20世纪90年代才变得重要起来，在医疗保健系统数字化之后，例如，保险公司的计费流程或医院的患者管理，提供了大量关于医疗保健流程的数字数据库，从而产生了在科学研究背景下使用这些数据进行统计评估的想法。这就产生了一个问题，即如何使这些数据库中的条目匿名，以便能够在不侵犯任何人隐私的情况下发布有用的信息。

C类:预测

然而，重新识别不能再被视为当今数据保护中最重要和最主要的攻击类型。这并不是说，通过大数据和人工智能技术预测未知数据的原理使重新识别的危险消失了(就像入侵的危险一样)。然而，在影响范围和可扩展性方面，不受监管的预测分析的威胁远远超过了经典的攻击场景。一旦建立了一个预测模型——目前还没有有效的法律限制——它就可以以一种自动化的方式应用于数百万用户，几乎没有边际成本。只要预测分析技术仍然是一个不受监管的领域，一些用户的数据容错程度决定了几乎任何人的哪些信息可以被估计出来。

06 预测性隐私作为一种受保护的物

预测性隐私问题是当前数据保护面临的最重大的新挑战。为了最大限度地认识到预测性隐私保护是一个数据保护问题，有必要将有关数据保护的公共话语与其“传统自由主义思想的根源”分开，这种思想将隐私构建为一种“私人利益”。在许多西方法律传统中，当涉及到数据保护和隐私权时，对个人索赔的关注被这样一个事实所铭记，即数据保护服务于保护基本权利，这是个人反对国家的权利。因此，应该通过集体主义的视角来看待预测性隐私这一受保护的利益，而集体主义的前提是一套将集体置于个人之上的道德价值观。当然，对个人来说仍然存在威胁，他们可能会根据预测的信息受到不利的对待，我们确实需要防范这种威胁。但这种危险本身并不新鲜:早在基于人工智能的预测分析出现之前，银行顾问就会根据刻板印象做出有关信用的决定，医生会根据个人评估优先考虑治疗方案，人力资源人员会在招聘过程中预测求职者的表现。

因此，对“预测性隐私”这一受保护利益的积极定义，超越了上文定义1中对个人隐私预测性保护的消极、以伤害为中心、仍然隐含的个人主义定义，后者是之后引入的。因此，用一个积极的框架和更集体主义的版本来补充第一个定义:

定义2:预测性隐私作为一种受保护的物，指定了一种(法律和道德的)保护水平，以防止大型数据处理器的预测能力;这是对国际权力不对称的一种特殊的、当代的、技术表现形式的保护要求。

从这个更微妙的角度来看，预测性隐私是关于监管一种技术，当涉及到平等、公平和人类尊严的价值观时，这种技术可能会从结构上伤害我们许多人，从而伤害整个社会。对预测性隐私的侵犯——在“侵犯预测性隐私”和“预测性侵犯(个人)隐私”之间存在微妙的语义差异——指的是政治、经济和技术领域，这些领域通过使用预测模型，进一步加剧了社会不平等、对个人脆弱性的自动化利用和基于数据的结构性社会经济选择。采用预测性隐私作为一种受保护的物，将数据保护的重点从个人的防御性权利转移到社区的预防性保护，以防止技术支持的新形式的社会和政治权力不对称-预测权力。

预测性隐私是一种集体责任

除了对预测性隐私这一受保护物的集体主义建构之外，对预测性隐私的侵犯还具有集体“作恶者”或因果关系的特征。这是因为预测分析只有在满足两个条件时才有可能实现:首先，在使用数字服务时，足够大的用户群提供与辅助数据相关的敏感数据。其次，平台公司和其他经济行为者在法律上被允许汇总这些数据(也可能以匿名形式)并使用它来训练预测模型。考虑到这些前提条件，保护可预测的隐私，完全需要摆脱许多人对我们日常使用网络数字服务的道德规范的根深蒂固的自由主义方式，即我们也认为，是否允许平台公司窃取他们的个人数据是每个人自己的事。保护预测性隐私需要一种广泛的共同意识，即自己的数据可能会伤害他人，而现代数据保护不仅仅意味着让每个用户控制从他们那里收集的个人数据。为了充分理解这一点，一个有用的方法可能是扭转这一论点:许多其他人或多或少在知情和自愿的情况下披露自己的数据(这些数据是由平台公司完全合法地收集的)可以用来估计关于自己的敏感信息。

在这种情况下，应该注意到匿名数据对于预测模型的训练是足够的。人们只需要辅助数据和目标信息的对应——例如，Facebook上的“喜欢”和健康状况信息;预测分析的训练数据不需要包含识别数据字段。因此，匿名化的承诺通常是杠杆化的，以尽量减少用户不愿意同意处理他们的敏感数据;匿名化是基于预测分析的大数据商业模式的无害要求在用户不匿名使用数字服务的情况下，平台公司很可能仍然可以避免将预测分析的培训指定为数据处理的目的，因为他们可以在收集后直接将数据匿名化，然后进一步使用它。这样做的原因是匿名数据不属于GDPR的范围，可以自由使用，特别是以汇总形式它也可以无限期存储，只在以后用于预测分析。最后，应该记住，经过训练的预测模型本身代表派生的、高度聚合的、匿名的数据，因此不属于GDPR的范围，特别是可以在没有有效数据保护约束的情况下出售和流通。

07 当前监管赤字

在过去的15年里，预测分析和人工智能技术大大增加了滥用匿名海量数据的可能性(见表1)。然而，在目前的法律情况下，预测模型的生成(以及较小程度上的使用)在很大程度上是不受监管的，因此滥用的可能性是一个潜在的严重社会问题，可以稳定地帮助产生和加强社会经济不平等和歧视模式。

08 规管建议

除了之前关于基于欧盟GDPR的监管缺陷的讨论之外，本节还提供了一些概念性建议，以告知未来关于如何在数据保护立法的背景下改进预测分析监管的讨论。根据数据保护作为一种“预先保护”的原则，其目的是在数据处理实体如何对待我们时，建立一种平等和公平的预防性保障。其目的是平衡社会和组织之间的权力不对称;这种不对称已经存在于对预测性隐私的潜在和迫在眉睫的侵犯中，也存在于不同群体和个人在滥用匿名海量数据和预测模型方面的不平等分布的脆弱性中。

有效限制滥用预测分析风险的数据保护法规的保护作用不能仅仅放在受影响个人的防御权利的肩上。这些文书总是落后于实际的侵权事件，而且由于侵权行为往往难以从个人的角度加以查明和证明，在目前情况下，这些文书的效力进一步减弱。因此，虽然个人的法律追索几乎没有成功的希望，但由于预测分析技术自动并行应用于数千人时产生的分散效应，对整个社会的损害可能是相当大的。

（一）衍生资讯

首先，类似于加州的CCPA，任何未来的监管都应该避免，就数据处理的法律后果而言，在记录的个人信息(例如明确陈述的人口统计信息，如性别)与推断的个人信息(例如对购买力的估计，对疾病的倾向，药物滥用等)之间建立有效的区别。在这方面，至关重要的是，保护机制不依赖于信息是否事实正确(例如，因为预测申请人可能倾向于抑郁症而被拒绝工作侵犯了申请人的隐私，而不管该预测是否准确)。与Wachter和Mittelstadt(2019)提出的“合理推断权”相反，仅为数据保护配备工具(保护个人免受错误或不准确预测的影响)并不能解决当前的问题，即需要平衡全球数据聚合者和社会之间的权力不对称。如前所述，即使是准确的预测也可能被以有害于社会和个人的方式使用和滥用(例如，拒绝向提供者预测可能易患某些健康状况的人提供保险)。提供针对这种情况的保护，应该在预测性隐私的法律实施范围之内。

（二）匿名数据和训练模型的目的限制

为了保护社会不受公司以不受控制的方式积累预测能力的影响，未来的监管应通过类似于GDPR所载的数据保护原则，适用于涵盖匿名化的海量数据。这并不意味着，正如该提案经常被误解为暗示的那样，从法律上禁止处理匿名数据，而是像处理个人数据一样，在法律上使这种处理受到目的限制等合理义务的约束。如果数据处理的后果可能影响到第三方，那么同意的法律依据在这里是有问题的。理想情况下，应根据政治、社会和伦理辩论的结果，拟定一份有效的法律依据清单，讨论匿名海量数据的使用对社会有益而不是有害。例如，法律法规可以允许处理匿名数据，专门用于健康研究、垃圾邮件过滤、内容审核和其他措施。重要的是，编制这样一份合法目的清单应与处理匿名数据的目的限制原则联系起来，以减少滥用数据或由此产生的模型用于次要目的的可能性。

（三）限制同意

第三个方向涉及作为法律基础的同意。由于在大数据和人工智能技术的背景下，个人数据的处理通常会对他人产生影响，因此个人同意的有效性值得怀疑。只有在同意决定的后果只影响到给予同意的人的情况下，才能将同意作为法律依据加以限制，这也许是适当的。

（四）集体防卫权

为GDPR下的数据主体权利建立集体主义对等体是另一个关键建议。这意味着，访问、纠正、删除、可移植等权利应集体扩大，以便，例如，受歧视影响的群体以及整个社会有权要求平台运营商提供有关预测模型和匿名数据处理的信息因此，这个想法将在未来的研究中得到充实，即创建一种可以应用于训练后的预测模型的防御权，而不是将模型应用于特定的人以得出预测。现有数据保护条例的这种延伸应该使民主机构能够更好地控制商业组织可以从辅助数据中获得关于任何个人的哪些信息，以及组织根据许多用户的数据培训哪些预测模型这种集体获取权利应有助于揭示哪些歧视模式被写入了预测模型。一旦可以观察到排斥和歧视的模式，或与社会不平等有关的稳定和加强的影响，就应行使纠正或删除这种模式的集体权利。为了行使这些集体辩护权，应该提供监督机构以及集体诉讼等适当的集体补救工具。

09 结论

由于预测能力的积累，预测分析的新潜力也带来了对社会的新风险，这是少数经济参与者、个人和整个社会之间信息权力不对称的新表现。如果不加以监管，预测能力可能会导致全球范围内社会和经济差距、歧视和算法社会分类的进一步增加。为了使预测分析的风险在道德和政治上都有争议，我采用了“预测性隐私”的道德概念，它将预测的个人信息描述为侵犯隐私的潜在工具。延伸这一伦理解释，我认为，为了社会控制预测能力，预测性隐私应该被视为一种受保护的物。目前的数据保护法规不足以合理地约束预测能力，因为它们没有规范预测模型的生产和流通(仅是应用)。考虑到大数据和人工智能技术的具体集体风险，它们更多地体现在社会不平等的巩固上，而不是对孤立个人的攻击，因此，需要评估当前十年的有效数据保护，考虑到它与反歧视措施形成可持续联盟的程度。我们所有人每天都为大数据公司(免费)生成匿名海量数据，基于这些数据的预测建模领域目前基本上是不受监管的。为了认识到监管的必要性，数据保护(尤其是围绕隐私的自由主义话语)必须远离其首选的参考焦点，保护个人的信息领域，并关注当代数据处理的影响，因为它们越来越多地构成了我们的社会。

声明：本文来自数据治理与竞争法研究，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

预测性隐私：人工智能和大数据背景下的集体数据保护

欧盟数字服务法：从中介责任到平台监管

耶鲁教授：为何隐私对公共讨论至关重要？

践行和平共处五项原则，维护网络空间和平安全