一、本文的摘要

本文是一份由德国各州数据保护会议发布的关于人工智能(AI)和数据保护的指导文件。文中讨论了AI应用在数据保护方面的法律要求,特别关注了大型语言模型(LLM)等AI应用,并提供了如何选择、实施和使用AI应用的指导。文中强调,AI应用的部署应明确其使用领域和目的,确保合法性,并尽量避免处理个人数据。对于必须处理个人数据的AI应用,应进行数据保护合规性培训,并确立数据处理的法律基础。文中还讨论了自动化决策的限制、系统开放性与封闭性的选择、透明度的重要性以及员工培训和数据保护官的参与。最后,文中指出,随着技术的发展,这份指导文件也将不断更新和完善。

二、本文的结构

  • 概念设计和AI应用选择

    • 1.1 使用领域和目的确定?

    • 1.2 使用领域合法?

    • 1.3 无个人数据的使用领域?

    • 1.4 数据保护合规的AI应用培训

    • 1.5 数据处理的法律基础

    • 1.6 无自动化最终决策

    • 1.7 封闭系统或开放系统?

    • 1.8 透明度

    • 1.9 透明度和AI培训选择

    • 1.10 透明度和输入历史选择

    • 1.11 更正、删除和其他数据主体权利

    • 1.12 涉及数据保护官和职工委员会

  • AI应用的实施

    • 2.1 确定责任并制定规则

    • 2.2 制定内部规定

    • 2.3 数据保护影响评估

    • 2.4 保护员工,设置企业账户

    • 2.5 通过技术设计实现数据保护

    • 2.6 数据安全

    • 2.7 员工培训

    • 2.8 关注进一步发展

  • AI应用的使用

    • 3.1 个人数据输入和输出的谨慎

    • 3.2 特殊类别个人数据的特别谨慎

    • 3.3 结果的准确性检查

    • 3.4 结果和程序的歧视检查

四、全文翻译

1. 人工智能应用的选择

1.1 确定使用领域和目的?

在部署人工智能应用之前,负责人应明确指定人工智能应用的使用领域和具体目的。鉴于个人数据的处理,这一目的的明确性对于数据保护合规操作至关重要,因为只有根据具体预先确定的目的,才能检查数据处理是否对实现这些目的必要。

对于公共机构来说,还必须确保其使用领域在其法定公共任务的范围内,并且在此范围内处理个人数据对于任务的完成是必要的。

1.2 使用领域合法吗?

某些人工智能应用的使用领域可能从一开始就是不合法的。例如,根据欧盟人工智能法,"社会评分"和公共空间的生物识别实时监控作为人工智能领域的实践,要么完全被禁止,要么只允许在非常严格的例外条件下。

这里的“社会评分”可能指的是使用人工智能对个人或群体进行评分或监控的实践,这可能会侵犯个人隐私和自由。而“生物识别实时监控”可能涉及到使用生物识别技术进行持续监控,这同样可能引发严重的隐私和数据保护问题。根据欧盟人工智能法,这些实践要么被明确禁止,要么只有在满足特定严格条件的情况下才被允许。

1.3 没有个人数据的使用领域?

在确定人工智能应用的使用领域时,可能会发现有些领域可以明确区分出来,在这些领域中,人工智能应用既不会处理个人数据作为输入,也不会产生个人数据作为输出,甚至在人工智能应用的注册和处理过程中也不会涉及个人数据。这些使用领域不受数据保护法规的约束。然而,需要注意的是,个人数据的关联可能不仅仅通过姓名和地址等直接信息来确定,许多其他特征也可能构成个人数据的识别。因此,需要全面而深入地检查一个使用领域是否真的不涉及个人数据,这种检查应该贯穿数据的整个生命周期。

1.4 数据保护合规的人工智能应用训练

在选择人工智能应用时,一个重要因素可能是人工智能应用是否按照数据保护合规的方式进行了训练。

  • 训练中是否使用了个人数据?

  • 如果是,使用这些数据进行训练是否有法律依据?

  • 在部署时,人工智能应用本身是否涉及个人关联?

负责人通常无法影响这些参数。但是,如果负责人自行负责部署人工智能,他们必须确保人工智能训练中的错误不会影响其责任范围内的数据处理。

1.5 数据处理的合法基础?

在利用人工智能应用处理个人数据的每一步,都需要一个符合数据保护法规的合法基础。合法基础的选择取决于多种因素,包括处理实体是公共还是私营部门,以及数据处理的具体场景,比如是否涉及人力资源、健康医疗或消费者合同等领域。

此外,公共机构若采用人工智能应用处理公民个人数据,可能需要根据数据处理的深度和严重性,以及由此可能对个人权利和自由带来的风险,来确定一个更为具体的合法基础。这要求对数据处理活动可能产生的影响进行细致的评估。

例如,巴登-符腾堡州数据保护和信息自由专员发布的讨论文件《使用人工智能时的数据保护法律基础》提供了在选择和履行与人工智能应用相关的数据保护法律基础方面的全面问题概览。

译者注:在数据保护法规的背景下,“数据处理的深度和严重性”指的是数据处理活动对个人隐私和数据保护可能产生的影响程度,这包括但不限于数据处理的范围、持续性、目的、对个人的影响、自动化水平以及数据的存储和保留政策。这些因素共同决定了数据处理活动的法律基础,以及为保护个人数据所需采取的措施。

1.6 禁止完全自动化的决策制定

根据欧盟通用数据保护条例(GDPR)第22条第1款的规定,所有具有法律效力的决策原则上应由人类来作出。只有在满足特定条件,如获得受影响个人的明确同意时,才允许有例外情况存在。如果人工智能应用被用来为个人提出可能产生法律效果的建议,那么必须确保决策流程设计得当,让决策者拥有真正的决策权,而不是仅仅依赖人工智能系统的建议。诸如人力资源不足、时间紧迫或对人工智能支持工作的透明度缺乏了解等因素,都不应导致未经审查的结果被直接采纳。在决策过程中,仅仅形式上的人类参与是不够的。

例如,如果一个人工智能应用自动评估所有收到的求职申请,并自主发送面试邀请,这将违反GDPR第22条第1款的规定。

对于公共机构而言,根据行政程序法(VwVfG)第35a条的规定,完全自动化的行政行为是受到限制的。如果满足一定条件,根据GDPR第22条第2款的b项的规定,GDPR第22条第1款将不适用。只有在决策过程是受限的,并且存在明确的授权基础时,才允许进行完全自动化的行政行为。如果公共机构拥有自由裁量权或行使自由决定权,那么完全自动化的行政行为是不被允许的。

1.7 封闭系统还是开放系统?

在人工智能应用中,可以区分出封闭系统和开放系统两种类型。

封闭系统在一个限定的和技术封闭的环境中处理数据。此外,只有特定的、数量有限的用户群体能够访问这些人工智能应用。在封闭系统中,输入和输出数据的控制权在用户手中。系统本身不打算将应用中输入或产生的数据供系统提供者用于进一步训练。

与之相对的开放系统,例如由提供者作为云解决方案运营的人工智能应用,它们通过互联网对一个不确定的用户群体开放。这样,输入数据就离开了用户受保护的区域,并且根据人工智能应用的设计,这些数据也可能被用于回答其他用户的问题。在这种情况下,存在个人数据被用于其他目的或甚至被未经授权的第三方访问和公开的风险。在这种情况下,还应注意可能的数据传输到第三国的问题,因为在这种配置中经常可以发现这种情况。对于向第三国传输数据,必须考虑GDPR第五章的规定。

此外,还存在有关非公开目的或被归类为机密的服务信息的风险。

开放系统还可以访问其他数据源,如开放互联网,并通过此建立数据的个人关联或扩展对个人的信息。

因此,从数据保护法的角度来看,技术上封闭的系统更受青睐。

1.8 透明度

使用人工智能应用在履行信息和透明度义务方面给数据控制者带来了特别的挑战。如果数据控制者没有自行开发人工智能应用,他们必须确保供应商提供了足够的信息,以便能够实施GDPR第12条及随后条款中的透明度要求。为此,人工智能应用的制造商必须向用户提供相应的文件。例如,如果人工智能应用作为云解决方案部署,根据GDPR第28条第3款第2句e项,服务提供商有义务支持数据控制者履行受影响个人的权利。

数据控制者必须提供的信息和解释包括有关自动决策,包括根据GDPR第22条第1款进行的用户画像分析所涉及的算法原理,以及对受影响个人的范围和可能的影响。“算法原理”一词至少可以推断出,需要解释数据处理方法,特别是与具体应用相关的程序流程的工作方式。可视化和交互技术可以帮助将算法原理的复杂性降低到可理解的程度。

1.9 透明度和人工智能训练的选择权

需要检查是否使用了输入和输出数据进行训练,是否就此进行了充分的信息披露,并提供了选择不使用数据进行训练的可能性。如果无法选择不用于训练目的,并且涉及个人数据,则需要为此目的提供合法基础。因此,从数据保护法的角度来看,不使用输入和输出数据进行训练的应用是更可取的。

1.10 透明度和输入历史的选择权

许多通过文本输入(提示)控制的服务提供存储输入的功能,以便例如能够恢复对某个主题的对话或进一步优化提示。这样,就建立了一个人的输入历史。特别是在多名员工共同使用的情况下,必须透明地通报这一点,并让用户自行决定是否保存自己的输入历史。

1.11 纠正、删除和其他数据主体权利

数据控制者必须确保受影响的个人能够行使根据GDPR第16条的更正权和根据GDPR第17条的删除权。为了有效行使这两种权利,必须设计组织和技术程序。为此,必须实施数据保护兼容的技术设计规定。

在部署人工智能应用时,由于各种原因可能会处理不正确的个人数据。许多人工智能应用的提供者(特别是LLM聊天机器人)甚至明确指出,用户不应依赖结果的正确性,而应检查这些结果。在个人数据不正确的情况下,受影响的个人有更正的权利。这种更正必须能够在人工智能应用中实现,例如通过更正数据或通过重新训练/微调。

如果受影响的个人根据GDPR第17条第1款行使删除权,需要注意,某些人工智能应用可能通过不同数据的组合建立个人关联。因此,在删除个人数据时,必须确保个人关联的永久性不可恢复。这可以通过人工智能应用的不同方式实现。

通过后接过滤器抑制不需要的输出虽然不是GDPR第17条意义上的一般删除。因为导致某个特定输出的特定输入数据可能仍然对KI模型是个人相关的。但是,过滤技术可以帮助避免某些输出,从而服务于特定输出受影响的个人的权利和自由。

其他数据主体权利,如限制处理、数据可携带性和异议权,在设计人工智能应用时也必须考虑。

1.12 咨询数据保护官员和员工代表

当公司或公共机构在准备或做出涉及人工智能应用的决策时,非常重要的一步是咨询数据保护官员。这些官员负责确保数据处理活动遵守数据保护法规,他们的意见对于评估人工智能应用的合规性至关重要。

同时,还应考虑是否需要咨询员工代表。员工代表可能涉及工会或其他形式的员工组织,他们可以提供关于员工对人工智能应用部署的接受度和可能的关切的重要视角。

通过将数据保护官员和员工代表的意见纳入决策过程,组织可以更全面地考虑人工智能应用的影响,确保在尊重员工权利和遵守数据保护法规的前提下,负责任地部署人工智能技术。

2. 人工智能应用的部署

2.1 确定并明确规定责任

在GDPR意义上,数据控制者是指决定个人数据处理目的和手段的实体。如果一个机构仅为自身目的在自有服务器上运行人工智能应用,则通常该机构也被视为唯一的数据控制者。如果一个机构使用外部供应商的人工智能应用,例如作为云解决方案,外部供应商则作为数据控制者的代理人。在这种情况下,通常在应用提供者和数据控制者之间存在一个委托处理合同,根据GDPR第28条,需要签订相应的合同。

2.2 制定内部规定

如果没有明确规定人工智能应用在工作场所的使用条件,就存在员工可能擅自和不受控制地使用人工智能应用的风险。因此,应发布并记录明确的指示,规定在什么条件下和为了什么具体目的可以部署哪些人工智能应用。建议提供允许和禁止使用场景的具体示例,以帮助澄清。

2.3 数据保护影响评估 (DPIA)

在处理个人数据之前,需要进行一般性的风险评估(预先检查)。如果发现处理活动可能对自然人的权利和自由造成高风险,根据GDPR第35条,需要进行数据保护影响评估(DPIA)。在使用人工智能应用时,这通常是必要的。数据保护监管机构已经制定了一份清单,明确指出哪些处理活动应当进行DPIA,并提供了指导,说明在何种情况下可以免除DPIA的要求。

2.4 保护员工,设置公司账户

为了员工在工作范围内的职业使用,雇主应提供设备和账户。员工不应自行使用私人账户和设备与人工智能应用协作,因为这可能会为个别员工创建个人资料。

账户的命名不应包含个别员工的名字,尤其是当人工智能应用不是在公司自己的服务器上运行时。如果注册过程中需要提供电子邮件地址,建议使用公司的工作邮箱。同样,如果注册还需要手机号码,也应使用雇主提供的电话。

2.5 通过技术设计和隐私友好的默认设置实现数据保护

根据GDPR第25条,数据控制者在处理个人数据的系统中必须采取技术和组织措施,以实现数据保护原则。这涉及到“从设计出发的数据保护”和“默认数据保护”的概念,这些概念考虑了人工智能系统的特殊性。这些规定应在人工智能系统的构思阶段就被考虑进去。例如,为员工使用而设置的账户,应在账户启用时选择功能,以确保不会将输入数据用于训练目的,并且不会存储会话之外的输入历史。同样,账户相关的输出数据也不应自动发布,以符合默认数据保护的原则。

2.6 数据安全

作为信息技术系统,人工智能应用除了需要满足数据保护法规所要求的技术和组织措施(特别是GDPR第25条和第32条)外,还必须满足一般适用于IT系统的要求。这包括可靠性、易用性和安全性(保密性、完整性、可用性和弹性)。

2.7 培训员工

为了确保员工能够正确且安全地使用人工智能应用,雇主应当提供适当的培训和指导。这包括通过培训课程、指导手册和沟通会议,帮助员工理解人工智能应用的功能、优势以及在使用过程中应注意的数据保护措施。

通过这种方式,员工不仅能够了解如何有效地利用人工智能技术提高工作效率,还能认识到在使用这些工具时需要遵守的数据保护法规和最佳实践。

2.8 关注进一步的发展

数据控制者必须关注法律和技术领域当前的发展,这些发展可能影响个人数据的处理和对自然人权利和自由风险的控制。这包括检查是否需要满足欧盟人工智能法的额外要求。还应定期检查技术发展,如技术解决方案和更新,对风险的影响,以及是否需要调整内部规定。

3. 人工智能应用的使用

3.1 谨慎处理输入和输出包含个人数据的情形

当输入数据包含个人数据时,必须向数据主体透明地说明其数据的使用方式。在人工智能应用中处理个人数据以及可能向人工智能应用提供者传输数据时,必须确保具备适当的法律依据。为了避免输入个人数据,仅去除姓名和地址是不够的。可以从上下文中推断出与个人相关的信息。特别是,当人工智能应用旨在从非结构化数据中识别信息时,存在较高的风险。

具有个人参考的输入示例:“为汽车经销商X的客户顾问起草一份令人满意的就业推荐信。” 如果该输入可以识别出是来自哪家公司以及在什么时间点进行的,则该输入可能具有个人参考。

即使输入不包含任何个人数据,人工智能应用也可能生成包含个人数据的输出。在这种情况下,可能需要法律依据。此外,必须检查是否必须根据GDPR第14条将处理情况告知数据主体。至少在查询是针对个人参考或要进一步处理个人数据时,这是必要的。

示例1(不引用人员的情况下生成输出的输入):输入:“说出赫尔曼·黑塞的两部小说。” 输出:“赫尔曼·黑塞的两部小说是:1.《悉达多》(1922年):一部哲学小说,描述了古印度一位名叫悉达多的年轻婆罗门的精神追求。2.《荒原狼》(1927年):一部心理小说,讲述了一个名叫哈里·哈勒的人在现代世界中内心的动荡和寻找身份的故事。” 输出不包含任何活人/真人的数据。

示例2(不引用人员的情况下生成输出的输入):输入:“写一首关于数据保护的俳句。” 输出:“数据保护精细, 隐私领域被保护, 网络上的安全。” 这个输出完全是虚构的,不涉及任何真实个人的信息。

示例3(生成没有个人参考的输出的输入):输入:“列举前三个周期表元素。” 输出:“周期表的前三个元素是氢(H)、氦(He)和锂(Li)。” 这个输出完全是关于科学事实的,不包含任何个人数据。

示例4(生成包含个人参考的输出的输入):输入:足球教练请求人工智能:“为我推荐最好的球员阵容。” 如果人工智能的输出是具体的、真实球员的名字,这可能涉及个人数据,需要确保有适当的法律依据和数据主体的知情同意。

3.2 对特殊类别的个人数据要格外谨慎

欧盟立法者将特殊类别的个人数据视为特别值得保护。这包括可能揭示个人的宗教或世界观、工会成员资格、对特定政治党派的偏好,以及健康数据、遗传数据或生物识别数据等个人数据。例如,这可能包括服用某些药物的信息或定期参加某个宗教场所的信息。根据GDPR第9条第1款,原则上禁止处理此类数据,除非符合GDPR第9条第2款至第4款规定的特定条件。因此,必须检查输入、处理和输出特别保护的数据是否符合GDPR第9条第2款的例外情况。

示例:在皮肤诊断,特别是在医生办公室的癌症早期检测中,基于人工智能的系统发挥着重要作用,补充了医生的诊断。如果一个人工智能应用符合专业标准并且作为医疗设备获得批准,GDPR第9条第2款h项连同治疗合同可能是处理患者数据的合适依据。如果不是这种情况,可能需要根据GDPR第9条第2款a项,基于数据主体的明确知情同意来进行数据处理。

3.3 严格验证结果的准确性

对于人工智能应用产生的、涉及个人数据的结果,必须进行严格的准确性验证。大型语言模型(LLM)等人工智能应用的提供者通常会明确指出,由其AI生成的文本可能包含不准确之处,因此在使用这些文本时,始终需要进行独立的核实。这是因为AI应用所依赖的数据和算法可能存在局限性,导致它们提供的信息可能在准确性和深度上有所差异。(译者注:此处强调了AI生成文本的局限性,并建议用户进行核实,以确保信息的准确性。)

3.4 仔细评估结果和程序的公平性

即使人工智能应用的结果在实质正确性或个人关联方面没有问题,它们也可能导致非法处理个人数据的情况,例如,如果这些结果具有歧视性。基于此的数据处理可能是非法的,特别是如果它旨在违反《通用平等待遇法》(AGG),因此不符合GDPR第6条第1款f项的法律依据。因此,负责人必须检查人工智能应用的结果是否适合在法律框架内进一步使用。

即使在个别结果中没有明显的歧视,人工智能应用也可能产生具有歧视性影响的结果。

示例:一个人工智能应用可能会根据公司过去的成功申请提出以下建议:“对于空缺职位,应该优先选择男性申请者。” 将这一结果应用于申请过程中的申请者将构成对性别信息的非法处理,因为它违反了与《通用平等待遇法》(AGG)第1条第1款相结合的第7条第1款。

声明:本文来自那一片数据星辰,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。