英国信息专员公署(Information Commissioner’s Office,ICO)年初开始针对个人数据保护法如何适用于生成式人工智能(GAI)的开发和使用征求公开意见。第二个问题主要讨论目的限制原则在生成式AI场景下的遵从。本文一方面介绍ICO抛出的建议性结论,由于两个原则都是建立在数据处理目的之上,因此同时将最小化原则的实现纳入讨论,抛砖引玉,欢迎文末留言。

主要讨论问题:

  • 模型训练到底多少数据类型和数量是合理的、够用的?

  • 如何确保遵循目的限制原则?

  • 这些原则在AI场景下真的现实吗?

一、原则定义理解

1. 最小化原则的含义

仅收集为特定合法目的而实际需要的个人数据,包括数据类型和量级。

2. 目的限制的含义

首先,在展开数据收集处理之前,公司应明确数据处理目的——明确、具体且合法的目的。如果计划将个人数据用于法律规定需要同意的或功能以外的新目的,需要检查这是否与原始目的相容,或者需要就新目的获得同意。

简单来说,GDPR中的目的限制原则要求数据控制者明确说明处理个人数据的原因,并确保其对个人数据的使用符合个人的合理预期。目的限制原则要求模型开发者在开始处理个人数据之前必须明确处理的目的。如果模型开发者不清楚为什么要处理个人数据,那么也无法向个人解释以满足透明性原则。

二、模型训练到底多少数据类型和数量是合理的、够用的?

模型训练到底多少数据类型和数量是合理的、够用的。这不仅是一个如何落实数据最小化原则的问题,同时也是模型开发者要考虑的问题。对模型开发者而言,数据质量是需要首先保证的,然后是数据量,但也不是越多越好,因为数据获取成本可能十分高昂,例如数据预处理所需要人力工时,数据使用授权,数据处理设备运行成本等。

合规人员和工程师都需要明确模型将用于解决的具体任务或问题是什么。基于目的去决定使用数据更有助于实现模型预期效果,也可以帮助实现数据最小化原则。

在准备模型训练数据时,一般会进行数据清洗、数据标注和特征工程。特征工程主要是提取和选择有助于模型学习的特征。这个过程可以通过将原始数据转换为更简洁、更相关的特征来帮助实现模型训练数据最小化需求,从而减少所需的数据类型或量级。下面是一些简单的例子:

1. 日期和时间数据:

  • 原始数据:完整的时间戳,如“2023-05-28 14:30:00”。

  • 特征工程: 如果业务目的只需要了解日常使用模式。则不应该使用整个时间戳,只提取分析所需的部分,如“小时”就可以实现目的。

  • 示例:如果预测峰值使用时间,可能只需要“小时”(在这种情况下是14点),减少了完整时间戳数据使用。

2. 文本数据:

  • 原始数据:客户评论,比如“这个产品太棒了,效果很好!”

  • 特征工程:业务目的了解客户评论画风,将文本转换为情感得分(例如,积极,中性,消极)和单词数量。

  • 示例:不存储和处理完整的评论,而是使用“情绪:积极”和“字数:13”。这减少了数据的使用,同时剩余信息也可以实现业务目的。

3. 数值数据:

  • 原始数据:个体身高,单位为厘米。

  • 特征工程:业务目的了解身高画像,将高度分为“矮”、“中”、“高”等组。

  • 示例:与其保持精确的高度(例如,172厘米),不如将其归类为“中等”。这减少了存储数据的粒度。

4. 传感器数据:

  • 原始数据:来自设备的连续传感器读数。

  • 特征工程:目的计算一段时间内的平均值、最大值和最小值等汇总度量。

  • 示例:不存储每个传感器读数,而是存储每天的“平均读数:75”,“最大读数:85”和“最小读数:65”。这大大减少了数据量。

5. 分类数据:

  • 原始数据:分类功能,如“客户类型”,值为“新”,“老”,“VIP”。

  • 工程化特点:一键编码的类别。

  • 示例:对于新客户,不存储整个类别标签,而是将其转换为“New = 1, Returning = 0, VIP = 0”。这有助于处理并最大限度地减少对大量数据存储的需求。

总的来说,通过特征工程关注数据最相关的数据,可以减少总体数据类别和数据量,只保留必要的信息。这符合数据最小化原则,确保数据处理高效且符合合规要求。这是实现模型训练数据最小化的手段之一。合规人员至少可以通过理解业务目的以及数据准备过程的逻辑来判断是否符合最小化原则。

三、如何确保遵循目的限制原则?

生成式AI模型的生命周期包括多个阶段。每个阶段可能涉及处理不同类型的个人数据,并且出于不同的目的。例如,训练核心模型需要使用训练数据和测试数据,而调整核心模型可能需要第三方提供微调数据集。

1. 确定每个阶段的目的很重要

模型的训练和部署的业务目的可能不同。举例一个常见的场景:开发者收集训练数据集,并基于该数据集训练生成式AI模型。模型训练完成后,开发者才决定将该模型部署到一个App应用以实现其他的商业目标。

开发者进行模型开发和部署时,必须清楚地了解并分别记录这两个目的。如果没有适当的分离目的,开发者就无法评估其是否符合其他数据保护原则,包括:

  • 数据类型和数据量范围是否是实现目的所必需(最小化原则);

  • 将数据用于该目的是否合法(合法性原则);

  • 是否已向与数据主体解释了目的(透明性原则);

  • 目的是否在数据主体的合理预期范围内(公平性原则);

一个明确定义的目的还将帮助开发者和部署者为生命周期的不同阶段分配数据控制者和处理者的责任,并向数据主体解释责任分配的原因。

2. 一个数据集多重处理目的

训练数据可能既昂贵又难以收集,因此开发者可能希望重复使用训练数据集。例如将数据集用于训练两个或多个不同的模型,那么重新使用训练数据的开发人员必须考虑是否新的训练模型的目的与收集训练数据的原始目的相兼容,是否新的目的超出收集数据时个人的合理预期。

对于与个人数据主体有直接关系的开发者来说,进行兼容性评估可能更加容易。

如果开发者与个人没有直接关系,则通过公告和突出的隐私信息的方式可能有助于提高个人对于新使用目的的知情程度,以及采取保护措施以减轻可能对个人产生的负面影响,例如去标示化,匿名化或隐私增强技术。

3. 一个模型多种用途

各种基于生成式AI的应用程序,如聊天机器人、图像生成器和虚拟助手,都可以依赖于一个作为其基础的底层模型。在生成式AI模型经过初始训练后,可以基于底层模型或其微调版本构建一个应用,从而使其能够在应用上部署。这意味着一个核心模型可以产生许多不同的应用。例如,同一个大型语言模型可以用在辅导功课、回答客户邮件以及生成法律合同文本的应用程序上。

可能存在两种情况:一是,在最初的生成式AI模型进行训练时,开发人员已经确定了计划构建的具体应用程序。二是,尤其如果开发人员和部署人员是不同的公司主体时,应用程序可能只是在核心模型已经训练完成的情况才被确定。

一般业界的常见情况包括以下几种:

  • 一个公司既开发生成型AI模型,又在该模型基础上构建应用。

  • 一个公司开发了生成型AI模型,然后将其或经过微调的版本提供给另一家公司,后者可能开发一个将该模型嵌入其中的应用程序,以实现其自身的业务目标;

  • 一个公司开发了生成型AI模型,然后根据该模型为另一家公司开发了一个应用,并按照后者关于该产品的预期用途的指示进行开发。

ICO认为,在数据保护法中开发生成型AI模型以及基于该模型(无论是否微调与否)开发应用属于不同的目的。而在通过网络爬取数据时的目的也可能不尽相同。

总结的来说,在不同阶段面临不同的收据收集和处理目的之间的兼容性判断,包括:训练数据收集的原始目的、测试数据收集原始目的、模型训练目的、模型微调训练目的和应用程序功能目的。

四、难以确定的目的

原则来说,数据处理目的必须详细具体,以便了解所需的必要数据,并且可以让所有相关方清楚了解个人数据的使用原因和方式。但是生成型AI生命周期的每个人阶段确定数据处理目的并非易事。

在生成型AI生命周期的早期阶段,比如最初的数据收集,其目的可能不像模型部署阶段的后期阶段那样容易确定。许多生成型AI模型的开发是开放性的,其商业目标是开发多功能、通用的模型,使公司能够在所有垂直领域进行扩展。尽管如此,在生成型AI生命周期的初期阶段确定目的涉及考虑该模型可能采用哪种部署,以及该模型将具有何种功能。因此,也不是仅仅为了合规目的而确认数据处理目的,这一点呼应前面所述。

当基于该模型开发应用程序时,将更容易详细说明数据处理的目的。基于生成型AI模型开发应用程序应考虑应用程序将用于何处,以及开发该应用程序需要哪些个人数据处理(例如,微调以确保模型在特定部署环境中针对特定任务进行训练)。

总的来说,数据保护原则在AI场景的落地听上去有点反直觉,但是我们需要完全理解个人数据保护原则背后的深层次原因,需要学习AI训练过程技术的逻辑,总会在细节处找出可行解决方案,尽最大努力克制对个人数据的不合理使用。

声明:本文来自数据合规与治理,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。