2023年5月16日,法国国家信息和自由委员会(CNIL)发布了一份名为《Artificial intelligence: the action plan of the CNIL》的行动计划。CNIL早在2017 年发布了关于算法和人工智能的伦理挑战的报告。2023年1月26日,CNIL在技术与创新理事会(Technology and Innovation Directorate)下设立了一个专门的人工智能部门,该部门由5位来自法律、工程领域的专家组成,其职责包括:(1)提高CNIL、专业人士和个人对人工智能系统的理解;(2)加强 CNIL在识别和预防与实施这些系统相关的隐私风险方面的专业知识;(3)为实施即将颁布的欧洲人工智能法做好准备;(4)加强CNIL学术界、初创企业、公司等与人工智能生态系统各类角色的关系。

5月16日发布的行动计划背景是生成式人工智能系统取得了重大突破,例如用于语言对话的ChatGPT、Bard,用于语音对话的Vall-E,用于图生成像的MidJourney、Dall-E、Stable Diffusion。CNIL的行动计划列出了四个方面的工作,包括研究工作、对专业人士的支持、开展执法行动等。

一、了解人工智能系统的运作及其对人们的影响。

通过CNIL自身及其数字创新实验室(LINC)的内部研究和分析,CNIL将要解决一些由人工智能的技术革新带来的数据保护问题。CNIL将这些问题描述为“新问题”:虽然这些比较典型的问题已经出现过,但现在正被人工智能在新的背景下重新定义、并被提出。相关的问题可以被划分为使用人工智能系统之前的、使用人工智能系统之后的、全局的三个部分。

1. 使用人工智能系统之前:采集数据(用于训练系统及其程序)的公平性和透明性。特别是采集互联网上公开数据时应当防止爬虫的使用。

基于机器学习的人工智能系统,特别是具有广泛目的的复杂系统,原则上需要从大量数据中学习以获得最佳结果[1]。例如,OpenAI似乎已经在使用网络上大量公开可用的数据来训练其开发的自然语言处理模型“GPT”,其中包括来自Common Crawl组织的数据[2](Common Crawl是一个开放的数据平台,它预先爬取了数年的互联网信息,研究人员可直接通过其维护的数据直接爬取。)

这种对数据(其中包括个人数据)的大规模使用带来了明显的问题,比较常见的问题如“事先告知数据主体”、“确定适当的法律依据”。

2. 在使用人工智能系统之后:人工智能系统还从用户那里接收个人数据,并且在某些情况下,既用于执行用户要求的任务,又用于完善其自身的训练。这尤其适用于以聊天机器人的形式被使用的自然语言处理模型,如ChatGPT(OpenAI/Microsoft)或Bard(Google)。

因此,设计者必须确保能够保护系统用户分享的个人数据。例如,意大利数据保护机构最近要求OpenAI允许ChatGPT用户选择反对将其数据用于训练语言模型[3]。

3. CNIL还将解决更全局性的问题:防止人工智能系统生成偏见和歧视,并保证系统安全性。

对于使用现实世界的数据进行训练的人工智能系统来说,防止偏见和歧视是一个反复出现的问题——因为这些系统可能会从数据中吸收一部分甚至全部的偏见或歧视。这就是为什么这些模型的训练阶段非常重要。当前降低风险的解决方案之一是“从人类反馈中强化学习”(RLHF),指用户/测试人员花费较多时间对机器学习进行改进,包括检测和纠正可能出现的偏见与歧视。

为了强调上述问题在生成式人工智能上的体现,CNIL数字创新实验室发布了一份专用档案,包含四个方面:

1. 详细介绍了最近交互式机器人技术的运作原理,并回顾了数据在创建基础模型时的核心作用;

2. 阐述了这些模型设计所引发的知识产权和数据保护等各种法律问题;

3. 明确了生成式人工智能在信息可靠性、恶意用途、公众检测和警示这一方面所面临的伦理挑战;

4. 通过不同的实验展示了这些工具所能产生的正面或负面的用途。

二、促进并引导能够良好保护隐私的人工智能的发展。

为了支持人工智能领域的参与者,并为《欧洲人工智能法规》的实施做好准备(该法规正在欧洲层面上讨论,CNIL已于2021年发表意见),CNIL已经提出并发布了:

1. 几个有关人工智能的指南[4](2022年),包括关于人工智能主要原则的教育性内容,以及为专业人士提供合规支持的指南。

2. 一个专门关于所谓“增强型”视频摄像机用于公共区域监控的立场[5]。

CNIL还宣布正在研究一些即将发布的关于新主题的内容。

1. 首先是一个关于“数据共享和重用适用规则”的指南将很快开始向社会公开征求意见。该指南会特别关注网络上可用数据的重用,这也是基于机器学习的人工智能系统最敏感的问题之一(见上文)。

2. CNIL将继续推进为机器学习设计人工智能系统并建立数据库。从2023年夏开始,CNIL将围绕特定主题上发布几个新的指南:科学研究、目的限制原则在通用性人工智能中的应用、训练数据选择的规则和有效实践、管理个人权利等。

CNIL还将持续的对这几个问题进行伦理上的反思与讨论:机器学习模型的使用与共享、偏见和歧视的预防与纠正,以及人工智能系统的审查。

三、联合和支持在法国及欧洲人工智能生态系统中的创新者。

CNIL仍将通过监督、鼓励人工智能实际应用项目来培养和支持创新者。对项目的支持采取了三种形式:

1. CNIL宣布启动2023年“沙盒”计划的项目申请。这个倡议开始于2021年,并于每年更新。被选中的项目将在一定时期内获得CNIL团队的特定支持。2021年和2022年的项目主体分别是“健康”与“教育”,并且已经有一些被选中的项目是基于人工智能的。“沙盒”计划在2023年的主体将主要围绕人工智能在公共部门中的应用。

2. 在更宏观的层面,CNIL于2023年2月推出了一个名为“强化协助”的新计划,旨在支持具有强大经济发展或创新潜力的数字公司。因此,这个计划自然也将涵盖关于人工智能的项目。

3. CNIL还将向2024年奥运会和残奥会“增强型”视频摄像机的供应商提供特定支持。

另外,CNIL希望与研究团队、研发中心和开发/希望开发人工智能系统的法国公司保持长期交流。

四、审查和监控人工智能系统并保护个人隐私。

CNIL宣布其2023年的部分管制行动将聚焦在人工智能相关的主题,相关管控措施将主要聚焦在:

1. 关于使用“增强型”视频摄像机的立场(CNIL2022年发布)被“遵守”。CNIL使用的措辞值得关注——因为这是一个在其网站上发布的立场,原则上没有法律约束力。

2. 欺诈预防系统(例如社会保险欺诈)。因为使用人工智能算法来运行欺诈预防程序目前还面临着一定挑战。预防欺诈程序通常涉及从异构数据源(购买记录、社交网络活动等)收集大量数据,因此这种程序对于数据主体来说可能会格外具有侵犯性,这也给这种程序的运行带来了阻碍。

3. 调查涉及人工智能工具的投诉。CNIL证实已收到针对OpenAI公司(运营ChatGPT)的投诉,并已对其展开调查。这项调查与在欧盟数据保护委员会内设立的ChatGPT专门工作组同时进行,以确保能够采取一个相互协作的方式解决问题。这就证实,虽然意大利数据保护机构最近撤销了对OpenAI发出的禁令,但这并不意味着ChatGPT工具被认为完全符合《一般数据保护条例》的要求。

对于那些通过处理个人数据来开发、训练或使用人工智能系统的机构,CNIL会格外关注其是否:

1. 执行数据保护影响评估 (DIA),记录风险并采取措施减少它们;

2. 采取措施告知用户;

3. 计划了措施以在当前背景下保护人权。

经过这些工作,CNIL希望制定明确的规则,来保护欧洲公民的个人数据,为开发能够保护隐私的人工智能系统做出贡献。

注释:

[1]Some researchers warn, however, of the dangers, from a scientific and ethical point of view, of building ever larger models: https://dl.acm.org/doi/10.1145/3442188.3445922

[2]https://medium.com/@dlaytonj2/chatgpt-show-me-the-data-sources-11e9433d57e8

[3]https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9881490

[4]https://www.cnil.fr/fr/intelligence-artificielle-ia

[5]https://www.cnil.fr/fr/deploiement-de-cameras-augmentees-dans-les-espaces-publics-la-cnil- publie-sa-position

来源:本文主要参考法国国家信息和自由委员会在官方网站刊登的行动计划原文和法国律师事务所Nomos之律师Sylvain NAILLAT所撰写的博客文章。

董畅 | 清华大学智能法治研究院实习生

选题、指导 | 刘云

编辑 | 刘懿阳

声明:本文来自清华大学智能法治研究院,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。