生成式人工智能带来的数据安全挑战及应对

文 | 大数据协同安全技术国家工程研究中心钟力

随着 OpenAI 发布 ChatGPT 带来的影响，人们更加关注生成式人工智能（AIGC）这个在人工智能领域的新突破。随着机器学习和大量计算能力的发展，复杂的人工智能已经成为现实，而且会不断改进。这在带来生产力变革的同时，也引起全球对其数据安全问题和挑战的极大关切，包括内容安全、算法歧视、侵犯知识产权和信息泄露等安全隐患。

一、生成式人工智能的原理和特点

AIGC 是一种专注于生成或创建新内容的通用人工智能（AGI），通过机器学习在现有大规模多模态数据集基础上生成新的文本、程序代码、图像、视频和声音等数据，能够处理各种不同的任务和场景，如文本摘要、文本生成、机器翻译、问答等，具有很高的泛化水平。AIGC 的基本支撑是大语言模型（LLM），一种包含数千亿或更多参数的语言模型，例如生成式预训练模型 GPT-3、GPT-4。它是使用大量文本数据训练的深度学习模型，以词（Token）为单位生成自然语言文本，一个词生成后会并入上文，然后再进行下一个词的生成。LLM的创造性在于选择下文时，随机选择分数排名较低的词，可通过使用超参数控制排名较低的词被采用的频率。AIGC 具有以下三个明显的特点。

一是涌现能力。AIGC 并非简单地搜索复制训练集数据，而是进行创造性地再创作，当模型足够大、建模能力足够强时，其基于自然语言理解的推理能力就会产生，从而实现常识推理、问答、翻译、数学、摘要等功能。常识推理一直是人工智能领域的重大难题，LLM 的出现加上算力成本的降低使常识推理取得了重大进展。而且，一旦推理能力涌现，就可以通过不断的输入提示，即思维链提示，解决多步复杂推理的难题。因此，涌现能力的出现，是 AIGC 带来的一项根本性变化。

二是基础承载能力。AIGC 是在生成式对抗网络模型和 Transformer 等生成算法全面支撑下发展的，使机器可以在海量数据基础上进行无监督预训练，既降低了对标注数据的需求，也可以大量使用未标注的数据，让它自己寻找和发现规律，进而分类、优选、积累和生成内容。在此基础上，只要在给定任务的小规模有标注数据基础上进行微调，就能快速提升模型完成任务的能力。因此，借助海量无标注多模态数据的训练，可以构建适用于多领域任务的 LLM，使大量应用能够基于一个 LLM 进行统一建设，这显著提升了 AIGC 的基础承载水平。

三是自然语言交互。本轮人工智能浪潮和 LLM 爆发的标志是基于自然语言交互的 ChatGPT，后续国内外发布的众多 AIGC 平台或服务亦如此，这是源于用户对社交软件自然语言交互的熟悉和喜好，它大大降低了一种技术或平台服务的使用门槛，使 AIGC 的使用者不但包括各行业领域的专业人员，还包括普通的民众，同时这也意味着 AIGC 平台涉及的数据和数据安全风险是全方位的。

二、生成式人工智能带来的数据安全问题

在 ChatGPT 刚发布不久，意大利个人数据保护局就在 2023 年 3 月 31 日宣布禁止使用 ChatGPT，限制 OpenAI 处理意大利用户信息，并立案调查。4 月 11 日，美国商务部发布一份正式的公开征求意见函，征求对包括具有潜在风险的新人工智能模型在内的技术问责措施的意见，内容包括这类模型在发布前是否需经过认证程序。全球加强 AIGC 的监管力度的事实表明，数据安全和隐私保护已经成为发展 AIGC 的重要前提。基于功能特点以及当前 GPT 模型和算法的高速发展态势，AIGC 所暴露的数据安全问题主要体现在输入型和输出型两个方面。

1．输入型数据安全问题

在用户侧，发展到第四代的 GPT 多模态 LLM，可以接收文本和图像输入，很快将能接收音视频输入，且文字输入限制提升至 2.5 万字。然而，多模态的大批量输入信息很容易产生数据安全和隐私泄露问题。例如，OpenAI 在隐私政策中提到，ChatGPT 会收集用户账户信息和对话的所有内容，以及互动网页内的各种隐私信息（包括 Cookies、日志、设备信息等）。这些信息可能会被共享给供应商、服务提供商以及附属公司。英国国家网络安全中心在 2023 年 3 月 14 日发布的研究报告《ChatGPT 和大语言模型：危险在哪里？》（ChatGPT and Large Language Models: What"s the Risk？）中指出，OpenAI 和微软等公司能够读取用户在人工智能聊天机器人中输入的查询内容。三星电子在引入 ChatGPT 不到 20 天就发生企业机密泄露事件。而且，用户在使用 LLM 时，出现了输入企业商业秘密和内部数据、个人信息、软件代码和敏感图片等情况，导致敏感数据和个人隐私泄露。这对 AIGC 平台用户而言，其首先面临的就是数据安全问题。如果用户使用境外部署的 AIGC 平台和服务，还会涉及数据跨境安全问题。

在平台侧，与其他人工智能模型一样，LLM 依然存在较大的数据投毒攻击风险。这类攻击是指攻击者向训练数据源注入恶意样本或修改训练数据标签信息，从而影响人工智能模型的推理或预测。具体的情况可能有三种：一是采用用户输入数据作为语料训练时，存在被数据投毒攻击的可能性，导致模型能力下降或出错；二是如果 LLM 采用互联网上被恶意投毒的公开数据源进行预训练，可能会引起模型生成错误的、语义不连贯的内容或执行非预期动作；三是当内容生成需借助额外的数据库、数据源时，攻击这些数据库和数据源也可达到数据投毒的效果。

2．输出型数据安全问题

对 AIGC 及其平台服务来说，有意或无意产生的输出型数据安全问题本质上都属于内容安全，涉及不同层次的五种类型：一是输出反人类、反国家和反社会信息，生成涉及意识形态、伦理道德、种族歧视、价值观和黄赌毒等方面的有害内容；二是输出侵权信息，生成侵犯知识产权、损害企事业法人单位利益、侵犯个人隐私的内容，例如产生侵犯知识产权和版权的文章、图片和音乐等；三是输出网络犯罪知识，生成危害网络空间的黑客工具、恶意代码和钓鱼邮件等内容；四是输出虚假信息，生成看似有说服力、貌似真实而实则虚假的信息；五是数据泄露，例如在某些情况下泄露的训练数据信息或用户的历史聊天信息被泄露给其他用户。

造成输出型数据安全问题的原因，很大程度上源于预训练数据集，用什么样的数据进行训练，就会得到什么样的 LLM，之后，才会涉及 LLM 模型本身、算法设计和参数。目前，LLM 参数已达到数千亿级别。此外，包括温度参数这样的超参数，都可以控制 LLM 的行为。通过采用特定的数据集训练 LLM，能够使 AIGC 面对某些问题时，给出倾向性明显的答案。更进一步地说，通过改变算法、调节 LLM 的参数和超参数，可以按需产生指向性明确的内容。因此，AIGC 平台不但在正常状态下由于训练集或模型原因可能会产生输出型数据安全问题，而且还可能会根据用户的类型和来源等信息，有针对性地产生输出型数据安全问题内容。

提示注入风险也是导致输出型数据安全问题的主要原因。2023 年 2 月 23 日，德国萨尔大学、亥姆霍兹信息安全中心与塞克尔公司的凯·格雷希克（Kai Greshake）、萨哈尔·阿卜杜勒纳比（Sahar Abdelnabi）等学者联合发表论文《比你要的更多：对应用集成大语言模型新型提示注入威胁的深入分析》（More than you"ve asked for:A Comprehensive Analysis of Novel Prompt Injection Threats to Application Integrated Large Language Models），展示了 7 种全新的注入型攻击向量与方法，而且，这些方法可能引发 LLM 被远程控制的风险，可能在经过提示注入攻击后生成违规内容。

三、应对之策

针对 AIGC 上述数据安全问题和挑战，建议从以下六个方面积极应对。

1．安全监管

AIGC 平台和服务输出的内容涉及国家安全、社会稳定、组织利益和个人隐私，应该被纳入国家安全监管的范围。2023 年 4 月 11 日发布的《生成式人工智能服务管理办法（征求意见稿）》，对生成式人工智能服务进行了框架性规范。该办法的目的是促进生成式人工智能的健康发展和规范应用，对 AIGC 产品和服务从训练数据、模型生成与优化、算法设计、内容生成等方面提出了全方位的要求，强调保护用户交互信息，输出合法合规内容。相关执法部门还会针对 AIGC 出台更具体的管理规范和技术标准，也会开启对 AIGC 平台和服务的常态化安全监管与评估。

2．安全测评

需要从两个维度对 AIGC 平台和服务进行安全测评。一是网络安全维度，通过渗透测试、模糊测试等安全性测试手段，检测模型、算法插件等有无安全漏洞。这类漏洞通常会导致平台失控或产生有害内容。一旦发现，应及时通知厂商修复。二是内容安全维度，因为人工智能技术存在较大的不确定性和不可控性，所以，需要通过精心设计的问题和定制化的输入信息（如含有恶意指令）等提示注入检测手段，检测平台是否会产生有害的、有偏见的、侵权的、与事实不符的或有毒的内容，并进一步检测平台和服务是否在训练数据集、模型、安全模块、二次开发调用接口或者算法插件上出现问题，从而给出平台和服务的整改建设方案。

3．内置安全

AIGC 平台和服务必须内置安全模块守住安全底线。一是训练数据选择，进行基本的防数据投毒、侵权数据、有害数据的分析判断，保证 LLM 使用合法的数据进行训练。二是输入控制，需拦截各类提示注入攻击，防范网络层面和内容层面的有害输入。目前，OpenAI 的 ChatGPT、微软的 BingChat 和谷歌的 Bard 都有基本的安全机制。但是，总体上看，其安全机制还比较弱，容易被轻易绕过。三是输出控制，需在内容生成或输出阶段，对生成内容进行合法合规检测和过滤，防止平台输出存在数据安全问题的内容。

4．境内服务

针对使用境外 AIGC 平台服务可能带来的重要数据出境和歧视风险，用户应尽量使用国内部署的 AIGC 平台服务，且普通用户则被禁止使用境外的服务。从技术层面讲，AIGC 平台容易做到针对特定用户群的歧视。例如，利用基于 IP 和账号的特定训练数据集对 LLM 模型进行训练，容易根据某类问题产生某些指向性或引导性内容，导致带来价值观等问题。同时，针对境内 AIGC 平台和服务的安全评估和安全审查工作也易于展开。国内需尽快推出技术水平相当的 AIGC 平台和服务。

5．安全运营

安全运营对 AIGC 平台和服务来说至关重要。从技术层面看，拦截所有的恶意提问不太容易，也难以完全保证生成内容合规合法，所以，必须建立有效的应急处置机制，以便能够对出现的数据安全问题进行快速响应和及时整改。例如，输出的一篇文章、一段音乐等内容是否侵犯知识产权是很难判断的，需要在投诉后进行快速响应。而且，AIGC平台本身处于高速发展中，需要对 LLM、算法、参数等进行持续优化。

6．人员培训

AIGC 产品和服务的健康安全发展离不开各类相关专业人才的支持。LLM 模型本身含有基于人类反馈的强化学习（RLHF）模块，通过将人类纳入训练循环，对提问和输出内容进行审核。与此相关的研究开发人员、测试人员、运营人员甚至用户，都需要经过专业的培训。同时，需对 LLM 训练和运营相关人员进行必要的意识形态、价值观和伦理道德等教育，防止其引入有害训练数据、非法训练数据，杜绝含有数据安全问题的内容产生。而且，对用户进行培训也是非常必要的。例如，如果希望 AIGC 高效输出需要的内容，那么就需要有技巧的提问。或许，提示工程师很可能会像标注工程师一样，成为新时代新的职业。

（本文刊登于《中国信息安全》杂志2023年第7期）

声明：本文来自中国信息安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

生成式人工智能带来的数据安全挑战及应对

警惕AI网络安全应用的“毒蘑菇陷阱”

美智库：支持开源人工智能的国家将获得战略安全优势

美国《人工智能行政命令》出台一年主要执行情况