深度分析：大语言模型中的个人信息保护问题探讨

2022年11月30日，OpenAI发布了ChatGPT，大语言模型的迅速发展引起了全球学术界和工业界的广泛关注和热烈讨论。在提高人机交互的效率和质量，为各个领域提供智能化的服务和解决方案的同时，大语言模型也带来了一些科技伦理与安全问题方面的挑战。本文简要介绍了大语言模型在个人信息保护方面存在的风险，并给出了一些可能的保护措施。

01 什么是大语言模型？

大语言模型（Large Language Model，简称LLM）是指能够利用海量文本数据，通过无监督、半监督或自监督的方式，学习并掌握通用的语言知识和能力的深度神经网络模型。这些模型通常基于谷歌提出的Transformer模型架构，通过预测被掩盖的单词、上下文判断、跨语言对齐、多模态对齐等任务，来捕捉文本中的语法、语义和逻辑信息。LLM可以根据不同的领域和任务进行微调或迁移，从而在少样本甚至零样本的情况下完成文本分类、命名实体识别、阅读理解、文本生成等多种自然语言处理（NLP）任务。

LLM的优势在于它们可以利用大量的文本数据来捕捉语言的复杂性和多样性，从而提高模型的泛化能力和表达能力。随着计算资源和数据规模的增加，LLM的参数量和性能也不断提升，目前已经发展到了数万亿甚至数百万亿的规模，例如GLM-130B、BloombergGPT、LLaMA等。这些超大规模的LLM被认为是通向人工通用智能（AGI）的重要途径之一，也是人工智能领域的前沿研究方向。

02 大语言模型中存在哪些个人信息保护问题？

LLM具有强大的文本生成能力，却缺乏对产生内容的辨别能力。以ChatGPT为例，虽然OpenAI对其生成的文本进行了初步的过滤，但仍有大量用户通过构造特殊的指令，使其绕过初始的限制，制造虚假或有害的信息，带来网络钓鱼、谣言、诽谤、诈骗等风险。这些信息可能会使用户的数据安全和利益造成损害，也可能会对社会的稳定和秩序造成威胁。例如，2023年4月6日，美国财富杂志的一篇报道指出，ChatGPT虚假指控一名澳大利亚的市长胡德曾因贿赂入狱服刑，而胡德实际上是对贿赂行为做出举报的举报人。2023年3月31日，意大利的隐私监管机构认为ChatGPT涉嫌非法处理个人数据、侵犯隐私。同时，ChatGPT在3月20日发生了数据泄露事件，暴露了部分ChatGPT Plus订阅者的个人信息，违反了GDPR相关条例。意大利成为首个禁止使用ChatGPT的国家，也引发了其他欧盟国家对是否需要采取更严厉的措施来控制相关技术的讨论。因此，虽然LLM有着巨大的潜力和应用价值，LLM也带来了一些个人信息保护方面的挑战和风险。本文将其简要概括为以下几个方面：

■ 数据来源问题：

LLM通常使用来自互联网的公开文本数据作为预训练数据，这些数据可能包含一些用户的个人信息，如姓名、年龄、性别、职业、兴趣爱好、社交关系等。这些信息可能被LLM无意中学习和记忆，并在后续的应用中泄露出来。例如，谷歌的Carlini等人在2021年就提出了从GPT-2中恢复训练数据的方法，表明了LLM在生成文本时可能会暴露出一些用户的真实身份或隐私信息。

■ 数据处理问题：

LLM在预训练和微调过程中需要对数据进行收集、存储、分析和处理，这些操作可能会侵犯用户的个人信息权利，如知情权、选择权、删除权等。用户可能没有充分的意识和能力来保护自己的个人信息，也没有足够的透明度和监督机制来确保数据处理方遵守相关的法律法规和伦理规范。例如，由于大语言模型的零样本学习能力，用户可能不知道自己的数据实际被用于什么目的，也无法控制自己的数据被谁使用和分享。

■ 数据安全问题：

LLM由于参数量巨大，需要借助分布式计算和云服务等技术来进行训练和部署，这就增加了数据被窃取、篡改、滥用或泄露的风险。LLM的模型参数本身也可能包含一些敏感信息，如果被恶意攻击者获取，可能会导致用户的个人信息被还原或推断出来。例如，攻击者可以通过模型提取、模型逆向或成员推断等技术来窃取或重建LLM的训练数据。

■ 偏见诱导问题：

LLM在应用场景中可能会对用户的个人信息进行分析、预测或推荐，这些操作可能会影响用户的个人自由、尊严和权益，带来歧视、偏见、诱导等问题，甚至被用于产生违反社会主义核心价值观的有害信息，对社会造成危害。用户可能没有足够的知识和能力来判断LLM的输出结果的可靠性和合理性，也没有有效的途径和机制来纠正或申诉LLM的错误或不公正的决策。

03 大语言模型的个人信息保护方法在《生成式人工智能服务管理办法（征求意见稿）》中的体现

2023年4月11日，网信办发布了《生成式人工智能服务管理办法（征求意见稿）》，对包括大语言模型在内的生成式人工智能技术应用中存在的风险和措施指定了规范，其中的具体要求与本文所提出的LLM个人信息保护思路的对应关系如下：

个人信息保护方法		《生成式人工智能服务管理办法（征求意见稿）》要求原文
数据来源方面	提供者对训练数据来源负责，应符合法规要求、不侵犯知识产权、保护个人信息、数据真实准确、满足监管要求。人工标注时应制定清晰可操作的规则，培训标注人员并核验标注内容。根据监管要求，提供必要信息，包括数据来源、规模、质量，标注规则及数据、算法和技术体系等。	第七条提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据，应满足以下要求：（一）符合《中华人民共和国网络安全法》等法律法规的要求；（二）不含有侵犯知识产权的内容；（三）数据包含个人信息的，应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形；（四）能够保证数据的真实性、准确性、客观性、多样性；（五）国家网信部门关于生成式人工智能服务的其他监管要求。第八条生成式人工智能产品研制中采用人工标注时，提供者应当制定符合本办法要求，清晰、具体、可操作的标注规则，对标注人员进行必要培训，抽样核验标注内容的正确性。第十七条提供者应当根据国家网信部门和有关主管部门的要求，提供可以影响用户信任、选择的必要信息，包括预训练和优化训练数据的来源、规模、类型、质量等描述，人工标注规则，人工标注数据的规模和类型，基础算法和技术体系等。
数据处理方面	提供者承担生成内容生产者责任和个人信息处理者法定责任，建立投诉接收机制及时处置用户请求，发现侵害他人权益等问题时应采取措施停止生成。	第五条利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人（以下称“提供者”），包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等，承担该产品生成内容生产者的责任；涉及个人信息的，承担个人信息处理者的法定责任，履行个人信息保护义务。第十三条提供者应当建立用户投诉接收处理机制，及时处置个人关于更正、删除、屏蔽其个人信息的请求；发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密，或者不符合本办法要求时，应当采取措施，停止生成，防止危害持续。第十五条对于运行中发现、用户举报的不符合本办法要求的生成内容，除采取内容过滤等措施外，应在3个月内通过模型优化训练等方式防止再次生成。
数据安全方面	提供者应尊重他人合法利益、保护肖像权、名誉权、个人隐私，禁止侵犯知识产权和非法获取、利用个人信息等。向公众提供服务前需要进行安全评估和算法备案。提供者应保护用户信息，不得留存推断出用户身份的信息，不得进行用户画像，也不得提供用户输入信息给他人。	第四条提供生成式人工智能产品或服务应当遵守法律法规的要求，尊重社会公德、公序良俗，符合以下要求：（五）尊重他人合法利益，防止伤害他人身心健康，损害肖像权、名誉权和个人隐私，侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。第六条利用生成式人工智能产品向公众提供服务前，应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估，并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。第九条提供生成式人工智能服务应当按照《中华人民共和国网络安全法》规定，要求用户提供真实身份信息。第十一条提供者在提供服务过程中，对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息，不得根据用户输入信息和使用情况进行画像，不得向他人提供用户输入信息。法律法规另有规定的，从其规定。
偏见诱导方面	提供者应遵守法律法规要求，不提供违反核心价值观等内容，不歧视用户，防止产生虚假信息。提供者应公开服务的适用人群、场合、用途，避免用户过度依赖或沉迷，引导用户科学使用、避免损害他人合法权益。提供者若发现不符合要求或违反社会公德等行为应及时做出相应，同时允许用户向网信部门举报。	第四条提供生成式人工智能产品或服务应当遵守法律法规的要求，尊重社会公德、公序良俗，符合以下要求：（一）利用生成式人工智能生成的内容应当体现社会主义核心价值观，不得含有颠覆国家政权、推翻社会主义制度，煽动分裂国家、破坏国家统一，宣扬恐怖主义、极端主义，宣扬民族仇恨、民族歧视，暴力、淫秽色情信息，虚假信息，以及可能扰乱经济秩序和社会秩序的内容。（二）在算法设计、训练数据选择、模型生成和优化、提供服务等过程中，采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。（三）尊重知识产权、商业道德，不得利用算法、数据、平台等优势实施不公平竞争。（四）利用生成式人工智能生成的内容应当真实准确，采取措施防止生成虚假信息。第十条提供者应当明确并公开其服务的适用人群、场合、用途，采取适当措施防范用户过分依赖或沉迷生成内容。第十二条提供者不得根据用户的种族、国别、性别等进行带有歧视性的内容生成。第十八条提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容，不利用生成内容损害他人形象、名誉以及其他合法权益，不进行商业炒作、不正当营销。用户发现生成内容不符合本办法要求时，有权向网信部门或者有关主管部门举报。第十九条提供者发现用户利用生成式人工智能产品过程中违反法律法规，违背商业道德、社会公德行为时，包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件，实施不正当的商业营销等，应当暂停或者终止服务。

04 总结

大语言模型在各种任务中展现出了强大的能力，但也带来了一些严重的个人信息保护问题。因此，如何在保障LLM的有效性并充分发挥其各方面能力的同时，保护用户的个人信息，是一个亟待解决的挑战，需要政府、企业、研究者和社会各方共同参与，制定合理的法规、标准和伦理准则，建立有效的监督和问责机制，提高用户的知情和选择权，从而使LLM的利用更加安全可靠。

（本文作者：中国科学院信息工程研究所张逸飞）

声明：本文来自CCIA数据安全工作委员会，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

深度分析：大语言模型中的个人信息保护问题探讨

西南政法大学校长林维：生物识别技术大规模应用须慎之又慎

数字司法中的个人信息保护

澳大利亚议会发布关于拟议隐私改革的报告