大模型安全与治理探讨

文 | 清华大学人工智能研究院基础理论研究中心主任、北京智源人工智能研究院机器学习重大方向首席科学家朱军；清华大学计算机系博士后董胤蓬

2022 年 3 月以来，以 DALL. E2、Stable Diffusion、ChatGPT 等为代表的预训练大模型席卷全球，引发了人们对于通用人工智能的广泛关注，人工智能生成内容（AIGC）也深刻改变了人们的生产生活方式。尽管预训练大模型掀起了一场重要的技术变革，但目前大模型仍然存在严重的安全性问题。本文将探讨大模型的安全与治理方法。

一、大模型存在的安全风险

（一）相关背景

人工智能的安全性问题由来已久。早在 2013 年，谷歌的研究人员发现，性能良好的深度神经网络很容易被人眼不可见的微小噪声（对抗样本）欺骗，导致模型产生错误的预测结果。在此之后，深度学习的安全性问题被广泛研究，也发现了对抗样本外的其他安全漏洞，包括模型后门、数据隐私泄露、偏见等等。

预训练大模型通常在海量的数据上采用自监督/自回归等方式训练参数量巨大的模型，但其算法原理上仍然主要采用深度学习技术，因此也会存在和深度学习类似的安全性问题。除此之外，预训练大模型还存在幻觉、滥用等新型安全性问题，给人们带来潜在的安全威胁。大模型安全也引发了社会的广泛关注。近期，图灵奖得主杰弗里·辛顿（GeoffreyHinton）和约书亚·本吉奥（Yoshua Bengio）、OpenAI 创始人山姆·阿尔特曼（Sam Altman）等联合签署了“人工智能风险声明”，旨在强调应在全球范围内把降低人工智能安全风险列为和核战争、流行病同样的优先级。

（二）安全风险种类

总体而言，预训练大模型的安全风险主要包含以下六类。

一是幻觉（hallucination）。大模型的幻觉是指模型会输出与事实相悖的内容。在模型不具备回答某种问题的能力的时候，模型不会拒绝回答，而是会输出错误的答案。例如，在今年 2 月谷歌发布 Bard 大模型的视频中，模型对詹姆斯·韦伯太空望远镜做出了错误的描述。大模型存在幻觉的主要原因是由于模型的训练过程采用自回归的训练方式，在给定当前文本内容的情况下预测下一个单词，其本质上是做文本数据的概率建模。在这一过程中，模型更多地学习到了单词之间的相对关系和句式句法，但对于事实缺乏基本的判断和推理能力，也没有对自己的能力边界进行建模，即模型不知道自己不知道。大模型的幻觉问题可能导致用户得到错误的回答，某些事实性错误也可能会带来严重的后果（如医学诊断）。

二是不良信息。大模型的输出内容可能包含恐怖主义、极端主义、色情、暴力等有害信息。由于大模型的训练语料库通常由互联网上的爬取数据组成，网络上的数据难以避免地包含某些有害信息，而模型在这些数据上训练后则会记忆这些有害信息，导致模型在使用的过程中输出有害信息。大模型输出的有害内容会对用户产生不良影响，从而影响企业声誉。

三是隐私泄露。由于大模型通常能够在互联网上可搜集到的数据上进行训练，因此不可避免地包含用户隐私信息。如果这些隐私信息被泄露给不法分子，可能会对用户的安全造成严重影响。尽管大模型通常会对姓名等敏感信息进行处理，使得模型不会直接输出用户的隐私信息，但是，在攻击者的诱导下，模型仍然存在隐私泄露的问题。例如，通过输入性别、居住地、年龄等一些较为容易获取的用户信息，攻击者可以诱导模型输出住址、健康情况等更加私密的信息，导致用户隐私泄露。

四是偏见。模型偏见是人工智能长期以来的重要安全性问题之一，是指模型在训练后会对具有不同宗教、种族、性别等特征的人群产生不一致的结果。模型存在偏见的根源是数据中存在的偏见，由于人类社会的发展过程中存在对少数群体或者弱势群体的偏见，这些偏见会蕴含在人类多年以来所累积的数据中，进而被模型学习到。模型存在偏见的重要影响之一是会对人们产生更加严重的刻板印象，进一步加重人们存在的偏见。因此，如何解决模型的偏见，提升公平性是大模型应用过程中需要解决的重要问题。

五是鲁棒性。与深度学习系统类似，大模型也会存在鲁棒性问题，即在攻击者的恶意攻击下产生错误的预测。对于大语言模型而言，鲁棒性问题的通常表现形式是在输入文本上做微小的扰动（如更改字母、单词），会导致模型的输出结果完全错误，影响用户体验。在视觉感知等任务中，鲁棒性问题可能会导致模型在实际使用的过程中完全失效，最终导致安全问题。因此，如何在大模型场景下提升模型的鲁棒性也是重要的研究问题。

六是社会面影响。预训练大模型给人们的生产生活方式带来了重大的变革，因此不可避免地产生一系列社会性问题。例如，GPT-4 在模拟律师考试中取得了前 10% 的成绩，意味着击败了 90% 的人类，这对传统的教育教学方式产生了重大的影响。为防止学生滥用 ChatGPT，国内外多所高校禁用 ChatGPT。大模型的滥用会导致人们过于依赖模型以完成特定的任务，在未来是否会导致人类的灭亡也是无法回避的社会性问题。

二、大模型安全风险应对方法介绍

如上所述，大模型的安全风险多种多样，不仅需要从算法原理上提升模型的安全性，而且需要更加合理、全面的大模型安全性治理方式。以下介绍目前主要的大模型安全性评估和提升方法。

（一）数据清洗

全面的数据清洗是保证预训练大模型安全性的重要方式，通过过滤互联网数据中的有害数据和隐私数据，可以有效降低模型输出内容的有害性和隐私泄露问题。因此，在预训练模型的初始阶段需要妥善对数据进行清洗过滤。

（二）基于人类反馈的强化学习（RLHF）

RLHF（Reinforcement Learning from Human Feedback），即依据人类反馈以强化学习方式优化语言模型，是在预训练结束后对模型进行微调的方式之一，也是将预训练模型与人类价值观进行对齐的重要步骤。具体而言，该技术在强化学习阶段使用大量人工标注数据训练 AI 系统模型。奖励模型根据 AI 模型输出结果和标注数据产生不同强度的奖励信号（Reward Signals）引导 AI 模型向期待的方向收敛，训练结束后得到更安全的 AI 系统模型。在此技术下训练后的模型效果很大程度上依赖于人工标注数据的规模和质量。RLHF 有助于解决幻觉、有害输出问题。

进行 RLHF 主要包括预训练语言模型、训练奖励模型和强化学习微调三个阶段。首先，第一阶段的预训练语言模型是指可以使用额外的文本或者条件对大模型进行微调。其次，训练奖励模型是 RLHF 区别于旧范式的开端。这一模型接收一系列文本并返回一个标量奖励，数值上对应人的偏好。我们可以用端到端的方式用语言模型建模，或者用模块化的系统建模(比如对输出进行排名，再将排名转换为奖励)。这一奖励数值将对后续无缝接入现有的强化算法至关重要。关于奖励模型所依赖模型选择方面，奖励模型可以是另一个经过微调的语言模型，也可以是根据偏好数据从头开始训练的语言模型。最后是强化学习微调阶段，将语言模型的微调表述为强化学习问题，采用 PPO 等算法进行优化。

（三）基于 AI 反馈的强化学习（RLAIF）

RLAIF 技术是 RLHF 的变种，奖励模型的反馈信息来源从人类反馈部分或者全部转变为代理模型自动提供。代理模型是提前训练后符合安全标准并对齐的模型，它作为“监督者”为新模型的强化训练提供反馈信号。RLAIF 与 RLHF 的主要区别在于训练奖励模型时的信号来源，在 RLHF 中通过人类标注数据本身的排序关系定义奖励信号指导奖励模型优化，而在 RLAIF 中，该信号来源也将由额外的语言模型部分或全部替代。如此替代的原因是一部分学者认为随着语言模型文本生成能力的不断进步，人类终将面临无法对“它们”的输出结果给出正确的评判，需要更高智能的“它们”监督新的语言模型的优化过程。

（四）安全性测评

针对预训练大模型的安全性测评是保证模型安全可靠的重要方式。目前主流的安全性测评方法主要包含固定数据集测评和红队模型测评两类。在固定数据集测评方面，研究人员针对大模型的多种安全风险制定了模型安全风险矩阵，通过人类标注数据的方式采集安全性评估数据，以测试模型在此类数据集上的表现评估其安全性。但此种方式的主要问题是数据集收集成本高，多样性不足等。另一种安全性测评方式是通过红队模型评估模型的安全性，该方法最早由人工智能公司 DeepMind 提出，采用红队大模型的方式生成评估样本，以评估被测模型的安全性。采用此方法可以动态地调整测试数据集，提升测试数据的多样性，但存在评估成本较高等问题。

三、大模型安全性治理现状与思考

（一）国内现状

目前，国内对大模型安全高度重视，国家网信办等七部门于 2023 年 7 月 10 日联合公布了《生成式人工智能服务管理暂行办法》，自 2023 年 8 月 15 日起施行。该办法就生成式人工智能可能面临的安全问题提出了一系列明确的约束规范，比如在第四条明确指出“提供和使用生成式人工智能服务，应当遵守法律、行政法规，尊重社会公德和伦理道德。

与此同时，科技进展与监督治理协调发展。近期，中国人工智能学会、中国计算机学会、北京智源人工智能研究院等机构纷纷发起组织以“大模型 AI 技术”及“AI 安全治理”等为主题的专题研讨会，邀请国内外知名学者共同探讨“AI 安全”“AIGC”等热门话题，吸引了大量企业嘉宾及行业专家共同参与。

除此之外，学界和企业界也在积极探索新的深度产学研融合方式。例如，2018 年清华大学通过科技成果转化成立的瑞莱智慧科技有限公司，是国内最早专门从事 AI 安全的高科技公司，研发的“安全可靠可控新一代人工智能平台”荣获 2021 世界互联网领先科技成果奖；清华大学还与蚂蚁集团、阿里安全等达成长期合作，携手发展安全大模型，联合攻克安全对抗、博弈攻防、噪声学习等技术，构建面向网络安全、数据安全、内容安全、交易安全等多领域多任务的安全通用大模型。

（二）国外现状

从 2021 年开始，为了保障数据安全、个人隐私、道德伦理、以及从跨国市场规范、AI 平权等多项目标考虑，欧盟就开始推进《人工智能法案》，按既定节奏，该项法案在 3 月底提交欧盟议会审议。

在欧盟推进立法的同时，联合国教科文组织（UNESCO）总干事奥德蕾·阿祖莱也在 3 月 30 日发表声明，呼吁各国尽快实施该组织通过的《人工智能伦理问题建议书》，为人工智能发展设立伦理标准。

当然，在这方面投入努力的也不只是政府，各大企业也在技术和产品形态上不断追求更安全的大模型。比如 OpenAI 就在积极提高其预训练大模型的安全性，在 GPT-4 发布时，OpenAI 的安全测试显示，GPT-4 比 GPT-3.5 的得分要高出 40%。但同时 OpenAI 官网仍然在警告用户，在使用 GPT-4 输出的内容时应格外小心，特别是在高风险场景下（如医学、化学等领域），需要人工核查事实准确性或者避免使用 AI 给出的答案。近期，人工智能公司 Anthropic 也发布了具有更高性能的 Claude 2大语言模型。除了在模型阶段介入新技术之外，更多公司开始从数据阶段就将隐私考虑了进去，比如数据合成和隐私计算就是两种有效的解决方案。

（三）关于大模型安全性治理的思考与建议

当前大模型技术不断更新迭代，获得了阶段性成果。但在复杂多变的网络环境、冲突碰撞的多元文化等背景下，其安全与治理仍然面临诸多威胁与挑战。其原因主要有以下三点：一是大模型的信息数据来源广泛复杂，本身多元化的内核增加了治理的难度与复杂性；二是大模型信息数据量级庞大，对于侵权、有害、不实等信息鉴别难度更大；三是大模型生产出的信息内容质量良莠不齐，一些错误的信息可能被盲目信赖并传播。

目前大模型已应用到生产生活的各个领域，如聊天机器人、音视频创作等。随着 AI 技术的快速发展，公众对于个人隐私保护与伦理道德安全问题关注也达到前所未有的高度。下一步，对推动大模型安全性治理有几点思考与建议：

一是全面加强国家大模型安全保障体系建设。完善的大模型安全保障体系是提升大模型安全的有力保障。继续细化相关制度与规则，逐步推动大模型发展有法可依，与时俱进。构建法律规范、行政监督、行业自律、技术保障与用户自制相结合的良性治理生态。

二是推动建设全球网络空间共同体。在全球化的背景与浪潮下，要积极开放，与国际接轨，在交流技术的同时，坚守并弘扬社会主义核心价值观，提升国际影响力。并在如个人隐私、数据道德等共有问题中，坚持“以人为本”的中心思想，提出思考与见解，提升国际影响力，助力全球网络空间共同体建设。

三是提升大模型安全方面科研投入。AI 大模型的发展将会给网络安全环境带来深刻影响与变革，随着技术的更迭，未来可能会产生一些新的安全攻击手段与漏洞。应当更前置全面考虑大模型的安全问题，防御思路从“被动”变为“主动”，加大科研投入，完善基础设施，建立示范样本。

四、结语

总的来说，自从 ChatGPT 等大型 AI 模型的出现以来，我们已经步入了一个全新的时代。这些模型正以前所未有的速度和规模，改变着我们的生活和工作方式。然而，正如这些模型仍在不断探索和进化一样，我们对它们的理解和管理也仍处在初级阶段。它们与传统产业、安全、社会伦理等方面的碰撞和挑战也才刚刚开始。大模型带来的变化是矛盾的，既有巨大的潜力和机会，也有严重的风险和威胁。因此，我们需要建立全面而有效的治理机制，以便在最大限度地发挥其价值的同时，将其潜在的危害最小化。这需要各行各业的专家、政策制定者，以及公众的共同努力和参与，以确保我们能够在这个新的前沿领域中，实现大模型的公平、透明和安全。

（本文刊登于《中国信息安全》杂志2023年第8期）

声明：本文来自中国信息安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

大模型安全与治理探讨

欧盟和新加坡签署有关AI安全合作的行政安排

警惕AI网络安全应用的“毒蘑菇陷阱”

美智库：支持开源人工智能的国家将获得战略安全优势