大模型的安全发展与治理思考

文 | 中国科学院信息工程研究所研究员张潇丹

2022 年底，OpenAI 推出的 ChatGPT 在文本生成领域实现了重大突破，引领了大模型技术的发展方向，推动了各式各样的基座大模型及行业大模型的发展，并逐步向多模态和具身化方向迅速演进。显然，大模型展现出的强大能力为人工智能通用化揭开了序幕。然而，大模型技术的安全性也面临着生成内容的安全性、伦理道德等重大挑战。只有积极确保大模型的安全性，才能更有效地推动其持续发展，进而更好地应对大模型技术变革所带来的机遇与挑战。

一、大模型技术发展引领产业新变革

自 2017 年谷歌论文《注意力就是你所需的一切》（Attention is All You Need）提出 Transformer 网络结构以来，全球涌现出庞大的大模型技术族群。与传统的小规模神经网络相比，大模型在大数据、大算力与强算法背景下展现出显著的涌现能力。具体而言，一是凭借大规模的预训练语料库，大模型积累了丰富的世界知识；二是随着参数规模的扩大，大模型展现出能力涌现的现象；三是庞大的计算资源支撑大模型的训练和推理，加快了大模型的优化效率，满足了实时响应与准确输出的需求；四是提示工程（Prompt Engineering）通过设计高质量、有意义的输入，引导大模型产生高质量、连贯的输出；五是基于人类反馈的强化学习方法（RLHF）指导预训练语言模型，使其生成的回复更符合人类的意图。

在性能不断进化和跃升的过程中，大模型处理复杂语言任务的能力已经逐渐接近人类的认知和理解水平，表现出强大的泛化能力、上下文理解能力、多任务处理能力、指令遵循能力、思维链和增量知识获取能力等，并不断适应新的环境和需求。现如今，这些技术已经逐步渗透到技术、产业、社会及日常生活的各个方面，不仅推动了新学习范式的发展、创新型智能体的诞生、先进的工具控制及具身智能等前沿技术的进步，更深度应用于各行业之中，为各领域注入了智慧活力，催生出一系列新型应用。

在产业应用方面，国外大模型技术处于领先地位，由龙头企业主导，应用生态蓬勃发展。国外主要专注于通用型大模型的研发，其技术发展与产业应用相对独立。诸如谷歌、微软、OpenAI、Meta 等科技巨头正引领着技术革新，他们凭借技术、资金和人才优势，并结合外部数据和业务扩张，不断推动产业发展，促使以 ChatGPT 等为代表的应用服务生态的形成，涵盖办公软件、浏览器、搜索引擎等多个领域。中小型公司或初创公司则通过利用应用程序编程接口（API）或对 GPT 大模型进行微调来优化人工智能产品的性能。同时，开源大模型与自有数据的融合成为新趋势，提升了训练效率与效果，从而塑造了专业而精确的行业大模型。此外，智能体与多智能体协同应用日益成熟，多领域智能体架构与产品验证了智能体的高渗透性和成长空间。

在我国，大模型的应用需求正在推动技术的进步，从而形成繁荣发展的行业景象。在数据、算力和算法的驱动下，人工智能产业正在迅速发展。受应用需求推动，我国大模型技术正在积极拓展国内及海外市场，行业应用的数量和范围都有了显著增长，涵盖聊天对话、AIGC、数字人、智能体等多个领域。预计未来，我国的大模型发展将更贴近产业端，实现与应用场景的深度融合。一方面，自有通用大模型与外部行业数据融合，通过“1+N”模式衍生出多个行业大模型。另一方面，企业也会将自有或其他开源大模型与自有行业的数据相融合，进行专门的训练。目前，我国已经发布了众多大模型，基座大模型的发展进入稳定期，而探索开发“超级应用”已经成为国内人工智能科技巨头的下一个目标。

二、大模型的风险与发展共存

大模型能力显著增强为人类提供计算能力和应用潜力的同时，也带来了包括产生有害不实内容和非法控制等诸多风险。由于大模型对人类社会、信息系统和物理空间的影响日益加深，其安全风险也日益突出。具体而言，在人类社会层面，大模型可能因知识获取限制或提示注入攻击而使大模型生成虚假信息、非法内容乃至煽动性的言论。这些内容可能会隐式渗透到复杂的虚拟数字空间，从而误导人类的认知和决策。大模型在遭到攻击或滥用时，可能生成违背社会伦理和道德规范的内容，如果这些内容在社交媒体上传播，可能会对网络舆论环境造成负面影响，并威胁到网络空间安全。

在信息控制方面，对抗干扰攻击和指令错误执行可能引发信息系统行为失控。大模型已逐步发展为智能化时代的基础底座，如其安全漏洞被恶意利用，产生各类非法的工具并被调用和操作，将严重威胁信息系统的安全稳定运行。此外，大模型的编程能力可能被网络犯罪分子利用进行各类非法网络攻击，降低了网络攻击的门槛。一旦被滥用，将增加网络和信息空间安全的复杂性。攻击者会通过各种手段，对大模型进行有意的破坏和破解，通过特定方法欺骗引导大模型做出错误的决策。

在物理环境方面，对大模型的恶意利用或安全攻击，可能会引发设备失控、物理系统损毁等。例如，黑客可能通过攻击自动驾驶系统的算法模型，导致车辆失控，从而威胁道路安全；或者利用智能制造系统的漏洞实施生产中断或恶意操控。更严重的是，一旦机器达到通用人工智能的水平，就可能摆脱人类的控制，造成难以预估的风险。

从内在成因看，大模型风险主要来源于内在机理不明和大模型内部安全对齐困难两个方面。在大模型的内在安全机理方面，一是大模型的黑箱性使其内部工作方式和决策过程错综复杂，缺乏足够的可解释性和透明度。如果黑箱模型遭遇错误或被恶意投毒攻击，可能带来潜在的安全风险。二是大模型的安全风险具有高度的隐蔽性，在训练或微调过程中涉及的数据类型繁多，其中不乏未经验证、来源多样的不可靠数据，可能导致隐私泄露、认知偏见、虚假信息和违法内容等风险。三是虽然大模型参数量剧增带来的涌现能力非常强大，但也可能引发过度泛化和未知的风险。基础模型的脆弱性往往会被下游模型所继承，导致整个系统面临更大风险。四是大模型的价值知识具有增量式的特点。这意味着随着新数据的不断涌现、知识与表达的更新，人机对齐面临越来越大的挑战。在大模型的内部安全对齐困难方面，一是竞争目标（Competing Objective）问题。模型的预训练目标——即其“助人性”（Helpful）与安全对齐目标——即其“无害性”（Harmless），时常会呈现一定的冲突。在追求高度“助人性”的过程中，大模型往往倾向于过度讨好用户，甚至呈现出一种“逢迎”（sycophancy）的趋势。当模型过于注重安全对齐、盲目追求“无害性”时，又可能在一定程度上影响其“助人性”，导致错误输出或拒绝回答等问题。二是泛化失配（Mismatched Generalization）问题。大模型在安全对齐方面的泛化能力显著弱于其本身的大模型泛化能力，二者之间存在明显的不匹配现象，安全对齐面临无法事先预见所有潜在安全风险的挑战。

从外部成因看，大模型的风险主要来自面临的多种外部攻击威胁。一是提示注入攻击。攻击者利用模型对上下文和语言的依赖，通过设计提示来操纵模型输出，给大模型安全带来挑战。二是数据投毒与后门攻击。攻击者通过注入有害数据来改变模型的学习过程，或者植入后门使模型表现异常。三是推理阶段的隐私安全。成员推断攻击可能暴露敏感信息的样本来源，因此，需要保护训练样本的信息。

大模型的安全与发展密切相关，相互促进又相互制约。高安全性的大模型能增强用户和企业的信任，推动广泛应用和持续改进，减少技术滥用的担忧。然而，提升安全性需投入大量资源，可能影响性能和创新功能的实现。随着技术的发展，新的安全挑战不断涌现，例如未知漏洞和风险管理困难。确保大模型的安全不仅能够保护用户和企业利益，也能够推动大模型技术的可持续发展。因此，实现大模型安全与发展的良性循环，需要政府、行业和学术各界共同努力，制定有效的策略和措施。

三、对大模型安全治理的思考

大模型安全治理是一项复杂而艰巨的系统工程，需要政、产、学、研、用各界共同发力，管理机制和技术手段双管齐下，从国家顶层设计、安全技术群构建、安全评测等方面着手。一方面，建立健全大模型安全相关的国家战略、法律法规和国家标准等；另一方面，攻关突破大模型安全攻击、风险识别、安全防护等关键技术难题，从大模型分级分类安全评测标准、自动化安全测评技术等方面提升大模型安全测评的科学化和高效化水平。

在顶层设计层面，我国已将人工智能的发展定位为国家战略。2024 年政府工作报告明确提出深化大数据、人工智能等技术的研发与应用，且国家相关部门陆续发布了一系列规范文件。2023 年 7 月，国家网信办等 7 部门发布《生成式人工智能服务管理暂行办法》，旨在促进生成式人工智能健康发展和规范应用，保护各方权益。该办法提出“国家坚持发展和安全并重、促进创新和依法治理相结合的原则，采取有效措施鼓励生成式人工智能创新发展，对生成式人工智能服务实行包容审慎和分类分级监管”。全国网络安全标准化技术委员会发布了《网络安全技术生成式人工智能服务安全基本要求》征求意见稿等，立项《网络安全技术人工智能生成合成内容标识方法》等国家标准，生成式人工智能安全标准体系正加速构建。与知识版权、数据隐私等大模型相关的法律法规和国家标准也亟待逐步建立，以共同形成健全完备的大模型安全标准体系。

在技术群构建层面，从安全攻击、风险识别、安全防护三个方面入手，建立大模型安全技术群，推动“以攻促防、攻防相长”的大模型安全对抗式迭代发展。在安全攻击方面，通过红队进行主动测试和漏洞发现，助力风险测评和安全对齐。同时，利用提示注入、微调等攻击手段直接对模型发起攻击，检验模型的防御能力。在风险识别方面，专注于自动发现训练数据和推理阶段的用户问题以及模型生成回复内容中可能存在的有害或不实信息，确保信息的准确性和安全性。在安全防护方面，通过实施模型内部和外部的防护策略，对模型进行全方位的安全防御，以避免输出有害或不实信息，保障模型的稳定运行和用户权益。

在安全评测层面，重点评估大模型在预防不良输出、确保数据隐私、消除偏见和保障公平性、防范对抗性攻击等方面的能力。目前，国内外研究者们围绕不同的测试重点开展了许多安全测评基准工作，例如以综合测评为主、关注有毒和虚假信息等的 HELM，以及综合评估攻击冒犯、偏见歧视等 7 个安全维度的 SafetyBench 等，但目前尚未形成统一、公认的大模型分级分类安全测评标准体系。在安全测评技术方面，常需要采用红队测试和越狱攻击的方法来探测模型的安全漏洞，同时需要风险识别技术作为自动化的判别器，高质量的评测数据集也是一大难点。通过科学、高效的自动化评测技术，确保大模型的安全性和可靠性，仍是一个持久课题。

四、关于大模型安全发展的建议

随着大模型技术的发展，全球人工智能产业正经历快速发展。在这一过程中，数据、算力和算法三大要素并驾齐驱，共同推动大模型产业生态的繁荣。为了进一步提升大模型技术的应用潜力和创新能力，需加强这三大要素的整合与优化。

一是提升国产算力储备，夯实算力底座。需深化算力资源储备与国产算力升级，着重提升国产化适配性和性能表现，确保算力供给的充足和高效。

二是推动众研众创，打造高质量数据集。分批建设准确、规范的数据集，例如领域知识库和主流价值语料集，并鼓励行业通过开源、合作、共享的方式，强化资源积累，提升模型能力。

三是创建技术开源社区，加速大模型技术迭代。鼓励企业、社区、机构和个人紧密合作，共同推出创新成果，建立知识产权和技术优势，推动大模型技术的持续进步。

四是推动细分场景应用，构建通用与行业大模型分层发展的产业结构。鼓励创业公司、人工智能开发者积极探索 C 端和 B 端应用，形成行业垂直推广和复制的产业生态，从而推动大模型技术在更广泛领域的应用和发展。

（本文刊登于《中国信息安全》杂志2024年第6期）

声明：本文来自中国信息安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

大模型的安全发展与治理思考

美国商务部拟设立人工智能安全审查办公室

微软CEO眼中AI Agent商业模式和安全

我国生成式人工智能的监管框架及主要法律风险识别