兰德报告：保护人工智能模型权重——防止前沿模型被盗和滥用

随着前沿人工智能模型的能力不断增强，防止它们免受恶意行为者攻击的重要性也愈发凸显。元战略梳理概括兰德公司在前沿人工智能模型方面的最新研究，探讨如何保护人工智能模型权重（即人工智能模型的可学习参数），使其免受一系列潜在恶意行为者的侵害，以期为读者提供相关参考。

简介

人工智能和机器学习技术正以前所未有的速度发展，它们不仅为社会带来前所未有的机遇，也带来了相应的风险。人工智能的最新突破有望显著提升生产力、改善人类健康，并在多个领域推动进步。然而，随着技术的发展，也出现了与人工智能滥用和产生意外后果相关的新风险，特别是在网络安全和生物技术领域。面对这些挑战，我们面临着技术障碍和不确定性。已有证据表明，即使是最先进的人工智能模型，也可能遭遇不可逆转的信息泄露。

确保前沿人工智能模型的安全性，不仅是为了保护知识产权，更关乎国家安全。商业利益一直是推动人工智能安全性研究的重要动机。然而，随着人们对未来人工智能模型潜在风险的担忧日益增加，这些风险可能上升到国家安全层面，这就要求我们从更广泛的角度考虑公众的安全和利益。因此，关于如何确保前沿人工智能模型安全性的讨论，正在从人工智能组织扩展到整个行业、政府以及公众利益相关者。

鉴于潜在威胁的复杂性，以及国家民族可能采取的高优先级行动，为人工智能系统制定有效的安全措施是一项挑战。首先，尽管人工智能的发展轨迹存在不确定性，但人工智能组织必须立即采取行动，为未来的安全需求做好准备。其次，关于人工智能安全战略的交流不应仅限于人工智能组织内部。各组织会根据自身情况开发威胁模型、安全策略和系统。然而，如果组织的责任超出了自身的经济利益，那么完全由内部驱动的流程也会带来挑战。在这种情况下，政策制定者需要通过监管或自愿承诺的方式，与企业就其风险管理策略进行有意义的沟通。例如，多个实验室已经发布了负责任的相关政策和准备框架，这些文件将人工智能模型的能力和风险与组织承诺的一系列安全要求（不限于安全性）相匹配。

为了在降低风险和展示责任方面取得成效，必须达成共识，这不仅需要在组织内部，还需要在相关利益相关者之间达成，即组织的安全措施如何转化为实际的安全性。这种需要不仅适用于这些自愿性框架，也适用于其他治理形式。此报告旨在通过促进这种共识来推动更稳健的人工智能安全战略，为实现这一目标，本文重点关注以下四方面的工作：

第一，本文识别了大约38种独特的攻击途径。在大多数情况下，组织只要存在对任何一个攻击途径的薄弱环节，就可能面临安全风险。我们提供了数百个这些攻击途径成功实施的真实案例，不仅证实了它们的可行性，还展示了这些攻击在实际应用中的具体表现。

第二，本文对潜在攻击者的能力进行了深入分析，从以经济利益为驱动的机会主义犯罪分子到拥有丰富资源的国家行动者。这种对攻击者能力的分类有助于组织根据自身现有的安全基础设施，合理规划和确定优先级。

第三，本文评估了不同类别的攻击者执行每种攻击途径的可行性。大约有十多种攻击途径对于非国家行为者来说可能难以实施，但对国家行为者来说却是可行的。这一发现凸显了构建更强大的安全系统以抵御这些攻击的必要性。关于国家行为者的能力以及如何有效防御他们的攻击，专家之间存在广泛分歧。

第四，本文提出并定义了五个安全等级，并为达到这些安全等级提供了初步的基准安全系统。每个等级都被明确为能够抵御恶意行为者所采用的攻击途径，这些基准有助于组织平衡安全投资与防范不同行为者之间的风险。安全等级并不是作为固定标准来使用，而是为了给前沿组织在其持续的安全增强战略中不同阶段可以采取的措施提供具体的建议。

建议

避免重大安全漏洞是一项极具挑战性的任务，它要求全面实施一系列广泛的安全实践。然而，本文着重强调了8大相关建议，这些建议应成为当前前沿人工智能组织的首要任务。这些建议对于模型权重的安全至关重要，大多数建议可在大约一年的时间内优先实现，并且目前在前沿人工智能组织中尚未得到全面实施，具体包括：

制定一个全面的安全计划，以综合威胁模型为基础，重点防止未经授权的访问和模型权重的盗用。

将所有权重副本集中到数量有限的系统中，并确保这些系统受到访问控制和监控。

减少授权使用权重的人员数量，以降低内部泄露的风险。

加固模型访问接口，防止权重外泄，确保数据的完整性和保密性。

实施内部威胁识别计划，以识别并应对潜在的内部安全威胁。

投资于深度防御策略，通过多层安全控制提供冗余，确保在某些控制失效时仍能保持安全。

参与先进的第三方红队测试演练，合理模拟相关威胁行为者，以测试和提高组织的防御能力。

在使用过程中纳入保密计算技术，以确保权重的安全，并减少潜在的攻击面。

为了保护未来的模型免受最强大的威胁者的攻击，我们需要更严格、更先进的政策和系统。开发、实施和部署能够挫败这类攻击所需的关键安全措施可能需要较长时间（例如五年），并且目前尚不清楚是否会在没有主动请求的情况下采取此类行动。因此，尽快着手采取这些更先进的措施是明智的，具体包括：

对包含权重的设备或网络与外部世界之间的物理带宽进行限制。

开发专门的硬件，以确保模型权重的安全，同时为推理提供安全的接口，类似于加密领域的硬件安全模块。

建立安全、完全隔离的网络环境，用于训练、研究和其他更高级的权重交互。

本文强调，确定一个组织或特定人工智能模型的适当安全级别涉及许多考虑因素，包括被保护模型的能力，这些能力是否对国家安全或竞争力构成潜在威胁，以及是否已经可以通过其他手段获得类似能力。目前，关于不同模型需要在多大程度上受到保护，正在受到热烈的讨论。通过系统化的知识，了解哪些安全措施可以实现理想的安全结果，从而支持私营和公共部门做出明智的决策，提高能力，以保护那些被认为值得在理想安全级别上加以保护的前沿人工智能模型。

范围

本文深入探讨了人工智能系统安全生态系统，覆盖了模型权重、架构设计、训练数据和操作基础设施等多个方面。面对这样一个庞大的系统，我们选择将焦点集中在一个核心部分：人工智能模型的权重，即人工智能模型的可学习参数。这些权重和偏差是在训练过程中学习得到的，它们对模型能否准确预测或做出决策起着决定性作用。本文特别关注的风险是模型权重被盗、被复制或被模仿。此外，本文之所以决定聚焦于模型权重，主要是基于两个考虑：

首先是风险评估。模型权重是高级模型训练过程中各种复杂条件的结晶，包括巨大的计算资源（比如处理数据和运行计算所需的GPU和资源）、庞大的训练数据量（据说GPT-4的训练数据量超过了10TB），以及训练中使用的算法改进和优化等。即便攻击者无法直接窃取权重，复制权重也需要满足所有这些条件。而一旦攻击者获得了模型权重，他们就可以在没有限制或监控的情况下轻易滥用模型。要实现这一点，攻击者只需要两个前提条件：一是进行推理所需的计算资源，据估计成本非常低廉；二是模型结构，虽然它比权重更难保护，但可以从权重中推断出来。

其次是可行性。与其他组件相比，确保模型权重的安全在技术上更具挑战性，但也提供了一个更易于操作的干预点。模型架构包含的信息量要小得多，因此更容易泄露。而且，需要了解架构细节的人也更多，比如研究人员和工程师。大多数情况下，使用模型并不需要完整地读取所有权重，因此权重可以通过防拷贝接口得到更好的保护。至于训练数据，它们通常来自公共资源或商业聚合商，人工智能组织对其的控制权相对较小。

本文主要分析的是基础模型，尤其是大型语言模型（LLM）和类似的多模态模型。我们对这些模型做了一些关键的技术假设，比如它们的体积庞大，未来还会继续增长，因此更容易监控或防止未经授权的复制或盗窃。同时，这些模型的常见用例通常是通过推理应用程序编程接口（API）实现的，这给模型的隔离带来了挑战。此外，本文排除了那些被认为权重对安全不那么重要的模型。如果一个模型的权重对公共安全构成风险，那么它就被认为是至关重要的。评估一个模型是否构成大规模社会风险是一个新兴领域，未来可能会根据每个模型的风险评估来应用不同的安全措施。一旦模型公开，保护其特定副本就不再有价值。在决定是否公开未来模型时，需要考虑其风险是否证明控制其访问是合理的。

虽然本文主要关注模型权重，但人工智能安全的其他方面同样重要。确保模型架构、训练数据和源代码等其他组件的机密性对人工智能系统的整体安全至关重要，但这些内容并不在本文的讨论范围内。同样，保护模型的完整性和可用性、防止滥用合法的API以及在模型被泄露时减轻危害的计划也非常重要。本文的重点是人工智能组织为提高自身安全性应采取的措施，但我们也希望其他利益相关者能够参与讨论，因为他们可能会与人工智能组织就其安全性进行接触。各国政府和更广泛的研发界也可以采取进一步行动，支持前沿人工智能模型的安全性。

结论

人工智能技术的进步带来了巨大的机遇，也带来了严峻的挑战。一旦恶意行为者获得了模型权重，滥用模型的能力就会变得非常容易。鉴于这种能力的变化速度非常快，有必要采取稳健、前瞻性的策略来确保人工智能系统的安全。本文强调了确保此类系统安全的复杂性，特别是在防止前沿人工智能系统权重被盗用，尤其是防止高级威胁方面。此外，要促进人工智能安全这一新兴领域的发展，还有许多工作要做，包括分析如何保护人工智能系统中各种关键组成部分的机密性、完整性和可用性，而不局限于其权重；制定一个强大的研发议程，以扩展人工智能安全工具包；以及更好地定义不同参与者在保护人工智能系统安全方面的作用等。

（本文内容系“元战略”公众号原创编译，转载时请务必标明来源及作者）

参考来源：兰德公司官网

参考题目：

Securing AI Model Weights

Preventing Theft and Misuse of Frontier Models

参考链接：

https://www.rand.org/pubs/research_reports/RRA2849-1.html

免责声明：文章内容系作者个人观点，如有任何异议，欢迎联系我们！图片来源于网络，如有侵权请联系删除。

编译 | 元战略智库高级研究员

编辑 | 流景

审校 | Zoie Y. Lee

声明：本文来自元战略，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

兰德报告：保护人工智能模型权重——防止前沿模型被盗和滥用

美国成立国家安全人工智能风险测试工作组

欧盟和新加坡签署有关AI安全合作的行政安排

警惕AI网络安全应用的“毒蘑菇陷阱”