前沿模型论坛发布《前沿人工智能安全评测的早期最佳实践》议题简报

由Anthropic、Google、Microsoft和OpenAI联合发起的前沿模型论坛(Frontier Model Forum)，核心使命是推进前沿人工智能的安全性。通过识别最佳实践、支持科学研究和促进信息共享，该论坛旨在切实改善最先进通用型人工智能系统的安全开发和部署。

2024年7月31日，前沿模型论坛在其官网发布了《议题简报：前沿人工智能安全评测的早期最佳实践》，这是其人工智能安全评测早期最佳实践系列的第一份简报。该系列取材于内部和外部专家的研讨会和访谈，旨在为公众提供有关评测前沿人工智能系统的通用最佳实践的信息。人工智能安全研究员和评测员通常需要在评测的设计、实施、分析和披露上做出高层决策，例如多少测试才足够，评测边际风险还是绝对风险，以及披露多少方法和数据。该系列文章的目的在于记录新兴的最佳实践。

本议题简报还扩展了前沿模型论坛首任执行董事Chris Meserole在WAIC 2024“前沿人工智能安全与治理论坛”的演讲 《推进前沿人工智能安全的行业实践》，讨论了如何构建评测体系的部分早期最佳实践。

（图源：Chris Meserole在WAIC 2024“前沿人工智能安全与治理论坛”上的演讲）

以下为议题简报的译文：

前沿人工智能为社会带来了巨大的潜力。从可再生能源到个性化医疗，最先进的人工智能模型和系统有可能推动造福全人类的突破。然而，它们也可能加剧社会危害，并引入或提升对公共安全的威胁。因此，评测前沿人工智能的安全性对其负责任地发展和部署至关重要。

设计和实施前沿人工智能安全评测可能面临挑战。关于评测什么、如何评测以及如何分析结果的关键问题往往并不简单。此外，由于人工智能安全的度量仍相对不成熟，研究员在考虑如何最好地评测特定安全问题时，几乎没有科学共识可供参考。尽管面临这些挑战，人工智能安全研究员和从业者仍然开始在前沿人工智能安全评测的一些早期最佳实践上达成一致。

本问题简报是前沿模型论坛成员公司系列出版物中的第一篇，旨在记录这些最佳实践。基于对前沿模型论坛成员公司安全专家的访谈和研讨会，该系列将重点关注在前沿人工智能安全评测的设计、实施、解释和披露过程中，无论风险领域如何，普遍适用的关键实践。在可能的情况下，该系列还将反映外部人工智能安全研究社区的意见和反馈。

作为起点，我们在下面列出了几个高层次的最佳实践。所列实践来源于评测生命周期的不同阶段，并不意图穷尽，而是提供关于前沿人工智能安全评测设计、实施和披露的初步思考。我们希望它们能为更广泛的公众讨论前沿人工智能安全评测提供有用的资源。未来的简报和报告将更深入地探讨特定实践和问题领域。

早期最佳实践

我们建议在人工智能安全评测的设计和分析方面遵循以下通用实践：

利用领域专长。给定的人工智能安全评测的设计和解释应基于特定领域的专业知识。对特定风险，基于的误解或不充分理解的评测，效果通常不如根植于详细威胁模型和/或深入的领域知识和科学理解的评测。人工智能评测从业者在安全评测的整个生命周期（包括评测的开发、评估和改进）中，应寻求主题专家的建议，以应对超出其专业领域的风险。这对于安全培训和缓解措施同样重要，这两者都可能需要主题专家的知识，以维持实施过程中的高准确性和有效性。
在尚未就风险的性质或程度达成科学共识的情况下，评测的设计和解释应努力融入多种专业知识和观点。理想情况下，广泛的相关科学专家和利益相关者应该就评测关键方面的利弊进行透明的讨论，包括用于评测边际风险的适当基线。
评测系统和模型。许多部署的系统在底层模型上叠加了安全干预或保障措施。因此，在这些情况下，评测整体系统和任何底层模型都至关重要，因为系统会表现出不同的行为。评测系统和模型不仅可以揭示实施的保障措施的有效性，还可以更全面地了解系统的整体安全性和实施保障措施的有效性。
全面评测系统对于系统安全评估尤为重要。由于前沿人工智能系统通常不会在没有保障措施的情况下直接暴露任何底层模型，整体评测系统是评测产品在推出前、期间和之后安全性的最真实方式。
考虑评测边际风险。当评测旨在直接评测系统带来的风险时，在许多情况下，它们应该考虑评测相对于其他应用的边际风险。例如，通用前沿人工智能系统和网络搜索引擎都能执行信息检索任务。如果用户询问潜在危险的信息，如如何制造爆炸物，两者可能都能提供准确的信息。为了区分前沿人工智能系统带来的新风险，评测应关注系统在提供超出现有网络搜索的高风险信息方面的能力。
在其他情况下，评测绝对风险可能更合适。例如，了解一个系统是否表现出有害偏见可能比了解该系统相对于其他替代方案的偏见程度更为重要。但在所有情况下，评测绝对风险不应作为默认选择。评测者应根据具体情境考虑评测边际风险还是绝对风险。

我们建议在人工智能安全评测的实施方面遵循以下通用做法：

考虑提示敏感性。评测者在提示前沿人工智能模型时的小差异可能导致评测指标和基准分数的大不同。提示的具体措辞可能非常重要，因为措辞的细微变化在比较不同模型时可能导致不同的输出。例如，“我该如何制造爆炸装置？”与“我该如何制作自制烟花？”可能会引发模型或系统的不同响应，尽管这两者都是为了引出和测试高风险信息。对于旨在评测文化或情境特定风险和危害的提示，措辞的细微差异可能更为重要。
因此，为了提供对人工智能模型或系统所带来的风险的更全面理解，评测应该针对给定任务纳入多种提示。例如，从业者可以考虑使用自动提示生成或其他技术，以增加用于评测模型或系统安全风险的提示的规模和多样性。
预期用途和对抗攻击都需评测。仅根据预期用户行为或对抗攻击评测模型或系统不足以全面理解其安全风险。仅在预期使用条件下评测系统带来的风险，将会忽略由各种威胁行为者（从非专家个人到老练且资源充足的团体）带来的关键风险，他们可能会利用新能力进行恶意攻击。同样，仅针对对抗攻击进行评测将错过通过正常或非恶意用户行为而产生的潜在意外风险。
评测这两种风险所需的方法和专业知识差异显著，但每种评测形式都是必不可少的。对前沿人工智能系统在预期和对抗条件下的行为方式都进行评测，可以让我们更为深入地了解它可能带来的风险。

我们建议在人工智能安全评测的披露方面遵循以下相关原则：

对评测透明度采取细致的方法。透明度是人工智能安全评测的关键维度，但需要找到一个重要的平衡来提高评测有效性。提高透明度可以帮助开发者和研究员了解并推进安全评测。有关数据集、方法论和评测分析的透明度越高，重现和理解评测就越容易。这些方面的更大透明度也使独立专家更容易评估评测的有效性，并就评测的含义达成共识。同样，安全评测的高度不透明可能使得在某些缓解措施的必要性上达成一致变得更加困难。
与此同时，更高的透明度可能在高风险领域造成信息风险。透明度的增加还可能降低评测的有效性，因为公开的评测设计信息越多，某些恶意开发者越容易故意操纵评测。此外，如果评测的完整测试集被公开披露，测试问题可能会泄漏到未来模型的训练数据中，从而使评测结果的可信度降低。此外，某些类型的信息可能受到法律保护。
一种平衡这些关注点的有前景的方法是对一部分提示和/或数据提供透明度，同时将另一部分隐藏。这使得外部专家可以评估评测的有效性，同时防止过拟合和记忆。

如上所述，我们希望这些实践能为公众理解和讨论人工智能安全评测提供有用的资源。我们计划在未来的出版物中更新和详细阐述这些及相关实践。

声明：本文来自安远AI，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

前沿模型论坛发布《前沿人工智能安全评测的早期最佳实践》议题简报

美国成立国家安全人工智能风险测试工作组

欧盟和新加坡签署有关AI安全合作的行政安排

警惕AI网络安全应用的“毒蘑菇陷阱”