导言

2024年3月25日,Anthropic在其官网发表文章《第三方测试是AI政策的关键组成部分》(Third-party testing as a key ingredient of AI policy)。文章强调外部评测如何增加前沿AI系统的透明度、问责制和安全性,倡导制定有利于独立测试的政策。

此前,由数百名跨学科研究人员、从业者和倡导者签署的《独立AI评测的安全港》(A Safe Harbor for Independent AI Evaluation)公开信也强调了这类评测的必要性。公开信提议AI企业改变政策,为善意的AI安全与可信研究提供基本保护和更公平的访问权限。

安远AI全文翻译了Anthropic的这篇文章,并鼓励制定有利于第三方测试和独立安全评测的政策,以确保AI技术透明、可靠和安全,推动全行业的健康发展。

本文约6,500字,预计需要18分钟阅读。

目录

● 政策概览

● 为什么我们需要有效的测试机制

● 健全的测试机制会是什么样子?

● Anthropic将如何支持公平、有效的测试机制

● 测试如何与我们更广泛的政策优先事项联相关联

● 我们认为在讨论AI政策时需要关注的几个方面

● 为什么我们对所倡导的AI政策持谨慎态度

● 为什么AI政策很重要

我们认为,AI领域需要对前沿AI系统进行有效的第三方测试。基于行业、政府和学界的见解制定测试机制和相关的政策干预措施,是避免AI系统对社会造成(无论是故意还是意外)伤害的最佳方法。

我们部署大规模生成式AI系统(如Claude)的经验表明,需要建立政策环境,以应对当今最强大的AI模型以及未来可能构建的AI模型的能力。在这篇文章中,我们讨论了第三方测试的内容、必要性,并描述了我们为达成这一政策立场所做的研究。我们还讨论了测试理念与AI政策的其他主题(如开放访问模型和监管俘获问题)之间的关系。

当今的前沿AI系统需要第三方监督和测试机制来验证其安全性。特别是,我们需要这种监督来理解和分析与选举诚信、有害歧视以及可能被滥用于国家安全等问题相关的模型行为。我们还预计,未来更强大的系统将需要更深入的监督——正如我们在“AI安全的核心观点”[1] 中所讨论的那样,我们认为当今的AI开发方法有可能产生具有巨大能力的系统,我们预计越来越强大的系统将需要更广泛的测试程序。一个强大的第三方测试机制似乎是对特定行业监管的一个很好的补充,也是发展更通用的政策方法的有力工具。

为当今的AI系统开发第三方测试机制似乎为我们提供了应对当今AI挑战的最佳工具之一,同时也提供了我们可用于未来系统的基础设施。我们预计,最终某种形式的第三方测试将成为广泛部署AI模型的法律要求,但设计这一机制并准确弄清楚AI系统应根据哪些标准进行评估是我们未来需要迭代的事情多年以来,目前尚不清楚什么是适当的或有效的,而了解这一点的方法是建立这样一个机制的原型并生成有关它的证据。

一个有效的第三方测试机制将会:

  • 增加人们和机构对AI系统的信任

  • 具有精确的范围,这样通过测试就不会给小公司带来太大负担,使其处于不利地位

  • 仅适用于一小部分计算最密集的大型系统;如果实施得当,绝大多数AI系统将不在此类测试机制的范围内

  • 通过制定共享标准和尝试互认协议,为国家和国家集团提供一种相互协调的手段

这一机制将具有以下关键要素[1]:

  • 用于衡量给定AI系统的行为和潜在滥用的有效且广泛信任的测试

  • 值得信赖的合法第三方可以管理这些测试并审核公司的测试程序

这种机制是必要的,因为前沿AI系统——特别是消耗大量计算资源的大规模生成模型——无法很好地适应当今特定用例和特定行业的框架。这些系统被设计为“万能机器”——Gemini、ChatGPT和Claude都可以适应大量下游用例,并且下游系统的行为总是继承了前沿系统所依赖的一些能力和弱点。

这些系统非常强大且有用,但它们也存在严重滥用或导致AI事故的风险。我们希望帮助开发一个系统,大大减少AI技术造成重大滥用或事故的可能性,同时仍然允许广泛部署其有益的方面。除了明显希望防止重大事故或滥用行为本身之外,重大事件还可能导致极端的、下意识的监管行动,导致监管既令人窒息又无效的“两头落空”。我们认为,出于多种原因,主动设计有效和经过仔细考虑的监管是更好的选择。

系统还有可能表现出涌现的、自主的行为,这可能导致严重事故——例如,系统可能会在被要求生成的代码中插入漏洞,或者当被要求执行具有多个步骤的复杂任务时,执行一些与人类意图相悖的操作。尽管这些行为本质上很难衡量,但今天开发工具来衡量它们是值得的,以防止这些行为在广泛部署的系统中表现出来。

在Anthropic,我们实施了自治系统,我们相信这应该有意义地降低我们开发的技术被滥用或发生事故的风险。我们的主要方法是我们的负责任的扩展政策(RSP)[1] ,它要求我们测试我们的前沿系统,例如Claude,以防止滥用和事故风险,并且只部署通过我们安全测试的模型。随后,其他多个AI开发者已经采用或正在采用与Anthropic的RSP有显著相似之处的框架。

然而,尽管Anthropic正在投资我们的RSP(其他组织也在做同样的事情),但我们认为这种测试是不够的,因为它依赖于单个私营部门参与者做出的自治决策。最终,测试需要以一种广泛信任的方式进行,并且需要应用于开发前沿系统的每个机构。这种行业范围的测试方法并不罕见——最重要的经济部门都通过产品安全标准和测试机制进行监管,包括食品、医药、汽车和航空航天。

强大的第三方测试机制可以帮助识别和预防AI系统的潜在风险。它将需要:

  • 产业界、政府和学术界对AI安全测试框架应该包括什么和不应该包括什么达成共识

  • 初始阶段,公司完成实施此类测试的测试运行,有时在第三方监督下,以确保测试有效、运行可行并可由第三方验证

  • 两阶段测试机制:公司应该有一个非常快速的自动化测试阶段应用于他们的系统。此阶段应覆盖广泛的区域,并倾向于避免漏报。如果此阶段发现潜在问题,应该进行更彻底的二次测试,可能使用专家主导的启发式方法

  • 给政府中负责监督和验证测试的部门增加资源——构建和分析测试是一项详细、昂贵、技术性的工作,因此政府需要找到一种方法来资助执行此任务的实体

  • 一套范围明确的强制测试——在行业自治激励不足且政府监管带来的公共安全利益大于监管负担的情况下,我们需要制定具体的、法律规定的测试。我们应该确保这是一组范围明确、数量较少的测试,否则我们会增加监管负担并增加监管俘获的可能性

  • 在确保安全性与管理测试便捷性之间取得有效平衡

至于测试,我们今天已经可以确定第三方测试似乎能发挥作用并且能利用政府天然优势的一个领域:国家安全风险。我们应该确定一组AI的能力,如果滥用,可能会危及国家安全,然后测试我们的系统是否具有这些能力。这些能力可能包括有效加速生物武器制造或进行复杂网络攻击的能力。(如果系统具备这些能力,那么这将导致我们改变部署模型的方式——例如,从广泛部署的模型中删除某些能力和/或将某些模型能力置于“了解您的客户”机制背后,并确保相关政府机构知道我们拥有具有这些能力的系统。)我们预计社会最终会在多个领域要求采用合法的第三方测试方法,而国家安全只是其中之一。

当涉及到进行测试的第三方时,将会有多个第三方,并会出于不同的原因进行测试,大致包括:

  • 私营公司:公司可能会分包其他公司为其系统构建测试和评估,就像我们对与Gryphon Scientific等公司所做的那样。我们还可以想象公司为其他公司进行测试,这些测试是法律规定的,但不是由政府机构进行的,类似于会计师事务所审计私营公司账目的方式。

  • 大学:如今,许多学术机构的许多研究人员都可以免费或有补贴地访问AI实验室开发的模型;未来,我们可以想象其中一些研究机构会管理自己的测试计划,其中一些可能会受到政府机构的监督或提升。

  • 政府:一些测试(我们怀疑数量相对较少)可能是法律规定的并由政府参与者进行——例如,用于测试AI系统的国家安全滥用情况。在这里,政府机构可以直接进行测试。

最终,我们预计第三方测试将由不同组织组成的多元化生态系统完成,类似于当今经济其他领域实现产品安全的方式。由于广泛商业化的通用目的AI是一项相对较新的技术,我们认为这个生态系统的结构目前尚不清楚,并且通过上述所有参与者运行不同的测试实验而变得更加清晰。我们需要从今天开始制定这个测试机制,因为构建它需要很长时间。

我们相信,我们以及AI开发的其他参与者将需要进行多次测试实验才能做到这一点。风险很高:如果我们采用一种无法准确衡量安全性但易于管理的方法,我们就有可能无法做任何实质性或有益的事情。如果我们采用一种能够准确测量安全性但难以管理的方法,我们就有可能创建一个有利于拥有更多资源的公司的测试生态系统,从而降低较小参与者的参与能力。

未来,Anthropic将开展以下活动,支持政府制定有效的第三方检测机制:

  • 通过实施我们的RSP并分享我们所学到的经验来构建测试机制原型

  • 通过承包商和政府合作伙伴测试对我们系统的第三方评估

  • 深化我们的前沿红队工作,让我们和更广泛的行业更清楚地了解AI系统的风险及其缓解措施

  • 倡导政府资助能够帮助制定有效的第三方测试机制的机构和组织(例如,在美国,NIST、美国AI安全研究所、国家AI研究资源、能源部用于AI测试的超级计算机等)

  • 鼓励各国政府建立自己的“国家研究云”(如美国的国家AI研究资源),以便a)在学术界和政府中发展独立的能力,以构建、研究和测试前沿AI系统,b)致力于评估AI系统的科学,包括由Anthropic等私营公司开发的AI系统

根据产业界、政府和学术界的见解制定测试机制和相关政策干预措施,是避免AI系统对社会造成(无论是故意还是意外)伤害的最佳方法。

我们的总体政策目标是对AI行业进行适当的监督。我们相信,这主要是通过建立一个有效的AI系统第三方测试和评估生态系统来实现的。以下是您可以期待我们为支持这一目标而倡导的一些AI政策理念:

■ 政府为AI测试和评估提供更多资金

有效的测试和评估程序是任何有效形式的AI政策的必要先决条件。我们认为,政府应该支持和扶持开发AI评估的机构,并召集产业界、学术界和其他利益相关者就AI系统的安全标准达成一致。在美国,我们特别主张为NIST提供更多资金。

■ 通过公共部门基础设施进行AI研究,支持对AI系统进行更大的评估

我们迫切需要增加测试和评估AI系统的人员数量和广度,以应对当前和未来的风险。因此,政府建立实验基础设施来帮助学术研究人员测试和评估前沿AI系统,并出于有益目的开发自己的前沿系统至关重要。欲了解更多信息,请参阅我们通过CREATE AI Act对美国国家研究云的支持,以及我们的参议院书面证词。

■ 开发针对特定的国家安全相关能力的测试

我们应该知道AI系统的使用方式是否可以加强或(如果由另一个实体部署)削弱国家安全。虽然私营部门和学术界可以开发绝大多数测试,但一些测试和评估问题涉及国家安全能力,属于机密,因此只有某些政府能够有效评估它们。因此,我们希望支持美国政府开发测试AI系统的国家安全相关能力的方法。我们也将继续我们自己的工作,以更好地了解我们自己系统的功能。

■ 针对日益先进的系统的场景规划和测试开发

我们的负责任的扩展政策旨在预先开展评估和测试AI系统未来假设能力的工作。这是为了确保我们有相关的测试来,来更好地评估和最小化日益强大的AI系统带来的事故和滥用风险。但我们并不声称我们的RSP描述了需要在日益强大的模型上运行的所有测试。随着计算能力不断增强推动AI不断进步,更广泛的参与者应该努力预测AI系统的未来功能,并为其开发测试。

在制定我们的政策方法时,我们还发现自己一次又一次地回到一些具体问题上,例如开放访问模型和监管捕获。我们在下面概述了我们当前的政策思路,但认识到这些都是人们经常意见不一的复杂问题。

● 公开传播和/或开源模型

科学的进步很大程度上归功于研究的开放和透明文化。在AI领域尤其如此,目前正在展开的大部分革命都是建立在Transformer、BERT、Vision Transformers等研究和模型的开放出版物之上的。开源和开放访问的系统也有着悠久的历史,通过帮助更多的人试验技术并识别其潜在的弱点,增强了安全环境的稳健性。

我们相信,当今绝大多数(甚至可能是全部)AI系统都可以安全地公开传播,并且在未来也可以安全地广泛传播。然而,我们相信,未来前沿AI系统完全开放传播的文化与社会安全文化之间可能很难调和。

如果——“如果”是一个关键且尚未解决的问题——能力日益增强的AI模型可能会导致有害影响,或者有可能发生灾难性事故,那么我们就需要调整前沿领域公开传播的规范。

具体来说,我们需要确保AI开发人员以提供强有力的安全保证的方式发布他们的系统——例如,如果我们发现对我们的模型被严重滥用,我们可能会放置分类器来检测和阻止引发这种滥用的企图,或者我们可能会将微调系统的能力置于"了解你的客户"规则以及不对特定滥用进行微调的合同义务之后。相比之下,如如果有人想公开发布一个能够进行同样滥用的模型的权重,他们就需要既要使模型能够抵御这种滥用(例如,通过RLHF或RLAIF训练),又要找到一种方法使这个模型能够抵御试图将其微调到能够实现这种滥用的数据集上的企图。我们还需要尝试披露流程,类似于安全社区在预先通知零日漏洞披露方面已经形成的规范。

尽管我们所描述的做法本质上是非常昂贵的,但我们也认为这是必要的——我们必须尽一切努力避免AI系统造成重大滥用或重大事故。但对AI系统的公开传播进行任何限制都取决于对AI系统或系统行为的不可接受的滥用行为达成广泛共识。

Anthropic在这里并不是一个公正的参与者——我们是一家主要开发专有系统的公司,我们没有资格对公开传播的系统中什么应该或不应该被接受提出主张。因此,为了解决开源模型的问题,我们需要合法的第三方制定广泛被认为是合法的测试和评估方法,我们需要这些第三方(或其他受信任的实体)来定义一组狭义而严肃的AI系统滥用行为以及不利的AI系统行为,我们需要将这些测试应用于受控的模型(例如通过API)或公开传播的模型(例如通过权重的发布)。

第三方对公开传播和封闭专有模型的测试可以生成我们了解AI领域安全特性所需的关键信息[2]。如果我们不这样做,那么最终可能会遇到这样的情况:专有模型或开放访问的模型直接导致严重滥用或导致重大AI事故——如果发生这种情况,可能会对人们造成重大伤害,也可能会对AI行业产生不利的监管。

● 监管捕获

任何形式的政策都可能遭受一个有足够动机和资源的行为者(例如,一家资本充足的AI公司)的监管俘获。我们上面讨论的关于开放访问模型的一些想法本身就容易受到监管捕获。重要的是,AI生态系统保持稳健和竞争力——AI是一个复杂的领域,人类实现这一目标的最佳机会可能来自于有一个多样化、广泛的行为者参与其发展和监督。

我们通常提倡第三方测试和测量举措,因为它们看起来像是一种政策基础设施,可以帮助我们识别和防止具体危害,并建设独立于大公司的能力。因此,我们认为重点发展第三方测试能力可以降低监管捕获的风险,为开发者创造公平的竞争环境。相反,行业主导的联盟可能倾向于青睐那些涉及公司部分高合规成本的方法,无论其规模大小——这种方法本质上有利于大型企业,因为它们可以在政策合规性上花费更多资金。

在制定我们的政策立场时,我们假设法规往往会给执行法规的一方(例如政府)和法规针对的一方(例如AI开发者)都带来行政负担。因此,我们应该倡导既切实可行又易于遵守的政策。我们还注意到,法规往往具有累加性——一旦通过,法规就很难废除。因此,我们提倡采用我们所认为的“最低限度可行政策”来创建良好的AI生态系统,并且我们对反馈持开放态度。

今天和未来的AI系统都非常强大,能够为社会带来巨大的利益。我们还认为,如果实施不当,这些系统有可能被非常规地滥用,或可能导致事故。尽管我们的工作绝大部分是技术性的,但我们但我们已经认识到测试对于我们系统的安全至关重要——这不仅是我们更好地了解自己模型的能力和安全属性的方式,也是第三方验证我们对AI系统所做声明的方式。

我们相信,建立第三方测试生态系统是让更多社会参与AI系统开发和监督的最佳方式之一。我们希望通过发布这篇文章,我们能够更好地阐明第三方测试的好处,并概述我们自己的立场,供其他人批评和借鉴。

脚注

  1. 一些国家也可能会尝试“监管市场”,AI开发者可以在其中买卖AI测试服务,并相互竞争,努力构建和部署更安全、更有用的系统。

  2. 例如,如果你公开发布一个AI模型,第三方就可以相对容易地在自己选择的数据集上微调该模型。这样的数据集可能被设计用于优化滥用(例如网络钓鱼或攻击性黑客)。如果你能开发出一种使AI模型很难通过微调偏离其原始能力分布的技术,那么就更容易放心地发布模型,而不会在下游的安全性方面有潜在的妥协。

声明:本文来自安远AI,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。