技术性AI治理的三重策略和38个研究领域

AI的快速发展推动了各方的治理行动，但政策制定者常常面临信息不足、难以确定干预的必要性和难以评估不同政策选项的有效性的困境，导致治理政策的制定过程受阻。此外，成功实施政策建议所需的技术工具往往不够，导致治理政策的推行过程受阻。

为应对这些挑战，斯坦福大学、牛津大学、人工智能治理中心(GovAI)等机构的30多位专家合著的论文《技术性AI治理中的开放性问题》(Open Problems in Technical AI Governance)提供了一个全面的技术性AI治理综述，并探讨了该领域的一系列开放性问题。

技术性AI治理(TAIG)，指的是为支持AI有效治理的技术分析和工具。其对于对于AI治理的价值主要在于三方面：

1.识别需要政策干预的领域：通过将系统的技术特性与其应用相关的风险和机遇进行映射，找出政策干预的关键点。

2.支持治理决策：通过向决策者提供更准确的信息，使他们能够更好地比较不同治理选项的有效性。

3.增强治理选项：通过建立机制来推动规范的执行、激励或确保合规性，增强政策效果。

论文设定了一个能力x目标的二维分类体系来组织技术性AI治理的研究领域：能力指向行动，包括评估、访问、验证、安全、操作化和生态系统监测等；目标则涵盖了AI价值链中可以应用能力的关键构建块和操作元素，如数据、计算、模型和算法、部署等。

值得注意的是，论文中的每个开放性问题都是独立的，以方便读者阅读和查询，因此这篇论文更像一个技术治理的工作指南。

AI Guard 旨在促进前沿议题的开放讨论和理性批评，不代表赞同或推荐任何具体观点。以下是各个开放性问题的简要概述。

1.评估(Assessment)

指评估AI系统的能力，包括技术分析和更广泛的社会影响的考虑。对治理的重要性在于赋能对系统能力和风险的识别和理解，从而进行更有针对性的治理干预。

1.1 数据

1.1.1 识别问题数据

动机：由于数据的问题可能会传播到下游，导致模型出现不良特性，本文识别出两种数据可能出问题的方式。一种是数据样本可能违反某些法律或道德原则，比如侵犯隐私，或者数据投毒；第二种方式是问题出现在训练数据的过程中引发不良的下游效应，比如资源稀缺语言中的不准确性可能会削弱模型在这些语言中的表现。

开放性问题：

有访问权限时识别问题数据：开发者需要制定具体标准来检测并移除问题样本。某些问题数据较易识别，如通过正则表达式检测社保号码，或定义模式匹配识别复制的版权内容。但识别版权侵权等更复杂，需要法律知识和对词汇相似性的判断。方法可参考数据污染检测技术，如模糊匹配或音视频指纹识别。

无访问权限时识别问题数据：监管者可基于模型行为识别问题数据，如计算数据置信评分或使用数据水印。推理攻击和影响函数也能帮助检测版权数据，但这些方法不足以完全识别问题数据，仍需加强鲁棒性。

数据溯源。确保训练数据合法使用是一大难题，许可证常被误传或忽略。改进数据溯源工具、自动化许可证收集和标准化元数据报告有助于开发者避免法律风险。

悄然删除有害数据。移除数据时避免公开其位置，以防恶意行为者利用。如只删除URL可能暴露有害图像，需在确保数据处理透明度与安全性之间取得平衡。

1.1.2 分析大规模数据集的基础设施和元数据

动机：当今的数据集通常包含数十TB的数据量，存储和处理如此大量的数据存在计算资源方面的挑战。而解决这个难题则对于在实践中识别问题数据至关重要。

开放性问题：

自动收集数据集的元数据。大规模数据集的元数据（如数据源和许可信息）常缺失。一个研究方向是如何自动化收集元数据，并加入加密校验和，确保数据未被篡改，特别是在应对数据投毒攻击时。

确定数据集分析的相关目标。识别数据集偏差并非只看个别样本，而需从整体分布评估。确定适合大规模数据集分析的衡量标准，仍是一个开放挑战。

为大规模数据集开发搜索工具。现有工具如ROOTS仅支持小规模数据集。扩展类似工具，以便大规模数据集的定量和定性分析，将有助于数据治理。

1.1.3 将模型行为归因于数据

动机：训练数据可能导致模型出现不良行为，如传播虚假信息。为排除这些问题数据，需理解数据集组成如何影响模型表现，因此关键问题是将模型行为归因于具体数据点。

开放性问题：

理解预训练数据如何影响模型行为：由于现代AI系统的规模和复杂性，目前对特定训练样本如何影响模型行为的理解仍不完整。例如，研究表明预训练概念的频率和特定领域数据的比例都会影响下游表现。

理解偏好数据对微调模型的属性和影响：未来研究还应关注用于微调模型的偏好数据的影响，无论是通过奖励模型、构成，还是其他形式的偏好表示。确保偏好数据具备代表性、多样性或中立性，以及评估数据质量是相关的重点。

理解合成数据的影响：合成数据为解决数据稀缺问题提供了替代方案，但使用合成数据训练对模型行为的影响尚未充分理解。现有研究表明，合成数据通常缺乏代表性，未来研究可以进一步探索其对模型性能和偏差的影响。

平衡数据归因的可处理性和准确性：数据归因的一个挑战是如何在计算可操作性和准确性之间取得平衡。例如，使用影响函数将模型行为归因于数据示例的技术虽然有效，但难以扩展到大规模模型，未来研究可以在此方向展开。

1.2 计算

1.2.1 定义用于模型训练的芯片和集群规格

动机：计算治理被提议作为管理先进AI系统的一种手段，但目前仍是一种粗糙工具，需要谨慎制定标准和规格，以将计算治理干预仅限于与政策制定者关心的芯片或计算集群。

开放性问题:

评估芯片规格对AI工作负载适用性的影响：理解不同芯片规格——如吞吐量、内存带宽、内存容量和互连带宽——如何影响芯片及其集群对AI工作负载的适用性。之前关于芯片的规定可能存在技术规格上的漏洞。例如，如何评估英伟达的A800芯片。

理解去中心化的训练和集群规模的影响：一个相关问题是如何高效使用地理上分散的多个计算集群进行去中心化训练。此外，使用更多较弱芯片组成的集群与使用较少更强芯片在性能和成本上的效率对比，也是一个开放问题。

1.2.2 工作负载分类

动机：除了对硬件分类外，对计算工作负载进行分类也有利于识别异常的工作负载，且能够在更好保护客户的隐私的前提下实现报告等治理目的。

开放式问题：

隐私保护的工作负载分类：计算服务提供商通常会收集客户和工作负载的多种高层数据。一个开放问题是是否能利用这些数据开发可靠的工作负载分类技术，例如，判断训练工作负载是否超过计算阈值，或推理工作负载是否涉及恶意活动。

确保工作负载分类技术能抵御对抗博弈：对抗性计算客户可能试图通过引入噪音来避免工作负载分类，设计能够抵御这种行为的分类方法或检测这种行为的发生，是一个开放的挑战。

1.3 模型和算法

1.3.1 可靠评测

动机：大量研究致力于评估AI模型，但先进AI系统仍然存在难以预测的下游能力，这些能力往往难以被评估。在不同的司法辖区中，如何全面且可靠地执行这些评估缺乏技术上的明确性，并且某些风险的评估尚不存在。

开放性问题：

确保充分测试：确保评估程序是否已经识别出系统所有的漏洞，仍未得到解决。这可能会导致有害的滥用或使系统难以监督或控制。而如果模型在测试期间没有表现出特定行为，则很难确定这是由于模型缺乏能力所导致，还是所采用的评估方法不足以展现缺陷所导致的。这种模糊性将促使未来的研究着力于如何扩大行为评估的范围和如何估算现有评估的鲁棒性和广泛性。

使用机制分析优化评估：尽管研究模型的内在机制为模型的可靠性提供了新的评估方法，但在实践中它们基本未经过测试，而解释模型的内在机制会不可避免地降低所研究系统的复杂性。

测试评测的有效性：设计可以评估不同模型和环境可靠性和一致性的方法论是一个挑战。一种可能的进展是使用“模式生物”(model organism)——一种具有特殊属性的较小较简单的AI模型——来测试评估方法的可靠性，但该方法对于结构复杂、难以直接控制的较大模型可能不适用。

建立程序设计选择和系统特性之间的因果关系：将模型的行为或性能归因于模型开发中的设计决策，建立这些决策与系统特性之间的因果关系，可能有助于发展标准化的最佳实践。

理解未来AI系统的潜在风险和能力：研究某些风险场景（如长远规划能力）因其高度不确定性和未来预测的假设性而困难。研究和演示比较明确的有害行为的具体情景及当前AI系统中现有安全技术对这些行为的有效性，可能是有益的，类似于前述的模型生物方法。

1.3.2 有效评测

动机：理想的状态下，为了确保AI系统不会产生有害的输出，测试其在所有可能输入下的表现是可以实现的。然而，由于现在的系统输入空间已经变得极其庞大，其输出是否有可能不明确或很依赖于上下文环境，漏洞搜索的评估方式不再可行。因此，需要开发更高效的自动化方法来识别模型漏洞。

开放性问题：

降低全面红队测试的资源消耗：虽然已经存在自动搜索、对抗性测试等自动化评估方法，现有自动化技术计算成本高、设计粗糙，通常需要人类工程师大量指导。彻底的红队测试需要耗费大量的人力资源，而且许多失败模式依然未能被识别。某些或全部过程实现自动化红队测试的新方法，尤其是利用能够自主规划、使用工具和动态评估系统的AI，可能会使评估更具可扩展性。

1.3.3 多自主体评测

动机: 自主AI系统具有从高阶特性完成任务、直接影响世界、采取目标导向的行动和进行长期规划的能力，虽然这在经济上有用，但由于自主体系统能够直接在世界中行动，可能产生难以预测的影响和风险。

开放性问题：

评估和监测自主系统：用户的可定制性（如通过提示或新工具集成）使得预测自主体的使用案例和风险变得困难，因此需要对其行为进行跟踪和监测。此外，评估自主体仍面临重大挑战，现有基准测试通常缺乏足够的保留数据集，导致不可靠的评估结果。未来工作应着重引入自主体系统评估的最佳实践。

拓展有限的多自主体评估：研究单一自主体系统的困难加上多自主体交互的复杂性（如信息不对称和信任建立）使得这一领域更加复杂。这可能导致独特的复杂性和失败模式。自主体集体可能展现不可预测的能力或目标，这需要理解多自主体动态。

将下游影响归因于个别自主体: 在责任问题上，明确哪些自主体或系统对特定决策或行动负责至关重要。如果原因无法完全归因于单个自主体，这可能变得复杂。开发追踪多自主体交互和确定特定结果原因的方法将有助于解决这一问题。

1.4 部署

1.4.1 下游影响评测

动机：模型在孤立状态下的表现并不能充分反映AI系统在日常使用中的影响。因此，要全面理解AI可能对社会产生的影响，需要在动态现实环境中进行稳健的评估。这将帮助政策制定者更清晰地了解治理干预的必要性，以应对潜在危害。

开放性问题：

预测AI系统的下游社会影响：理解整体社会的影响是一个复杂的社会技术问题，简单的技术指标不足以衡量AI系统对不同社群的差异化影响，但进行下游评估在资源和时间上具有挑战性，全面评估下游社会影响需要细致的分析和跨学科的合作。

确保评测的建构效度：在评估中使用的代理是否准确捕捉其要测量的概念（构建效度）是一个难题。例如，MMLU通过问答表现评估模型的知识理解，但其有效性尚不明确。未来研究应着眼于评估基准的构建效度。

确保评测结果的生态效度：当前的评估方法偏好可量化和基于模型的指标，可能不能预测模型在真实世界中的表现。用来测试AI能力的基准经常被用来改进AI，也可能会影响测试结果的客观性。

设计动态评测和真实世界的模拟环境：用户与AI系统的互动通常发生在动态的多轮环境中，但现有基准对此评估有限。通过创建动态评估框架，研究人员可以更准确地评估系统的表现和潜在风险。这需要投资于特定领域的模拟环境。

2.访问(Access)

指能够与AI系统（包括模型内部）进行交互，并获取相关数据和信息，同时避免不可接受的隐私成本。对治理对重要性在于赋能对AI系统的外部研究和评估，并有助于在社会中公平分配AI的益处。

2.1 数据

2.1.1 保护隐私的第三方数据集访问

动机：访问训练数据对于外部数据审计和研究至关重要，但直接提供无限制的访问可能会违反法律或引发安全问题。此外，开发人员可能不愿意提供对专用数据集的不受限制的访问权限，因为整理这类数据集的成本很高，且存在泄露敏感知识产权的风险。

开放性问题：

结构化外部数据集访问以降低隐私风险：研究可以开发方法，提供对数据集的深入访问，用于审计和评估，同时保护数据主体的隐私。现有工作允许第三方在不暴露敏感信息的情况下执行审核查询。未来研究可借鉴医疗等其他行业的经验，提出安全访问用户数据的方法。

平衡数据访问和隐私保护机器学习之间的矛盾：以往研究探索了如何在数据所有者不信任模型训练者的情况下训练模型，例如通过联邦学习和加密数据训练。未来的工作可以以类似的思路提出对训练时加密数据的审计方法。

2.1.2 保护评测数据的完整性

动机：当前评估模型的标准化方法通常使用的是公开可用的数据集，目标是进行模型性能的对比测试。但是，在线公开托管评估数据集可能会纳入从网络抓取的训练数据集，这种训练数据的污染会影响最后标准的有效性和可靠性。

开放性问题：

识别和减轻训练数据集的污染：目前实现这个目标的方案还比较初级，如检测数据污染，然后在评分时进行矫正，以及频繁更新设计能够抵抗受污染模型的基准，但频繁更新需要大量资源。

在私有或加密的评测数据集上进行评测：研究可以致力于开发私有环境或加密测试集上进行独立评估的方法。比如一些仅通过自定义评估API提供的基准测试数据集，一些流行的数据集存储库和竞赛平台会限制对评估数据集的访问，以降低污染训练数据的风险。

2.2 计算

2.2.1 解决计算资源的不平等

动机：近年来，私营公司在训练和运行模型方面的计算资源使用呈指数级增长，远超非工业界研究人员可用的计算资源。这种资源获取不平等正在限制研究人员对前沿研究的贡献。为解决这些问题，已经有了一些公共计算基础设施的支持提案。

开放性问题：

确保公共计算资源的互操作性：公共计算资源应兼容广泛的模型和软件，以支持各种研究项目。系统性能可能因所用硬件和软件而显著不同，常见的机器学习框架在非原生硬件上可能损失超过40%的功能。未来研究应提出解决这些问题的方法。

确保公共计算资源的环境可持续性：大规模超级计算机和数据中心在能源和其他资源方面需求量巨大，需要采取措施平衡广泛获取计算资源和它相应的环境可持续性。

确保公共计算资源用于预期目的：系统管理员需要能够确保公共计算资源用于既定目标，而不是被恶意滥用，或用于非预期目标。这种监督方法需要同时兼顾保护终端用户的隐私。

公平分配公共计算资源：鉴于对公共计算资源的高需求，如何在用户之间高效公平地分配资源是一大挑战。未来的工作可以寻找一些针对不同用户分配计算资源的特性优化方法。

2.3 模型与算法

2.3.1 促进第三方对模型的访问

动机：对AI系统进行外部研究和评估的基本要求是能够访问底层模型。然而，许多系统并未公开发布。而当前的API不能提供足够深度或灵活性的访问来促进许多重要的研究和评估行动。仅通过黑盒访问进行的评估可能产生误导性结果。在为外部各方提供足够的访问权限与解决开发人员关于盗用或滥用的担忧之间找到平衡是一项挑战。

开放性问题：

阐明黑盒和白盒访问之间的连续性：明确不同深度和广度的研究访问权限，将有助于在访问与安全之间进行权衡。不同审计程序可能需要不同的访问权限，因此需要多种方法来支持研究人员。同时，更清晰的访问形式对开发者的安全和隐私担忧的影响也很重要。进一步研究可以探讨中间灰盒访问形式如何加剧现有脆弱性。

应用技术措施解决更大访问权限的漏洞：提供更多访问权限可能会增加模型被滥用或者知识产权被窃取的风险。研究人员可以探索更先进的技术，例如隐私增强技术或可信执行环境(TEE)提高数据安全和隐私保护的级别。未来的研究可以探索如何将这些方法整合到安全和可信的计算集群中，包括公共计算资源。

确保托管模型的版本稳定和向后兼容：大型商业模型在部署期间经常更新，但独立研究的可重复性依赖于对模型的稳定和持续访问。未来的工作可以制定最佳实践，以记录和传达模型何时被弃用或停用。

2.4 部署

2.4.1 访问下游用户日志和数据

动机：评估部署后的模型需要访问用户与系统交互的真实世界数据。这些数据可用于直接评估用户-模型交互的各个方面，构建更能反映真实世界使用情况的评估，并指导关键部门社会层面的评估。访问真实世界的用户数据也可能与法律目的相关。

开放性问题：

解决用户对访问用户日志的隐私担忧：外部访问用户与AI系统的交互数据，涉及到敏感和可识别的用户信息，引发了隐私方面的忧虑。解决方案也许可以借鉴其他行业，比如在线平台治理和医疗行业的经验。

理解访问责任在AI价值链中如何变化：提供用户数据可能会间接泄露应用开发者使用基础模型的信息，会使其知识产权面临泄露风险，研究需要进一步明确AI价值链各个环节的访问责任，特别是在涉及多个参与者的复杂场景中。

3.验证(Verification)

指开发者或第三方验证有关AI系统的开发、行为、功能和安全性的声明的能力。对治理对重要性在于建立对AI系统的信任并确认符合监管要求。

3.1 数据

3.1.1 训练数据验证

动机：验证给定模型所训练的数据可以帮助证明其符合数据处理标准和相应的法规。即使能证明数据集不含有害或版权内容，也不足以保证模型未在问题数据上训练，因为开发者可能使用了另一个未经评估的数据集。事后能够提供模型在特定数据集上进行训练的证据将有助于排除此类情况。

开放性问题：

验证用于训练模型的数据集：现有的形式化训练数据证明方法存在局限性，如不能防范小量有害数据的添加；不适用于训练前数据不完全已知的模型；披露机密信息可能引发知识产权和安全风险。未来研究可提出稳健的验证方法，评估现有方法的有效性，或解决验证特定数据集未被用于训练模型的问题。

验证数据的公平使用：验证版权合规性和公平数据使用复杂，可能需要额外的法律和技术框架来替代训练数据证明方法。挑战包括形式化验证许可数据的正确使用，以及在许可不允许的情况下验证特定数据从训练集中排除的情况。

3.2 计算

3.2.1 芯片位置验证

动机：高端数据中心的AI芯片受出口管制，但目前易于走私。验证芯片位置不仅有助于执行出口管制，还能帮助云计算用户确认其数据处理符合当地法律。

开放性问题：

验证芯片位置：可以通过测量待验证芯片与受信任服务器之间的延迟、工作证明挑战来确认大量芯片是否在同一数据中心、相互认证让芯片直接验证身份来实现，或物理检查数据中心来验证芯片的位置，需考虑实际应用的可行性。

设计难以伪造的芯片ID：可在制造过程中嵌入独特标识符或使用物理不可克隆函数来创建芯片“指纹”。关键挑战在于平衡安全性、可用性和对芯片性能的影响。

3.2.2 计算负载验证

动机：AI开发者和部署者需要可靠验证计算使用情况。芯片所有者也希望证明其计算资源未被用于未报告的大规模训练，特别是在信任有限的国际环境中。任何验证方案都需保护用户数据和知识产权的隐私。但某些实现方案可能会导致对AI芯片的过度控制。

开放性问题：

使用TEE验证工作负载：如使用TEE证明正在运行的确切程序代码和模型，对模型权重或其他数据进行保密的测试。但这种理论目前存在固件不足、管理费用过高等难点，需要进一步工作才能在实践中使用。

使用可信中立集群验证工作负载的属性：如果TEE不可用，可在训练过程中保存神经网络权重的哈希快照及训练记录。可利用这些信息和可信中立集群来验证训练记录的真实性。目前的挑战包括处理训练过程中的随机性、构建可信的中立集群，以及找到高效方法来证明训练记录的真实性。

验证大规模非AI工作负载的计算使用：大型集群的所有者或用户可能希望证明其集群用于大型非AI工作负载（例如气候模拟），因为这些用途不在AI监管范围内。工作负载分类是一种方法，未来研究可能探索类似学习证明的方法来进行验证。

3.3 模型和算法

3.3.1 模型性质验证

动机：系统开发者或部署者需要证明模型属性和信息的合规性。这些可验证的属性包括模型架构、训练过程和性能指标，帮助开发者正式展示其符合相关技术规范。

开放性问题：

完全访问模型时验证声称的能力和性能特征：可使用形式化验证方法验证模型属性，但这些方法在先进AI模型上未经过充分测试。且在扩展到最先进的模型时，复杂性会迅速增加，未来可研究开发更高效的完全访问验证方法和验证系统架构或训练程序等属性。

3.3.2 动态系统验证

动机：现代AI系统由多个组件组成，且在其生命周期内会不断变化。这种变化给监督带来挑战，因此需要一个可靠的版本管理流程来监控系统更新及其影响。

开放性问题：

跟踪版本和更新：关键问题是如何跟踪模型版本和部署后的修改，特别是对于频繁更新的模型。可能的方法包括使用注册表跟踪模型随时间的变化，但尚不清楚应在此类注册表中存储什么信息，以及如何验证这些信息。

3.3.3 学习证明

动机：目前缺乏机制让模型开发者证明其投入了必要的计算资源来训练特定模型。这种证明有助于解决模型发布或被盗时的所有权争议。此外，学习证明还可以帮助防止分布式训练过程中因意外或恶意因素导致的损坏。

开放性问题：

可拓展的学习证明：首次形式化学习证明的研究展示了随机梯度下降产生“秘密信息”，并构建了一种证明机制，显示一方已消耗计算资源以获得模型参数。如何使这些技术在面对日益增长的计算需求时仍保持实用性是一个开放挑战。

设计具有对抗鲁棒性的学习证明：学习证明在对抗攻击下表现出脆弱性，后续研究揭示了其系统性缺陷。虽然已有提案通过记忆测试和修正初始化来增强安全性，但仍需在更复杂的攻击下进行验证。未来的研究应致力于提高学习证明在对抗攻击中的鲁棒性。

3.4 部署

3.4.1 可验证的审计

动机：外部审计和评估已被提议作为治理制度的重要组成部分。但由于安全问题，模型访问通常受到限制，因此验证审计结果变得非常具有挑战性。

开放性问题：

在不完全访问模型的情况下验证声明的能力和性能：初步研究探讨了零知识证明在AI系统中的应用有利于实现隐私保护的系统属性验证。但当前的方法存在算力消耗大的问题，未来研究可以着重于如何通过GPU加速或证明拆分等方法来解决速度限制。

在推理时验证审计结果：理论上，通过受信执行环境或零知识证明，可以实现两阶段的审计验证过程，确保用户使用的模型与已审计的版本一致。然而，模型的动态变化频繁超过审计频率，使得验证变得困难。此外，受信执行环境的高计算成本也限制了这一方案的应用。

验证部署后的安全措施：在安全攸关场景中，监管机构可能希望验证AI模型或其输出是否包含安全措施，如输出过滤器。未来需要研究如何确保部署的模型附加了符合规范的防护措施。

3.4.2 AI生成内容的验证

动机：区分AI生成内容和真实内容有助于验证信息的真实性，并维护公众对于信息生态系统的信任。但鉴于检测和验证工具的限制，有的法律法规目前无法真正实现其作用。验证方法大致可分为事前方法和事后方法，此外，水印也可用于验证生成式内容是否由特定模型创建。

开放性问题：

开发鲁棒的水印方案：水印是嵌入输出内容中的信号，人类无法感知，但可以通过检测算法轻松识别。未来工作可致力于提高文本生成AI的水印鲁棒性，并解决如何避免相似模型生成无法区分的水印的问题。

设计鲁棒的AI内容检测器：随着生成式AI的改进，开发能够有效区分AI生成内容和真实内容的方法越来越困难，因此需要持续改进和保持AI内容检测器的有效性。

利用可验证的元数据识别真实内容：除了识别AI生成内容，还可以通过为内容添加可验证的元数据来证明其真实性。然而，元数据容易被剥离，这一限制需要进一步的研究来解决。

使用AI验证修改内容的真实性：超越简单的二元区分，未来工作应研究如何检测AI工具修改的真实内容，或设计能够区分AI生成、AI修改和真实内容的检测器。

4.安保(Security)

指制定和实施措施，保护AI系统组件免遭未经授权的访问、使用或篡改。对治理的重要性在于确保AI系统的完整性、机密性和可用性，并防止滥用。

4.1 数据

4.1.1 检测和预防训练数据提取

动机：研究表明，通过多种方法可以在黑盒和白盒环境下逐字提取模型的训练数据。虽然尚未构建对提取攻击具有鲁棒性的模型，但如果能检测到这些攻击，API级别的防御机制有望阻止潜在攻击时的模型输出，或对攻击者采取法律行动。

开放性问题：

提高对提取攻击的鲁棒性：训练数据去重有助于减少特定数据点的记忆，降低提取的可能性，但效果有限。后期干预措施（如“机器遗忘”(machine unlearning)）可能减少模型复现训练数据的倾向，但仍面临挑战，例如限制逐字复现并不阻止模型以其他形式生成相同信息。同时，保护某些样本可能使安全样本暴露于攻击之下，形成“隐私洋葱效应”(Privacy Onion Effect)。最后，从检索数据集中进行大规模数据提取的潜在风险未被充分研究。

检测数据提取攻击：文献中关于检测数据提取攻击的方法较少，大多数研究集中在识别模型漏洞。潜在的检测方法可关注模型输入或输出，以过滤可疑的提示词或与训练样本相似的输出。

4.2 计算

4.2.1 利用硬件机制提升AI安全性

动机：集成TEE等硬件机制到AI计算集群中，可以提高工作负载的机密性和完整性，从而增强AI的安全性和认证能力，有助于解决与验证和访问相关的问题。

开放性问题：

确保TEE在硬件驱动的治理和安全中的效用：虽然TEE已广泛应用于CPU，但在AI加速器上的应用仍有限。Nvidia的H100 GPU已引入TEE（“英伟达机密计算”），但其实现可能不支持所有理想的硬件治理机制。此外，TEE能否稳健地证明特定芯片身份及其处理的数据仍是未解之题。未来研究可探索现有及新一代芯片支持这些功能的程度，或者针对在计算集群乃至整个数据中心规模上稳健实施这些功能。

确保TEE在AI加速器上的安全性：由于TEE在高端AI硬件中的应用时间较短，缺乏独立测试使得其实际安全性尚不明确。以往对CPU TEE的独立测试揭示了多个潜在漏洞，因此对GPU TEE的安全研究有助于发现改进空间。

4.2.2 防篡改硬件

动机：硬件驱动的治理机制假设硬件未被篡改，然而资源丰富的对手可能通过物理篡改芯片来绕过保护。防止或检测此类篡改可通过篡改证据或响应机制（如清零，即删除芯片上存储的敏感信息）来实现。

开放性问题：

平衡篡改证据与响应机制与先进AI硬件的实际需求：尽管已有相关机制，确保其与高端AI硬件的独特需求兼容，并保持成本效益和可扩展性仍具挑战性。例如，芯片的高冷却要求和高带宽互连构成挑战，因为需要连接防篡改外壳的内部和外部。

确保防篡改措施的稳健性：现有的篡改证据和响应方法依赖特殊封装，难以在不留下损坏痕迹的情况下拆除。更先进的方法使用物理不可克隆功能为芯片提供独特的“指纹”，以验证其是否未被篡改，但关于其实用性的证据仍有限，需进一步研究。

4.2.3 执行计算使用限制

动机：对AI系统训练的尖端芯片实施出口管制，可能对合法用途造成高昂的附带损害。已有呼吁开发技术手段，以区分合法与恶意使用高端芯片，但对此类方案的可行性、保密性及规避风险仍存争议。

开放性问题：

为分散式机器实现远程认证：验证特定硬件组件（如AI芯片）属于同一集群将有助于基于硬件的方法验证工作负载属性。如何在分散式机器或异构设备中实施远程认证仍是悬而未决的问题。

限制特定集群配置：也可能协助出口管制政策，例如限制GPU之间的通信带宽，以防止“许多消费级设备芯片被聚合成超级计算机”。这或许需要新的协议和硬件功能，这些都是待解决的问题。

4.3 模型与算法

4.3.1 防止模型盗窃

动机：随着模型能力提升，它们可能成为对手窃取的目标。模型的广泛应用可能导致数据泄露的风险增加。因此，确保模型权重和系统组件的安全至关重要，以保障治理措施和国家安全。

开放性问题：

确保模型权重具有足够的网络安全：保护模型权重免受威胁需要对数据中心进行物理安全保护和硬件、软件堆栈的标准。加强不同受威胁参与方之间的协调，有助于防御方更好理解威胁态势并保护资产。

防御模型推理攻击：对手可能通过查询API、logit 值或侧信道攻击提取模型。进一步研究可量化这些威胁并开发应对方法。

4.3.2 共享模型治理

动机：共享模型治理将模型训练或推理的控制权分配给多方，确保只有在所有方同意的情况下进行。这在多个行为者共同投资训练共享模型或国家研究机构的国际合作中具有潜在应用。

开放性问题：

通过模型拆分实现共享治理：将模型参数分配给不同方的技术可实现共享模型治理，未来研究需评估其有效性。

通过安全多方计算和同态加密实现治理：探索如何利用这些方法实现共享模型治理，但存在性能问题。

通过TEE实现治理：未来研究需验证通过TEEs实现共享模型治理的可行性。

4.3.3 模型卸载和机器遗忘

动机：模型卸载和机器遗忘旨在删除模型中记忆的信息，消除因使用问题数据训练带来的影响。

开放性问题：

确保遗忘方法的稳健性和校准性：涉及要遗忘概念的具体性和概括性之间的平衡。成功的概括方法可以帮助在难以精确指定目标时移除它们，但也可能导致非目标概念的意外移除。因此，挑战在于确保反学习和模型卸载方法既能有效概括以移除目标概念，又能避免移除无害概念。

扩展遗忘和模型编辑至跨语言和跨模态模型：随着多语言和多模态模型的发展，遗忘和编辑技术需要适应这些模型。然而，当前尚不清楚这些技术在跨语言和跨模态模型中的应用效果，例如，是否会在其他语言中保留已被遗忘的概念。

评测遗忘和模型编辑技术的有效性：未来研究需评估遗忘的影响是否被有效消除，评估不仅应确定目标是否已被移除，以及模型在其他领域的表现是否未受负面影响，还应识别遗忘或模型编辑可能引发的连锁效应。

4.4 部署

4.4.1 检测对抗性攻击

动机：机器学习模型通常存在内在漏洞，可能被用于使模型产生错误或有害的行为。某些攻击可能跨模型迁移，对抗性攻击的防御通常局限且脆弱。检测这些攻击能力可以用于系统级防御，如暂停或过滤输出，改善部署调整和威胁模型。尽管已有一些对抗性攻击的系统级防御措施，但许多保护措施只能在特定应用或部署环境中有效实施。本文重点关注在推理时检测和处理潜在对抗性攻击。

开放性问题：

检测对抗性输入和输出：检测并分类用户输入为潜在对抗性攻击有助于过滤输入以避免有害内容进入模型。同时，也可以通过检测模型对对抗攻击的响应，过滤输出以在输出到用户之前删除这些响应。然而，目前的检测技术可能缺乏鲁棒性，或导致显著的延迟。

4.4.2 抗修改模型

动机：部署后的微调是一种常见的用户定制语言模型的方法，既可以通过API，也可以通过下载模型进行本地定制。然而，微调可能被用于恶意目的，甚至只需少量数据。若能技术上防止恶意定制模型，将减少开源权重的误用风险，扩大潜在的部署选项，并促进更开放发布策略的益处。

开放性问题：

防止模型用于恶意任务的修改：一个悬而未决的问题是是否存在技术方法，能够限制模型被微调用于有害用途，同时保留其用于无害用途的能力。可能的方法包括提高有害数据微调的计算成本或使模型对有害数据学习产生抗性。未来研究应重点验证这些技术在实际中的鲁棒性。

4.4.3 推理时的两用能力检测和授权

动机：若模型评估显示系统在两用领域的能力，模型提供者可能需避免默认公开这些能力以防误用。然而，完全删除这些能力可能不可行或不经济，特别是针对合法用途。

开放性问题：

检测两用能力请求：目前防止两用能力被恶意使用的常用方法是安全微调，但该方法无法有效应对伪装成合法请求的攻击。可考虑检测所有请求并通过独立分类器区分合法与恶意请求。

两用能力授权要求：另一方法是要求认证才能访问某些能力。这一方法可允许红队或研究人员出于研究目的访问这些能力。未来研究应尝试提出如何在实践中实现此类授权方案的概念验证。

5.操作化(Operationalization)

指将道德原则、法律要求和治理目标转化为具体的技术策略、程序或标准。对治理的重要性在于弥合抽象原则与监管要求实际实施之间的差距。

5.1 将治理目标转化为政策和要求

动机：政策通常为特定目标而制定，如保护消费者安全或促进公平。为了实现这些目标，规则需要转化为具体的行为要求。这一过程通常需要技术专家参与，以确保规则的可行性和有效性。例如，消费者安全可能要求市场前的安全评估，但现有评估可能无法确保产品的安全性，还可能产生虚假的安全感。目前，缺乏有效将治理目标转化为可行要求的途径。

开放性问题：

确定监管的目标维度：确定监管的技术维度是一个挑战，小模型通过有针对性训练可能超过大模型，如何考虑计算开销、量化、丢弃等技术仍是未解问题。需要探索更精确的监管标准。

制定AI生命周期标准：尽管已有AI标准制定工作，但缺乏技术细节来评估系统是否符合安全和伦理要求。硬件的“安全设计”和公平性度量方法仍需进一步探索。标准化报告也需要明确应包含哪些信息。

5.2 部署修正

动机：在部署后发现模型缺陷时，应能有效应对这些风险，O"Brien等将这一过程称为“部署修正”。技术层面的深入研究对此有很大空间。

开放性问题：

应对模型修正与干预的连续性：部署修正包括用户限制、访问限制、功能限制、用例限制、模型关闭，其中模型关闭是极端措施，需避免对用户和服务的重大干扰。如何在不影响下游服务的情况下进行修正，仍需进一步研究，以确保模型稳定性和AI研究的可重复性。

6.生态系统监测(Ecosystem Monitoring)

指了解和研究AI开发和应用的不断发展的前景及其相关影响。对治理对重要性在于实现知情决策、预测未来挑战，并识别有效治理干预的关键杠杆点。

6.1 澄清相关风险

动机：了解AI系统开发与部署的风险，能帮助决策者优先考虑治理工作、有效分配资源，并决定应对特定风险的紧迫性。

开放性问题：

开发更好的AI风险威胁模型：虽然已有大量工作致力于分类AI系统带来的风险和危害，但详细的威胁模型仍未充分探索。未来研究可使用标准化方法，如因果映射，识别AI风险及政策干预点。

改进事故报告和监测：现有AI事故数据库依赖公开信息，未包含详细模型信息。需要探索如何报告非公开事故及哪些技术细节有助于事故分析。

6.2 预测未来发展与影响

动机：预测AI未来发展轨迹与潜在影响，能帮助决策者主动设定治理优先事项。

开放性问题：

从经验趋势中衡量和推断：现有工作旨在从经验上衡量训练计算和算法进展的趋势，未来可扩展现有研究，如AI在各行业的使用模式，或通过推测观察到的趋势评估预测的准确性。

在部署前估算系统的影响：在部署前估算AI系统的经济与社会影响，可以帮助优先考虑治理工作。研究可能受益于更多技术工具来安全且合乎伦理地实验和模拟潜在结果。

6.3 评估环境影响

动机：AI系统的环境影响涵盖整个生命周期，了解其全流程的环境影响对于制定激励或惩罚政策至关重要，以鼓励AI开发者减少其系统的环境成本。

开放性问题：

评估训练和托管系统的能源消耗：跟踪AI能耗和碳排放存在组织管理挑战，需开发能效评级并比较不同模型的环境成本。

评估建造和运行数据中心的原材料环境成本：除能耗外，供应链中的其他环节，如半导体制造过程中的稀土矿物和水资源的消耗应进行深入预测，以制定减少环境影响的政策。

6.4 供应链映射

动机：映射AI供应链有助于理解其生态系统，能帮助决策者识别供应链中的关键环节，进行有效干预。

开放性问题：

识别供应链组件和参与者：在供应链中追踪不同参与者的设计选择，尤其在责任认定和版权法领域中，可以帮助法院更精确地评估潜在的侵权责任。侵权可能发生在数据收集、模型训练或输出生成的多个环节，追溯供应链能有助于识别侵权来源。

结论

本研究引入了技术性AI治理的概念，并概述了其六大能力领域的开放性问题，以推动AI治理工作的发展。技术性AI治理中的一些关键要点包括：

●评测：当前对系统及其下游影响的评测缺乏鲁棒性、可靠性和有效性，尤其是基础模型。

●硬件机制：可能在隐私保护、计算资源验证等方面存在潜力，但尚未完全验证。

●建立支持AI研究的基础设施：如用于分析大型训练数据集的资源或提供隐私保护模型访问的工具，能够推动科学理解AI系统的研究，并增强对开发者活动的外部监督。

●监测AI生态系统：通过收集和分析AI趋势和进展数据来监测AI生态系统的研究，已经被证明对政策制定者提供前瞻性政策所需的信息至关重要。

需要注意的是，技术性AI治理只是全面AI治理组合方案中的一个组成部分，应当被视为服务于社会技术和政治解决方案的工具。单纯依赖技术解决方案的AI治理和政策不太可能取得成功。

我们建议，通过公开招募资金支持技术性AI治理研究、政策制定者与技术专家紧密合作、政府机构加强技术性AI治理内部研究，以及在重要论坛和报告上聚焦技术性AI治理等方式，促进相关领域的发展。

查看报告全文：https://arxiv.org/abs/2407.14981

声明：本文来自CAICT AI安全治理，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

技术性AI治理的三重策略和38个研究领域

美国商务部拟设立人工智能安全审查办公室

微软CEO眼中AI Agent商业模式和安全

我国生成式人工智能的监管框架及主要法律风险识别