DARPA推进可信赖人工智能研究

2022年6月3日，美国防高级研究计划局（DARPA）宣布推出最新的人工智能（AI）项目——“有保证的神经符号学习和推理”（ANSR），试图以新的、混合的（神经符号）AI算法的形式来解决诸多挑战，该算法将符号推理与数据驱动的学习深度融合，以创建强大的、有保证的、因而值得信赖的系统。

项目背景

自主和高度自主系统是美国防部 (DoD) 诸多任务，包括情报、监视和侦察 (ISR)、后勤、规划、指挥和控制等所需的能力。所谓的好处很多，包括：1.改进的作战节奏和任务速度；2.降低作战人员在自主系统操作和监督方面的认知需求；3.增加对峙以提高作战人员的安全性。正如2016年国防科学委员会 (DSB) 关于自主的报告所强调的那样，与自主相关的一个关键需求是对可信赖性和信任的需要。一般而言，信任是对自主系统执行未指定任务的能力的信心表达。确保自主系统安全运行并按预期运行是信任的组成部分，这是国防部成功采用自主的关键。

美国DSB关于自主的报告

自DSB自主报告发布以来的六年中，机器学习(ML)算法取得了重大改进，这些算法对于实现自主至关重要。同时，保证技术的创新提供了在设计时评估系统的正确性和安全可信度并在运行时具有弹性的机制。尽管取得了这些进展，但高度自主仍然难以捉摸，DARPA将其归因于数据驱动的机器学习的基本限制，这激发了新的思维和方法，将机器学习超越数据驱动的模式识别并用知识增强它——包括上下文、物理和其他背景信息的驱动推理。

过去十年见证了数据驱动ML应用的巨大进步，这得益于计算能力和数据的增长，其领域涵盖从棋盘游戏到蛋白质折叠、语言翻译到医学图像分析等广泛领域。在其中几个应用程序、ML和相关技术已经证明了在一组狭义的指标方面可以与人类能力相媲美，有时甚至超过人类能力的性能。然而，尽管取得了这些明显的成功，但仍有许多与最先进(SOTA)ML算法相关的问题。例如，众所周知，SOTA ML算法不能很好地泛化, 缺乏透明度和可解释性，对环境不稳健和对抗性扰动。存在一些限制，例如对对抗性示例缺乏强健性，在理论上已被确定为本质上的基础。

ANSR将包括与国防部有关的多个用例的演示，在国防部，保证和自主性是任务的关键。其中一个例子包括使用自主系统在一个高度动态和密集的城市环境中创建一个通用的作战画面，如该效果图所描述的

工业ML研究的主流趋势是扩大到千兆级和兆兆级模型（数十亿个参数的数百个），作为提高准确性和性能的一种手段。这些趋势是不可持续的，因为训练此类模型需要极高的计算量和数据，以及缩放定律。这些趋势也无法响应国防部应用程序的需求，这些应用程序通常缺乏数据和计算能力，对云规模计算资源的访问有限。此外，DoD应用程序是安全的和关键任务的，需要在看不见的环境中运行，需要可审计，并且需要人工操作员信任。总而言之，ML研究的主流趋势不利于DoD应用程序的可保证性和可信赖性需求。

构建智能应用程序和自主系统的传统方法在很大程度上依赖于知识表征和符号推理。例如，这些方法中的复杂决策通常使用基于条件的编程规则、在有限状态机中编码的状态逻辑以及使用常微分方程表征的环境和对象的基于物理的动力学来实现。这些经典技术有许多优点：

• 它们使用丰富的抽象，这些抽象基于领域理论和相关的形式，并得到高级工具和方法（Statecharts、Stateflow、Simulink 等）的支持；

• 它们可以是模块化和可组合的，以软件工程实践支持的方式促进重用、精确和自动化分析；

• 它们可以通过正式规范和验证技术支持的方式进行分析和保证，这些技术已在强化任务和安全关键系统免受网络攻击方面得到验证。

然而，这些方法在实际自主应用中使用时也有局限性。它们在处理现实世界的不确定性和高维感官数据时表现不佳，这是感知和情境理解应用程序不可或缺的，这些决策应用程序中的规则集和状态逻辑在暴露于意外情况时通常是不完整和不充分的。此外，众所周知，常识性知识难以编纂。例如，Cyc知识库包含数百万个概念和数千万条规则，但对于许多现实世界的任务来说还不够。

确保具有ML组件的网络物理系统 (CPS) 的挑战一直是DARPA正在进行的 “有保证自主”（Assured Autonomy）项目以及其他研究项目支持的一个活跃研究领域。具体来说，在Assured Autonomy项目中开发的保证方法产生了：1.形式化和基于模拟的验证工具，可以全面探索 CPS的行为；2.可以检测ML组件与预期输入和行为的偏差的监控工具，避免最坏情况下的安全后果的复原力和恢复策略；3.一个保证案例框架，能够以证据支持结构化论证，以支持已识别重大安全危害且其根本原因已得到充分缓解的主张。

DARPA “有保证自主”（Assured Autonomy）项目

保证技术的进步，包括形式化和基于模拟的方法，有助于加速识别ML算法的故障模式和缺陷。不幸的是，修复SOTA ML中缺陷的能力仍然仅限于再训练，这并不能保证消除缺陷或提高ML算法的通用性。此外，虽然运行时保证架构（包括监控和恢复）确保了操作安全，但频繁调用回退恢复（由ML的脆弱性和普遍性触发）会损害完成任务的能力。

因此，根据ANSR的目标，DARPA将一个系统定义为值得信赖的，如果它具备以下特征：1.对领域知情和对抗性扰动具有强健性；2.得到保证框架的支持，该框架为安全和风险评估创建和分析异质证据；3. 对“适应度”的某些规范和模型是可预测的。

DARPA假设当今ML的一些限制是：1.无法结合上下文和背景知识的结果；2.将每个数据集视为一个独立的不相关输入。在现实世界中，观察结果通常是相关的，并且是潜在因果机制的产物，可以建模和理解。DARPA认为，能够获取和集成符号知识并大规模执行符号推理的混合AI 算法将提供稳健的推理，推广到新情况，并提供保证和信任的证据。

DARPA设想修改训练和推理过程以将符号和神经表示交错以进行迭代推理和表示的相互适应，以利用每种表征的好处并减少每种表征的限制。修改后的训练过程将产生基于域特定符号的表示，本质上是神经网络 (NN) 隐式数据表示的符号等价物。修改后的推理过程迭代地收敛到符合符号和神经表示的响应。符号表示可以明确地包括先验知识和特定领域的规则和约束，并能够根据规范和保证参数的构造进行验证。

最近针对特定应用的一些结果提供了信心的基础。例如，最近的一项研究构建了一种混合强化学习 (RL) 架构的原型，该架构通过数据驱动学习获取一组符号策略。符号策略采用可解释和可验证的小程序的形式。该方法显然继承了两全其美：它学习在已知环境中高性能的策略，并且通过在未知环境中保持安全（无崩溃）来很好地概括。另一种最近的方法使用符号推理来修复NN在估计场景中的对象姿势时的错误，并且它在几种情况下实现了更高的准确度（比基线高30-40%）。

ANSR项目开发的混合人工智能技术将实现新的任务能力。该项目旨在验证能够确保执行独立的ISR任务，以开发高度动态密集城市环境的通用作战图 (COP)。执行ISR任务的自主系统将携带效果有效载荷，以减少传感器到效果的交付时间。虽然效果的传递由人在回路控制，但效果承载系统本质上是一个安全和任务关键型系统，因此需要对避免碰撞和任务性能有强有力的保证。SOTA机器学习或独立的符号推理系统无法实现自主系统在深入了解情况和决策方面所需的能力。训练数据稀疏，进一步激发了混合AI 方法的使用。

项目说明

ANSR项目的首要目标是推进混合AI算法并开发基于证据的技术，以支持对这些算法进行自信的保证判断。该项目旨在探索各种混合架构，这些架构可以以先验知识为种子，通过学习获得统计和符号知识，并适应学习的表示。该项目旨在通过与国防部任务相关的用例来演示和评估混合人工智能技术，其中保障和自主性是关键任务。

ANSR项目设想了一种新的表示学习和推理方式，以引领混合人工智能。SOTA ML，特别是NN，可以被视为学习低维高维数据集的表示。下图提供了过度简化的训练过程渲染。灰色小山是关于NN的参数（或权重）的目标函数（损失函数）的描述。灰色山丘上的每个点都是该参数空间中的一个点，表示目标函数相对于NN的当前参数配置的值。

神经符号表征学习

独立的神经机器学习需要爬上梯度来优化目标函数。最佳配置表征最适合训练数据。该表征虽然非常适合基础训练数据，但仍然不知道产生数据的因果关系或基础机制。在缺乏关于底层机制的任何知识的情况下，推理任务仍然受训练数据分布的约束，并且无法泛化超出训练数据分布。

此训练过程的变体可能会考虑领域知识，并尝试根据领域原语来学习数据的表征。图中的浅蓝色云描绘了此类域图元的空间，可以是数学方程、由特定域图元（组件或函数）组成的符号程序或其他表示形式。修改后的训练过程需要将数据驱动的更新与寻找可以重现数据的特定领域原语的组合的综合问题交织在一起。学习到的符号表征可以与神经表征相结合，用于重新评估目标函数。迭代更新一直持续到符号表征中的固定点，当与神经表征结合时，最大化目标函数。此训练过程的结果是可用于推理的数据的混合神经和符号表征。可以说，这种混合表征可以结合两全其美，即数据驱动的学习和符号推理，以及在不确定的现实世界情况下更好的性能、可概括性、可解释性和可保证性的潜在好处。

值得注意的是，上述方法只是学习混合神经和符号表征的一种概念方法，而不是作为解决方案的处方。ANSR项目预期许多架构最适合特定的应用任务将神经和符号表征与不同的方法相结合，以获取、优化和在推理中使用紧密耦合的神经和符号表征。

项目技术领域

ANSR项目的发展将在以下总结的四个技术领域（TA）中进行协调：

技术领域一（TA1）：算法和架构

TA1 的目标是开发和建模新的人工智能算法和架构，将符号推理与数据驱动的机器学习深度集成。TA1将探索和评估一系列适用于不同任务的可能算法和架构模式。

技术领域二（TA2）：规范和保证

TA2 的目标是开发保证框架和方法，以获取和整合正确性证据并量化特定任务的风险。TA2将建立一个管道，将混合神经符号表征抽象为形式上可分析的表征，并根据一组任务相关规范对其进行分析。TA2还将探索估计和量化特定任务风险的技术。

技术领域三（TA3）：平台和能力演示

TA3的目标是开发用例和架构，用于混合AI算法的工程任务相关应用，适用于演示和评估稳健和有保证的性能。具体而言，ANSR项目打算通过确保执行独立的ISR任务来进行演示验证，以开发高度动态密集城市环境的通用作战图 (COP)。

技术领域四（TA4）：保证分析和评估

TA4 的目标是：1.开发具有对抗性AI的保证测试工具；2.评估各个技术领域的技术及其在系统中的构成。TA4将充当红队，通过对抗性评估来调查保证声明的有效性。TA4还将细化提议的计划指标，并定义衡量系统可信度的特征。TA4将需要通过采用混杂扰动并量化系统性能损失的对抗性评估来评估稳健性、普遍性和保证声明。

项目阶段和时间表

ANSR项目分为三个阶段。第一阶段将持续 18个月，将开发和验证高风险技术组件情况理解、活动识别和安全机动决策。第一阶段实验将是在游戏环境中并通过SIMexp进行的多个部分线程：（线程1）展示了安全可靠的机动决策，同时假设完美感知；（线程2）演示验证活动识别和情况理解，同时假设人工引导的安全操作；（线程3）演示COP开发、洞察力和分析，同时假设完美感知和人类引导的安全操作。评估将根据任务能力指标以及SOTA基线进行。

ANSR项目时间安排

ANSR项目的第二阶段将持续15个月，将整合这些单独的线程，并演示验证闭环态势理解、确保和安全的机动决策、COP构建和分析，以用于独立ISR任务的端到端演示。评估将针对任务能力指标（例如，COP 完整性、准确性和及时性、扫描效率、所需人力、传感器到效果时间线）和技术指标（例如，保证有效性、稳健性、普遍性、准确性）。

ANSR项目的第三阶段也将持续15个月，将演示验证端到端ISR任务，并在国防部设施中进行现场演习。除了任务能力和技术指标外，评估还将包括事后审查和士兵反馈。

出于预算目的，2023年1月5日作为所有ANSR项目的开始日期。

声明：本文来自从心推送的防务菌，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

DARPA推进可信赖人工智能研究

揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐

美国人工智能国家安全备忘录核心解读

美国土安全部发布关键基础设施安全部署人工智能框架