本文是美国博思艾伦汉密尔顿咨询公司(BAH)战略创新小组的首席科学家Courtney Crosby博士在《MILITARY REVIEW》上发表的关于将人工智能应用于算法战的文章。Courtney Crosby博士目前负责C5ISR领域内的人工智能运用与创新,专门为美国国防部研发战场人工智能(AI)系统。本文阐述了军事人工智能效能框架,首次提出了评估人工智能效能的五项要求,并对人工智能项目投入实战应用提出了建议。
冲突的胜负取决于军事抵消战略,或者防御部队以不对称的方式对抗敌方优势的手段。随着大国竞争加剧、对手的技术不断超越以及战区的范围不断扩大,通常可通过人工智能(AI)增强常规抵消战略。但美国防部(DOD)运用人工智能的能力尚处于起步阶段。美国防部最初采用的人工智能计划侧重于将商业能力转移至国防部门,从而突出技术性能并淡化面向任务的功能。因此,未能在实战环境中开展最初的试点项目。
1 运用人工智能
人工智能不是最终状态,而是实现军事优势的一种方式。人工智能技术的应用必须与作战环境相结合。这种考量与传统思想不同,因为人工智能解决方案通常旨在实现某个统计阈值(如召回率、准确率),而非某个军事目标(如增加防区外投射距离)。
这种动态被“算法战”这一术语所混淆,该术语目前将技术和军事特征描述混为一谈。算法战旨在减少处于危险中的作战人员人数,提高时敏作战决策速度,并在人类无法介入的时间和地点展开作战。然而,这些目标均不涉及数学或计算机科学,而是完全基于军事最终状态。问题在于美国防部开展其人工智能项目之前,从未建立科学、技术、工程和数学等学科与军事最终状态之间的桥梁。
理想的桥梁是一个能指导和评估人工智能实际运用情况的框架,一方面关注算法性能,另一方面注重任务效用。这种组合确保了数学方程可以证明或以数字方式验证人工智能系统,而定性基准保证了实际应用。因此算法战不仅基于统计数据,也基于更广泛的作战相关性体系结构。这种相关性体现在以下五项要求中:
• 具备最小可行性;
• 适应未知和不可知场景;
• 优先将信息转化为洞察力;
• 应用程序所需的自主性级别;
• 战场上的战备状态。
此类要求首次为评估军事人工智能项目和定义成功的人工智能项目奠定了基础。
2 将技术方法与国防条令相结合
为军事人工智能计划制定效能标准(MOE)需将研究方法和技术方法(如扎根理论)与国防条令相结合。缺少这种结合,算法战就会沦为算法开发过程,而非作战部署。例如,旨在检测视频中目标的计算机视觉算法(如地理空间情报分析)会沦落为算法模型找到的车辆数量或找到这些车辆的准确度。按照这种理论,找到车辆的正确率达到85%就算成功了。
但在军事行动中找到车辆的正确率达到85%有何作用?这就是我们说的要结合任务背景来保持作战条令的完整性。以上面的示例为例,评估相同算法不是为了看它有多少次正确检测到车辆了,而是其对任务的影响:凭借该模型,分析员识别相关车辆的速度提高了95%。这种方法将算法设计的好坏与其任务部署联系起来。尽管这看起来是常识,在某些项目文档中可能有模棱两可的表述,但在国防部的任何条令中均无明确的量化标准。
评估标准需不依赖于解决方案(即无论智能类型、使用的算法、所部署的作战环境或任务要求如何,该标准均适用)。因此,在这项研究中人工智能原则被编入与系统和程序无关的各种可量化属性和指标中。
同时也按“通过/不通过(go-no-go)”的方式提出评估标准,以创建一个与相关联合出版物同义的合乎逻辑、自上而下的层级结构。从而构建一个规范、监控和评估国防部人工智能系统的基准。
3 军事人工智能框架
如前所述,实际运用的人工智能是由任务效能的五个方面定义的人工智能:具备最小可行性、适应未知和不可知场景的能力、优先将信息转化为洞察力、应用程序所需的自主性级别以及战场上的战备状态。这些效能标准(MOE)中的每一项都是算法战的基础。对这些信息的分析为每项效能标准提供了一个全面的指标和效果框架。整个框架以理论定义和程序为基础。
图1 算法战(人工智能)的效能标准(MOE)
4 衡量有效性
衡量有效性的军事过程取决于一种自上而下的“通过/不通过”体系结构。这意味着仅当该衡量标准的每个单独指标也存在时,该衡量标准才存在。同理,仅当该衡量标准的所有影响也存在时,该衡量标准才存在。这是一个二元的、全有或全无的过程,可像常规军事活动一样轻松应用于人工智能。
在高价值目标(HVT)生命模式分析的常规案例中,效能标准将定义军事行动的某种预期结果(例如,HVT转移到责任区域(AOR)外)。必须满足该效能标准的所有规定指标,从而无法随意地或选择性地认定成功。例如,情报应表明以下情况:(a)在新的责任区域中探测到高价值目标;(b)在新的责任区域中探测到已知的高价值目标的关联物;(c)高价值目标在新的责任区域中获得了基本的生命保障系统(如住房、交通)。随后的影响遵循相同的过程:支持指标“a”的影响可能包括识别已知的物理特征和探测通信信号。
图2 可用于执法的车辆和人员识别系统
因此,虽然常规效能标准和人工智能效能标准在战术执行上有所不同,但其决策验证的底层系统均相同。人工智能效能标准只有在对人工智能领域有基本了解的情况下才能得到验证,这与英特尔部门开发的效能标准无法通过作战武器验证的方式非常相似。
1 描述有效性——技术波峰
算法战是通过人工智能手段开展的作战。人工智能手段不仅智能化(收集各种信息和应用洞察力),也具备人工属性(以人类无法做到的方式运用智能)。在无人工干预的情况下,系统必须学会如何为自己表示数据。另一个术语称为机器学习(ML)。机器学习分为不同类型,但在战场上无人管理的机器学习将成为黄金标准,因为它具有从未知和非结构化信息中获取输出的灵活性和能力。在这个黄金标准中,一种称为深度学习(DL)的特定方法在更精确地表示复杂问题的能力方面独一无二。
鉴于战场的动态特性,更准确地表示复杂问题的能力至关重要。因此,只能通过能够从未知和不可知场景(无人管理)中自行学习,同时能在几乎无指导(自主)的情况下将复杂的战场环境信息转化为有用的洞察力(启用深度学习)的工作系统(具备最小可行性),在实时任务环境中(战场上的战备状态)开展算法战。
图1 算法战(人工智能)的效能标准(MOE)
图1中的这些效能标准和体系结构是实现人工智能的第一步,为如何结合技术和实际运用因素奠定了基础,同时还给出了任何人工智能计划的“成功”标准。
2 必须将军事人工智能投入运用
具备最小可行性测试算法战能否积极改变作战环境(OE)。“积极改变作战环境”意味着存在竞争优势和性能改进以证明人工智能部署的合理性。这一合理解释来自行业指标(技术因素)、针对类似系统的排名以及对于人类操作员的实用性。
在翻译实例中,如果行业指标证实其能准确地将地面实况数据翻译为正确的语言,也能从正确的语言翻译为地面实况数据,该算法在同一技术类别和作战环境中优于其它可用算法,并且机器翻译优于人类,则认定自然语言处理算法具备最小可行性。
与具备最小可行性要求相关的竞争优势和性能改进因素必不可少,少了它们,非算法类作战会“占上风”,从而不需要军事人工智能。
3 灵活且适应性强的系统
无人监管的算法灵活性很强,即使在未知场景中也能获得洞察力,因此非常适合实时任务。无人监管系统可以在没有预先编订信息的情景下运行,还可在获得新信息的情况下进行自主学习。
从敌方交战实例中可以得出一个常规等效模式。例如,部署的作战人员在交战结束后才知道如何展开作战。他们希望这些算法能够在无警告的情况下对敌人的火力做出恰当的响应,并就新的敌方行动和活动分析出相关结论。
成功的算法战计划需要在战术执行以及随时间推移形成的学习能力方面表现出与作战人员相同的适应性。
4 降低任务的复杂性
前面曾提及深度学习降低了复杂性。实时任务中的复杂性降低涉及如何表示和理解信息。就像人类一样,有效的算法战基于“模式检测、推理和解决问题”这三要素。
模式检测本质上就是获取知识,然后可通过归纳预测未来的未知场景。假设驻守机场的一名非航空部门作战人员看到一架直升机飞过头顶。此人注意到外形尺寸或纵列旋翼等直升机的独特物理特征。特有的功能特征将这架直升机与其它直升机区分开来,随着时间的推移,作战人员可以运用学习到的视觉提示从整个机队中选定正确的直升机。人工智能以同样的方式开展视觉模式识别。直升机特征是通过随后的目击重复学习获得的。随后可对这些特征进行归纳概括,从而将一架直升机与另一架直升机或直升机与非直升机区分开来。
推理是对知识获取的完善和补充,以便检测环境中的细节,并使这些细节从逻辑上互相关联。例如,如果在某些天气模式下从未见过直升机,推理会推断天气(作战环境的次要因素)将影响飞行能力。通过人工智能以及恶劣天气等次要因素的推断,将进一步判定没有旋翼的飞行目标不是直升机。
最后,依次解决问题是将一个大问题(比如如何驾驶直升机)分解为较小的问题(如飞行路径是什么、有多少燃料可用、需要多少名飞行员等)。因此,如果不降低复杂性,算法战就无法将信息转化为洞察力。
4 自主运行
假设算法战中运用了人工智能的方法,则人工智能必须能独立制定和选定作战方案。人工智能必须根据自己的决策、响应能力和态势感知来完成作战方案的选定。
决策就是逐步剖析环境中的各种选择。在常规环境中,指挥官面对相互冲突的情报、监视和侦察飞行路径时,将制定资产优先级矩阵,然后根据要求消除冲突。这不仅仅是生成可行选项的问题,还包括需找出哪些选项对整个任务最有利。为此,系统必须能够将决策标准(如资产数量、收集要求、飞行时间等)融合起来。首先,必须提供可定义决策标准(如飞机燃油表或人员/语言提示)的传感器。其次,必须删减所有可用的选项。最后,系统必须识别当前状态的变化并响应由该变化产生的新信息(如飞机的空中待命时间(TOS)即将结束,因此不再需要消除冲突)。
响应能力应对决策力进行补充。即系统能否按所需的计划表对先前从未遇到过的场景做出适当的响应?为此,系统必须具备态势感知所需的功能:获取、处理、迭代和采取行动。所有指标共同确保军事人工智能能够加快决策时间。
5 将人工智能投入实战
战场上的战备状态是衡量系统能否在实时任务空间中运行的一个指标。由于任务限制繁多,如果不预先考虑人工智能在现实世界中的运行方式,在实验室中开发人工智能就无意义。战场不仅不会规避实验室中人工智能所暴露出的局限性,反而会放大这些局限性。开放式体系结构受到军用基础设施的限制,不确定的情报渠道受到传统的“烟囱式”系统的影响。高速网络一旦完成前沿部署,就会变得孤立或断断续续。
简而言之,人工智能必须辅助而不是混淆正在进行的军事行动。从一开始就解决与现有系统的集成和通信等任务限制。此外,这种集成应经过测试或认证,以便应用程序以及该应用程序的韧性极限在部署前得到验证。这就像只有能力合格的军事人员才能够被部署的一样。此外还要考虑糟糕的适应性测试是如何导致应用程序无法部署的。
军事人工智能的五项效能标准共同代表了初始作战能力和完全作战能力(IOC/FOC)的标准阈值。根据效能标准框架中的决策门做出的IOC/FOC决定将加速人工智能投入实战,并提高美国在算法战领域的地位。
6 建议
如果没有一个可支持算法战的人工智能实际运用框架,则美国国防部当前的计划将会失败。本文提出的框架首次定义了国防人工智能领域的成功效能标准,将为政府监督提供必要的问责措施。
本文为算法战提供的解决方案还需进一步深入研究。应划拨专项资金,将该框架分级并与特定的系统、学科和计划关联。为支持这项工作,必须获取机密资料并对机密系统开展定量实验。
定量实验不仅能验证本文所提出的假设,还可创建一个网络来对比和改进国防人工智能的测试和评估。换言之,在多个环境、系统和问题集中持续、统一地使用效能标准体系结构将使人工智能项目在同一个通用的评估框架下保持一致。为此,本文介绍的效能标准体系结构支持以下两项功能:(1)通过迭代改进“通过/不通过”决策门结果来实现更有效的系统;(2)通过比较各自的效能标准在各系统之间做出决策。
在战略层面上,图1中概述的体系结构应集成至国防部的采办、技术和后勤流程中。当前的范式不是为人工智能项目的指数增长和非传统性质而构建的。围绕主流评估标准来校准国防部当前和未来的人工智能解决方案从而实现人工智能项目标准化,同时加快耗时的采办流程。此外,负责企业人工智能活动的组织应努力完成框架的标准化,以便更快地使应用研究和开发过渡至实际运用阶段。
但组织工作不应仅停滞在政策层面。目前,美国防部尚无选拔军事人才开展人工智能活动的机制。具体而言,缺乏与人工智能相关的军事职业专业划分,以及为人工智能项目鉴别和选拔技术人员的正式系统。从而导致缺乏可用的混合型人才(既精通人工智能又精通作战任务的人员)。建议建立数据科学或面向人工智能的军事职业专业划分,将使人工智能能力的运用更具可持续性。随着合格军事人员的增多,目前由为数不多的经过认证的人工智能专业人员组成的人才库也会相应壮大。传统军事职业划分将更适应现代战争。例如,在一个多源情报融合普遍存在的世界里,特定学科的情报分析员的专业相关性可能不够。修改或添加人工智能技能标识符或专业化标签将增强军事职业划分的相关性。
从战术层面看,美国防部对人工智能的推动需要一场彻底的变革,从而使采用人工智能的组织不会在缺乏相关背景的情况下轻易地获得能力。相反,他们应在抵销战略方面发出积极的呼声。基层工作可能包括在IOC/FOC设计计划之前在部队层面开展影响分析和应力试验,以了解漏洞并确定需求的优先级。
7 结束语
运用人工智能本质上是以任务为中心的工作,必须具有战术意义,才能产生战略影响。除非地面部队的投资获得切实回报,否则人们对于算法战的价值将始终持犹豫态度;因此,针对敌方的压倒性优势将越来越难以现实。
如果没有实施人工智能项目的效能框架,国防部就无法继续执行这类项目。美国政府通过极具创新性、实践性的技术开发人工智能能力,本文中介绍的体系结构正是通过加速政府在这方面的工作并设立相关标准来实现这一目标。(赵锋)
声明:本文来自防务快讯,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。