导语
2021年2月24日,拜登总统发布了关于美国供应链的第14017号行政命令,指示能源部长提交关于能源部门工业基础的供应链战略概述报告。美国能源部(DOE)将能源行业划分为能源和相关供应链,包括直接和间接参与能源行业的所有行业、公司以及相关利益群体,涵盖采掘业、制造业、能源转换和运输业、生产终止和垃圾管理业以及服务业,包括数字商品和服务提供商。
随着能源部门变得越来越全球化、复杂化、数字化甚至虚拟化,其能源系统中数字组件(软件、虚拟平台和服务以及数据)的供应链风险也在演变和扩大,由于数字组件的脆弱性,很可能会受到各种威胁、漏洞带来的网络供应风险的影响。因此对供应链风险进行深度评估,从而对保护能源以及其他部门具有重要意义本文为大家介绍了美国能源部门产生供应链风险评估背景,以及高集成数据和人工智能对能源部门,乃至全球的重要意义。
供应链风险评估背景
近年来,随着越来越复杂的网络对手有针对性地利用数字资产中的漏洞,在关键基础设施系统中,数字组件的供应链风险正不断增加。在2021的年度威胁评估中,美国情报领域指出:“在过去十年中,国家资助的黑客破坏了软件和IT服务供应链,帮助他们进行间谍活动、破坏活动,并可能预先部署作战。”在2018年的一次网络安全事件警报中 ,国土安全部(DHS)和联邦调查局(FBI)强调了日益增长的网络安全问题和几次专门针对能源部门的网络攻击,其中包括利用网络供应漏洞攻击网络安全性较差的可信第三方供应商。
在过去五年中,针对所有类型能源系统的网络攻击事件不断增加。下文介绍了与能源部门有关的最近网络事件的关键例子。2016年12月,乌克兰数十万用户断电,这是首次确认的针对电网的网络攻击 。2017年12月,对安全仪表系统的网络攻击使世界最大石油公司之一沙特阿美的管道运营中断 。2020年12月,俄罗斯针对美国信息技术(IT)公司太阳风的软件供应链运营暴露了全球约18000名客户,包括各级政府的企业网络;关键基础设施实体;和其他私营部门组织。演员们继续进行后续活动,以破坏一些警察的系统,包括一些美国政府机构 。2021年5月,拥有美国最大的燃油管道的殖民地管道公司遭到勒索软件袭击,导致整个东海岸出现燃油短缺 。2021年11月,全球最大的风力涡轮机制造商维斯塔斯遭到勒索软件攻击 ,迫使该公司关闭多个业务部门和地点的IT系统 。在这些和其他许多案例的背景下,改进数字组件网络安全供应链,将在能源部门系统受到上述网络攻击影响的情况中,阻止或限制它们的危害。
供应链安全对于能源行业数字元素和网络供应链风险管理 的重要性日益增加。这一重要性体现在最近对适用于能源部门系统的关键供应链安全政策的更新中,包括2021年美国国家标准与技术研究院 (NIST) 特别出版物《网络安全供应链风险管理实践》的更新草案11,以及2018 年北美电力可靠性公司 (NERC)更新的涵盖供应链保护的关键基础设施保护 (CIP) 标准 。然而,即使有了这些更新的政策,差距仍然存在。NIST标准和指南通常无偿用于私营部门操作系统,而 NERC CIP 标准仅适用于影响电力公司子集安全性和可靠性的系统和组件子集。此外,即使存在要求,对计算面向互联网的安全性的努力,最多就间接预测能源部门控制系统中使用的技术的网络安全。
美国不同类型能源部门系统中的数字组件都较脆弱,很有可能会受到各种威胁、漏洞和即时消息的网络供应链风险的影响,包括美国能源行业工业基地 (ESIB) 内的所有系统,即由资产所有者在不同能源子行业(例如电力、石油和天然气以及可再生能源)运营的系统以及由全球工业综合体运营的系统,该综合体能够进行研发、设计、生产、运营和维护能源部门系统、子系统、组件或零件,以满足美国的能源要求。
图1. IT-OT收敛说明
能源部门系统中使用了两类技术系统。IT系统执行数据、信息、应用程序和通信的安全处理,而操作技术(OT) 系统执行物理设备和过程的安全操作和控制。在遗留系统架构中,IT和OT由具有不同组件、功能、特征、安全实践以及组织和报告结构的独立域组成。随着时间的推移,这些系统不断发展,并越来越自动化、互联化、数字化和远程可操作化。在为优化效率和自动化而构建的现代技术架构中,例如智能城市中的架构,IT和OT系统之间的互联越来越紧密。随着IT和OT的不断融合,数字供应链变得越来越相互依存,而两者之间的风险也将越来越共享。
在本评估中,“网络”组件被定义为包含能源部门供应链中所有数字元素的组件。这包括:
固件–编程到只读存储器中的底层软件;为设备的特定硬件在设备上提供低级控制。任何具有存储/内存、集成电路硬件或可编程控制器的组件都可以操作固件。
软件–在系统上运行、执行功能和处理数据的应用程序。
虚拟平台和服务–基于云的平台,位于互联网或内部,运行应用程序、执行服务和存储数据。
数据–用作软件操作的过程和功能的输入和输出的信息。
在ESIB环境中,能源系统中的物理组件(例如大型电力变压器)通常包括集成固件,并通过软件作为系统的一部分参与操作。该评估仅限于此类物理系统的网络组件。
数字组件供应链的“地图”是复杂的、支离破碎的和虚拟的。由于软件和系统开发是虚拟进行的,因此与地理模型相比,供应链的“地图”通常遵循所涉及的过程步骤。软件和系统开发中涉及的过程步骤通常称为软件(或系统)开发生命周期(SDLC)。国家标准与技术研究所(NIST)将系统开发生命周期定义为与系统相关的活动范围,包括系统的启动、开发和获取、实施、操作和维护,以及最终引发另一个系统启动的处置 。这些标准流程步骤可以分解为各种子任务,并在几乎任何地方进行,即全球采购,并取决于成本和熟练劳动力的可用性、通信连接和技术平台等因素。
图2. 软件开发生命周期过程的阶段
高集成数据—美国数字供应链的关键新兴元素
整合和管理的数据已成为一种有价值的全球商品,现在是全球数字供应链的关键部分。数据是人工智能和机器学习(AI/ML)的关键原始成分,而支持AI/ML所需的越来越大的数据集无法移动,因此需要在全球分布的位置进行边缘计算。AI/ML研究、能力开发和应用的兴起,加上大数据的固定性,正在推动“数据即服务”和AI模型开发和培训“服务”产品的商业市场不断增长。[HA1]
数据表明网络供应链风险与软件构成的风险相似。数据的供应链包括创建、管理、关联以及最终的无限次使用。该供应链上的每个环节都存在可被有能力的对手利用的漏洞。在过去五年内,大量研究表明,对人工智能培训中使用的数据集进行恶意、隐蔽操作可能会导致重大且几乎不可能检测到系统故障[i]。
同时,AI/ML是对美国当前和未来的国家和经济安全至关重要的新兴技术。鉴于对全球AI/ML增长的预测以及对手的兴趣,数据目前成为一种战略性的国家资源。随着AI/ML能力越来越多地应用于美国能源部门系统的运营和防御,以及能源部AI/ML研发工作(位于能源部的国家实验室)对国家和经济安全的中心地位,需要采取积极主动的方法来确保全球数据供应链的网络安全和完整性。
然而,与大多数技术创新一样,与确保关键的、依赖数据的操作网络安全相关的要求、标准和政策无论如何都相对滞后。因此,填补这一空白——为高集成数据集和数据相关商业服务建立网络供应链安全要求——是一项关键的新兴国家安全需求。
行政命令(E.O.)14017第1节规定了“弹性、多样性和安全供应链”的政策基础,以确保美国经济繁荣和国家安全,特别强调保持美国在研发方面的竞争优势[ii]。E.O.14017指出:网络攻击、地缘政治和经济竞争以及其他条件可能会降低关键商品、产品和服务的完整性。这种对完整性的强调适用于数字组件,包括数据和数据相关的商业服务。
AI/ML基础–高集成数据的关键性
人工智能(AI)是计算机科学的一个分支,专注于研究和开发模拟人类智能能力的计算能力。人工智能旨在使机器能够自行行动并执行类似人类的功能,例如感知、学习、发现新事实、推荐决策和独立行动。
任何人工智能能力的基础都是人工智能模型——一种灵活的自适应算法,用于指导用户定义的复杂任务的执行。人工智能模型经过训练,通过分析与目标任务相关的大量精选数据集来执行这些任务。策划的数据是从许多来源收集的信息,并经过组织、一致格式化、分类和分类。
在基础层面上,人工智能模型用于分析数据,并根据其训练方法执行不同的分析任务。人工智能模型采用有监督或无监督的方法进行训练。这两种训练方法之间的主要区别在于训练中使用的数据的管理水平。监督训练使用高度精确的数据来训练人工智能模型,以预测未来的输入(例如图像识别)。无监督训练使用未标记的数据输入来发现数据之间的新模式和关系。无监督模型的一个典型示例是,可以在大量空间数据(例如,与地理位置相关的互联网协议地址)中找到地理集群。
监督人工智能模型优化以执行特定任务,并使用特定于所执行任务的数据集进行训练。例如,训练人工智能以检测异常(和潜在可操作的)网络事件需要管理大型数据集,以描述定义为“正常”的方面以及与恶意网络活动相关的行为。这些训练数据有助于人工智能模型识别感兴趣的网络事件。一般来说,使用的训练数据集越大,人工智能模型在检测异常事件方面就越有效。
通常来说,人工智能模型用于自动化越来越复杂的任务和发现新事实。这些模型的开发和整体有效性是训练中使用的数据量和质量的一个因素。这些数据被用作训练材料,人工智能学习过程从中推断出真实生活现象的属性。为了更好地概括不同问题领域和环境,并扩大和丰富模型的相关性,人工智能需要来自不同来源、不同格式和尽可能多的数据。数据集中所需现象的表示越大,人工智能模型的优化程度就越高。
人工智能模型对数据的依赖也是其脆弱性,因为模型训练的质量好坏仅与所用数据集的质量一样。最先进的深度学习模型对每分每秒的细节和数据中存在的隐藏相关性表现出高度的敏感性。将这种敏感性确定为问题的一种方式是,如果使用有限的数据集训练AI模型,则可能会在结果中产生固有的、无意的偏差。
对抗人工智能
对抗性人工智能是一个相对较新的研究领域,其重点是如何通过干扰人工智能模型的学习过程或决策来破坏、混淆和操纵人工智能模型。有许多类型的攻击利用人工智能的学习和功能,但与数据供应链特别相关的攻击称为数据中毒。
数据中毒或模型中毒涉及破坏训练中使用的数据集的完整性,以影响人工智能模型正确执行(即做出正确预测)的能力。通过插入巧妙操纵的数据,研究人员已经证明了产生错误和不准确结果的能力 。当在模型训练的早期阶段引入这些被操纵的结果时,这些结果很难检测到,并且出乎意料地持续存在,即使在随后的几轮训练中使用不变的数据集 。为了使数据中毒成功,攻击者旨在访问模型的训练数据,并在该训练数据供应链的某个位置插入专门设计用于影响结果的恶意内容。
为了用网络防御的一个例子来说明这一点,可以访问网络防御训练数据(例如,网络流量样本)的攻击者可以在网络数据中插入一些被标记为“良性”或正常网络流量的人为行为。当人工智能对这些数据进行训练时,它将学会将这种人为行为的存在与“正常”联系起来,同时将其他数据集中存在的网络行为检测为恶意行为。稍后,当该人工智能模型部署在作战环境中时,对手可能会使恶意活动产生与之前看到的人为行为相同的网络特征,并且人工智能模型会错误地将该活动归类为良性或正常。
研究人员已经在许多其他场景中证明了实施此类数据供应链攻击的能力。
数据与全球数字供应链
传统供应链是一种复杂的全球活动,对全球化、相互关联的经济和基础物流运营至关重要。它涉及需求规划、资产管理、仓库管理、运输和物流管理、采购和订单履行。
同样,数据供应链是数字经济的关键组成部分,越来越关注人工智能支持的商业分支,如金融、能源交付、贸易和在线销售。就像传统的供应链一样,数据供应链涉及其自身形式的端到端规划,包括数据收集、准备、仓储和最终产品交付中的使用,这要么是交付一些分析最终产品(例如,分析、产品推荐或金融交易),要么是培训和开发将在某些其他环境中使用的AI/ML模型。
数据供应链的物流变得越来越复杂和多变。随着数据源数量的增加和供应链中使用的数据集的大小的增加,移动这些数据的能力也相应地变得更加困难。超过某一点后,大型数据集不再适用于在网络之间传输以进行处理,而是由数据保管人保管。此时,从大型数据集衍生的分析和进一步数据产品或模型在数据集所在的边缘执行。在这个场景中,数据来源和完整性的验证变得更加困难。此外,人工智能训练中使用的大量数据使得处理后的结果验证变得困难且无效。
对于这些原因,需要一种战略方法来管理与使用第三方培训数据集相关的风险,并采取措施确保数据供应链的完整性。保证方法必须能够适应AI/ML传输中使用的数据量,必须是可移植的(即可以部署到数据中),并且必须足够复杂,能够检测数据篡改尝试,例如数据中毒攻击中存在的尝试。
表1.数据生命周期和数字供应链
最近,围绕“预训练”人工智能模型出现了一个全新的人工智能模型商业市场。数百个预先训练的人工智能模型现在可以用于商业任务,如目标检测、买家倾向、自然语言处理、数据提取和特征工程。这些模型已经在公共或私有数据集上进行了训练,并且可以重用。预先训练的模型是在大多数公开可用的数据集(如维基百科)上开发的,然后使用自定义或专有数据集进行微调。在这种情况下,人工智能模型的开发和数据预训练的数字供应链通常不会公开,管理与这些功能相关的风险即使不是不可能也很困难。
然而,与大多数技术创新一样,与确保关键的、依赖数据的操作网络安全相关的要求、标准和政策无论如何都是滞后的。因此,填补这一空白——为高集成数据集和数据相关商业服务建立网络供应链安全要求——是一项关键的新兴国家安全需求。
数据对能源部门系统的重要意义
能源部门大量使用建模和仿真功能,用于复杂能源系统设计、分析、优化、控制和变更管理。因此,建模和仿真在能源系统工程中起着至关重要的作用,并且源行业工业基地是支持建模和仿真能力的重要数据用户。
在联邦技术界,能源部是主要的大数据处理机构之一。通过其科学设施、能源基础设施组件和仪器、环境传感器和其他技术组件,对数据进行分析建模,包括模拟网络物理系统行为的模型、能源网组件的“健康状况”、能源系统等。鉴于能源系统建模和仿真能力的广度和复杂性,能源部和国家实验室也是AI/ML能力的关键用户。
从历史上看,美国能源部的国家实验室一直是高性能计算领域的全球领导者。几十年来,国家实验室一直在运行世界上一些最强大的超级计算机。随着计算的发展,国家实验室的研究重点已经认识到需要将数据密集型计算与传统的模拟计算相结合。今天,国家实验室运行着最强大的国家高性能计算系统,这些系统也是情感人工智能系统,正在朝着研究和应用任务的新的、大规模的能力迈进。
数据对能源部国家实验工作以及高级人工智能计算都起到关键作用。对此,数据的完整性、保护以及数据模型的完整性同样至关重要。因此,基于人工智能的计算任务的高质量、高完整性数据集的可用性对能源部具有特别的战略意义。
虽然AI/ML的研究和应用还处于起步阶段,但人工智能经常被引用为一种关键的新兴技术。2021年3月,美国国家情报委员会的《2040年全球趋势报告》(美国情报界每五年发布一次报告,以强调决策者需要考虑的与国家安全相关的首要问题)首次引用了人工智能的重要性。此外,中华人民共和国的“中国制造2025”计划强调了在包括人工智能在内的关键技术领域占据全球主导地位的国家目标。
许多与人工智能/人工智能相关的策略和政策在几个联邦部门和机构处于不同的发展阶段(表2)。对这些工作的调查表明,没有人确定与确保数据集和数据相关商业人工智能服务的完整性相关的具体工作。因此,存在一个战略机遇,可以将保护全球数据供应链的独特概念附加到其他相关的联邦工作中。
表2.联邦AI/ML策略和工作的参考书目
参考文献
[1]https://www.dni.gov/files/ODNI/documents/assessments/ATA-2021-Unclassified-Report.pdf
[2]https://www.cisa.gov/uscert/ncas/alerts/TA18-074A
[3]https://www.eisac.com/cartella/Asset/00006542/TLP_WHITE_E-ISAC_SANS_Ukraine_DUC_6_Modular_ICS_Malware%20Final.pdf?parent=64412
[4]https://foreignpolicy.com/2017/12/21/cyber-attack-targets-safety-system-at-saudi-aramco
[5]https://www.dni.gov/files/ODNI/documents/assessments/ATA-2021-Unclassified-Report.pdf
[6]https://www.bloomberg.com/news/articles/2021-06-04/hackers-breached-colonial-pipeline-using-compromised-password
[7]https://www.energy.gov/ceser/colonial-pipeline-cyber-incident
[8]https://gwec.net/gwec-releases-global-wind-turbine-supplier-ranking-for-2020/
[9]https://www.reuters.com/markets/europe/vestas-data-compromised-by-cyber-attack-2021-11-22/
[10]https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.800-161r1-draft2.pdf
[11]https://www.nerc.com/pa/Stand/Reliability %20Standards/CIP-013-2.pdf
[12]https://www.arcweb.com/blog /what-itot-convergence
[13]https://csrc.nist.gov/glossary/term/operational_technology
[14]https://csrc.nist .gov/glossary/term/sdlc
[15]https://brocoders.com/blog/agile-software-development-life-cycle/
[16]参见例如T . Gu, B. Dolan-Gavitt, S. Garg的“不良网络:识别机器学习模型供应链中的漏洞。”https://arxiv.org/pdf/1708.06733 .pdf
[17]白宫关于美国供应链的行政命令
[18]Schwarzschild, Avi, Micah Goldblum, Arjun Gupt a, John P. Dickerson, and Tom Goldstein. “数据中毒的毒性如何?后台攻击和数据中毒攻击的统一基准” 机器学习国际会议,第9389-939页。PMLR,2021。
[19]Goodfellow, J. Shlens, C. Szegedy “解释和利用对抗性示例。”(2015) [20]https://arxiv.org/pdf/1412.6572.pdf [21]https://www.dni.gov/files/ODNI/documents/assessments/GlobalTrends_2040.pdf https://crsreports.congress.gov/product/pdf/IF/IF10964
作者:中国科学院信息工程研究所 潘泊凡
责编:郝璐萌
声明:本文来自中国保密协会科学技术分会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。