摘要:欧盟网络信息安全局(ENISA)于 2019 年 3 月发布了题为《建立网络安全政策发展框架——自主代理的安全和隐私考虑》的报告,旨在为欧盟成员国提供一个安全和隐私政策发展框架,以应对日益普及的 AI 应用。该报告通过对人工智能发展中自主代理领域的应用和特征的介绍,指出自主的根源在于设置和遵守自我强化的规则的能力,这种能力与学习能力相结合,使系统输出的结果无法预测。自主代理的核心是数据收集,因此在安全和隐私方面带来很多挑战,建议通过应用安全和隐私的设计原则、开发基线安全需求、协调制定伦理准则等完善相应的政策发展框架。
1 报告综述
过去几年,人工智能(AI)迅速超越研究和学术范畴,进入主流商用,创新的自主代理利用人工智能并改变信息的访问和使用方式。自主代理具有多样性,从智能手机中的数字助理到支持供应链的自动机器人,因自主程度和操作环境的差异,安全性和隐私考虑可能会有所不同。自主系统的一个关键方面是数据收集,主要用于以定性和及时的方式支持高要求功能。然而,由于处理的数据丰富,尤其可能还涉及个人数据,除了依赖第三方提供商之外,还需要考虑安全和隐私等诸多因素。本报告强调了一些需要考虑的相关问题,例如未经授权的自主系统、劫持和滥用透明度、问责制、普遍性、存储和处理的不透明性,并给出了一系列建议,包括:
(1)欧盟委员会、欧盟相关机构及公私营部门利益相关方应进一步促进和支持采用安全和隐私设计原则,作为自主代理和系统的启动、设计和实施的先决条件。
(2)欧盟委员会、欧盟相关机构及公私营部门利益相关方应促进识别和交流最佳实践的合作方法,逐步提出一系列基线安全要求,然后转变为可广泛接受的技术规范和标准。
(3)欧盟委员会、欧盟相关机构及公私部门利益相关方应通过建立适当的道德准则,进一步保障和支持关于促进和保护人权的现有举措。
2 人工智能和自主代理
现代人工智能(AI)应用程序无处不在且数量众多。在医疗保健、汽车、金融和经济、游戏、军事、安全、广告、艺术、社交等领域中,AI 应用程序得到广泛使用。AI 系统主要由软件代理及其运行的环境(感知和行为)组成。大多数现有的 AI 系统和机器人是自动的而非自主的,它们并未发展和维护自身的内部机构,没有基于自我组织、进化、适应和学习等机制运作。
2.1 商业自主代理
目前,自主代理是在特定商业案例(无人机派送包裹)和公共服务(无人机监视火灾隐患)中提出的。确定代理的运作界限和可允许行为至关重要。通常需要平衡互相矛盾的要求才能产生有意义的结果。当无人机盘旋于居民区时,具有很大的侵犯隐私风险,应该采取特定的数据收集限制;但在监视关键基础设施时则应取消这些限制或者视特定情况施加限制。
2.2 知识表示
智能代理是代表用户或另一程序执行一组操作的软件实体,具有某种程度的独立性或自主性。在此过程中,智能代理使用关于世界和用户目标(或者愿望)的知识或代表。基于知识的自主代理人通常包括:(1)知识库(KB),即关于世界的一组事实表示;(2)知识表示语言,即语句代表关于世界的事实的语言。需要进行的特定操作包括向 KB 添加新句子 , 质疑已知的内容,以及构建推理机制来确定知识库内容的后续可能。自主代理是基于知识且具有集成学习机制的代理。
2.3 自主的概念
自主根植于设置和遵守自我设定规则系统的能力。在自主系统中,此概念转化为应用和解读(在某种程度上)规则的能力。这种能力与学习能力相结合,使得结果无法预测。需要制定保障措施,以限制这种可被视为广泛意义上的自由裁量权,使系统的行为可预测,并引入具体的限制和界限。虽然无法一直保证有意义地人为控制,但重要的是制定技术和程序框架以使这种控制成为可能。
2.4 学习
人工智能系统需要大量数据进行分析和学习。通常,学习系统的目标包括识别模式、检测异常和预测。为了实现这些目标,可以使用下述学习类型:
监督学习:在此类型的学习中,需要明确对系统输出的期望。在培训期间,系统接收可以满足输出需求的内容。
无监督学习:一方面,在此类型的学习中,系统不“知道”输出需求;另一方面,它们可以公开输入的内部表示。
强化学习:在此类型的学习中,系统被要求选择最优行为来增加活动的收益。虽然可能没有预先定义的输出,但系统可以了解何为更高收益并优化操作。
2.5 神经网络 / 深度学习
人工神经网络(ANN)是用于控制自主代理的重要技术。关于自主代理的研究是基于将智能作为系统环境交互的结果来研究,而不是在计算层面上理解智能。自主代理必须在环境中不断学习,而不必区分学习阶段和执行阶段。因此,自主代理的神经网络应该以增量 / 连续学习为特征。
在自主代理场景中,代理最初开始探索其环境,并在其生命周期中获得越来越多的体验。在这种情况下:(1)代理在运行时需要确定模式的相关性;(2)为离线训练选择培训示例是不合适的;(3)鉴于代理随着时间的推移获得经验,因而需要具有增量学习属性的网络(例如神经元)。
对于自治代理,这意味着它必须在运行时更新其网络权重。自主代理的网络模型应该是弹性的,因为在其生命周期中,与特定感知信息相关联的适当动作可能会改变。这种动态变化可能是由环境的变化(可能是由于代理与其环境的相互作用)或传感器电特性的动态变化引起的。
2.6 自我管理
在自我管理的自主系统中,用户不是直接控制系统,而是通过定义系统自我管理过程和指南中的一般政策和规则来控制系统。目前已有四种类型的自我管理属性:
自我配置:系统组件的自动配置;
自我修复:自动识别和修复系统故障;
自我优化:基于对资源的监控和控制自动优化功能定义的要求;
自我保护:主动识别和防止任意攻击。
Poslad以及 Nami 和 Bertel进一步拓展了上述属性:
自我监管:系统在没有外部控制的情况下维持某个参数的特定水平;
自我学习:系统使用机器学习技术来学习如何在没有外部控制的情况下处理新数据 / 信息(无监督学习);
自我意识(也称为自我检查和自我决定):系统了解自身、内部组件和外部链接,以便控制和管理它们;
自治:系统在没有外部干预的情况下自我管理;
自我描述(也称为自我解释或自我表征):系统自行解释,能够被(人类)理解而无需进一步解释。
被称为“智能”的自主代理应该能够展示一个或多个自我属性。
2.7 决策支持系统
决策支持系统(DSS)是一种基于计算机的应用程序,用于收集、组织和分析业务数据,以促进管理、运营和规划的高质量业务决策。精心设计的 DSS 应支持决策者分析各种数据(例如原始数据、文档、员工个人资料等)。对 DSS的研究主要涉及代理在应用程序中的集成。
2.8 识别技术
识别系统集成了能够从数据(流)的分析中识别或验证实体或对象(例如人、汽车、动物,标志等)的技术,其中,数据由传感器(例如相机、麦克风、温度计等)收集,并以数字文件(例如图像、视频或声音文件)或数据流形式提供。
2.9 规划
AI 中的规划涉及战略实现以及执行自主代理的动作顺序,因此,它通常用在短语“自动规划和安排”中。为 AI 规划提供解决方案的技术方法包括但不限于:动态规划、强化学习和组合优化。协调性赋予代理相对“理性”及与人的合作能力,以产生连贯的活动并确保正确的多代理系统(MAS)行为。这种协调需要适当的计划代表,代理进行活动的组织时,需要不断更新和开展合作才能避免冲突。多智能体规划仍然是 MAS 协调的主要机制之一。由于代理的自主特性以及环境的变化,引发了一些有趣的问题。应从多个角度研究多代理规划模型:动态规划、分散规划、任务分配和资源共享等。
2.10 冲突消除
通常,冲突消除可以被视为一组方式和程序,能够发现和应用解决方案以消除任何类型代理之间的冲突。在特定工作组内,代理试图通过将有关其冲突动机或意识的信息积极地传达给团体的其他成员以及参与集体谈判来解决工作组冲突。
2.11 推理
推理与人的思维、认知和智慧有关。在 AI 中,推理分为各种逻辑推理类型,如演绎推理、归纳推理、反绎推理,以及其他不那么正式的方法,如直觉推理和言语推理。逻辑推理是关于代理如何理解传感器在其环境中所收集的信息,或者它们如何将因果、事实等概念化,甚至是如何创建关于好和坏的概念。自动推理被认为是人工智能的一个子领域,与理论计算机科学和哲学有关。形式逻辑在自动推理领域发挥了重要作用,自动推理本身也促进了 AI 的发展。
2.12 大数据
数据是自主代理技术的关键。自动车辆的规划和行动基于机器学习算法,这需要大量数据才能够准确地预测结果。大量的数据不仅来自传感器和可用基础设施的数据,还来自众包来源的数据以及驾驶员和乘客的个人数据。联网自动驾驶汽车系统可以将数据上传到云并进行共享,然后将其用于其他车辆系统的训练中。
3 安全和隐私
3.1 安全问题
3.1.1 劫持和误用
自主无人机、无人驾驶汽车、机器人和其他设备都是通过软件系统来控制的。软件开发过程中使用的方法以及软件测试的范围和广度都会影响漏洞数量和严重程度。开发者应该证明设计过程中采用了可管理安全(managed security)方法,包括记录安全软件开发、质量管理和信息安全管理过程,以对抗基于软件和系统漏洞的劫持和误用。
3.1.2 干扰
自主系统非常依赖传感器来感知环境,因此可能会遭遇来自传感器的安全风险。安全研究人员在 2016 年就证明了自动驾驶汽车使用的传感器易受到非接触式攻击的影响。供应商应该确保交付产品的设计和预配置是基于良好的安全实践,并严格遵守最小权限等安全设计和开发原则。
3.1.3 透明性、可审计性的局限
自主代理的行为并不全都在软件代码中有详细的规定,而是根据软件、训练和感知环境的不同,其行为具有一定不确定性。在许多高级自主代理中,训练和操作阶段是没有区别的,因为训练过程是持续贯穿代理的整个生命周期。因此,训练的过程并不是完全由厂商控制的。那么厂商就应当提供关于代理设计的综合性和可理解的文档,描述自主代理的架构、功能、使用的协议、软件组件或硬件的实现,与其他组件和内外部服务的交互和接口,以确保代理是以一种最安全的方式实现和应用的。
3.1.4 坚持安全原则
与信息系统设计、开发和应用的基本安全规则类似,应当识别、定义和应用自主代理在全生命周期中需要坚持的基本安全原则。因此,自主代理的组件、使用和提供的服务应当是安全的:
(1)安全设计,代理或服务的设计和应用应该是安全的,以确保可用性、机密性、完整性和可审计性等关键安全特性;
(2)默认安全,代理或服务在初始实现时就应该提供能支持这些安全特性的能力;
(3)全生命周期安全,安全应该贯穿从初始应用、维护到不再使用的全生命周期中;
(4)可验证安全,上述安全特征和原则都应当是可验证的。
3.2 隐私问题
3.2.1 普适性与最小化原则
自主代理的学习能力是基于机器学习算法的,而机器学习算法本身就需要大量的数据集作为输入,也就是说,代理会去不断地收集尽可能多的数据。以自动驾驶汽车为例,自动驾驶汽车装备的传感器会收集半径 300m 范围的数据信息,通过可能装配了摄像头和麦克风、雷达和激光的传感器,可以创建环境中物体的高分辨率 3D 画像来采集多维度信息。
从目前来看,自主系统还不具备区分有用数据和无用数据的能力。自主系统的能力高度依赖环境感知的能力,而环境是复杂和动态的,因此很难区分哪些信息是有用的,哪些信息是无用的。
3.2.2 数据保护:删除数据仍能利用
自主代理处理的实时数据需要在使用后不影响性能的情况下删除。出于不同的原因这些数据一般都会长时间保存,包括事故和意外的调查取证。以自动驾驶汽车为例,训练数据也可能会用于事故和意外调查取证,因此也要保存。
即使数据被删除了,也会留下可以被利用的痕迹。研究人员在 2017 年就证明了在不访问机器学习模型内部结构的情况下,确定特定记录是否是机器学习算法训练集的一部分的可能性。同时研究人员证明了机器学习易受到推断攻击。因此,对机器学习来说,删除训练集数据并不是隐私保护的有效手段。而且工程师、开发者、研究人员、调查人员和其他利益相关方都可能会访问到数据集,因此数据机密性保护也是一个复杂的问题。
3.2.3 数据聚集和再利用
数据的聚集和再利用已经非常普遍。比如,自动驾驶汽车和无人机都连接着所属公司的控制中心,收集的数据会发送到控制中心做进一步分析。同样地,软件代理也会与厂商共享数据,这样厂商才能提供更好的服务给用户。开发者和服务提供商将从不同用户处收集的数据与其他源的数据融合在一起,就可以创建详细的用户画像,用于预测用户行为和猜测用户的需求。
从活动 A 收集的数据可能会被进一步利用和分析,用作活动 B,这就叫做再利用。比如自主代理训练所收集的数据也可能会用于市场营销,事故调查所收集的数据可能会被用于用户画像等等。
3.2.4 黑盒:数据处理的不透明性
机器学习是以一种黑盒的方式处理数据并展现给用户结果的。机器学习算法并不对结果进行解释,也无法确定某个特定的数据实例是否会影响最终的决策。对基于机器学习算法模块的自主代理来说,无法证明个人数据处理的合法性、公平性和透明性,因此需要监管和执行机构参与来分配和确定相关的责任。
4 网络安全政策发展框架
本报告为欧盟成员国的自主代理和相关应用领域在安全和隐私相关的政策发展提供一个框架。基于对人工智能技术的分析,研究人员提出网络安全领域的政策发展框架应该坚持的两个原则:
包容性原则(Inclusiveness):应当反映和考虑更广泛的利益相关方的兴趣和优先事项;
开放性原则(openness):应当支持未来数字革新技术在不同领域的应用。
具体而言,该框架应该:促进技术标准和规范的开发和采用,鼓励最佳安全实践和经验,促进利益相关方的协同和合作关系。
5 总结与建议
5.1 应用安全和隐私设计原则
自主系统的关键就是能够处理大量数据,但自主系统必须以一种可以确保安全的关键特性(如可用性、机密性、完整性和可审计性)的方法进行设计,并确保在从安装开始的全生命周期就拥有保证其安全特性的能力。
欧盟委员会、欧盟相关机构以及公私营部门利益相关方应进一步促进和支持采用安全和隐私设计原则,作为自主代理和系统的启动、设计和实施的先决条件。
5.2 开发基线安全需求
人工智能和自主代理的快速发展催生了系统和产品设计、开发等过程中对应的方法和指南的需求。开发者也可以从解决安全和隐私挑战的指南中获益,这种指南可以通过最佳实践、基线安全需求标准的开发来产生。
欧盟委员会、欧盟相关机构及公私营部门利益相关方应促进识别和交流最佳实践的合作方法,逐步提出一系列基线安全要求,然后转变为可广泛接受的技术规范和标准。
5.3 解决伦理问题
自主代理和系统常常需要做出一些复杂的决策,因此必须引入与人权、尊严和非歧视等相关的伦理问题。解决这一困境需要一种跨学科和协调的方法。
欧盟委员会、欧盟相关机构及公私营部门利益攸关方应通过建立适当的道德准则,进一步保障和支持关于促进和保护人权的现有举措。
6 简评
欧盟将人工智能作为实现“数字单一市场”的重要举措。2018 年 4 月通过“人工智能战略(AI)”;2018 年 12 月欧委会提出一项与成员国共同制订的协调计划,以促进人工智能的开发和使用,协调增加投资,将人工智能推广到所有经济部门,最大限度地提供数据,支持先进技能,推动欧盟参与全球范围内的竞争,同时维护公民的信任,尊重道德价值观;2019 年初,欧盟委员会推出了 AI4EU 项目,旨在为欧洲创建一个人工智能需求平台,并致力于成为这个蓬勃发展领域的引领者。
同时,欧盟特别关注建立人工智能的法律和伦理框架。就在欧盟网络信息安全局(ENISA)发布本报告之后不久,2019 年 4 月 8 日欧盟发布人工智能伦理准则,准则列出了“可信赖人工智能”的七个关键条件——人的能动性和监督能力、安全性、隐私数据管理、透明度、包容性、社会福祉、问责机制等,以确保人工智能足够安全可靠。可见,安全和隐私保护是欧盟人工智能政策框架中的核心机能,也是欧盟人工智能战略的重要关键组成。
数据是人工智能发展的基础和驱动,自主代理不仅在应用和发展中需要大量的数据支撑,也通过创新数据的访问和使用方式,使得在场景中不断主动探索、采集更多的数据,和自主处理丰富的数据成为可能。但是,自主代理的持续学习能力也使得系统的输出结果无法事先预测,从而产生了与数据保护法的矛盾。例如,自主代理的人工智能无法适用数据的最小化原则,因为它本身会自主收集更多的数据,而且无法区分哪些是有用的,哪些是无用的,更无法确定是否为服务提供所“必要”;在自主代理处理数据的情况下,删除数据也会留下被利用的痕迹,因此“被遗忘权”更加难以实现;机器学习算法将数据进行融合处理,其结果具有一定的不可解释性,也无法区分哪些数据对结果有什么程度的影响,使得数据的“可溯源”和“可解释”定义变得模糊。因此,在人工智能尤其是自主代理模式发展的情况下,会使欧盟《通用数据保护条例》(GDPR)中的一些数据保护规则受到挑战,反过来,GDPR 中过严的规则会束缚欧盟人工智能产业的发展和应用。
自主代理的发展产生的问题依旧是网络安全议题中的新发展。如前所述,欧盟在发展人工智能的过程中重视相关的法律和伦理框架的作用,更具体而言,需要协调人工智能发展与网络安全和个人数据保护立法的关系。在 GDPR已经确立完整的个人数据保护规则的情况下,自主代理的模式依旧对规则体系产生冲击,这甚至可能是未来新兴技术发展的常态,法规框架体系需要时时刻刻保持开放和发展的姿态,来应对和反馈技术的进步,对于规制新技术的讨论和研究仍在路上,而发展却一骑绝尘。就报告而言,其在建议方面,主要是从安全和隐私设计、安全基线要求等方面的技术标准和规范入手,更多还是鼓励和促进的软性措施,因此对于欧盟关于人工智能未来具体的法律框架,我们期待有更多的创新,能够为我国在未来的相关工作提供借鉴。
作者
贺佳瀛, 赛博研究院研究员,主要研究方向为网络空间战略、政策、前沿技术和网络安全治理领域研究。
(本文选自《信息安全与通信保密》2019年第五期)
声明:本文来自信息安全与通信保密杂志社,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。