引用本文:夏玉明,石英村.人工智能发展与数据安全挑战[J].信息安全与通信保密,2020(12):70-78.

摘 要:当前,随着以“数字新基建、数据新要素、在线新经济”为特征的新一波数字经济浪潮全面来临,全球人工智能发展逐步从“探索期”向“成长期”过渡,在技术和产业上均进入重要的转型阶段。在此背景下,人工智能发展和数据安全问题日益深度交织融合,影响用户隐私、公民权益、商业秘密、知识产权、社会公平、国家安全等各个方面,数据安全问题已然成为人工智能全面新发展的重要制约瓶颈和亟需突破的关键挑战。

关键词:人工智能;数据要素;数据安全;隐私保护

内容目录:

0 引 言

1 数字经济时代人工智能发展的趋势

1.1 新一轮数字经济发展浪潮全面来临

1.2 全球人工智能发展逐步从“探索期”向“成长期”转变

1.3 数据安全成为人工智能全面新发展的重要制约问题

2 人工智能全面新发展的数据安全挑战

2.1 数据采集阶段的安全挑战

2.2 数据处理阶段的安全挑战

2.3 数据流通阶段的安全挑战

2.4 数据使用阶段的安全挑战

3 结 语

0 引言

当前,随着大数据和云计算等新一代信息技术的发展成熟,人工智能技术和应用获得重大突破性进展,并快速向各个行业和领域渗透。其中,大数据是人工智能开发和应用的基础, 当前以机器学习为主的人工智能技术的高速发展依赖于底层大数据的丰富程度。强大的模型往往需要含有大量样本的数据集作为基础,数据的质量、多样性将对算法模型的成败产生重大影响。数据越多,模型的准确度和重复性就越好。因此,人工智能需要数据来建立其智能。然而,随着越来越多的数据在人们的生产和生活场景中被收集和利用,数据安全风险和隐私保护成为人工智能系统在开发和应用过程中面临的严峻安全挑战,亟需全球共同治理。

1 数字经济时代人工智能发展的趋势

1.1 新一轮数字经济发展浪潮全面来临

数字经济是指以数字化的知识和信息为关键生产要素,以现代信息网络为重要载体,以信息通信技术的广泛普及和有效使用为核心驱动,全面推动商业模式优化创新、生产消费效率提升和产业经济智能化升级的一系列经济活动。近年来,随着大数据、云计算、物联网等为代表的数字技术带来了全球性的科技革命和产业变革,以“数字新基建、数据新要素、在线新经济”为核心特征的新一轮数字经济发展浪潮全面来临,为基于算法、算力和数据驱动下的人工智能全面新发展注入了全新的强大动能(如图1所示)。

图1 数字经济时代推动人工智能全面新发展

(1)数字新基建成为人工智能新发展的坚实底座和基础支撑

近年来,美国、欧洲、日本、英国等全球主要经济体纷纷大力发展以5G、物联网、工业互联网、云计算、数据中心、卫星互联网等为代表的新型数字基础设施建设,而中国自2018年12月首次提出“新基建”概念以来,至今已有7次中央级会议或文件明确表示加快新基建的建设速度,并在2020年5月将“加强新型基础设施建设”明确写入2020年《政府工作报告》。数字新基建的加快推进和不断完善将成为人工智能全面新发展的坚实数字底座。其中,物联网和工业互联网将极大拓宽人工智能的数据来源和应用场景,5G和卫星互联网则能够大幅度提高人工智能数据传输、处理以及应用开发的效率,数据中心、云计算设施确保了人工智能发展所需要的巨大基础计算和存储需求,以人工智能芯片、智能终端、智能计算平台为代表的人工智能基础设施则为人工智能应用提供了高质量的硬件支撑。

(2)数据新要素成为人工智能新发展的核心动能和强大驱动

2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据明确列为一种新型生产要素与土地、劳动力、资本和技术等传统要素并列,并强调要加快培育数据要素市场。随着全球各国不断加快数据市场的建设,将在未来形成包括数据要素确权定价、数据交易流通和收益分配等核心功能的数据要素市场改革驱动和政策赋能,能够极大地推动政府公共数据开放和社会企业数据共享,进一步打通数据壁垒,推动形成数据更大规模的有序、便捷、高效和安全流动交易的宏大数字空间,为人工智能全面新发展注入高质量的数据动能。

(3)在线新经济为人工智能新发展提供丰富广阔的应用场景

随着全球经济因疫情冲击而遭受重创甚至面临衰退,以在线新经济为代表的数字经济模式成为全球经济复苏和转型增长的核心驱动。在线新经济的本质是传统行业线上化、网络化、数字化和智能化转型,是指以大数据、云计算、区块链等新一代信息技术在办公、医疗、教育、金融、生产、物流等各个垂直领域的加速落地并形成新型的经济业态。在线新经济的兴起将为人工智能发展提供丰富广阔的应用场景,不断推动人工智能的算法迭代优化,以及向更多行业和更多领域渗透落地,形成人工智能全面新发展庞大、立体的需求牵引。

1.2 全球人工智能发展逐步从“探索期”向“成长期”转变

根据行业生命周期理论(Industry Life Cycle)和Gartner的技术成熟度曲线模型,本文认为当前全球人工智能发展正在逐步渡过“探索期”并进入“成长期”,且已进入了全面转型的关键节点。主要有以下四个关键特征:

(1)人工智能专用技术迅速突破

专用人工智能即面向特定领域的人工智能(即“弱人工智能”),由于其具备任务单一、需求明确、应用边界清晰、传统领域知识丰富和功能建模相对简单等特征,因此在重点领域形成技术突破后,随即进入了快速的商业化应用阶段,成为人工智能迈向“成长期”的底层支撑。目前,人工智能主要的应用技术方向包括以深度学习为代表的机器学习算法;以计算机视觉、图像识别、语音识别为代表的智能感知技术;以及以无人驾驶、自动机器人等为代表的自主无人系统的三大领域。

(2)人工智能产业生态蔚然成型

从全球范围内看,围绕专用人工智能技术的人工智能产业已经初具规模。中国电子学会发布的《新一代人工智能产业白皮书(2019年)》显示,2018年全球新一代人工智能产业规模超过555.7亿美元,预计2019年产业规模将突破718亿美元。而据德勤公司(Deloitte)预测,2025年世界人工智能总体市场规模将超过6万亿美元,2017—2025年复合增长率达30%。在产业链上,形成了包括智能芯片、传感器、智能设备厂商的硬件层;数据分析处理、算法模型、软件开发和关键技术厂商的技术层;行业应用、解决方案、产品服务开发厂商的应用层等三大层级体系,整体产业生态发展开始从“探索期”的弥补市场空白向“成长期”的产业结构优化转型发展。

(3)人工智能投融资日趋理性成熟

自2018年全球人工智能投融资达到784.8亿美元高值以来,2019年全球人工智能领域的投融资规模开始回落。中国信息通信研究院发布的《全球人工智能产业数据报告》显示, 2019 年一季度全球人工智能融资规模126亿美元,环比下降7.3%。创投研究机构CB Insights发布的《全球人工智能投资趋势年度报告》显示,AI初创公司超过70%的投融资为早期投资或 A 轮融资,资金向头部初创企业集中的趋势明显加强。伴随着“探索期”的风险投资甚至跟风投机泡沫的消除,核心技术、商业落地和可持续发展成为投资者最关切的决策因素,投融资整体趋向理性必然带来产业结构的优化,驱动人工智能从“探索期”向“成长期”发展。

(4)人工智能应用场景向深层拓展

目前,人工智能的应用场景包括金融、零售、医疗、教育、政务、制造、汽车、家居、智慧城市、数字内容、公共安全等多个垂直领域。相关行业场景的应用深度不一。IDC 发布的《AI 驱动金融行业智能决策(2020)》显示,目前金融行业头部企业AI应用渗透率达75%以上;第二梯队的企业AI应用渗透率超过50%;第三梯队的金融企业AI应用渗透率约30%,成为当下人工智能渗透率最高的应用场景。中国新一代人工智能发展战略研究院对797家中国人工智能骨干企业中的581家应用层企业进行了详细分析,提供企业技术集成与方案提供、智能机器人两个应用领域的人工智能企业数占比最高,分别为 15.43% 和9.66%。紧随其后的是关键技术研发和应用平台、新媒体和数字内容、智能医疗、智能硬件、金融科技、智能商业和零售、智能制造领域。相关研究预测,到2022年前后,医疗、公共安全、智能制造、无人驾驶和智慧城市等场景的整体人工智能渗透率都将超过25%。可以说,“探索期”的人工智能发展将主要向更多应用领域过渡,“成长期”的人工智能应用将向更深层次渗透。

1.3 数据安全成为人工智能全面新发展的重要制约问题

数据安全是数字经济发展中最关键的安全挑战之一,随着人工智能在产业和技术两个方面都在加快渡过“探索期”,逐步进入“成长期”, 人工智能发展与数据安全将更加深度地交织在一起,数据安全问题已然成为人工智能突破关键转轨期所必须解决的重要制约瓶颈。

一方面,人工智能发展加剧了传统数据安全风险。在以“数字新基建、数据新要素、在线新经济”为重要特征的数字经济发展大背景下,人工智能的新发展必然伴随着数据总量的井喷式爆发,各类智能化数据采集终端的加快增长,数据在多种渠道和方式下的流动更加复杂,数据利用场景更加多样,整体数字空间对于人类现实社会各个领域的融合渗透更趋于深层,这将使得传统数据安全风险持续地扩大泛化。另一方面,人工智能催生了各种新型的数据安全风险。人工智能通过训练数据集构造和优化的算法模型,因其对于数据资源特有的处理方式,将会带来数据污染、数据投毒、算法歧视等一系列的新型数据安全问题。同时,人工智能在自动化网络攻击、数据黑产的应用,使得传统网络安全和数据安全威胁更加复杂,对国家和企业现有的数据安全治理能力形成巨大冲击。

2 人工智能全面新发展的数据安全挑战

人工智能全面新发展的数据安全挑战既有传统数据安全问题的普遍共性,更具有人工智能时代的独特烙印,影响领域覆盖用户隐私、公民权益、商业秘密、知识产权、社会公平、国家安全等各个方面。因此,报告基于数据生命周期的视域,从数据采集、数据处理、数据流通和数据使用4个阶段,重点聚焦分析人工智能发展中较为独特或更突出的数据安全问题(如表1所示)。

2.1 数据采集阶段的安全挑战

(1)人工智能数据采集时难以保障用户的数据权利

人工智能算法尤其是在深度学习的开发测试过程中,需要大量训练数据作为机器学习资料和系统性能测试。目前,人工智能企业的数据采集主要包括现场无差别采集、直接在线采集、网上公开数据源和商务采购等方式。在现场无差别采集时,由于无法提前预知采集的用户, 难以获得用户的充分授权同意。而在直接在线采集时,由于人工智能系统通常由训练好的模型部署而成,对用户数据需要进行连续性的处理分析,因此很难保障用户的修改、撤回等权益。在网上公开数据源和商务采购时,由于目前数据共享、交易和流通的市场化机制不健全,因此存在一部分企业通过灰色渠道获得用户数据,而这些数据缺乏用户知情同意。

另外,随着计算机视觉、图像识别和语音识别技术的发展,以对个人生物特征数据进行采集分析的应用成为人工智能发展的重要应用方向。而在各国现行的法律规制下,人脸数据、基因数据、体型数据、语音特征等生物特征数据均属于个人敏感数据,对此类数据的采集和处理存在较大的法律合规和隐私保护风险。

(2)现场无差别采集可能会产生过度采集

问题现场采集是人工智能数据采集的重要方式,广泛应用于无人驾驶、智能家居、智慧城市等场景中。其主要通过在公开环境中部署各类传感器或采集终端,以环境信息为对象进行无差别、不定向的现场实时采集。现场采集由于难以提前预知采集的数据对象和数据类型,因此在公开环境尤其是公共空间进行现场采集时, 将不可避免地因采集范围的扩大化而带来过度采集问题。比如在智能网联汽车的无人驾驶场景中,自动驾驶汽车的传感器需要采集街景数据来支持智能驾驶系统的决策从而控制汽车行驶,但是这种无差别的街景数据采集必然会采集到行人的个人数据,甚至可能会采集到路边的重要基础设施分布、军事营区等重要数据给国家安全带来风险。

2.2 数据处理阶段的安全挑战

(1)数据污染可能会导致人工智能算法模型失效

数据污染的本质是数据质量的技术性治理问题,是指数据与人工智能算法不适配,从而导致算法模型训练成本激增甚至完全失效。数据污染产生的原因可能包括训练数据集规模过小、多样性或代表性不足、异构化严重、数据集标注质量过低、缺乏标准化的数据治理程序、数据投毒攻击等。在数据与模型算法适配度极低的情况下,进行模型训练时将会明显带来反复优化、测试结果不稳定等问题,使得人工智能运行的成本大大提高,严重的数据污染甚至直接导致人工智能算法模型完全不可用。

(2)恶意数据投毒攻击导致人工智能决策

错误数据投毒是指恶意攻击者人为地在训练数据集中定向添加异常数据或是篡改数据,通过破坏原有训练数据的概率分布而导致模型产生分类或聚类错误,从而连续性引发人工智能的决策偏差或错误,最终产生恶意攻击者所期待的结果。在自动驾驶、智能工厂等对实时性要求极高的人工智能场景中,数据投毒对人工智能核心模块产生的定向干扰将会直接扩散到智能设备终端(如智能驾驶汽车的刹车装置、智能工厂的温度分析装置等),从而产生灾难性事故后果。

(3)数据偏差可能会导致人工智能决策带有歧视性

数据偏差是指人工智能算法决策中所使用的训练数据,因地域数字化发展不平衡或社会价值的倾向偏见,使得数据所承载的信息带有难以用技术手段消除的偏差,从而导致人工智能的决策结果带有歧视性。由于当下的专用人工智能主要是通过对训练样本数据的结构和概率进行特征统计,从而构建输入数据与输出结果的相关度,而并非通过抽象化的逻辑推演获取真正的因果关系,同时机器学习算法带有“黑箱”的不可解释性,因此这种因数据偏差导致的决策歧视难以使用技术性完全解决。

比如在政府基于大数据统计分析来进行决策时,其获取的网络数据可能会更多地体现经济发达地区或人群的特征,对于数字化程度较低的边缘地域以及老幼贫弱人群的特征无法有效覆盖,从而对政策制定的公平正义产生不利影响。同时,在金融征信、医疗教育和在线招聘领域,可能会因边远地区、弱势群体和少数族裔的数据量不足、数据质量不高等原因,导致自动化决策的准确率会基于人群特征形成明显的分化,从而产生实质性的歧视影响。

2.3 数据流通阶段的安全挑战

(1)人工智能多主体之间的数据交互存在泄露和滥用隐患

由于人工智能产业生态体系中各主体之间进行数据交互而导致的数据泄露或滥用主要包括三种类型:

其一,由于大量人工智能企业会委托第三方公司或采用众包的方式实现海量数据的采集、标注、分析和算法优化,因而数据将会在供应链的各个主体之间形成复杂、实时的交互流通链路,可能会因为各主体数据安全能力的参差不齐,产生数据泄露或滥用的风险。

其二,当下多数人工智能初创企业普遍使用开源学习框架,即通过谷歌、微软、亚马逊等互联网巨头公开的模块化基础算法进行应用开发,因此初创企业对于开源框架、第三方软件包、数据库和其他相关组件等均存在较大的依赖性,且由于缺乏严格的测试管理和安全认证,将会面临不可预期的系统漏洞、数据泄露和供应链断供的安全风险。

其三,通过边缘计算的方式进行人工智能系统开发及数据训练是目前企业较为流行的做法趋势,人工智能云服务平台和开发者、应用者的数据交互,将会使部署在云侧和端侧的数据面临比传统信息系统更加复杂的安全挑战。

(2)数据孤岛和数据壁垒问题可能导致滋生数据黑产

由于人工智能发展处于“探索期”向“成长期”过渡的阶段性特点,对于底层数据资源的竞争仍是人工智能企业最关键的市场竞争力体现。然而成熟的数据要素市场尚未形成,数据合法、便捷、安全、低成本的交易流通机制仍是空白,远远无法满足人工智能企业发展对于数据资源的需求。同时,在政府与企业之间、大企业与小企业之间、行业与行业之间,因数据确权、数据安全等问题存在着诸多法律和技术上的数据壁垒,形成了“数据孤岛”,不仅极大制约着人工智能的发展,也成为滋生数据黑产的主要经济动因。

(3)人工智能产生的跨境数据流动引发数据安全问题

在全球数字经济发展不均衡的大背景下, 大型科技巨头在人工智能的数据资源供给、数据分析能力、算法研发优化、产品设计应用等环节分散在不同的国家,而小型初创企业也需要诸多第三方平台和数据分析公司的支撑。因此,无论是企业内部还是与第三方合作,在人工智能技术研发和场景应用中均需要常态化、持续性、高速率、低延时的跨境数据流动。

比如在智能网联汽车领域,智能汽车产生的路况、地图、车主信息等大量数据可能回传境外的汽车制造商,进行产品优化升级和售后服务支撑,将会带来个人敏感数据和重要数据出境后的安全不可控风险。这种人工智能发展引发的跨境数据流动,不仅因各国日益趋严的数据安全规制和本地化要求而面临极大的政策障碍,更将对主权国家的国家安全、数据主权等带来复杂的挑战。

2.4 数据使用阶段的安全挑战

(1)智能化的深度挖掘将会威胁公民隐私和国家安全

深度挖掘是指人工智能技术能够对用户分散、公开甚至匿名化的数据项进行关联分析,从而获得用户无意公开的信息特征和隐私。当前,随着大数据分析和用户画像技术的快速发展,个性化服务变得越来越普遍,各类平台和企业对于用户“数字轨迹”数据的采集成为其提供精准化产品服务的核心基础,这种对于用户习惯行为的长期跟踪和深度分析将使得公民隐私面临安全风险。同时,随着人工智能关联分析技术的发展,通过对公民分散的、单个无意义的数据项进行组合关联分析,能够形成对特定个体识别和特征画像的数据集(比如活动场所、行动习惯、政治态度、宗教信仰等)。这种技术不但本身会直接威胁到用户的人身安全和隐私,若被用于政党竞选和政治宣传,将对各国现行的政治制度产生极大的冲击和颠覆。

(2)对人工智能的逆向还原攻击将会侵犯商业秘密

逆向还原攻击是指攻击者通过人工智能应用的公开访问接口,利用一系列技术手段逆向还原出人工智能的算法模型和训练数据。由于算法模型在部署应用中通常需要将公共访问接口发布给用户使用,攻击者可以利用神经网络等人工智能算法对训练数据集的记忆,通过公共访问接口对算法模型进行黑盒访问,从而分析系统的输入输出和其他外部信息,并推测系统模型的参数及训练数据中的隐私信息。甚至部分攻击者能够通过构造出与目标模型相似度非常高的模型,进行不断地优化逼近,从而实现对算法模型的窃取,进而还原出模型训练和运行过程。逆向还原攻击对算法模型、参数特征的窃取将直接威胁企业的知识产权和网络资产安全,而其对训练数据隐私信息的窃取将对个人隐私构成安全威胁。

(3)对抗样本攻击将会导致人工智能决策

错误对抗样本攻击是指在样本数据输入中添加细微、无法识别的干扰信息,导致模型在正常运转中输出一个错误的结果。此类对抗样本攻击既可以是网络空间的虚拟信号错误,也可以是物理世界的实体识别错误。比如在智能网联汽车的无人驾驶中,通过对实体停车或限速标志的精确更改,使得算法模型将其误识别为其他标识,从而引发交通事故。

3 结语

综上,人工智能时代的数据安全问题极为严峻,亟需全球共同治理。人工智能中的数据安全治理是一个系统性工程,需要从法规、标准、技术等各个层面寻求应对策略,并需要监管方、政策制定者、人工智能开发商、制造商、服务提供商,以及网络安全企业协作,共同应对数据安全重大挑战,在人工智能技术发展的当前阶段,同步建立安全治理体系,护航人工智能技术的健康可控发展。

作者简介

夏玉明(1980—),男,学士,中级工程师,主要研究方向为软件工程与大数据信息安全;

石英村(1993—),男,学士,上海赛博网络安全产业创新研究院研究员,主要研究方向为网络安全、数据安全、数字经济等。

选自《信息安全与通信保密》2020年第12期(为便于排版,已省去原文参考文献)

声明:本文来自信息安全与通信保密杂志社,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。