从生产要素角度看数据安全保护存在的问题

文│中国信息安全测评中心陈锦王禹成林杜文越

2020年4月9日，中共中央、国务院发布《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》，提出“土地、劳动力、资本、技术和数据”五个要素领域改革方向，明确数据已经成为新的生产要素，参与到社会生产生活各环节。数据通过动态流动创造价值、提高政府治理能力，同时也面临数据窃取、数据泄露、个人隐私安全等问题。为了保障作为生产要素的数据安全，需要正确理解认识数据特性，把握数据安全特点，建设以数据为中心的安全保障体系，切实保障数据参与生产过程各环节安全。

一、概述

1.数据特性

在大数据时代，数据参与社会生产过程，实现价值增值，是一种新型生产要素，具有以下特性：

（1）增值性。在大数据时代，数据可以通过分析挖掘等手段产生新的数据，挖掘新的信息和情报，生成新的数据产品，形成新的数据业务，实现价值的增加。

（2）流动性。数据作为新型生产要素参与社会生产过程，需要从一个系统流动到另一个系统，从一个网络区域流动到另一个网络区域，从一个组织流动到另一个组织。数据流动是实现价值增值的前提和基础。

（3）复杂的权属性。在大数据时代，除了数据拥有者，还有数据主体、数据提供者和数据消费者等角色，不同角色拥有数据的不同权益，如数据主体对数据拥有访问权、更正权和遗忘权等。

2.数据安全特点

由于数据具有增值性、流动性和复杂的权属性等特性，在数据安全保护方面具有以下特点：

（1）严格的合规要求。国内外新增了一系列数据安全保护法律法规和标准规范，针对数据安全保护提出严格要求。如欧盟的《通用数据保护条例》，我国的《网络安全法》《数据安全法（草案）》和《信息安全技术个人信息安全规范》（GB/T 35273-2017）等。同时，保护范围覆盖全面，涵盖数据采集、存储、使用、发布、共享、离境等全生命周期和用户权利保护等内容。

（2）开放的应用环境。作为生产要素的数据，为了实现增值目标，需要通过API接口与第三方系统交换共享数据，增加了数据暴露面，相对处于更加开放的环境。

（3）复杂的应用场景。数据在参与生产过程中，存在数据在组织内部进行汇聚融合、向监管单位提供数据、与第三方交换共享数据、数据服务外包、数据跨境传输等应用场景，不同的应用场景可能带来新的安全风险，增加了数据安全保护的难度。

（4）多维的关联分析。不同来源、不同类别的数据汇聚融合后，可以从多个维度对数据进行关联分析，产生新的、更有价值的数据。这些新产生的数据在带来新的价值的同时，也可能产生未知安全风险，如泄露个人隐私、组织秘密和国家机密等。

二、数据安全保护面临的问题

根据数据安全具有的特点，从认知观念、标准规范和生产过程等方面对数据安全保护面临的问题进行分析。

1.对数据安全的认知观念存在误区

目前，对数据安全的认知存在误区，主要体现在以下几个方面：（1）数据安全保护理念落后。认为传统的信息安全保障思路仍然能够解决目前数据安全遇到的问题，忽视了数据是新型生产要素，没有把握住数据动态流动等特点，缺乏以数据为中心的安全保护理念。（2）窄化数据安全保护目标。认为数据安全保护就是保障数据机密性、完整性和可用性，忽视了数据具有权属性，保护数据相关角色的权益也是数据安全保护的目标之一。（3）简化数据安全保护手段。认为数据安全保护就是区域边界防护，只需在区域边界采取身份鉴别、访问控制、安全审计等技术手段，忽视了数据具有流动性，在流动过程中更需要通过数据脱敏、数据溯源分析、数据安全持续风险监测等技术手段。

2.数据安全相关的标准规范不健全

由于数据安全事件频发，为了控制数据安全风险，保护个人的合法权益，维护国家安全，我国十分重视数据安全立法工作。在《网络安全法》中提出了“国家鼓励开发网络数据安全保护和利用技术”“防止网络数据泄露或被窃取、篡改”等要求；在《数据安全法（草案）》中提出了“国家对数据实行分级分类保护”“开展数据活动必须履行数据安全保护义务，承担社会责任”等，具体包括建立健全数据安全治理体系，建立数据安全风险评估、数据安全应急处置机制，建立数据安全审查等数据安全管理制度，实现数据自由安全流动。在《全球数据安全倡议》中呼吁各国秉持发展和安全并重的原则，平衡处理技术进步、经济发展与保护国家安全和社会公共利益的关系。但是，目前缺乏与《数据安全法（草案）》《全球数据安全倡议》等配套的实施细则与标准规范，数据安全保护工作难以达到预期效果。

3.数据参与生产过程带来安全风险

由于数据具有流动性等特性，数据安全具有严格的合规要求、开放的应用环境和复杂的应用场景等特点，数据在存储访问、分析挖掘、开放共享、交易流通和数据产品使用等生产过程中存在一定的安全风险。

（1）存储访问过程安全风险

由于数据具有海量规模，存储数据的平台以分布式大数据系统为主。当前，建设大数据系统主要采用基于开源产品搭建、开源产品二次封装、采购国外产品等方式。以上三种模式的核心还是离不开开源产品和国外产品，关键技术不能安全可控，数据在存储和访问过程中面临数据泄露风险。根据国家漏洞库（CNNVD）统计数据显示，截至今年9月底，Hadoop存在权限控制、输入验证、目录遍历、信息泄露等27个漏洞，Spark存在权限控制、跨站脚本等45个漏洞，MongoDB存在访问控制等26个漏洞。因安全漏洞导致大量数据丢失和数据泄露，如2019年5月，MongoDB因安全漏洞导致超过1.2万个数据库被攻击者删除。2020年9月，微软的Elasticsearch数据库因存在身份认证缺陷，数据库直接暴露在互联网上，导致1亿多条数据泄露。

（2）分析挖掘过程安全风险

在分析挖掘过程中存在以下安全问题：1）泄露用户隐私信息。通过知识挖掘、机器学习、人工智能等技术，将过去分离的信息进行关联、碰撞和整合，可以重新刻画用户的兴趣爱好、政治倾向和人格特征等，使原始数据中被隐藏的信息再次显现出来，甚至分析挖掘后得到的信息远远大于原始数据所拥有的信息；2）人工智能技术带来数据安全问题。因人工智能学习框架和组件存在安全漏洞，导致训练数据存在窃取和泄露风险。某安全团队在一个月的时间里发现了数十个深度学习框架及其依赖库存在内存访问越界、空指针引用、整数溢出、除零异常等漏洞，使深度学习应用存在数据泄露、数据污染等安全风险。3）数据滥用。数据分析人员在开展业务的过程中，没有严格按照业务目标和业务要求进行数据分析和挖掘，基于授权的数据进行违规操作，开展与业务目标不相关的分析挖掘，导致用户隐私泄露。如某电子商务网站要求基于用户的购买历史数据和查看商品记录预测用户感兴趣的商品，业务目标是对用户可能购买的商品进行自动推荐。但是，数据分析员可以基于这些数据对用户的职业、兴趣爱好等进行分析，导致用户隐私泄漏。4）侵犯数据主体权益。按照《数据安全法（草案）》等要求，需要采取特定技术手段对数据主体提供访问权、控制权、更正权等权益保护，使数据主体能够及时了解、掌握自身数据参与数据分析挖掘的业务过程和参与程度。如数据在做某种用途的分析时，数据主体提出异议，需要能立即把相关数据从分析作业中删除。但是，目前并没有相应的生产流程和技术系统能够满足数据主体权益保护要求。5）产生不可预知的安全风险。大数据分析是一把双刃剑，分析结果除了能够实现正常的业务目标外，还可能产生其他难以预料的结果。如2016年剑桥分析事件，通过调查问卷收集美国选民所关注的问题，对这些数据进行分析后居然能够得知每个选民的政治倾向，然后投放有针对性的广告来引导他们的投票结果，最终达到干扰政治选举的目的。

（3）开放共享过程安全风险

首先，由于海量数据治理困难，以及对分析过程中新产生的数据很难及时制定开放共享策略，使开放共享过程中存在不合规的开放和共享，导致数据泄漏。其次，在共享过程中，数据已经脱离所有者的控制，数据追踪溯源技术并不成熟，无法跟踪数据的最终去向和使用情况，使数据处于失控状态。再次，由于数据脱敏技术不成熟，脱敏后的数据会改变数据间原有的关系，降低数据价值。部分组织为了实现数据价值最大化，在未脱敏或脱敏不够的情况下共享数据，导致数据面临泄露的安全风险。最后，由于数据融合技术的发展，不同来源、不同维度的数据经过汇聚融合后，很可能把脱敏前的原始数据还原出来。

（4）交易流通过程安全风险

交易流通是数据价值体现的基本途径，更是盘活数据、用好数据的关键环节。目前，典型的数据交易模式是代理商模式，由数据提供者、数据代理商（中介）和数据消费者等三个角色组成。数据提供者拥有数据资源，把数据卖给数据代理商。数据代理商既可以把交易的原始数据卖给数据消费者，又可以把基于原始数据进行挖掘分析得到价值更高的分析结果数据卖给数据消费者。在数据交易流通过程中，一方面，数据提供者主要通过爬虫等技术采集数据，可能侵犯用户个人隐私。2019年9月，魔蝎科技和同盾科技等多家第三方大数据公司因非法采集和向金融机构提供用户数据，侵犯用户个人隐私而被公安机关调查。另一方面，数据已经脱离数据拥有者的掌控，数据代理商取代数据拥有者，成为数据的掌控者。因此，数据代理商等第三方的数据安全防护能力和安全管理力度决定数据的安全性。根据美国银行信用卡发行商TCM Bank公开消息，由于第三方供应商管理的网站存在配置错误问题，导致信用卡申请人数据在2017年3月至2018年7月期间暴露在互联网上长达16个月。

（5）数据产品使用过程安全风险

目前，随着信息系统整合共享等一系列举措的实施和推进，海量数据资源进一步共享和汇聚，为数据产品的开发打好了坚实的基础，数据的下一站即是数据应用——数据产品。但是，数据产品可能给个人、组织和国家带来安全风险。一方面，由于数据产品是基于用户个人信息或者其它社会数据等开发出来的，目前既缺乏相关法律法规和标准规范对数据产品的开发进行指导和约束，又缺乏数据产品相关的检测评估机构和检测技术手段，在数据产品上市交易前没办法对其可能带来的安全风险进行评估。另一方面，由于数据产品作为商品在交易过程中存在再次转手交易的情况，以及数据产品具有易复制、修改等特点，使数据产品在使用、流通过程中面临被非法复制、非法传播、非法篡改和知识产权窃取等安全风险。

三、建议

针对数据安全保护存在的问题，需要结合数据安全特点，提高对数据安全的理解认识，完善数据安全标准规范，建设以数据为中心的安全保障体系。

1.正确理解认识数据安全保护

一方面，需要把握数据的本质特征。数据不仅是资产，更是一种生产要素，通过对数据进行分析挖掘，能够产生新的数据，得到新的数据产品。通过共享和交易，数据在碰撞、关联和比对等过程中能够最大化数据的价值。而数据在分析挖掘、共享交易等动态流转过程中，更容易面临隐私泄漏、数据窃取、数据误用和滥用等安全风险。另一方面，需要转变数据安全保护理念。数据使用场景多而复杂，应用环境开放，传统的安全防护措施难以适应新的应用场景。需要结合数据安全具有的新特点，以数据为核心，以生产过程中用户对数据的操作、访问行为和被访问的数据为分析对象，建立风险控制模型，对数据的流向、数据访问频次和数据体量等持续进行安全风险监测，实现数据安全、自由流动。

2.加快完善数据安全标准规范

一方面，在全球层面需要统筹制定全球数据安全标准规范。依据《全球数据安全倡议》提出的原则和内容，联合世界其他国家签订双边或多边承诺协议，在普遍参与的基础上达成国际共识，制定相关标准规范。另一方面，在国家层面需要制定与数据安全法等配套的标准规范与实施细则。需要以《数据安全法（草案）》为指导，统筹考虑现有数据安全标准，查漏补缺。组织数据提供者、数据代理商（中介）和数据消费者等数据参与单位，规划涵盖数据生产全生命周期的安全标准体系，加快研制数据安全风险评估、数据安全审计和数据安全应急响应等重点标准，支撑《数据安全法（草案）》的落地与实施。

3.建设以数据为中心的安全保障体系

针对数据安全面临的问题，需要构建以数据为中心的动态安全防控体系，通过数据治理、安全防护措施、风险识别和审计溯源等手段重点识别和控制数据访问、应用和流转等动态过程中的安全风险。第一、数据治理。通过大数据治理实现数据分类分级、数据溯源，能够从全域的角度“看得见、看得清”所有的数据，包括数据存储、使用流转情况和对应的数据安全策略。掌握数据流动情况，包括表与表之间的流动、系统之间的流动、部门之间的流动、单位之间的流动等等；第二、部署安全防护措施。在大数据基础设施、数据挖掘分析和共享交易等方面采取安全防护措施，保障数据安全；第三、主动识别和控制风险。通过收集基础设施、用户操作、数据流转等方面的日志数据，重点识别用户对数据的异常操作风险和数据的异常流动风险；第四、安全审计与溯源分析。通过细粒度的数据行为审计与溯源能力建设，形成事后可审计、可溯源、可追责的威慑体系。

（本文刊登于《中国信息安全》杂志2020年第11期）

声明：本文来自中国信息安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

从生产要素角度看数据安全保护存在的问题

国家数据局印发《可信数据空间发展行动计划 (2024—2028年)》

欧盟开放数据发展对我国公共数据资源开发利用的启示

美国NSA全球信息元数据检索系统Marina介绍