研究背景

党的十八大以来,以习近平同志为核心的党中央围绕实施网络强国战略、大数据战略等作出一系列重大部署,不断推进数字政府建设。近年来,随着大数据、云计算、人工智能等新一代数字技术融入数字政府建设,我国数字政府建设稳步推进,数字政府服务效能显著提升。数字政府作为数字中国、数字经济的重要基础,已成为提升国家治理能力现代化的重要战略举措和推进服务型政府建设的有力抓手。当前,“一网通办”“跨省通办”、政务“秒批”“秒办”、身份证“网证”、“城市大脑”等试点示范措施,有力促进了政府和社会治理的高效化、精准化和智能化。

但不容忽视的是,数字政府系统作为超级数据平台,面临巨大的安全威胁和风险,海量的数据具有覆盖范围广泛、关联关系复杂、涉及大量个人隐私数据和国家重要数据等特点,这使得数据集中统一管理后的数据安全问题更加突出,对数据安全保障工作提出了新的挑战。

数据安全是以数据为中心的安全,在流动过程中保护数据的使用安全。建设数据安全的前提是清楚数据的分布、使用情况和安全风险。然后才能从风险应对角度出发实施恰当的保护,根据数据敏感级别不同,配置差异化的保护策略,对数据实施保护。数据资产识别和分类分级是数据使用管理和安全防护的基础,为数据尤其是重要数据制定分类分级制度并依规管理,是实现数据安全目标的重要工作。

数据分类分级的难点研究

1.数据分类面临的痛点问题

1)如何选择分类维度的问题

对于政务数据进行分类可以有很多维度,包括基于数据形式的、数据内容的等等。基于数据形式可以按照数据的存储方式、数据更新频率、数据所处地理位置、数据量等进行分类;数据内容可以根据数据所涉及的主体、业务维度等多个维度进行分类。

不同维度各有价值,如何选择一个维度对数据进行分类需要考虑数据分类的目的,但是很多时候大家都希望通过一个分类维度实现多个目标,或者将两个分类维度混合进行分类。分类维度的不清晰会导致后续基于分类的很多操作都存在问题。

图1数据识别

2)单一分类维度下的类别划分问题

例如,基于内容进行分类的维度,面临数据可能分类不全、类别不清晰的问题。主要原因是大范围内的内容分类是一个很复杂的问题,甚至可能涉及知识分类的问题,这在目前还是一个较为难以解决的问题。类别划分有问题会导致存在有些数据无法分到一个分类下,而有些数据又同属于两个分类。

2.数据分级面临的痛点问题

1)定性到定量的问题

针对信息资源的分级,需要根据信息内容确定,目前没有科学的方法和范式支撑构建信息内容的数学模型,因此很难准确定量地进行数据内容描述。

举个例子,我国目前已有一些针对政务信息资源的安全级别描述,如下表。其中,按损害影响程度进行数据定级,但影响程度没有定量的描述,所谓针对公民的损害,是造成财产损失还是身体伤害,是造成10万的财产损失?还是100万的财产损失?这样的描述难以在实际操作过程中给定级的人员准确的依据去判断政务信息资源属于哪一个级别。

表格 1数据分级描述

标准名称

评估对象

级别

损害

损害影响对象

损害影响程度

等级保护

信息系统、信息

1级到5级

破坏

公民、法人和其他组织、国家安全、社会秩序和公共利益

损害、严重损害、特别严重损害

保密法

国家秘密

秘密、机密、绝密

泄露

国家安全和利益

损害、严重损害、特别严重损害

2)分级的级数问题

在政府部门进行政务信息资源分级时,需要找到一个合适的级数,使得在使用过程中达到效率和安全管控的平衡。过多的分级会给实际使用带来困难,太少的分级又会使得管控难以准确地约束数据。

目前针对不涉密的政务信息资源主要分为非密和内部两级,但是在实际使用过程中,非密和内部并不能满足对于数据处理的需求。并不是所有非密的数据都适合让公众知晓,也并不是所有内部数据都只能政府部门使用,因此将不涉密的的政务信息资源只简单的分为两级是不合适的。

图 2数据分类分级

3) 分级的粒度问题

在进行分级的时候,分级的粒度是影响分级效果的主要因素之一。以什么样的力度进行分级才可以既达到分级防护的目的,同时不影响正常的业务,是一个还有待进一步研究明确的问题。

政府部门的信息资源涉及各行各业,数据存储的格式众多,有文件、表、行列、字段等不同的数据粒度。不同行业中影响信息资源级别的属性要素也不一,例如地理信息资源地图的比例尺和所包含的地图元素是影响信息资源的级别的关键因素。

4)分级的有效落实问题

有些地方政府专门成立了大数据管理部门,来规范政府部门对信息资源的共享使用,也出台了相关的数据共享条例、数据安全保障条例等,但是还缺乏完整的流程和环节来完成从数据梳理、数据分类分级到数据存储保护、数据共享使用。

现有的数据使用模式,是以部门为单位,各自负责自己所拥有的数据,因此相应的规章制度更多注重部门内部,缺乏跨部门的数据使用规范。目前相对成熟的跨部门的具体数据规范主要是公安部门的人口库信息,但是其他部门相对较弱。

5)数据的升降级方法问题

政务信息资源是动态变化的,因此数据会发生合并、摘抄等简单操作,也会进行分析融合等复杂操作。这些操作会对已经进行了分级的政务信息资源的级别产生变化。而由于政务信息资源众多,不同部门对信息资源的使用方式、需求力度都不统一,信息资源的级别发生变化时,人工重新判定的标准难以统一,也无法完全以自动化的方式进行。

数据分类分级的对策思考

1.数据分类

数据分类的目的是要便于数据的管理、利用。基本原则是:分类要合理,即在一个明确的业务目标下,确定逻辑清晰的分类维度,并确保数据有且只有一个分类类别。

可以从三个维度进行分类,其一为数据管理维度,其二为数据应用维度,其三为数据所涉及的对象维度。第一类主要根据数据的一些客观属性进行分类,便于数据管理机构对数据进行管理,便于数据管理系统的规划。第二类主要根据数据内容的固有属性进行分类,便于数据理解和应用。第三类主要也是对数据内容的理解的维度,不过更偏向于支撑便于数据权属分析和数据安全管理。

2.数据分级

整体来看,建议在数据分类的基础上,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用时,对国家安全、公共利益或者公民、组织合法权益造成的危害程度,并结合自身组织情况,将数据分为四-五个安全保护级别。

具体来看,针对数据分级五个方面的挑战,各有一些方法和建议。

1)针对定性到定量的问题,需要按照行业需求,结合科学的方法,进行数据信息模型的研究。在实际工作中,可先行结合业务经验进行总结和实践尝试。

2)针对数据分级级数如何确定的问题,根据Gartner报告表明,合理的数据分级最好在3-5级之间,太多会造成大量的管理负担,不利于正常的实施。在政务信息共享领域,可参考2017年发改委发布的《政务信息资源目录编制指南》文件中的数据分级的描述(见下表),并结合本部门业务实际情况进行研究,确定适合的分级级数。

表格 2《政务信息资源目录编制指南》中数据分级描述

《政务信息资源目录编制指南》

无条件公开给大众知悉的政务信息资源

大众可以根据申请得到的信息资源

在政府的网站上或政府相关的公开系统中企业或个人符合一定条件就能查询的信息资源

政府部门之间协作需要无条件共享的信息资源

3)针对分级粒度的问题,并无标准化的粒度划分方法,实际工作中可从三个方面进行评估确定。

首先,需要考虑数据会用来干什么,例如查询统计、建模分析、数据密布型人工智能算法。进行查询统计的数据可以针对查询项和统计项进行细粒度的定级,其他项可以适当增大分级粒度。

图 3数据资产分布统计

其次,要考虑数据的处理方式,例如原始数据未改变、融合产生新数据、剪裁产生新数据、更新等。若原始数据未改变,信息资源分级的粒度可以适量大一些;若要融合产生新数据,分级粒度应当更细一些,避免数据融合分析过程中,暴露原本想隐藏的信息,导致原级别定义不准确。

第三,参考数据在信息系统中的存储和处理方式进行定级粒度划分。结构化和半结构化的信息资源在定级的时候,可以根据用途按照行列或者表级的粒度来定级。非结构化的信息资源定级的粒度建议以单个文件的粒度进行。

4)针对数据分级如何落实的问题,以政务信息共享为例,需要建立更为完善的数据分级流程,理清数据分级在政务信息共享工作中的位置。同时建立分级人员的培训制度、分级的责任制度等,使得对政务信息资源分级能够切实的实施。

5)针对数据的升降级方法问题,需要制定一系列数据分级的升降级原则,明确在什么情况下数据会发生生升降级变化,通过判断哪些要素进行升降级处理,并制定有效的自动化升降级信息资源预处理机制。

图 4数据分级升降级

数据分类分级的实践思路

基于上述的分析,卫士通从牵头、参与了数据安全领域的多个国家及地方标准编制的经验出发,包括《政务信息资源安全分级指南》、《大数据安全管理指南》、《大数据服务安全能力》、《雄安新区数据资源目录定级指南》、《雄安集团数据使用暂行办法》等,并基于项目中积累的数据分类分级管理体系、技术解决方案经验,提出以下实践思路,供参考。

简单来说,要实现长期数据分类分级管理的目标,需尽可能引入“自动化技术”,并将分类分级的专家经验和方法固化为规则模型和识别引擎,避免采用全人工进行数据分类分级时存在的因人员经验背景知识不足导致的不确定性问题,同时进一步降低了人力成本。

同时,在具体实施过程中,根据不同场景,可与数据资产管理系统、传统数据库、大数据库等进行对接,根据不同行业选择不同的识别引擎,通过识别关键要素并结合分类分级的规则进行自动化分类分级。

图 5数据分类分级自动化机制示意图

政务数据分类分级应用实践

根据政务数据分类分级要求,对于数据资产管理系统中的新增数据、变更数据的数据库资产以及数据库账户、权限情况进行梳理清查,同时针对重要数据库(数据资源池)进行敏感数据分布梳理、敏感数据访问操作汇总,通过对数据资产的摸底,形成数据资产清单,全局掌握数据资产情况,清晰了解重要数据库的访问情况及风险情况。结合政务数据分类分级指南,进行数据分类分级的达标或变更,持续跟踪数据分类分级的情况,依据数据分类分级结果动态调整安全监测和防护策略。

以某大数据局人口数据分类分级为例:

总体思路:结合《公共数据分类分级指南》、《人口综合库数据规范》、《信息安全技术 个人信息安全规范》等规范,对某市大数据局人口综合库进行梳理和分类分级。该大数据局数据分类分级实施过程从规划到落地,包括准备工作、数据资产盘点与分类分级咨询、实施落地,以“服务+产品”的方式配合完成。

分类分级标准梳理:结合《公共数据分类分级指南》、《人口综合库数据规范》、《信息安全技术 个人信息安全规范》等规范,对市大数据局的人口库进行梳理,形成《市大数据局数据分类分级参考规范》,并将标准内置到分类分级工具中。

资产发现:通过暗数据发现产品提前配置人口库分类分级及发现模版,自动进行数据源扫描、识别,发现数据库的数量、IP、端口、类型等信息;自动完成数据格式、内容识别,数据含义解析,自动输出分类分级结果。工作人员根据咨询结果形成的分类分级大纲确认和补充分类分级结果,补充发现规则。

数据分类分级:在业务类型识别的基础上完成对人口库数据的分类分级,通过工具进行标签管理,并生成可视化的分类分级报告,资产发现和分类分级的结果通过标准接口的方式,提供给安全产品和大数据局其他数据资源管理平台,完成对数据资产的安全访问和高效管理。

最终完成:对人口库形成11个二级分类、50个三级分类,5个敏感等级(极敏感、敏感、较敏感、低敏感、不敏感)。梳理人口综合库30多个schema,近1000张数据表,25000个左右的字段。敏感数据发现超40%的数据表中都有敏感字段。可按照不同分级对敏感数据和敏感表格进行安全管控。

(本文作者:卫士通信息产业股份有限公司张远云)

声明:本文来自CCIA数据安全工作委员会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。