近日,全国信息安全标准化技术委员会归口的国家标准《信息安全技术 网络数据分类分级要求》征求意见稿发布,给出了数据分类分级基本原则、数据分类方法、数据分级框架和数据定级方法等。适用于行业领域主管(监管)部门参考制定本行业本领域的数据分类分级标准规范,也适用于各地方、各部门开展本地区、本部门的数据分类分级工作,同时还可为数据处理者进行数据分类分级提供参考。
01 数据分类框架
标准中提到,数据按照先行业领域分类、再业务属性分类的思路进行分类。按照业务所属行业领域,将数据分为工业数据、电信数据、金融数据、能源数据、交通运输数据、自然资源数据、卫生健康数据、教育数据、科学数据等行业领域数据。
各行业各领域主管(监管)部门根据本行业本领域业务属性,对行业领域数据进行细化分类。常见业务属性包括但不限于:业务领域、责任部门、描述对象、上下游环节、数据主体、数据用途、 数据处理、数据来源。
同时,如涉及法律法规有专门管理要求的数据类别(如个人信息),应按照有关规定或标准对个人信息、敏感个人信息进行识别和分类。
02 数据分级框架
标准中提到,数据按照先行业领域分类、再业务属性分类的思路进行分类。按照业务所属行业领域,将数据分为工业数据、电信数据、金融数据、能源数据、交通运输数据、自然资源数据、卫生健康数据、教育数据、科学数据等行业领域数据。
各行业各领域主管(监管)部门根据本行业本领域业务属性,对行业领域数据进行细化分类。常见业务属性包括但不限于:业务领域、责任部门、描述对象、上下游环节、数据主体、数据用途、 数据处理、数据来源。
同时,如涉及法律法规有专门管理要求的数据类别(如个人信息),应按照有关规定或标准对个人信息、敏感个人信息进行识别和分类。
根据数据在经济社会发展中的重要程度,以及一旦遭到泄露、篡改、破坏或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,将数据从高到低分为核心、重要、一般三个级别。各行业各领域应在遵循数据分级框架的基础上,明确本行业本领域数据分级规则,并对行业领域数据进行定级。
●核心数据一旦被泄露、篡改、破坏或者非法获取、非法利用、非法共享,可能直接危害政治安全、国家安全重点领域、国民经济命脉、重要民生、重大公共利益。
●重要数据一旦被泄露、篡改、破坏或者非法获取、非法利用、非法共享,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全。
●一般数据一旦被泄露、篡改、破坏或者非法获取、非法利用、非法共享,仅影响小范围的组织或公民个体合法权益。
影响数据分级的要素,包括数据领域、群体、区域、精度、规模、深度、覆盖度、重要性、安全风险等,其中领域、群体、区域、重要性、安全风险通常属于定性要素,精度、规模、覆盖度属于定量要素,深度通常作为衍生数据的分级要素。
03 数据分类分级实施流程
数据分类分级可参考下图所示流程实施。
主要步骤包括:
数据资产梳理:对数据资产进行全面梳理,包括以物理或电子形式记录的数据库表、数据项、数据文件等结构化和非结构化数据资产,明确数据资产基本信息和相关方,形成数据资产清单。
数据分类:按照数据分类分级有关要求,建立自身的数据分类规则,对数据进行分类,同时对个人信息、敏感个人信息进行识别和分类。
数据分级:按照数据分类分级有关要求,建立自身的数据分级规则,并对数据进行分级。由于一般数据涵盖范围较广,数据处理者可结合组织自身需求,对一般数据进行细化分级。
审核上报目录:对数据分类分级结果进行审核和完善,最后批准发布实施,对数据进行分类分级标识,形成数据分类分级清单和重要数据、核心数据目录,按有关程序报送重要数据和核心数据目录等。
动态更新管理:根据数据重要程度和可能造成的危害程度变化,对数据分类分级规则、重要数据和核心数据目录、数据分类分级清单和标识等进行动态更新管理。
04 数据分类分级的技术落地
如前所述,数据分类分级其实是将杂乱无序的数据梳理归纳形成直观可视的数据台账的过程,标准明确了方式方法与流程,在实施上如果仅依靠人工手动进行分类分级,实则不具备可行性。企业在落地的过程中,需要选取或自研自动化的数据分类分级智能分析平台或工具,通过对组织内全类型、多源头数据资产进行探测分析,来帮助建立组织内敏感数据资产的全景视图。
基于标准的要求规范和数据分类分级工作的实施难点,数安行依据长期的市场实践经验分析相关数据分类分级工具需要关注以下功能和特点:
全类型全格式数据识别模型
数据识别模型是实现高质量数据分类分级工作的保障,覆盖的业务数据类型必须齐全,支持的数据识别格式要尽可能丰富,分类分级的粒度要足够细致,包括结构化、非结构化信息中的敏感数据识别,包括商业数据、政务数据及个人隐私数据。这考验的是对各行业业务的深度理解和专家经验的沉淀。好用、易用的数据识别模型应该是全面且开箱即用的,企业可以快速定义符合自己数据业务场景的敏感数据合规及防护策略。
运用小数据机器学习识别标注特有业务数据
除了通用数据,企业数据分类分级工作的难点之一在于对自身特有的业务数据进行梳理,可能缺乏既有的数据识别模型。许多运用人工智能技术的智能分析工具要求企业提供大量的数据样本进行自学习,但这在操作上对用户要求过高,针对特殊数据只有极少数情况下有足够的数据量。因此,支持基于少量数据样本的小数据机器学习技术具有更实际的可落地性,不需要投喂大量样本,即可动态生成敏感数据智能识别模型,并对样本进行管理及持续样本规则学习,实现特有业务数据的精细分类标注。
动态数据内容深度解析和流转跟踪
企业数据资产在组织内并非一直保持静态存储状态,在整个采集、交换、使用、销毁等的过程中,我们需要对多形态、多副本的数据内容进行深度解析和流转跟踪标注,以完整支持动态的数据分类分级。一是对于增量数据的持续性分类分级,需要持续梳理新产生变化的部分。二是即使对于同样一份数据,在其流转过程中,也会经历其复杂的生命周期,在加密压缩、格式转化、隐写变形等操作下,从静态的视角将无法识别其中内容,导致数据流转的失控并引发风险威胁。因此需要对各种格式压缩包进行多层嵌套识别,支持加密文件识别,支持不同编码格式,支持基于文件指纹、文件DNA等文件生物特征检测,支持隐写数据、加密数据等包含敏感信息的不可解析数据识别标注,以保证敏感数据全链路智能聚合及溯源。
数据分类分级是合规刚需,随着日后国标正式出台实施,各行业领域主管部门将参考制定本行业本领域的数据分类分级标准规范。同时需要明确,开展数据分类分级保护工作时,首先需要对数据进行分类和分级,然后对不同类别不同级别的数据建立相应的全流程数据安全保护措施。因此,数据分类分级很难成为独立的项目,更多是作为数据风险检测、数据安全保护的一个环节、模块,在数据安全策略和一体化建设上发挥效能,企业需要正确认识其综合价值和必要性,适时建立自动化、智能化能力或选择相关方案来支撑数据分类分级工作,在保护个人隐私和确保数据安全的前提下分步有序推动数据流通应用。
(本文作者:北京数安行科技有限公司 郭灵)
声明:本文来自CCIA数据安全工作委员会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。