作者:高级测评师 builder

伴随着汹涌而来信息世界大潮,每个人生活的环境都发生了翻天覆地的变化,购物、餐饮、工作、出行……各类互联网企业、政府单位、金融机构、医疗机构等的信息系统中都存储了大量公民及法人的隐私数据,数据安全问题正日益成为所有信息系统管理人员都必须面对的问题。要保证系统中敏感数据的安全性,IT管理人员首先必须搞清楚的问题就是:系统中都有哪些数据?这些数据都存在何处?

何为数据分类

数据分类指的是:对结构化或非结构化数据进行分析,并根据文件类型和内容将其组织成类别的过程。

数据分类是一个搜索数据文件以定位特定数据内容的过程,在多种场景中均有所应用,例如,要找到网站上所有使用“数据安全”几个字的页面,或是为了使信息系统满足个人隐私数据保护方面的政策法规所需的——在海量数据存储中找到所有个人身份信息。

数据分类通常会通过文件解析器与字符分析系统来实现。首先,通过文件解析器中的数据分类引擎来读取其所支持的各类文件中的内容数据;然后,利用字符分析系统将文件内容数据与待搜索字符串进行匹配。

正则表达式是一种常见的字符分析方式,利用它能够对搜索模式的细节进行定义。例如,如果想在一个医院的病人管理信息系统中找到所有身份证号,正则表达式可写为:

/(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)/

这个正则表达式表达的字符串模式为:字符串长度为15或18位,15位时全为数字,18位时前17位为数字,最后一位是校验位,校验位可能为数字或字符“X”。只有符合正则表达式的字符串才会匹配出为真的结果。

另外,在数据处理领域还有一个与数据分类有一定关联的概念——数据索引,此概念与数据分类的差异在于:虽然两个概念都涉及到数据的分析处理,但是,数据分类是根据匹配模式来查找数据,返回值一般为文件列表以及为每个匹配模式找到的匹配项数,在实际操作过程中并不一定会对文件进行数据索引。

实施数据分类的目的及效果

近两年,从CNCERT、CNVD等机构的大量权威网络安全报告中,都能发现对数据分类重要性的阐述,例如,“在几个影响极大的高危信息安全事件中,由于敏感数据与次要数据并未实现数据分类和存储分离,攻击者均能够通过访问存储次要数据的服务器获取到敏感数据”。而数据分类是对敏感数据与次要数据实施分别处理的基础。

另外,除了数据安全问题之外,通过实施数据分类,还可以达到以下几个效果:

  • 识别个人隐私、商业机密、关键信息基础设施信息等敏感信息及文件;

  • 对敏感信息实施保护与控制;

  • 对敏感信息实施监管,以符合《网络安全法》、等级保护技术要求等政策法规的要求;

  • 在数据分类的同时实施数据索引,有效优化信息系统的搜索功能;

  • 识别重复或陈旧数据以优化信息系统存储空间;

  • 有效发现信息系统数据中存在的统计模式或趋势。

数据分类的实施步骤

根据不同的数据分类目标,数据分类的过程也略有不同,但是,所有数据分类工作都需要高效的自动化处理手段来应对信息系统中每天产生的大量数据。通常,数据分类的实施一般包括以下几个步骤:

  1. 定义数据分类过程的目标。需要找什么?为什么找?

  2. 根据选定的分类工具创建工作流程。分类过程如何具体落地?是否需要设计扫描新数据的流程?是否需要设计创建新分类模式的流程?

  3. 定义类别和分类标准。应该搜索的数据类别有哪些?数据分类结果的验证需要遵循什么流程?

  4. 数据分类结果的形式定义与分类结果的用法设计。如何组织和利用数据分类结果?例如,如何根据分类结果辅助业务决策等。

数据分类技巧

在数据分类工作的具体落地环节,还有一些技巧可供借鉴,包括:

  • 尽可能利用自动化工具,能够有效提高数据处理的速度;

  • 利用正则表达式或成熟的校验算法能够有效降低创建自定义分类模式的技术难度;

  • 为了避免数据分类错误,一定要对分类结果进行验证;

  • 有必要投入时间研究如何有效地利用数据分类的结果,包括从数据安全到智能数据分析的各个方面。

声明:本文来自鼎信信息安全测评,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。