作者 | Marc-Antoine Meunier & Brian Reed

翻译 | 绿萝

版权归属 | Gartner


(注:中文版PDF文档可在本号后台留言“非结构化数据分类”获取。)

每家单位内部的非结构化数据不断增加,重要数据的保护难度也越来越高。实施数据分类方案能够大大降低泄露风险,并从海量数据中发现新的价值。

主要发现

  • 数据分类策略仍然是每家单位安全项目中的重点内容,对整体数据的安全性和风险合规影响显著。

  • 数据分类是实现数据安全与合规的基础

  • 对于不同类型的数据,需要采取不同的分类方法。不恰当的工具可能会产生不必要的业务问题,带来安全风险,增加额外的实施与维护成本。

建议

合规与数据安全管理人员应:

  • 利用数据分类工具实现自动化,管理整个数据分类生命周期。这是数据分类项目取得成功的关键点。

  • 按照数据安全与合规的要求计划选择数据分类的技术投资。明确数据分类的目标——保护哪些数据?满足哪些合规性要求?

  • 根据需要保护的数据集选择合适的数据分类方法与相关技术。有效检测个人身份信息或受保护的健康信息对文档进行分类的方法不一定对知识产权进行分类有效,反之亦然。

分析

每个单位都有大量的非结构化数据。对于限制工作系统中数据的增长和流动的事物,人们往往会表现出抵触情绪。数据分类又是数据安全的基础步骤。这不仅是一个管理上的问题,也是一个技术难题。缺乏技术支撑有效实施数据分类几乎不可能。

当在处理个人身份信息以外的数据时,现有的技术难免会暴露出短板,因此我们需要寻找新的技术加以辅助。

1. 定义

数据分类是使用商定的分类术语表梳理信息资产的过程。

最常见的方案是绘制包含业务价值、所有人、访问权限、合规、发现、集成、风险、安全、隐私性等的数据地图,应用情境元数据促进数据的使用和治理,实现以人为中心的信息安全。

2. 数据分类方法

分类可以在文档生命周期的不同阶段进行,实现安全与合规。很多方式都能够处理“即用”数据和位于端点和数据库的大量数据。再加上准确性与业务需求等,静态数据、动态数据和使用中数据都可以被分类

数据分类可以分为用户驱动自动完成两种方式,这两种方式是互为补充的。例如,自动分类能够简化用户驱动型分类的过程,用户驱动型分类也可以用于纠正自动分类中可能存在的错误(见图1)。

图1 数据分类方法

(1)用户驱动型分类

对用户进行有关数据分类的培训,由用户主导对电子表格、报告、邮件等非结构化数据进行分类。该操作需要与相关文档应用协同开展,在操作系统、文件系统等层面完成。

由于应用程序的集成更多地取决于应用厂商内置的可扩展性或合作伙伴关系来修改和启用用户驱动型的分类工具,因此完全支持的文件格式往往仅限于Microsoft Office和PDF格式。但是,一些供应商已经突破了这些格式的局限——特别是在计算机辅助设计(CAD)应用领域。

用户驱动型分类工具通常通过自动化提高用户分类的效率,向用户建议分类并尽可能地减小工作量。这些工具一般还具备监控并执行数据分类策略的功能,例如:

  • 要求用户在文件保存之前先对文件进行分类,或在发送电子邮件之前对邮件进行分类;

  • 发现或阻止未经授权的分类更改行为。

(2)自动化分类

我们可以使用以下两种方法实现自动分类:

  • 内容感知分类方法——

该方法依赖于对非结构化数据内容的自动分析来确定分类,其中涉及了很多技术(正则表达式、完全匹配、部分或完整指纹识别、机器学习等),应用的数据类型或应用程序不同,各类技术的适用性也而有所不同。

  • 情境感知分类方法——

该方法依赖于数据分类工具中能够被编码的现成分类知识库,利用广泛的情境(上下文)属性,这种分类方法适用于静态数据(如基于存储路径或其它文件元数据)、使用中的数据(如由CAD应用程序创建的数据)和传输中的数据(如基于IP)。

3. 不同数据类型的适用性

对于不同的数据类型,应当采用相匹配的方法和技术(Suitability to Data Type)。例如,支付卡行业(PCI)数据、个人身份信息(PII)或公民医疗信息(PHI)的分类采用正则表达式和数据字典技术更为合理有效。但这两项技术不适用于处理IP地址数据或保密问题。

自动化的内容感知分类通常因其可扩展性和可重复性而受到大众欢迎。但是,这些技术的准确性(见下图)在应用于各种数据类型时往往存在差异。

图2 分类的False Positives与Negtives

图源:Gartner(2017年5月)

注:Positive分类匹配集;True Positives-判断为真的正确率;True Negative-判断为假的正确率;False Positive-误报率;False Negative-漏报率;Target Data Set-目标数据集

举例如下:

对于PCI、PII、PHI数据,正则表达式技术能够简便地检测到信用卡号、社保号等信息,但结果非常粗糙,产生误报。

添加数据字典技术用以检测名称、地址或医疗条件可以提高正则表达式的准确性,但也会增加此类分类规则的复杂性。

通过与应用程序数据库中的值完全匹配的方式也可以减少误报,但该技术的适用范围存在一定的局限性。

指纹识别技术对于检测某些特定文档可能有效,但部分指纹识别需要持续性的维护,因为新的敏感信息还在不断地产生。

机器学习技术对于难以用用户定义模式描述的文档非常有用,但所产生的模型可能是不透明的,而且还会产生在定义阈值时难以解释的相似指数。

理论上来说,用户驱动和情境感知这两种分类方式可以处理所有数据类型,但结果的准确性则取决于用户的知识背景、勤奋度以及分类关系的情境确定性。当内容感知技术不够准确时,其它方法则加以补充。

3. 优势与应用

以下各小节介绍了主要由数据分类驱动的关键数据安全性和合规性用例。

(1)标记:数据分类方案能够显示并管理电子文档中的可视标记,为用户提供分类提示。

示例:航空航天及国防企业系统自动显示文档分类标题和/或页脚,作为电子或纸质文档的水印,帮助用户自动遵守数据安全策略。

(2)敏感数据清单:数据分类方案能够找到包含合规问题或安全风险的文档。

示例:内部审计需要用到信息分类,找出包含个人身份信息(PII)的文件,确定存储位置及方式是否恰当,是否应重新存储或删除。

(3)防御自动化:数据分类是自动执行数据处理策略和确保合规性的基础。

示例:某厂商利用数据分类将拥有知识产权的高级设计文档标记为“机密”,并自动应用企业数字权限管理(EDRM)模板。

(4)访问控制:数据分类可用作实施访问策略的基础,确保文档仅由特定用户以及特定情境或环境中查看。

示例:财务部门通过数据分类来标记季度报表中涉及的文档和新闻稿,并部署访问控制策略,防止未经授权的员工在申请和解密之前访问这些文档。

(5)流量控制:通过数据分类,用户就可以根据特定情境,评估数据是否应从某环境流向另一个环境的,以及是否(如上所述)数据应该在流向特定目的地之前自动受到保护。

示例:某开发人员尝试以代码形式将IP复制到未经授权的USB设备,或将该代码上传到未经授权的云存储平台。端点上的数据丢失防护(DLP)代理识别了目标设备,并使用数据分类来确定是否应该阻止复制行为或在复制时对文件进行加密。

4. 采用率

数据分类技术的整体采用率仍处于“Innovation Trigger”阶段的尾端,即将进入Gartner“2016年数据安全生命周期”的Peak of Inflated Expectations阶段(见图3)。

图3  2016年数据安全生命周期

图源:Gartner(2017年5月)

对于合规性和数据安全用例,数据分类技术通常在DLP、EDRM、以文件为中心的审计和保护(FCAP)以及云访问安全代理(CASB)技术中使用。

5. 风险

(1)无论采用哪种方法和技术,数据分类方案都会出现误报,产生流程问题并需手动修复,而漏报则有可能导致依赖于数据分类的解决方案产生安全漏洞

(2)如果数据分类在理想的实施点上持续性、安全性和可用性差,那么依赖于数据分类的数据安全层可能也会失效。

(3)上述每种分类方法在实施中都有可能产生误报问题及额外风险:

  • 用户驱动的分类准确性取决于数据分类策略的清晰度、用户对培训内容的消化程度以及对业务流程的影响。可伸缩性也是一个问题,用户驱动的分类不是分类庞大数据存储库的最佳方法。此外,如果分类工作无法流畅地持续开展,反而可能会对整体业务流程带来负面影响。

  • 内容感知分类是在精确与灵敏两者之间抉择作出的折衷方案。像完整指纹这样具有高精确度和灵敏度的技术,适用性有限。像正则表达式和数据字典之类的技术适用性更广,但通常需要针对特定的目标环境进行调整,才能达到能够抵御风险的精度和灵敏度水平。在使用场景中过度依赖内容驱动的分类也可能导致用户可感知的性能问题。

  • 情境感知分类在其应用程序中通常非常准确,但可能受到作为规则一部分使用的情境准确性的影响。例如,如果数据被特定应用程序所创建的情境分类为机密,则该分类将只会与其背后的假设一样准确。其中持续性也非常重要,因为通过情境对数据进行自动重新分类并非永久可行。

(4)缺乏数据分类工具(见图4)的集成可能会输出结果不准确,影响数据分类生命周期并导致安全漏洞的产生。图4显示的是数据分类厂商安全层控制范围中最常见的数据分类流和集成。

图4 安全层之间的通用数据分类流与集成

图源:Gartner(2017年5月)

注:DAG-数据访问治理、DCAP-以数据为中心的审计与防护、IDLP-集成式数据丢失防护、UDC-数据驱动型分类

6. 建议

安全和风险管理领导者应该:

在选择数据分类工具之前,至少建立一个高级别的安全性或合规性操作策略,无论该策略是标记、用户驱动的合规性、访问、流程还是聚焦于使用控制措施,还是两者结合。

选择准确性高的数据分类方法,控制整体的合规与安全风险。在作采购决策前做好充分的评估工作,因为不同的数据类型适用不同的数据分类方法。

以负责任的心态使用厂商提供的数据分类模板合规及安全责任在于用户,而非供应商。供应商模板的设置前提倾向于误报,而非漏报,并且大多数都需要加以调整,从而满足实际需求。

确定关键信息流并将重新分类要求作为评估数据分类技术的一部分。数据分类和所有权在文档的整个生命周期中不一定是静态的。

7. 供应商行情分析

图5 大多数供应商支持的数据分类技术

图源:Gartner(2017年5月)

图6 每项技术的数据分类范围

图源:Gartner(2017年5月)

注:原文链接:https://www.gartner.com/doc/reprints?id=1-459SUII&ct=170705

声明:本文来自5iDG,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。