大数据时代,数据资产已成为企业的核心发展要素之一。一方面企业迫切希望能够将数据整合、分析和挖掘,以达到数据驱动业务、数据创新业务及实现业务转型的目标。另一方面,层出不穷的数据泄露事件制约着数据共享的进展。因此,急需一套数据共享管理体系,辅以数据共享技术管控措施,解决数据共享“不愿”“不敢”“不会”的三难问题。这种情形下,提出了一种基于数据标签的共享数据溯源方法,通过数据标签标记合法授权的数据共享信息流,结合数据共享规则特征库进行非法数据共享数据信息流的追踪溯源,并可对合法授权的数据共享信息流的违规操作进行追踪。

大数据时代,数据资产已成为企业的核心发展要素之一。数据共享是企业想要进一步发挥数据价值的必然选择,只有将数据整合、分析和挖掘,才能实现从量变到质变的飞跃。

然而,现实中数据往往分散在各个应用系统中,形成了“数据孤岛”。数据分散较为严重,分散的数据无法挖掘出数据的巨大价值。数据只有开放共享,才能谈如何利用数据促发展。

近年来,数据泄露事件频发。例如,2018年3月,Facebook被曝有超过5000万名用户资料遭“剑桥分析”公司非法用来发送政治广告。各部门担心数据共享开放会引起信息安全问题,担心数据泄密和失控,不敢把自己掌握的数据资源向他人共享开放,阻碍了数据共享的进行,也让企业网络信息安全管理工作压力倍增。

因此,迫切需要建立相应的数据共享安全管理体系,同时利用技术手段完善数据共享安全管控,以打破部门间、地区间的信息保护,做到真正的数据信息共享。

1、数据分级

数据资产管理是数据安全治理的基础。摸清数据资产家底首先需要制定数据分级规范,即确定数据级别与数据内容的对应关系。根据数据敏感级别分为关键级、重要级、较重要级和一般级。如原始信令码流包含较多用户个人隐私信息,数据级别定义为关键级。其次,根据数据规则定义通过数据文件扫描或数据流量采样等技术手段实现数据资产自发现和数据分级。最后,按照数据分级级别,落实不同安全防护级别的数据安全管控措施。

2、共享数据溯源关键技术

2.1 数据共享规则

数据共享就是让分散在各个应用系统中的数据进行各种操作、运算和分析。实现数据共享,可以减少数据采集等重复工作,打破系统间数据共享壁垒,从而把重心放在数据关联分析、数据价值挖掘及业务增值开发等领域。

现实情况是,由于担心数据泄露等安全事件发生,各系统产生的数据难以实现真正的数据共享。因此,要想发挥数据资产的价值,需要制定数据共享审批的审批规则。

数据共享审批内容应包含共享的数据类型、共享的数据级别、数据共享形式及传输方式,按照数据共享遵循“按需最小化共享”的原则,评审共享的数据范围、数据字段需求、数据共享的时间粒度及数据共享的时限范围等。依据评审结果,形成数据共享详细方案。

数据共享审批通过后,依据数据共享审批结果制定数据共享规则库,如表1所示。规则库包含源地址、目的地址、数据标签、数据内容、共享数据字段、创建时间、失效时间、数据级别、数据传输频次、数据传输协议类型及创建事由等。

表1 数据共享规则库

2.2 数据标签生成

针对数据共享过程中数据泄露之后无法追溯的痛点,通过数据标签标识合法授权数据共享信息流,依据数据共享规则库及时发现非法获取数据信息流。

数据标签通常是不可察的,它与数据共享数据块紧密结合并隐藏其中,成为源数据不可分离的一部分,并经过不破坏源数据使用价值的操作保存下来。数据标签需要加强保密性和可用性,确保溯源操作的100%可执行。

通过专用密钥对合法授权的数据共享规则加密,生成对应数据共享的独有数据标签,每一个数据标签对应一个合法授权的数据共享。为加强数据标签的保密性,每生成一个数据标签对应采用一个独有的密钥。生成数据标签后通过padding的方式,附着在数据共享数据块上。对于数据敏感级别高的,可以采用在数据块随机位置嵌入数据标签,以确保数据标签的保密性。数据标签生成过程,如图1所示。

图1 数据标签生成过程

2.3 数据标签在共享数据溯源中的应用

在网络环境下,在数据传输链路上部署探针实时采集数据信息流。对于合法授权的数据共享数据流,由于数据共享规则库记录了源、目的IP地址信息及数据标签,再结合数据标签嵌入位置信息,可以实时识别出合法授权的数据共享数据流。

而对于非法的数据共享数据流,即使其伪造数据标签,也无法做到与数据共享规则库及嵌入数据标签位置同时一致。在实际应用中,通过模板的方式为数据共享定制数据共享规则和嵌入数据标签方式。数据敏感级别高的数据共享,使用保密系数高的加密算法和随机位置嵌入数据标签。

在实际部署时,数据共享溯源监控范围可能无法覆盖所有数据传输链路及数据导出等应用场景。如仅获取到需要溯源的文件,由于无源、目的IP地址,无法直接与数据共享规则库直接匹配。

因而,采用比对密钥信息和嵌入数据标签位置信息,经过相似度匹配后,解密数据标签后可以实际获得数据泄密的源头。数据共享文件溯源过程,如图2所示。

图2 数据共享文件溯源过程

3、共享数据溯源方案

共享数据溯源系统核心系统为数据溯源管理系统和数据标签分发中心。数据标签分发中心依据数据共享审批结果,给合法授权的数据共享信息流分配数据标签。针对数据敏感级别高的系统,可采用强加密算法来加密生成数据标签,同时采用随机嵌入数据标签的方式。

数据敏感级别不高的系统,可采用普通加密算法来加密生成数据标签和固定位置嵌入数据标签的方式。数据标签及嵌入数据标签位置信息分发过程采用数字证书分发,以确保数据标签信息分发的安全性。

数据标签分发中心在分发给系统数据标签信息的同时,将数据标签信息同步发送给数据溯源管理系统。数据溯源管理系统通过部署在数据传输链路上的探针实时采集数据信息流,在剔除掉正常业务交互信息流(如信令交互等)的情况下,依据数据共享规则库和数据标签位置信息实时发现非法的数据共享。

对于仅获取到需要溯源文件的情况,由于无源、目的IP地址信息作为参考,无法直接与数据共享规则库直接匹配。

因此,此时采用比对密钥信息及嵌入数据标签位置信息,经过相似度匹配后解密数据标签,以达到追踪溯源的目的。共享数据溯源系统部署,如图3所示。

图3 共享数据溯源系统部署

如图4所示,采集到数据信息流后,通过源、目的地址可以唯一索引到数据标签的位置信息,进而获取到数据标签。之后将数据共享规则库中源地址、目的地址、数据标签与采集数据信息流中的对应信息进行匹配,如出现不匹配情况(正常情况下,应完全匹配),即可判定为非法数据共享,对相应的源系统和目的系统进行标识并发出告警。

当上述信息完全匹配,通过一段时间的连续采集,进一步判定数据内容、共享数据字段、传输频次及传输协议类型等信息是否与数据共享规则库一致,如出现不匹配情况,可判定为合法数据共享的违规操作,对相关情况予以记录,并通过日志记录违规操作行为。

数据共享管理部门可据此督促源系统整改相关的违规操作行为,对于非法数据共享应立即采取措施关闭数据共享,情节严重的可依据法律法规追究相关人员的责任。

图4 共享数据溯源流程

4、结语

本文提出了一种基于数据标签的共享数据溯源方法,通过数据标签信息来标记合法授权的数据共享信息流,结合数据共享规则特征库和嵌入数据标签位置信息来进行非法数据共享数据信息流的追踪溯源,并可对合法授权的数据共享信息流的违规操作进行追踪。

作者简介

张 涛(1983—),男,硕士,工程师,主要研究方向为数据安全防护。

选自《通信技术》2020年第一期 (为便于排版,已省去原文参考文献)

声明:本文来自信息安全与通信保密杂志社,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。