一、数据脱敏技术——兼济安全与价值
在大数据渗透至国家治理、企业运行、个人日常生活方方面面的当下,数据安全成为深受关注的另一个话题。根据安全公司Risk Based Security公布的数据,2019年上半年发生数据泄露事件3800余起,相比去年同期增加54%。安全研究中心Ponemon Institute和IBM Security联合发布的《2019年数据泄露成本报告》中指出,超过100万条记录的泄露预计会给企业带来4200万美元的损失。在这样的背景下,数据泄露可能造成的潜在危害,驱使国家、行业、企业等各层面愈发重视数据安全问题。
2019年5月28日网信办公开的《数据安全管理办法(征求意见稿)》中,明确要求对个人信息的保存和提供要经过匿名化处理,以切实降低个人信息可能存在的泄露风险。而数据脱敏技术,是一种实现匿名化处理十分有效的方式。数据脱敏技术的主要目标是按照脱敏规则通过变形、转换等方式降低数据的敏感程度,在数据的采集、传输、使用等环节中最小化敏感数据的暴露。在使用较为严格的脱敏规则时即可实现匿名化处理。
在降低数据敏感程度的基础上,数据脱敏技术会最大程度上的保持脱敏后数据的可用性,使脱敏后的数据依旧能够满足关联分析、机器学习、即时查询等需求。根据应用场景和实现机制,数据脱敏技术可分为静态数据脱敏和动态数据脱敏。
(一)静态数据脱敏——大批量数据一次性脱敏处理
静态数据脱敏旨在通过类似ETL技术的处理方式,按照脱敏规则一次性完成大批量数据的变形转换处理。静态脱敏通常会在将生产环境中的敏感数据交付至开发、测试或者外发环境时使用,在降低数据敏感程度的同时,能够最大程度上保留原始数据集所具备的数据内在关联性等可挖掘价值。
图1 静态数据脱敏
(二)动态数据脱敏——即席查询结果实时脱敏返回
动态数据脱敏旨在通过类似网络代理的中间件技术,按照脱敏规则对于外部申请访问的数据进行即时处理并返回脱敏后结果。动态脱敏通常会在数据对外提供查询服务的场景中使用,在降低数据敏感程度的同时,最大程度上降低了需求方获取脱敏后数据的延迟,请求实时产生的数据也能即时得到脱敏后结果。
图2 动态数据脱敏
二、数据脱敏技术已深入众多关键行业领域实用
对比Gartner于2018、2019年分别发布的《数据脱敏市场指南》可以看出,企业对于数据脱敏或其他类似去识别技术的使用从2017年的15%增加到了2018年的20%,预计在2022年将达到50%。目前,数据脱敏技术在实际应用中,主要被用于保护个人隐私数据。因此广泛的应用于政务、金融、电信、互联网等大量存储、使用个人信息的行业领域中。
在政务领域,由于政务信息来源于各政府部门的第一手数据,必然涉及到大量个人信息。为保障政务平台安全,严防敏感数据泄露,政务领域中数据脱敏技术被应用于敏感数据采集、传输、使用在内的全生命周期。
在金融、电信领域,广泛存在着诸如交易记录、通话记录、账户信息、手机号码等个人敏感信息,也存在着诸如征信、反欺诈等需要使用个人敏感信息的需求,同时还面临着严格的监管要求。在此情况下,通过针对不同级别人员使用不同脱敏规则,以动态脱敏严格限制各级人员可以接触到的敏感信息,以静态脱敏将生产数据交付至测试、开发等使用环节,成为当下金融、电信行业的首选。
在互联网领域,越来越多的企业通过挖掘数据的额外价值实现业务收入提升。近年来频发的数据泄露事件和针对互联网企业使用用户隐私数据的处罚不断提醒着相关企业重视用户敏感数据的保护。目前大型互联网企业在使用用户敏感数据进行用户行为分析、个性化推荐、精准营销等分析应用时,数据脱敏成为了必经步骤。
数据脱敏技术的供给侧,主要包括三类企业。第一类是信息安全服务商,这类企业从提供完整数据安全体系的角度出发,将数据脱敏作为其中关键一环提供给客户,一般主要服务于金融、电信等行业;第二类是满足自身需求的自研企业,主要包括运营商、通信服务商、大型互联网企业等,这类企业从自身数据脱敏需求出发,量身定制适合自己的数据脱敏工具;第三类是通用数据脱敏工具开发商,这类企业瞄准数据脱敏技术的应用前景,致力于开发出满足市场需求的数据脱敏工具,产品可能会直接向企业出售,也可能同安全服务商合作,纳入到数据安全解决方案中一同提供给客户。
目前数据脱敏需求仍在增加,市面上的产品也层出不穷,但实际上供需双方的对接并不顺畅。企业出现数据脱敏需求时,需要考虑如何保证脱敏过程安全、脱敏程度是否达到要求等一系列问题,无法直接选取合适的产品,这实际上是由于时下数据脱敏市场缺乏针对产品本身的标准。一个符合规范标准的数据脱敏产品能够打消需求方的众多疑虑,因此数据脱敏工具的标准化以及评估评测工作十分值得关注。目前,中国信通院已联合行业多家企业就通用数据脱敏工具制定了相应标准,后续也将陆续开展产品评测及其他相关标准制定工作。
三、数据脱敏技术四大发展趋势
(一)数据脱敏性能持续提升
伴随着数据量的与日俱增,数据实时性需求的愈加强烈,短时间内完成大量数据的脱敏处理将能够进一步提升企业即时应用数据实现价值的能力。因此高性能数据脱敏将成为后续数据脱敏技术发展的一大方向。
(二)脱敏数据类型向非结构化发展
时下的数据脱敏技术主要面向结构化数据,对于非结构化数据的支持存在但相对较少。后续随着人工智能技术的发展,个人图片、视频、音频等非结构化数据的保存和使用将越来越多,因此相应的非结构化数据脱敏需求也将更加丰富,成为数据脱敏技术一大重点发展方向。
(三)智能化数据脱敏技术成为趋势
在数据量不断增长的同时,被收集和利用的数据维度和种类也在不断增多,需要用户指定脱敏规则的运行方式将逐渐难以维继。目前已有少量能够自动识别敏感数据并匹配推荐脱敏算法的数据脱敏工具,后续随着机器学习技术的应用,集敏感数据自动化感知、脱敏规则自动匹配、脱敏处理自动完成等能力为一体的智能数据脱敏技术将成为新趋势。
(四)结合各级规范助力企业实现合规
数据脱敏在帮助企业减少敏感数据泄露潜在危害的同时,还可以确保企业对于个人信息数据的使用合法合规。随着国家和各行业对于数据安全立法的持续深入,企业在使用个人信息时需要符合更多不同规范。因此后续数据脱敏技术与各级实际规范相结合,形成能够直接帮助企业实现合规的数据脱敏工具将成为一大探索方向。
作者简介
王卓,中国信息通信研究院云计算与大数据研究所大数据研发与测试工程师,中国通信标准化协会TC601大数据技术与产品工作组、大数据安全工作组副组长。主要从事大数据技术与产品,大数据安全等相关方向的政策、产业、标准和前沿技术研究工作。联系方式:wangzhuo@caict.ac.cn
魏凯,中国信息通信研究院云计算与大数据研究所副所长,中国信息通信研究院互联网领域副主席,国际电信联盟分布式账本焦点组(ITU-T FG DLT)副主席,ITU-T SG16 Q21报告人,中国通信标准化协会TC1大数据与区块链工作组组长。牵头完成数据中心联盟大数据基准测试、可信区块链评测等标准和评测体系。主要研究方向为大数据和区块链相关技术与标准。联系方式:weikai@caict.ac.cn
声明:本文来自中国信通院CAICT,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。