数据脱敏系统的建设思路

作者简介

许凌：金山办公文档安全高级产品经理，5年数据安全从业经验，负责过多个大型企业数据安全项目建设，在商业秘密保护领域布局多项相关专利技术，成功申报新疆保密局商密课题项目，参与《信息技术应用创新办公文档云服务要求》团标标准安全部分的编制。

随着数字信息技术日新月异的发展，大数据时代已经来临，海量的数据呈现出巨大的价值潜力，数据对于企业及个人来说，无疑是一笔巨大的财富，与此同时也引发了一系列对数据泄露、滥用、窃取等安全风险的问题，数据脱敏就是在此背景下应运而生。通过数据脱敏技术，可以大幅降低数据泄露及滥用风险，为各方利益保驾护航。

01 脱敏市场逐渐升温有望迎来新的爆发点

1.1数据规模呈现不断上升趋势

根据国家工业信息安全发展研究中心发布的数据，2016年的数据要素市场规模已达到了62亿元，预计到2025年将突破1749亿元，进入高速发展的阶段。

面对如此庞大规模的数据，对大数据分析、挖掘和利用无疑带来了巨大的机遇，但同时也伴随着风险和挑战。数据要素中含有用户隐私数据、地理位置数据、业务数据等等敏感信息，这些敏感数据在采集、传输、使用等环节中的一旦被暴露，会导致数据泄露。为降低数据泄露造成的危害，“数据脱敏”逐渐成为解决这一行业性难题的关键技术。通过对数据的脱敏处理，保证数据价值的提前下，降低数据泄漏的风险，同时也能为企业和个人提供更加安全可靠的数据服务。

1.2 众多关键行业对数据有脱敏要求

采集了大量的个人隐私信息的，如政务、金融、医疗、通讯等行业；存在不同部门、跨组织、跨区域间数据共享的，如能源行业；掌握大量的用户特性信息的，如科技行业等。这些行业，但不局限于以上行业，对敏感数据的保护都非常的最重视，只有对数据采取安全保护措施，才能确保敏感数据不被泄露及滥用。

1.3 数据脱敏未来趋势非常明朗

数据脱敏响应度：向实时性发展

随着数据量的快速增长，对数据实时性要求高，因此高性能数据脱敏将成为后续数据脱敏技术发展的一大方向。

数据脱敏类型：向非结构化发展

随着科技的发展，文本、图片、音视频等数据的保存和使用将越来越多，非结构化数据脱敏技术一大重点发展方向。

数据脱敏技术：向智能化发展

随着AI技术的应用，自动感知敏感数据、自动匹配脱敏规则、自动完成脱敏处理等能力为一体的智能数据脱敏技术将成为新趋势。

数据脱敏要求：向合法合规性发展

随着国家和各行业对于数据安全立法的持续深入，未来数据脱敏技术与各级实际规范相结合，形成能够直接帮助企业实现合规的数据脱敏工具将成为一大探索方向。

02 数据脱敏对数据的应用及分析提供安全保障

2.1 企业对数据脱敏的诉求

通过对多家大型企业的深度访谈，我们发现企业在数据脱敏方面有以下需求：

数据按要求实现脱敏效果，并保证脱敏过程的安全性。
能针对不同级别人员、不同的数据类型等多样化处理能力的脱敏方案。
能自动识别敏感数据能力，高效且精确地执行数据脱敏操作。
数据脱敏前后需要保持原有的逻辑关系，防止显示效果错乱。
脱敏方案具有良好的可扩展性，可为业务系统赋能及满足未来的技术升级。

2.2 数据脱敏对企业的意义

满足合法合规性要求

《国家安全法》、《网络安全法》、《数据安全法》、《个人信息保护法》等国家政策，政府数据、公共数据、金融数据、汽车传输视频及图像等行业颁布了数据脱敏技术规范，企业需要根据政策要求及技术规范对敏感数据进行脱敏操作，以满足国家法律法规、以及行业协会监管要求。

防止泄漏导致企业损失

数据脱敏是企业创造数据安全保障体系的基础手段，防止文档在内部使用过程中数据泄漏导致的企业损失。同时也保障企业在外部合作伙伴间分享数据时，确保敏感信息不被泄露，从而安全地开展业务合作。

有效的提高公司声誉

企业采用数据脱敏措施，能确保涉及客户、员工等隐私数据不被滥用或泄露。即使数据不甚被泄漏了，也不会暴露客户或者员工的真实信息，减小潜在的数据泄露风险，同时也体现出企业对客户和员工隐私的重视度，有助于提高公司在市场上的信誉。

03 根据政策要求行业标准制定建设方案

3.1 政策解读

企业要满足合法合规性的要求，首先从官方正式发布的渠道获取最新政策，并详细解读各项规定和要求，全面了解政策背后的立法初衷、适用范围和执行力度等关键信息，以便为企业的业务建设前景和可行性提供判断依据。通过政策条文的深入分析，企业可在合法合规性的基础框架上进行自身的业务建设。通过掌握政策走向，企业便能预测项目未来的发展趋势，为企业制定长远的战略规划提供有利支撑。

3.2 方案制定

2020年3月1日，全国信息安全标准化技术委员会发布的DSMM评估依据（执行标准）：《信息安全技术数据安全能力成熟度模型》（GB/T 37988-2019）正式实施。DSMM定义了数据处理阶段数据脱敏处理的全流程。企业在建立数据脱敏解决方案时可以参考这个流程来定制。

3.2.1 敏感数据识别

第一步业务数据的盘点

首先对各业务线的数据进行盘点，了解各业务线实际操作的流程，发现各业务系统中的敏感数据，定义出必须脱敏的数据信息。

第二步敏感特征库的提炼

基于业务数据梳理的基础上，在能对数据识别的范畴里，提炼出敏感数据的特征，并形成敏感数据特征库。该特征库非常的重要，也是最为关键的一环节，直接影响到敏感数据的识别情况，如不能识别的话，后续就无法自动对数据执行脱敏处理。

第三步数据分类分级的制定

针对识别出来的敏感特征库里的敏感数据，企业可根据自身情况，进行多维度的分类分级，如根据数据的来源、价值、内容等。所有敏感数据都要能归类到对应的分类分级中，且不能出现交叉重叠或被遗漏的情况。

3.2.2 确定脱敏方法

市面上数据脱敏方法可分为静态数据脱敏和动态数据脱敏两种。企业根据不同的应用场景和数据的使用方式，配置适当的脱敏方法及规则。

静态脱敏

在数据存储之前对数据进行处理，脱敏后数据与生产环境相隔离，可随意取用和读写脱敏后的数据。该技术会改变存储数据的内容，适用于脱敏分发测试/开发/培训/分析等方面。

动态脱敏

在数据访问或检索过程中实时处理数据，即查询结果实时脱敏返回，可以为不同角色、不同权限、不同数据类型执行不同的脱敏方案。该技术对存储的数据不会发生任何变化，应用可能直接访问。

3.2.3 制定脱敏策略

不同行业领域，不同企业类型，敏感数据是不一样的，企业需要结合自身业务实际的场景制定对应的数据脱敏策略，以下介绍几种较为通用的策略制定。

触发扫描时机策略

根据实际的业务场景，制定触发扫描敏感信息的时机，如关闭被使用的数据时，数据上传到业务系统时，使用定时模式扫描特定区域等。

命中敏感处理策略

通过扫描机制发现敏感数据后，需要针对敏感数据制定处理策略，如加密保护、分类分级标定、数据脱敏等操作。

脱敏效果控制策略

数据脱敏技术通常采用以下几种方式来处理数据，企业可根据实际情况定制不同的策略。

变形：将敏感信息内容采用替换的方式，使数据失真后到达不含任何敏感信息。例如，真实的姓名用虚构的姓名来替换。
遮盖：将敏感信息进行部分处理，仅保留一部分原始信息，使原始数据不可识别。如姓名中只显示姓氏，名使用“*”替换，或手机号只显示前三位+中间使用“*”替换+后四位等。
删减：删除数据中的敏感部分从而减少泄露风险。例如手机号、身份证隐私信息直接删除抹掉。
聚合：将多个单独特性的数据点汇总成一个统计数值来显示，以避免发现数据特性或规律。例如，将身高/年龄等数据分组后取平均值来表示。

多租户模式策略

多租户模式是多个独立“租户”共享相同的实例或部署，而不是为每个租户单独实施。数据源之间相互隔离，互不干扰，确保不同租户之间数据安全，又能满足租户的业务需求。企业存在集团和子公司之间或者是企业内多部门间，都有隔离数据的要求，存在数据脱敏的策略不一致的情况，制定策略的时候需要考虑是否要多租户的模式。

3.2.4 执行脱敏操作

脱敏操作的实施

根据以上已定义的数据脱敏工作流程、数据脱敏策略及方法，需要建立配套的数据脱敏实施流程与工具，确保在不同的业务场景中能够识别并对敏感数据进行脱敏处理。以下是数据脱敏的技术架构，在工具选型或建设上可供参考。

脱敏数据的验证

在执行完数据脱敏任务后，要检查并验证数据脱敏后的效果，确保所有敏感数据都已被正确处理，同时又能兼顾数据的一致性、完整性和可用性。

3.2.5 审计及溯源

审计指标制定

为了形成完整的数据处理记录，方便后续的追踪溯源，企业需要梳理出数据脱敏过程中必须记录的关键信息，一旦泄露事件发生，可通过数据库查询信息能定位到真实的责任人、实际操作行为等。同时，整理发布审计报告的内容，制定报告中展示的指标项，能快速在审计过程中发现异常并跟进。

告警事件制定

企业需要建立一套精准、高效、敏捷的突发事件监测及响应机制。在大量的数据访问行为中提出威胁事件,实时事前预警，防止敏感数据的泄漏。例如含敏感数据从业务系统下载到本地计算机，或者是含敏感信息数据通过流通渠道外传时，能及时发现并防范。

04 运用AI技术满足用户新场景需求

未来，各行业的数据将以指数级规模进行增长，数据脱敏技术的应用场景也会越来越多，随着机器学习技术的日益成熟，将其与数据隐私保护和安全共享相结合，企业在实现数据价值最大化的同时还有机会探寻到更多的创新领域。

增强智能识别手段：利用AI技术扩充识别渠道，支持语义分析、图片OCR识别、繁简互转、通假字转换、多多种语言互转等，增强识别能力，敏感词的发现及处理更智能化。

建立各行业属性库：结合敏感文档识别出来的内容进行关联分析、机器学习“驯化”出各行业的敏感数据库模型。通过对行业模型不断的迭代升级，处理敏感数据集数据分类分级更精准化。

打造辅助定密系统：基于建立的行业属性库和定密规则相结合，实现智能辅助定密系统，解决定密工作中定密不准、定密不细、漏定密等问题，提升涉密文档定密工作的准确性和高效性。

声明：本文仅代表企业及专家个人观点，不代表本公众号及其运营单位意见或立场。

声明：本文来自数据安全推进计划，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

数据脱敏系统的建设思路

迈向自动化渗透测试：引入大语言模型基准、分析与改进

从传统企业资产管理到CAASM

英国ICO报告：使用AI招聘工具的数据保护注意事项