数据,是数字经济发展的核心生产要素,是国家重要资产和基础战略资源,是构建数字经济、数字政府、数字社会建设的基础,数字化治理是社会发展的必然趋势。国家“十四五”规划提出,要建设数据资源体系实现共享交换;要构建城市数据大脑;要推进政府运行的数字化智能化;并且构建数字技术辅助科学决策的机制;要加强数据资源全生命周期的安全保护和大数据环境下的数据分类分级保护。
2021年6月10日,《中华人民共和国数据安全法》正式发布,并于2021年9月1日起施行,数据安全进入双法时代。个人信息和重要数据是我国现阶段数据保护的重点。2021年8月20日,《中华人民共和国个人信息保护法》正式发布,并于2021年11月1日起施行个人信息保护法。明确应采用数据分类分级、加密、去标识化等手段进行安全保护,一系列相关法律,为数据安全落地提供了基础准则。
应用标准
2021年12月31日,全国信息安全标准化技术委员会秘书处发布了《网络安全标准实践指南——网络数据分类分级指引》(TC260-PG-20212A),给出了网络数据分类分级的原则、框架和方法。
《网络数据分类分级指引》提出,数据分类分级原则包括合法合规原则、分类多维原则、分级明确原则、从高就严原则以及动态调整原则;数据分类分级实施流程包括数据资产梳理、数据分类、数据定级、审核标识管理、数据分类分级保护。数据分类分级是开展数据安全治理工作的重要抓手,是业务和安全之间的重要纽带。
从实践指引的内容进一步归纳,可以提出开展数据安全治理的简要步骤:
1、资产梳理是数据安全治理的基础。对各类资产进行全生命周期管理实时跟踪资产的生命状态,形成资产清单协助用户厘清数据资产。
2、敏感识别通过智能扫描实现敏感数据发现,确定敏感数据在资产中的分布,并数据库敏感数据使用情况的持续监控能力。
3、分类分级结合现有行业标准对敏感数据进行分类和等级划分,便于用户根据不同需求对数据资产进行重点防护。通过数据可视化技术为用户提供敏感数据的分布情况,并提出安全保护建议。
4、策略配置用于管理资产数据在整个生命周期内的流动:采集、传输、存储、使用、共享、销毁,根据指定的策略将数据组织成各个不同的层。
5、安全保障通过数据脱敏、数据加密、完整性保护等相关技术为敏感数据提供全方位安全保障能力。
解决方案
围绕实际业务需求,结合《网络数据分类分级指引》等标准规范文件,海泰方圆提出以数据安全治理为中心的安全防护解决方案,构建贴近业务的数据全生命周期安全能力,记录数据流转每个环节中的安全风险以及防护措施,为大数据环境下敏感数据的安全提供全方位的保障。
以数据安全治理平台为例,其主线为数据处理全流程的安全保护,对数据安全能力进行集中化、标准化、规范化、常态化、场景化管理,全面掌握全域敏感数据资产分类、分级及分布情况,有效监控敏感数据流转路径和动态流向,通过集中化数据安全管控策略管理,实现数据分布、流转、访问过程中的态势呈现和风险识别。
数据安全治理平台具有以下特点:①可基于各个标准自定义数据分类分级策略。②结合AI技术自动发现敏感数据。③能够整合数据安全治理多重手段能力(脱敏、加密、完整性保护、水印、输出控制、权限策略控制、敏感度标志等)。④提供数据安全态势感知能力,识别和分析数据风险,降低数据风险并实时响应。⑤全面支持信创环境运行。
创新实践
随着数字经济的发展和信息技术的演进,给数据安全防护带来了全新的挑战。数据安全产品需要转换防护思路,解决数据安全边界防护模糊的问题。针对这一问题,海泰方圆结合资深在自然语言识别、电子文件管理、分类分级等方面的技术积累,提出了如下三点创新实践,供参考:
1、利用自然语言处理技术,实现快速自动化分类分级
敏感数据识别和自动分类分级技术是根据行业敏感数据和分类分级规范要求,基于人工智能技术,辅助人工核查的处理技术。人工智能技术包括两方面,其一是基于自然语言处理的语义识别技术,其二是基于机器学习的结构化数据识别技术。
通常来讲,行业会根据业务及合规性要求,定义本领域的敏感数据类别和敏感级别标准。在此标准基础上,针对行业结构化和非结构化数据,依次形成不同的处理方法。
对于文本数据,可以基于自然语言识别技术,融合生成语料和通用语料,基于模型构建和预训练技术,形成基于内容的敏感数据识别和分类分级模型,对此类数据自动扫描,通过词法分析、知识抽取、情感计算、相似计算等处理,形成分类分级结果。对于结构化数据,可以基于机器学习算法和专家规则,构建分类或者聚类模型,通过训练形成结构化数据模型,对数据进行数据特征提取、向量计算、特征评分、识别分类等处理,获得分类分级结果。
2、利用密码技术,为非结构化数据的完整性保护技术研究
电子文件安全验证系统以密码技术为核心,针对每一件电子文件的元数据和原文件,经过密码运算,生成唯一的可以用于证明数据“真实可信”的凭证性标签。能够为电子文件的收集、保管、存储、利用提供全生命周期的凭证性保障,准确验证数据在上述各环节中是否被恶意篡改,从而提升数据在全生命周期的风险控制能力。
系统是全国首款通过国家密码管理局检测认证的电子文件安全验证产品,拥有商用密码产品认证证书SRT1716-G,是密码应用改造的有力支撑手段,可以用在电子档案防篡改、日志文件完整性保护、门禁记录完整性保护、重要数据文件完整性保护等多种场景。
3、利用文本内容抽取技术,实现电子文件非结构化数据分类分级
基于NLP自然语言处理技术,对非结构化的电子文件进行全文提取、关键词提取、实体识别、自动摘要、情感分析、自动分类等智能分析,构建电子档案画像,为电子档案知识图谱分析、关联分析、智能搜索和推荐提供辅助决策工具。
信息检索技术是电子文件管理的一个关键技术。传统的检索方法主要借助于目录、索引和关键词等方法来实现的,其优点是简单、快捷;但缺点是无法挖掘信息之间的内在联系,检索的结果不能准确、全面地反映用户的需求。智能检索技术工具提供了以下特色功能:
▼动态词库:动态词库功能指在检索已经使用后依然增加分词的功能;
▼动态检索库:包括不同数据类型不同业务的非结构化数据进行结构化的一种动态组合,比如要检索文件内容、文件创建时间、文档权限等;
▼松耦合webService接入:指服务提供后可跨各种编程语言的接入;
▼嵌入式部署:指跨操作系统,非安装;
▼同意词维护:指在检索时自动把同意词列入检索条件中;
▼可配置式管理工具:指在工具的配置文件中修改一个参数便可安全的打开关闭web管理工具,做到硬件式安全防护;
▼本地常用文件自动解析:指在捕获文件时直接指定本地一个路径不用提前解析成明文;
▼非数据库式权限检索:指权限的判断不经过数据库的第二次的检索,以提高检索效率;
▼百度式词条管理:检索词命中后如果有词条存在则可以同时把词条返回到检索结果中。
(本文作者:北京海泰方圆科技股份有限公司 李姝婷)
声明:本文来自CCIA数据安全工作委员会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。