随着数字经济的全球化推进,数据已成为影响世界各国竞争的战略性资源。能够充分发挥数据经济价值和战略意义的数据开发利用技术蓬勃发展的同时,防止数据泄露,丢失,滥用,保障数据安全流通共享与流通的数据安全技术也愈发重要。然而数据安全与数据开发利用效率之间尚存在明显矛盾,成为制约数据价值释放的重要短板。随着《数据安全法》的实施,在安全合规的前提下合理地对数据进行开发利用成为了当前备受瞩目的焦点。目前,数据开发利用以及数据安全技术行业应用主要的领域有金融、医疗、政务、电信、教育等。图1和图2是对可能值得关注的技术进行了汇总,表1则是映射了这些领域需要重点关注的技术。

图1 数据安全技术领域分类

图2 不同行业相关技术细分

图3 各应用领域的重点技术映射图

本文针对数据开发利用技术和数据安全技术,概述了现有成熟的产品和产业技术体系,综述了需求领域尚未成熟的相关技术的最新研究方向,探讨了国家鼓励支持的技术推广和商业创新。

01 数据安全技术

i. 数据安全技术的总体发展及应用情况

世界主要国家正在积极研究数据安全核心技术,探索构建数据安全新的解决方案。我国数据安全技术作为新兴技术领域,发展时间短,部分技术手段正处在研究发展阶段,尚缺乏应用实践。为应对大数据时代下严峻的数据安全威胁,保障数据保密性,完整性和可用性的传统数据保护技术以及保护个人信息安全的隐私保护技术积极发展,同时,侧重于实现数据安全流通的隐私计算技术也成为了热点发展方向。从目前国内的数据产业发展来看,数据安全产业迎来爆发式增长,数据安全在网络安全市场规模占比逐年上升,并且对标欧美,未来我国数据安全市场容量还有大量增长空间。

ii. 传统数据保护技术

1. 数据加密

数据加密技术是通过加密算法和加密密钥将明文转变为密文的一种最基本、有效的数据安全防护技术。如图4,根据加密方式的不同,基本加密技术可分为可逆加密和不可逆加密两种。在实际场景中,基本加密算法要么进行一定修改,要么与其他算法或协议进行结合。例如,通过添加基于混沌映射的密钥生成对扩展的微小加密算法(XTEA)进行了修改,以提高面积、吞吐量和密钥大小方面的性能。结合有限域和基于ECC的SM2算法在8位AVR处理器上实现了256位的椭圆曲线标量乘法。此外,数据加密相关的产品体系相当成熟,例如,卷加密,文件系统加密,应用加密等等。

图4 基本加密技术分类

2. 身份认证

身份认证是验证计算设备或在线服务用户身份的过程,无误的用户认证机制对于阻止非法访问计算设备和在线帐户至关重要。随着移动设备在技术上越来越先进,传统的PIN和密码的认证方法存在的安全漏洞越来越多,使用行为生物特征(BB)和连续认证(CA)的认证方法成为了保护用户设备安全的热门发展方向。BB和CA技术主要建立在对个人行为特征进行机器学习建模的基础上。例如,根据行走步态,击键动力学使用随机森林分类器,根据触摸手势使用孤立森林和支持向量机的方法,通过MineAuth方法用户行为特征,如蓝牙、Wi-Fi和应用程序的使用情况进行分析,在解锁智能手机后几秒钟内通过用户挥手建立随机森林模型。相关的产品也应运而出,如kryptowire公司已在市场上部署了与功耗、物理运动和触摸手势的模式相关的系统。

3. 访问控制

访问控制是根据准许或限制主体对客体访问能力范围,针对越权使用资源的防御措施。传统的封闭式面向环境的访问控制模型(即DAC、MAC和RBAC),无法适应云计算和物联网此类新型计算环境。因此,ABAC作为一种新兴的访问控制形式被提议用于解决动态大规模环境中的细粒度访问控制问题。依据传统ABAC的思想提出了基于属性的加密方法(ABE),其中的密文策略ABE(CP-ABE)受到了最多的关注。其基本策略包括与门策略、阈值策略、树策略和LSSS策略等。此外,具有撤销机制,问责机制,策略隐藏机制,策略更新机制,多机构机制,分层机制,在线/离线以及外包的八大增强型CP-ABE也是当下研究的热门方法。

4. 数据泄露防护技术

数据泄露防护(DLP),是通过深度内容分析机密数据的内容和上下文的一种能够识别、监控和保护静止、移动和使用中的数据的技术,旨在及时检测和预防即将或正在发生的泄露敏感数据的行为。目前,提出的上下文敏感的DLP系统,能够在配备内核补丁保护的Windows操作系统中拦截系统调用。提出的DLP解决方案使用数据统计分析,根据过去的数据访问情况预测未来任何用户的数据访问可能性。提出的一种基于协作图的分布式大数据泄漏检测机制有效解决了协作DLP问题。提出的基于Hadoop的主/从体系结构的模型采用了可靠性检测器、最不可靠代理和数据泄漏避免算法,以检测和预防数据泄漏。

iii. 隐私保护技术

1. 数据脱敏

数据脱敏按照使用场景可分为静态脱敏(SDM)、动态脱敏(DDM)。静态脱敏直接通过洗牌,删除,屏蔽,散列,加密文件、格式保留加密(FPE)和强加密算法(如AES)等多种脱敏算法,针对不同数据类型进行数据掩码扰乱,并可将脱敏后的数据按用户需求,装载至不同环境中。动态脱敏是SQL Server 2016中引入的一项技术,它允许非特权用户仅查看存储在元组中的原子值的子集。动态脱敏通过准确的解析SQL语句匹配脱敏条件,例如:访问IP、MAC、数据库用户、客户端工具、操作系统用户、主机名、时间等,在匹配成功后改写查询SQL或者拦截防护返回脱敏后的数据到应用端,从而实现敏感数据的脱敏。

目前,数据脱敏已在企业中得到广泛应用。静态脱敏一般用于非生产环境中(测试、统计分析等),当敏感数据从生产环境转移到非生产环境时,这些原始数据需要进行统一的脱敏处理,然后可以直接使用这些脱敏数据。动态脱敏一般用于生产环境中,在访问敏感数据当时进行脱敏,根据访问需求和用户权限进行“更小颗粒度”的管控和脱敏。

2. 匿名化

匿名化指使观察到的活动与特定的人或计算设备不可链接,在保证数据可用性的同时确保数据无法定位到个人且无法还原。匿名化技术可分为关系(表格)匿名化,结构(图)匿名化。经典的关系数据匿名化技术主要包括k-anonymity,l-diversity,t-closeness等,结构数据匿名化技术如图5所示。

图5 结构数据匿名化技术分类

但是,这些经典方法仍然存在着对用户群体的隐私保护弹性较差,准标识符过度泛化导致信息丢失,隐私和效用如何权衡的诸多问题。近年来,将k-anonymity与熵概念相结合加以扩展,以保护数据发布中的用户群体隐私;在聚类过程中使用了k-anonymity,该算法极大地减少了信息的丢失,同时保留了原始数据集较好的语义;扩展了k-anonymity模型,该方案既考虑了准标识符的脆弱性,又考虑了敏感属性的多样性,实现了数据的自适应泛化,有效解决了隐私和效用的权衡问题。

3. 差分隐私

差分隐私(DP)是一种基于噪声机制的隐私保护技术。差分隐私属于语义类隐私模型,与语义类隐私模型相比,它具有更好的隐私保护。如图6所示,根据是否存在可信中心,差分隐私模型分为集中式差分隐私模型和本地差分隐私模型(LDP)。

图6 集中式差分隐私和本地差分隐私的比较

鉴于差分隐私模型严格的保密性,其迅速成为数据隐私的旗舰定义,并被美国人口普查局、谷歌、Apple和Microsoft等组织采用。但是差分隐私模型往往会添加很大的噪声而损害模型的可用性,为此其常与隐私保护相关的其他技术相结合。例如,结合了匿名通信技术,将同态加密方案与DP结合起来以增强效用保障。将单向函数的加密技术应用到DP以支持更长的加密密钥长度从而保障数据通用性。

4. 同态加密

同态加密(HE)是满足密文同态运算性质的加密算法,即对加密数据与对原明文执行相同的同态运算得到的新的加密数据相同。HE可以根据加密数据上允许的操作次数分为三类:(1)部分同态加密(PHE)只允许一种类型的操作,且操作次数不受限制。(2)特定同态加密(SWHE)允许某些类型的操作进行有限的次数。(3)全同态加密(FHE)允许无限次数的操作。图7展示了三类同态加密技术的发展历程。

图7 三类同态加密技术的发展历程

从2009年FHE首次被提出起以来,尽管诸多基于FHE的改进方案被相继提出,例如结合RLWE,再线性化,模降技术,但是这些方案均存在计算和存储开销大等无法规避的性能问题,距离高效的工程应用还有着难以跨越的鸿沟。为此,不变透视图和模块切换等技术的发展为特定应用开发设计方案指明了道路。例如,创业公司Duality在定制服务器上通过HE实现了隐私保护与AI任务等应用。

iv. 隐私计算技术

1. 安全多方计算

安全多方计算(MPC)是允许分布式场景中,多个参与者对私有数据进行安全快速处理的协同计算,而不暴露它们自己的私有输入和输出的技术。MPC的基本构建模块包括混淆电路、不经意传输、秘密共享、同态加密、承诺机制和零知识证明等密码学技术。经典的通用SMPC协议包括Yao’s两方协议, cut-and-choose范式,LEGO,预处理模型,IPS编译器。

然而由于这些技术的计算密集性,MPC的应用落地仍然不切实际。因此,为了实现更高的计算效率,近期的研究方向集中在将计算任务中最昂贵的部分外包给云。首次提出了云服务器辅助MPC,开创了两个将电路评估任务外包给云的安全单服务器辅助的S2PC协议。考虑为手机等功率有限的设备外包安全功能评估,其允许移动设备将乱码密钥传输的任务委托给云服务器。同态加密也可以自然地与云计算结合以构建云辅助的MPC协议。

2. 可信执行环境

可信执行环境(TEE),其目的是确保敏感数据在隔离的环境中存储和处理。可信执行环境的本质是隔离,现有流行的可信执行环境依赖硬件来隔离环境。根据中的环保护术语,将代表性的TEE硬件技术进行如表2分类。其中,环3用于用户级应用程序,环0用于内核代码,环-1用于虚拟机监控程序代码,环-2用于特殊系统维护和安全功能,以及环-3用于协处理器和非处理器硬件组件。

图8 具有代表性的TEE硬件技术

当下,由于硬件需求和成本限制推动了不同的设计方向,TEE的一些可能的研究途径主要包括主要关注于保障物联网设备安全,虚拟化微设备,以及嵌套虚拟化。以TrustZone为例,Arm决定将其扩展到新一代微控制器,使安全在规模和整个价值链上变得切实可行; Arm最近在新一代Cortex-R处理器中首次加入了虚拟化扩展;由于在下一个架构版本Armv8.4-A上增加了NEVE,Arm正朝着支持高效嵌套虚拟化而努力。当前,TEE的代表性技术产品均为国外厂商研制,国内市场仍存在大量需求,因此,须要各厂商努力创新,研发培育相关产品,不断挖掘TEE领域的商业价值。

3. 联邦学习

联邦学习(FL)的核心思想是在分散于不同设备或各方的独立数据集上训练机器学习模型,从而在一定程度上保护本地数据的隐私。其主要通过将安全多方计算,差分隐私,同态加密等技术应用到FL上来提供有效的隐私保障。如图8,根据数据的分布特征可以将FL分为:(1)横向联邦学习:数据集共享相同的特征空间,但样本空间不同;(2)纵向联邦学习:数据集共享相同样本空间,但特征空间不同;(3)联邦迁移学习:样本和特征空间都不同。

图9 联邦学习分类

当前,联邦学习是国家重点支持研究的新兴隐私计算技术。由于数据统计的异质性以及系统的异质性,FL如今尚未成熟,仍存在许多悬而未决的问题。为此,最新的研究方向主要包括改进优化算法,如使用批量梯度下降法加速收敛,提出的FedProx提高了联邦平均的性能;为客户提供个性化模型;使机器学习任务在FL上下文中更容易,如超参数的调整,神经结构搜索,调试和可解释性;提高通信效率,如的数据压缩技术,的双向可选的知识蒸馏方法等。

02 数据开发利用技术

i. 数据开发利用技术的总体发展及应用情况

伴随着时代背景下数据特征的不断演变以及数据价值释放需求不断增加,数据开发利用技术已逐步围绕数据采集与存储,计算与处理的基础技术,同配套的数据管理,数据挖掘,以及可视化应用等助力数据价值释放的技术形成了整套技术生态体系。据信通院监测统计,数据开发利用企业增速于2015年达巅峰。之后,市场日趋成熟,企业新增趋于平稳。当前,国内外众多厂商均已深入进行存算分离和能力服务化的实践,加快数据管理智能化布局,致力研究新兴图结构数据技术以及积极应用可视化技术。

ii. 数据采集与存储技术

数据是指包括 RFID 数据、传感器数据、网络交互数据等各种类型的结构化、半结构化及非结构化的海量数据。数据采集是从智能设备、企业系统、社交网络和互联网平台等获取这些数据的过程。其主要方式包括:数据库采集、系统日志采集、网络数据采集以及感知设备数据采集。数据存储则是将这些数据持久化在计算机等设备中的过程。其主要方式包括关系数据库存储以及NoSQL数据库存储。

随着异构设备收集的数据量迅速增,从结构化数据向非结构化数据转变的趋势使得传统关系数据库不适合存储。为此,支持灵活的数据模型、水平可伸缩性和无模式数据模型的NoSQL数据库应运而生,其为动态增长的大容量数据提供了高度的可扩展性和可靠高效的存储。因此,NoSQL数据库成为非结构化数据存储最常用的技术,并且已经形成相当成熟的产品体系。如图9所示,根据数据模型以及许可类型对现有的NoSQL存储技术进行分类。数据模型有四种类型包括键值型、面向列型、面向文档型和图型,许可型则包括开源型、专有型和商业型。目前,关于存储优化包括数据聚类、复制和索引的改进方法仍未成熟,是主要值得关注研究的问题。其中,层次聚类和人工蜂群算法等是近期研究中使用的聚类方法。ABC算法、D2RS和JXTA-overlay P2P平台是最常用的有效复制技术。HAIL为Hadoop提供了一种索引解决方案,改进了数据搜索和检索过程。此外,工业领域为使其数据获取量更大,数据存储更便捷,正不断融入物联网,边缘计算以及区块链等技术进行技术推广及商业创新。

图10 NoSQL存储技术分类

iii. 数据计算与处理技术

传统集中式计算架构在面对迅速而庞大的数据量时,针对单机存储及计算性能有限的传统关系型数据库,出现了规模并行化处理(MMP)的分布式计算架构;面向海量网页内容及日志等非结构化数据,设计了基于Hadoop和Spark生态体系的分布式批处理计算框架,面对需要进行实时计算反馈的时效性数据,涌现了Storm,Flink等分布式流处理计算框架;对于网页链接关系、社交网络、商品推荐等此类分析需求的图结构数据,提出了GraphX,Giraph等分布式图计算框架。上述的数据计算与处理技术已形成较为成熟的产业体系,其中Hadoop框架通过MapReduce编程模型已经成为大数据处理最主流的框架。

然而,分布式的数据计算系统的性能仍然受到通信成本高和离散效应的限制,导致执行计算任务所需的时间较长。为了提高分布式计算系统的性能,资源分配策略、任务分配策略、调度算法、激励机制、能源效率和分布式计算系统的性能建模等技术已被广泛研究。此外,能够满足低通信成本以及低离散效应的需求的编码分布式计算技术(CDC)也是值得支持研究的方向。例如,提出了一种统一的编码方案,在给定计算负载的情况下权衡计算延迟和通信负载。通过利用重复码产生的冗余,改进了统一编码方案,通过增加重复码的冗余率,可以同时改善Shuffle阶段的通信负载和Map阶段的计算延迟,从而实现延迟-通信的折衷。

iv. 数据管理技术

数据管理技术包括元数据管理、数据集成、数据标准管理、数据质量管理和数据资产服务。这些技术通过汇聚盘点数据,提升数据质量,增强数据的可用性和易用性,以进一步释放数据资产的价值。

元数据是一组表示需要解决数据管理任务的数据集的任何属性的描述符。最近几年,许多方案被提出用来组织和表示元数据以解决数据的发现、治理、集成、合规(DGIC)问题。例如,FAIR原则激励用元数据来补充数据共享,如ICPSR方法;机器学习的爆炸式发展促使采取数据表以及企业元数据管理系统的形式对数据资产进行编目。

数据集成旨在通过为异构数据集的信息提供统一的访问服务,这些数据集可以具有不同的概念、上下文和排版表示。例如,研究了关系模型中的信息集成;研究了半结构化模型中关于XML数据库集成方法;研究了两种模型均适用的集成方案;则研究了在链接数据集成领域所做的工作。

此外,数据标准管理、数据质量管理和数据资产服务这些数据管理技术多集成于数据管理平台,用作数据管理的统一工具。例如,华为、阿里云、浪潮、数梦工场、数澜科技、Datablau等数据管理平台供应商正积极力争上游,在各自的产品中不断更新自动化智能化的数据管理功能,以积极响应国家鼓励数据开发利用技术进行技术推广和商业创新的号召。

v. 数据挖掘技术

数据挖掘技术是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中但又是潜在有用的信息和知识的过程。根据挖掘任务可分为分类、聚类、关联分析或频繁模式挖掘、序列挖掘、异常值检测等等。在分类模型中,可以根据数据特征和情况将其划分,包括决策树归纳,贝叶斯分类,基于规则的分类,反向传播分类,支持向量机,k-最近邻,深度神经网络和集成方法;聚类模型包括k-medoids,层次聚类, SVD,Rock,BIRCH,基于密度的聚类(DBSCA),OPTICS, DENCLUE等等方法。关于关联分析或频繁模式挖掘,提出了混合方法ClustBigFIMa,该方法是BigFIM算法的改进版本,用于提取关联、新兴模式、顺序模式、相关性等重要数据挖掘任务的有意义信息;在序列挖掘中,分别对流和时间序列数据挖掘进行了较好的研究;异常值检测则可分为四类,包括基于统计分布的离群点检测,基于距离的离群点检测、基于密度的局部离群点检测和基于偏差的离群点检测。

当下,以社交网络,用户行为,网页链接关系等为代表的数据,往往需要通过图结构以最直观的方式展现其关联性,因此,专门针对图结构数据进行关联关系挖掘分析的图挖掘技术成为热点发展方向。例如,研究了一种基于图的意见挖掘方法,用于减少产品评论分析中的信息丢失和过载,将频繁模式挖掘和图遍历方法结合用于客户评论的分析,对当下的不确定图挖掘技术进行了系统的归纳和总结。目前,国内百度,阿里,腾讯,华为等企业正积极布局图数据库,图计算引擎,知识图谱等图挖掘技术,加速全球范围内产业化。

vi. 数据可视化技术

数据可视化指使用图像、图片、图表或动画创建数据的可视化表示以传达具体或抽象的消息。数据可视化创作工具(DVAT)根据提出的新的三位一体分类法“目标-交互技术-认知”可以划分为创建、探索、制作具有表现力的设计以及提取数据。在创建时,用户可以通过创建元素、使用自动方法、编程、绑定数据来编码元素以及直接操作应用条件或菜单以实现可视化。在探索数据时,用户可以选择数据属性和标记、应用过滤、注释/标签以及刷阅和链接等交互方式,并且当同时浏览多个视角时,可以借助高亮提示,直接操作或者文本输入灵活地与视图交互。在制作具有表现力的设计时,用户可以通过创造独特个性化的元素、将元素与多个属性绑定、自定义图表模板以及增强自动生成表示的布局和编码。在提取数据时,用户可以借助菜单选择模板、修改视图、直接操作定义布局和设计以及提取图像以实现可视化。

当前,数据可视化正朝着利用智能设备、手表、小屏幕和可穿戴设备来展现的方向发展。用传统设备上完成的创作过程来丰富这些设备将大大改变数据可视化需求。此外,AR/VR设备的趋势和进展已经使沉浸式可视化成为现实世界应用的焦点。因此,在这些方面值得大力推广以研发更具创新性的产品。

(本文作者:南京众智维信息科技有限公司 胡牧 车洵 孙捷)

声明:本文来自CCIA数据安全工作委员会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。