从全生命周期管理角度看大数据安全技术研究

李树栋1,2, 贾焰2, 吴晓波3, 李爱平2, 杨小东4, 赵大伟5

1. 广州大学网络空间先进技术研究院，广东广州 510006

2. 国防科技大学计算机学院，湖南长沙 410073

3. 烟台职业学院信息工程系，山东烟台 264670

4. 西北师范大学计算机科学与工程学院，甘肃兰州 730070

5. 山东省计算中心（国家超级计算济南中心），山东济南 250014

摘要：数据信息在生产、存储、使用、传输、共享、销毁等环节暴露出的大数据安全问题突出，成为了制约大数据应用发展的瓶颈。总结了世界各国的大数据安全发展战略；从大数据的全生命周期管理角度出发，重点聚焦于大数据的收集、存储、传输、使用、开放（访问控制、共享安全与隐私保护）、销毁和管理策略（体系和标准建设）等阶段，对当前大数据安全防护技术的研究现状和趋势进行阐述。给出了未来大数据安全技术研究需要解决的几个新问题。

关键词：大数据安全；存储安全；传输安全；共享安全；隐私保护

doi:10.11959/j.issn.2096-0271.2017047

论文引用格式：李树栋, 贾焰, 吴晓波, 等. 从全生命周期管理角度看大数据安全技术研究[J]. 大数据, 2017, 3(5): 3-19.

LI S D, JIA Y, WU X B, et al. Techniques of big data security from the perspective of life cycle management[J]. Big data research, 2017, 3(5): 3-19.

1 引言

互联网、云计算、大数据等信息技术正在深刻改变着人们的思维、生产、生活和学习方式，并延深进入人们的日常生活。伴随着社交媒体、电商、健康医疗、智能交通、电信运营、金融和智慧城市等各行业各领域的大数据的产生，大数据分析技术和应用研究使大数据呈现出不可限量的经济社会价值和科学研究意义，引起了国内外学术界和产业界的研究热潮，对此各国政府也高度重视并不断上升为国家战略高度。

自2008年《自然》推出专刊“Big Data”、2011年《科学》推出专刊“Dealing with Data”之后[1]，2012年欧洲信息学与数学研究协会出版专刊“Big Data”；2013年电气和电子工程师协会（Institute of Electrical and Electronics Engineers， IEEE）决定每年举办一次大数据科学国际会议；2012年、2013年中国科学院分别组织召开了关于大数据科学的香山会议；2013年国家自然科学基金委员会召开了双清论坛——大数据技术与应用中的挑战性科学问题[2]，并设立了重点项目群，以支持大数据技术基础研究。

然而，在大数据时代背景下，云计算技术的发展导致大数据在收集、存储、共享、使用等过程面临的安全威胁愈演愈烈，大数据泄露的企业个人隐私信息给用户带来了巨大的损失。因此，大数据的信息安全问题也成为了制约大数据应用发展的瓶颈，可以说没有安全防护的大数据，将是数据灾难。

为此，如何构建围绕大数据全生命周期的可管、可控、可信的数据安全体系，将大数据安全和数据应用深度融合，制定顶层规划，保障大数据产业健康发展，成为了大数据应用和安全研究领域中的主要科学问题。

针对上述现状，本文将总结各国与大数据安全相关的战略规划，重点围绕大数据的全生命周期，阐述大数据的采集安全、存储安全、传输安全、共享安全、销毁和管理安全等阶段的研究现状及进展。

2 世界各国大数据安全发展战略

美国、英国、日本、澳大利亚、中国、欧盟等世界主要国家和地区纷纷出台制定了与大数据安全相关的战略和政策[3]，统筹规划大数据建设发展，加强对大数据的利用和安全防护，占领大数据技术研究国际竞争力的制高点。

美国是全球最早发布大数据发展战略的国家。早在2011年，美国总统科技顾问委员会提交报告指出：大数据蕴含着重要的战略价值，建议成立“大数据高级指导组织”。2012年3月发布了《大数据研究和发展战略》，将其上升到国家战略。在该战略框架下，美国国防部高级研究计划局在整理了先期执行的多尺度异常检测、洞察、灵眼及视频图片分析等多个大数据安全项目之后，启动了大数据与国家安全战略相结合的重要项目“XDATA项目”[4]，致力于大数据核心安全技术的解决方案，以突破大数据技术在军事领域的应用。2013年第13642号总统行政令提出了新的联邦大数据管理准则，指出在数据公开的同时，要保护好隐私安全性与机密性。2014年，总统办公室提交了一份报告《大数据：把握机遇，维护价值》，重点阐述了大数据为美国隐私保护、信息安全和社会发展带来的新挑战。同年，颁布了《2014年国家网络安全保护法案》与《网络安全信息共享法案》，以积极应对日益凸显的大数据安全问题。

2012年6月，英国政府发布了《开放数据白皮书》，以促进公共服务数据的开放使用，专门针对个人隐私保护制定了《个人隐私影响评估手册》。2013年10月公布《把握数据带来的机遇：英国数据能力战略》，重点在提升大数据分析技术、推动产研合作、确保数据安全存储使用等方面制定了一系列措施。

2013年6月，日本政府公布了2013—2020年的《新IT战略——创建最尖端IT国家宣言》，全面阐述了2013—2020年以发展开放公共数据和大数据为核心的国家战略。2014年7月，日本以引进的美国网络防御系统为基础，研究开发数据安全和保护技术。2015年4月，日本审议了《个人信息保护法》和《个人号码法》修正案，以推动并规范“大数据”的安全应用。

2012年7月，澳大利亚发布《信息安全管理指导方针：整合性信息的管理》，为大数据整合中涉及的安全风险提供了指导。同年11月，对《隐私法》中的隐私原则进行修订，规范了私人信息数据从采集、存储、安全、使用、发布到销毁的全生命周期管理。2013年8月发布《公共服务大数据战略》，提出发展大数据的6条原则和战略目标。

2015年，我国国务院印发《促进大数据发展行动纲要》（以下简称《纲要》），系统部署大数据的发展工作。《纲要》部署的三大主要任务之一是健全大数据安全保障体系，强化安全支撑。加强大数据环境下的网络安全问题研究和基于大数据的网络安全技术研究。2016年，国务院发布的《“十三五”国家信息化规划》（以下简称《规划》）中的第四部分“重大任务和重大工程”中明确指出，要“实施大数据安全保障工程，加强数据资源在采集、传输、存储、使用和开放等环节的安全保护”。《规划》着重提出：要加快大数据安全的采集、存储、清洗、分析、发掘、可视化、安全与隐私保护等关键技术攻关。2017年召开了首届中国数据安全峰会，以“共建数据安全，共享安全数据”为宗旨，拟从网络安全、硬件安全、数据安全等全方位打造数据安全生态圈，建立“中国数据安全共同体”。

2010年11月，欧盟通信委员会向议会提交了《开放数据：创新、增长和透明治理的引擎》，围绕数据开放，制定大数据安全的发展战略。2012年1月，欧盟颁布了《通用数据保护条例》。2016年通过了新版《一般数据保护条例》，在数据保护监管与数据保护指令等方面进行了重要改革，该条例将于2018年5月25日全面实施。德国于2009年对《德国联邦数据保护法》进行修改并生效，旨在防止个人信息隐私泄露；2014年8月，通过了《数字议程（2014—2017）》，推动“网络安全”是其中的三大重要进程之一，突出了数据安全保护的共识。法国于2013年2月发布《数字化路线图》，把大数据技术列为5项大力发展的战略技术之一。同年7月，发布了《法国政府大数据五项支持计划》，在数据科学家教育、设立基金等方面制定了措施，以吸引科学家开展研究。

3 大数据安全研究现状及进展

3.1 大数据采集安全

大数据的源头众多、数据多样、数据增长速度快，大数据采集的可信性是一个重要关注点。其面临的安全威胁之一是数据被伪造或刻意制造，如电商交易的虚假评论、互联网应用中的数据伪造或粉饰，有可能诱导人们在分析数据时得出错误结论，影响用户的决策判断力。因此，如何对采集到的大数据进行评估、去伪存真，提高识别非法数据源的技术能力，确保数据来源安全可信，是大数据采集安全面临的一个重要挑战。

目前，基于大数据的数据真实性分析技术被广泛认为是有效的方法。传统信息安全技术无法完全保证数据的真实性，而利用大数据分析技术可以去除噪音，能够提高对伪造或虚假数据的鉴别能力。例如Yahoo公司和Thinkmail公司利用大数据分析技术过滤垃圾邮件；DataVisor公司提供恶意账户识别技术帮助Yelp网站减少虚假评论，此外还有基于内容、基于贝叶斯、基于数据挖掘等多种垃圾邮件过滤技术[5,6]，利用机器学习技术识别电商虚假评论[7]、识别社交网络（新浪微博）中虚假身份[8]、识别社交媒体中的水军[9]等。

数据真实性分析技术类似于数据清洗和数据预处理，可以作为数据融合的基础。针对大数据的海量特征，利用大数据分析技术（包括机器学习和深度学习技术），通过构建数据分类模型，可以获得更高的识别准确率。因此，对于解决如何保证数据的可信度这一难题，除了需要考虑数据来源的真实性，还需要从数据传播途径、数据处理过程等多方面开展研究，这也是未来的一个研究热点。

3.2 大数据存储安全

目前，大数据主要是分布式地存储在大数据平台（Hadoop）中，采用云存储技术，以多副本、多节点、分布式的形式存储各类数据。数据的集中存储和滥用增加了被非法入侵和数据被泄露的风险。因此，如何保障大数据存储安全一直是重点研究的问题。

（1）数据加密

数据加密是保障大数据存储安全的主流方法之一。当前，可以使用的国家商用密码局制定的应用标准包括SSF33、SM1、SM2、SM3、SM4、SM7、SM9等加密标准，对大数据进行加密处理后再存储。使用的技术包括基于属性的加密[10]、同态加密[11]等。然而对于海量数据来说，加解密操作不可避免会带来无法忽略的额外开销，这限制了数据加密技术在大数据存储安全中的应用范围。

（2）磁盘存储安全

随着大数据的广泛应用，大数据平台或数据中心存储数据集中，其安全性异常重要。其中，硬盘是存储数据主要介质设备，针对传统磁盘存储数据的安全性一直是一个研究热点，主要工作集中在防磁盘数据篡改、防数据泄露失窃等方面[12,13]，还包括自存储安全解决方案[14]、网络安全硬盘[15]、安全云盘[16]以及分布式存储系统安全[17]等研究工作。固态硬盘因其延迟低、吞吐量大、能耗低等优点，正逐渐替代传统机械硬盘。新出现的可信固态硬盘技术依靠提供安全存储接口和协议，保证数据的机密性，并细粒度控制用户访问存储的数据，使得数据存储是可以信任的，从而保护了数据的存储安全以及机密性。因此，对于数据密集型应用的数据存储安全需求而言，可信固态硬盘有望成为保障大数据平台存储安全的新基础[18]。

3.3 大数据的传输安全

目前大数据的分析、计算需要云计算平台强力支撑，在将大数据迁移到云环境中进行进一步存储、分析和计算时，可能会失去对大数据的安全控制，导致对安全边界之外的数据缺乏必要的控制，比如一些关键信息系统内外网的数据安全问题，这将进一步导致大数据安全防护问题的复杂化。因此，在各个信息系统内的机密信息不断迁移到云平台的过程中，如何确保数据传输中的机密性和完整性[19]是一个重要挑战。对此，被认同的普遍做法是利用密码学相关技术解决。

3.3.1 数据的机密性方面

加密算法能确保大数据的机密性，但传统的加密算法存在密钥管理复杂、计算开销过大等方面的不足，无法真正体现数据的高价值。一些新兴的加密体制能解决大数据面临的安全问题，但如何适应大数据应用场景的数据规模和数据增长速度仍需要进一步深入地研究。属性加密体制将用户的属性与数据属性相关联，只有满足解密数据属性的用户才能获得加密的数据，因此它能提供数据的保密性，提升数据的服务效率，但该加密算法的效率较低，阻碍了其在大数据中的广泛应用[20,21]。代理重加密算法体制能实现数据解密权限的传递，提供消息的保密性和访问控制的灵活性，不会泄露加密数据的内容，但无法很好地细粒度控制第三方代理者的密文转换权限[22-24]。全同态加密在不解密数据的前提下，能对加密数据进行检索、比较等操作，但对数据的处理效率依然很低[25,26]。可搜索加密技术能实现密文数据的查询和相关排序，但存在查询效率低、支持的数据结构类型单一、扩展性差等问题[27-29]。

3.3.2 数据的完整性方面

越来越多的用户选择云计算平台对海量数据进行存储管理，但同时用户失去了对数据的控制权，无法确保云端数据的完整性。云端存储数据的公开审计受到学术界和产业界的广泛关注，成为云计算安全领域的研究热点[30]。Wang等人[31]基于环签名提出了具有身份隐私保护的群组数据公开审计方案Oruta，但该方案是一种无条件的隐私保护，同时审计的开销与群组用户数量线性相关。Wang等人[32]基于群签名设计了群组数据完整性验证方案Knox，但该方案不支持公开审计。Yuan等人[33]基于多项式认证标签和代理标签提出了一个支持群组用户撤销的方案，但无法抵抗恶意云服务提供商和撤销用户之间的合谋攻击[34]。针对共享数据完整性验证过程中由于执行数据更新和共享用户成员撤销等操作而带来的安全问题，Wang等人[35]提出了一种抗合谋攻击的共享数据动态完整性验证方案，但没有考虑隐私保护问题。然而，这些方案仅实现了支持隐私保护的公开验证、数据动态更新和群组用户动态更新、用户身份追踪等部分功能，目前没有一个审计方案能同时实现上述所有功能，并且具有较低的计算、存储和通信开销。为了保证大数据的可靠性和可用性，云服务提供商根据用户需求对数据进行多副本存储，以提高容灾抗毁和数据可恢复的能力，但对于支持动态群组和隐私保护的多用户多副本数据完整性验证的研究成果较少[36,37]。

在云环境下，混合云融合了公有云和私有云的优点，被广泛使用，因此，如何确保混合云中大数据的完整性和机密性，也将是一个具有挑战且值得深入研究的问题[38]。

3.4 大数据使用和开放安全

当前，各国均把数据看作一种战略资源，在数据开放和共享过程中会产生更大价值。然而，当前针对大数据的安全技术缺乏或安全管理能力不足带来了很多安全问题，比如地下数据的“黑灰”产业链、侵犯用户个人信息安全、数据滥用等问题，严重阻碍了数据共享使用的发展。一方面，在大数据使用环节，在大数据的查询、访问过程中，不严格的权限访问将导致数据泄漏；另一方面，在数据共享开放环节，数据资源跨部门、跨域共享使用，不可避免地导致数据被各使用方存储使用，其中任何一个使用方措施不当，都可能导致数据泄漏。因此，如何保证大数据的共享安全成为了当前的研究热点，这方面研究主要集中在安全访问控制、共享安全和隐私保护等方面。

3.4.1 大数据安全访问控制

访问控制是实现数据安全共享的重要技术手段，大数据及大数据应用的诸多新特征使传统访问控制在授权管理、策略描述、细粒度控制、隐私保护、实施架构等方面都面临严峻挑战[39]。大数据背景下的访问控制呈现出判定依据多元化、判定结果模糊化或不确定化、多种访问控制技术融合化的新特点[40]，进而也促进了大数据访问控制技术的新发展，角色访问控制[41]、风险访问控制[42]、半／非结构化数据的访问控制[43]、针对隐私保护的访问控制[44]、世系数据相关的访问控制[45]、基于密码学的访问控制[46]、基于大数据分析结果的内容访问控制[47]、行为访问控制[48]、协同访问控制[49]和数据联系访问控制[50]等在大数据场景中得以提出或改进创新，多元化且多技术融合的访问控制可以更有效地支持复杂的大数据访问控制需求。

未来，大数据服务于访问控制、大数据的访问控制框架等将成为重要研究课题。尤其是在云环境下，数据管理系统或存储平台内部管理人员存在潜在的数据窃取能力（如金融证券从业人员的数据泄露问题），因此，如何解决云平台内部管理员的特权行为的安全性问题[51]，以防止数据泄密，也是需要重点研究的方向之一。

3.4.2 大数据共享安全

政府信息系统和公共数据的互联共享、各行业领域大数据共享和整合使用是大数据应用的必然趋势，是推动大数据流动性、产业链完善的主要动力，也是大数据核心价值得以体现的关键环节。然而，在数据共享开放发布环节，由于数据资源跨部门、跨管理域、跨省共享使用，不可避免地导致数据被各使用方存储使用。如果其中任何一个使用方措施不当，都可能导致数据泄漏。

针对数据共享安全问题，Munier等人[52]针对跨单位/公司的数据安全，提出了一种面向云存储的文件跨部门使用的自我保护体系结构，使得在提供数据外包存储服务时，确保文档的安全性和私密性。

在信息流的安全控制方面，Krohn等人[53]提出了分散信息流安全控制方法，以控制应用程序和外部世界之间的数据流动。该方法在隐私方面，允许不受信任的软件使用私有数据，而受信任的安全代码控制数据发布。在完整性方面，允许受信任的代码保护不受信任的软件免遭恶意入侵。类似的工作还包括参考文献[54]提出的方法。Pasquier等人[55]使用信息流控制表达和执行云中数据存储位置的需求，以实现将数据流限制存储在特定的地理位置。在共享数据的安全属性标记方面，张大军等人[56]提出了云服务中基于属性加密的数据共享机制，定义了云服务中每个数据拥有者的数据属性。中国通信标准化协会网络与信息安全技术工作委员会云计算安全工作组制定了《面向公有云服务的数据安全标记规范》，主要适用于公有云内和公有云间数据流动的审计和监管所需的标记的表示、生成、使用和管理。

在领域大数据共享安全方面，贾培宏等人[57]针对地理空间数据，提出了基于数字水印技术的数据安全共享方法；张璐等人[58]针对政府大数据，使用数据加密实现数据共享安全的管理。面向医疗大数据， Narayan等人[59]提出云存储中电子健康记录的安全共享管理方案，使患者的健康记录动态和可伸缩地在不同医疗保健提供者之间安全共享数据；雷婉[60]基于属性加密技术提出了访问权和修改权分离的个人医疗健康数据安全共享方案。

当前，数据的安全共享问题成为了大数据应用的阻碍之一，如何使数据拥有者安全地保存数据，同时数据共享发布后被各方使用产生价值，成为数据安全共享要解决的困难问题。

3.4.3 大数据隐私保护

隐私保护是近几年大数据安全研究中的一个主要问题，大数据在商业化应用中如果数据处理不当将对用户隐私造成极大侵犯，而从法律上讲用户应当有权决定自己的信息如何被利用。因此，实现可控的隐私保护无疑是其中面临的一个重大挑战，这也是当前大数据应用面临的阻碍之一。当前，医疗信息隐私泄露、个人隐私信息泄露、位置隐私数据泄露[61]等安全问题使得对大数据隐私保护的研究越来越多，这里主要对数据隐私保护框架、数据匿名处理等内容进行阐述。

（1）大数据隐私保护模型

信息隐私保护模型最早是1999年由Culnan等人[62]从管理学角度提出的，随后涌现了大量的面向静态数据的隐私保护模型[63]、面向动态连续数据发布的隐私保护模型[64-67]。最近，贾焰等人[68]给出了大数据时代的隐私概念和生命周期保护模型。李凤华等人[69]提出了隐私计算的概念，包括隐私计算的定义、隐私计算研究范畴以及隐私计算框架，其中引入香农信息熵对隐私信息进行量化测度。

（2）数据匿名处理技术

数据匿名化方法删除了敏感数据以保护用户隐私，传统的匿名化方法包括k-Anonymity[70]、t-Closeness[71,72]和l-Diversity[73]等方法。然而采用数据匿名时，若匿名化不够，攻击者可能通过多渠道获取关联信息，进而推测出用户隐私，这将导致用户隐私面临极大的泄露风险[74]。如果删除信息过多，会使得大数据应用中面向数据挖掘的分析毫无价值，这会造成基于数据溯源的大数据分析和数据隐私保护之间的矛盾，因为数据溯源需要从数据源头获取大数据，而数据源头往往涉及敏感隐私信息[75]。

（3）社交网络匿名保护技术

发布社交网络数据时，一般将含有用户的标签、属性以及位置信息等个人隐私信息进行匿名化处理，然而攻击者往往可以通过社交网络数据中的社交关系推断出用户之间的关系及隐私信息，这方面的研究有基于图结构的抗结构攻击的网络发布的隐私保护方法[76,77]、基于各类社交关系的用户关系预测[78,79]等。然而，随着社交网络结构的不断演化，用户关系日益紧密，社交网络匿名保护研究将成为一个热门研究点[80]。

当前，从大数据管理的全生命周期角度出发，进一步构建完善的大数据隐私保护体系，明确隐私保护内涵（包括隐私的知情权、遗忘权等）是隐私保护下一步研究的重要热点。其次，从信息安全角度来看，数据溯源和隐私保护之间的平衡仍然是一个值得关注的问题。

3.5 大数据安全销毁或删除

大数据的安全销毁或删除是近年大数据安全的一个重要研究热点。用户对Web服务的依赖性越来越大，如果其存储在云端或云平台的数据删除不彻底，极有可能使其敏感数据被违规恢复，从而导致用户数据或隐私信息面临泄露的风险。传统的数据物理删除的方法是采用物理介质全覆盖的方法，然而针对云计算环境下的数据删除问题，这一手段并不可信。在云环境下，用户失去了对数据的物理存储介质的控制权，无法保证数据存储的副本同时也被删除，导致传统删除方法无法满足大数据安全的要求。因此，如何保证被删除的数据确实被删除，即保证数据可信删除，是一个重要挑战。

在这方面，2005年Perlman[81,82]提出了一种支持两种类型的数据可信删除方法，该方法基于文件的创建时间，使过期文件无法被恢复访问，并支持按需删除个别文件，从而确保了文件被安全删除的可信性。2009年Geambasu等人[83]提出了一个针对密文数据可信删除的方法，设计了一个验证的“消失原型”，能够确保在用户指定的时间期限之后，所有特定数据副本都变得不可读，而不需要对用户进行任何特定的操作，即使攻击者同时获得了该数据的缓存副本和用户的密码和密钥。2010年Yang等人[84]针对保护被删除的数据，提出了基于数据加密标准的数据安全删除策略，使被删除的文件无法被任何人恢复，即使是云存储平台的管理人员。类似的还包括参考文献[85]提出的策略。2013年Cachin等人[86]基于图论和密码学技术，提出了基于无环图删除策略的安全删除数据存储系统模型，该策略通过删除属性和保护类来说明数据销毁，当删除指定的数据属性时，同时也必须相应地删除该属性链接的保护类，从而最终达到数据安全删除的目标。2015年，Xiong等人[87]提出了一种带有时间指定属性的安全数据自毁方案，只有在允许的时间间隔内且与密文关联的属性满足密钥的访问结构时，才可以读取数据。在用户指定的过期时间之后，敏感数据将被安全地自毁。

在云计算环境下，个人数据被第三方（云数据存储平台）缓存、复制和存档，而这些数据往往没有真正被用户控制，在网络和云存储系统中，正确删除数据并清除所有痕迹的操作通常是无法预见的，因此，数据的可信删除技术仍然是未来大数据安全技术研究的热点。

3.6 大数据的管理安全

保障大数据安全除了技术研究之外，管理策略同样重要。大数据的建设是一项有序、动态、可持续发展的系统工程，因此，建设针对大数据的安全保障体系和标准规范至关重要。当前，这方面研究主要集中在两个核心要点：大数据安全保障体系和大数据安全标准化建设。

3.6.1 大数据安全保障体系

大数据应用具有极高的商业价值，也具有较高的社会价值，因此，针对包括政务、医疗、电信、智能交通、智慧城市等在内的不同领域行业大数据特点，研究提出有针对性的大数据安全保障和防护体系显得意义重大，且极具研究价值。

针对政府大数据，张璐等人[58]从共享数据安全管理和数据授权访问两个安全问题角度出发，研究提出了面向政务大数据的安全保护模型。针对医疗领域大数据， 2014年，Chen等人[88]根据医疗数据的信息安全需求，构建了医疗数据面临的安全风险指数的计算方法，该计算方法考虑的因素包括数据来源、数据量、加密算法等。张洪亮等人[89]基于密码学中的身份认证、数字签名和加密等技术提出了医疗大数据安全保障体系，以解决当前健康医疗大数据面临的安全威胁与信任问题。针对电信运营商大数据，陶冶等人[90]分析了电信行业大数据面临的安全现状，并对世界各大电信运营商的大数据安全策略进行了比较。张滨[91]提出了针对电信运营商的大数据安全体系架构，该体系包括安全保障体系的基本执行框架、安全保障体系的能力支撑和效果评测等方面。裴金栋等人[92]基于电信大数据的数据采集、数据标签、数据处理、功能模块和行业应用5个层次，构建了电信大数据全生命周期的安全管控体系。针对智能交通大数据面临的安全威胁和挑战，作为欧盟第七框架计划（FP7）资助的研究项目的一部分，Schreiner等人[93]提出了用于管理智能交通系统的安全体系架构，该体系实现了对象管理组的数据分发服务和高级访问控制。宋珊珊[94]提出了应对智能交通大数据安全的管理策略，涵盖了存储安全、应用安全、管理安全等内容。针对智慧城市大数据，陈红松等人[95]提出了安全管理策略和框架。针对大数据应用安全的防护体系，吕欣等人[96]提出了大数据安全保障体系架构和评价指标体系，保障体系架构覆盖了战略保障、运行保障、技术保障、组织管理和过程管理5个层次，评价指标体系覆盖了建设情况、运行情况和安全态势3个方面。

3.6.2 大数据安全标准化

针对大数据安全合规方面的需求，大数据安全的标准化体系建设对规范和推动大数据产业的安全发展具有重要作用。当前，国内外标准化组织都认识到大数据的安全问题，并积极开展大数据安全的相关标准研究制定工作。

（1）我国大数据安全标准化建设

我国开展大数据安全标准工作的组织主要是全国信息安全标准化技术委员会， 2017年4月，该组织发布了《大数据安全标准化白皮书（2017）》，白皮书中提出从基础标准、平台和技术、数据安全、服务安全、行业应用5个方面构建大数据安全标准体系框架，规划设置了我国的大数据安全标准体系的工作路线。大数据安全标准体系框架如图1所示。

图1 大数据安全标准体系框架

在该体系框架下，目前正在研究制定的国家标准有《大数据服务安全能力要求》《信息安全技术大数据安全管理指南》《政府数据数据分类分级指南》《政府数据数据脱敏工作指南》等系列标准，并提出建议研制《大数据基础平台安全要求》《大数据交易服务安全要求》《大数据安全能力成熟度模型》等系列标准。

（2）国际上大数据安全标准化建设

国际标准化组织/国际电工委员会标准化组织（ISO/IEC）JTC1正在开展与大数据安全直接相关的标准——ISO/IEC 20547《信息技术大数据参考架构第4部分：安全与隐私》，涉及大数据安全内容。国际电信联盟电信标准化部门（ITU-T）已发布了涉及大数据安全的标准《大数据数据保全概述和要求》，目前正在推进研制的大数据安全标准有《移动互联网服务中的大数据分析安全要求和框架》《大数据即服务的安全指南》《电子商务业务数据生命周期管理的安全参考架构》等。美国国家标准与技术研究院（NIST）已经完成并发布了NIST SP 1500-4《第4册安全和隐私保护》[97]。

总之，在确保安全合规的情况下，如何规范指导各行业的大数据服务提供商，构建适合不同领域大数据的管理安全防护体系，以提供安全的大数据服务，仍然是急需解决的关键安全问题。

4 结束语

在大数据时代背景下，社交网络、健康医疗、智能交通、金融、电信等各行业大数据蕴涵的巨大经济社会价值不断被学术界、产业界认同。然而，大数据安全问题成为了当前大数据产业资源开放共享程度低、大数据价值难以被有效挖掘利用的主要阻碍之一。

从科学研究角度，本文重点从大数据的全生命周期管理角度阐述了大数据在采集、存储、传输、共享、销毁和管理策略等方面的技术研究现状，分析了其发展趋势。未来大数据安全技术研究仍然面临着许多挑战，如何构建可控、可信、可管的大数据安全防护体系成为了大数据安全研究需要解决的重要科学问题。比如如何使企业既能安全保存大数据，又能科学挖掘利用数据价值，即数据安全与共享的均衡问题；如何使大数据既能被安全共享，又能保护个人隐私信息，即共享和隐私保护的均衡问题；如何不断完善大数据安全标准，推动国家“十三五”规划中关于大数据安全保障工程的实施建设等，这些细分的问题都是未来需要研究解决的。

作者 简介