文/柯善学编译
数据管理一直是任何关键IT计划成功的关键。数据管理学科已经停滞不前的传统观念,正在受到挑战。
在过去十年的大数据运动中,重点是数据积累。在未来十年,重点将转向数据开发利用。如果数据没有得到适当的保护、跟踪、管理,它可以很快从资产变成负债。
本规划指南评估了2020年数据管理的主要技术规划趋势,并概述了开发成功数据架构的重要规划考虑因素。
数据管理的首要任务是数据架构现代化。云部署正在推动数据管理领域的巨大发展。组织需要同时处理在场内、边缘、多个云供应商之间传播的多结构数据。随着运行和分析的融合,数据管理方法正在统一。随着企业功能变得越来越数据驱动,人工智能(AI)和机器学习(ML)成为数据管理产品中的“赌注”。高级分析需要应对实时事件流,而非批处理数据。
所有这些数据管理领域的发展趋势,推导出了在《Gartner 2020年规划指南 | 安全和风险管理》中给出的数据安全结论:使用以数据为中心的安全架构方法来关注信息安全(information security),而非系统安全(system security)。使用一个以数据为中心的视图,覆盖您的核心安全架构。
当然,按照笔者观点:Gartner的技术路线一贯具有前瞻性甚至超前性。考虑到国内安全基础尚有差距,建议在展望Gartner先进理念时,仔细看清创新理念与现实基础之差距,注重前瞻性与回顾性兼顾,新探索和补基础兼顾,确保现实基础足够坚实,避免搭建“空中楼阁”。从这个角度来看,信息安全需重视,系统安全必须补。
译文3万多字,为增强可读性,精简至半数内。
本文目录
一、数据管理总体趋势
1)关键发现
2)主要建议
3)总体趋势
二、需要跨越边缘、云、场内的端到端数据管理架构
1)扩展数据架构,以摄取流媒体和云端外部数据
2)数据集成策略现代化
3)提供多种数据交付方式,包括虚拟化和逻辑数据架构
4)整合数据运营(DataOps)
三、数据存储将容纳更复杂的用例
1)部署多模式数据存储,以减少混合持久化
2)加强概念建模,为非关系型数据开发语义层
3)在对象存储上部署数据湖
4)探索多结构数据的元模型
5)优化内存和非易失性内存
四、数据管理变革将推动新的IT运营模式
1)评估“即服务”选项(如dbPaaS)
2)增强具有自动化能力的数据管理工具
3)在多云上使用开放标准
五、新法规和合规性将要求全面的分布式和协调的数据治理
1)在分布式数据管道中部署元数据工具
2)通过数据即服务,实现数据民主化
六、人工智能/机器学习将增强数据管理
1)在数据管理管道中使用支持AI/ML的工具
2)优化数据架构以更快地操作ML模型
一、数据管理总体趋势
数据管理架构和技术继续快速发展。它们的目的是提高效率,但要求对安全风险有更深入的了解。数据和分析技术专家必须准备采用创新技术,以满足当前业务需求和未来需求。
1、关键发现
■ 云部署正在推动数据管理领域的巨大增长,这将导致架构、流程、工作流和角色的变化。云引入了无服务器和增强能力,这将进一步改变数据管理流程和角色。
■ 随着运行和分析选项的融合,数据管理方法正在统一,更多的数据库提供多模式和实时流媒体能力。这导致更加复杂的用例,从仅仅收集数据转向连接和利用数据。
■ 当组织需要处理在场内、边缘、多个云供应商之间传播的多结构数据时,数据管理的复杂性增加,从而导致更大的数据治理挑战。
■ 随着人工智能(AI)和机器学习(ML)成为数据管理产品中的“赌注”,它们为数据和分析架构师引入了新的选择和挑战,架构师必须改进其提供服务的方式,以满足业务需求。
2、主要建议
为了提供有效的数据管理解决方案,数据和分析技术专家应:
■ 在支持场内数据架构的同时,拥抱公共云。新的绿地项目应该设计云原生架构来处理数据重力、治理和财务管理。
■ 部署涉及实时事件流的高级分析的实用用例,以在当前数据上交付更快的结果,而不是前一天的批处理数据。技术选择应该扩展业务能力,而不是被炒作所驱使。
■ 将端到端的数据治理嵌入到所有数据管理现代化计划中,以满足不断变化的全球合规性法规。
■ 吸收新的技能和角色,支持混合多云解决方案,通过投资新技术或外部招聘,包括边缘技术和人工智能/机器学习。
3、总体趋势
数据管理一直是任何关键任务IT计划成功的关键。这一领域充满了创新和新的进步,可以颠覆您当前的数据管理方法。数据管理学科已经停滞不前的传统观念,正在酝酿中的每一点受到挑战。
数据管理技术创新代表着对不拥抱它们的组织的生存威胁,但其实也是前所未有的机遇。这些机遇往往被伪装成挑战。
创新无处不在——边缘、云、场内——主要支持无摩擦的数据移动。随着数据和分析技术专家通过部署新的工具和技术来解决数据竖井带来的灾难,存在一种风险,即组织最终会在不同的业务部门中形成多个知识竖井。
2018年全球DBMS市场增长18.4%,达到460亿美元。增长为72亿美元,其中AWS和微软Azure占增长的70%以上。云环境下数据库管理系统的发展是不可阻挡的。2018年的23%的DBMS市场,超过100亿美元,在云端。
尽管新的数据库管理系统技术受到了广泛关注,但传统的数据库管理系统供应商仍然占据了最大的市场份额,如下所示:
■ DBMS供应商(前五名是Oracle、Microsoft、AWS、IBM和SAP):86.7%
■ 非关系型(包括Apache Hadoop):13.3%
表1显示了基于Gartner客户调查的2020年出现的顶级数据管理趋势。
表1-十大新兴数据管理趋势
序号 | 领域 | 趋势 |
1 | 云 | 从上面的市场份额数字中可以看出,向云技术进军是不可阻挡的,这体现在云部署的数据存储和数据库平台即服务(dbPaaS)的快速增长上。然而,在可预见的未来,重点将放在混合多云上。 |
2 | 自动化 | 在数据管理技术中不断增加的AI/ML部署,使它们更加自治和全面可管理,从而导致更多的时间花在业务战略计划上,而不是管理产品上。 |
3 | 治理 | 通过基于语义层的数据目录实现“数据民主化”,并通过基于元数据的数据治理建立数据血统,已成为满足法规遵从性要求的当务之急。 |
4 | 用例 | 从结构化数据和批处理扩展到多结构数据和流处理,会影响架构的每个组件:接收、持久性、分析、操作化。 |
5 | 数据管道 | 这里的趋势包括自动化数据集成以支持扩展数据源和水槽(sinks),并利用ML和AI来增强管道设计。 |
6 | 数据访问 | 随着数据虚拟化技术的成熟,逻辑数据仓库(LDW)通过语义目录提供低延迟的数据访问。 |
7 | 人工智能/机器学习 | 商业智能(BI)和高级分析在DBMS中的融合正在增加,因为从更熟悉的SQL中调用的函数来训练数据模型变得更加高效。 |
8 | 许可 | 开源数据库正变得无处不在,许多组织都在强制使用它们。开源可以通过社区支持或通过公共云提供商提供,这使得软件开发人员能够使他们的许可模型更具保护性。 |
9 | 基础设施 | 硬件方面的进步,如非易失性存储器,允许在非常低的延迟下在单个节点上大规模扩展数据库。随着采用率的提高,这些解决方案的成本在2020年将继续下降。 |
10 | 数据运维 | 通过无服务器、容器、编排进展,可以更有效地部署和管理数据架构,这将支持混合多云趋势。这也将通过“单块玻璃版板”简化数据基础设施的管理。 |
此外,延续之前几年继续增长的趋势包括:
■ 持续关注事件流架构,尤其是基于时间序列的用例,如物联网(IoT)
■ 以更安全、更受治理的方式,重新合并数据湖
■ 基于图形处理单元(GPU)、账本数据库和图形数据库的数据管理技术改进
■ 专注于为预定用例提供高级分析和端到端解决方案,而不是专注于在没有指定用例的数据湖中收集尽可能多的数据:高级用例示例包括客户旅程分析或客户360、安全数据湖、异常和欺诈检测分析。
本规划指南评估了2020年数据管理的主要技术规划趋势,并概述了开发成功数据架构的重要规划考虑因素。图1总结了本研究中审查的2020年关键数据管理规划考虑因素。
图1-2020年数据管理的主要规划考虑因素
图中的规划趋势,正是后文的目录。
二、需要跨越边缘、云、场内的端到端数据管理架构
通过内部和外部来源产生的数据量和速度比以往任何时候都要快。如果数据没有得到适当的保护、跟踪和管理,它可以很快从资产变成负债。此外,云、地、边缘之间的边界正在消失。因此,数据架构必须相应地进行调整。选择供应商和技术是一项挑战,因为功能和市场的界限越来越模糊,而且数据管理越来越多样化。
数据和分析技术专家2020年最大的主题之一将是处理混合多云环境。注意到,在2019年,随着Cloudera和Hortonworks的合并,MapR技术被惠普企业(HPE)收购,美国的ApacheHadoop供应商选择大幅缩水。这使得许多组织重新评估了他们在Hadoop生态系统中的投资。
在过去十年的大数据运动中,重点是数据积累。在未来十年,重点将转向数据开发利用。您的架构需要具有处理当前和将来用例的灵活性,且能够提供高业务价值的成本效益。
数据和分析技术专家的角色,将从技术架构师转变为专注于帮助业务提高竞争力和效率的技术创新者。
现在,数据和分析架构现代化的目标更加明确了。众所周知的概念,如LDW、多模式数据库、数据治理的作用,正在帮助推动现代化趋势。然而,一个增加复杂性的新趋势是数据库管理系统向云的疯狂迁移。这就需要数据和分析技术专家构建解决方案,解决一些在可预见的将来仍在场内使用的用例,以及一些将在云中使用的用例。
技术专家如何构建其数据管理战略,将决定他们在满足当前需求和未来需求方面的成功程度。传统的组织关注的是结构化数据,包括电子表格或关系数据,这些数据有不同的字段来识别和分类内容。然而,医疗保险等行业的组织现在开始利用起搏器和健身设备等可穿戴设备的数据,开发有助于识别模式、降低医疗索赔和成本的模型。这些数据可以是半结构化或非结构化的,例如传感器数据、电子邮件、日志或流数据,没有可识别的模式。
数据架构的现代化将继续是首要任务。技术专家必须采取措施,评估整个管道的机会(见图2)。
图2-数据和分析连续体
1、扩展数据架构,以摄取流媒体和云端外部数据
需要实时处理大容量事件流的应用程序,正在突破传统数据处理架构和基础架构的限制。企业发现,为了保持竞争力,对动态数据采取行动变得越来越重要。数字转型推动了对当前发生的事件的分析,负责在数据管道中采用流处理架构的技术专家必须而不是对昨天或上个月发生的事件的分析。
到2020年,从物联网、金融、网络安全到零售等多个领域的实时行动能力,将成为SLA的关键要素。企业希望采用流式架构,再加上尖端的数据处理引擎和框架,以创建流式数据应用程序。这被称为许多名称:实时分析、流分析、复杂事件处理(CEP)、实时流分析和事件处理。
流处理技术源于企业的需求,这些企业经历了数据量、速度和种类的巨大激增,迫切需要快速吸收和评估这些数据,以作出战略性业务决策。流式处理可以连续处理流入的数据。
与传统系统的“静态数据”批处理模式相比,通过流式数据应用程序处理和分析动态数据的能力已成为组织的一个关键区别。近年来,流媒体的重要性大大增加,因为它提供了一种竞争优势,可以缩短数据到达和数据分析之间的时间间隔。一些洞察在事件发生后立即变得更有价值,但其价值随着时间的推移而迅速降低。
在端到端的数据架构和数据流管道中,可以跨系统的不同层利用流——从基于流的数据摄取和集成到流处理、流分析和ML。图3显示了端到端流应用程序的典型组成,该应用程序由用于数据捕获的流摄取、用于数据处理的流处理、用于流式洞察交付的流消费等组件组成。
图3-流处理架构组件
2、数据集成策略现代化
考虑到越来越需要确保具有不同延迟和异构数据格式的不同应用程序集之间的无缝连接,数据集成空间中出现了一组满足各种用例的集成模式。数据和分析技术专家必须专注于数据集成战略的现代化,为新的数据源、用途、格式、系统和技术做好准备。行业趋势带来了适应、转换和集成各种数据类型和格式的新需求。
现有的集成模式包括:
■ 企业集成平台即服务(EiPaaS)
■ 混合集成平台(HIP)
■ 企业应用集成(EAI)
■ B2B集成
■ API
■ 管理集成服务
数据和分析技术专家在规划工作中应重点关注的关键领域包括:
■ 制定现代数据集成策略:开发能够处理不同数据集格式和不同延迟的现代数据集成策略。构建一个能够处理结构化、半结构化、非结构化数据的集成管道。这项工作包括开发一个集成框架来读取这些不同的数据,对其进行管理,并对其进行处理/传播以供使用。
■ 使用NLP(自然语言处理)分解各种复杂内容:分析非结构化数据的需要,导致了对NLP的更多采用。随着企业寻求从不断增长的非结构化数据中获得价值,它们需要探索新的方法或技术(如NLP),将这些数据转换成更有意义的形式。NLP能够自动从非结构化文本中提取有意义的上下文信息。NLP可用于检查文本,并将其分解为在数据库(关系或图形)中持久化的语义层。在图4所示的示例中,包含分析师姓名和覆盖区域的描述性文本已转换为数据库结构,该结构可用于方便的搜索和报告。
图4-将文本转换为数据库结构
3、提供多种数据交付方式,包括虚拟化和逻辑数据架构
以最优化的方式为企业提供数据访问,这是一个漫长的过程。这条旅途有许多形式,例如:
■ 公司或企业数据仓库
■ 数据湖
■ LDW
LDW将各种数据集市和/或现有企业数据仓库(EDW)与最新的数据湖部署相结合,既包括场内,也包括在云上。
联合存储库中数据的位置比过去更加灵活。组织使用LDW方法将已经移动到云中数据仓库的传统数据仓库基础设施,甚至数据仓库即服务,与其他形式的分析数据处理相结合。
LDW是一种架构设计。它不是购买的商品。
LDW允许更快地探索新的数据资产,同时将其与现有的数据资产相结合。LDW既是一种演进,又是现有数据仓库架构实践的一种扩展。这也是一种启动数据湖计划并“向后”构建的方法,以便根据需要将数据湖与传统数据仓库解决方案相结合。它反映了这样一个事实,即不是所有的分析、查询和报告需求都可以由传统的、集中的、存储库风格的数据仓库来支持,反之,也不是都由数据湖实现来支持。它意味着一个更广泛和更具包容性的数据分析管理解决方案。
Gartner估计,到2019年底,所有数据仓库部署的18%将是LDW。LDW的采用正在增加,因此数据和分析专业人员应准备引入此选项。
提供独立的数据虚拟化中间件工具的供应商包括AtScale、Denodo、Dremio、IBM、Informatica、Information Builders、Oracle和TIBCO软件。
端到端架构的“组织”阶段的核心是LDW。
4、整合数据运营(DataOps)
今天的数据是大的、快的、复杂的和变化的。它创建得更快,数据更改得更快。对数据提出的问题变化很快,需要在几分钟和几秒钟内做出决定,而不是几天和几小时。
支持决策的数据,必须以正确的格式,交付给正确的团队,并在正确的上下文中。数据是一种资产,但如果没有使用在正确的上下文和时间框架内,数据可能成为一种负债。
2019年最活跃的创新领域之一是数据管道的编排,这些数据管道将跨越边缘、场内和云的多个不同数据源的数据连接,到不同的消费者和应用程序。这些数据编排引擎需要持续的监视和报告。
DataOps概念已经成为解决企业中数据和分析项目的操作和部署挑战的解决方案。DataOps正成为推动持续集成(CI)和持续部署(CD)的一个重要中心。DataOps将传统的DevOps概念(敏捷性、CI/CD和最终用户反馈)应用到数据和分析工作中。
DataOps是将DevOps实践应用于数据管理、数据集成、数据处理,以缩短端到端数据洞察的周期。它以配置驱动的方法关注过程和数据流的自动化、协作、监控和可重复性。
DataOps可以跨越数据和分析技术专家应探索使用DataOps,来实现端到端数据平台的操作,以建立一个数据驱动的组织。
图5显示了一个总体架构,使用DataOps跨不同环境编排、管理和自动化数据架构和数据管道。
图5-使用DataOps编排、管理和自动化管道
DataOps可以跨越从数据摄取到数据传递的整个范围。这是一个复杂的组件链。因为这是一个新生的过程,所以没有端到端的工具或产品为DataOps提供一个全面的解决方案。
三、数据存储将容纳更复杂的用例
如今,数据存储的量级越来越大,数据管理系统也必须相应地在更短的时间内处理大量数据,以便能够对当前数据而不是历史批量数据进行报告和高级分析。更大的数据量、速度、多样性的三重影响,为新的用例打开了大门,这些用例直到最近都是不可想象的。
传统上,Gartner分别处理运营和分析用例,因为专门的产品架构已经发展到满足这些用例所需的基础架构的不同需求。然而,运营DBMS(OPDBMS)或分析数据管理解决方案(DMSA)幻方图中包含的供应商,几乎有75%同时支持分析和运营用例。因此,数据和分析技术专家必须全面考虑生态系统,以便从数据和分析环境中最有效地获取价值。
1、部署多模式数据存储,以减少混合持久化
当NoSQL数据库时代来临时,人们不禁想到,零售网站可以部署文档数据库来存储产品目录,用关键值数据库来存储用户会话信息,用搜索数据库来加速客户交互,用关系数据库来处理金融交易。这个想法后来被称为混合持久化(polyglot persistence)。它类似于多语言应用程序,开发人员可能使用各种计算机语言来开发应用程序。
虽然同类最佳的数据存储提供了出色的功能,但它们也带来了许多风险。这些风险包括集成各种技术的复杂性、维护不同的技术、多个产品的许可和维护成本等。因此,许多数据库现在提供了存储多种类型数据结构的能力。
从大型机到RDBMS,到非关系数据库,再到多模式数据存储,这是一段漫长的旅程。减少数据库过剩的最常见的机会,来自于执行运营和分析工作负载的折叠数据库。这种方法称为多模式数据库(见图6)。
图6-多模式数据库
多模式数据库是用于不同类型数据的统一数据库,其设计目的是支持针对单个集成后端的多个数据模型。多模式数据库可以支持文档、图形、关系和键值模型。多模式数据库的概念并不新鲜。对多模式数据库的需求,产生于这样一个事实:组织没有无限的预算来吸收多种数据库技术,投资于集成这些技术,并获得难以获得的专业技能。
多模式数据库支持:
■ 单个后端中的多个数据模型,使用适用于每个模型的数据和查询标准
■ 所有支持的数据模型之间的无缝查询
■ 对应于数据模型的索引、解析和处理标准
Gartner预计大多数DBMS都将转变为多模式数据库。
2、加强概念建模,为非关系型数据开发语义层
几十年来,数据模型一直是数据管理的关键。现在已经知道,数据模型可以应用于数据管理架构的更多部分,如图7所示。在图中,填充圆表示一个制品是一个数据模型,空白圆表示一个制品与一个数据模型密切相关。
图7-数据模型和相关制品
新的问题是,关系元模型的历史影响,在建模方面产生了与当前现实和数据分析技术专家的当前需求不一致的最佳实践。因此,技术专家应注意以下事项:
■ 如果数据已经存在,计划自动发现一些数据模型。
■ 如果数据不存在,则手动构建数据模型。并不是所有的数据模型都能被自动发现。
■ 建立概念建模实践,并将其与逻辑建模分离。
3、在对象存储上部署数据湖
向云移动的组织越来越多地采用基于云的对象存储作为数据湖的主要数据存储。对象存储在规模上提供了卓越的经济性,确保了高可用性(HA)和高耐用性,并针对数据密集型应用程序进行了优化。对象存储还具有丰富的元数据标记功能,这与传统的存储选项(如网络连接存储(NAS)或存储区域网络(SAN))不同。对象存储的普及,导致使用基于Hadoop分布式文件系统(HDFS)的数据湖的重要性成比例下降。
对象存储是指每个文件都是对象,而不是文件系统中的文件。对象存储不需要文件系统和文件格式。每个对象有三个组件:唯一的键、实际的数据有效负载、元数据。元数据可以是系统生成的,也可以是用户定义的。元数据通常存储在嵌入式关系数据库中,可以使用REST API进行查询。请注意,对象存储往往是“最终一致的”。
当公司试图利用低成本和灵活的存储选项时,基于云的对象存储正在增长。尽管云对象存储对云中的存储工作负载越来越有吸引力,但组织也希望数据更加接近他们。这有助于推动分布式文件系统的采用,这些文件系统可以使云端驻留的数据看起来好像存储在本地。
在接下来的几年里,Gartner预计集中式数据湖将大规模地转变为分布式数据湖,分布在场内和多云上。其思想是,无论这些数据存储位于何处,都可以在单个全局命名空间中使用它们,并像单个存储库一样进行管理,而无需更改应用程序功能。
图8显示了具有对象存储的下一代数据存储架构。
图8-下一代数据存储架构
最常见的云对象存储包括:
■ AmazonS3:这是使用最广泛的对象存储,有一个定义良好的API。
■ Azure数据湖存储第2代:它具有作为对象存储和文件系统的功能。这是一个非常新的特性,需要在组织尝试在整个企业中使用它之前进行规模测试。
■ 谷歌云存储(GCS):这是在谷歌云平台(GCP)上提供的。
4、探索多结构数据的元模型
组织应该积极地追求多模式数据存储策略,但是许多用例从专门的数据存储中受益。我们将看到以下数据存储获得更高的吸引力:
■ 图形数据库
■ 时间序列和地理空间数据库
■ 账本数据库
1)图形数据库
图形数据存储是数据管理中增长最快的类别之一。因为它们在建模方面是健壮的和灵活的,并且比传统关系数据库更有效地查找和遍历关系。将图应用于复杂的领域通常可以简化建模,并使其直观和可伸缩。
关系是图形数据存储中的头等公民。通过将节点和关系的抽象集合到连接的结构中,图形数据存储能够构建简单但复杂的模型,这些模型与问题域紧密映射。
图形数据存储是直观的,因为它们反映了人脑的思维方式和映射关联。图形数据存储可以在线更改模式,同时继续提供查询服务。关系数据库无法支持在现代数据管理时代常见的频繁的模式更改。
2)时间序列和地理空间数据库
与图形数据库一起,时间序列数据库(TSDB)代表了增长更快的数据存储类别之一。此外,组织希望将时间序列的实时分析与地理空间功能结合起来。全球增长最快的一些公司需要对实时数据进行多维分析,以便在能够提供亚秒响应时间的答案的数据库上运行业务。
时间序列数据库。时间序列数据无处不在。它由移动设备和传感器生成,已经成为跨多个域和数据库类别的常见用例。度量、事件和其他基于时间的数据以指数级的速度生成,并且对分析时间序列数据的要求越来越高。时间序列数据库提供了一个平台、工具和服务,用于收集和计算度量和事件数据,并使用可视化、警报和通知对数据进行分析和操作。时间序列数据库使企业能够更快、更容易、更大规模地开发下一代监视、分析和物联网应用程序,以快速实现真正的业务价值。图9显示了大多数时间序列数据库的高级别架构。
图9-时间序列数据库的架构
地理空间数据库。许多应用程序中可用的位置数据量迅速增加,因此有必要建立专门的工具、框架和数据库来处理大规模空间数据和空间查询。GPS设备和智能手机产生了大量的定位数据。地理空间数据无处不在,它存在于移动设备、传感器、日志和可穿戴设备中。在许多预测分析应用中,这些数据的空间上下文是一个重要变量。关系DBMS不适合存储和操纵地理空间数据。地理空间数据的最好例子是Uber的用例,其中需要提供数据的细粒度地理空间切片和切割,以了解数据的某些地理时间段的市场属性。
3)账本数据库
账本数据库提供了一个透明的、不可变的、可加密验证的事务日志,该事务日志归中央可信机构所有。此类数据库跟踪数据更改,并保持一段时间内更改的完整且可验证的历史,以确保数据完整性。账本数据库是一个非关系数据库,可以使用面向文档的数据模型存储半结构化数据。账本数据库还实现ACID属性,从而保持事务的有效性和安全性。
Gartner估计,账本数据库将在未来几年内出现,并在至少20%的许可区块链市场份额中获得吸引力。
5、优化内存和非易失性内存
持久内存代表了转换数据架构的新机会。英特尔的这项专有技术于2019年上市,但随着价格下降,预计将成为主流。持久内存是一种存储技术,它通过以最终与固态驱动器(SSD)相当的价格,提供极低延迟的大容量存储来增强动态随机存取内存(DRAM)。然而,与DRAM不同,持久性内存是非易失性的。它也被称为3D XPoint、Intel Optane DC永久存储器、非易失性随机存取存储器(NVRAM)、永久存储器(PMEM)。
从历史上看,DRAM一直是一种昂贵但可靠的字节可寻址存储器解决方案,但它缺乏成本更低/密度更高但速度较慢、用作块可寻址存储器的非易失性NAND闪存的经济性。尽管闪存提供纳秒级的数据访问,但持久内存提供微秒级的访问。
图10显示了各种内存和存储选项。
图10-内存和存储层次结构
持久内存有两种可用模式——理解这一区别非常重要,因为数据库供应商之间的支持是不同的。这两种模式是:
■ 内存模式:许多数据库管理系统支持这一点,因为它不需要对数据库管理系统代码进行任何更改,并且有助于增加内存池。在这种模式下,没有持久性。
■ 直接应用:这是一种优化模式,DBMS系统调用必须重新编码才能利用内存。此选项支持持久性。尽管该软件现在可用,但它只能在选定硬件供应商的测试系统和GCP上使用。
四、数据管理变革将推动新的IT运营模式
计算的历史中包括许多发明,旨在让技术人员更多地关注业务现实,而不是技术特性。尽管这些发明为技术专家带来了更好的经验,但也带来了对新的运营模式和角色的需求。例如,从机器语言到汇编语言再到高级语言的发展,就需要先进的调试技术和工具。同样,向模型驱动开发的转变,需要高级建模符号、自动正向工程工具以及使它们工作的专家。
这种模式将继续下去。例如,转向云和“即服务”的解决方案,将继续将大部分运营工作负载从企业IT推到基于云的供应商身上。这一加速向云的转变,将从两个方面改变IT运营模式:
■ 它将带来新的机遇:新的机会是显而易见的:技术专家将能够花更多的时间关注业务问题,而让云供应商处理繁重的运营负担,如硬件配置和性能调整,并允许企业IT避免手动创建制品,如数据集成流。
■ 它将赋予新的职责:新的职责是不太明显的——因此更重要的是包含在你的计划中。这些新的职责包括安全地管理多云环境,仔细监视和控制云资源的自动供应如何影响开销。
1、评估“即服务”选项(如dbPaaS)
DBMS供应商正在云计算的基础上进行创新,并将DBMS部署选项和支持模型转移到基于云上。DBMS供应商对dbPaaS产品的重视并没有被现代企业忽视。实际上,我们看到在2019年dbPaaS被广泛采用。这种面向dbPaaS的趋势将继续下去,到2023年,Gartner估计75%的数据库将在云平台上。
dbPaaS提供了一个诱人的选项,其中数据库供应商负责处理大多数管理任务,让组织的场内数据库管理员专注于更多增值的业务计划。
“即服务”云选项的潜在好处可以分为两大类:
■ 成本和效率(主要是财务问题):这包括CAPEX与OPEX、总拥有成本(TCO)、降低复杂性和杠杆率的考虑。
■ 灵活性和创新(主要是机会问题):这通常包括关注速度、上市时间以及业务和IT灵活性。
dbPaaS的好处包括:
■ 减少前期投资
■ 使用付费定价
■ 持续自动软件更新
■ 动态放大和缩小计算和存储
大多数企业都在使用多个公共云供应商,多云架构为数据库和以数据为中心的解决方案提供了一些潜在的好处,但涉及更大的复杂性、成本和努力。
数据和分析技术专家应:
■ 使云成为企业数据库系统的默认部署选项。对保留在场内的任何数据库进行调整。在云中执行新的开发,并在可行的情况下将遗留的场内数据库迁移到dbPaaS。
■ 拥抱dbPaaS。将数据库管理员(DBA)从低级数据库维护任务转移到解决方案架构、性能优化、数据库DevOps、安全性和合规性,以及使用新的数据相关技术进行研究和开发。
■ 在公共云平台和您需要的特定数据库类型上进行标准化。通过标准化策略控制云的采用。
■ 采用多供应商但单一云架构的方法,缓解云供应商锁定的问题。将单一云架构作为数据库和以数据为中心的解决方案的首选,并仅在多云解决方案架构的优点是引人注目的或对多云的需求是不可否认的情况下,使用多云解决方案架构。对多云采摘、系统健壮性、云中立性和可移植性,设定现实的期望。选择每个云平台的最佳部分,往往是不值得的。对于企业数据库和以数据为中心的解决方案,完全的云中立性和可移植性通常不适用于企业用例。
选择实现业务目标的最简单的多云架构。只有在经过彻底的原型设计和详尽的测试之后,才能采用先进的多云架构。
2、增强具有自动化能力的数据管理工具
供应商正在添加ML功能和AI引擎,以使自配置和自调整过程无处不在。这些过程使许多手动任务自动化,并允许具有较少技术技能的用户在使用数据时更加自主。通过这样做,高技能的技术资源可以专注于更高价值的任务。这一趋势正在影响所有企业数据管理类别,包括数据质量、元数据管理、MDM、数据集成和数据库。
新的基于ML和AI的数据管理工具可以分析使用统计信息,并从数据利用率中推断出紧急元数据,从而构建模型来自动化任务。数据和分析技术专家可以从自动化和自主能力的提高中获益。
3、在多云上使用开放标准
数据管理标准是开放标准、事实标准和常用技术的结合。尽管数据管理市场存在着不同程度的标准化,但不管标准如何,企业都可以通过使用它们获得显著的效益。好处包括劳动力市场有更多的熟练开发人员和从业人员,并减少了一些供应商锁定。
1)数据库标准和以数据为中心的解决方案
对于数据管理来说,最重要的标准是与数据库相关的标准。这些标准中最突出的是结构化查询语言(SQL)。事实证明,SQL在现代数据架构中具有惊人的持久性。与所有其他查询和编程语言相比,它能够提供基于集合的数据处理,这使得它在数据管理方面具有独特的功能。
其他数据管理标准包括ODBC/JDBC、JSON、HTML、XML和REST。这些标准将继续在以数据为中心的企业解决方案和基于web的应用程序中展示其有用性。物联网系统和微服务架构(MSA)使用这些标准,以及附加的消息格式,如AMQP、MQTT、Apache Thrift、Google协议缓冲区或Apache Avro。
2)虚拟化
虚拟化是云计算的基础,即使虚拟化不能被视为一个标准,虚拟化无疑是一种普遍使用的技术,它可以降低技能需求并减少供应商锁定。
随着抽象级别的提高,一系列的虚拟化方法被引入。这些方法以更精细的粒度提供资源,以更好地利用资源,同时还支持新的运行模型。每一种方法都改进了资源分配给虚拟化应用程序的程度:
■ 虚拟机
■ 容器
■ 无服务器
这三种选择不是相互排斥的,而是相辅相成的。容器编排平台通常部署在虚拟基础设施上,一些无服务器计算方法基于容器。
3)多云
在大多数大型企业中,使用多个公共云平台是现实。多云解决方案必须精心设计,以确保收益大于成本。将要求技术专家为其企业数据库和以数据为中心的解决方案设计和实施有效的多云架构。
4)云中立性和可移植性
对多云中立性和可移植性有正确的期望是很重要的。云应用程序可移植性是一个有价值的目标,但它必须以实用主义为基础。
云应用的可移植性很难实现,云数据库的可移植性更是难上加难。云数据库可移植性的一个选择,是尝试对数据库使用容器技术。然而,在容器中可靠地运行操作数据库工作负载的能力尚未完全成熟。
五、新法规和合规性将要求全面的分布式和协调的数据治理
越来越多的组织将努力遵守严格的法规,特别是保护消费者隐私的法规。合规性和法规是改进公司数据资产治理的明显驱动力。无法满足合规指令可能导致巨额处罚。《欧盟通用数据保护条例》(GDPR)生效后,全球许多政府开始颁布严格的数据隐私法。
随着数据跨越边缘、场内和多个云环境,数据治理变得更具挑战性。
这些法规将迫使数据架构师期望获得:
■ 对自动分类现有数据资产的能力(例如,作为个人健康数据、财务数据或PII)
■ 对消费者被遗忘权利要求作出回应的能力:欧盟GDPR规定,消费者有被遗忘的权利(也称为“擦除权”)。
■ 数据安全能力(例如,通过限制对授权人员的访问,或使用屏蔽、匿名化或标记化)
建议使用图11中的框架,来指导参与数据治理计划的数据和分析技术专家。
图11-数据治理框架
1、在分布式数据管道中部署元数据工具
有效地管理数据取决于能否回答以下问题:
■ 我们有什么数据?
■ 在哪里?
■ 它意味着什么?
如果没有这些问题的答案,许多数据管理计划注定会失败。所有这些计划的关键是由元数据管理支持的数据治理。
元数据管理有多种形式:
■ 在设计时,元数据管理主要集中在数据制品的建模上。当然,这包括对持久性存储制品(如关系数据库、NoSQL数据库、物理数据仓库和物理数据集市)的传统建模。它还包括:
运行时数据制品的建模,如面向服务架构(SOA)和MSA的服务到服务通信中使用的消息模型。
动态数据制品的建模,如提取、转换和加载(ETL)程序和数据集成管道的其他组件,以及显式建模虚拟制品,如LDW中的视图定义。
■ 在运行时,元数据管理:
包括收集有关系统操作的数据,如监控数据集成管道的特定运行(或运行失败)、自动化业务工作流、尝试访问SOA和MSA服务,以及监控和分析数据库访问日志和事务日志。
还涉及追溯地将元数据强加于不易理解的数据资产,包括使用元数据目录的自动发现功能,或使用数据湖和其他数据资产顶部自动生成的语义层
因为数据治理在很大程度上依赖于元数据管理,了解元数据工具沿着频谱存在是有用的。如图12所示:
图12-元数据工具类别和代表性供应商
频谱的一端是用来帮助你为特定目的创建元数据的工具。这类工具包括数据建模工具、XML设计工具和统一建模语言(UML)建模工具。
频谱的另一端是存在的工具,以将元数据合并到支持数据谱系和需要广阔的、架构范围的元数据视图的其他用例中的所有包含的存储库中。当然,这些工具都不是真正的“包罗万象”,但供应商希望尽可能多地为元数据源提供连接器。
两端之间的工具的主要功能不是元数据管理,而是其功能依赖于收集或维护元数据。有许多这样的工具,包括集成平台、数据接收平台、数据集成和虚拟化平台、分析和数据科学平台以及云基础设施平台。
2、通过数据即服务,实现数据民主化
困在竖井中的数据不是很有用。多年来,为了充分挖掘数据的潜力,人们进行了各种各样的尝试。随着数据源和格式的激增,而业务用户希望以自助服务的方式分析最新的数据,这项任务变得更加复杂。这导致了越来越多的数据访问需求,就像云为计算和存储需求提供的便利一样。
然而,挑战在于如何用抽象位置的通用语言来表示数据。新一代供应商正在通过提供“数据即服务”来解决这一难题,该服务由元数据目录上的语义层组成。目录确保只有被授权查看数据的人才能获得所需的访问权限。最流行的访问数据的方式是通过RESTAPI。
尽管“数据即服务”仍然是一个模棱两可的术语,但是“开放数据”这个术语更加清晰了。为了确保对来自不同领域的数据的非隔离访问,随着时间的推移,一个开放数据框架已经发布。这些数据通过API端点的可用性允许具有专用数据集的微服务彼此通信。
这需要数据和分析技术专家专注于两个领域:
■ API和MSA(微服务架构)
■ 开放数据
1)API和微服务架构
“微服务”一词是几年前出现的,它描述了一种交付云就绪或云原生应用程序的方法。MSA的核心是一种软件架构模式,应用程序由小型的、独立部署的进程组成,这些进程使用与语言无关的API和协议相互通信。当应用于数据时,这些API可以动态地以各种有用的方式提供数据。例如,数据虚拟化平台可以通过MSA中的API访问数据。
RESTful API在MSA中很常见,市场上著名的DBMS支持对数据的RESTful访问。RESTful也受数据集成工具的支持,并且是各种“开放数据”计划的基础,这些计划使数据集对公众可用。
除了RESTful之外,流式API也变得流行起来,在可预见的未来,流式API也会越来越流行。流数据移动通过代理(如消息队列)或流平台(如Apache Kafka)传递数据。流式处理通常与MSA一起使用,并且数据通常以接近实时的方式传递。
2)开放数据
存在普遍需求来促进政府部门各实体之间共享和利用所产生和存放的大量数据。这可以通过促进基于技术的数据管理文化来实现,这种文化通过最先进的数据仓库、数据湖、数据中心和数据存档技术以及伴随的可视化功能来提高透明度。
这种文化孕育了“开放数据”的概念。一个常见的定义如下:开放数据是任何人都可以自由使用、重用和重分发的数据,最多仅需满足属性和共享的要求。
在过去几年中,开放数据的举措激增,特别是在政府部门。目标是释放一股无约束的数据访问浪潮,促进高效、最终用户驱动的分析。
许多“开放数据”供应商已经开发了一个框架,使得任何实体都可以无缝地发布可消费和可操作的数据,几乎是实时的。
将数据公开为API设施,有助于下游系统的使用。然而,越来越需要通过一个类似于数据虚拟化层的调用访问多个资源。GraphQL提供了一种方便的方法,可以用一个请求聚合来自多个源的数据。预计GraphQL将越来越多地发挥视图在数据库中的作用。
六、人工智能/机器学习将增强数据管理
AI(人工智能)和ML(机器学习)技术是如此热门,以至于它们被炒作得超出了它们的能力。如果我们将炒作与现实分开,毫无疑问,数据管理系统现在正受到这些高级分析功能的影响。
数据科学家一般是将数据从数据管理系统复制到他们最适合高级分析的ML环境中。然而,将ML集成到数据库管理系统中是值得期待的,因为这是大量数据所在的地方。换句话说,新的方法允许数据科学家在数据库中训练模型。
1、在数据管理管道中使用支持AI/ML的工具
ML和AI正变得越来越普遍,不仅适用于数据科学工作负载,而且也适用于数据库内部以及数据管道、数据架构和数据管理的不同组件。支持ML的自动调整数据库、工作负载和硬件配置将成为赌注。ML提供了基于吞吐量和延迟需求优化数据处理集群的新功能。
组织过去使用过规则引擎,但是在动态世界中,伴随不断发展甚至未知的规则,启用ML的数据管理将成为一种必要。例如,提高数据质量已经被证明是困难的,但现在数据治理产品中内置的ML和NLP算法可以在发现异常(甚至是估算异常)时提醒用户。
AI/ML继续以不同的方式,影响数据库引擎和LDW架构和设计:
■ 在数据摄取期间,执行自动数据分析、自动标记和分类;了解数据分布;以及检测数据漂移。这增加了对数据的信任,提高了流程效率,加快了分析模型的操作。
■ 自动化工作负载管理和自我调整软件配置、集群管理和硬件平台,以实现最佳性能,例如使用AI/ML提高短查询的并发性。
■ 使用编排来调度算法,并跨多个作业、依赖项和不同的工作负载分配资源,以维护SLA并保证吞吐量和延迟。ML正越来越多地被用于跨不同CPU核调度此类工作负载,并优化内存、网络和I/O利用率等资源。
LDW通常运行复杂的工作负载。这包括简单、中等、复杂查询以及具有不同并发性的短期或长期运行查询的混合。AI/ML被用于有效地管理整个LDW的工作负载。
图13显示了如何在LDW中使用ML。
图13-在LDW中使用ML
2、优化数据架构以更快地操作ML模型
随着大数据时代的到来和非关系(NoSQL)数据存储的引入,许多技术预言家已经宣布SQL已经死亡。然而,许多供应商现在都在向后弯腰,为非关系数据存储和对象存储中的结构化和半结构化数据提供SQL接口。
有趣的是,SQL现在被用作ML的抽象。在2019年,Google使BigQuery ML普遍可用。此功能提供了对SQL的扩展,允许直接在BigQuery中对数据创建ML模型。这就是大多数云数据仓库在2020年及以后的发展方向。
技术专家应准备利用其数据库中的ML功能。只要算法能够适当地扩展,就有许多很好的理由可以将数据库的引擎和数据仓库用于ML,例如:
■简单性:无需管理另一个计算平台,在系统之间集成,提取/分析/加载数据。
■安全性:数据保持在安全的地方。无需在外部系统中配置凭据,也无需担心数据副本可能会在何处结束。
■性能:数据库引擎维护统计数据和元数据,以优化查询。这些数据可用于训练ML算法,以便预测该查询何时完成或何时返回结果集。这使得期望查询结果的最终用户或应用程序能够进行相应的计划。
声明:本文来自网络安全观,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。