作者丨石秀峰

2019年11月5日,Gartner发布预测,未来三到五年内以下这些数据和分析技术趋势具有巨大影响潜力。

趋势一:增强分析

增强分析功能可自动发现和显示业务中最重要的数据见解或变化,以优化决策。与手动方法相比,它需要的时间更少。增强分析使洞察力可用于所有业务角色。它减少了数据分析对分析,数据科学和机器学习专家的依赖,能提高整个组织的数据素养。到2020年,增强分析将成为新购买分析和商业智能以及数据科学和机器学习平台的主要驱动力。

【解读分析】

在网上查了下,原来“增强分析”的概念早在2017年就被Gartner提出了,被誉为数据与分析市场内的下一波颠覆性技术,是数据分析的未来。简言之,就是将人工智能技术(AI)赋能商务智能(BI),更简单的理解就是采用机器学习(ML)、自然语言处理(NLP)、数据挖掘等技术应用到数据分析流程中,使数据分析更加自动化、智能化。例如:在数据采集和处理方面,采用NLP对非结构化、半结构化数据进行文本识别语言识别,自动转为结构化数据;采用机器学习技术,应用到数据建模、数据处理、数据质量等环节,实现自动化数据的清洗与处理,减少人为干预。在比如利用机器学习、人工智能技术将传统的数据分析模型(例如杜邦)在大数据环境下进行“锤炼”,而形成适合企业且更加智能、可靠的数据分析模型,让商业智能变得更加智能。

趋势二 增强数据管理

随着供不应求的技术和数据呈指数增长,组织需要自动执行数据管理任务。供应商正在添加机器学习和人工智能(AI)功能,使数据管理过程能够自我配置和自我调整,以便高技能的技术人员可以专注于更高价值的任务。这种趋势正在影响所有企业数据管理类别,包括数据质量,元数据管理,主数据管理,数据集成和数据库。Gartner预测,到2022年,通过增加机器学习和自动化服务水平管理,数据管理手工任务将减少45%。

【解读分析】

关于增强数据管理这一观点,笔者曾在之前的文章中有所提及,可谓是与笔者的观点不谋而合。《主数据的前世今生,未来畅想》中,就提到了大数据、云计算、人工智能、机器学习、区块链、微服务等新技术将应用到主数据管理中从而实现企业主数据管理的:①泛化连接——人、财、物、设备、系统的端到端连接;②社会化融合——企业小数据融合社会大数据;③虚拟化仿真——现实世界的实体数据在信息世界的真实模拟;④智能化管理和应用——基于机器学习自动化数据质量问题发现与处理等。当然,增强管理不仅仅针对主数据管理,在数据质量管理、数据安全管理、元数据管理等数据治理和管理领域都将为之改变。在元数据管理方面,利用自然语言处理、语义分析等技术自动识别和提取非结构化数据,建立非结构化数据业务词语库;在数据质量和数据安全管理方面,利用深度学习、知识图谱、语义分析等技术自动实现数据分类,自动识别和处理数据质量问题、数据安全问题等。

趋势三 NLP和会话分析

正如Google之类的搜索界面使普通消费者可以访问Internet一样,NLP也为商务人士提供了一种更轻松的方式来询问有关数据的问题并获得对数据见解的文字解释。对话式分析使用户可以语言而不是通过文字来提问和回答,从而使NLP的概念更进一步。Gartner预测,到2021年,NLP和对话式分析将把分析和商业智能的使用率从35%的员工提高到50%以上,其中包括新的用户类别,甚至是前台工作人员。

【解读分析】

这个比较有意思,传统上数据分析大多都是由数据分析师来做的,通常要进行业务理解、数据建模、数据准备、数据预处理、数据分析等过程,可以说还是比较复杂的。而未来,自然语言处理和会话式分析数据管理的应用将让业务人员,甚至公司前台都能做数据分析,而且是通过对话的方式就能快速找到决策的依据。我们来假设一个场景:公司一名销售人员想知道哪款产品在未来卖得好,只需对系统机器人说一句“产品销量预测”,系统就会回复一句,“好的,请稍等”,然后进行数据的自动化查询、计算、可视化渲染、身份校验并最终将分析好的数据图表推送给该用户,并语音自动播放数据分析结果;而这名销售又想知道公司整体的经营情况,他就可以对系统说一句“公司经营快报”,这时候系统依然会回复一句,“好的,请稍等”,然后进行数据的自动化查询、计算、可视化渲染、身份校验……,然后语音提示:“对不起,您的权限不足”……

趋势四 图分析

业务用户正在跨结构化和非结构化数据提出越来越复杂的问题,经常将来自多个应用程序的数据以及越来越多的外部数据混合在一起。图分析是一组分析技术,可显示诸如人,地点和事物之类的实体之间如何相互关联。该技术的应用范围从欺诈检测,交通路线优化和社交网络分析到基因组研究。Gartner预测,在未来几年中,图处理和图数据库的应用将以每年100%的速度增长,以加速数据准备并实现更复杂和适应性更强的数据科学。

【解读分析】

图分析就是利用数学模型并结合图像处理的技术来分析底层特征和上层结构,从而提取具有一定智能性的信息。图形数据库是NoSQL数据库的一种类型,它常用来存储实体之间的关系信息。当今时代,增长量最大的数据毫无疑问就是图片和视频,先不说工业领域,就拿我们身边,抖音、快手一类的短视频网站一天的数据增长量就是非常恐怖的,而这些海量的视频、图片的数据中也蕴含了巨大的价值,好好利用将会产生无限的经济价值和社会价值。图像处理(如人脸识别)、关键特征数据、NLP等技术将图的结构引入到模型训练里面,构建人、物的知识图谱和关系模型,这将在金融风控、健康医疗、公共安全、智能交通等领域有广泛的应用空间,潜在价值无限。图分析、图处理、图数据库等技术的大规模、商业化应用的确可期!

趋势五 商业化AI和ML

开源平台目前在人工智能(AI)和机器学习(ML)中占主导地位,并且已成为算法和开发环境中创新的主要来源。商业供应商相对滞后,但现在提供了连接到开源生态系统的连接器。它们还提供了扩展AI和ML所必需的企业级功能,例如项目和模型管理,重用,透明性和集成,这些都是当前开放源代码平台所缺乏的功能。Gartner预测,到2022年,75%利用AI和ML技术的新终端用户解决方案将使用商业化解决方案而不是开源平台构建。

【解读分析】

对于AI和ML到底是以商业化为主导还是以开源化为主导?我只想说:到2022年,75%利用AI和ML技术的新终端用户解决方案将使用商业化解决方案而不是开源平台构建。这我信!但是,这75%的商业化解决方案中可能至少有80%是基于开源平台包装的,哈哈!

趋势六 数据结构

从分析投资中获得价值取决于拥有敏捷,可信赖的数据结构。数据结构通常是定制设计,可以通过精心策划的数据集成方法的组合来提供可重用的数据服务,管道,语义层或API。数据结构支持在分布式数据环境中的访问和共享数据。它支持单一且一致的数据管理框架,允许通过其他孤立存储的设计进行无缝数据访问和处理。Gartner预测,到2022年,定制的数据结构设计将主要作为静态基础设施部署,迫使组织进入新的成本浪潮,为更动态的数据网格方法完全重新设计。

【解读分析】

说实话,“数据网格”这个词之前听过,但也只限于听过。数据网格究竟是个啥,一个新概念?一项新技术?还是一个新工具?维基百科给出了这样的定义:“网格数据是指定义在网格之上的数据,散乱点数据可以使用一些数学模型对它们进行网格化,得到网格数据,然后由计算机处理网格数据。” 在网格数据中,把数据分析范围分成大小均匀的格网矩阵。存贮的信息可以是点、线、面实体,也可以是指向该单元有关属性的指针。格网越小,精度越高,但存贮量越大。因格网是有规则排列的,故实体的坐标位置可隐含在格网的存储地址中。网格数据便于数据处理、区域综合分析和评价。与矢量数据相比,其软件设计较简单,缺点是数据存储量大,特别是稀疏的空间数据,要浪费许多存储单元。适用于数字地形模型,遥感图像等信息的存储。

看了数据网格的优劣势后,我个人觉得这个技术可能会在特定的业务领域(比如地理信息分析、气象信息分析)进行深度应用,但要广泛用到企业的数据分析中可能性不大。第一,大多企业的数据分析还是以结构化数据为准,而这不是数据网格的存储优势所在。第二,数据网格存储数据需要消耗大量的存储资源,虽然说现在存储资源比较便宜,但是也不是没有成本的,考虑到投资收益比,很多企业还是谨慎些好。第三,数据网格是一种重数据的存储结构,轻数据分析结构的技术,而数据分析还是要依赖数据模型。目前的数据结构设计是以定制化为主,未来技术的发展可能会以人工定制的静态数据模型为主,以AI、ML驱动的动态数据建模为辅,两种结构相融和并存的数据结构设计模式。

趋势七 可解释的AI

可解释的人工智能提高了人工智能解决方案和成果的透明度和可信度,降低了监管和声誉风险。可解释的AI是描述模型,突出其优缺点,预测其可能的行为并识别任何潜在偏见的一组功能。如果没有可接受的解释,对人工智能的自动生成见解或“黑匣子”方法可能会引起对法规,声誉,责任制和模型偏差的担忧。Gartner 预测,到2023年,超过75%的大型组织将聘请人工智能行为鉴定、隐私和客户信任专家,以降低品牌和声誉风险。

【解读分析】

传统数据分析主要关注数据模型,在理解业务、理解数据之后,再选择模型,接着是数据准备、参数调整,然后进行分析得出结果,这个过程是透明的,能够被解释的。而在AI领域,多数深度学习的算法目前都是“黑匣子”,只知道根据输入的数据导出结果,过程无法归纳和理解。由于人工智能的“黑匣子”问题,导致了人们对人工智能、机器人的一些担忧。现在也有研究机构正在研究AI的自我解释模型。据新闻报道,来自加州大学伯克利分校、阿姆斯特丹大学、Facebook AI Research团队的研究人员创建出一个AI自我解释模型,该模型可使AI在回答问题时指出问题对应的证据,在回答相关图像问题时,其能够为其决策提供自然语言理由并指出图像显示证据。随着技术的进步,AI“黑匣子”正在变得逐步透明化,这是个趋势,但离商业应用可能还一定距离的路要走

趋势八 持续智能

持续型智能是一种设计模式,在这种模式中,实时分析集成在业务操作中,处理当前和历史数据,以指定响应事件的操作。它提供决策自动化或决策支持。持续型智能利用多种技术,如增强分析、事件流处理、优化、业务规则管理和ML。长期以来,组织一直在寻求情报实时化,并且系统可用于执行对应的相关任务。现在,由于云,流数据软件的进步以及来自物联网(IoT)传感器的数据增长,在更广泛的规模上实现连续智能是切实可行的。Gartner预测,到2022年,超过一半的主要新业务系统将采用持续智能,这些智能将使用实时上下文数据来改善决策。

【解读分析】

Gartner将持续智能定义为一种模式,核心是将实时数据分析集成到传统历史数据分析中,从而实现持续的分析结果输出,以支持自动化决策。将持续智能重点是持续。在我们传统的数据分析中,例如,数据仓库、数据分析、BI、数据报表等也能够实现统计、分析、预测、洞察等智能应用,但是不能做到持续化、动态化、智能化的决策依据。传统数据分析大多是基于历史数据的分析,数据的产生是人为干预产生的、数据的输入也是人为预先设置的。而持续智能,处理的数据是实时的,大部分是由系统、物联网(IoT)产生的,再通过实时数据采集、流数据处理、机器学习训练将实时数据处理、联网并与历史数据融合,从而实现实时的、动态的数据分析。随着,物联网(IoT)传感器的数据增长,实时流数据处理和分析技术的进步,持续智能是切实可行的。

趋势九 区块链

区块链技术解决了数据和分析中的两个挑战。首先,区块链提供资产和交易的血统信息。其次,它为复杂的参与者网络提供了透明度。但是,区块链不是独立的数据存储,它具有有限的数据管理功能。基于区块链的系统不能用作记录系统,这意味着涉及数据,应用程序和业务流程的巨大整合工作。实际上,对于超出加密货币的用例,该技术的可伸缩性尚未成熟到实际的生产级别。

【解读分析】

从上面这段文字中,我们可以看到Gartner对区块链技术在数据分析中的应用持有谨慎、保守的或者说是模棱两可的态度。一方面,Gartner认为区块链技术为数据分析建立了一个可信任环境,提供了数据产生、变更的全链血统信息,在数据分析和管理中,能够有效保护个人隐私和防止核心数据泄露。而另一方面,Gartner认为区块链技术会涉及大量的数据、应用、流程的整合,整合成本巨大,在应用方向上除了“加密货币”外,其他商业应用场景还未成熟。

这里,我想聊聊自己的一些看法。如我们所见,区块链是近几年由中央政策持续加持的为数不多的新科技之一。从2016年国务院印发的《十三五国家信息化规划》,到2020年中央一号文件都明确指出要加快和加强区块链技术在各行业领域的应用。2017—2018年,国务院发布的指导意见中,有6份文件提及要明确发展及利用区块链技术。2019年,中央各部委出台区块链相关政策更是紧锣密鼓。在以国家政策为背书的背景下,与区块链相关的科技股在2019年也迎来了一波又一波的猛进高歌。在产业技术应用场景方面,腾讯、蚂蚁金服、百度、京东等互联网行业巨头纷纷加入了区块链技术研究与场景应用实践化的行列中,并成功应用在金融、医疗、法务、物流、社会公益等场景当中。相信,随着区块链的相关技术标准、安全标准的进一步完善,区块链将在数据管理、数据分析中发挥其更大的价值和作用。

趋势十 持久性内存服务

大多数数据库管理系统(DBMS)使用内存数据库结构,但是随着数据量的快速增长,内存大小可能会受到限制。新的服务器工作负载不仅要求更快的处理器性能,还要求大容量的内存和更快的存储。新的持久型内存(Persistent Memory)技术将有助于降低采用支持内存计算(IMC)的体系结构的成本和复杂性。持久型内存是DRAM和NAND闪存之间的一种新的内存层,可以为高性能工作负载提供高性价比的大容量内存。它有潜力提高应用程序的性能、可用性、启动时间、集群方法和安全实践,同时控制成本。它还将通过减少对数据复制的需求,帮助组织降低应用程序和数据架构的复杂性。持久性内存的最大特征在于其非易失性,也即能够避免传统DBMS在掉电后的数据丢失问题。不过这种新型态的存储模式需要编程领域的相关配合才能充分发挥自己的效能,能否最终普及到整个计算机业界,不久就会揭晓。

【解读分析】

Gartner认为持久性内存将会改变数据库、消息队列和日志的持久性模式,不仅是提升了数据的读写速度,甚至在数据库系统断电的情况也还能不丢失数据。但是由于笔者对硬件层面的技术和知识知之甚少,持久性内存服务究竟是一项数据存储软件技术,还是一种新型的数据存储硬件资源?在网上查了很多资料,还是没有搞明白,有熟悉这个的请不吝赐教!

以上是笔者对Gartner预测的2020数据和分析技术领域的十大趋势的个人理解,不代表任何官方观点。仅供参考,谢谢大家!

声明:本文来自谈数据,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。