2022年10月,在中国信通院组织的首批云原生湖仓一体评测中,阿里云计算有限公司参与并完成了测评。该评测依据《云原生湖仓一体数据平台技术要求》进行,共涉及湖仓数据集成、湖仓存储、湖仓计算、湖仓数据治理、湖仓其他能力五大能力域。随后阿里云自研大数据平台产品负责人刘一鸣(花名合一)接受了信通院云计算与大数据研究所的访谈,就什么是湖仓一体,为什么做湖仓一体,湖仓一体的技术特点以及应用场景进行了探讨。
信通院云大所:请谈谈什么是湖仓一体,与数据仓库、数据湖等以往的数据工具有什么关联?
刘一鸣(合一):首先从数据处理平台发展的历史看,这几个概念以及背后的技术架构是适应不同的发展阶段产生的:从最早的数据库、数据仓库,发展到大数据时代下的百花齐放,这其中云厂商为了解决大数据的存储和处理,推出了云上分布式数据处理平台,包括谷歌的 BigQuery、微软Cosmos,也包括阿里云的 MaxCompute这样的集成系统,称为大数据时代的云数据仓库。于此同时,云上和传统Hadoop 体系也分别构筑了一套以对象存储和以开放式HDFS为中心,以开源、开放的文件格式、开放的元数据服务以及多种引擎协同工作的模式。它们共同形成了数据湖的雏形。湖仓一体本质就是这些异构数据平台走向一体化的一个过渡阶段。
信通院云大所:请谈谈为什么做湖仓一体,其技术特点是怎样的?
刘一鸣(合一):湖仓一体的出现的背景:首先阿里云 MaxCompute做湖仓一体是客户需求驱动的,我们的一个社交媒体大客户原有的技术平台是以Hadoop体系搭建的,这种开放架构带来了不错的便利性,但在企业级能力构建上遇到瓶颈:基于大数据量的 AI模型训练传统架构根本跑不动,同时缺少极致的弹性资源扩缩容的能力去应对业务变化带来的需求。另外一些客户在云上,利用云上对象存储存放各种各样的数据,也就是被当做数据湖。这些客户都想利用云数据仓库类产品增强性能、成本、企业级安全以及联邦计算能力,一定程度上开始将非数仓自身存储的数据纳入管理(比如 Hadoop、云对象存储),和数据湖的边界日益模糊,我们湖仓一体就比较清晰了:在原有的数据仓库架构上,融合了开源数据湖(Hadoop)和云上数据湖(对象存储OSS)。整体架构具备统一的数据安全、管理和治理等中台能力。在连接湖仓的同时,我们也支持更广泛的联邦查询(如 MySQL/ PG / NoSQL 数据库生态)。
信通院云大所:请谈谈为什么做湖仓一体,其技术特点是怎样的?
刘一鸣(合一):基于阿里云自研的 MaxCompute云数仓平台,统一数据开发、治理平台Dataworks以及数据湖构建(DLF)等组件配合可以进一步对湖仓两套系统进行封装 可以进一步对湖仓两套系统进行封装,屏蔽湖和仓异构集群信息,构建一体化的大数据中台,实现一套数据、一套任务在湖和仓之上无缝调度和管理。企业可以使用湖仓一体化的数据中台能力,优化数据管理架构,充分融合数据湖和数据仓库各自优势。使用数据湖做集中式的原始数据存储,发挥数据湖的灵活和开放优势。又通过湖仓一体技术将面向生产的高频数据和任务,无缝调度到数据仓库中,以得到更好的性能和成本,以及后续一系列面向生产的数据治理和优化,最终让企业在成本和效率之间找到最佳平衡。
案例我们有刚才提到的国内头部社交媒体客户,他们主要做社交媒体领域里的推荐/排序、文本/图像分类、反垃圾/反作弊等技术。作为国内Top的社交媒体应用,它的业务体量和复杂性已然进入到开源“无人区”,开源数据湖方案在性能和成本方面都无法满足生产级要求。客户借助阿里云飞天大数据和AI平台能力(MaxCompute+PAI+DataWorks ),解决了超大规模下的特征工程、模型训练以及矩阵计算的性能瓶颈问题,进而形成了MaxCompute平台(数仓)+ 开源平台(数据湖)共存的格局。
我们还有一些游戏、金融服务的客户也是面临同样的异构平台打通的问题,也是通过湖仓一体方案,让新业务摆脱资源的瓶颈,迅速成长起来。
声明:本文来自大数据技术标准推进委员会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。