近年来,我国大数据产业一直处于持续向上向好的态势。中国信通院作为行业智库和产业创新发展平台,始终通过行业研究与各位同仁同频共振,梳理和总结发展的趋势、面临的挑战,形成体系化的观察。在2023数据资产管理大会-数据基础设施分论坛上,中国信通院云计算与大数据研究所大数据与区块链部主任姜春宇发表了题为数据要素技术与平台观察的演讲。
以下为演讲实录
各位领导、各位嘉宾,大家好!我给大家带来数据要素技术与平台观察。本次分享一方面围绕数据流通展开,另一方面与大家探讨一下大数据平台整体趋势的变化情况。
国家高度重视数据要素价值释放。自将数据增列为生产要素以来,多项中央政策围绕数据要素发展进行谋篇布局,数据要素市场培育成为现阶段政策布局的主要任务。2023年10月25日上午,国家数据局正式挂牌成立。国家数据局承接的工作主要包括,一是协调推进数据基础制度建设,二是统筹数据资源整合共享和开发利用,三是统筹推进数字中国建设和数字经济发展,四是推动数据要素的市场化、价值化。
随着信息技术的发展和业务应用的演化,数据要素投入生产的途径可分为三次价值释放过程。一次价值,就是做业务承载和业务贯通;二次价值是把数据抽取出来,做数据的分析、挖掘,进而支撑业务的智能化决策;三次价值通过数据要素的流通对外赋能,打破数据壁垒,实现数据普惠。
数据资源化及数据资产化是数据要素价值释放的前序工作,而这一过程离不开数据要素平台及大数据、数据库、隐私计算等技术的支持。
围绕数据要素价值释放领域,中国信通院做了很多工作。自2015年起,我们开始搭建大数据标准体系,核心围绕数据要素价值释放全流程的技术产品、解决方案,覆盖选型、实施、应用、运维全流程。此外,中国信通院围绕大数据、数据库、隐私计算、数据要素等领域开展了大量研究工作,发布了《大数据白皮书》、《数据要素白皮书》等各类研究报告50余本。我们每年也会积极举办一些峰会、沙龙、专业评比等主题活动,围绕数据要素价值释放过程中的热点、难点问题展开讨论。目前,这些活动已经成为行业交流跟知识共享的重要平台。
今年对产业的洞察,主要体现在数据要素技术与平台十大观察里,技术侧包括湖仓一体、数智融合、数据服务稳定性、Serverless和匿名化。产业侧包括政策助力数据基础设施建设、数据流通平台多路线融合、“一数多芯”成为部署新常态、央国企持续加大大数据领域投入和大数据出海。
湖仓一体虽然不是新概念,但是据我们观察,该理念在企业侧未完全落地,尚需一定的建设时间和大量实践工作。湖仓一体本质上体现了技术发展融合的特点。大部分企业先建了仓后建了湖,湖和仓在一个企业里经常是两个团队、两套体系,彼此之间是没有关联的。随着数据湖技术的进步,与数据仓库技术的进一步融合,出现了在湖上建仓,仓上挂湖的解决方案,大大简化了数据平台的运维方式。产业发展的初期,两套技术并存是有优势的,不同的技术各自有各自的优点,是特定场景下的最优解。但随之而来的复杂性,推动两个技术进行融合。湖仓一体的解决方案在匹配大数据场景下的实时处理需求、提高非结构化数据的治理水平、简化系统运维等方面有显著优势。
大数据和AI是一体两面,两者融合才能顺应当下模型开发范式的演进。模型的生产过程,需要完善的数据基础设施和高质量的数据资源作为支撑。数据本身就是机器学习的原料,可以说数据喂养形成智能。这也是为什么吴达恩一直宣传了一个观点,就是更好的机器学习是80%的数据处理+20%的模型。我们看到不论是DataBricks、华为、阿里都在提数智融合的概念,纷纷推出了数据智能平台、向量数据库等数智融合产品。其基本逻辑是统一存储用于AI和BI的各类异构数据,统一调度GPU等各类计算资源,统一计算框架,统一任务编排,最终形成数据智能赋能上层应用。
数据服务的稳定性和连续性是今年受到广泛关注的一个问题,各大云厂商都面临一些稳定性的问题。其实没有完全稳定的系统,只有构建起一个比较合适的稳定性保障体系,才能将系统的稳定性维持到一个满意的水平上。体系的核心能力包括故障预防、故障响应、应急处置、评估改进等。故障一定会发生,从前期的预防到故障发生的响应、应急处置都能在一定程度上减小故障带来的损失。
弹性能力是云平台的核心能力之一。无服务(Serverless)架构作为一种灵活轻量化的新型算力架构,凭借其无需人工参与资源分配、按量计费及更细粒度的弹性伸缩等特点,已经成为大数据平台挖掘算力潜力、提升算力效率的重要手段。
匿名化成为数据流通领域重点探索方向。在消费互联网里,数据的加工分析价值体现地非常直接,数据的背后就是人,人能直接促进消费。如何在保护隐私的基础上,更好地挖掘个人数据的模式,成为众多互联网企业的探索方向。业内各方积极探索可行的数据匿名化处理技术方案,以及“匿名化程度”的有效评估方法,尝试通过匿名化路径实现数据合规流通。
11月23日,第二届全球数字贸易博览会——数据要素治理与市场化论坛上,数据局的刘烈宏部长提出了数据基础设施的概念,“数据基础设施是从数据要素价值释放的角度出发,在网络、算力等设施的支持下,面向社会提供一体化数据汇聚、处理、流通、应用、运营、安全保障服务的一类新型基础设施,是覆盖硬件、软件、开源协议、标准规范、机制设计等在内的有机整体”。围绕数据基础设施建设,我们也做了大概地梳理,主要围绕“供得出、流得动、用得好”这三个方面如何构建一套新的体系,这是一个比较重要的设想,未来会形成国家级平台和基础设施,值得大家关注。
前几年,隐私计算技术特别火热。近两年我们发现只有隐私计算不够,还需要有其他技术融合在一起,才能形成一套安全流通技术体系。当平台能够同时支持多种流通技术方案,就可以根据应用场景进行灵活选择。
未来,仅依靠同种架构的芯片构建集群的模式将会是非常低效的,整个大数据的软件或者是数据基础设施要部署和运行在异构的服务器上,怎么去混合负载,怎么调度和维护这些异构的资源,让利用率变得更高是非常关键的。系统的“一数多芯”能力需要关注到统一的运维监控,异构环境的负载分配,海量数据异构环境的读写,异构环境的扩缩容,异构硬件的高可用能力等方面,同时上层软件还要屏蔽底层的复杂性。
近两年,央企在数据领域的投入持续加大。今年4月,国务院国资委办公厅副主任庞雪松指出,全面增强国资央企加快构建“1+98+X”国资央企大数据体系。信通院的测试数据显示,这两年,在所有参与测试的企业中,央国企占比逐渐增大,该比例在第十七批测试中达到52%。首先三大运营商在大数据领域投入颇多,数据团队的规模持续扩大,逐渐接手数据平台的运维和建设工作,这是一个很重要的信号。他们也在做一些自主创新,在数据库、数仓、数据湖等一些技术点上开展自研和创新工作。2022年来,在政策推动下,央企持续加大大数据领域投入,凭借其在场景、数据等方面的优势,已经成为大数据领域一股不可忽视的力量。
大数据出海成为大数据企业发展的新蓝海。近年来,国内的大数据企业迅速发展,技术实力不断增强,许多国内的企业已经开始出海探索,寻找新的发展市场。很多大数据技术产品和解决方案在国内的成功实践,让其在国外市场也保持了一定的竞争力。但有一点需要提醒大家,出海需谨慎,各个国家的政策和成本是不一样的,这就需要大数据企业在出海的过程中进行充分的调研、探索和平衡。
围绕数据技术和产业发展的现状与趋势,我们对未来的工作也进行了一定的计划和布局。技术方面,围绕数据智能,我们会开展相关标准的制定和研究报告的编写工作,以期与业内专家共同探讨如何将原来的数据平台和AI平台打造成一个平面,实现数据和智能的融合,加速数据价值的释放。此外,围绕“一数多芯”和多技术路线融合构建数据流通平台等理念,我们也会持续开展标准和研究工作,推动其落地实践。产业方面,我们将开展数据智能产业图谱的征集和数据流通模式的研究工作。此外,我们还将围绕数据出海、数据基础设施、各类数据的流通模式等热点问题分行业和应用场景展开研讨,最终推动数据要素市场整体的发展。
声明:本文来自大数据技术标准推进委员会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。