2018年12月13日,由中国信息通信研究院、中国通信标准化协会主办,TC601大数据技术标准推进委员会承办的“2018数据资产管理大会”在京召开。

大会压轴环节举办了首届数据资产管理跨界对话,圆桌论坛由CCSA TC601办公室主任姜春宇主持,邀请了中国移动大数据总设计师段云峰先生、南方电网信息部数据管理主管陈彬先生、百度大数据部资深研发工程师冯智先生、阿里云数加平台dataworks高级产品专家张辉先生四位重量级大咖。

四位专家介绍了各自企业数据资产管理的组织架构、发展历程,交流了在数据资产管理种的难点和痛点,最后对未来的产业的发展给力建议。

中国移动大数据总设计师 段云峰

  • 中国移动数据资产管理总体情况

段总通过现场演示和讲解展现了中国移动20年来走过的数据资产管理道路。中国移动IT系统超过2000多个,数据量大概在500PB左右,对数据资产管理带来很大的挑战。

经过持续不断的投入,建立较为完备的管理平台和管理体系,能够可视化的展示数据资产、统计数据模型、数据的使用情况,勾勒出数据的血缘关系和流向。

在数据加工方面,能够详细查看查看各类数据任务,建立详细的质量规则来管理任务的执行情况。这些工作都比较枯燥和艰苦,需要常年的坚持和努力。

  • 心路体会

数据资产管理是一个持续投入的过程,在做的过程中经常会面临中断的挑战。最大的问题就是数据质量问题,被迫要经常花两三年的时间回头去解决数据质量问题。

在数据资产管理中,每个企业都只能走自己的路,没有捷近可以走的,因为它涉及各个系统的整合,中国移动仅在接口规范、模型设计规范、口径定义方面的文档规范加起来来有好几千页。

数据资产管理过程和安全很像,三分技术、七分管理。从实际情况来看,是一个持续运维、动态的过程,要建立起保障制度,持续更新。在数据资产管理很多是问题驱动的,有了问题领导和大家才去关注,产出的效率如何进行显性化展示。

而且切忌一步到位,应该采用分步走的策略,每年解决一些具体的问题。要注重应用,建立了系统移动要使用,在使用过程中才能反映出数据各方面的问题,靠应用带动不断升级改造。

  • 未来建议

数据资产管理一定要和内外部的业务结合起来做,要让领导、业务部门、IT部门都有获得感。对内精细化企业运营和管理,对外合法合规地提供数据服务,激发业务和IT部门的价值感。

当前更多的是结构化数据的资产管理,未来需要探索面向非结构化数据和AI场景的数据资产管理。需要建立国内数据资产管理的方法论,梳理清楚内外部客户是谁,边发展,边解决问题。

南方电网信息部数据管理主管 陈彬

  • 南方电网数据资产管理总体情况

南方电网管辖包括广东、广西、云南、贵州、海南在内的南方五省的所有企业和家庭的供电,覆盖了2.3亿的供电人口、7200余万的行业用户。

电网的数据资产非常丰富,有年月日维度更新的用电相关信息,还有大量实时产生的数据。这些数据既有结构化的也有大量非结构化的,据估计目前南方电网的数据量超过5PB且增速迅猛。

南方电网数据管理历经几个阶段,“十二五”期间基本建成一体化、现代化的企业级信息平台,以数据资源管理的方向为主,主要是以主数据打通部门之间的业务协同,实现了“一处主本产生,多处副本应用”,全面确保公司核心数据的一致性。

“十三五”前半期公司从数据资源管理过渡到了数据资产管理,后半期则明确提出了促进大数据与公司主营业务融合发展,实现全公司、全领域、全业务的“三全”覆盖,以及融合化、实时化的“两化”升级,为公司实现数字化转型,成为能源产业价值链整合商要提供坚强的数据保障。

南方电网数据资产管理的思路是以价值为导向,做好顶层设计,从易到难,夯实高质量数据基础,探索数据价值变现,确保公司资产用得着、管得住、看得见。

2018年以来,南方电网围绕数据管理做了大量工作,一是构建了以支撑公司战略为目标、数据治理和数据运营双轮驱动,组织保障体系和技术支撑体系作为支撑的数据框架体系。2018年,公司优化了管理组织,成立了由公司首席信息师(CIO)挂帅的公司级数据治理和跨业务协同专项工作组,明确了由信息部承担相应的数据管理归口职责,各业务部门承担相应的业务职责,各分子公司在总部的指导下开展数据管理工作。

二是出台了《南方电网数据资产管理办法》以及若干指导意见和数据标准,让数据管理有章可循。

三是开展了全网管理信息系统的元数据梳理专项行动,打造了公司级数据资产目录,把数据资产从后台数据库的“黑匣子”变成了前端可查可见的一个数据“字典”。四是打造了一个数据资产管理平台,这个平台在不断地完善中,主要是从数据资产目录、元数据管理、数据管理工作流等方面提供相应的技术支撑能力。

未来南方电网公司数据资产管理的愿景可以由三个关键词来概括,分别是“筑基、创新、生态”,即希望进一步夯实数据管理基础,创新数据管理模式和打造数据管理合作共赢的生态圈。

  • 心路体会

第一点,对于很多企业来说数据资产管理是一把手工程。因为数据管理不是单一部门负责就能完成的任务,涉及到跨业务、跨部门、跨流程方方面面,因此需要从承接国家政策层面、行业层面对数据管理的要求,还有自身数据高质量发展带来显性化的业务价值等方式,来争取公司领导、部门领导的认可和支持。

第二点,数据管理的组织保障非常重要。数据资产管理不是运动也不是任务,而是一项实实在在的业务。要落地,归根结底需要有一支专门的队伍,并且对人员还是有要求和门槛的,一定是从业务、数据、平台工具等方面有一个综合性的素质才能从事这样的工作。

第三点,道与术,合适自己的才是最好的。道层面要对数据管理合理规划,主要是明确整个公司数据资产的未来走向。术的层面,没有一个固定的模式,跟公司的业务和公司的实际情况相机和,实践出来适合自己的才是最好的,另外小步快跑,不要贪大求全。

第四点,价值导向、业务驱动。数据资产管理是类似运维式的常态化工作,其价值在于为业务提供了什么样的服务,在于以业务为载体带来了什么样的提升,比如像数据质量提升带来的业务效率提升等业务价值。信息部门不要自己单干,一定要带上业务部门,只有这样才能与业务深度捆绑,满足业务的需求、解决业务的问题。

第五点,知行合一、久久为功。数据管理不是停在口号上的,是一步步做出来的,说的直白就是忍耐寂寞和孤独,乐于干苦活脏活累活。但同时,数据资产管理也是一份事业,没有数据资产管理打好基础,数据应用只是空中楼阁。

  • 未来建议

首先,希望多举办行业交流的会议和活动,类似今天的大会越多越好,并能从国家层面、汗液层面给予数据管理一些指导。二是和国际接轨,以标准促应用,出台中国自己的GDPR。三是建议推动形成面向个人的数据资产管理的培训和认证,打造中国的CDMP。四是,促进企业间的交流、技术的合作、产品的共享。

百度大数据部资深研发工程师 冯智

  • 百度数据资产管理总体情况

百度内部的业务数据种类非常繁多,不同业务部门数据流通的需求非常旺盛,但是实现内部高效流通极具挑战。百度构建多个独立数仓解决不同的问题,然而带来新的问题:包括数据发现难,感知难,权属难,如何打破数据孤岛,数据使用的审批的流程是怎么样的,数据如何进行分类分级,能否提供一站式的数据服务平台等等。

百度的数据治理从2012年、2013年开始甚至可以推测到更早的时间,2017年百度提出了OneData战略,在公司内部启动数据治理的项目。组织层面成立了数据资产委员会、数据治理团队、数据技术管理团队。制度层面制订了各种各样的规范,覆盖安全、流通、系统操作等方面。技术上重新构建了整个数据资产管理平台,定义了全局元数据和统一了权限控制。执行层面,有专门的数据流通团队结合技术工具来推动数据的内部流动。

通过统一的元数据平台实现多个数仓逻辑上的统一,能够看到公司的数据分布。统一进行权限的管理,建立完备的数据申请和审批机制,打破数据孤岛,提升了数据可得性。而且在这个平台上提供了本地数据计算加工的能力,在一站式在平台上本地完成数据的加工使用。最后通过建立数据血缘关系,来理清数据的关系,优化作业,保证数据的合规。

在One Meta之外构建了统一的工具One Componenet,具备了全栈技术服务的能力,让工程能力不再成为业务瓶颈。时效性从T+N提升到秒级更新,查询响应从小时级提升到亚秒级,能够处理的数据量从PB过渡到EB级,任务由过去的统计报表转变为支持数据分析、数据挖掘,服务方式由对内服务到服务内外。希望能把对内的能力拿出来分享,把数据管理相关的事情做得更好。

百度自研技术业界领先,开源权威第三方测评,经受了外部客户严苛的实战考验,并且我们有四款产品通过了今年过了信通院相关标准能力认证,之后我们会逐步把百度大数据组件分享给大家。

  • 心路体会

数据资产管理的过程回忆起来就像回忆初恋一样,虽然有很多的美好也带来了很多痛苦,但是如果没有痛苦是不完整的。有两个方面的问题,一是系统架构的复杂性,二是跨多个体系和系统,牵一发而动全身。

有一句话:你若安好便是晴天,你若不安好我就没有星期天。很多时候的程序都是在12点之后跑的,经常有来自半夜的电话说程序跑失败了,需要经常半夜处理问题。再有,这些工作也带来一些闪光点,能够清晰生动观察到数据流动,观察到到底发生了什么,能够对数据和整个业务带来新的认识,就有种和初恋重逢的感觉。

  • 未来建议

数据资产管理是一个体系化的工程,是一个牵一发动全身的事情,不是结果式的而是进程式的,随着整个企业业务发展一直在发生变化的,需要通过业务的价值体现整个数据资产管理的价值。

另外数据资产管理不仅仅是管理的工作,更要强调技术的作用。随着一些新技术的发展,需要引入一些更强技术或者工程上的产品去解决问题,包括像区块链、多方安全计算、匿名化技术等,包括使用AI的技术提升数据质量,技术和管理需要相辅相成一起向前发展。

阿里云数加平台高级产品专家 张辉

  • 阿里数据资产管理总体情况

阿里巴巴数据中台的架构,主体分三层,第一层是平台层,包括存储、计算和开发工具。平台层包含一站式研发平台,囊括了整个数据资产管理,比如数据质量、数据地图、数据安全等相关内容,以及流开发和批开发的内容。

第二层是数据层,包括统一数仓和公共数据产品和数据服务,由独立的中台团队负责数据建设。

第三层是阿里各个业务统一使用中台和平台层构建的整个数据体系和产品。

2009年之前,阿里的数仓也是各个部门分治的,接着阿里把整个集团的底层架构完成了统一,所有的数据完全迁到了一个平台上,从此走上了数据资产的统一管理。

2011年左右,集团内部诞生了数据地图产品,数据地图承担了整个集团降成本的任务,通过数据的清理和数据生命周期管理控制计算成本过快增长。之后进行了安全体系的建设,通过各个团队的配合来完成更精细化的数据资产管理。

数据质量方面,一定要形成闭环,做到事中实时监控拦截,事后有效管理改进,让数据质量运营变成一个自己运营的事情,不断迭代优化。有几个核心要点,一是任何数据都要有Owner,二是要有表之间的血缘关系,能够从下游向上追溯,三是要有统一调度,把整个质量完全融入到开发过程中。

数据安全方面,要在安全的基础进行数据的交换,通过自动化、重监控、轻审批的方式来做。基础性工作有两点,一是,每一张表要有责任人,方便出问题后安全追责。二是所有的数据要安全等级标注,标注好数据的安全等级才有后续的加工使用和流动。

数据资产管理一定要讲清楚价值点,对老板来说,要让他能看到资产全景图,还有就是能够为公司节约多少成本。对于业务,要保证业务不出问题,出了问题能很快找到责任人,能够快速定位问题,解决问题,提高业务同学的掌控力。对于技术研发人员,帮助他们提升研发效率,优化任务,衡量他自身的价值,提升信心。

  • 心路体会

做数据的人经常要起夜,所以内部大家经常叫自己“起夜家”。阿里做数据资产管理有几个原因,首先是被业务发展驱动的,09年左右,阿里内部出现很多数据业务,做的过程中业务人员很痛苦,因为数据分散在各个部门,需要一家一家的去找,也无法保证质量。

后来阿里做了统一的大数据平台,把数据进行了统一,这样支撑了各类数据业务有机地生长。第二点,数据资产管理需要自上而下有一些推动力,上层需要给一定的时间和机会来等待它的成长。

  • 未来建议

第一点,数据资产管理应该以产品化为主,而不是大量依赖管理和运营。国际上的一些产品过于复杂,不便捷,中国一定会出现自己的靠谱产品。希望通过更多技术的手段去解决数据资产管理遇到的问题,包括AI、差分隐私、多方安全计算等。

第二点,中国信通院举办的数据资产管理大会很好,给大家提供了一个交流的空间,另外国内数仓和大数据的市场规模在全球的占比还很小,中国企业和行业对数据价值的理解和认知远远不如西方国家的企业,我们需要环境来促进大家的认识水平,做大整个市场。

第三点,现代数据引擎越来越多样化了,包括时序数据库、流计算和AI的逐渐普及,随着5G到来后数据量的膨胀,非结构化数据的增长,这些都对数据资产的管理有很多挑战。我们需要研究面向新技术和未来的数据资产管理方法。

声明:本文来自大数据技术标准推进委员会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。