本文介绍了人工智能与数据治理的发展现状,分析了数据治理对人工智能的基础性作用,并从多角度对人工智能在数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理等数据治理环节中的应用进行了分析和研究。
一、引言
伴随着大数据、云计算以及算法的发展,人工智能的浪潮从几年前一直延续至今,并且广泛应用于多个行业和领域,成为下一次科技革命的一个领军技术。同样,伴随着数据量与数据来源的猛增,数据治理也成为了企业在充分挖掘利用数据价值过程中必不可少的环节,并逐渐发展为企业的核心业务之一。
由于数据治理的输出是人工智能的输入,即经过数据治理后的大数据,因此数据治理与人工智能的发展存在相辅相成的关系。一方面,数据治理为人工智能奠定基础。通过数据治理,企业可以提升数据质量、增强数据合规性,从而为人工智能的应用提供高质量的合规数据。另一方面,人工智能对数据治理存在诸多优化作用。通过人工智能技术,数据治理工作中的数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理等方面智能化水平得到提升。
二、人工智能与数据治理的发展现状
(一)人工智能的发展现状
人工智能也称为机器智能,其概念最初是在20世纪50年代中期Dartmouth学会上提出,研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。在目前的学科体系下,人工智能属于计算机科学的一个分支。人工智能的目的是通过了解智能的实质来提升机器的智能水平,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能的细分领域很多,例如机器人、语言识别、图像识别、自然语言处理和专家系统等。
(1)技术方面
以智能语音语义、计算机视觉等为代表的技术不断取得突破,为赋能各行业打下了坚实的基础。以智能语音语义为例,语音识别应用在纯净环境下表现趋近完美,机器翻译聚焦神经网络技术也实现了系统错误率60%的降低,在词嵌入及对话系统得到了长足进步;以计算机视觉为例,图像分类已全面超越人类水平,在目标检测、语义分割、目标跟踪等领域也实现了性能及精度的极大提升。
(2)产业方面
近年来,以深度神经网络为代表的人工智能技术及产业体系逐渐成型,正在深刻赋能各领域的应用落地。如图1所示,人工智能产业技术体系以包含算法及软硬件实现的底层技术为根基,以软件框架为核心,通过基础应用技术赋能上层应用。
数据来源:《人工智能发展白皮书技术架构篇(2018年)》
图1 人工智能产业体系架构图
(3)应用方面
随着人工智能在我国移动互联网、智能家居等领域的发展,我国人工智能的应用持续高速成长。由于人工智能包含的环节较多,从基础技术层的数据平台、数据存储以及数据挖掘等,人工智能技术层的语音识别、自然语言处理、图像识别和生物识别等,到人工智能应用层的工业4.0、无人驾驶汽车、智能家居、智能金融、智慧医疗、智能营销、智能教育以及智能农业等。随着人机交互水平的不断提升,智能音箱等新型人机交互产品迅速发展;随着基础应用的不断成熟,人工智能技术对如制造业、医疗、金融等垂直行业领域也在产生缓慢而深远的影响。
(二)数据治理的发展现状
随着大数据在各个行业领域应用的不断深入,数据作为基础性战略资源的地位日益凸显,数据标准化、数据确权、数据质量、数据安全、隐私保护、数据流通管控、数据共享开放等问题越来越受到国家、行业、企业各个层面的高度关注,这些内容都属于数据治理的范畴。因此,数据治理的概念就越来越多地受到关注,成为目前大数据产业生态系统中的新热点。
在20世纪80年代,随着数据随机存储和数据库技术的应用,产业界首次提出了数据管理的概念,这就是数据治理最早的起源。2009年,国际数据管理协会(DAMA)提出了DAMA数据管理理论框架模型,成为目前行业最权威的数据管理理论模型。DAMA数据管理理论框架模型包括10个活动职能,分别是数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理和数据质量管理。
目前,企业数据治理已经形成了一套科学的管理范畴。从技术体系上来看,数据治理位于应用和底层平台中间。数据治理包括两个重要方面:一是数据治理的核心活动职能;二是确保这些活动职能落地实施的保障措施,包括组织架构、制度体系。数据治理在大数据应用体系中,处于承上启下的重要地位。对上支持以价值挖掘为导向的数据应用开发,对下依托大数据平台实现数据全生命周期的管理。
2018年5月,银保监会印发《银行业金融机构数据治理指引的通知》,开启了行业数据治理的新趋势,数据治理的概念从传统的数据企业走向能源、金融、工业、政务等多种行业。近年来,国内各行业大型企业纷纷发起企业内部数据治理项目,制定数据治理规范,成立专业的数据管理实体团队来开展企业数据治理工作。
三、数据治理为人工智能奠定基础
大数据是不断采集、沉淀、分类等的数据积累,而数据治理则为大数据的呈现提供了更为规范的模式。目前,大部分人工智能的形式需要通过大量的数据运算实现,因此离不开大数据和数据治理的支持。人工智能需要依赖大数据平台和技术来帮助完成深度学习进化。
(1)数据治理为人工智能优化数据质量
以深度学习为代表的人工智能分为训练(Training)和推断(Inference)两个环节。深度学习训练算法的效果依赖于所输入的数据质量的优劣,如果输入的数据存在偏差,那么输出的算法也将产生偏差,这可能将直接导致所得结果的不可用。数据治理在提升数据质量方面具有重要作用。通过定义数据质量需求、定义数据质量测量指标、定义数据质量业务规则、制定数据质量改善方案、设计并实施数据质量管理工具、监控数据质量管理操作程序和绩效等数据质量管理环节,企业可以获得干净的、结构清晰的数据,为深度学习等人工智能技术提供可信的数据输入。
(2)数据治理为人工智能保障数据隐私
当前人工智能发展中面临的很大制约就是数据权属和隐私保护问题。个人隐私数据之所以应该受到保护,就是因为这些数据的滥用有可能对个人造成巨大的财产甚至人身伤害。所谓隐私保护,其实就是对隐私数据的保护。最理想的情况是能够在产权层面确立相关个人作为隐私数据的合法的唯一拥有者,或至少对隐私数据实际控制者的行为严加管束,做到合法合规,这就离不开数据治理。数据治理工具从技术工具和保障措施等方面设计了保护隐私数据的诸多环节,可为企业个人数据保护奠定基础,从而实现人工智能应用的数据合规性。
四、人工智能在数据治理中的应用
(一)数据模型管理
数据模型是数据治理的基础,一个完整的、可扩展的、稳定的数据模型可以清楚地表达企业内部各种业务主体之间的数据相关性,使不同部门的业务人员、应用开发人员和系统管理人员获得关于企业业务数据的统一完整视图。数据模型包括概念模型、逻辑模型和物理模型。其中,概念模型一定程度上等同于传统数据库理论中所涉及的ER图(实体—联系图),反映了实体和实体之间的关系。
人工智能帮助实现概念模型与计算机模型的完美融合。ER图只能帮助我们理解客观世界的事物,并非计算机可以实现的模型,因此在建立概念模型以后,还需将其转换为计算机模型。知识图谱作为人工智能的重要产物之一,是以图形(Graph)的方式展现实体、实体属性以及实体间的关系。目前,知识图谱普遍采用了语义网络架构中RDF(Resource Description Framework,资源模式框架)模型表示数据,其基本数据模型包括资源(Resource)、谓词(Predicate)和陈述(Statements)3个对象,用于构建包含主体、属性和客体的知识图谱数据集。
(二)元数据管理
元数据是描述数据产品特征的任何信息,以及与企业认为值得管理的其他数据产品的关系等。元数据也包含了许多主题领域,即业务分析(如报表、用户、绩效)、业务规则、数据整合(如数据源、数据转换规则)等。
(1)人工智能实现对非结构化数据的采集和关键信息的提取
在传统的元数据管理中,对于非结构化数据的元数据采集通常是通过创建非结构化数据的搜索索引的方式。语音识别、图像识别、文本分析等技术帮助实现元数据的最初业务词库的构建,成为提取各类有价值的非结构化元数据的资源池。
(2)人工智能帮助维护元数据
企业将元数据视为数据的索引,因此元数据的质量至关重要。如果企业数据源存在不规则的数据并且这些不规则性可以利用元数据体现,那么元数据可以辅助用户理解这些复杂的数据。同时,在元数据的迁移和整合过程中,管理好元数据的质量也至关重要。人工智能在元数据质量维护的过程中不是一个“管理者”的角色,而是一个轻量又关键的“技术者”的角色,它起到的作用同在数据治理中提升数据质量的作用类似,最终将消除在元数据存储或数据字典中重复、不一致的元数据,并通过元数据质量规则设定,提出可靠的质疑阈值。
(3)人工智能帮助实现元数据的整合
元数据的整合是在企业范围或在企业外部,采集相关的技术元数据和业务元数据,并将其存储进元数据存储库的过程。此过程在定义存储方式和跟踪机制的基础上,如果通过自动化实现将节约更多的人力成本,而人工智能在自动化中承担关键节点和优化节点的作用,解决诸如质量控制和语义筛选方面的问题。
(三)主数据管理
主数据指企业核心业务实体的数据,是在整个价值链上被重复、共享应用于多个业务流程的、各个业务部门与各个系统之间共享的基础数据,是各业务应用和各系统之间进行信息交互的基础。但是在主数据管理的过程中,企业可能面临如何在数量庞大的数据项中识别主数据、如何建立统一的主数据标准等问题。
(1)人工智能帮助企业识别主数据
确定主数据依赖于企业对于业务需求的理解和相应“黄金数据”的定义。通常来说,每个主数据主题域都有自己专用的记录系统,并且分散在各个业务系统中。人工智能相关技术可以帮助我们在所有数据中筛选出频繁出现或流动的数据,同时快速确定主数据的可靠与可信数据来源,构建完整的主数据试图。
(2)人工智能帮助定义和维护数据匹配规则
主数据管理面临的一个挑战是在多个系统中对于同一数据项进行匹配和合并,解决该挑战的一个方法是构建数据匹配规则,包括不同置信水平的匹配接受度。有些匹配需要极高的信任度,可以基于跨多个字段的准确数据匹配实现;有些匹配仅仅由于数据值的冲突,可以采用较低的信任度。机器学习、自然语言处理可帮助建立重复识别匹配规则和匹配链接规则,在识别字段重复的主数据之后不进行自动合并,并确定与主数据相关的记录,建立交叉引用关系。
(四)数据质量管理
数据质量是保证数据应用的基础。衡量数据质量的指标体系包括完整性(数据是否缺失)、规范性(数据是否按照要求的规则存储)、一致性(数据的值是否存在信息含义上的冲突)、准确性(数据是否正确)、唯一性(数据是否是重复的)、时效性(数据是否及时反映客观事实)。对于任何一个企业而言,在实施数据质量提升方案之前,需要依据不同的业务规则和业务期望选择合适的数据质量指标体系,并进行数据的清洗。
人工智能定义转换规则,提取数据质量评估维度。数据质量改善最理想的模式是从数据源头剔除脏数据,但是这在现实中并不可行,其一是因为数据源众多且难以控制数据源的数据质量,其二是直接从数据源头达标付出的成本过大。因此,根据业务期望,应针对性地提升各个业务线上数据流的数据质量。机器学习(如分类学习、函数学习、回归)将通过提取有效的数据质量评估指标,最大化实现该指标下的数据质量的提升。
同时,监督学习、深度学习也将实现对数据清洗和数据质量的效果评估,进而改善转换规则和数据质量评估维度,并随着数据量和业务期望的逐渐变化,使数据质量提升方案动态更新。
(五)数据安全
数据安全是指让信息或信息系统免受未经授权的访问、使用、披露、破坏、修改、销毁的过程或状态。而数据安全治理不仅仅是安全工具或解决方案,而是基于战略、业务、应用、安全和风险管理的有机整体,从管理制度到工具支撑,从上层管理架构到下层技术实现,采取的一系列合适的措施。数据安全治理是人工智能在数据治理全过程中的重要应用环节。
人工智能促进安全保障体系完善。依托人工智能引擎,通过对业务数据的获取、清洗、语义计算、数据挖掘、机器学习、知识图谱、认知计算等技术,将快速促进数据安全保障体系完善。
人工智能推进数据分类分级。应用机器学习、自然语言处理和文本聚类分类技术,能对数据进行基于内容的实时精准分类分级,而数据的分类分级是数据安全治理的核心环节。例如,利用数据分类引擎在邮件内容过滤、保密文件管理、情报分析、反欺诈、数据防泄露等领域明显提升了安全性。
(六)其他方面
当前数据治理成熟度模型是定性模型,人工智能可以从两个方面实现对数据治理成熟度模型的改进,其一是结合企业自身的数据治理发展现状与数据治理理论框架,其二是通过自定义的多维度评估规则,实现成熟度模型的量化,在更细的颗粒度上提供切实可行的改进实施方案。
五、结束语
人工智能对于提升数据治理的智能化水平具有关键作用,因此也成为数据治理发展的重要趋势。未来,通过人工智能技术降低数据治理的门槛将成为数据治理发展的重要方向。人工智能与数据治理看起来是两项必须专业人士才可以操作的技术,但是如若将它们的使用受限于懂技术的专家,缺少其他管理人员或业务人员的参与,将是一种对资源的浪费。因此,需要通过智能化嵌入手段不断提升数据治理工具的易用性,使得数据治理的参与人员可以更为便捷地使用数据治理工具。自然语言问答、自然语言搜索、语音控制等人工智能技术的嵌入,将极大改善目前数据治理工作操作难的现状。
随着数据治理和人工智能两个领域的各自快速发展,未来二者的融合将会有更多场景和商业模式。
作者简介
李雨霏:中国信息通信研究院云计算与大数据研究所工程师。
联系方式:liyufei@caict.ac.cn
本文刊于《信息通信技术与政策》2019年第5期
声明:本文来自大数据技术标准推进委员会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。