摘要:数据质量是影响开放数据价值生成的关键因素。本文采用网络调查和数据分析方法, 对13个开放数据平台中的数千个数据集进行分析, 归纳出29类“脏数据”, 统计了北京、上海和哈尔滨三地的数据质量问题分布情况。文章建议在引进“数据清洗”和“质量检查”环节、采用标准规范等方面借鉴先进经验, 提升和保障数据质量。

“开放政府数据” (Open Government Data, OGD) 运动能够释放数据价值, 产生积极的社会和经济效益, 在世界范围得到了快速发展。2013年10月, 麦肯锡研究院的报告预测[1], 在教育、交通、能源及医疗等七个领域, 开放数据每年将为全球释放约3万亿至5万亿美元的潜在经济价值;报告同时指出, 在一些领域 (如交通) 使用开放数据的最大障碍之一是“数据质量”。经合组织 (OECD) 认为, 为确保OGD创造价值, 政府面临的最重要任务是[2]: (1) 识别高价值的数据; (2) 保障数据质量; (3) 培育需求及促进数据使用。“开放政府合作组织” (Open Government Partnership, OGP) 对各成员国2012—2015年行动计划的评估发现, 低价值和低质量数据引发了数据供给与需求之间的“鸿沟”[3]。

提高数据质量, 避免因劣质数据而带来的消极影响, 始终是数据管理领域最严峻的挑战之一[4]。据估算, 美国每年因劣质数据造成的损失高达6千亿美元[5,6], 包括数据错误引起的医疗事故及电信设备故障排除引发的延误等, 零售业标价错误造成的损失及公司缺陷数据引起的财政损失等。OGD领域的数据质量问题也日益凸显, 澳大利亚昆士兰大学S.Sadiq等的研究发现, 美国数据门户Data.Gov上的枪支犯罪者数据集曾存在数据不完整、不一致和记录重复等问题[7]。巴西学者M.I.S.Oliveira等对巴西13个数据门户的分析发现, CSV数据文件中有记录重复、字段定义不一致等问题[8]。英国开放知识国际 (Open Knowledge International) 的网站开辟专栏Okfnlabs.org/bad-data/展示了“坏数据” (Bad Data) 的实例[9]。

在我国, “政府数据资源共享开放工程”位列国务院《促进大数据发展行动纲要》规划的十大数据工程之首[10]。从2012年开始, 已有20多个地方政府建设和发布了数据开放网站 (或栏目) , 随着数据量的增加, 数据质量也日益得到关注[10,11]。目前, 数据质量管理面临的问题和挑战主要有错误发现、错误修复和近似查询处理等[6]。在此背景下, 我国开放政府数据是否存在“脏数据”, 有哪些主要的质量问题及如何应对, 就成为本文要回答的问题。

1 脏数据的分类

数据质量 (Data Quality) 是“数据满足任务需求的程度”, 数据质量问题指“给使用这些数据的应用带来潜在影响的一系列数据表现”[12], 那些不符合要求或标准规范的质量差的数据常常被称为“脏数据” (Dirty Data) 或“坏数据” (Bad Data) [13]。

“脏数据”的分类可以帮助人们更好地理解和发现数据质量问题, 相关学者从不同视角研究取得了一系列成果。Rahm等[14,15]分别从模式层和实例层分析了单源/多源数据常见的9类质量问题, 如糟糕的模式设计, 冗余、互相矛盾或者不一致的数据, 拼写错误和命名冲突等。Kim等[16]提出如图1所示的33种“脏数据”的分类系统, 分为缺失的数据和没有缺失的数据两大类, 没有缺失的数据又分为了错误的数据和没有错误的数据。Oliveria等[17]将21个质量问题划分为四个粒度级别 (Granularity Level) :单元/列/行、单表、多表和多源。Li等[18]利用规则将38类企业脏数据分为五个维度:准确性、完整性、时效性、一致性和唯一性。Gschwandtner等[19]分析的对象是“面向时间的数据”, 将脏数据分为单源和多源两大类。Almeida等[20]基于数据仓库的多维数据模型, 将30个质量问题归为五组:单值、多值、元组、列和整个关系表。

图1 Kim等提出的“脏数据”分类系统

这些研究主要面向传统的数据管理领域, 如数据仓库、企业信息系统等。Laranjeiro等[21]则面向大数据, 通过文献分析将24个质量问题映射到五个质量维度:可访问性、准确性、完整性、时效性和一致性。在伴随大数据而兴起的“数据新闻” (Data Journalism) 领域, 美国数字媒体网站Quartz于2015年整理出“坏数据手册” (Bad Data Guide) , 将45个质量问题分成四个方面:数据源问题、人为问题、专家可以解决的问题和开发者可以解决的问题[13]。

在上述工作的基础上, 面向我国开放政府数据的实践, 在深入调查和分析基础上, 本文归纳出OGD领域29类“脏数据”, 见表1。该表分为“模式层” (7类) 和“实例层” (22类) 两个层次, 前者指数据的模式定义, 含完整性、一致性和准确性三个维度;后者指开放的数据本身, 含正确性、规范性、开放性等八个维度。维度的选择基于数据质量的核心维度[22]和开放数据原则, 包括数据应是完整的、原始的、及时的、可获取的、机器可读的和开放许可等[23,24]。不同于传统领域, “开放性”和“安全或隐私”是两个新的维度, 相应地有7类“脏数据”是开放数据所独有的, 它们在表1中通过星号 (*) 标记。表1中的脏数据实例全部来自各地的实际开放数据。

表1 我国OGD领域脏数据的分类

表1 德国OGD领域脏数据的分类

2 调查内容与方法

为尽可能全面地发现各种质量问题, 笔者在选取政府开放数据网站/平台时, 综合考察数据集的个数、是否有模式定义及是否提供了多种格式的文件。选取的13个网站见表2, 数据集的个数等指标在不断变化, 表中的数据取自2017年9—12月。调查的对象是各网站数据目录中的数据集, 不包括接口 (API) 和应用等其他开放资源。

表2 调查对象——地方政府开放数据网站/平台

2.1 数据集及数据文件

对开放数据本身的调查是本文的重点和核心。研究通过下载数据集的数据文件, 考察和分析文件中的数据, 依据脏数据的基本特征 (见表1) , 有可能发现实例层的16类质量问题, 即正确性 (D8—D12) 、一致性 (D13—D15) 、完整性 (D17—D18) 、唯一性 (D20) 、规范性 (D21—D24) 与安全或隐私 (D29) 等维度下的“脏数据”。

例如, “哈尔滨市建设项目选址意见书信息”数据集的Excel文件中含有846条记录, 每条记录8个字段。图2抽取了10条记录, 展示了其中存在的五类“脏数据”:“建设项目名称”“建设位置”“占地面积”和“建设规模”四列存在“数据值缺失” (D17) 现象, “占地面积”和“建设规模”两列“数据没有单位” (D23) 与部分单元是“不合理值 (0) ” (D10) , “建设位置”列的值出现“数据笼统 (不详细) ” (D8) 现象, “出证日期”列的取值“格式不规范” (D22) 。此外, 文件中还存在“未知值表达不一致” (D14) 问题:NULL与******都在表示“无数据或未知值”。

图2“脏数据”示例 (浅色的数据单元和列存在质量问题)

对开放性维度下的质量问题D25和D26, 则要依据文件格式来判别。在我国各地采用的文件格式 (见表2) 中, XLS (即Excel) 与Word是微软公司专有格式, 不符合开放标准, PDF、Word与HTML不是机器可读的。在开放数据网站中, 当一个数据资源有多个文件时, 只要一个文件符合开放标准或是机器可读的, 我们则认定不存在质量问题D25或D26。当没有数据文件可供下载、文件不能下载或数据只在网页 (HTML) 上, 我们则认为存在问题D27 (不能开放获取) , 但提供了API接口的除外。当数据存在于PDF、Word文档或网页的新闻稿、政府文件或统计报告中, 不是原始数据的可能性就比较大 (D28) , 这方面问题突出的是新疆的开放数据 (详见表1“实例”一列) 。

2.2 数据模式定义

图2中“出证日期”列的取值“格式不规范”问题与数据模式的定义有关。根据国家标准《数据元和交换格式信息交换日期和时间表示法》 (GB/T 7408-2005) , 日期的格式应为:YYYYMMDD (如20090320) , 开放数据实际中以YYYY-MM-DD、YYYY.MM.DD或YYYY/MM/DD等格式居多。因此, 与普通的“文本类型”区分开, 日期类数据应定义为“日期类型”。

图3 模式定义中的质量问题

对数据模式定义的调查是本文的另一个重点。图2展示了“哈尔滨市建设项目选址意见书信息”数据集的模式定义, 其中存在三类质量问题:类型定义错误 (D5) 、命名不准确 (D6) 和未定义数据单位 (D7) 。

一个开放数据网站是数百个乃至数千个数据集的集合, 模式定义的一致性尤为重要。例如, 一个网站在字段的命名规则上应保持一致, 但调查发现在哈尔滨、北京等地存在着“名称”与“企业名称”、“地址”与“企业通讯地址”在不同的数据集中混用的现象 (D3) 。

一个数据集中的数据资源的不同格式文件也应在模式上保持一致, 但在哈尔滨和广州等的开放数据中普遍存在XLS与XML模式不一致问题 (D4) 。图4对比了“哈尔滨市考试中心基本信息”数据集的两种格式数据, XLS数据的“标题”为中文名称 (如“地址”) , 而XML数据的“元素名称”则为汉语拼音缩写 (如DZ, 应为“地址”) , 造成用户难以理解与使用这些XML数据。

图4 两种格式数据的模式不一致

2.3 多种格式数据的一致性

同一数据资源不同格式的文件, 不仅数据模式应一致, 其中的数据更应保持一致。但调查发现, 上海、广州和哈尔滨等地存在着“同一数据集的不同格式文件的数据不一致”问题 (D16) 。

图5 两种格式数据不一致

例如, 上海“摄像头设置地点”的XLS文件中的第9条数据为“金沙江路/真光路”, 但CSV文件的相应数据却是“?金沙江路/真光路”。广州“黄埔区信用信息双公示行政处罚”的XLS数据共有14列, 但相应的CSV数据的一些行却出现了第15或16列, 见图5。哈尔滨的一些数据集也有类似情况, 即CSV中数据串列了。

W3C Web数据最佳实践 (DWBP) 工作组将“以多种格式提供数据” (Provide data in multiple formats) 列为35个“最佳实践” (Best Practice, BP) 之一 (BP14) [25], 它可以节省用户在数据转换上的时间和成本。理想状态下, 各种格式的数据应是完全等价的, 用户只要任意选择其一即可使用。如果不同格式数据的质量不同, 反而会给用户带来选择数据的成本和代价。鉴于D4和D16两类质量问题的隐蔽性强、难以发现, 我们认为它们是开放数据质量管理的新情况和新挑战, 应引起各级政府数据管理者的重视。

2.4 通过元数据判别时效性

2016年9月19日, 国务院印发《政务信息资源共享管理暂行办法》第十三条规定:按照“谁主管, 谁提供, 谁负责”的原则, 提供部门应及时维护和更新信息, 保障数据的完整性、准确性、时效性和可用性, 确保所提供的共享信息与本部门所掌握信息的一致性[26]。

为判别一个数据集的时效性, 即数据是否陈旧或过时 (D19) , 需要依照元数据“最后更新时间”和“更新频率”的值。以贵州“全省户籍人口统计数据”为例, 它的“最后更新时间”和“更新频率”分别为“2016-10-17”和“年”, 同时数据文件中给出的是2010—2014年的数据, 则可判定该数据集没有及时更新。在贵州省的网站中共有130个数据集在2017年没有更新, 占比27.6%, 而其他数据集则得到了及时更新, 占比72.4%。

广州、深圳和佛山等地的数据文件中增加了“更新日期”字段, 方便了用户判别其时效性。而北京和上海等地没有“更新频率”或“最后更新时间”的元数据, 造成很多数据集的时效性无法判别。

2.5 参照外部权威数据源

当网站内的信息不足以判别数据质量状况时, 就需要参照外部权威数据源。例如, 北京的“高校”数据集是2012年10月29日发布的, 能否反映当前实际情况呢?对比教育部的最新数据 (截至2017年5月31日) [27], 里面没有“中国科学院大学”, 因此认定该数据集是过时的。2012年7月19日发布的“机场班车线路”只有9条线路, 而首都国际机场网站上公布的线路已达18条, 表明该数据不仅过时、而且不准确。政府开放数据应是权威的数据源, 但要达到这一目标还需要在质量管理等方面加强工作。

2.6 隐私泄露问题

随着开放数据的深入, 隐私保护和安全问题日益得到关注[28]。实践上, 深圳《政府数据开放平台用户服务条款》、贵阳《数据开放授权协议》和《数据东莞网使用协议》等均含有“隐私保护声明”, 承诺网站不主动将用户个人信息泄露给任何第三方。2017年5月1日起施行的我国首部政府数据共享开放条例——《贵阳市政府数据共享开放条例》规定[29]:涉及国家秘密的、商业秘密的、个人隐私的和法律法规规定不得开放的其他政府数据不能向社会开放。

2017年6月1日起施行的《中华人民共和国网络安全法》第四十二条规定[30]:网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意, 不得向他人提供个人信息。同时将“个人信息”定义为:以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息, 包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。美国列入个人信息保护范围的数据包括名字、身份证号码、邮件地址、IP地址、电话号码等[31]。欧盟个人数据保护法指出, 身份证号码、定位数据、网络标识符、基因、经济、文化、社会身份等隐私受法律保护[32]。

笔者在调查过程中, 重点考察数据中是否含有“自然人的姓名”“电话”“住址”和“身份证号码”等敏感信息, 发现浙江、贵州和哈尔滨等地的个别开放数据存在隐私泄露问题 (D29) 或风险, 见图6 (只给出数据文件的标题行, 隐去了数据) 。

图6 个人敏感数据示例

相对照的是, 贵阳对“导游人员名单”等、东莞对“公证员信息”等进行了脱敏处理, 见图7。

图7 经脱敏处理的个人信息示例

表1中D29类脏数据也包括“泄露的商业秘密”, 这方面已有学者做了专门研究[33]。

3 结果分析

本节以“开放数据网站/平台”为单位, 对数据质量问题进行整体分析。

3.1 各平台数据模式对比

表2中的13个开放数据平台中有8个给出了模式定义, 其中广东和东莞没有“类型定义” (质量差) , 其余6家的对比见表3。普遍存在的问题是字段的英文命名不规范、数据类型单一和数值型数据无单位, 规范的做法是统一采用英文单词命名、区分各种数据类型 (文本、枚举、布尔型、数值与日期等) 及将“单位”单独定义为一列等。

表3 各平台数据模式的对比

数据模式定义的缺陷或缺失是实例层在“一致性”和“规范性”等维度的质量问题的根源, 因此“数据模式质量”在整个开放数据质量管理中处于基础性位置, 应优先得到提升和保障。

3.2 北京的数据质量问题

图8 北京市存在的主要脏数据类型 (前10名)

在调查的北京市726个开放数据集中, 出现次数最多的质量问题是“数据值缺失” (D17) , 共有311个数据集存在不同程度的数据不完整现象。接下来是“数据过于笼统” (D8) 、“不合理值或错误值” (D10) 、“未知值表达不一致” (D14) 及“一列的数据格式不一致” (D15) 等, 见图8。调查共发现631个质量问题, 按照正确性、完整性、规范性和开放性等八个维度统计占比, 结果见图9。其中, 完整性问题的比例最高, 达49%;其次是正确性问题, 占18%。

图9 北京市各维度质量问题占比

3.3 上海的数据质量问题

图10 上海市存在的主要脏数据类型 (前10名)

上海市的用户评价机制从准确性、及时性、满意性和可用性等方面对数据集打分, 得分一星到五星的数据集共324个。调查结果见图10, 出现的质量问题依次是“数据值缺失” (D17) 、“不合理值或错误值” (D10) 、“数据陈旧或过时” (D19) 、“一列的数据格式不一致” (D15) 及“数据过于笼统” (D8) 等。发现的324个质量问题在八个维度上的分布情况见图11, 排在前两位的同样是完整性问题 (30%) 和正确性问题 (20%) 。

图11 上海市各维度质量问题的占比

3.4 哈尔滨的数据质量问题

哈尔滨市的数据开放专栏于2016年底上线, 据媒体报道, 其整体水平处于全国前列。通过对672个数据集的调查, 较多的质量问题是“数据值缺失” (D17) 、“数据过于笼统” (D8) 、“不合理值或错误值” (D10) 、“同一数据集的不同格式文件的数据不一致” (D16) 及“一列的数据格式不一致” (D15) 等, 见图12。发现的760个质量问题在八个维度上的分布情况见图13, 其中正确性问题突出, 占32%, 其次是完整性问题, 占30%。

图12 哈尔滨市存在的主要脏数据类型 (前10名)

图13 哈尔滨市各维度质量问题的占比

3.5 三地对比

从全部被调查数据集的五个方面:无问题的数据集个数占比、有一个问题的数据集个数占比、有两个问题的数据集个数占比、有两个以上问题的数据集个数占比及平均一个数据集的问题个数 (问题个数/数据集个数) , 对三地进行对比, 结果见表4和图14。可见, 总体上北京和上海的数据集质量状况相当, 要好于哈尔滨。

表4 三地各类数据集的占比

图14 三地各类数据集占比的对比图

进一步, 从表1选出严重影响用户可用性的两组六类质量问题:“正确性”下的D10 (不合理值或错误值) 、D11 (列与列的值的位置相互串位) 和D12 (出现乱码) , “开放性”下的D26 (文件格式不是机器可读的) 、D27 (数据不能被下载) 和D28 (不是原始数据) , 对比三地至少有一个质量问题的数据集个数的占比, 见表5。可见, 北京的“不可用”数据集的占比要明显少于上海和哈尔滨两地。

表5 三地“不可用”数据集的占比

需要说明的是, 由于方法 (见第2节) 的局限、技术手段的不足、数据过时及背景材料的缺乏等, 笔者不可能发现所有的质量问题 (特别是正确性问题) , 发现的质量问题其危害程度也会因用户需求的不同而有差异。

4 对策建议

提升和保障数据质量是我国政府数据共享开放工程的核心工作之一。《“十三五”国家信息化规划》在强化数据资源管理、推进数据开放部分指出, 要加强“数据资源目录管理、整合管理、质量管理、安全管理, 提高数据准确性、可用性、可靠性”[34]。我国各级政府的开放数据政策文件对“数据质量”的规定包括数据校核、数据质量评估、数据生命周期的质量管理和数据弄虚作假行为处理等[35]。本文仅从借鉴各国先进经验的角度, 提出以下可操作层面的对策建议。

4.1 发布之前的数据清洗

“数据清洗” (Data Cleaning) 是为提高数据质量而对数据进行预处理的过程[36]。数据仓库装载数据之前要进行数据清洗[15], 在大数据的质量管理中, 数据清洗也起到了关键作用[5]。在开放政府数据领域, 澳大利亚等在数据发布周期中引入了“数据清洗”环节[37], 用以实现各字段 (如日期、年龄和邮政编码等) 的格式统一、空值补齐及非文本信息移除等, 见图15。

图15 数据清洗前后对比图 (澳大利亚)

各级政府通过合适的技术、工具、规范和工作流程, 可以“清洗”表1中“正确性” (D9—D12) 、“一致性” (D13—D15) 、“完整性” (D17) 、“唯一性” (D20) 和“规范性” (D21—D24) 等维度下的10余种“脏数据”, 有效提升数据质量。数据管理部门将数据文件转化为开放标准下的机器可读格式 (如CSV、XML和JSON等) , 可以提升数据的开放程度, 解决D25和D26这两个质量问题。

用来消除原始数据中敏感信息的数据脱敏技术, 可以有效防范隐私泄露问题 (D29) 。2016年9月28日贵州省质监局发布的《政府数据数据脱敏工作指南》地方标准[38], 规范了数据脱敏的方法、过程、技术原则和管理原则。北京对敏感数据, 如29家医院的176万个病例, 经脱敏处理后向特定用户开放[39]。

4.2 采用标准规范

在数据清洗过程中, 需要标准规范指导“数据格式统一”等操作。爱尔兰“开放数据技术框架”采用了30余项标准[40], 部分见表6。

表6 爱尔兰采用的部分标准规范

我国各地也应遵循国家标准GB/T 7408和GB/T 12406等来规范“日期/时间”和“币值”等数据的取值格式和内容。

4.3 质量检查

新西兰政府机构在Data.govt.nz上开放数据前要进行质量检查[41,42], 包括开放许可、数据格式、更新时间和是否删除任何个人身份信息等。美国交通部对开放数据质量的评价共有两个维度下的10个问题, 满分是35, 见表7[42,43]。

表7 美国交通部开放数据质量检查表

英国和欧盟还建议用户在使用开放数据前进行“质量检查”[44]: (1) 数据是当前的吗? (2) 多久更新一次? (3) 是否理解数据的字段和背景? (4) 了解数据的准确程度吗? (5) 丢失的数据是如何处理的?等。

本文得出的“OGD领域脏数据分类” (表1) 的成果, 可以帮助政府部门设计“有的放矢”的数据质量检查表。

4.4 提供完备的元数据

Sadiq S等[7]认为“开放数据质量”存在着三方面的挑战, 即“对数据质量维度的共同理解”“支持用户的质量感知”及“加强数据质量与使用之间的联结”。W3C“最佳实践”建议“以机器可读的元数据向用户提供质量信息” (BP6) [25]。美国的开放数据元数据方案引进了元数据项“Data Quality”, 取值为true或false, 用于指出数据集是否符合某一质量准则[45]。

元数据可以帮助用户判别数据的时效性, 但需要足够的元数据信息。可以借鉴的例子是世界银行开放数据网站 (Data.worldbank.org) 提供了四个与时间相关的元数据项:“Periodicity Annual” (周期性) 、“Last Updated” (最后更新时间) 、“Update Frequency” (更新频率) 和“Update Schedule” (更新计划) , 足以让用户判断数据是否是最新的。

5 结语

党的十九大报告提出“推动互联网、大数据、人工智能和实体经济深度融合”的战略举措, 政府数据将迎来加快共享开放和深度应用的新时代。本文将视角深入到13个开放政府数据平台的数据本身, 细致探查其中存在的主要质量问题, 归纳出模式层和实例层29类“脏数据”, 对北京、上海和哈尔滨三地进行整体分析, 统计出质量问题的分布情况。最后, 结合各国的实践经验, 笔者建议依据标准规范、通过“数据清洗”“质量检查”等手段在数据发布过程中消除“脏数据”, 同时也要向用户提供丰富的元数据信息, 以帮助其判断数据质量。本文在研究中综合运用网络调查和数据分析等方法, 参照开放数据原则、标准规范和法律法规等, 在开放性和隐私泄露等方面发现了容易被忽视的质量问题。开放不等于高质量, 我国政府开放数据要成为权威的数据来源, 真正发挥应有的社会和经济效用, 还需在质量保障和提升上付出巨大努力。

作者:翟军 李晓彤 苗珍珍 李剑锋

来源:《图书馆》

声明:本文来自电子政务智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。