本文编译自欧盟出版局(Publications Office of the European Union)发布的报告《欧洲共同数据空间:进展与挑战》(EN data europa eu and the European common data spaces)。为保证阅读的流畅性,本文对脚注及正文内容有删减。
“欧洲数据战略”的核心举措是欧洲共同数据空间(European Common Data Space):“欧洲数据空间是真正的数据统一市场,其中有安全的个人、非个人数据和敏感的商业数据,企业可以很容易地从市场中访问高质量的工业数据,以促进企业发展和为企业创造价值”。本文编译自欧盟出版局(Publications Office of the European Union)发布的报告《欧洲共同数据空间:进展与挑战》(EN data europa eu and the European common data spaces),探讨了利用数据空间进行数据共享的现有和新兴的进展和倡议,包括国际数据空间协会(International Data Spaces Association,IDSA)、欧洲云和数据基础架构项目(Gaia-X)和欧洲工业数字化开放平台和大规模试点项目(Open DEI)。本文旨在描绘当前格局,并评估参考架构和实施的进展。基于理论研究和对刚起步的数据空间项目的主要利益相关者的采访,本文讨论了欧盟开放数据门户在数据空间中已有的作用和潜在的效用,并就欧盟开放数据门户如何运用已有的内容和功能解决具体需求提出了建议。
1. 数据空间简介
数据空间可以被定义为“互相信任的合作伙伴之间的数据关系,每一方都对其数据的存储和共享适用相同的高标准和规则……在数据空间中,数据不是集中存储,而是存储数据来源,因此只有在必要时才会(通过语义互操作性)共享数据。”正在欧洲和世界各地实施的倡议也已给出了许多相类似的定义,这些倡议都旨在奠定包括能源、移动、制造业等在内的特定行业以及跨行业之间的数据空间的基础。
数据空间是欧洲数据战略的关键政策措施,该战略设想“欧洲数据空间是真正的数据统一市场,其中有安全的个人、非个人数据和敏感的商业数据,企业可以很容易地从市场中访问高质量的工业数据,以促进企业发展和为企业创造价值”。
在这种政策背景下,“欧洲数据战略”宣布初步开发一系列共九个行业数据空间,并适时增加更多行业的数据空间。上述最初的欧洲共同数据空间包括:
-工业或制造业数据空间,为欧盟工业的竞争力和绩效提供支持;
-绿色协议数据空间,利用数据的巨大潜力来支持绿色协议在气候变化、循环经济、污染、生物多样性和森林砍伐等问题上得优先行动;
-移动数据空间,使欧洲在发展智能交通系统方面遥遥领先;
-健康数据空间,对预防、检测和治疗疾病的进展以及改善医疗系统的知情、循证决策至关重要;
-金融数据空间,促进创新、提高市场透明度和推动金融的可持续发展,为欧洲企业和更统一的市场提供融资渠道;
-能源数据空间,以客户为中心,运用安全和可靠的方式,增强数据可用性,促进数据跨行业共享;
-农业数据空间,通过处理和分析数据,提高农业的可持续发展和竞争力;
-公共行政领域的数据空间,在欧盟和国家层面打击腐败,提高公共支出和支出质量的透明度,增强问责制度;
-技能数据空间,减少教育和培训体制与劳动力市场所需技能之间的不匹配。
除了这九个初步的欧洲共同数据空间,也有一些人提到另一个与数据空间发展有关的战略领域——欧洲开放科学云(the European Open Science Cloud)。
最近发布的《关于欧洲数据公共空间的欧盟委员会工作文件》(Commission Staff Working Document)(欧洲委员会,2022年)强调了欧洲共同数据空间应具备的一些关键特征:
应有安全且能够保护隐私的,用于汇集、访问、共享、处理和使用数据的基础结构;
应有明确和实用的结构确保获取和使用数据是公平、透明、合乎比例原则和非歧视的,并应有明确和可靠的数据治理机制;
充分尊重欧盟的规则和价值观,特别是尊重与个人数据保护、消费者保护法和竞争法相关的规则;
在数据空间中,数据持有者有机会访问或分享他们控制下的某些个人或非个人数据;
提供的数据可以无偿或免费反复使用;
不限制参与的组织数量或人数。
因为上述进展,数字欧洲计划(digital Europe programme)的几个工作方案和建议征集已经开始要求项目提案,以开展创建数据空间的筹备行动,提交期限为2022年上半年。这包括一系列与最初的九个数据空间略有不同(尽管有重叠)的数据空间,包括绿色协议数据空间和智慧社区的数据空间,以及移动、制造业、农业、文化遗产、健康(基因组学)、媒体、金融(欧盟委员会2021年b版,第2.2.1. 9)、技能、语言、公共采购和安全与执法、旅游和能源。在完成这些预备性举措之后,欧盟委员会希望在数据空间支持中心(Data Spaces Support Centre)的支持下部署相应的数据空间。图1概述了一些在2022年上半年到期应提供资助的主要活动。
这些数据空间共同的主题是公共领域的人工智能开放数据和开放数据平台。这两者都旨在根据《开放数据指令》(Open Data Directive)提高与实施法案中确定高价值数据集有关的公共领域和私营领域信息的可得性、质量和可用性。这些数据集包含高度“相关的且会影响不同数据空间的数据”。
事实上,与这些新兴数据空间可能相关的公共数据集大部分已经记载于欧盟开放数据门户中且可以获取,欧盟开放数据门户可以成为众多行业数据空间的中枢,整合公共领域的数据资源。例如,在撰写本报告时,有大约48000个交通相关的数据集,这些数据集可用于构建欧盟移动数据空间或对构建欧洲其他地区移动数据空间有用。此外,还有超过30万个农业、渔业和林业相关的数据集;超过26万个环境相关的数据集;以及大约18.5万个司法和法律系统相关的数据集。前面讨论的大多数预备性举措将生成与数据空间数据集相关的优先数据集。它们还将制订可持续的数据治理计划,连接现有的地方、区域、国家和超国家的数据生态系统,并使公共和私人领域中的利益相关者能够获得他们所需的数据,以便在领域内和跨领域开发数据服务。
数据空间必须考虑到所有利益相关者(数据持有者、使用者和中介机构)的需求和期望,而且需要明确说明数据自主权规则,并确保这些规则是可信的。数据空间将由公共和私人领域(共享)数据以及数据空间的参考架构组成,其实施可以参考与开放数据门户中的数据联盟(Data Federation)有关的数据公开运动(Open Data Movement)中的大量知识和经验。然而,本文在审查正在进行的数据空间倡议的文件时,发现除了那些与“数字欧洲计划”(the digital Europe programme)直接相关的倡议之外,如那些商业案例报告或国际数据空间协会(IDSA)的举例亦或是Gaia-X,很容易发现公共管理部门(和欧盟开放数据门户)在数据空间的思考和规划中能够具有更多的话语权。如果这种情况持续下去,开放(政府)数据及其独特的社会技术挑战和机遇对于欧洲“单一数据市场”来说也就可有可无了。
2. 方法论
2.1. 第一步:理论研究
本文进行理论研究有四个目的:(1)确定整个欧洲一共有哪些行业的数据空间(包括已有的和正在开发中的);(2)选择利益相关者进行访谈;(3)确定开放数据源的用例和用途;以及(4)整理出所涉及的公共管理部门。为了启动研究,本文使用了以下信息源:
由IDSA维护的国际数据空间雷达(the International Data Space Radar)(“IDSA Radar”)中确定的用例和数据空间。在撰写本报告时,该IDSA Radar有用例和数据空间共计57个,其中7个已经投入使用或投入生产,涉及领域包括:智慧城市用例和数据空间共计4个、制造业领域共计7个、能源领域共计4个、移动领域共计7个、汽车制造领域共计4个、供应链领域共计8个以及跨行业或其他领域共计24个。图2提供了一个IDSA Radar的截图。
Gaia-X倡议的用例目录。在撰写本文时,该目录中有78个用例描述,分布在以下领域:农业领域有4个、能源领域有9个、金融领域有3个、地理信息领域有5个、健康领域有22个、工业4.0领域有14个、移动领域有5个、公共行政领域有10个、智慧城市领域有1个和智慧生活领域有5个。
Gaia-X在上述领域的立场文件。这些文件总结了之前用例的主要特点:农业、能源、金融、地理信息、健康、工业4.0、移动、公共行政、智慧城市/智慧地区和智慧生活。
Open DEI倡议确定的项目的用例,涉及以下领域:制造业领域有7个、农业领域有6个、能源领域有8个和医疗保健领域有13个。Open DEI倡议负责制定《数据空间设计原则的立场文件》(第一版)(Position Paper Design Principles for Data Spaces)。
图2:IDSA Radar的截图。数据空间(红色)和用例(蓝色)使用了不同的颜色,越靠近圆心的地方,倡议就越完备。
2.2. 第二步:与选定的利益相关者访谈
在数据空间的背景下,本文找到了以下几种类型的利益相关者,在一些关于数据空间架构和治理模式的主要参考文献中都有涉及这几类利益相关者。例如,《国际数据空间参考架构模型》(第三版)(the International Data Spaces Reference Architecture Model,version 3.0)确定并分为以下四个类别:
第1类:核心参与者
数据所有者拥有其数据的所有法律权利和完全控制权,通常参与的数据所有者也会自动成为数据提供者。
数据提供者为数据所有者和数据消费者之间的交换提供数据。
数据消费者从数据提供者那里获取数据。
数据使用者是根据使用政策规定拥有合法权利使用数据所有者的数据的法律实体。
应用程序提供商开发在数据空间中使用的数据应用程序。
第2类:中介机构
经纪服务提供商(broker service provider)是存储和管理数据空间中可用的数据源(如元数据)信息的中介机构。
清算所(clearing house)是为所有金融和数据交换交易提供清算和结算服务的中介机构。
身份提供者(identity provider)提供创建、维护、管理和验证数据空间中参与者身份信息的服务。
应用商店提供商(app store provider)提供可以在数据空间中使用的应用程序,促进数据处理工作流。数据应用可以由认证机构认证。
词汇表提供商(vocabulary provider)管理并提供词汇表(即本体论、参考数据模型或元数据元素),可用于注释和描述数据集。
第3类:软件和服务提供者
软件提供商(software provider)提供能够实现数据空间所需的功能的软件(不仅仅是像应用提供商那样提供应用程序)。
服务提供商(service provider)托管其他组织所需的数据空间基础设施,如果他们自己不部署的话。
第4类:管理机构
认证机构(certification body)与选定的评估机构一起,负责对参与者和核心技术组件进行认证。
也考虑到了IDSA。
本文在第一步发现的数据空间、用例或倡议中寻找上述类型的利益相关者并采访他们。我们一共进行了12次访谈,包括来自私营领域的各种利益相关者(数据所有者、提供者和使用者、词汇提供者、软件提供者和中介服务提供者),选择的对象来自不同领域:移动领域、工业4.0领域、能源领域、绿色协议领域和智慧城市领域。表1提供了受访者的摘要(已做假名化处理)。
3. 研究结果
本节总结了我们对在新兴数据空间背景下开放数据(特别是欧盟开放数据门户)作用的分析结果。我们的主要目的是确保分析能够服务于开放数据门户的负责人,他们通常既是数据所有者又是数据提供者,就其技术基础设施和内容所需要的定位做出决定支持这一概念。我们希望这些分析结论也能服务于即将开展的预备性举措,这些举措将由数字欧洲计划资助,并为欧洲共同数据空间的发展和数据空间支持中心(the Data Spaces Support Centre)的进一步发展奠定基础。
3.1 理论研究
本文的理论研究的详细结果可以在附件中找到。在表2中,我们对每个领域的主要发现进行了总结。本文一共考虑了151项倡议。其中共有21项使用了开放数据;2项提到了欧盟开放数据门户;19项涉及公共利益相关者。
3.1.1 一般发现
在欧洲共同数据空间最重要的倡议中,各数据空间发展应优先考虑的事项有重叠的地方,但并不完全一致:作为欧洲数据战略一部分的数字欧洲计划和欧洲地平线工作计划(horizon Europe work programmes);Gaia-X;IDSA;以及Open DEI。表3列出了这些不同倡议中所确定的数据空间的领域。
这些领域之间的差异似乎表明,数据空间是一个仍在整合发展中的领域。或者表明不同行政级别的优先事项可能不同,这取决于每项倡议参与人的特性(例如私人与公共、地区、国家和欧盟)。
3.1.2 特定行业的调查结果
IDSA Radar和Gaia-X中包含的大多数倡议(用例和数据空间)仍然与大多数法国和德国的组织组成的联盟密切相关,尽管这两项倡议默认具有国际性质。这是两国政府对推广数据共享和数据空间概念大力支持的结果,是欧洲数据战略的一部分。我们预计,在不久的将来(2022-2023年),更多的案例和数据空间将诞生在欧洲(和世界)的其他地区,特别是随着撰写本文时Gaia-X的创建和不同国家中心的建立。例如,在西班牙等国家,Gaia-X只是最近才发展(发生在2021年下半年),而西班牙Gaia-X协会是在2022年3月才正式成立的。这种不足是本研究的一个局限。然而,我们希望用例和实施方案的地域来源分布更广,这对我们的后续报告来说不再是一个问题。
在大多数计划中,只有三个领域(地理信息、移动和智慧城市)确定了在数据空间/用例中使用开放数据源。然而,在大多数情况下,并未确定将在哪个开放数据门户(包括欧洲开放数据门户在内)检索此类数据。
即使在数据空间包含开放数据的情况下,与这些数据空间相关联的联盟也没有明确将公共数据所有者或数据提供者纳入其中。
Gaia-X、IDSA Radar和Open DEI中描述的计划没有提供正在使用或将要使用的数据集(开放和/或关闭)的明确目录。在许多情况下,开放数据将被使用(例如在农业和能源领域)。然而,这些数据空间或用例没有明确提到开放数据源的使用,也没有讨论开放数据提供者将如何参与(如果他们参与的话)。
在农业/农业食品领域,对正在进行的和最近完成的倡议(如Gaia-X和Open DEI相关项目中所述的倡议)的分析表明,这些倡议明确打算将重点放在该部门的数字化上,数据在这方面发挥着极其重要的作用。大多数用例属于与所开展活动衍生的产品类型相关的子领域(例如,动物生产、水产养殖、耕地、乳制品、水果、新型食品和蔬菜)。在大多数情况下,都会提到公共可用的地球观测数据,以及需要实现互操作以促进更好的数据共享的其他数据源(包括现场测量)(在某些情况下,还包括对符合欧洲空间信息基础设施指令的来源的引用)。令人惊讶的是,这些描述不包含要使用的开放数据源,也不包含在这些数据共享背景下充当开放数据提供者的组织。我们找不到任何公共管理部门直接参与这些用例、数据空间或项目的证据。
在能源领域,只有很少用例提到开放数据,如Gaia- X关于能源行业商业模式的市政开放数据的使用案例,但没有案例提到欧盟开放数据门户中的数据。在能源应用中有许多可用的数据集:例如,与了解和预测能源生产和消耗等相关的气象数据;公共管理部门公布的能源消耗数据以及与建筑物相关的能源效率数据(如施工日期和能源证书)。尽管许多倡议都吸引了不同的利益相关者(如配电系统运营商、能源服务公司、输电系统运营商、协会、市场运营商和研究机构),但其中只有少数直接涉及作为利益相关者的公共行政部门。在大多数情况下,这些公共行政机构都是市政当局(例如,马拉加、乌普萨拉和罗马),只有一个是与能源部门相关的国家机构(西班牙能源多样化和节能研究所)。
就用例和可用数据空间而言,金融领域的代表性较低,因为在Gaia-X中,金融领域只有三项倡议,而在我们调查的其他来源中则没有。正如预期的那样,在这些数据空间中纳入开放数据的问题并没有受到太多关注,因为许多倡议都侧重于确保特定交易(如供应链)中的数据交换和共享。尽管如此,其中一个用例(关于创建金融大数据集群)确实提到了开放数据,但没有讨论要包含的哪一类型的数据。该案例还比较了利益相关者之间的几个公共管理部门。
很有意思的是,在Gaia-X所涵盖的地理信息领域,所有的倡议(用例或数据空间)都考虑了不同类型的开放数据(例如,来自卫星的地球观测数据,以及来自道路、铁路和街区等基础设施的数据)。然而,这些倡议缺乏让相关公共部门利益相关者参与进来的计划。
健康领域的代表性最强,共有37项倡议(包括数据空间、用例以及正在进行和已结束的项目)。除了COVID-19控制面板和中心之外,没有一项涉及开放数据或涉及作为直接利益相关者的开放数据提供者。这并不奇怪,因为健康数据空间预计将处理非常敏感的数据,而这些数据的开放程度并不高,甚至没有匿名化。尽管有些案例包含公立医院和地区或国家卫生服务机构,但后者并没有为数据空间提供开放数据。
关于制造业和工业4.0,正如预期的那样,没有明确提到使用公共管理部门的公开数据。大多数用例和数据空间都专注于在工厂中使用的机器的制造商、使用这些机器的工厂和互连工厂之间共享数据方案。其中一些项目提供了一些现成的数据集,但这些数据集并没有注册为开放的政府数据,也没有在公共行政部门的开放数据门户中呈现。公共管理部门也没有参与其中。
对于汽车领域,分析是类似的,这可以被认为是制造业和工业4.0应用于汽车的特殊情况。
IDSA Radar关注的另一个领域是供应链和物流,有八项倡议(包括数据空间和用例)。与之前的工业、制造业和汽车行业的情况一样,供应链和物流领域使用的许多数据属于参与数据空间的私人组织。然而,我们最初的期望是,其中一些倡议将使用开放数据——例如与基础设施(公路、铁路、港口、机场等)有关的数据,因此将会有公共管理部门提供此类数据。然而,对已确定倡议的分析表明,情况并非如此。
与供应链和物流情况非常相关的是移动,但主要集中在货物和人员的运输。在本文所分析的所有领域中,这一领域有最多的公共行政部门被确定为利益相关者,而不仅仅是数据提供者。一个相关的例子是由德国牵头的国际移动数据空间(international Mobility Data Space),它要求公共管理部门提供数据或促进需要在这一空间进行的一些测试。
本研究中最令人惊讶的案例与Gaia-X中的公共领域用例有关。虽然预计公共行政部门将作为数据提供者和其他利益相关者广泛参与,但似乎没有任何公共部门用例涉及任何具体的公共行政领域或由愿意向公共行政领域提供服务的行业驱动。这可能意味着,总体而言,公共行政领域还远远不是开放数据提供者,也没有作为积极的利益相关者参与数据空间的开发。
关于智慧城市和智慧生活,我们发现了两组倡议:一组侧重于在城市中提供更好的服务(如停车服务),另一组侧重于在参与城市发展的公司之间实现不同形式的数据共享以及那些更注重让公民成为一些主要数据提供者(例如,通过提供关于其家庭能源消费的个人数据)。就第一组而言,这些倡议通常将地方公共行政部门或地方公共行政部门的社区确定为数据提供者和其他类型的利益相关者。然而,就第二种情况而言,没有明确提及地方市政当局或其他公共行政部门可能提供的公开数据(例如,与住房有关的数据),而且地方市政当局和公共行政部门似乎都没有明确参与这些倡议。
3.2 与选定的利益相关者进行访谈
上一节的调查结果主要以我们对数据共享和数据空间为主题的关键倡议文档分析为基础,本节则总结了从访谈中得出的其他发现。
受访者证实,在Gaia-X、IDSA Radar和Open DEI确定的正在进行的数据共享计划中,公共部门组织代表性不足。欧洲共同数据空间层面的两个例外是绿色协议和公共采购数据空间,其中一些受访者对此提供了重要的见解:
在许多正在开发的数据空间(和用例)中,开放数据门户承担数据提供者的角色被认为是理所当然的。然而,负责开放数据门户的机构应更积极地参与数据空间的开发,以便在这些开发中更具代表性。
所有受访者都证实,目前的数据空间缺乏完整的开放和封闭数据集目录。他们普遍认为,作为数据治理过程的一部分,建立数据空间的初始步骤之一应该是开发数据集目录,但目前情况并非如此。他们认为关注技术发展而不是数据治理,或许可以解释上述情况。用一位受访者的话说:
像欧洲共同数据空间这样的开放数据门户已经展示了联合元数据和提供数据集链接的可能性。这种类型的技术对于许多对收集数据集目录没有额外要求的数据空间显然是有用的,因此像欧洲共同数据空间这样的机构应该努力在尽可能多的数据空间中定位其开源技术。
由于没有数据集目录,因此没有明确的计划来包括特定的开放数据集。然而,在某些情况下,对所需数据集的类别(如气象、交通和基础设施)有较深的了解。
没有一个受访者计划向欧洲共同数据空间提供数据。他们再次提到,绿色协议数据空间和公共采购数据空间是他们将来可能提供数据的空间。
尽管欧洲数据门户的数据目录词汇表应用程序配置文件通常被认为是一个很好的选择,因为它在开放数据门户联盟中显示了其价值,但数据空间的元数据模式仍没有得到明确规定。然而,大多数受访者认为,欧洲数据门户的数据目录词汇应用配置文件需要扩展,以满足数据空间要求(详细程度、与数据质量相关的方面、地理空间或时间分辨率等)。一些受访者知道国际数据空间参考体系结构模型中提出的信息模型正在进行的工作,但没有参与或详细关注这项工作。
包括身份提供者和词汇表提供商在内的一些受访者还指出了公共部门组织在建立数据互操作性共同标准方面的作用:公共管理部门(例如欧洲共同数据空间背后的机构)在某些情况下可以作为中立组织,为主要架构中确定的一些角色提供支持。例如,他们可能作为词汇表提供商发挥相关作用,包括参与数据标准和模型的开发,甚至作为身份提供者或作为数据治理管理者的一部分发挥作用。
4. 结论和后续措施
本文分析了与数据空间相关的关键倡议,包括与欧洲数据战略有关的官方文件,以及来自三个行业倡议(IDSA、Gaia-X和Open DEI)的在线资源和立场文件。本文研究的目的是了解欧洲共同数据空间应该如何在数据空间的背景下定位自己——也许更广泛地了解开放政府数据门户网站和利益相关者应该如何定位自己。这一初步分析表明,需要做更多的工作以确保开放数据社区在数据空间开发中得到体现和考虑,无论是在内容方面(例如,欧洲共同数据空间包含来自公共部门的数据集,这些数据集可能与大多数垂直部门相关)还是在技术基础设施方面(正如分析所表明的那样,如何才能有效地进行数据联合)。未来的活动可能包括与相关利益相关者组织研讨会,开展更多研究,评估参考架构和实施活动与已建立的(联合)开放数据发布和使用技术的兼容性,以及建立与IDSA和Gaia-X相当的社区倡议,以建立具有明显公共部门成分的数据空间,例如在文化遗产或技能领域。
附件:数据空间相关倡议中的开放数据使用情况
本附件提供了研究期间选择的数据空间中开放数据使用的详细信息,这些倡议源自三个信息源(Gaia-X、IDSA和Open DEI)中确定的以下部门/类别:农业/农业食品共计9个、汽车4个、能源21个、金融3个、地理信息5个、卫生35个、制造业和工业4.0 27个、移动10个、公共部门9个、智慧生活和智慧城市10个以及供应链和物流8个。该表还包含一些在IDSA Radar上标记为“其他”的倡议共计8个,但可能已包括在以前的任何类别中。
声明:本文来自数据信任与治理,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。