数据流通的重要性

随着数据经济不断发展和大数据技术深度应用,数据日益成为数据经济时代下新的重要战略资源和生产要素。数据天性就是流通的,在安全条件下的开放、共享和利用,能够极大地提高资本、技术、知识等其他生产要素的利用效率和结合对接,有效地推动管理、组织、制度和技术的不断创新。而数据泄露的风险是阻滞数据流通最主要的障碍之一,其所造成的后果导致各方对数据的上传流通采取过于保守的态度,因噎废食。

2015 年 8 月,中国国务院发布的《促进大数据发展行动纲要》明确表示,要“引导培育大数据交易市场,开展面向应用的数据交易市场试点,探索开展大数据衍生产品交易,鼓励产业链各环节市场主体进行数据交换和交易,促进数据资源流通,建立健全数据资源交易机制和定价机制,规范交易行为”。

政府鼓励数据资源的流通和交易,是在确保数据安全下进行的。因此,建立一个安全、可靠、合规、高效的数据流通机制,是我国数据经济发展新形势下的迫切需求。

1 数据流通的常见场景

1.1 单数据源对外开放模式

以单个公司、组织为主体,向数据需求方单向开放自身的数据。数据类型主要是营销数据、互联网数据和政务数据。需要指出的是,数据对外开放需要做的工作很多,如数据的脱敏和去标识化,合规支持,对用户的认证,算法和结果分析,监管接口等等。单一数据源对外开放的成本和技术难度都很高,导致很多数据源止步于此。

1.2 组织内多部门数据共享模式

主 要 是 大 型 集团公 司、组 织 机 构 内部 的数据共享,包括总部与分部、决策层和执行部门、各部门之间和公司与单个具体员工等。组织内部之间的数据流通能够有效提高业务效率,但是在实践中会面临诸多障碍,诸如员工跳槽或者以各种动机私自带出数据;部门管理以业务为导向、架构独立,会出现各部门推诿扯皮、不愿承担风险现象;跨国公司内部的数据流动涉及不同国家地区的数据跨境法律政策。

1.3 不同组织间共享数据的模式

不同机构、组织进行短期的项目合作,需要对各个成员单位进行数据共享。这种第三方外包服务通常需要对方的核心业务数据,这就使得各方之间普遍存在数据泄露的风险。

1.4 数据开放的要求

在上述或者任何其他数据流动的场景中,本质问题是数据开放缺乏相互的信任基础和机制以及违约惩罚,建立各方能够信任的数据安全流通平台,才能从根本上解决数据共享的信任问题。目前,传统企业对数据开放的诉求主要有几点:数据安全,即在开放数据时能够有效保证数据安全,避免数据泄露;应用场景,数字经济下的海量数据在开放和流通中不断积累,如何能够在更多的场景下对数据实现更有效地利用;数据定价,基于网络空间的虚拟数据,结构复杂类型多样,如何衡量其安全、商业、社会价值并建立规范的数据定价体系;算力支持,对于数据的接受、判断、分析和处理需要足够的技术储备和安全的技术环境。

2 云际数据交易平台

基于此,我们提出了具备原始数据不可见、良好的加密和追溯机制、安全数据沙箱和可不断迭代更新的云际数据交易平台。云际数据交易平台的原型源于云际合作模

型,是一种不同架构云服务之间的协作框架,这种模型框架应用到数据开发服务中就是云际数据交易所,通过各方达成的共同协议和行为规则,实现不同机构之间的协作和数据开放共享的(见图 1)。

图 1 云际数据交易平台示意图

平台建构在多个数据源所提供的数据节点上,数据需求方提供自己需求算法支持,在平台上安全合规、便捷自由地处理数据提供方的原始数据,并得到算法结果。这是平台最重要核心的概念,即“数据所有权和使用权的分离”,数据源在开放数据时开放的是使用权,而不是所有权。整个过程中数据的所有权都不会发生转变,但是用户通过平台获得了在某种特定时间内,在特定场景下的某种数据的使用权。

平台的功能从底层到上层主要划分为基础设施层、数据资源层、数据加工层和结果应用层(图 2)。合法合规且安全便利的数据流通平台必须为数据流通和数据在线使用提供技术环境和机制支持。通过构建云服务,使得用户在云端使用数据而不是下载数据,能够有效地避免数据泄露。

图 2 云际数据交易所功能模块示意图

2.1 云际数据交易平台主要特点

平台化。通过平台汇集数据提供方、数据需求方、算法方和渠道方等各方,使得数据的采集、清洗、计算、使用全部在云端平台打通汇集。平台通过大量的数据集聚和分类处理,能够使得用户能够便利地寻找到需求数据,或者明确哪些是需求以及如何利用。同时,大量的数据集聚能够使得不同数据源之间能够形成优势互补,发挥数据的集聚效应,弥补同类数据源数据过于单一的缺陷和不足,形成参与方各取所需的数据流通生态闭环。

合规化。平台在构建时就严格遵循了《网络安全法》《信息安全技术个人信息安全规范》以及与数据安全相关的法律法规,确保平台全流程合规合法。

线上化。客户全程线上自主化使用数据,无需线下人工对接和资质审核,并通过全方位的云安全技术和流程设计作为安全保障,确保数据源的原始数据不泄露,实现数据处理的脱敏、加密和匿名化,数据的使用得到所有者的充分授权等。

在产品功能上,实现数据资源融合。包括利用数据字典或数据名片对第三方数据源进行展示,通过加密机制对自有数据和第三方上传数据实现融合;建立完善的审核机制,主要通过数据授权、算法及结果审核保障数据安全流通;确保数据来源稳定可靠,数据使用情况可追溯、查看;算法建模良好兼容,创建算法时可随时查看可用数据表,并支持多种语言编译。

2.2 云际数据交易平台安全措施及流程

云际数据交易平台主要采取五种方式满足数据源和数据需求方的安全保障需求。首先是数据安全融合,通过分布式 AI 和分布式建模在不泄露原始数据的前提下实现不同数据源之间的数据融合;二是加密机制,利用秘钥生成器的抗干扰性、分布式等特点,实现加密,并确保密钥独立生成和源代码公开;三是数据沙箱,为用户提供封闭、安全、自由的计算环境,保证数据可用但不可下载;四是区块链审计,利用区块链本身不可篡改的特点,对数据交易、处理的各个环节进行记录,确保整个过程合法合规、可被追踪和溯源;最后是多租户隔离,明确用户权限,保证数据需求方在使用数据进行计算或者建模的时候完全独立,不会受到其他租户的影响。

基于平台的数据流动流程包括数据源、平台方和数据需求方(见图 3),整个过程类似于电商的服务流程,但全部过程都是在线上进行,而且服务内容是数据,并不是物理商品。具体而言,数据提供方需要发布数据时,将原始数据经过必要的匿名化、去标准化或者分布式记账等操作后,上传到平台并在平台确认后生成数据名片,呈现给需求方。提供方还要负责对数据进行日常的编辑、维护和更新。

对于需求方而言,则需要上传参与算法运行的自有数据,并在数据目录中申请需要的数据授权,并选择相应的算法,查看最后运算结果并确认之后,可以在线上直接使用。

图 3 数据流动过程

通过云际数据交易平台,可以确保在数据安全方面做到五个不能。数据不能看,即在流程上做到数据的所有权和使用权分离,数据可用但不可见;数据不能拿,数据可用但不能下载,结果不能出库,直接在线上的体系内完成闭环;数据不能用,平台拥有一套基于数据脱敏的加密安全机制,就算发生泄漏,数据也毫无价值,全防护体系,记录所有日志,确保所有的数据流动都可被追查;数据不想看,平台方保持中立性,保证平台不会私下利用上传数据。

作者

陈晓建,优刻得科技股份有限公司副总裁。研究方向为互联网产品开发、云计算、大数据、服务器硬件、虚拟化技术等。

(本文选自《信息安全与通信保密》2019年第2期)

声明:本文来自信息安全与通信保密杂志社,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。