作者简介
方竞
上海富数科技有限公司科研专家,主要从事隐私计算及数据要素市场的研究工作。
周雍恺
中国银联股份有限公司金融科技研究院高级工程师,主要从事隐私计算的研发工作。
卞阳
上海富数科技有限公司首席技术官,主要负责隐私计算产品研发及数据要素市场赋能相关的管理工作。
王琪
中国银联股份有限公司金融科技研究院高级工程师,主要从事隐私计算的研发工作。
丁亚丹
中国银联股份有限公司金融科技研究院工程师,主要从事隐私计算的研发工作。
论文引用格式:
方竞, 周雍恺, 卞阳, 等. 数据基础制度下隐私计算的实践与思考[J]. 信息通信技术与政策, 2023,49(4):48-58.
数据基础制度下隐私计算的实践与思考
方竞 周雍恺 卞阳 王琪 丁亚丹
(1.上海富数科技有限公司,上海 200126;2.中国银联股份有限公司金融科技研究院,上海 201201)
摘要:隐私计算是在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算并向数据需求方提供结果的信息技术。对隐私计算发展背景和现状进行了阐述,及其发展过程中存在的掣肘进行了剖析;结合数据基础制度体系建设的相关意见梳理了推动隐私计算业务发展、贡献激励和服务生态的行业探索实践,并在此基础上形成了关于数据确权、收益分配和生态建设方面的几点建议,以期对推动隐私计算在数据要素市场建设中发挥作用提供参考思路。
关键词:隐私计算;数据要素;数据资产;数据确权;可信交付;互联互通
0 引言
隐私计算(Privacy-Preserving Computation,PPC)是兼顾隐私保护要求和数据价值利用的信息技术,近年来得到了快速发展和广泛关注。但由于有关数据资产的权利归属、收益分配等数据基础制度尚未建立完善,导致隐私计算在应用中缺乏法律合规和经济学基础,从而难以在数据要素市场建设中发挥更进一步的作用。本文通过对隐私计算的发展背景、发展现状与掣肘的分析,及其业务发展、贡献激励和服务生态实践的探讨,提出了相应的政策建议,以期为行业发展提供有益参考。
1 隐私计算发展背景
1.1 数据要素市场政策推动市场建设步伐加快
近年来,我国数据要素市场建设相关政策逐步推出,数据要素市场建设的步伐也逐渐加快。《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)提出了建立保障权益、合规使用的数据产权制度;建立合规高效、场内外结合的数据要素流通和交易制度;建立体现效率、促进公平的数据要素收益分配制度;建立安全可控、弹性包容的数据要素治理制度,以及相应的保障措施[1]。“数据二十条”的确立为隐私计算在数据要素市场建设中进一步发挥作用指明了方向。当前国内各行业对于数据流通的需求日趋旺盛,IDC预测,到2026年中国大数据IT支出规模为359.5 亿美元,市场规模位列单体国家第二[2]。
1.2 数据安全法规政策促进隐私计算技术应用
由于数据的易复制、易删改等特性,数据流通中不可避免会形成数据泄露、数据滥用等安全隐患,促使国家、企业和个人对信息安全和个人隐私保护的意识和要求逐步提升。近年来,《中华人民共和国数据安全法》(简称《数据安全法》)和《中华人民共和国个人信息保护法》(简称《个人信息保护法》)相继实施,《数据安全法》提出了支持促进数据安全与发展的措施、数据安全制度、数据安全保护义务、政务数据安全与开放规则、数据安全工作职责等方面的内容。《个人信息保护法》确立了以“告知—同意”为核心的个人信息处理规则,明确了个人信息处理者义务,也包含了对人脸识别、隐私曝光、数据跨境传输、自动化决策、信息脱敏等热点问题的应对策略。在此背景下,隐私计算成为解决数据要素流通和数据隐私保护矛盾的有效手段。如表1所示,已经有4部国家政策明确鼓励将隐私计算技术应用于数据安全流通过程中[3]。
表1 涉及“隐私计算+数据流通”的政策
2 隐私计算发展现状与掣肘
2.1 隐私计算发展现状
隐私计算是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”;它是一套融合了密码学、安全硬件、数据科学、人工智能、计算机工程等众多领域的跨学科技术体系,包含了以多方安全计算、联邦学习和可信执行环境为代表的多种技术方案[4],能够在保障数据安全和个人隐私的前提下,实现数据价值的流通共享。
多方安全计算是指在一个分布式网络中,多个参与实体各自持有秘密数据,各方希望以这些数据为输入共同完成对某函数的计算,并要求每个参与实体除计算结果、预期可公开的信息外均不能得到其他参与实体的任何输入信息。多方安全计算常采用的技术包括混淆电路、不经意传输、秘密分享、同态加密等。
联邦学习是指多个参与方在保证各自原始私有数据不出数据方定义的可信域的前提下,以保护隐私数据的方式交换中间计算结果,从而协作完成某项机器学习任务的模式。隐私数据包括原始私有数据、计算结果以及算法参数和模型参数中需要被保护的数据,包括但不限于模型参数、梯度、样本分布等。联邦学习常采用的技术包括横向联邦学习、纵向联邦学习和迁移联邦学习等。
可信执行环境是指数据计算平台上由软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在保密性和完整性方面得到保护。可信执行环境由应用层、系统层、内核层、安全处理模块和特殊指令集构成,外部数据流和计算过程由具备特殊安全要求的应用程序在处理器中特别分配的计算区域和特殊指令集完成。
近年来,隐私计算的不同技术路线相互融合,并与区块链和可信计算等技术结合,形成了软件平台、软硬结合一体机和数据产品等多种产品服务形式。除了实现安全求交、匿踪查询、多方统计和联合建模等计算功能的扩充,隐私计算产品在安全性和性能上也得到了大幅提升,其中安全性提升主要体现在密码、算法协议、数据、通信和系统安全的综合解决方案,以及通过可信计算和可信执行环境实现安全可信的硬件保障;性能提升主要体现在多方安全计算和联邦学习的密码算法优化,以及基于高性能密码协处理器、深度计算处理器和图形处理器等多种硬件加速方法提高通信效率和计算性能。目前,隐私计算主要应用于金融、通信、政务、能源、汽车、医疗等领域,实现金融风控、智能营销、智慧政务、智慧能源、车联网、智慧医疗等场景的技术赋能。
2.2 隐私计算发展掣肘
隐私计算虽然在功能、性能、安全性和场景应用方面获得了快速发展,但在数据要素市场建设过程当中,一些数据要素、数据资产和数据流通方面的机制性问题制约了隐私计算产品的工程化落地和大规模应用,主要体现在以下三个方面。
2.2.1 数据确权尚不明晰
数据要素市场化的前提条件是成熟的数据确权机制和稳定的数据流通性。数据的低成本复制性和潜在非排他性等特点与现有产权制度核心功能不相兼容,数据主体多元、权利内容多样、场景丰富多变,多元主体之间关联交织难以分割。此外,数据所有权拥有者是个人还是企业,在业界、学界和法界都尚未形成共识,使用权、处置权则更难界定。
数据要素在数据交易所等场所进行流通交易、实现价值创造,其合规交易的基础应该是清晰的产权归属,但上述问题导致数据要素交易成本上升,不利于隐私计算构造数据产品并发挥数据要素价值。在尚无法律规定数据权属及权益关系和保护的前提下,当前的核心需求是理顺个人、企业、政府等不同主体间的不同权益并优化利益分配[5]。
2.2.2 收益分配有待明确
数据要素市场的参与方丰富多样,既有数据供给方和数据需求方,也有数据运营方和数据服务提供方,相关主体在数据交易流通链条中各自发挥作用、创造价值,理应获取相应的回报。但由于数据要素的权利归属尚未厘清,无法对数据参与方进行权益认定,也没有相应的技术手段对各方贡献进行量化计量,不利于数据要素生态建设的完善。
隐私计算是多方之间联合产生共同成果,然而各机构业务发展水平不同、数据质量参差不齐、特征分布不尽相同、成果贡献缺乏合理的评估和利益分配机制。拥有高质量数据样本的数据源对共同成果的贡献更大,如果没有合理的贡献度价值衡量机制,就难以激励数据所有者与其他数据源进行合作,不利于数据共享。
2.2.3 服务生态不尽完善
目前,全国已成立约48 家由地方政府发起、指导或批准成立的数据交易机构,但在相关法律法规或政策文件中,国家级、区域级和行业级数据交易场所之间的区别和联系尚未厘清,各数据交易所本身的法律定位、经营范围、职责权限尚未在法律或政策层面得到统一认定。各数据交易所之间往往存在着入场主体、数据产品资源交叉重复却无法互相打通的情况。
数据要素市场包含数量众多的参与方,具有复杂的流通环节与服务类型,如数据要素的供需双方,数据治理、数据分析技术、数据加工处理和数据资源集成等服务方。数据要素流通环节和服务包含:数据资产评估和数据合规性及登记确权服务;数据产品咨询、数据资产集成和质量评估服务,挂牌上市合规评估服务,撮合交易数据定价咨询、交易经纪和仲裁服务;交付服务和交易清结算服务[6]。数据要素流通交易的服务生态还缺少各种类型的、足够数量的参与方,以及成熟的行业规范与运行机制。
3 基于数据确权的隐私计算业务发展机制探索
3.1 基于“三权分置”构建隐私计算的确权基础
针对数据权利归属不明的问题,“数据二十条”在第二章提出建立保障权益、合规使用的数据产权制度,其中第三节开创性地提出了数据资源持有权、数据加工使用权、数据产品经营权分置的“三权分置”产权运行机制。
依据“数据二十条”的“三权分置”思想,特定主体对数据产品及服务应享有法律上受保护的利益。其中,数据资源持有权是指对通过公开收集、购买、正常经营活动中获取的数据享有权益,可以通过选择是否开发、转让、共享等直接或间接途径获得利益;数据加工使用权是指采取选择、编排、分析和计算等数据处理方式加工数据和自用、提供给他人使用的权益,包含加工权和使用权的复合权益;数据产品经营权是指通过提供、运营等方式经营数据产品的权益,包含收益权和经营权的复合权益。
针对数据可复制导致控制权扩散问题,隐私计算基于密码学和机器学习的分布式算法,采取可用不可见的方式实现了数据持有与数据使用的分离,避免数据在使用中被复制,保护了数据资源持有权,同时数据的可计算价值得以充分挖掘和跨主体利用;数据经过加工后形成的产品,进行商业化运营,无需以持有数据为前提,不触碰或获取数据本身,依然可以进行商业化推广,从推广中获得收益。因此,隐私计算使“三权分置”具备了可操作性;同时,“三权分置”为基于隐私计算的数据确权提供了制度依据。
3.2 基于确权基础进行参与方合法权益认定
“数据二十条”根据数据来源和数据生成特征,分别界定数据生产、流通、使用过程中各参与方享有的合法权利;区分了数据来源者和数据处理者的合法权益,其中不同利益主体反映了数据要素价值过程中的主体多元性,数据产权的具体配置也应该实现主体间的激励相容[7]。
对于数据来源方、数据处理者、数据创造者、数据产品,以及数据服务需求方、提供方和中介服务机构等数据要素参与方,应对数据产品和服务本身,及其生产过程和权益内容进行界定,对数据来源的成本投入、对数据产品及服务形成的创新性劳动和实质性加工进行具体判断,从数据质量、特定场景感知的维度构建同类数据交易价值认定的指标体系。
数据处理者通过实质性加工和创新性劳动均可享有权益认定:实质性加工是对采集及存储的数据进行实质性筛选和处理;创新性劳动包括对数据的个性化选择、对公开数据的创新添附以及对数据进行匿名化处理形成的衍生产品。
隐私计算基于密码学技术的相关算法和机器学习的相关模型对原始数据和获得实质性加工的数据进行计算和建模,在满足隐私保护要求的前提下施加了创新性劳动,获得了新的数据产品,从而使得提供隐私计算产品服务的参与方对其产生的创新性劳动也享有权益,并进一步规避了原始数据流转所带来的缓存和数据泄露风险。
3.3 基于区块链与隐私计算的数据确权机制
隐私计算与区块链都综合利用了密码学、分布式系统等技术,既有相似之处又各有特点。隐私计算和区块链相结合,既能在数据共享过程中有效保护个人信息,实现数据的安全流通,还能为数据的真实性、数据确权等合规问题提供可行的解决方案,实现数据共享全流程可记录、可验证、可追溯、可审计,为进一步建设高效、高安全和高流动性的数据要素市场打下基础。
区块链技术可使用数据标签、数据指纹等方式为数据资产生成唯一标识符,然后在链上与数据持有者的数字身份进行关联,实现数据持有者对数据资产权益的公开确认[8]。隐私计算融合区块链构建双层异构平台体系,链上实现确权可信、链下保证计算安全,是数据要素可信安全交付的重要手段。
针对数据确权难的问题,北京国际大数据交易所利用区块链、隐私计算等先进技术,将数据交易全过程上链存储,通过官方的数据确权登记平台进行登记,数据产品除敏感信息不可见外,其来源、用途、权属、流转过程都清晰可查。数据产品还将被按照分级分类管理原则,智能匹配相应的交易模式,保障数据来源可追溯、内容防篡改、主权可确认、利益可分配、过程可监管[9]。
3.4 基于三类数据确权的隐私计算探索实践
3.4.1 公共数据
“数据二十条”在提出“加强公共数据汇聚共享和开放开发”的同时,提出了“统筹授权使用和管理”的要求,并针对不同的数据内容和使用目的设置了相应的授权使用方式。
公共数据确权授权机制确立后,通过隐私计算方式供给具有较高价值和较高安全要求的公共数据对不同参与主体也将发挥不同作用。对于数据提供方来说,可只提供公共数据目录,原始数据不出本地数据库,保证数据的机密性;对于数据开放平台管理方来说,可将传统数据物理汇集的模式转变成“逻辑集中、物理分散”的模式,保留数据的完整性;对于数据使用方来说,可借助隐私计算平台对数据、模型等再利用的特性进行数据应用开发,降低数据开发利用成本,提高应用开发的敏捷性[10]。
在惠民就医场景中,金融机构支撑授信业务的数据存在很多局限,数据资源供应不足,数据开发主体可信数据源提供的数据产品单一,导致惠民就医服务人数和平均授信额度无法得到进一步提升(见图1)。因此,金融机构需要加强对公共数据的开发利用,对公共数据开发利用平台中的社保缴纳、住房公积金、纳税、房产抵押等数据进行综合分析,通过安全融合功能实现金融机构数据集和公共数据开发利用平台数据集的安全求交,通过安全查询功能实现个人多维数据的匿踪查询,通过安全计算功能实现“跨省通办”数据统计,通过安全建模功能构建融合金融数据和公共数据的风控审核模型,从而基于智能算法实现就医客户的综合增信。
图1 利用公共数据开展惠民就医应用实践
3.4.2 企业数据
“数据二十条”鼓励国有企业、行业龙头企业、互联网平台企业通过合规流通途径,为市场提供高质量的数据要素供给。
企业数据建立确权授权机制后,作为行业龙头企业,能源电力公司掌握的大量个人及企业用电和缴费信息经过隐私计算技术的匿名化处理,将不再涉及个人信息和公共利益,其与金融经济、民生、环保、信用、应急等公共数据结合后,能够发挥能源看经济、能源看民生、能源看环保、能源看信用、能源看双碳、能源助应急、能源助力乡村振兴、城市大脑建设等诸多对外赋能作用。
企业参与数据流通的整个过程都需要关注数据的授权问题,流通前的数据来源授权链条与流通后的数据使用授权程序都需要更加清晰、明确、合理。针对数据需求方企业的外部数据管理,企业需要关注外部数据的来源是否符合相关法律法规规定、数据源是否已获得完整的授权闭环、授权内容是否已经覆盖使用范围[11]。
3.4.3 个人数据
“数据二十条”对一般的个人信息数据提出授权使用、依法保护的基本方法;同时,鼓励使用创新技术手段,推动个人信息匿名化处理,保障使用个人信息数据时的信息安全和个人隐私。
隐私计算使用加密方法对原始数据进行保护,其数据依然可以进行解密或复原。即使未获取到其他参与方的原始个人数据,仅获取数据切片、模型梯度等数据,也因为存在客观上可逆的可能性而仍然属于对个人数据进行处理。因此,传统的隐私计算加密方法不等于匿名化,仅是去标识化,依然是个人信息,不完全符合《个人信息保护法》的匿名化要求。
针对上述合规瑕疵,全匿踪联邦学习技术实现在无交集泄露、匿名化的多方数据集上进行联邦学习(见图2)。全匿踪联邦学习技术包括匿踪样本对齐、匿踪特征工程、匿踪联邦训练、匿踪联邦推理等全流程解决方案,能够解决目前隐私计算方案中普遍存在的“缺少个人同意”“ID泄露”的重大法律风险问题。匿名化后的样本集不再属于个人信息,并不再需要用户的授权同意,可以进行各种合规的计算、建模和加工处理,是一种保留了高价值又安全合规的可流通数据要素。
图2 基于全匿踪联邦学习实现个人信息匿名保护
4 基于收益分配的隐私计算贡献激励机制探索
4.1 基于区块链与隐私计算的数据质量评估
数据产品质量的专业评估方应确立质量评估的一般流程,从需求出发确定评价对象和范围,依托质量评估框架构建质量评估模型,从形式、内容、效果等不同角度对数据产品进行全方位评估。采用定性、定量或二者结合的方法确立能够反映产品质量的具体指标,数据产品提供方应依据评估报告采用戴明循环(Plan-Do-Check/Study-Act,PDCA)等相关方法对其所提供的数据产品质量进行持续改进。
通过区块链记录隐私计算数据共享过程中各参与方的行为,引入数据质量评价体系,能够反向推动提升参与共享计算的数据质量。比如,通过区块链对联邦学习全局模型中的预测值变化进行监控,以确定客户端聚合值导致的变化;通过智能合约对客户端上传的局部梯度进行异常识别并抛弃可疑数据;通过区块链记录和共享多方安全计算的关键中间参数,核验各方在计算流程中是否有作恶行为[8]。
4.2 基于密码算法的数据资产公允定价机制
“数据二十条”就数据产品的定价问题,明确提出了公共数据按政府指导定价有偿使用、企业和个人信息数据市场自主定价的基本原则。
根据数据类型的不同,可以从公共数据、非公共数据两方面完善数据要素市场价格机制。对于公共数据,可在价格部门和相关行业主管部门指导下,参照行政事业性事务或公共资源有偿使用的收费机制,以数据成本核算为参考,由市场主体向行政机关或公共事业/企业单位进行公共数据授权使用的合理补偿。公共数据定价一般采用加工成本加适当利润的方法,形成政府指导价格。
对于非公共数据,可引入第三方评估机构,探索形成第三方估价机制,综合考量数据成本、数据质量、应用价值、服务水平等价格影响因子,通过建立估价模型科学估计数据产品价值,为买卖双方提供议价基础参考[6]。
区块链中的密码学可以把数据使用价值精确限制到具体算法和使用次数,实现用途可控、可计量。数据所有者通过签名算法声明数据的所有权,通过加密算法规定数据的使用权。数据消费者提供一个特定的计算任务,其输入是其指定数据在特定算法下的一次使用权,而输出是数据消费者想要的结果[8]。
针对数据资产估值难的问题,北京国际大数据交易所创新构建数据要素的需求侧、场景化估值模型,围绕数据价值化目标,对数据进行清洗脱敏和场景匹配来提升数据价值;进行评级和估值来量化数据价值;通过数据交易场所实现数据融资、转让等证券化、资产化过程,从而实现数据价值[9]。
4.3 基于劳动要素的隐私计算收益分配机制
“数据二十条”提出了在坚持“两个毫不动摇”的前提下,关于数据要素价值分配的基本原则。特别提出了“推动数据要素收益向数据价值和使用价值创造者合理倾斜”“着重保护数据要素参与各方的投入产出收益,依法依规维护数据资源、数据资产权益”等的激励导向。在此背景下,应对数据产品的不同形式进行区分,对不同参与方在整个数据产品生产链条中的贡献进行分解,在“三权分置”的前提下选取合适的评估指标进行贡献度度量。
从隐私计算技术应用实践的现状来看,需要一种能够有效评估数据拥有方以及数据在参与协同建模过程中的价值贡献方法,由此建立能够有效对各参与方进行价值回馈的激励机制。其中,平台方作为收益分配的协调方,数据产品的提供方,以及配套的数商角色对数据产品价值提升产生直接和间接贡献,需要进行全方位贡献度评估,并辅以相应的激励机制。
与此同时,数据加工处理方由于进行了实质性加工和创新性劳动,可以依据按劳分配原则获取报酬;数据交易配套服务提供方由于对数据产品挂牌交易和合规上架提供了相应服务,可以依据按要素分配原则获取报酬。
在隐私计算平台支持的联邦激励机制方案中,每个参与方的模型贡献度数据既可以采用基于区块链共识机制的存证功能,也可以采用基于本地日志的存证功能,并在需求侧和供给侧建立不同的激励机制。在隐私计算的数据提供、结果查询、算力支持等环节设计激励机制,与区块链账户关联,可以按各参与方的贡献量或消费量对区块链节点账户进行数字积分的奖励或支付。公正合理的激励机制能够激励各节点贡献数据、模型或算力,正向诱导潜在恶意节点。建立按劳、按要素取酬的分配机制有利于激励吸引相关参与方积极参与数据协作并扩大隐私计算技术的应用范围,构建良好的产业生态。
5 基于可信交付与互联互通的隐私计算服务生态
“数据二十条”以构建促进使用和流通、场内与场外相结合的交易制度体系,以及数据来源可确认、使用范围可界定、流通过程可追溯、安全风险可防范的数据可信流通体系为目标,对国家级数据交易所、地区性交易机构、行业性交易机构以及场外交易机构四类市场提出了不同要求。
5.1 构建基于隐私计算的高效集约基础设施
“数据二十条”提出构建集约高效的数据流通基础设施,为场内和场外交易提供低成本、高效率、可信赖的流通环境。从实际需求来看,数据交易服务平台至少应具备五项基本功能:供求信息管理、交易数据计费管理、数据安全管理、数据交易审计、数据交易日志管理。
北京国际大数据交易所、上海数据交易所、贵阳大数据交易所等机构均建设了以隐私计算、区块链等关键技术为核心底座的新型数据交易服务平台,为供需双方提供包含“数据可用不可见”在内的多类型技术服务方案。
考虑当前隐私计算具有相当于常规数据计算5~10 倍的庞大算力需求,可以依托“东数西算”工程,超前布局建设集约、绿色、安全的数据要素算力支撑平台,形成数据要素算力跨云、跨域调度体系[9],并在此基础上由厂商提供软硬结合的高性能、高可靠可信隐私计算一体机解决方案。
5.2 推动数据交易流通场所资源的互联互通
目前,基于隐私计算的数据流通平台已经在不同的交易场所中发挥一定作用,但是交易所、交易各方之间由于平台差异造成了技术孤岛问题,需要通过互联互通技术来解决。“数据二十条”的出台意味着无论哪一级的数据交易所都将围绕顶层设计与国家级的数据交易所进行资源和业务的互联互通。
数据交易场所应建设集约高效的“根服务+公共服务+算力服务”三大数据交易基础设施,推进建设数据要素“根服务”体系,提供跨域数据标识编码融合、跨区块链和跨隐私计算平台互联互通等服务[9]。
2022年6月,隐私计算互联互通国标项目《隐私保护的数据互联互通协议规范》突破设计了标准化框架、通信协议、传输格式、对象与行为模型、语义模型等规范示例[10]。互联互通实践成果在各家不同的技术方案之间寻找共同点,尝试通过构建行业健康生态的开放接口让隐私计算的业务场景方实现资源集约化,以可信计算构建大数据流通网络,有利于促进国家级、区域性数据交易场所和行业性数据交易平台互联互通。
5.3 打造数据产品安全可信交付的服务能力
“数据二十条”明确了培育交易服务的生态体系,是加快培育数据要素市场不可缺少的重要组成部分;“数据二十条”鼓励场外交易商进入场内交易,并进一步强调了培育多元化、专业化数商,与数据交易所充分合作,发挥功能互补作用的重要性。其中,数商包括提供行业性或专业化数据的数据产品供应商和中介增值服务商,以及围绕数据资源化、产品化、资产化进程以及流通交付各环节提供服务的第三方服务商。
北京国际大数据交易所在全国率先构建涵盖交易主体、交易监管及中介服务支撑的数字经济中介服务体系,通过建立健全数据资产评估、登记结算、交易撮合、争议仲裁等市场运营体系,构建涵盖数据汇聚、治理、评估、定价、交易等一体化的数据要素市场[9]。
上海数据交易所首批签约100 家数商开展合规咨询、质量评估、资产评估、技术支持等业务,如国家电网上海市电力公司、中国东方航空公司等数据交易主体,上海市协力律师事务所、北京市金杜律师事务所、北京市中伦律师事务所等律师事务所,普华永道、德勤等会计师事务所,上海富数科技有限公司、优刻得科技股份有限公司、星环信息科技(上海)股份有限公司等交付类企业。
隐私计算厂商在数据产品交易链条当中发挥安全交付作用,提供可信交付能力。数据产品应建立安全、高效、可信的交付框架,基于隐私计算、可信认证、安全通信、存证审计等关键技术形成技术保障,满足数据产品可信交付的技术要求和评价规范。交付流程框架包含资质审查、供需对接、交付传输和审核结算等环节。可信数据服务方需满足数据传输安全性、稳定性、可靠性、性能及计算精度要求,通过安全求交、匿踪查询、多方安全计算、联邦学习和可信执行环境等手段提升可用性,专业评估机构应对交付内容、交付过程和交付效用等进行评估。
5.4 促进数据实现安全合规有序的跨境流通
“数据二十条”以维护我国数据主权、防范数据出境可能存在的安全风险、提高我国在数据跨境国际标准制定中的话语权为基本要求,坚持以我国发起设立的《全球数据安全倡议》为基础来构建数据流通和安全等方面的国际规则。
数据产品出境也应满足合规要求,依据跨境交易原则确立跨境交易流程,对重要数据出境进行评估并建立正面清单。隐私计算技术的处理过程如果涉及数据跨境传输,应当使用标准合同,进行出境风险控制,并遵守《个人信息保护法》《数据出境安全评估办法》《个人信息出境标准合同办法》《个人信息跨境处理活动认证技术规范V2.0》的相关规定[12]。
数据跨境流通机制的确立有利于隐私计算在数据跨境方面开展相关应用。例如,跨国汽车厂商可以通过多方安全计算对境内外汽车数据样本特征进行跨域统计,通过纵向联邦学习进行跨域融合建模,结合金融机构和运营商数据开展联合营销;还可以通过横向联邦学习基于车联网相关数据进行自动驾驶场景的建模应用(见图3)。
图3 隐私计算在汽车数据跨境流通中的应用
6 数据基础制度下隐私计算业务发展建议
6.1 隐私计算实现“三权分置”数据确权的建议
“数据二十条”为数据确权开创性地提出了“三权分置”机制,利用隐私计算开展业务具备了相应的政策基础。在具体实践中,建议结合区块链技术构建隐私计算的数据确权机制,在公共数据、企业数据和个人数据满足明确的确权和授权前提下,开展相关数据的跨域融合、查询、统计和建模,推动形成高安全、高价值的数据产品。
6.2 隐私计算明确收益分配机制的建议
“数据二十条”提出数据要素按贡献决定报酬机制的原则,平衡兼顾数据内容采集、加工、流通、应用等不同环节相关主体之间的利益分配。在具体实践中,建议进一步利用基于隐私计算进行数据质量评估的机制,探索基于密码学算法的数据资产公允定价机制,并在此基础上实现按劳、按要素取酬的隐私计算收益分配机制,激励各参与方为数据要素流通创造最大化贡献,并获取公平合理的收益回报。
6.3 隐私计算完善市场服务生态的建议
“数据二十条”提出构建集约高效的数据流通基础设施,促进区域性数据交易场所和行业性数据交易平台与国家级数据交易场所互联互通;通过数商为数据交易双方提供数据产品开发、发布、承销和数据资产的合规化、标准化、增值化服务。从数商的角色分类来看,隐私计算在数据流通基础设施建设、数据资源集成、数据加工处理、人工智能数据分析建模、数据治理、数据技术咨询、数据安全、人才培训、产品供应、数据交付等多个领域均可发挥作用。
在具体实践中,建议基于隐私计算技术协助数据交易场所构建集约高效的数据流通基础设施,通过互联互通技术基于开放协议解决不同服务平台的技术孤岛问题。可信数据服务商应依托相关的评估规范逐步提升数据产品可信交付的服务能力,建立事前、事中、事后的安全风险控制机制,促进数据要素实现安全合规有序的跨境流通,通过技术和服务手段创新持续推动数据要素市场生态逐步完善。
7 结束语
本文在数据要素市场建设的法规政策背景下介绍了隐私计算的主要技术路线,指出了隐私计算应用过程中存在的数据确权、收益分配和服务生态等机制性问题。基于数据基础制度体系建设的相关意见,提出在“三权分置”基础上结合区块链确立隐私计算数据确权机制;结合密码算法的数据资产公允定价,实现按劳按要素的收益分配;通过构建高效集约的隐私计算基础设施并实现互联互通来进一步完善服务生态。可以预见,隐私计算技术将围绕可信交付的核心环节向其他领域延伸,在数据要素市场建设与交易流通全流程中发挥不可估量的作用。
Practices and thoughts on privacy-preserving computation under the basic data system
FANG Jing1, ZHOU Yongkai2, BIAN Yang1, WANG Qi2, DING Yadan2
(1. Shanghai Fudata Technology Co., Ltd., Shanghai 200126, China; 2. Fintech Research Institute of China Union Pay Co., Ltd., Shanghai 201201, China)
Abstract: Privacy-preserving computation (PPC) is an information technology that analyzes and calculates data and provides results to the data demander on the premise that the data provider does not disclose the original data. This paper describes the development background and current situation of PPC, and analyzes the constraints in its development process. Then, it reviews the industry exploration practice of promoting the development of PPC business, contribution incentive and service ecology in combination with the relevant opinions on the construction of basic data system. Finally, several suggestions on data rights confirmation, income distribution and ecological construction are proposed. It is expected to provide a reference for promoting the role of PPC in the construction of data factor market.
Keywords: privacy-preserving computation; data factor; data assets; data rights confirmation; trustworthy delivery; interconnection
本文刊于《信息通信技术与政策》2023年 第4期
声明:本文来自信息通信技术与政策,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。