再谈作为生产要素的数据安全

作者：全知科技CEO 方兴

笔者在2019年2月发表了<从生产安全体系视角看数据安全>一文，经过了一年多，中央发布了<关于构建更加完善的要素市场化配置体制机制的意见>,正式把数据作为生产要素写进了国家的政策文件。以前的拙文也引起了一些朋友的关注，希望我结合生产要素，对数据安全体系做进一步的思考，因此有了此文。

一、构成生产要素的关键因素

首先，我们要理解构成生产要素的关键因素有哪些，从这些关键因素我们更容易讨论数据作为生产要素的安全场景和风险。

一件事物，能成为生产要素，第一是此事物参与到价值增值的生产过程中，且无法被取消（可以被替代，但相对替代方案有经济成本优势）；而为了参与生产过程，该事物可能需要提前被采集和初步的加工（消耗一定的成本）使其能更好的参与生产&使用中，必要时需要建立储备体系。

第二是此事务具有权属属性，权属本身意味着获取成本或收益分润成本。无需成本随手可以取的事物如冶炼需要的空气，大家并没有将其作为生产要素。但是对于个人信息数据而言，由于牵涉到个人主体的权益，因此个人信息数据的所有权天然就归属于个人主体本人，即使采集加工没有任何成本。

第三是此事物具备流转特性：数据具备了权属，想要将其参与到价值增值的过程，就需要通过流转（背后可能是业务的合作、数据的合作、数据的交易），通过和数据所有者通过合同分享或购买数据的部分权益（所有权、管理权、使用权、交易权、收益权）同时承担不同的责任，形成多类的数据参与者（数据所有方、数据责任方、数据使用方）。同时海量的数据意味着海量的成本，也意味着稀缺性，促进数据的流通，也是缓解数据作为生产要素资源的稀缺问题（土地、人、财产也都一样）。数据的流动可以分为内部不同部门之间的流动、跨组织的业务生态体系内的流动、跨组织无业务生态关联的流动几类。

另外，我们可以看到作为市场化生产要素，权属之下派生的权益和责任的划分可能是生产要素流转的基础。但是权属目前在法律层面都还是一个非常复杂的未确定的问题，新兴的数据共享实践也还没有好的经验可以总结，因此目前还是以商业协议来确定。但无论法律如何界定，至少在个人信息数据安全的技术层面上，已经涉及到如何将个人的知情与授权贯穿到所有业务和数据业务中的问题。因此本文在权属问题上未做重点讨论，而是以数据主体（特别是个人数据主体）的授权合规风险作为重点。

在中央的文件里，可以清晰看到对所有生产要素的以上三个关键因素的表达，具体到数据如下：

价值增值的生产过程：

采集：推动人工智能、可穿戴设备、车联网、物联网等领域数据采集标准化
加工：探索建立统一规范的数据管理制度，提高数据质量和规范性，丰富数据产品
储备：建立对相关生产要素的紧急调拨、采购等制度，提高应急状态下的要素高效协同配置能力
生产&使用：支持构建农业、工业、交通、教育、安防、城市管理、公共资源交易等领域规范化数据开发利用的场景；鼓励运用大数据、人工智能、云计算等数字技术，在应急管理、疫情防控、资源调配、社会管理等方面更好发挥作用
权属：研究根据数据性质完善产权性质
流转：加快推动各地区各部门间数据共享交换，研究建立促进企业登记、交通运输、气象等公共数据开放和数据资源有效流动的制度规范

二、数据作为生产要素的安全场景与关键安全风险

前面提到了构成生产要素的核心要素是价值增值的生产过程、权属、流转；数据作为生产要素的安全思考，也是需要紧紧围绕以上这些核心要素去思考。

我们可以把数据作为生产要素划分为三个关键场景以及其下的子场景：

数据生产的准备和生产环境场景

采集场景的数据安全风险：数据采集是企业获得数据资源的基础，这个环节，最重要的是权属清晰的情况下，在权属授权同意的情况下进行采集并保证采集的手段和方式合规（当然采集传输的过程也需要常规的保护手段，后面涉及常规的风险与手段不再单述）。
简单加工如清洗场景的数据安全风险：数据采集回来后为保证数据的质量，需要进行清洗操作，这个环节，最重要的是数据可能被恶意篡改或由于误操作导致的错误订正/删除的情况。
复杂加工如融合场景的数据安全风险：很多人未考虑过数据融合的风险，其实数据融合是生产安全中非常容易导致危害的场景。一般而言数据融合往往是为了业务，首先需要考虑业务的授权合规性。其次数据融合本身可能导致安全风险，正如常规生产中融合了两种化学物质可能导致安全风险一样，数据融合是非常容易导致对已经去标识（脱敏）的数据产生重标识（脱敏恢复）的安全风险。比如数据集A里对某用户的手机号进行了4-7位的脱敏如139****1234,,如果融合的数据集B中包含了某用户的地域信息，4-5位的脱敏数据其实是可以被有效推理出来，就极大的降低了手机号脱敏算法的保护强调，融合的维度数据越多，属性关联攻击的风险越大。
储备如汇聚场景的数据安全风险：很多人也未考虑过数据汇聚越来越多的记录来来的风险（融合可以看作字段扩展，汇聚可以看作记录扩展），其实和融合一样，越来越多的记录可以导致数据关联分析攻击。比如记录了A用户轨迹的数据记录，随着记录的增加，我们可以分析出用户的偏好，隐私行为如和谁一起行动他们的关系等，甚至即使对A用户的数据进行了去标识化保护，我们也可以重标识出用户，比如利用明星的公开轨迹和匹配的轨迹进行对比分析重标识出明星的数据。

注1：大数据时代，应用和数据由以前的紧耦合系统关系转变成一种松耦合系统关系。在海量的数据中，人和应用如何找到自己需要的数据，因此产生了元数据，描述数据的数据，对存储在企业大数据体系里的各类数据的类型、含义、位置等关键信息进行描述，便于人和应用快速找到和定位到自己需要的数据。同时随着安全技术的发展，这里存储元数据之上又拓展出了安全元数据，描述企业数据的敏感度、安全标签、访问控制策略、加密脱敏情况等。因此带来了相关的安全问题，黑客利用这些存储元数据也能快速的找到他感兴趣的资产、篡改安全元数据能绕过访问控制策略，同时这些元数据的内容错误、损毁、篡改，也能导致上层的应用的故障等多种问题。这类风险虽然可以归类到数据恶意利用和篡改的风险，但非常有自己的特色，业界对于这一块的研究也偏少，所以先列举出来，没有对其单独进行归类。

数据生产的生产场景

披露场景的数据安全风险：披露的信息如果处理不善，会带来直接的数据泄露的风险。即使对敏感数据进行了相关去标识/脱敏保护，潜在的也还会带来属性关联攻击风险和数据关联分析攻击风险。其实不仅仅是人的数据，比如传闻中的日本通过人民日报发布的王进喜的工作照片分析出大庆油田的地理位置和产油量，也属于此类。
查询使用场景的数据安全风险：很多数据直接由业务层通过查询模式使用，这里主要涉及三类风险：合规授权风险、数据泄露风险，还有一类是数据滥用风险：数据滥用是指数据被用于了对数据主体不利的用途上，比如基于业务获得了用户授权采集使用数据，也用于了业务A，授权是合规的，但数据用于用户画像后对用户进行大数据杀熟等歧视性的用途上。
业务订正场景的数据安全风险：通过业务层使用也可以对数据进行订正处理，这里的风险也主要是被恶意篡改或由于误操作导致的错误订正/删除的两类风险。
分析计算场景的数据安全风险：大数据通过分析模型进行分析计算，这里主要涉及三类风险：合规授权风险、利用模型进行属性关联分析攻击风险和数据关联分析攻击风险，获得敏感的结果信息。

数据的流转场景

数据在内部&外部流转场景：数据流转分为内部流转和外部流转，两种流转场景的风险类型都一样，但是由于组织对内和外的控制力度不一样，所以外部流转的风险系数是远远大于内部流转的。从技术场景上，又可以分为如下几种：
价值计算流转场景的数据安全风险：这个场景本质上是在数据所有者的受控环境中分享了数据的使用权，因此数据本身的泄露风险较低，主要风险类别和分析计算场景的数据安全风险基本一致。
阈值交换流转的数据安全风险：这个场景是通过服务模式提供给内部或外部共享者，内部或外部共享者发起查询提供一个被查询的主体标记数据，根据业务需要返回是/否或阈值（比如置信度、收入阈值等），这类数据共享相对比较安全，但还是透出了部分用户隐私信息，所以第一还是有授权合规风险。潜在的有数据滥用风险、数据属性关联攻击风险。
业务数据流转的数据安全风险：这个场景是根据上下游业务流程的需求，把和这个业务流程相关的完整数据提供给内部或外部共享者（比如电商把订单数据里的商家信息、卖家收货信息等数据发送给负责此订单货物物流的企业）。除了数据授权合规风险，数据获取方可能带来数据泄露和数据滥用的风险。
批量数据流转的数据安全风险：这个场景一般都是跨业务需要，把A业务采集的数据用于其他的业务用途，所以首先是数据授权合规的风险，其次是数据获取方带来的数据泄露和数据滥用的风险，还有大量数据流出给数据获取方后可能带来的数据属性关联攻击风险和数据关联分析攻击风险。

注2：在数据流转中，业务数据流转和批量数据流转本质上都让数据下游方获取了数据，是一种数据的交易；而价值计算流转场景和阈值交换流转场景本质上只是流转了数据计算的价值，或者说是一种数据服务的交易；相对数据的直接交易，是泄露和合规风险更小的模式。

注3：权属和流转带来了一个新的关键因素就是定价，但数据的定价也是一个非常困难的问题。特别在需要兼顾数据安全时，如何在不获取对方数据的真实内容限制下，对对方数据的质量、维度、量级和稀缺性做出合理的定价评估？目前业界对这块探讨极少，但也是影响数据流转的关键因素。

三、数据作为生产要素的关键安全风险分类和缓解技术

结合上面的场景与关键风险分析，我们列举了7类比较大的数据生产过程和流转中的风险类别，我们再逐一看一看可以缓解这些风险的技术措施：

针对数据的授权合规风险的技术缓解措施

采集行为与隐私条款匹配。
获得用户对数据用于其他用途和第三方共享的再授权，并提供给用户随时了解自身数据的其他用途和第三方共享使用的信息、并提供给用户随时可以中止用于其他用途和第三方共享的控制能力（对等的需要建立数据后台的能力以满足用户对数据用于其他用途和第三方共享的的授权控制）。
对汇聚的大数据，对数据主体识别、分析数据授权情况、对第三方来源的数据进行用户授权信息验证形成用户授权链条，形成数据权属授权地图、支持对第三方来源的数据按照用户的要求及时中止使用用户的数据并对数据进行清理和销毁。
数据合规清洗使用：对需要使用数据用于新的业务或共享第三方的情形，需要结合用户的数据权属授权信息，清洗出合规的数据。对于未获得用户授权，但通过数据去标识或脱敏来获得数据使用的情形，需要使用可以评估出抗属性关联分析攻击风险和数据关联分析攻击风险能力的去标识/脱敏算法并进行评估。
授权链核查：在数据融合和分析计算时，需要对来源数据的授权链信息进行核查。

数据泄露风险的技术缓解措施

数据分类分级管理：对数据实施分类分级管理，不同级别的数据映射不同的安全管理措施和技术手段。
敏感数据暴露面管理：分析敏感数据的暴露面（数据可以被内部人员或外部第三方访问获取到的应用层界面），对敏感数据暴露面实施生命周期管理，避免违规开放、研发后门、非必要的暴露面（特别是互联网暴露的）。
敏感数据暴露面脆弱性管理：分析敏感数据暴露面的安全脆弱性问题并加以改善，如未脱敏、伪脱敏或脱敏规范不合规、API接口缺乏身份认证、敏感数据非必要透出或透出过多等问题。
数据权限管理：梳理数据权限，结合业务需求对和数据分级信息，对数据访问权限进行最小化的权限分配，实施细粒度（字段级）的访问控制策略。
审计和监控：对用户的数据访问行为、敏感数据的流向进行记录和审计、并结合各种分析算法对数据的异常访问行为和异常数据流动进行识别和监控。
账号管理：对可以访问敏感数据的账号开通和行为进行审批，对这些账号进行行为画像，识别出各类账号风险，如暴露了密码或已被破解的账号、账号共用、未回收的特权账号等。
脱敏加密技术：对数据进行脱敏和加密处理；脱敏和加密可以分为采集时的脱敏和加密（入库时）、使用或流转时的脱敏和加密（动态），存储时转储的脱敏和加密（静态）。
流量控制技术：对数据的异常流向和异常访问进行访问频次、数量的控制，整体降低风险。
监控和发现互联网数据泄露事件，如暗网、百度网盘等，开通用户投诉渠道，及时了解用户数据泄露引发的诈骗、广告等隐私侵犯数据安全风险。
数据溯源和数据水印技术：可以追溯数据的来源和去向，结合上条以及审计记录对数据泄露风险事件进行调查和分析。
数据可用不可见技术：多方计算、联邦学习等。

数据滥用风险的技术缓解措施

对可能滥用的数据操作（如分析用户画像）进行特定操作审批审计。
对用户对特定数据（如用户画像数据）的访问行为特定操作审批，对其访问过程进行记录和审计、并结合各种分析算法对数据的异常访问行为进行识别和监控。
开通用户投诉渠道，及时了解用户被数据滥用引发的数据安全风险。结合审计记录对数据滥用风险事件进行调查和分析。

数据恶意篡改风险

数据权限管理：梳理数据权限，结合业务需求对和数据分级信息，对数据访问权限进行最小化的权限分配，实施细粒度（字段级）的访问控制策略。
对批量数据的修改以及高敏感数据的修改行为进行审批处理。
对用户对敏感数据的增删改行为进行记录和审计、并结合各种分析算法对数据的异常操作行为进行识别和监控，拦截高危的操作并走强制审批通道。
数据操作溯源技术：可以追溯关键数据操作的来源和演变路径，结合审计记录对数据篡改风险事件进行调查和分析。

数据误订正/删除风险

数据权限管理：梳理数据权限，结合业务需求对和数据分级信息，对数据访问权限进行最小化的权限分配，实施细粒度（字段级）的访问控制策略。
对批量数据的修改以及高敏感数据的修改行为进行审批处理。
对用户对敏感数据的增删改行为进行记录和审计、并结合各种分析算法对数据的异常操作行为进行识别和监控，拦截高危的操作并走强制审批通道。
数据备份：对数据进行经常的备份，确保数据的可恢复性。

属性关联分析风险&数据关联分析风险

实施增强的脱敏算法：如K匿名和差分隐私，对抗属性关联分析攻击。
模型监控：对模型实施细粒度（字段级）的访问控制策略；对模型访问的数据字段、数据记录和计算行为进行记录和审计，、并结合各种分析算法对数据的异常访问行为进行识别和监控。
通过使用联邦学习切分数据，也可以避免数据融合和汇聚带来的属性关联分析风险和数据关联分析风险。
对数据共享方实施监管：在数据批量流转给外部第三方时，也无法通过联邦学习切分数据降低风险，还需要对第三方共享者实施一定的数据安全管理，包括合同约束、技术检查、数据使用用途流向追踪等方式。

数据作为生产要素的数据安全风险的特性：

生产过程中遇到的很多安全风险，和传统资产安全的视角不太一样，是在于数据生产安全的风险都是在“数据生产”的动态里产生的，极大的增加了安全措施的技术难度，需要安全措施能够全程的跟随数据使用、生产和流转的过程中提供保护。
数据生产安全风险除了来自外部的威胁，更多来自于已经获得授权的人员带来的风险，比如这次中信银行泄露个人流水信息事件，柜员和分行行长是有通过正常的权限操作获取数据，他们的行为很难和其他正常行为模式区别出来。这类数据违规事件肯定也不止这一起，如何能快速的通过技术手段控制、识别、溯源到这些数据泄露事件，需要安全措施能够识别到每个人长期历史的行为并从多个维度区分，及时无法实时识别也能支持事后的审计和事件产生后的溯源能力。
数据作为生产要素的数据安全，既关注当前的风险，也关注因为安全措施导致的对数据生产过程的影响，因此会在意风险和价值之间的平衡控制。不会为了完全消灭风险而导致业务的较大的影响，而采用分层风险化解手段，用一些对生产价值影响较轻的手段把风险降低到可接受的程度，再用一些风险对冲的手段去对抗残余风险，最后整体达到风险可控，业务顺畅的理想状态。

四、数据作为生产要素催生的新的数据安全产品

结合以上数据作为生产要素的风险场景和保护技术，我们可以看到未来可以衍生出如下的新形态的数据安全产品：

数据资产安全和合规管理产品

对敏感数据进行发现和定位，并能监控数据资产的动态变化而动态追踪。
支持实施分类分级管理：支持用户手动分级的同时，可以按照规则帮助用户快速的的自动化分类分级，并能监控数据资产的动态变化而动态追踪和提醒用户分类分级的变动情况。
结合国家&行业以及客户自定义的，对数据分类分级映射的强制性或建议性安全策略要求，对数据资产存储态的安全风险进行比对分析其安全风险。
能够记录批量数据的来源、共享&转让去向、权属信息和责任信息以及对数据进行安全标记打标。
对企业所有数据进行聚合分析数据的权属主体（个人数据的权属主体是每个自然人），按权属主体分析企业获得的每个权属主体的所有数据，数据来源和对应的数据授权信息。
支持结合数据的权属主体、数据的来源、数据的授权情况，以及数据的使用用途，分析数据授权合规风险。
支持对新的业务，第三方共享需要的数据，按照数据的来源、数据的授权情况，以及数据的使用用途清洗出合规的数据集合使用。
能对重要数据的融合、衍生产出的数据进行数据血缘标记。

数据应用层使用流转监控产品

自动识别业务应用的敏感数据的暴露面，并能监控敏感数据暴露面资产的动态变化而动态追踪。
支持对业务应用的敏感数据暴露面实施生命周期管理，包括定级、上线管理、失活管理。定期对违规暴露面和异常暴露面进行清查。
支持按照一定规则对敏感数据暴露面的脆弱性风险进行核查，包括身份认证漏洞、保护措施缺乏等脆弱性风险。
可以对数据应用层的使用主体实施数据访问权限的梳理，分析企业部门和个人非必要的应用层权限以及异常使用的应用层数据权限。
支持对业务人员和第三方数据共享单位，通过应用层查询、下载和拉取的敏感数据和数据访问行为进行记录和审计，最好能记录下关键敏感数据实体信息，以支持数据溯源和快速定位数据风险事件。
支持对应用层数据使用和流转异常进行识别和监控，包括异常行为、异常数据流向、异常的账号。
未来可能需要支持对数据权属和安全标记的识别和记录。

数据应用层使用流转保护产品

对数据接口/API进行身份认证和权限控制、接口的接入需要特定的审批流程。
支持对数据应用层的敏感数据实时展示、下载、拉取时的脱敏/加密。
能识别应用层的异常的数据流动和大批量数据访问行为，并按一定的策略对其负载进行控制。
支持在应用层的数据展示时的水印功能，对于数据下载和批量数据拉取，必要时支持除文件水印之外的数据本体水印，以支持数据的溯源。
必要时可以支持对数据应用层采集和上传数据时的脱敏/加密，以支持数据入库时的脱敏加密。
未来可能需要支持对数据流转时进行权属和安全标记进行打标或记录。

注4：传统的网络DLP、终端DLP也可以成为应用数据安全流转中的一个重要环节。他们与应用层监控&保护产品的场景差异在于应用层产品更关注生产网的业务应用对内或对外的数据使用和流转中的风险，而DLP产品更关注办公网环境下的数据违规外发的风险，但DLP产品需要从传统的敏感信息关键字识别能力上提升更多种类的数据识别能力。

数据受限外发或查询管控产品

支持对通过数据外发模式的共享、转让、披露的数据安全审批流程的管理。记录相关必须的信息用于评估其风险并授权其外发。对于面向监管、审计、司法等国家和行业要求的数据外发场景，必须按相关国家要求保留相关的手续材料。
可支持对该批外发数据在数据本体上打上相关信息以及权属和安全标记水印用于数据溯源，并使用一定的加密技术，防止水印被故意破坏或损毁。
可支持各类国家和行业标准要求的数据安全脱敏算法，全方位的支持各类的数据外发和查询场景需求。

数据计算平台安全管控产品

可以对多个数据不同的平台和组件实施统一的身份认证，并保证同一用户跨数据系统的安全策略的一致性。
支持映射数据分类分级的细粒度（字段级）的数据访问权限控制和授权审批能力。
支持映射数据分类分级的数据访问行为审计、异常行为的监控。
支持映射数据分类分级的数据导出控制，如审批、脱敏策略（高级脱敏算法支持如K匿名、差分隐私）、数据本体水印等。
支持映射数据分类分级的细粒度（字段级）的数据交换访问时的动态脱敏。
支持对数据批量访问和高危操作行为识别，并通过强制审批模式进行风险控制。
支持异构的数据平台统一按照数据分类分级要求的数据权限视图和管控策略。

数据安全风险测评/评估工具

以数据为核心，能快速的识别各种状态和环境下的敏感数据（数据库、文件、客户端、流量等），形成企业的数据资产分布图/敏感数据清单。在此基础上进行数据安全的风险测评。
针对静态数据资产，通过技术手段识别其潜在的安全性风险（未复合加密、脱敏要求，违规在客户端、服务器临时文件存储未清理等）。
针对静态数据资产，通过技术手段结合人工分析其潜在的合规遵从性风险（数据的分类分级和标签管理的一致性和准确性、未纳入数据清单的非法来源数据等）
针对个人信息数据资产，通过技术手段结合人工分析其潜在的合规性风险（数据的授权合规、超期存储的数据、违规融合的数据等）。
快速分析企业的涉敏数据暴露面，以及一段时间的数据访问&流向图。
针对涉敏数据暴露面，通过技术手段分析脆弱性，包括脱敏不合规、身份认证缺失、水平越权、敏感数据如密码相关字段违规透出，数据透出过多（数量&字段）缺乏控制机制等风险。
针对涉敏数据暴露面，通过技术手段结合人工分析分析出可疑暴露面，如窃数后门、违规开放、失活暴露面。
针对涉敏数据一段时间的访问和流向信息，通过技术手段分析出高风险账号如可疑访问敏感数据的共用账号、未回收特权账号、已被泄露/破解的账号、被撞库的账号、弱密码账号等风险。
针对涉敏数据一段时间的访问和流向信息，通过技术手段分析出高风险的数据流向和高风险的数据访问行为：如异常的流向互联网域或其他域的敏感数据流向、大量爬取数据的流向等风险、批量拉取、周期性机器行为等风险。
根据以上技术风险点的测评，自动化生成数据安全技术风险测评报告。
结合各国的法律法规，各行业的数据安全规范以及检查要求，以及各种场景下的数据安全风险评估点，生产相关的问卷调查表，对用户相关法律法规和制度遵从情况进行访谈和问卷调研。
结合技术风险测评报告，以及数据安全的影响评估&数据安全合规性检查谈和问卷调研情况，自动化生成数据安全风险评估报告。

注5：目前业界的网络安全风险测评工具关注的是数据生产环境的系统和网络的通用型安全，对于数据本身的风险以及和数据高度相关的系统和网络安全风险往往并没有很好的体现，业界急需一种以数据风险为核心的风险测评工具，但另一方面数据风险以前缺乏体系的整理和分析，数据风险又牵涉法律法规的合规风险、管理制度措施的风险以及单纯的技术风险。以上列举的还是一些初步的实践中总结的，可能还遗漏了很多的风险点。

共享计算平台安全产品

基于数据计算平台安全管控产品之上
提供对单边共享计算（既A使用B的数据而无需AB的数据融合计算，这种情况下可以通过管理和控制手段让A的模型在B的可控安全环境中运行）安全支持功能

支持对模型进行安全分析和审计
支持对模型运算时的计算过程进行全程的行为和接触数据字段和记录的日志，以用于模型运行期间安全的行为审计和异常监控
支持对模型的输出结果进行安全分析&审计
支持提供密文查询、交集查询等相对安全的数据服务交易模式

多方共享计算（相对单边共享计算而言需要两方或两方以上的数据参与运算）安全：目前业界主要的方案包括：

基于硬件可信执行环境技术的可信计算方案如SGX的方案
基于密码学的多方安全计算方案，主要是通过联邦学习，通过对数据进行水平或垂直切分场景，用于解决各种场景中的各方隐私泄露以及抵抗数据汇聚融合可能带来的属性关联分析攻击和数据关联分析攻击问题

五、数据作为生产要素面临的困难和挑战

法律层面的困难

数据的权属和责任，目前法律上还没有一致的定义，即使在一些数据化走在前沿的行业里，也还没有好的可以借鉴的实践经验。

技术层面的

数据识别技术：数据的类型格式千差万别，行业差异性非常明显，需要更智能的数据识别技术。
数据本体标记技术：无论是权属、安全标记、或者水印，图片、视频这些基于文件载体形式的复合数据比较好处理，但是对于格式化数据，如何打在数据本体上，是个比较大的挑战。第一怎么不影响数据本身的使用、同时为了打标和监控，需要对大量网络通讯设备、应用处理、数据库存储字段的类型进行改造。第二如何避免被恶意攻击者发现和移除这些标记。目前主流技术是采用在脱敏的字段上打标记的方式，但是能存储的标记信息还是非常有限。
数据溯源技术：数据的追溯溯源是一个非常复杂的事情，一种方式是无需数据本体上打标记的溯源，主要是依赖在数据各种流动的场景下留下数据痕迹的记录，带来的问题是日志数据量巨大，需要研究一种精简但有效的关键数据要素的留痕记录降低数据留痕日志量，同时对敏感数据本身的记录带来了二次风险，需要提供较强的数据保护能力。一种方式是在数据本体上打标记，通过监控和记录标记来完成追溯，遇到的挑战除了前面标记技术本身遇到的问题外，另外就是流出外部的数据就难以再追踪溯源了。
碎片化残留敏感数据的发现和处理：数据处理的过程中，大量中间数据会残留在客户端设备和移动设备上、还有服务程序产生的各种临时文件中，另外各种网络设备、安全产品的日志里，都可能记录了大量零散的碎片化敏感数据，他们基本在安全体系之外，如何发现并将其纳入到安全体系的管理之中，目前技术上还没有特别好的整体方案。
对抗属性关联攻击和数据关联分析攻击的新型脱敏算法：目前K匿名、差分隐私本质上是以牺牲一定的数据可用性来换取的安全，很多的数据分析场景中不可行。另外K匿名、差分隐私也是假设攻击者掌握的数据集在自身给定的范围内的安全（比如通过模型计算攻击者需要获取1000万条数据才可能攻破算法，目前只提供了10万条数据，所以是安全的），但这种对攻击者的假设并非合理，攻击者可能通过其他的数据源获取了更多维度或更多记录的数据（比如伪装成多个主体分批次获得数据）。
数据血缘追踪技术：数据在生产过程中会不断汇聚、融合、衍生出新的数据，原始数据的安全策略/风险问题会延展到这些数据上。如何追踪这些数据传递的关系？目前技术主要是接管所有数据平台上的操作命令，通过对数据操作命令分析来分析数据的血缘关系，但是还有很多数据的处理加工工作是由应用层来完成的，这部分的血缘关系就难以追踪出来。
细粒度权限管理技术：数据的安全和权重并不一样。人们先是发现不同的字段的安全级别不一样，传统的基于表的权限不再满足权限管理的需要，需要到列/字段级实施权限策略，在业务场景中可能还会发现特定的行级数据安全级别更高，比如政治人物、影星的行动轨迹等，还需要对特定行实施权限策略；如何支持这些细粒度权限？同时太细的权限又带来管理的复杂性，比如大的互联网公司，几百万张表、上千万字段、几百亿条记录，近十万员工，如何赋权，如何管理？
远程数据安全风险测评技术：数据安全风险测评非常痛苦的一点是，由于数据必须在系统环节中才能体现，数据安全风险往往需要抵近检查，获取用户业务系统、数据系统或者网络数据流量的访问权，才能有效发现数据安全风险问题，但是这种方式对于监管、检查的成本过高，而且对数据安全风险的理解（技术和业务）、工具使用和环境适配能力、客户配合能力都有非常高的要求。这些限制导致国家和监管部门虽然对数据安全非常重视，但是缺乏有力的抓手去推动企业的数据安全建设。能否有更低成本的（如基于互联网远程的、无需用户高度配合仅提供应用层测试账号）的数据安全风险测评和监控手段，就能有效发现数据安全的风险的技术手段？
多方计算：在数据可用不可见场景中，多方计算无疑是大家期待最多的方向，然而目前这方面的技术依旧还不成熟，需要不断的改进。比如基于SGX的方案引入了第三方信任问题，基于加密技术的方案在性能上会有较大瓶颈。

致谢（按提供建议的先后次序）：

1）感谢信通院陈湉提供的“生产要素流转和稀缺的因果关系”的改进建议。

2）感谢北大洪延青提供的“法律界对数据权属的当前认知”的情况介绍。

3）感谢上海网信办杨海军提供的“对数据权属以及数据权属和安全标记追溯”的改进建议。

4）感谢上海中通伏明明提供的“增加数据作为生产要素面临的困难和挑战一节”的改进建议。

5）感谢国家信息中心邵国安提供的“数据和应用架构变化带来的元数据安全”的改进建议。

声明：本文来自全知科技，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

再谈作为生产要素的数据安全

美欧人工智能治理对我国治理的四点启示

《联合国打击网络犯罪公约》开启网络空间国际规则新篇章

数字化转型背景下制造侧网络安全发展情况与建议