个人数据商业化利用及保护规则

先感谢主办方,感谢于莽老师,很高兴有机会跟大家一起分享关于数据的一些问题和个人信息保护问题。

今天跟大家报告的题目是《个人数据商业化利用及保护规则》,就像昨天大家讨论的一样,对于数据的价值从产业界、学界中都已经得到了充分认可,对于数据尤其作为新浪、微博、互联网从业者来说,我们搜集了很多的用户信息,这会造成一个问题就是用户特别担心我们怎么用这个数据以及用的过程中会不会造成不良影响。

今天我结合这几方面,个人数据定义及价值,个人数据在商业化利用过程中利益冲突与衡量,个人数据的现行保护框架,个人数据商业化利用规则及思考。

什么是个人数据?昨天我听与会嘉宾分享时,阿里的王坚总也在讲,数据就像现实社会中的脚印一样,大家讲的数据也会分为很多种,像监控录像和一些个人数据,今天要分享的是个人数据问题,因为互联网公司收集的主要渠道是用户提交或者用户交易的跟用户有关的数据,这个时候个人数据一个很重要的特点就是可识别性,这是区分个人数据和非个人数据的关键标准,我们一直在讲中国互联网的发展场景是非常多的,垂直领域里各个应用也是非常普遍,这个场景里面是千人千面的,我们有很好的个人数据的存量。

数据的可识别性,是区分个人数据与非个人数据的关键标准,单独可以识别出特定自然人的数据或者与其他数据结合后能够识别出自然人的数据,比如像肖像、姓名、身份证号码,或者爱好、习惯、兴趣、性别和其他数据结合之后就是个人数据,比如像身份证号、电话号码是高敏感级的,对我们来说关联性更近一些,有一些习惯、浏览方式是次一级的。

右侧的图可以看到,这是数据处理价值流向,这个也促进了我们在互联网领域里的一些新的商业模式,这里会从现实世界中收集相应的数据,从数据中提取我们希望得到的信息,而且这个信息可以是多样性的,从这个信息里做出决策,从这个决策里提炼出我们自己想要做的事,这个时候就会出现数据在处理中的各个环节,比如收集、处理、分析、运用及共享,这个时候产业化也是随着这些环节不断深入,在社会过程中、分析、处理过程中利用存储等等进行决策。现阶段讲的大数据,不同于我们以往研究方法进行样本分析,大数据的“大”给我们提供了很好的方式,让我们有可能进行全本分析,这让我们在做决策的过程中有更准确的方向性的决定。

个人数据收集问题,个人数据在处理过程中以及个人数据在利用过程中的问题,这些都是宽泛概念,个人数据处理其实是体现在多个维度的。

个人数据的收集,有主动式收集,由于工作和生活的各种需要,比如注册邮箱或者相关应用,比如昨天说到的钉钉等等,因为工作需要要填写相关的信息就可能包含姓名、手机号、工作单位等等。还有被动式收集,比如滴滴打车,我们的主要目的是能够实现从A到B地的交通服务,但是从A到B地的行车轨迹是这个过程中被动沉淀下来的信息,还有的时候我们会通过在浏览器上收集,比如Web、cookies程序等收集。敏感信息收集,由于某些特殊需要,就会涉及到敏感信息的收集,需要经过信息主体的明确同意或者根据法律特别规定收集和处理个人敏感信息。去年新浪微博是作为四部委牵头的十佳互联网企业的隐私政策审查中就涉及此类问题,一方面互联网作为产业界的代表,第二对于个人信息保护的模式我们一直希望透明化。一方面我们的流程可视化在不断加强,尽量地能够向广大用户解释:第一用户收集的信息是做什么用,第二是信息怎么收集的,以及收集后的处置措施。四部委的安全信息及隐私政策审查之后,中国的互联网企业其实做了一个很超前的工作,我们在做用户的注销设置,当然注销的流程还是需要不断推进,还需要进一步透明或者简化,但是注销流程的设定本身也体现了中国互联网引导整个互联网趋势和价值导向的一个重要方面。

收集后会涉及到一个问题,数据不流动是没有价值的,其实数据不分析也是没有价值的,把收集到的数据进行利用,就会涉及到四个特点,规模化,深度化,智能化,系统化,昨天嘉宾也讲到,大数据发展的目的是为了代替繁复的工作和解放人类,我们收集的海量数据尤其是通过互联网技术收集的数据,在收集和生成的过程中,较以往的工业时代社会有难以想象的差距,我们现在收集的数据都是PB级的,这个时候怎么处理相关数据、算法和分析规则,这个时候就需要有个规模化的效应,由于应用场景不同可能会形成深度化、垂直化的特点。智能化是指分析过来的数据,人力所能参与的环节慢慢的不断在减少,我们可能给它下一定的指标或者我们希望它达到的目标,甚至有这个目标都是模糊的,比如我今天想要在家吃饭你要给我配什么营养餐等等,这都是未来的趋势与可能。另外是系统化,它会根据某一个个体、某一类人群形成一系列的分析处理结果,达到进行个人数据运用的方式。

接下来在处理个人数据的过程中可能涉及这几方面,一方面是GDPR里提到的主体,实际产业过程中参与的主体分为几方面,一个是处理者,然后是控制者及数据利用的第三方,处理、控制、第三方有的时候这个角色有可能是交融的有可能是上下重叠的,甚至整个链条有的时候你在这个角色中是上游,但是换一个场景后可能又变成下游了,所以整个数据的处理和收集都是动态的。

个人数据在收集回来后到底应该怎么办,数据是互联网企业的重要生产资料,同时我们也认为数据尤其是保护用户数据的这种体验,实际上也是未来互联网企业发展过程中的一个核心竞争力。我们对于个人数据保护的好与不好会反映出来用户对你这个服务到底认不认可。收集的数据会涉及一个问题,如果脱敏脱成一个白纸,商业化程度肯定是有限的,在保留足够商业化的同时怎么能够尊重用户的利益,是需要不断研究的课题。我们要保证匿名化,首先把敏感信息高敏信息和不同信息进行分级,然后再识别的手段应当考虑所有客观的因素,获得用户授权,再考虑时间长短等问题进行调整,对匿名化是根据每个产业每个场景不同进行处理。

个人数据的利用,在商业化的运用过程中是体现在各个方面的,从现在这个角度来讲,数据在收集和处理的时候,我们现在是没有办法说数据处理会有什么样的情况,初步的统计了几个方面,一个是数据交易,最早有中关村大数据交易所,贵阳大数据交易所、武汉东湖大数据交易中心,有政府的有民间的。美国把数据共享定义为国策,欧盟将信息数据的传播与共享看作信息社会的基础,我们国家把大数据策略定为国家方向,可以涉及到常规数据、基础数据、敏感数据,这个时候怎么处理和交易。还有我们自己,在收集的数据利用的时候如何利用,比如像淘数据,数据魔方等数据里的处理运用。

之前介绍的是数据到底应该怎么用,尤其是我个人是微博诉脉脉数据不正当竞争案的代理人,作为产业代表我们一直在讲数据有多重要,数据应该怎么样,我思考之后又进一步讨论的问题就是利益冲突与衡量问题。我总结是三个维度,主体之间的冲突,权利之间的冲突以及个体利益和社会及产业发展的冲突。个人和平台之间就会有这个问题,加强个人信息保护和平台商业用户之间的获得通知和许可就会存在问题,平台和平台之间,上游平台和下游平台之间的数据利用也会存在这个问题,平台的收集方、处理方、控制方可能会出现问题,以及平台和政府之间的问题,有时候我们讲防止数据孤岛,打通数据共通的方式,这个时候政府信息公开前提是用数据共享的方式,所以这是主体间的冲突。权利间的冲突,尤其是在最近一两年学界讨论的更多,比如个人信息保护,有的是人身权保护,是不是还是要考虑企业主体间进行的投资、劳动成果是不是应该保护,财产权相关的问题甚至可能会讨论到底采取什么样的方式保护,是不是可以通过商业秘密控制权等方式保护,这个会构成权利间的冲突。另外一个是产业界呼吁的问题就是个人利益与社会发展的冲突,我们加强个人信息保护,但是也要考虑到现在数据已经成为社会总成本和公共资源的情况下,数字经济发展是离不开数据的,数字经济发展的要求是要求数据流动起来的,我们应该考虑流动的方向及相关的流动规则。

个人数据的现行保护框架,大家刚开始说通过知识产权法进行保护,著作权保护权保护或者通过商业秘密的保护,合同法里的保护可能有数据相关协议,合同法保护的限制是相对性限制,缺少协调等。现在是竞争法保护,但是通过个案的平衡,也有学者会提出能否设立数据的财产权和所有权进行保护,这些观点都会面临相关的挑战。

对此,总结和思考主要有,在收集过程中利用过程中会存在长合法正当必要的原则;安全保障原则;用户告知及授权原则;以及公平合理有序,最重要的就是防止数据滥用。数据对每个用户来讲都是特别重要的,这个时候对于我们要有既是企业又是用户的同理心的考虑,这是未来数据使用的重要方向。

一个呼吁,明确数据产权和相应权属,给企业一个激励,另一方面也能更好回应数据确权和数据利用的话题;同时打击与数据有关黑的产业,建立数据利用的追溯机制,可以更好地推进这个产业发展,一方面我们是上游,换一个场景又变成下游,这个时候数据的追溯机制更有利于数据的流动和产业发展;再就是技术创新应当考虑合理边界,是不是有技术就可以做坏事,对于互联网公司不作恶是一个基本态度。

我的分享就到这里,感谢主办方,感谢各位老师。

王磊 中国法学会网络与信息法学研究会理事、新浪互联网法律研究院秘书长

声明:本文来自网络与信息法学会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。