这段时间Facebook的日子不太好过。创始人扎克伯格刚刚接受了美国国会议员长达10小时的质询,数据共享和以隐私保护是其中被问到次数最多的问题。随着被认为“史上最严”的欧盟GDPR(《通用数据保护条例》)生效日期临近,各界对如何平衡大数据发展和隐私保护空前关注。

从九次方大数据公司创始人到贵阳大数据交易所执行总裁,王叁寿一直在做第一个吃螃蟹的人,对大数据行业的敏锐支撑他一路“熬”了过来,也把他的工作和数据、隐私紧密联系在了一起。

在个人隐私保护话题变得越来越敏感的当下:

贵交所的数据交易如何达成?

市面上流通的数据分为哪几类?

怎样才是保护隐私最好的途径?

大数据立法是否迫在眉睫?

近日,王叁寿接受了南都专访,一一解答了这些问题。


1   贵交所会员中,数据提供者占15%          

南都:贵交所的业务有哪些?

王叁寿:主要是面向政府和企业的数据融合、流通和交易。贵交所自身不生产数据,既不是数据的拥有者,也不是数据的使用方。

贵交所就像一个水池,不管是打井、铺管道、卖自来水还是生产可口可乐,所有数据都会在水池里碰撞、融合、发生化学反应,最后通过贵交所的平台合法流通给那些需要的人。所以说贵交所最大的贡献有两个:一是数据融合,二是构建了一个以数据交易为主的数据生态。

南都:贵交所的会员中,数据提供方的比例是多少?

王叁寿:贵交所的会员五花八门,构成了一条完整的大数据产业链。通俗一点讲,会员里有打井的,有卖铁锹的,有卖水管的,每家公司提供的服务都不一样。但是真正能提供脱敏脱密之后的数据、可以被称为数据源的,大概占会员的15%左右。剩下一大半都是需要数据的,还有一部分是围绕数据产业链做采集、清洗、建模、脱敏、脱密、可视化、算法的公司。

南都:交易数据需要符合哪些条件?

王叁寿:数据来源必须合法、可靠,只要可以合法流通的数据,都是可以交易的。另外数据还必须有价值,我们的会员服务部会根据市场需要作出判断。

南都:如何保证数据合法?

王叁寿:首先看企业背景,比如会员的股东结构,是否有可疑的外资成分;其次企业必须出具正式文件解释数据来源,是自身拥有,客户授权,还是合作伙伴授权?并不是随便注册一个公司都能成为会员,我们对会员有一个初步的把握。

南都:提供给贵交所的都是已经脱敏的数据吗?

王叁寿:理想状态下,贵交所交易的是标准产品,即已经脱敏的数据。一般来说公司都会提前把数据处理好,很少有不经清洗的数据进来,因为也没有客户需要这样的数据。

如果有的公司实在不能自己完成脱敏,贵交所会把这些数据交给提供脱敏服务的会员公司,由他们处理好再投入交易。

南都:如何给交易数据定价?

王叁寿:现在讨论交易价格是个伪命题,因为数据交易不在于价格,而在于供需关系,不存在所谓标准价格。比如我卖航空数据给你,你肯定不会买,你的心理价位就是0;但是物流公司需要这个数据,他们可能认为值1000万。

数据交易市场现在没有一个标准的报价体系,可能要到2019年底,才能形成稳定的报价机制,目前交易价格通常由需方决定。在这一点上政府做了件好事,经过这些年的数据融合、共享、交换、开放,很多公司以低成本获取了很多免费数据。不过,这些数据基本上只能算低品位的“金矿”,如果数据供应商开放的是高品位的金矿,价格就可能由供方决定了。

比方说司法大数据提供方规定一条数据5毛钱,买方是没有任何讨价还价的余地的,因为卖方控制了唯一的金矿;还有海关通关数据,只有通过它才能知道货物从哪个海关出口、去了哪些国家,如果卖方说这组数据卖10块钱,价格就是10块钱。

所以数据交易价格不存在一个“公允”的价格,现在还在“上蹿下跳”的阶段。随着数据交易越来越活跃,价格也将趋于稳定。现在黑市上因为交易量很大,有些数据的价格已经稳定了,未来合法数据交易也会形成这种机制。

2   BAT像黑洞,数据出不来

南都:现在市面上流通的数据分为哪几类?

王叁寿:现在市面上合法流通的数据量并不大,主要分为6大块:前3个是BAT的企业数据;第4是四大运营商的数据;第5是基于脱敏后的政府数据和政府开放数据形成的数据产品,占所有流通数据的80%;第6是行业数据。

按理说最后2块的数据量是最大的,但是现在一直呼吁政府数据开放,忽略了行业数据。比如开放民航数据对提高物流行业效率将很有利;再比如医疗数据,明明拍X光片用的仪器一模一样,但是从外地到北京看病还得再拍一次,加重了患者“看病难”的问题。另一方面,如果县城医院能拿到全国的医疗影像数据,它的治疗水平也不见得会比北京协和医院差,还能有效缓解医疗资源过度集中的现状。

现在呼吁政务“最多跑一次”,我认为要先把让看病“最多跑一次”。现在问题主要就是卡在了数据不共享上面。

南都:为什么行业不愿意共享数据?

王叁寿:主要还是怕担责。最近Facebook的用户数据泄露事件,其实只要Facebook关闭数据接口,就不会发生,也就不用担责。但是一旦数据接口关闭,了解很多信息的渠道就没有了。

Facebook在社交行业中就像一头大鲸鱼,有一群剑桥分析公司这样的“小虾米”靠它养活,甚至对政府部门也有帮助。如果Facebook上显示美国有500万人感冒了,那是不是意味着发生了流感?美国医疗部门是不是就应该立刻预警?

中国早年有个行业叫舆情监测,主要依赖微博数据。由于现在很多互联网公司的数据只供自己使用,导致舆情监测因为信息量太小而不再准确。这就是一种数字经济产业乃至社会的倒退, 而Facebook事件让这个方向的发展又延迟了,甚至又倒退了。

南都:BAT也存在同样的问题?

王叁寿:BAT像一个黑洞,它们的数据是出不来的,它们主观上就不愿意共享数据,而正是这些数据才能构成真正的数字经济产业。这就是互联网霸权。

我想反问你,你的X光片是不是你的?但是哪个医院给过你电子版?我相信终究会有一天,公司不再靠主营业务赚钱,而是靠业务产生的数据赚钱。所以我们应该呼吁医疗机构、教育机构、互联网公司打开数据接口,把个人数据的所有权和使用权还给个人。因为我的数据就是我的,而不是淘宝或者某一个平台的资产。

另外,我希望尽快建立企业数据共享交换的国家政策,这将成为未来企业社会责任感的重要指标。当然,可以有偿开放,毕竟脱敏是有成本的。

3 有价值的政府数据开放需先建立黑白名单

南都:现在政府数据开放做得怎么样?

王叁寿:政府数据开放的方向肯定是对的,现在中国整个大数据产业就靠政府数据活着。现在各地政府数据开放的牵头单位各不一样,有的是发改委,有的是政府办公厅,还有好多地方是大数据局,其中大数据局是新编制,负责人的级别很高。比如贵州省大数据局的局长就是省政府副秘书长。

这说明政府已经意识到政府数据开放的必要性了,也做得很到位,只是有些地方到了“县”这个层面进度就变得很慢。有些地方政府不知道数据该怎么采集、融合、交换、共享,这就要靠成立大数据运营公司来帮助解决;还有一些地方政府是装糊涂,不开放真正有价值的数据。

现在打开这些政府网站,很多都挂着10年的天气预报,或者政府花了多少钱、修了几条铁路,现在大部分开放的数据都太浅了。

南都:谁来判断哪些政府数据有开放价值?

王叁寿:由市场判断。比如对银行来说,需要的是这个地方的社会信用数据,例如谁闯红灯了等等。

南都:为什么会出现政府已经开放的数据“含金量低”的情况?

王叁寿:因为虽然现在政府数据开放有目录,但是没有黑白名单。黑名单代表哪些数据不能开放,白名单代表哪些可以开放。

有些政府官员不清楚哪些可以开放,索性就先开放天气预报,反正也不担责。对真正有价值的数据,最稳妥的做法就是不开放,免得被人说侵犯个人隐私。只有国家规定了黑白名单,才能打消这些官员的顾虑。

4   互联网霸权之下,个人隐私保护是伪命题

南都:前段时间,百度总裁李彦宏说中国人更愿意用隐私换取便利。你怎么看?

王叁寿:我觉得他的意思是,中国人的隐私保护意识相对来说还很弱。你们也做过测评,很多人在注册任何平台时从来不看用户协议,而协议里面有很多霸王条款。

不过现在的环境是就算你看了,也只能同意。比如前段时间我去长沙一家医院用自动挂号机,需要先同意它的用户协议,哪个病人会点“不同意”?其实协议里有一条很重要:允许医院调用你的数据。

但是,我们不要学欧洲的路子,对个人隐私过度保护。欧洲对个人隐私的极度保护让它丧失了20年的互联网发展机会。现在全球前十大互联网公司中没有一家来自欧洲;前三十家互联网公司也可能只有一两家是欧洲的。

南都:你认为中国的隐私保护应该向哪个方向呼吁?

王叁寿:现在不管报纸也好,杂志也好,在隐私保护上基本都是一个方向,就是要保护个人隐私。但在现在互联网霸权的状态下,个人隐私保护就是个伪命题。况且谁能保证绝对的数据安全?扎克伯格也没在用户信息泄露事件的道歉信里承诺数据安全,他只是说Facebook做得还不够好。数据安全这个话题再呼吁100年,也还是一样不能完全做到。

所以我建议“反过来”看隐私保护。要让国家意识到数据是有价值的,数据共享给别人也是有价值的。要不要保护,应该是个人说了算,而不是某个平台。但是现在的情况是,国家没有反向呼吁,而数据黑市反而规模越来越大。

可以这样说,贵交所每交易1个亿,黑市上可以交易99亿,因为大部分数据在黑市流通。这也是为什么习主席呼吁“制定数据资源确权、开放、流通、交易相关制度”,不解决这个问题,贵交所是做不起来的。

我认为不要再天天说要保护隐私,呼吁干掉这个干掉那个,而是恰恰相反,政府开放数据之后,紧接着轮到企业开放,之后就是呼吁公民共享数据,这对公民来说没有损失。

南都:“对公民来说没有损失”怎么理解?

王叁寿:在我看来,现在市场不公平的地方在于BAT等企业利用用户数据获得收益,但用户除了便利性以外,没有获得经济上的受益,所以才有侵犯隐私的说法。

如果有人花2000元买你过去10年的购物数据,去掉姓名、手机号、住址,你愿意卖吗?我就愿意,我不认为这侵犯了我的隐私。但是国内目前没有这种途径。

再拿刚才举过的医疗行业的例子来说,这个行业基本靠经验在传承。现在很多大夫都是“二把刀”,没有数据支持,导致年轻医生上岗之后两眼一抹黑,误诊误判的概率极高。这时候如果能用1000万张脱敏后的X光片做机器学习,就能大大提高医疗水平,对社会做出贡献。作为一个公民,我甚至愿意免费共享。

南都:这个想法很有意思。假如真的有这样的交易途径,每个人对隐私的重视程度不一样,该如何定价?

王叁寿:可以由买方定价格,看谁愿意卖。买家不在乎你是谁,他只在乎买到一定数量,所以不用根据个人对隐私的重视程度分别标价。

5   现在是充满期待地熬着

南都:去年贵交所终于有了正现金流。

王叁寿:对,一年交易额大约1.8亿,贵交所的佣金收入2、3000万,首次实现盈利。

南都:在政府已经公开了大部分数据、企业不愿公开数据的现状下,贵交所如何继续扩大盈利?

王叁寿:熬着啊,终有一天会好的。不过前两年只能算探索,现在应该说是充满期待地熬着。

政府数据和行业数据就像XY轴,只有编织在一起才能产生更大的价值。现状是政府在大力推进数据开放,但行业数据却越来越封闭。数据掌握在寡头手里会形成不开放的数据生态,只有政府数据和行业数据都开放了,市场才会起来。

南都:有观点认为大数据的立法跟不上它的发展。

王叁寿:2014年是中国大数据的元年,那时候就已经有人呼吁大数据立法了。我觉得不可理解,连产业都没发展起来怎么立法?

中国电商发展了20年,才刚刚有了电子商务法,否则15年前先把马云抓起来再说。所以说不要去呼吁立法,还早着呢。

南都:从2010年创立九次方一路走到现在这个“数据为王”的时代,你对大数据产业的发展有什么预测?

王叁寿:有几个认识:

第一,现在地方经济还是以土地经济为主,但是终有一天,地方政府的财政收入可能更多来自数字经济。也就是说,数据创造的价值一定会超过土地价值。这就是政府积极开放数据、发展数字产业的原因;

第二,未来将从个人隐私时代,过渡到个人数据资产管理时代。保不保护隐私、隐私值多少钱由自己说了算;

第三,一切产业皆数据。不管是中航信还是淘宝、百度、特斯拉,很多业务都将以数据和技术来驱动;

第四,未来每个城市都会有一个数据引擎。城市有5张网,水电燃气交通和数字管网。数字管网就相当于城市的数字引擎,一旦引擎不运转,城市就会陷入瘫痪。

采写:南都记者蒋琳 实习生尤一炜

声明:本文来自南方都市报,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。