打开“九次方大数据”官网,第一行字是“贡献中国数据智慧”。视线向下滑,“产品与服务”分类中,“政府大数据”“国家部委大数据”占据重要位置。点击“核心业务”,跳出的社会信用大数据、工商大数据、公安大数据、财税及审计大数据、司法仲裁大数据等标签,无不彰显着九次方手中资源的稀有与丰富。
2016年的一份数据显示,政府各部门和下属单位都有一套各系统内的数据资源,约占国内数据总量的80%。尽管极速生长的互联网巨头们正在大数据市场中紧张地攻城略地,但政府依然拥有社会数据的大多数。
九次方大数据信息集团有限公司(以下简称“九次方”),一个成立于2010年的公司何以拥有如此丰富的政府数据业务?2015年,贵阳市政府成立全球首家大数据交易所——贵阳大数据交易所,九次方作为创始股东和运营方,在其中发挥了怎样的作用?作为国内大数据资产运营的先行者,九次方有哪些数据应用经验,又面临哪些困难?
南都个人信息保护研究中心(以下简称“研究中心”)近日专访了九次方大数据公司副总裁王亚川。
1 政府大数据这片“金矿” 为何选定九次方?
研究中心:是否能先简单介绍一下九次方?
王亚川:在2010年成立的时候,九次方最早主要是做企业相关的大数据业务,基于数据汇总的平台做一些模型,给银行和金融机构提供一些风险控制和精准营销的服务。
比如说,我们在2010年成立的时候给金融企业提供一些风控、精准营销等服务。但那是近10年前,我们说的“精准营销”远没有现在这么“高大上”。举个例子,我们当时开发了一个平台, 2014年时,平台数据已经覆盖了40多个产业链、8000多个行业、4万多个细分市场的几百万家企业。针对每家企业,九次方都有70多个指标,进行交叉分析统计。这样的话,银行工作人员拿着带有GPS定位的终端出去扫楼,每走到一个地方,附近办公楼里有哪些企业,这家企业的基本工商数据、业务范围、经营数据、产业链分析数据等都一目了然。
随着业务不断扩大,我们从做一些拟上市公司数据库,慢慢做到所有上市企业的数据库,再做到法人企业的数据库,再到个体工商户的集合数据库,在金融领域慢慢积累起来。
到了2014年,一次机缘巧合,贵阳开始发展大数据产业,九次方起初是作为大数据应用企业去贵阳落地的。但在一次研讨的过程中,我们偶然提到了数据交易这样一个概念,意识到它的重要性后,我们很快把它正式提上了日程。 随后半年多时间,我们完成了交易的规则制定等前期工作。此后,贵阳大数据交易所落地,直到2015年4月14日正式挂牌运营。
实际上,在2015年3月,国办来贵州做调研(但并不是为此事而来),在调研过程中,顺便来我们这里看了看,然后就把大数据交易的想法写了一个报告提了上去,没想到这个报告后来会获得领导的批示。接着,陆续有领导来视察,把这件事情提到了一个高度。
研究中心:在大数据行业,政府数据无疑是一片“金矿”,外界可能会有疑问,为什么是九次方拿到了个“金矿”?
王亚川:大数据交易所实际上是一个数据交易流通的介质与平台,九次方主要做的是一个下游的分支,就是政府数据的融合共享和各地方大数据的资产运营。从业态上来讲,两者是上下游的关系。
选择九次方只能说是因为我们有一些先发优势,比较早期就认识到了政府数据的价值和使用方式,对政府数据运营的方式更熟悉,不管是对业务的理解和定位还是应用方式都琢磨得比较透。举个简单的例子,我们在给政府做相关数据应用服务的时候,是按照应用去运营,而不是拿数据去运营。也就是说,先设置好应用, 确定了应用的服务对象,得到了政府认可,从法律角度没有问题,我们才会针对这部分数据做特定应用方向的运营。这个应用方向之外的,要么一事一议,要么不碰。因为同样的一部分数据,即使不是隐私问题,可能它应用在这个方向是合法的,应用在另一个方向就是非法的。
研究中心:你们具体操作的办法,这个是否能否举个形象的例子?
王亚川:比如说我们在很多地方搭建社会信用体系,传统的征信是采用央行的信用体系,比如一个人有几张信用卡,是否贷过款,有没有逾期还款的行为等等,它是一个金融行为。 目前开始有一些从市场征信角度切入社会性行为的尝试,比如一个人水电费交没交,名下有没有房,有没有车,开车有没有罚单等,人会有一个社会行为的画像,这些信息会像一个数据库一样,放在每一个地方政府的系统里面。
九次方做什么呢?像基础设施建设一样,帮它把数据库建起来,同时在数据运营方面,我们也会联合本地的金控公司,利用这部分数据,给当地的一些金融企业提供信用征信数据的服务。同时在服务的过程中会去考量,这个公司在技术上没有有一个可信任的回传。 也就是说,你必须要告诉我这个客户真的在你这个平台上注册了,并且他同意你拿这个数据了,我才会把这个数据给你,而不是说这个数据在我这,只要你愿意付钱就可以给你。
2 当数据成为一种商品 谁来定价?
研究中心:在贵阳大数据交易所,数据作为一个交易的对象,买家主要是谁呢?
王亚川:需要这些数据的包括比如一些互联网企业和金融类相关的公司,需要数据丰富他们的数据模型;还有一些公司要做数据报告,也需要数据。公司拿这些数据主要是为了做项目精准营销等用途。
这其中包括两种类型的交易,一种是我们会把脱敏的数据,也就是已经无法识别个人信息的数据给到他们,去做一些用户画像和报告等;另一个就是授权数据,已经得到了用户授权的买方,能够在我们这里得到部分授权内的数据结果。比如说与公共安全相关的事宜等。
此外,来大数据交易所的买卖方也有一些不同的分类,一些是只买不卖的,比如像现在的一些互联网巨头,他们会来购买一些数据丰富自己的模型,但是他们不卖,因为现在用户数据对于哪个公司来说都是巨大的资产,是市场高估值的重要指标。
研究中心:目前在贵阳大数据交易所平台上,已经达成的数据交易量有多少?或者说是否有什么单位来合算成果?
王亚川: 很多人以为是按照数据的多少来计算交易量的。实际上,交易所是以交易额来计算的。我国目前在这个领域还处在比较初步的阶段,拿到数据后,买家可能并不完全知道这个数据可实现多大的价值,所以我们目前既承担了数据流通平台的作用,也承担了我们称之为“咨询”的工作。也就是说,我告诉你怎么用,能达到什么效果,他为了这个结果而买单。所以我们把服务交易的额度定义为实际的交易额,这种咨询服务实际上为交易的数据本身附加了很大一部分价值。但这部分的服务是很难单纯以数据量计算的。
我们未来的希望是,能够将数据流通的业务与咨询的业务拆分开来,随着互联网大数据的发展,大家逐渐知道自己想要什么数据,能够去怎么用,企业内的数据科学家多起来后,他们只需要购买大数据就可以。这也是为什么现在很多大集团大企业自己会有类似数据科学这样相关的部门成立的原因。
研究中心:那么如果以成交价格的额度来计算,目前交易额达到了多少?
王亚川:目前累积有不到两个亿吧。
研究中心:你刚才提到,对于一部分数据,你们会做脱敏,现在企业掌握数据后,如何对数据进行匿名化或者去标识化等脱敏处理是一个企业与用户都很关心的问题,贵阳大数据交易所目前是怎么做的?
王亚川:去标识化我们有一个尺度,要看用户的需求,是完全将用户匿名化,还是要看对方的需求控制去标识化的程度。处理方式也有很多种,比如说,起个别名是一种方式,打叉也是一种方式,把身份证号中间几位数隐去,或者把姓名换成数字编号等,会根据服务内容的不同去做不同形式的数据脱敏处理。交易所除了与公共安全领域相关的数据,其他的都会做数据去标识的处理。
研究中心:也有人说,无论你怎么匿名化或者去标识化,只要技术够强,都能把数据恢复,那么匿名化或者去标识化是不是不就是不是成了一个伪命题?
王亚川:技术和法律法规监管是并行的事情,要靠一件事情达到一个绝对是不行的。要通过综合的手段来解决这样的问题,利用各种监管的形式提高犯罪的成本。纯技术手段不是绝对安全的,就像防范黑客一样,再安全的系统也有漏洞。
所以说需要一个这样的交易平台,把交易放到阳光的环境里去做。因为数据的流通是避免不了的,那么怎么去流通,怎么合法地流通,这个很重要。
研究中心:另一个很难的问题是,数据应该如何定价。目前交易所有什么经验?
王亚川:这个难点在于,每个人拿到这些数据的用途和价值是不一样的。就数据本身来讲,它没有什么特别大的成本,像我刚才讲的,如果绑定了咨询服务,给它提供了一些相关的服务增加附加值来一起定价,这不是一个纯数据竞价的一个过程。所以实际上需要和每一个买家一对一地谈,以结果为导向,或者说由买方定价。
研究中心:会不会出现同样的数据卖给不同的公司,有不同的价格的情况?
王亚川:不会,对一类公司的价格基本上是相同的。比如说汽车罚单的数据,把它绑定成帮助保险公司去做个性化保险车险定价的模型,提高模型的工作效果,他们自己有精算师去做这样模型,那我们会根据这个价值去给它定价。此后,如果都是类似的用途,比如说都是保险类,就会是一个固定的价格,比如我们不会说给平安卖一个价格,给人保卖另一个价格,一个类型公司价格是一样的。
研究中心:数据还有一个特点,它具有时效性,比如说我需要一些数据来做用户画像,但如果你这些数据已经是几年前的,或者有一段时间了,那是不是就失去了它本身的价值了?
王亚川:时效性确实是数据定价维度的支点之一,我觉得在某一些应用领域一定是这样子的。但不是对所有的场景都是这样,还是要看分析数据的属性,如果是一个跟时间维度相关性不大的场景,就不是很重要。比如说人口数,来衡量一个地方人口数是否达到了一定规模,这个和时间维度的相关性就不高,所以时间性只是大数据定价的其中一个维度。
3 与姓名、身份证号相比 交易、行踪轨迹更有价值
研究中心:作为一线的实践者,九次方怎么看数据的分类方法?你们的分类方法和专家们学界将个人信息划分为普通的个人信息和敏感个人信息是否相同有什么差异?
王亚川:因为我们的业务还是以政府数据为主,所以我们把政府的数据分为了三类,一类是保密数据,指非常核心的数据,例如气象里的地震指数、关乎到国家安全的数据等,它是不能够拿出来交易的,我们给这些数据加了一个红色标签,不能去碰。
第二部分就是蓝色数据,它是指政府的信息公开数据,比如说各个地方的数据开放平台。这类数据还分为两类,一类是开放平台提供一个API的接口,每个人都可以用电脑下载到的;另一类叫信息公开数据,就是说某个政府今年花了多少钱、建了几条高速公路、铁路,交通承载了多大人流量等等,这些也是普通公民就可以拿到的,我们叫蓝色的数据。
红色和蓝色之间的数据,是需要激活价值的数据,我们定义为授权数据。 授权数据不是任何人愿意花钱就就能拿到的,但是在特定的模式下,它又是可以拿出来的,所以我们把它定为这种叫它黄色数据。
学界定义的敏感和非敏感,或隐私非隐私,根据我们实操的经验来讲,敏感和不敏感是相对的,不是绝对的。同样一个数据它在这个模式下是敏感的,但在另外一个模式下不一定就是敏感的。
研究中心:有没有这样的例子?
王亚川:比如说,我想去一个网上金融平台贷款,但我的信用数据不是很多,他需要采集我的社会数据,这部分数据可能是我在网上购买了什么东西的记录,也可能是我是否有交通违章罚单的记录等等,以此来审视能给我贷款多少钱。在这个场景下,它采集我的这些信息可能是没有问题的。假如说我明天去相亲,这个贷款公司把这些数据卖给了我的相亲对象,然后他会因为我天天高速开车有罚单,觉得我是一个非常暴躁或者是一个不靠谱的人把我给否了,那我是可以去告这家公司的,所以这个东西是相对的。
研究中心:学界在讨论个人信息的时候,总是要从一个很困难的问题开始,就是信息到底属于谁,就是一个确权的问题,这个对九次方来说是不是也是一个比较麻烦的问题?
王亚川:对,因为现在相关的法律还不是非常健全,大家目前可以依照的主要是网络安全法。我认为争论的核心还是在于授权的确定问题,比如说我在使用某个APP时,需要写我的个人信息,我认为这些数据肯定是属于个人的,如果你拿到我的个人数据,记录我在这个APP的行为轨迹去做一些分析,是为了给我提供更好的服务,我觉得这个是没问题的。 但如果说你用了这部分的数据去开拓其它领域的业务,有悖于我最初使用时的业务范围,这种是比较野蛮的。
现在对授权的界定很弱,我认为需要明确用户授权究竟是什么,而不是一揽子做一个无限的授权。因为我给你我的身份证号、手机号是为了你们给我提供更好的服务,而不是做其他的事。
但同时我们应该明确的知道,隐私和服务有时是矛盾的,在互联网渗透到个人生活方方面面的背景下,你要享受服务,就要让渡一些个人信息,这是一个自己选择的过程。
研究中心:作为一个这个领域的从业者,你觉得保护自己的隐私有一些什么样的办法?
王亚川:我觉得就是不要随便交出自己的数据,要深思熟虑之后才给出去。我个人来讲,一般一些小恩小惠的营销活动,想让我注册账号,我是不会去参与的。再比如去吃个饭让你扫码,然后送你一瓶饮料,这种情况我是绝对不会参与的。个人隐私的保护说到底是一个性价比的问题,每个事情的性价比对每个人来讲可能是不一样的,你需要自己去权衡,你想要享受的服务和你愿意交出的个人信息之间的价值。
研究中心:刚才你提到需要一些细化的标准来规范服务,从你们的经验出发, 你觉得最急需要出台的标准是什么?
王亚川:目前学界对于个人信息的界定,主要是指你的个人姓名、性别、出生年月、身份证号这些信息,但对于我们企业而言,个人行为类数据更有价值,我们觉得这也属于个人隐私的范围,如果这一部分数据能出台它的使用的范围与权限,我觉得非常重要,比如说你的购物行为,你的行踪行为等等。
研究中心:最后的一个问题,也是这个领域绕不开的问题,国家的大数据发展战略和个人隐私的保护,这两者间的平衡如何取得?作为一线的实践者,你们怎么看?
王亚川:我们的原则是,会首先确定数据的应用范围,就是说我们会不会去针对数据确定谁能买到它,而是针对应用的场景来反推数据的使用。要保证数据权属人的利益,就需要把问题放到具体的场景里。
文/娜迪娅 曾光
声明:本文来自隐私护卫队,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。