过去一周,杭州、上海多家数据科技公司接连被查。其中杭州魔蝎科技公司(下称“魔蝎科技”)、杭州存信数据科技有限公司的办公地点已经被贴上了警方封条,魔蝎科技的官网也已经无法打开。

杭州存信数据科技有限公司办公地点。

上海一位从事金融科技行业多年的资深人士告诉南都记者,上述公司被查的原因很可能与违规使用爬虫数据以及暴力催收有关。而就在几天前,一张网传截图显示,知名第三方数据服务公司聚信立宣布将暂停对外提供用户授权的运营商爬虫服务。

网传截图显示,聚信立宣布暂停爬虫服务。

所谓网络爬虫,是指平台按照一定规则,自动从互联网上提取网络信息的程序或脚本。

在网贷行业,数据提供方通过爬取用户的央行征信报告,水电煤气使用等生活信息,以及在运营商、电商平台、社交平台上留下的行为信息,经过清洗、聚合形成数据产品,再提供给网贷平台评估放贷风险。

作为常见的信息获取技术,爬虫在各个行业被广泛运用,为什么唯独在网贷行业碰了壁?使用爬虫批量获取信息的界限在哪里?是否获得了用户授权?催收公司有权利用爬取的他人电话号码催收吗?

被查者多为网贷公司下游数据公司

9月11日晚,每日经济新闻报道称,国内知名币圈项目公信宝运营主体——杭州存信数据科技有限公司被贴上了封条,封条上印有“古荡派出所封”字样。公信宝股东之一、币圈知名人士李笑来当晚发微博称“做天使投资真的不是容易的事儿啊!”疑似回应公信宝被查。

公信宝官网显示,公司成立于2016年,是一家以区块链为核心技术的数据科技公司,旨在提供企业间、个人间、企业与个人之间的数据交换服务,建构底层公有链,同时为公众打造进入区块链世界的通行证。

事发后不到24小时,又有业内人士爆料称,12日上午11点多,天翼征信的总经理、副总经理以及市场人员被警察带走。据一本财经报道,有内部员工透露是因为天翼征信跟之前被调查的公司有合作,去主动说明情况。

天翼征信官网显示,该公司成立于2014年,是中国首家运营商旗下征信机构,属于电信控股的子公司。有数据行业从业者对一本财经表示,“连国企都开始被调查了,可见数据行业的整顿力度之大。”

而上文中提到的被调查的合作公司,应该就是此前已经出事的几家数据科技公司。还有接近监管的知情人士透露,有几十家大数据公司已进入调查名单。

据开放财经披露的一张《公信宝产品服务价格表》显示,公信宝提供了涵盖社保、学信网、京东、电信、移动、联通、智联招聘、芝麻信用分、微信、支付宝、人行征信数据等的爬虫抓取服务。

开放财经披露的《公信宝产品服务价格表》。

上述资深人士对南都记者指出,魔蝎科技等数据公司主要做的是爬虫业务,只需通过用户的账户名和密码,就可以爬取用户的所有通话明细,根据亲密度来提供给催收公司使用。

“爬虫这个技术本身是合规的,但是不代表机构就可以使用爬到的手机号催收”,他说。

数据公司提供的用户信息可以详细到什么程度?

2017年,南都记者曾在一家数据公司花3.8元买到了自己长达33页的运营商报告,内容涉及基本身份信息,近半年的通话记录详情、账单消费、出行信息和人脉关系等,并有详细的量化评分。

此外,报告中还能看到借款人的居住地址,入网时长,黑名单通信记录,民间借贷、银行、P2P平台与互联网小贷等通信记录,甚至还有公检法和澳门通信记录等。该公司还称可提供电商、社保、公积金、央行和学信网的数据。

问题或出在数据买卖,用户授权非万能

不难发现,这些数据公司在提供风控服务的同时,将用户的个人隐私置于极大的风险当中。那么,利用爬虫技术采集和使用用户数据的界限到底在哪?

“在风控场景下,使用爬虫抓取公开数据进行比对虽然不是唯一手段,但的确非常重要”,北京安理律师事务所合伙人王新锐介绍,金融风控场景涉及到多种信息的交叉比对,比如检测用户是不是“羊毛党”或机器人。

确定是真实用户之后,还要调查之前有无违约记录、是否进入了其他公司的黑名单,需要用户自己提供更多个人信息,一些公司还会要求借款人授权爬取在其他平台的交易记录。

一名征信行业的从业者叶先生告诉南都记者,有爬虫业务的第三方数据公司本身不掌握数据源,只能对外爬取数据,别无他法。

南都记者了解到,网贷公司会先接入数据公司的API接口,出现授权页面后,让用户输入账号和密码。然后数据公司在自家服务器上用爬虫模拟用户行为,登录相关网站获取数据。

数据公司要求用户授权登陆电商平台账号。

数据公司要求用户授权登录运营商账号。

在网贷行业数据安全专家韩洪慧看来,这其实是一个非常取巧的行为——相当于用户自己打开了门,但他自己其实并不知道爬虫爬取了多少信息,也控制不了爬取的信息以后还会被用在哪里。

上海金融和法律研究院研究员傅蔚冈表示,爬虫爬取的信息分为公开和保密两种,前者如公开的网页信息,后者如任何公司都会采取保护措施的用户地址、交易记录甚至个人隐私等信息。“如果爬取的是后者,显然就涉及侵犯商业利益和个人隐私了”,他强调。

王新锐也提到,对于平台上非公开的后台数据,如果使用各种技术手段绕过反爬技术措施强行爬取,涉嫌侵入计算机系统,有可能构成犯罪。不过,在他看来,出现问题的公司的数据来源往往不仅仅是爬取公开数据,也可能来自数据交易。

《中华人民共和国网络安全法》第四十一条规定,网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。

第四十二条规定,未经被收集者同意,不得向他人提供个人信息。

“两高”的《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》进一步明确,非法获取、出售或提供行踪轨迹信息、通信内容、征信信息、财产信息50条以上的即入罪。

曾有大数据公司的相关负责人对南都记者表示,“我们本身不生产数据,也不买卖数据。所有的数据都是由客户授权,我们收的只是技术服务费用。”

用户授权就能成为数据公司采集、使用甚至售卖的通行证吗?那可不一定。

在叶先生看来,用户授权并非就为爬虫业务披上了合法的外衣,过度爬取和不明使用信息的现象仍十分普遍。此外,一些第三方数据公司会把爬取的信息存储或缓存下来,再对外提供数据服务,这就违法了;如果涉及到买卖数据,更是触犯刑法。

“数据安全和隐私保护的问题日益凸显,目前的大数据风控行业更像是在刀尖上跳舞。”他说。

爬取借款人通讯录可滋生暴力催收

大量数据公司被查,波及的是整个大数据行业。

一位大数据专家告诉南都记者,大数据行业主要有三种业态:一种是提供数据服务的数据服务提供商;另一种是提供大数据软件、算法、引擎的大数据软件提供商;还有一种是将大数据、平台、服务、运营整合成体系的大数据集成服务提供商。

“目前壁垒低、需求大、来钱快的就是第一种,主要应用于精准营销和金融风控”,他说,金融风控主要服务于金融领域的风险控制,例如个人互联网贷款的风险控制,所以相关数据绝大部分都属于个人敏感信息,“也是现在黑市上卖得最好的”。

他透露,小型现金贷公司不像大型公司拥有海量数据,可是催收需要数据,业务和流量也需要数据,他们只能想方设法收集用户数据,比如从黑市购买,与其他公司交换数据,或非法爬取数据。

在这些数据中,借款人的通讯录数据是一个是个重灾区。

不少公司会利用各种手段抓取通讯录,日后用于催收,这种情况下就构成对联系人个人信息的非法获取。正是由于催收中经常有这类不规范的操作,长此以往几乎和暴力催收画上了等号,变成受人唾弃的行业。

对此,王新锐指出,催收是商业放贷中的正常环节,但一定要保护用户的个人信息。比如催收是不是获得了借款人的事前同意?是不是进行了人身威胁甚至使用暴力?有没有对不相干的他人造成骚扰?

“很多时候放贷公司会把催收委托给第三方催收公司,甚至直接把债务连同用户的联系人信息卖给催收公司”,他对南都记者表示,双方在放贷环节上可能缺乏合规意识,没有把催收环节提前说清楚。

在他看来,网贷平台要求借款人将直系亲属作为联系人还有合理性,但借款人不还钱就骚扰其手机联系人,就没有任何法律依据,还会引起反感,这也是目前催收整治的动因。

“现在都在强调合规经营,保护隐私。”一名催收公司负责人方先生告诉南都记者,自家催收业务很早就暂停了,因为公司的甲方(主要是网贷平台)基本已经倒闭了。

在他看来,目前针对大数据公司的监管,使得国内互联网金融行业大洗牌,至于洗牌之后的场景,谁也不知道。“现在的形势是行业出现恐慌,大家都不晓得何去何从。”他说。

一名网贷公司相关负责人也告诉南都记者,目前行业里的爬虫业务类数据公司基本都已暂停,这不免对相关企业造成影响,比如在进行风控时,一些特征数据将会缺失。

不过长远来看,他认为这次大数据行业整顿对行业是好事,尽早规范,就会减少很多不确定因素,让行业稳定发展。(蒋琳 李玲

声明:本文来自隐私护卫队,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。