隐私是个永恒的话题。两年前那届RSAC,所有演讲者都喜欢就FBI要求Apple提供解密iPhone数据手段一事发表些看法。今年,横扫会场的中心议题便是GDPR,数据保护再次成为安全行业的关注焦点。GDPR对于未来商业社会有着无可比拟的深远影响,是第一部全面完整规范数字经济根本基础"个人数据"使用的法律。即便专业人士对其严厉程度颇有微词,但心里无不暗暗盛赞其代表顶尖隐私保护监管水平的事实。各国立法和监管机构必然也会逐步跟进。此类合规要求必将成为保障新经济运行最重要的基石。RSAC中相关议题质量也颇为参差不齐,笔者摘选了值得关注的一些内容。
GDPR合规是件异常复杂的任务,需要大量资源初始投入,后续运维也相当艰巨。虽然很多厂商都在蹭热点,但目前市面上并没有一款产品能独力帮助客户达到满足合规的要求。因此本文并不会给出详细指引如何使用现有产品应对。
最严厉惩罚并未止步于4%
为什么久经合规考验的跨国大公司也会谈虎色变?是的,高额罚款具有很强威慑力。在第83条有关行政罚款中明确写道:处以高达2000万欧元,或者就一项经营而言最高可达前一财政年度全球年营业额4%,且以较高数额为准。估计关注GDPR的读者们早已耳熟能详。此数量级的罚款,足以令CSO或者DPO背锅走人。此外,企业还将负担赔偿数据泄露受害者的损失。医疗保险公司Anthem在2015年被盗走7880万条记录,2017年6月为集体诉讼和解支付了1.15亿美元。但是,高管们最怕的更严重处罚,绝大部分解读文章中并未提及。
第58条规定,监管机构拥有校正权力,"对处理过程施加临时或明确的限制,包括禁止令"。这意味着,假设你公司在欧州的业务严重依赖于个人用户数据,如果监管机构认为你没有恰当履行GDPR的要求,已经到达某特定严重程度时,他们有权临时暂停你公司在一段时间内使用数据:这后果十分严重,意味着你在欧洲的业务被事实中断。如果你公司欧洲业务占全球比重超过30%或者欧洲是不可或缺新增长点的话,这时可不止是DPO,恐怕连CEO都要背锅走人。
上图幻灯片,按照预期损失级别,说明了违反合规的严重后果。值得注意的还有底下一行小字,如何减少罚款,第一点就是要老老实实把该做的安全功课都补齐:数据保护需要企业安全负责人直至高管重视并预留预算。GDPR明确在确定罚款金额时会考虑"控制者或处理者采取的旨在减轻数据主体所受损害的任何措施"是否到位。下图总结了企业数据保护团队必须要展示已经努力过的12个方面,中间方框内容基本上都会落在安全部门肩上。虽然每家咨询机构或厂商建议的实施方案并不相同,但大部分内容存在共通之处。是的,数据发现必须要做,不可能指望其它业务部门,必须要DPO和安全团队去大力推动。这里的数据发现可不是传统DLP厂商宣称的简单敏感数据识别,其范畴已经扩展到编制数据分类目录和绘制数据地图,是支持风险影响评估和安全策略控制的前提必备条件。
不仅仅是个人信息
个人信息PII的概念早已在安全行业使用多年,而GDPR将其扩展至新定义"个人数据",指向确定或可识别的自然人的任何信息。这也是首次从法律上明确隐私数据的扩大范围,相较而言之前的合规要求都很克制,基本上不会脱离身份证件、财务信息、通讯住址等等直接可辨识的个人信息。现在,如果有一组不同维度数据,有可能推导定位到一个确定自然人,无论其中的数据如何犄角旮旯看上去八竿子打不着,也被归入"个人数据"范畴,是被监管对象。下图举例描述了新旧区别。请读者有意识忽略右侧美国的标示,笔者相信在不远的将来,全球监管机构都会接受GDPR定义的类似实质范围,最多描述有所不同。
在数字经济中,自然人的一切日常活动都会产生数据,这其中很多并非结构化类型,给数据发现造成了很多障碍,例如,呼叫中心记录、医疗档案、法律咨询、简历证书、电商评论,等等。这也是为什么现在全球涌现出很多厂商宣传使用机器学习和自然语言处理去识别数据,用传统关键字和正则表达式方式去梳理识别此类数据几乎是不可能完成的任务。
笔者曾经多次与不同行业不同领域的多家企业和多名隐私保护专家交流,试图寻找一种方法论能回答一个非常关键的基本问题:如何明确本企业内个人数据的范畴?现实很残酷:即便是早已大规模推行了数据分类分级的企业,也对划清个人数据范围感觉力不从心;经验丰富的隐私保护专家,也无法给出放之四海而皆准的最佳实践。现阶段,笔者给出的建议是,只要与个人业务相关的数据,请都当做"个人数据"严格对待。这并不是无限扩大化项目范围。在这部分数据中,在监管定义需保护范围之外的数据量,一般来说,不会超过8%。此外,根据笔者的经验,由于业务对多维度数据分析的高要求,即使脱敏之后仍会保留相当多特征,无法保证实现匿名化,如果不小心流出,难免会被别有用心人士与其它数据集交叉比对从而还原,若造成恶劣影响,毫无疑问会被监管机构溯源追查。
与新技术新业务的冲突
笔者说GDPR影响深远的另一个原因是,无论未来会出现什么新技术或新业务,数字经济本质上是"数据+计算+连接",对底层数据使用作出规范,毋庸置疑会对上层建筑造成巨大冲击。
笔者是区块链技术的坚定支持者,不过对其中层出不穷的无厘头花样也很无语。过去几年来有不少似是而非的业务模式大行其道广受好评,可偏偏经不起细细推敲。众所周知,GDPR赋予个人用户对己身数据拥有删除权或被遗忘权;而区块链涉及个人用户的业务模式都在持续标榜不可篡改优势。说到这里,相信很多读者都已经马上意识到GDPR对某些区块链业务模式的毁灭性影响。身份链,例如ShoCard和BitNation等,用户注销时如何删除链上的相关个人信息?颇为讽刺的是,ShoCard声称自己是隐私保护服务商,却于技术底层缺乏对隐私保护合规的有效支撑,并且它还公开向企业宣传其服务能帮助企业满足GDPR要求。下面笔者会谈到供应商出错企业也无法脱身。各种各样的区块链,只要面向个人消费者,都会面临相同的挑战:金融交易、不动产、旅游预订、医疗、社交、取证等等,从业者需要仔细衡量。否则,只需要一些不满意的顾客投诉,无论是否竞争对手恶意安排,监管机构只会按照法规认真调查响应,后续发展恐怕会让建立在沙地上的业务模式轰然倒塌。
供应链数据安全往往容易被忽视。请记住,如果是你公司所选择的供应商失误造成你公司的数据泄露,监管机构很大概率判你公司负有主要责任并承担损失。供应商并不能替公司背锅。这意味着安全团队必须说服管理层,让其参与供应商选择流程。供应商们则需要早做准备,与客户提前讨论理解数据安全标准,并设定计划和预算。下图描述了一些通用准则。
GDPR对人工智能AI市场也有显著影响,在规范AI应用上迈出了坚实一步。笔者仍记忆犹新,第一次看到GDPR中"画像"和"自动决策"相关条款时,忍不住发自内心钦佩编写者的远见卓识。在成文颁布后两年,疑似价格歧视现象所引发的不满在我国大面积爆发。
画像与自动决策
如果你尚未从GDPR专家处获取有关画像与自动决策的建议,读完本节恐怕你要开始怀疑其是否能胜任岗位职责。没有人闲得采集海量个人数据只是存放而不去利用。GDPR编纂团队清楚地明白此点,更明白不恰当地利用数据将会给社会带来多么巨大的伤害。
画像,指对个人数据进行自动处理以评估自然人特征,特别是分析预测在工作、经济、健康、喜好、兴趣、可靠性、行为、地点、或流动性等方面的表现。自动决策,是在画像的基础上,利用预置的算法和规则,自动判断分支以采取不同行动。人工智能和数据分析的典型应用场景。
上图粗略描述了画像和自动决策的好处和风险。所有企业的经营目标都是为股东创造价值,不朝此方向努力的管理层应该被换掉。但是,有时候也会出现股东价值与社会价值不统一的情况,这便是监管机构存在的意义。歧视服务一直是监管严密关注要点。GDPR编写者在严格保护个人权益同时,也创造性地给自动决策留下足够空间。甲方同学需要仔细研究理解下面幻灯片所列出的条款,然后清晰设计并解释企业所使用的自动决策流程,绝不能在任何服务提供过程中显露半点歧视征兆。
有一点笔者要明确指出,虽然没有在22条中出现,但GDPR有两个根本原则是"透明"和"公平"。甲方同学一定要充分重视。画像与自动决策,必须遵从透明公平原则。自动加价,可以,只要透明列出加价原因,并且公平,让用户明白选择,就没有大问题。但是别太早松口气,下面还有形式限制。
自动决策的限制,只针对画像引发决策导致具有法律效应以及类似重要影响的结果,消费者可以选择拒绝被画像和自动决策。笔者试图举几个极端直接容易理解的例子供大家参考。法律效应,例如,自动拒发签证(根据宗教、性别、年龄等画像,为疑似歧视)。类似重要影响,例如,自动拒保,自动拒绝放贷,自动提高保险费等等。一般来说,这些都是被禁止的。再次强调,这些都是被禁止的,除非满足下图所示的例外。
对一般商业来说,适用上图第一点和第三点,必须事先与消费者达成合同或者共识。但是,数据控制者应提供适当措施,令数据主体可以维护权利、自由和正当利益,至少能获得人工干预,表达其观点并提出异议。企业应设计此类流程机制并主动公示,才能满足监管要求。
诸位看官有没有被上面的复杂逻辑绕进去?相信以甲方同学的聪明才智,设计出满足上述要求的自动决策机制不在话下。
补充重要一点,自动决策,在数据保护影响评估DPIA中为高风险。如何梳理画像和自动决策的应用范围,对风控和安全团队是个极大挑战,毕竟业务类型广泛,不可能安全人员都能理解所有业务线;笔者建议,可以追踪数据使用状况,毕竟拿来数据就是要用的,查看数据分布和使用状况,某个部门用户大量使用某方面个人数据时,安全团队就可以要求此部门提供画像和自动决策业务详细说明归档,并进行风险审计。当然,这同样需要持续监控数据使用的产品。
个人数据损毁外泄以及通知
GDPR中另一个极高标准要求是,在个人数据损毁失泄情况下,控制者应毫不延误地,若可行,于获知起72小时内,通知监管机构,除非不会产生危及自然人权利和自由的风险。如果迟于72小时,须附述原因。请读者注意可不仅限于数据失窃!包括以下三类(CIA三属性):
保密性:未经授权披露或访问
完整性:篡改
可用性:意外或非法毁坏和遗失
什么叫"获知"?工作组指引文档中此段解释需要注意:a controller should be regarded as having become "aware" when that controller has a reasonable degree of certainty that a security incident has occurred that has led to personal data being compromised. 是的,这句威力极大:reasonable degree of certainty,为了避免重罚,还是不要掉以轻心。SOC调查响应团队的工作压力又将猛增:若忽略了看似轻微的安全事件,后来被媒体爆出造成海量数据泄露,安全负责人和DPO都跑不了要背锅。同时,安全事件是不是会引起个人数据失陷,需要企业的调查响应能力要跟得上才能快速做出判断,除了要事先再三排练,支撑的安全产品也是必不可少。
再次提到了要清楚掌握数据在企业中的分布状况,数据分类目录和数据地图十分重要,日志和行为分析亦是必需,否则无法评估损失情况,此时若已部署DLP、SIEM、EDR产品会提供很大助力。
提前防范更加重要
对于安全团队来讲,发生数据失窃后再响应,合规做得再好,也很被动。最好的方式是,做足功课提前防范风险。
DPO正面临极大挑战:个人数据业务类别繁杂,存储地点分散,数据量增长迅速,存储和使用数据的设备和人员持续扩充。清楚掌握企业内有哪些类别的关键数据,业务价值高的数据被哪些部门使用,风险高的数据是否有相应的保护措施,需要查阅的数据能否立即定位,个人数据的扩散范围能否识别,这些都需要能落地的安全产品持续监控才能有效支撑。为满足GDPR要求,安全团队必须部署自动化数据分类和数据资产地图工具;同时,提前防范潜在风险避免数据失窃事件发生,需要对用户行为和意图进行有效分析,内部威胁和外部威胁同样重要。
数据保护最佳实践并不是一成不变的。随着业务发展、组织扩张、和机构调整等变化,个人数据的安全边界、责任岗位、管理制度、和关键流程等都会随之改变,DPO、内控、和数据管理部门必须能够预见这些调整,立即应对,才能跟上企业快速发展的步伐。应用机器学习实现数据分类分级,对企业内数据安全风险和违规事件进行历史和现状统计,跟踪变化趋势,便于内控部门和数据管理部门及时直观地发现哪类数据风险最严重,哪些部门权限过于宽松,哪些使用行为最危险,哪些用户连续违规,从而明确找出薄弱环节和重要检查点,并预测恶意意图和未来潜在风险,有的放矢地调整管理策略,有针对性地改进和完善制度和流程。同时,及时反馈管理制度的完善效果,使得DPO能够更准确更快速地评估改进措施,为下一阶段的改进目标提供数据支持。
GDPR合规需要持续投入大量运营资源,对安全团队是挑战也是机会,随着数据成为安全新中心的趋势被企业高管接受,安全从业人员的重要性自然也会水涨船高。
本文为了阅读愉快的目标,写出来更像是花絮。篇幅和时间所限,很多话题并未提及或展开。GDPR工作组指引非常重要,通读虽很费力仍值得投入时间。读完本文后各位看官也应该意识到,很多合规内容不能只看文字表面,还需深度理解其带来的方方面面影响。如想广泛并深入研究,寻求专家建议不可或缺。
声明:本文来自DJ的札记,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。