公司经常声称缺乏明确标识的数据是匿名的,但美国联邦贸易委员会(FTC)强调只有当数据永远无法与个人相关联时才是匿名的,如果数据可以用来唯一识别或锁定某个用户,它仍然会对该用户造成伤害。

一、什么是哈希(Hashing)?

哈希是一种通过算法将输入数据(通常是字符串或文件)转换为固定长度的值或散列码的过程。哈希函数是一种将任意大小的数据转换为固定大小的字符串(通常是数字字符串)的算法。常见的哈希函数包括 MD5、SHA-1、SHA-256 等。

基础的工作过程如下:

  1. 输入数据:你有一个输入数据,比如一个字符串 "hello"。

  2. 哈希函数:通过某个哈希函数,这个输入数据被处理成一个固定长度的值。例如,通过某个哈希函数,"hello" 可能会被转换成 "5d41402abc4b2a76b9719d911017c592"。

  3. 输出值:这个值通常称为“散列值”或“哈希值”。

哈希函数具有以下特性:

  1. 确定性:相同的输入总是产生相同的散列值。例如,对虚构的电话号码 "123-456-7890 "进行哈希,就会将其转换成哈希值 "2813448ce6316cb70b38fa29c8c64130",这是一个十六进制数,看起来可能是随机的,但别人对该电话号码进行哈希时,得到的总是这个十六进制数。

  2. 高效性:计算散列值的过程要尽可能快速。

  3. 均匀性:不同的输入很可能会生成不同的散列值,且散列值在输出范围内均匀分布。

  4. 抗碰撞性:一旦数据经过哈希处理,就很难从哈希值中直接逆推出原始数据,因为难以找到两个不同的输入,它们的散列值相同(称为碰撞)。尽管完全避免碰撞是不可能的,但一个好的哈希函数会使这种情况非常罕见。

二、哈希后的数据可以被还原吗?

虽然哈希函数具有抗碰撞性的特征,理论上是不可逆的,但在实际应用中有几种方法可能会尝试“逆转”或者找到与某个哈希值相对应的原始输入:

  1. 暴力破解:试图通过遍历所有可能的输入,直到找到一个与给定哈希值对应的输入。这种方法在实践中非常耗时,尤其是对于较长的输入和强哈希算法(如 SHA-256)。

  2. 碰撞攻击:针对较弱的哈希函数,可以尝试找到两组不同的输入数据,它们在经过哈希处理后产生相同的哈希值。这种攻击不会直接还原原始数据,但会找到另一个具有相同哈希值的输入。

  3. 彩虹表 :预先计算并存储大量常见输入及其对应的哈希值,然后根据这些表格快速找到某个哈希值的对应输入。不过,这种方法需要大量存储空间和预处理时间。

  4. 密码破解工具:一些专门的工具和在线服务,例如 "hashcat"、"John the Ripper" 或 "Cain & Abel",可以用于尝试破解哈希值,这些工具常常使用字典攻击和暴力破解等技术。

使用强加密的哈希函数(如 SHA-256)并结合“加盐”(在原始数据前后加入随机字符串)可以显著增加逆向哈希破解的难度和成本。鉴于此,公司通常会在不方便明文记录或直接共享原始数据,但仍希望能够存储数据以便日后匹配的情况下使用哈希。由于哈希值值“2813448ce6316cb70b38fa29c8c64130”看起来毫无意义,似乎无法用来查找原始电话号码,因此很多企业经常在隐私声明中声称他们不会跨境传输或者与第三方共享个人数据。

三、FTC不认为哈希后的数据是匿名数据

然而联邦贸易委员会多次声明公司不应采取或声称哈希个人信息会使其匿名化,公司需要避免采取这种具有欺骗性的声明。

2012年4月,FTC前首席技术专家 Ed Felten 撰写了一篇题为《哈希会使数据变得匿名吗?》的技术博客,他的答案是不会。Felten指出,当对常见标识符(如电子邮件地址、电话号码、IP 地址或社会安全号码)执行哈希时,哈希可以逆转,因为这些集合很小,所以通过猜测和检查它们是可以逆转的,他形象的称“可以在比你喝一杯咖啡花的时间还要短的时间内逆转电话号码的哈希值”。

对于加盐,FTC技术博客的观点是,能够对哈希值进行离线攻击的攻击者实际上也能够对加盐哈希值进行离线攻击,加盐仅意味着您无法预先计算与 10 亿个可能的电话号码相关的 10 亿个哈希值,但这并不意味着你不能通过如2的30次方工作量来暴力破解特定的电话号码。

加盐或许对防止公司内部员工重新识别哈希后的数据有一定的帮助,可能有很多员工会看到经过哈希处理的电话号码,但盐或许是员工所不知道的。但更重要的是如果员工不应该看到电话号码,则不要向他们展示电话号码,向他们展示经过哈希处理的电话号码没有多大意义,它只会分散员工的注意力并占用屏幕空间,而不会向员工传达任何有用的信息。

2024年7月24日,FTC技术办公室再次发表题为《哈希不会使您的数据匿名》的技术博客,强调是否可以唯一识别用户这一事实是判断是否匿名化首先要考虑的因素,因为如果数据可用于唯一识别或定位用户,它仍然可能对该人造成伤害。

四、FTC针对哈希的执法

当公司的匿名化声明与实际情况不符时,往往会遭遇监管的关注。

2015 年,美国联邦贸易委员会对 Nomi 提起诉讼,指控他们利用消费者的 MAC 地址(连接网络时识别设备的数字)在商店内监视消费者。Nomi辩称其在将MAC 地址存储到服务器之前,会对其进行加密哈希。但FTC指出哈希虽然混淆了 MAC 地址,但其结果仍然是一个持久的唯一标识符。

Nomi 并不是委员会指控的唯一一家错误依赖哈希算法降低数据敏感性的公司。2022 年,FTC 对在线咨询服务 BetterHelp 提起诉讼,指控他们与Facebook 共享了消费者的敏感健康数据,其中就包括哈希后的电子邮件地址。FTC指出,BetterHelp 知道 Facebook 会 "解开(undo)哈希并披露这些访客和用户的电子邮件地址"。尽管BetterHelp向Facebook发送的是哈希值,而不是电子邮件地址,但结果是一样的,即Facebook在了解到谁在寻求心理健康咨询后,定向利用这些敏感信息向其投放广告。

这两个案例中的隐私伤害都源于公司可以识别用户这一事实,而不是识别的方式。

需要注意的是哈希算法只是永久识别唯一用户的一种方式,美国联邦贸易委员会最近还抨击了其他依赖假名标识符的用户跟踪机制。

2023年,美国联邦贸易委员会对 Premom 提起诉讼,指控该公司收集并与第三方共享用户的唯一广告和设备标识符,而这与 Premom "仅与第三方共享不可识别数据"的声明相悖。在投诉中,FTC 阐述了 Premom 是如何收集和共享这些标识符,从而使第三方能够规避操作系统的隐私控制、跟踪个人、推断单个用户的身份,并最终将生育应用的使用与该用户联系起来,在这种情况下, 持续的用户跟踪是使用唯一的广告 ID 进行的,这并没有为用户提供任何匿名性。

同样,在 2024年1月,美国联邦贸易委员会宣布对 InMarket 提出投诉,称他们非法收集了与唯一移动设备标识符相关的数据。委员会指控称,该唯一标识符被用于在未获得个人知情同意的情况下对个人进行跨时间和跨应用程序的跟踪。

FTC一系列的行动都表明唯一标识符形式上的改变不能成为不当使用或披露的借口,哈希不是匿名化,更不是公司可以为所欲为收集、使用数据的理由。公司需要密切关注用于识别用户的标识符,比如电子邮件地址、电话号码、MAC 地址、哈希后的电子邮件地址、设备标识符、广告标识符等等。

五、一些想法

如果监管不认可哈希属于数据匿名化的方式,那么公司需要更加慎重地对待数据收集、传输、共享、加工等环节。

对于跨国公司来说,很多时候跨境传输唯一标识符是合理且必要的,比如维护全球统一的账号的系统。然而一旦被认定为个人数据,又缺乏合法场景作为合规出口,那么不同地区之间的跨境传输将会触发如SCC、PIA、单独同意等成本很高的合规措施。而这些措施除了让消费者更加疲于应对越来越多的同意按钮以及让咨询公司、律所等服务机构收取更多的费用之外,对于消费者本身的隐私保护而言是否有更大的增值?

一个公司的数据是明文、加密、哈希还是加盐哈希存储传输,是否会面对不同的监管力度?亟需监管在执法中提供更加细节的说明。说到底数据合规是不是只有0分和100分的区别,还是说60分和80分会面对不同的监管环境,这个问题的答案对于公司有多大动力遵守数据保护法起到很大的参考作用。

如何实现匿名化已成为数据合规中绕不开且一直无解的问题,公司关注匿名化的本质在于如何在不对消费者产生伤害的情况下最大化的实现数据的价值,而这两者之间天然存在张力。现有的数据保护法对于“个人信息”和“敏感个人信息”的定义过于机械,既无所不包,又缺少精细化管理,同样的数据在不同的场景下,对消费者是有利还是不利都是需要分别讨论的,然而现有的数据保护法并没有关注到这些细微的差别。(关于此观点的论述详见:为什么我们应该放弃定义敏感数据?)。而合规界讨论数据匿名化与否,只是对这头房间里的大象避而不谈的行为。

或许更深层的问题在于如何创造一个信任的商业环境,让消费者相信公司收集、使用、传输数据不是在玩一个零和游戏,而是共同给彼此创造更多的价值。误解和恐惧来自于不透明,这需要公司转变对隐私保护的态度,把它从单纯的交易成本转变为提升品牌形象、提高商业竞争力不可或缺的一部分。而这种转变也对公司提出了更高的要求,比如更加清晰易读的隐私声明、更加谨慎的数据收集、更加透明的数据处理过程等。而这些在刚开始很可能会面对来自公司业务部门的阻力、来自商业模式惯性带来的信念摇摆以及较往常更多的人力资源投入,但作为一家致力于成为百年企业的公司来说,回过头看,这显然是幸福的“烦恼”。

参考资料:

FTC的两篇文章

https://www.ftc.gov/policy/advocacy-research/tech-at-ftc/2012/04/does-hashing-make-data-anonymous

https://www.ftc.gov/policy/advocacy-research/tech-at-ftc/2024/07/no-hashing-still-doesnt-make-your-data-anonymous

Nomi案:

https://www.ftc.gov/news-events/news/press-releases/2015/04/retail-tracking-firm-settles-ftc-charges-it-misled-consumers-about-opt-out-choices

BetterHelp案:

https://www.ftc.gov/news-events/news/press-releases/2023/07/ftc-gives-final-approval-order-banning-betterhelp-sharing-sensitive-health-data-advertising

Premom案:

https://www.ftc.gov/news-events/news/press-releases/2023/05/ovulation-tracking-app-premom-will-be-barred-sharing-health-data-advertising-under-proposed-ftc

声明:本文来自越洋网事,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。