2024年10月29日,来自加拿大、西班牙、英国等16国的数据保护机构共同就数据抓取及隐私保障发布《关于数据抓取和隐私保护的总结声明》(Concluding joint statement on data scraping and the protection of privacy,以下简称“总结声明”),旨在为社交媒体公司(Social media companies,下称“SMCs”) 确保其用户的个人信息免受非法抓取提供具体指导和帮助

本总结声明是以2023年8月24日发布的关于数据抓取与隐私保护的初始联合声明》(Joint statement on data scraping and the protection of privacy,下称“初始声明”)为基础的后续声明。两份声明都涉及以自动从网络提取个人数据的形式进行的数据抓取,并未涉及搜索引擎的索引,也没有涉及非个人信息的抓取

背景介绍

数据抓取是指从网络上自动提取数据,这一技术能够从网络上公开的数据中提取大量的个人信息。当前,数据抓取技术的使用逐渐普及,并广泛应用于商业和研究等领域。然而,未经授权的数据抓取行为也引发了严重的隐私保护担忧。

2023年8月,国际执法合作工作组(International Enforcement Working Group,IEWG)发布了初始声明,阐述了组织应采取哪些措施确保个人免受非法抓取带来的风险的期望。

今年10月,该工作组在收集了YouTube、TikTok、Instagram、Facebook、LinkedIn、微博、X等平台的运营方对初始声明所提出相关要求的意见后发布了该总结声明,旨在加强初步声明中规定的要求,分享最佳实践和在该声明发布后与社交媒体公司(SMCs)和行业利益相关者接触的经验教训,并对SMCs和其他托管可公开访问个人信息的组织提出进一步的期望。

总结声明核心内容

应对数据抓取实践进步的挑战和解决方案

初始声明中强调,SMCs及其他相关组织应当采取多层次的保护措施,以防止其平台上可公开获取的数据遭受非法抓取。总结声明指出,尽管SMCs在防止非法数据抓取时面临多重挑战,包括抓取工具的复杂性增加、技术的不断演进、合法用户与抓取工具之间的区分困难,以及在确保用户界面友好的前提下维护安全性等问题,但他们仍然坚定不移地致力于防止未经授权的数据抓取行为。

SMCs及相关组织称,它们已经落实了初步声明中确定的许多措施,包括但不限于:

  • 指定组织内的特定团队或角色来制定和实施控制措施,以防止、监控和应对非法数据抓取活动;

  • 对每个帐户每小时或每天对其他帐户资料的访问次数设定“限制速率”,并在检测到异常活动时限制其访问;

  • 监控新账户寻找其他用户的频率和活跃程度;

  • 采取措施检测通过爬虫程序及自动化软件在网络上执行重复任务的爬虫活动,例如,通过实施区分人类输入和机器输入的CAPTCHA系统,并阻止其IP地址的访问;

  • 当怀疑或确认存在抓取行为时,采取适当的法律行动,例如发送“停止并终止”通知,要求对方删除抓取的信息并提供删除确认;

  • 密切监测具有威胁性的场景和新技术,以相应地制定和调整保障措施;

  • 初步声明中详述的措施之外的方法,例如采用平台设计元素,以增加使用自动化手段抓取数据的难度。这包括使用随机生成的账户URL、随机化界面设计元素,以及部署检测和阻止恶意互联网流量的工具。

总结声明强调,人工智能的迅速发展可能对隐私构成潜在威胁。SMCs表示,数据抓取者现在利用人工智能技术更加高效地进行数据抓取,例如,使用能够模拟真实用户活动的“智能爬虫程序”绕过真实用户检测程序实现数据抓取。同时,SMCs也解释了它们如何运用人工智能技术来更有效地检测和防止未经授权的抓取,强调创新的人工智能工具能够成为有效的解决方案。

总结声明还指出,虽然没有完美的措施能够完全保证防止所有非法抓取行为(因为复杂的低容量抓取行为常常与用户活动难以区分),但通过多层次和动态的安全措施组合,可以有效防止大规模抓取行为所造成的危害。

中小企业的解决方案

总结声明指出,尽管中小企业在财务资源和技术能力方面无法与大型SMCs相比,但这并不意味着中小企业可以免除防止非法抓取的责任。事实上,许多中小企业拥有大量可公开访问的个人数据,这些数据同样需要通过多层次的技术和程序控制进行保护,以防止遭受非法抓取。

有多种工具可用于防止非法抓取,其中一些工具非常适合中小企业在有限预算下使用,如爬虫检测、速率限制和区分人类与机器输入的CAPTCHA。此外,第三方服务提供商也可以帮助中小企业防范非法抓取。然而,聘请第三方服务提供商并不意味着组织可以免除保护个人数据的责任。

根据相关的数据保护和隐私法律规定,采取的保护措施应当适当,并与所涉及信息的敏感性相匹配。因此,中小企业应当限制其公开信息的数量和敏感度,从而确保能够有效保护信息免受非法抓取。

SMCs同意抓取和合法抓取

总结声明指出,在一些情况下,多家SMCs表示它们会允许从其平台抓取或通过其他方式大规模收集数据(如通过API访问),以实现自身或第三方的商业利益。这些公司通常通过合同条款授权此类数据收集。SMCs进一步解释,为了确保所允许的抓取行为合法,他们的合同条款通常要求平台上的第三方遵守适用法律。然而,它们也承认,确认这些第三方是否仅将抓取的数据用于合同允许的特定目的,依然是一项挑战。

总结声明强调,仅凭合同条款并不足以使数据抓取行为合法。组织还必须确保他们在授予访问权限或允许收集个人数据时具备合法依据,确保抓取行为的透明性,并在法律要求下获得相关方的同意。

此外,虽然合同条款是防止非法抓取的重要手段,但仅规定第三方必须遵守适用法律的合同条款是不够的。SMCs应采取充分的措施,确保合同允许的抓取个人数据的行为符合当地的数据保护和隐私法律。例如,合同可以明确规定可抓取信息的范围、使用信息的具体目的,以及不遵守这些条款的后果。然而,组织不能仅依赖合同条款,还应采取有效的监督措施,确保第三方遵守合同限制,并在违反条款时采取强制执行措施。

为科研或其他社会公共利益而获取数据

在某些情况下,法律可能要求SMCs向第三方(如科研人员)提供其平台上可公开访问的数据的大规模访问权限(例如,根据《欧盟数字服务法》第 40 条:根据机构数字服务协调员的合理请求,超大型在线平台或超大型在线搜索引擎的提供商应在请求规定的合理期限内,向符合本条第8款要求的经过审查的研究人员提供数据访问权限,其唯一目的是开展有助于发现、识别和理解联盟系统性风险的研究。)另一方面,SMCs也可能在没有法律要求的情况下,为了社会公共利益向第三方提供数据访问权限。一些公司表示,他们通常通过API提供此类访问,特别是在法律允许或要求他们提供大规模访问权限的情况下。

尽管总结声明承认社会公共利益研究的重要性,但仍提醒SMCs及其他托管可公开访问个人数据的组织,在允许大规模访问或收集数据时,必须确保遵守当地的数据保护和隐私法律,确保具备授予访问权限或允许数据收集的合法性基础。具体而言,并非所有数据保护和隐私法律都将“公共利益、研究或统计目的”视为同意要求的例外或处理个人数据的合法依据。即使存在此类例外,其适用范围也可能受到严格限制。

总结声明强调,在允许大规模访问或收集数据合法的情况下,API可以作为防止非法抓取的额外保障。尽管API并非万无一失,但它们能够帮助数据处理者更好地控制平台上的数据,通过使用凭证、记录和监控相关活动,进而检测和减缓未经授权的访问。

SMCs使用抓取的数据和自有数据进行AI开发

总结声明指出,SMCs通过使用抓取的数据集以及自有数据来训练其大型语言模型不仅带来了创新机会,也带来了重大的隐私风险。

声明强调,SMCs及其他可能使用其平台收集的数据来开发、运营和部署生成式人工智能系统的组织,必须遵守数据保护和隐私法律,以及任何适用的人工智能特定法律法规。例如2023年全球隐私大会关于生成式人工智能系统的决议和其他国际指导中明确的原则,确保人工智能开发过程中收集和使用个人数据的合法性,并规范了其合法使用的范围和程度。

结论

自初步声明发布以来,非法数据抓取越来越受到关注,部分原因是生成式人工智能系统的快速出现和部署。数据抓取也已在全球范围内受到数据保护机构和行业的广泛讨论。

声明认可各国数据保护机构制定的指导方针,以解决与数据抓取相关的实践问题。并强调可公开访问的个人数据通常受数据保护和隐私法律的约束,应受到充分保护以防止非法抓取。

声明提醒从事数据抓取的工作人员以及SMCs和其他使用自有数据训练人工智能的企业,它们应采取措施确保其数据处理实践符合数据保护和隐私法律的要求。

数据抓取是一个复杂、广泛且不断发展的议题,目前及未来都将持续受到数据保护机构和相关利益方的关注。总结声明强调,监管机构将继续致力于推动这一领域的合规性,包括加强与相关利益方的未来合作、补充政策制定、开展公共教育活动以及协作执法

同时,总结声明鼓励SMCs与其他利益方继续合作,分享知识与策略,制定解决方案,共同应对这一全球性的挑战。

文件来源:

1.关于数据抓取和隐私保护的总结联合声明:https://www.priv.gc.ca/en/opc-news/speeches/2024/js-dc_20241028/。

2.关于数据抓取和隐私保护的初始联合声明:https://www.oaic.gov.au/news/media-centre/global-expectations-of-social-media-platforms-and-other-sites-to-safeguard-against-unlawful-data-scraping。

参考文献:

1、CAICT互联网法律研究中心:域外动态 | 加拿大发布《关于数据抓取与隐私保护的最终联合声明》

声明:本文来自数据信任与治理,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。