隐私保护与数据价值之间不可兼得,这是全世界都面临的问题。保守的国家和地区保护数据隐私的方法就是对其进行加密再存储在各自独立的系统中,但是这样会造成数据孤岛现象,无法充分发挥数据价值。

而更多国家,已经在医疗、金融、公共安全等领域,开始广泛地共享数据解决许多问题,他们运用隐私计算技术对相关联的数据进行相互配合,从而丰富数据特征维度,构建更准确的模型。

而且技术上随着学术界和工业界对区块链和密码学的研究和投入力度不断增加,当前已有多种方法可以在不暴露数据内容的情况下对数据进行计算。

之前我们一直在分享国内的隐私计算技术发展和应用的现状,本文跳出国内,来看看美国的隐私计算技术发展情况。

目前在美国,隐私计算技术主要用来满足相关监管要求,但在未来这些技术将可能成为合作各方相互信任的关键。区块链和去中心化金融的发展及其带来的实际落地应用案例带来了巨大的价值,这些进展比各界预期的要快。

本文将从以下4个部分展开:

1.简述当前美国隐私计算发展背景

2.介绍不同类型的数据协作框架:私有数据收集、数据保险库、数据清理室和无需信任的数据市场;

3.讨论营销、去中心化金融DeFi)、医疗保健和金融领域的新兴用例

4.讨论美国隐私计算技术的现状和未来展望

0隐私计算技术的发展背景

调查显示,越来越多的美国人对用户隐私表示担忧和警惕。这种现象的原因有很多,包括数据泄露事件的增加、《通用数据保护条例》(GDPR)和《加利福尼亚消费者隐私法》(CCPA)等法规的出台,人们对侵入式广告实践的普遍意识,以及不断增加的数据收集量。越来越多的品牌认识到充分尊重用户隐私可以为自己带来更正面的品牌形象。

越来越多的美国民众担心他们隐私数据 (来源: Pew Research Center)

每年有数十亿条记录因安全漏洞而丢失(来源:Momentum Cyber Cybersecurity Almanac 2022)

当今数字化业务日常运作中融入隐私保护的需求日益迫切,本文将回答以下几个问题:

1.如何以保护隐私的方式让持有私密数据的不同利益相关者进行合作?

2.当前隐私计算技术的现状如何,以及谁是主要的开发者?

3.哪些行业将采用这些隐私计算技术?

0不同类型的数据协作方式介绍

数据协作通常是指在创造价值的各方之间共享数据。可以采取移动应用程序收集用户数据,零售商与品牌交换数据或医疗保健提供商与研究实验室共享数据的形式。

1.加密的安全数据收集:这是目前大多数消费级应用程序的现状。用户数据被收集、加密,并发送到中央服务器,在中央服务器上解密并进行分析处理。数据在传输过程中进行加密,但服务器上的数据泄露可能会暴露私人记录。

2.个人隐私数据收集:像苹果、谷歌、亚马逊这样拥有大量设备的组织不仅安全地收集用户数据,还采用隐私计算技术在模糊个人记录的同时允许进行聚合分析。数据在传输和存储过程中是私有的,因此不会暴露私人信息。

3.数据保险库:当组织需要建立多个利益相关方可以在私有数据上执行计算的环境时,可以在安全环境中进行数据计算,同时不会泄露个人身份信息。例如,数据保险库可以掩盖用户名和邮政编码,但仍然可以公开用户事件。可以通过邮政编码对用户行为进行聚合,但无法识别单个用户的邮政编码。

4.数据清洁区:数据清洁区允许不同团队或实体共享和协作数据,而不会透露彼此的内容。使用这些方法可能会与私有数据收集相结合,也可能不会。这再次通过使用密码技术实现,对共享数据上允许的计算进行附加的管理。

5.零信任数据平台:当实体需要在彼此之间进行协作,而不必相信对方时,它们通过分散式网络实现。网络的参与者通过确保数据处理的可验证性以及用于私有数据计算的密码技术来确保平台的可信性。

1、加密的安全数据收集

如今,大多数应用程序使用加密技术将数据从我们的设备安全地传输到中央服务器。在端到端加密中,数据仅由最终用户解密,而不是中央服务器。例如,WhatsApp聊天只能被参与对话的人阅读,而不能被WhatsApp的中央服务器读取。虽然加密确保数据被安全地收集和传输,但它不允许中央服务器对数据进行任何计算。对于即时通讯来说是可行的,但如果用户想了解哪种表情符号在某个新功能中使用最频繁,这就无法做到了。

另外需要注意的是,随着量子计算的最新进展,传统的加密技术正面临风险。由美国国家标准与技术研究所(NIST)主导的课题——开发量子计算安全的加密算法以更安全地存储数据正在进行中。预计在2024年选择出获胜算法后,其大概率会得到主流商业应用。

2、个人隐私数据收集

如今,大多数网站和应用程序以极高的粒度捕捉用户行为。他们保证用户数据在分析过程中将进行个人身份信息匿名处理,从而保证安全性。然而,黑客曾成功通过将数据与非匿名化数据集进行匹配(如Netflix数据)来重新识别此类数据集。

克服这个问题的一种流行方法是使用联邦学习(Federated Learning),其中模型在客户设备上训练私有数据。只有模型的输出被发送到服务器,从而限制了共享的数据。然而,通常情况下,人工智能模型往往会编码比必要的信息更多,并且可能无意中记忆了私人或可识别的信息。

苹果通过使用差分隐私(Differential Privacy)收集来自其设备的信息,例如使用最常见的表情符号、导致Safari崩溃的网站以及其他类似的数据点。差分隐私在保护个人隐私的同时,实现了苹果与谷歌之间在新冠接触追踪方面的合作,保护用户隐私。

差分隐私(DP)是一种典型的隐私计算技术,它允许实体将噪音系统地插入收集的数据中,从而使聚合计算能够良好运行,而单独的条目本身则没有意义。在差分隐私数据上执行的机器学习将继续保持差分隐私。然而,差分隐私在一定程度上会降低数据的实用性,当前的研究目标是减少噪声的负面影响。

3、数据保险库和数据清洁室

数据保险库为数据的存储和按需访问提供了一个安全的空间。数据保险库有助于确保选择性地共享正确的数据,通常被称为“捆绑”问题。实施数据保险库的常见用例包括安全存储个人身份信息(PII)、支付数据(PCI数据)和医疗数据(HIPAA合规性)。

数据清洁室类似于数据保险库,用于多方决定进行协作的情况。在数据清洁室中,计算是在不暴露彼此数据的情况下进行的。同态加密(FHE)、安全多方计算(MPC)和可信执行环境(TEE)是该领域的热点技术。

各大公司正在建立数据清洁室用于在合作伙伴之间共享营销数据。广告公司如Facebook、Google和Amazon也通过清洁室与客户共享数据。根据Gartner的预测,到2025年,50%的大型公司将默认使用隐私增强技术(PET)来存储其数据,这是一个庞大的市场。

同态加密和安全多方计算(MPC)是在不揭示数据内容的情况下执行计算的密码学方法。可信执行环境(TEE)是在内存中使用的CPU加密隔离的私有区域,用于在硬件级别上保护正在使用的数据。

数据清洁室和保险库依赖于设立清洁室和保险库的实体的信任。这对于建立一个品牌进行营销的生态系统非常有效,但如果涉及数百或数千个实体的大型生态系统,则显得不足。这就是分散化和无信任数据平台的用武之地。

4、零信任数据平台

数据清洁室允许多方(或同一公司的利益相关方)以保护隐私的方式共同处理数据。在清洁室中,隐私取决于由管理员设定的治理规则,管理员将对查询实施治理。例如,用户可能希望将医疗记录与癌症筛查提供者共享,只是为了进行癌症检测,不做他用。

去中心化将数据存储和计算分布在多个节点上,从而实现无信任架构。去中心化还加强了平台的安全性——要窃取数据,必须同时获取多个节点的访问权限。区块链为去中心化计算提供了基础,然而存储在像以太坊这样的热门链上的数据无法进行加密或保护隐私。

在区块链上存储私人数据面临自身的挑战——很难以去中心化方式适应同态加密等技术。安全多方计算和可信执行环境更适合在去中心化系统上工作。金融机构等大型组织仍在进行区块链试点项目,因此保护隐私的区块链仍在发展中。

如果计算和交易发生在去中心化平台上,可验证性是另一个重要考虑因素。我们需要确保(A)输入来自我们相信的实体,以及(B)计算的正确执行。为了解决前者,企业和初创公司正在构建“主权自我身份”的未来,以允许发行和认证实体颁发“可验证凭证”,通过密码学方式证明身份的有效性。对于后者,零知识证明是一种密码学技术,可以验证计算的正确执行,而不泄露其运行的数据。

零知识证明对于区块链具有巨大的影响。在分散化网络中,智能合约由多个节点执行以确保准确性,零知识证明提高了速度和可扩展性。以太坊可扩展性的承诺吸引了大量风险资本投入到构建新算法和硬件加速的工作中。

0美国隐私计算技术的新兴案例介绍

1、广告营销案例

广告行业依靠在设备、浏览器和其他第一方数据来源之间确定用户身份来生存。过去几年中,一系列举措使广告活动的测量变得困难,比如苹果的ATT使得跟踪用户标识符变得困难;Facebook不允许将用户数据发送给广告商,只允许发送给MMP(移动测量合作伙伴,如AppsFlyer、Branch等);谷歌宣布到2023年淘汰第三方cookie;此外,欧盟的GDPR和加利福尼亚的CCPA等监管措施也对广告活动产生了影响。

通过在广告活动数据、外部营销数据(电子邮件、消息)和第一方用户数据之间进行合作,可以更有意义地衡量绩效、构建更好的受众群体并进行深入的广告活动分析。

通过在离线合作伙伴和在线D2C数据之间进行数据合作,可以为用户提供更好的全渠道体验。例如,D2C品牌可以与Target等离线零售连锁店共享数据,以确定哪些客户购买了产品,并更好地进行广告推广。这些用例使得对于拥有庞大营销预算的品牌来说,数据清洁室成为一种可行的投资选择,根据Gartner的预测,到2023年,预算达到10亿美元的品牌中将有超过80%采用数据清洁室。

Facebook、谷歌和亚马逊都拥有自己的数据清洁室。这些清洁室允许在事件流的基础上添加自己的第一方数据,并在一个相对严格的环境中进行操作。其他一些公司则专注于构建针对营销应用的数据清洁室,例如归因平台或营销云提供商。

2、Defi(去中心化金融)案例

目前,在区块链上进行的交易是公开的。用户可以追踪与钱包相关的所有交易,并了解该账户的交易历史。在数字资产得到更广泛传播的世界中,我们需要机制来保护与我们的交易相关的数据的隐私。美国有42%的机构投资者拥有数字资产,其中74%表示对未来的数字资产有兴趣。金融机构也在尝试将现实世界资产进行代币化,以在区块链上创建债券和股票等证券的世界。

在不稳定的发展中国家,比特币闪电网络和其他加密货币推动了点对点交易,隐私成为必需品。如果某天人们在链上(比如以稳定币形式)收到工资,当然也不希望这样的信息被公开。

链上隐私对于DeFi也很重要,因为交易数据的公开性导致了MEV(矿工可提取价值)的损失。这使得顺序器或区块生产者在验证之前读取交易,并允许他们进行前置、后置或更改交易顺序以获得经济利益。

许多创业公司正在利用零知识证明和多方计算技术,使得可以在链上存储私密数据,同时符合安全规定。当加密货币的法规更加明确时,这些技术将变得更加普遍。

3、医疗保健领域案例

美国的医疗保健系统正在转向以价值为基础的护理体系,保险支付与结果相关,而不是服务。这种变化需要提高提供者之间和提供者与付款方之间的数据合作。HIPAA的要求在历史上使得这种数据合作变得困难。

改善提供者之间的数据合作可以为医生提供详细的患者病史和风险因素,为患者提供更好的护理。像PatientPing、HealthGorilla和Zus Health等初创公司通过共享数据并建立数据标准来改善提供者之间的协调护理。数据清洁室可以支持负责任的护理组织(ACOs或提供者团体)更好地共同处理医疗记录。

支付方从能够查看整个护理过程中的患者数据中受益。通过与提供者合作,他们可以主动评估患者的风险得分。如果患者配备了遥测设备(如可穿戴设备),这些数据可以与现有的医疗记录相叠加,以主动评估风险。有风险的患者可以在出现紧急情况之前得到干预。

最后,这些技术可以帮助提高提供者与学术界或制药公司等研究组织之间的数据合作。通过允许研究组织在数据清洁室中对真实世界数据进行模拟,提供者不必担心数据被带出系统。像Nference等组织从医疗提供者获取数据,并以保护隐私的方式让研究机构访问这些数据。

4、金融业案例

金融机构之间的数据合作可以帮助建立个人和企业的全面财务账户。这有助于构建更好的信用评分、识别洗钱行为以及获取有关消费和收入习惯的其他见解。

大多数金融机构目前拥有用户的所有个人文件的副本,并将其存储在自己的服务器中。这存在风险,数据泄露可能会导致个人信息公开。可验证凭据有可能改变这种框架,允许金融机构接受“信用价值”或“KYC”等代替存储个人身份文件的标记。

像SkyFlow等公司已经使得存储敏感支付信息变得更加容易,从而使电子商务参与者可以与多个支付网关合作,而不是被限制在一个网关(如Stripe)上。

0美国当前隐私计算技术现状

在隐私保护需求增加的背景下,最有可能从中受益和受损的公司是像谷歌这样的大型科技公司,以及提供云计算服务的供应商。因此,这些公司在隐私保护技术的各个领域都进行了大量的开发,创建了开源技术。在未来的几年中,我们可以预期出现更多的初创企业,包括:

  • 针对特定行业创建定制解决方案,例如为个人身份信息(PII)、医疗保健和金融应用构建的数据保险库和数据净房技术

  • 将学术研究转化为商业原型的参与者

目前对这些技术进行投资的投资者包括英特尔资本、Snowflake以及Insight Partners等战略投资者和金融投资者。根据CB Insights的数据,过去2.5年中与“隐私”相关的公司的总投资额超过了37亿美元,涵盖了开发或促进隐私技术采用的互联网公司。

从各行业的投资和参与者来看,我们可以预期:

  • 短期内(2-3年),后量子密码学将取得进展

  • 短期到中期内(3-4年),数据净房和数据保险库的应用将逐渐增加

  • 长期内(6-7年),分散式平台和数据保险库将得到主流采用

推动大规模应用的因素包括:

1.合规要求的增加:如果美国其他州效仿加利福尼亚的CCPA法案,数据保险库将需要成为现代数据架构中的一个新层级

2.用例从合规和法规到数据协作解锁价值的转变:例如,Skyflow允许电子商务平台将卡数据存储和处理在其数据保险库中,解除了对支付网关的依赖

3.Defi、营销和医疗保健方面的应用可能会创造一个大市场来推动采用

4.通过使用FPGA和ASIC进行算法和硬件加速的改进:与量子计算机免疫的密码学技术密切相关的后量子密码学是一个相邻领域,将推动硬件加速技术的发展。ZK证明技术在扩展区块链方面引起了很大的兴趣,根据Crunchbase的数据,迄今为止已经有超过14亿美元的风险投资投入。

05

结论

隐私对消费者、监管机构和企业的重要性越来越高。大型科技公司、学术界和初创企业的进展不断推动通过新技术对私密数据进行计算。未来几年,我们可以预期:

1.随着对数据泄露的担忧加剧,差分隐私的采用将不断增加。

2.在短期内,更严格的法规将继续推动隐私计算技术的应用范围。

3.品牌、医疗保健机构和金融机构将采用数据清洁室进行数据共享和协作。

4.随着加密货币法规的明晰,DeFi和营销方面的应用将提供价值,从而推动硬件加速技术的进展,并在长期内实现更广泛的采用。

5.到2030年,数据隐私将成为现代数据管理架构中不可或缺的组成部分,就像安全性在今天的地位一样重要。

本文由“开放隐私计算”翻译整理,分享仅供学习参考,若有不当,请联系我们处理!

声明:本文来自开放隐私计算,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。