2022年底至2023年初,谷歌和苹果等主要“守门人”开始正式地将隐私计算大规模投入实用。各方都在紧锣密鼓地测试和应对。值得观察的角度很多,此处聚焦于在数字广告的场景中,差分隐私这一隐私计算技术的引入,如何“倒逼”个人信息处理者全方位地贯彻隐私设计的思路。
不妨以谷歌隐私沙盒为例。隐私沙盒的归因报告混杂了拉普拉斯噪音,可以保证基准值epsilon=10的差分隐私。广告生态中的处理者需要相应研发“噪音管理策略”。这意味着根据营销目的、数据分布等因素“精打细算”,逐个字段逐个字段地权衡决定隐私保护和可用性。隐私设计的水位再次上升。由此形成的业界实践,又会成为后续适用最小化原则和隐私设计规则时的裁量标准。
归因报告还在实验当中,同时有待监管机关放行。不过,预期差分隐私这一核心设计思路将会延续。以下翻译文档之一,作为研究的起点。(朱悦)
#核心设计原则
现有的第三方cookie和隐私沙盒摘要报告的运作方式存在着基础性差异。关键区别之一是在报告的测量数据中加入了噪音。
为了获得信噪比更高的摘要报告测量数据,需求方平台(DSP)和广告测量供应商需要与其广告商合作,制定噪音管理策略。为了制定这些策略,DSP和测量供应商需要做出设计决策。这些决定围绕着一个基本的概念。
从绝对意义上来说,噪声值的分布只取决于两个参数——epsilon和贡献预算。然而,其他(七方面)有待决定的事项也会影响到输出测量数据的信噪比。
虽然我们期望迭代的过程将会导致最优的决定,但这些决定的每一个微调都会导致稍微存在差异的实现——因此这些决定必须在编写每个代码迭代(以及运行广告)之前进行。
#决定一:维度的颗粒度
基于核心设计原则,相对较小的摘要值,可能比相对较大的摘要值包含更多的噪音。因此,配置的选择影响到每个分桶中最终包含多少已归因的转化事件(也就是聚合键),而这个事件数量又会影响到最终输出的摘要报告的噪音大小。
影响单个分桶内已归因转化事件数量的设计决定之一,是维度的颗粒度。不妨考虑以下包含聚合键及其维度的例子:
方法1:具备粗略的颗粒度的键结构,国家*广告活动(或最大的活动聚合桶)*产品类型(10个可能的产品类型);
方法2:具备细化的颗粒度的键结构:城市*创意ID*产品(100个可能的产品)
城市是比国家更加细化的颗粒度,创意ID比活动要更加细化;而产品又比产品类型更加细化。因此,在其摘要报告中,方法2的每个分桶(每个键)的事件(转化)数量将低于方法1。鉴于添加到输出的噪音与桶中的事件数量无关,摘要报告的测量数据在方法2中会包含更大的噪音。对于每个广告商来说,为了在结果中获得最大的可用性,要在键的设计中尝试不同颗粒度的权衡。
#决定二:键的结构
另一个影响单个分桶内的归因转化事件数量的设计决定,是决定使用的键结构。考虑下面的聚合键的例子:
一个包含所有维度的键的结构,称之为键策略A;
两个键结构,每个都只包含所有维度的一个子集,称之为键策略B。
策略A比较简单——但是可能需要将包括汇总报告在内的、包含较大噪音的汇总值加总起来(求和),以期获得洞察。汇总这些值的时候,也是在汇总噪音。对于策略B,摘要报告披露的摘要值可能已经提供了所需的信息。这意味着策略B可能会比策略A带来更好的信噪比。然而,策略A的噪音也许已经可以容忍。因为策略A比较简单,所以也具有可取之处。
键的管理是个很深的话题。可以考虑采用精心设计的技术来提高信噪比。
#决定三:分批频率
另一影响单个分桶内的归因转化事件数量的设计决定,是分批频率。分批频率就是处理聚合报告的频率。
更加频繁地进行聚合的报告(例如,每小时),其包含的转化事件将少于聚合频率较低(例如,每周)的报告。因此,其他条件相同时,每小时报告将比每周报告有更高的信噪比。实验不同频率的报告,并评估每个报告的信噪比。
#决定四:影响可归因转化的活动变量
广告商的可能的转化总量,与其可能的已归因转化总量,这是一对重要的区别。后者才会最终影响到聚合报告中的噪音。已归因转化是转化总量的一个子集,容易受到广告活动变量,例如广告预算和广告定位的影响。例如,其他条件相同的时候,1000万美元的广告活动会比1万美元的广告活动有更多的已归因转化。
需要考虑的因素:
根据单次接触、单一设备的归因模型来评估归因转换,因为这些属于归因报告API所收集的摘要报告的范围;
考虑归因转换在最坏情况下的计数和最优情况下的计数。例如,其他条件相同的时候,考虑广告商可能的最低的和最高的活动预算,然后预测这两种结果的已归因转化,作为仿真的输入;以及,
如果你考虑使用安卓隐私沙盒,请在计算中考虑跨平台的已归因转化率。
#决定五:使用缩放
鉴于核心设计原则,增加的噪声是贡献预算的函数。
因此,为了提高信噪比,可以通过对贡献预算进行缩放来变化在转化事件中收集的数值(并在聚合后去掉缩放)。使用缩放来增加信噪比。
#决定六:测量目标的数量,以及隐私预算的分配
这与缩放有关。请先阅读“#决定:使用缩放”。
如果在单个转化事件上测量一个数据点(测量目标),例如转化数,该数据点可以获得所有的贡献预算(共计65536)。如果在单个转换事件上设置了多个测量目标,例如转化数和购买价值,那么这些数据点需要共同分享贡献预算。这意味着在放大数值方面的余地相对较小。
因此,测量目标越多,信噪比就可能越低(噪音会越大)。
有关测量目标的另一个决定是预算分配。如果把贡献预算平均分配给两个数据点,每个数据点得到的预算是65536/2=32768。这未必是最佳的分配,取决于每个数据点最大的可能值。例如,如果测量的购买数量的最大值为1,而购买价值的最小值为1,最大值为120,那么购买价值将受益于更大的“放大空间”——也就是为购买价值分配更高比例的贡献预算。需要决定在噪音的影响方面,一部分测量目标是否应该优先于其他目标。
#决定七:异常值管理
为了实现缩放,通常需要根据给定转换事件的最大可能值计算一个缩放系数。
然而,要避免使用原始的最大值来计算这个缩放系数,因为这会使得信噪比恶化。相反,要去除异常值,使用一个更加务实的最大值。
异常点管理是一个很深的话题。可以采用一些精心设计的技术来提高信噪比。
— THE END —
--------------------------------------------------------
声明:本文来自数据合规与治理,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。