图1 常见的后门攻击场景

深度神经网络(DNN)十分容易受到后门攻击。被植入后门的模型会将带有触发器的样本归类为特定的目标类别。后门检测技术能够检视模型是否已经被植入后门,从而防止后门攻击可能带来的危害。现有的后门检测算法通常需要访问原始的有毒训练数据、目标DNN的参数或者每一个预测标签的置信度等先验知识。然而这在实际的应用中往往是不被满足的,如图1所示:模型部署在云端,智能手机或者边缘设备上,之于用户或者防御者是一个黑盒,防御者只能通过查询模型最终输出的硬标签。本文提出从优化的角度处理后门检测问题,并证明了对抗优化的目标函数是后门检测的一个边界。作者利用对抗图的极值分析,检测模型是否被植入后门,然后采用Monte Carlo梯度估计保证该方案能够在黑盒场景下的实施。

本文主要考虑了稀疏触发器的后门攻击,触发器 按照下方公式注入:

式中的是一个二元掩码。如果防御者可以访问待检测模型,那么可以通过下面的逆向工程算法对每一个目标标签近似可能的后门触发器。

,代入上式得:

根据Taylor公式:

因此对抗优化是后门检测的一个上界。此时以为目标标签的对抗样本优化问题为:

图2 后门触发器和对抗扰动的1-范数归一化后的分布

图2是后门触发器和单个样本分别向目标标签和非目标标签进行对抗优化得到的对抗图。可以看出,在后门模型中,向目标标签进行对抗优化时,对抗扰动μ的L1范数||μ||1在各个像素位置上的分布会出现一个较大的峰值,而向非目标标签优化时则没有峰值出现。作者把这种现象命名为对抗奇点现象。鉴于对抗奇点现象中,目标标签对抗图的峰值远大于非目标标签,作者设定一个阈值T,当对抗图的峰值大于T是即认为模型存在后门,且此时的对抗目标标签即为后门的目标标签。

然而,只通过单个样本的对抗图极值检测后门有太大的偶然性,平均只有53%的检测成功率。利用单变量概化理论可以进一步提升成功率。选取k个样本的对抗图的极大值作为最终的极大值,那么max大于T的概率会大幅度提升。图3是随着样本个数的增大,检测成功率的变化趋势,由图3可知,当k>6时,就可以得到较高的检测成功率。

图3 检测成功率和样本个数

然而到目前为止的计算都需要模型的梯度信息,并不适合黑盒情景,为此作者提出用Monte Carlo算法对梯度进行近似解决这一问题。最终的算法结构如图4所示。

图4 方案概述

对一个待检测模型,防御者查询模型并通过Monte Carlo算法计算样本的对抗图,通过多个样本的对抗图获得全局对抗峰值(global adversarial peak, GAP),然后利用绝对中位差(Median Absolute Deviation, MAD)寻找异常值确定后门攻击的存在性及其目标标签。

论文信息

Guo J, Li A, Liu C. Aeva: Black-box backdoor detection using adversarial extreme value analysis. ICLR 2022. (点击下方阅读原文查看论文全文)

(本文由复旦大学多媒体智能实验室郭钰生撰稿介绍)

声明:本文来自隐者联盟,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。