对抗补丁是最物理可实现的对抗样本之一。近期研究侧重于针对白盒对抗补丁提供输入样本正确预测的鲁棒性认证。本工作提出了一种能同时有效规避鲁棒性认证和经验防御的新型对抗补丁生成方法——DorPatch。通过对补丁掩码施加群套索、图像随机丢弃、密度正则化和结构损失等技术,DorPatch可以生成优化完全、分布式、遮蔽鲁棒且不显眼的对抗补丁,其可用于物理世界。在数字域和物理世界广泛的实验评估和测试表明,DorPatch可以有效规避现有最先进的可认证防御——PatchCleanser和若干针对对抗补丁的经验防御。此外,DorPatch生成的补丁样本的错误预测结果可以获得PatchCleanser的鲁棒性认证,从而导致对认证预测结果的错误信任。在数种现有对抗补丁生成方法相比,DorPatch的攻击性能和感知质量都是最先进的,对DNN模型在现实世界中的应用提出了严峻挑战。

该成果“DorPatch: Distributed and Occlusion-Robust Adversarial Patch to Evade Certifiable Defenses”已被NDSS 2024(Network and Distributed System Security Symposium)录用。NDSS是信息安全领域顶级会议,NDSS 2024年录用率为20.2%。

  • 论文链接:

    https://www.ndss-symposium.org/ndss-paper/dorpatch-distributed-and-occlusion-robust-adversarial-patch-to-evade-certifiable-defenses/

背景与动机

在当今的数字安全领域,对抗样本生成技术和防御措施的发展日益引起了广泛的关注。物理世界中的对抗攻击,通常采用如贴纸或图案绘制等形式,通过物理方式修改对象以引导深度学习模型对其预测错误,该类方法被称为对抗补丁攻击,是实际应用中相对易实现的一种对抗攻击手段。对抗补丁一般可见,即对较小的像素区域进行显著扰动(而非不易察觉的微小扰动),因此可以被打印出来贴在真实世界的物体上以实施攻击。

在防御该类攻击方面,研究者们开发出了若干策略。早期经验性防御容易被自适应攻击所规避,因此近期研究关注于在最强的白盒攻击情形下,为样本预测结果实现鲁棒性认证,它们通常基于对抗补丁空间上集中性和有界性的假设。以现有最先进的PatchCleanser为例,其利用较大的遮掩窗口以遮蔽补丁,并对输入样本采用双轮遮蔽并预测,以认证其对集中有界对抗补丁的鲁棒性。

对抗补丁构造技术的发展逐步揭示了传统方法的限制,尤其是那些依赖于局部集中补丁的攻击策略。这些传统策略通常在优化过程中固定补丁的形状、位置和大小,从而存在两大明显的缺陷。首先,固定形状和位置可能导致补丁的次优布局,从而减弱了攻击的有效性。其次,这种攻击的对抗性主要通过空间有界的扰动实现,这意味着对抗补丁只影响图像的一个小范围,使得它们容易被设计为检测和抵消这类扰动的防御方法,如PatchCleanser,所识别。

PatchCleanser作为现有最先进的鲁棒性认证防御,建立在两个核心假设上。首先,假设深度神经网络(DNN)模型对输入图像任意位置的小尺寸遮掩窗口具有鲁棒性,即小遮掩窗口遮蔽下的正常图像应产生一致且正确的预测。其次,假设对抗补丁可以被合适大小的遮掩窗口完全遮蔽。这要求遮掩窗口既不能太大,以免损害模型的正常性能,也不能太小,以保证可以完全覆盖对抗补丁。

实际上对抗补丁不必局限于特定的空间范围,如分布式对抗补丁由一系列小贴纸组成,分布在图像的不同部分,PatchCleanser无法在不损害模型性能的前提下用单个遮掩窗口完全覆盖这类分布式补丁。然而实验结果表明,由于部分补丁被遮蔽后失效,单纯的分布式对抗补丁并不能类似于绕过类似于PatchCleanser的防御。因此,更具挑战性的目标——确保错误预测结果得到PatchCleanser的鲁棒性认证更加难以实现。

为了克服上述挑战,本工作设计DorPatch——一种优化完全且遮蔽鲁棒的分布式对抗补丁构造方法,以填补现有方法的空白。DorPatch通过一系列创新策略,解决了传统对抗补丁技术的局限性。这些策略包括动态优化补丁的形状、位置以及利用图像随机丢弃技术和密度正则化等技术来提升补丁的分布式特性和对部分遮蔽的鲁棒性。DorPatch挑战了鲁棒性认证防御的核心假设,不仅首次实现了对PatchCleanser的有效规避,更是让补丁样本错误预测结果得到PatchCleanser的鲁棒性认证,从而产生了对错误结果的盲目信任。

设计与方法

DorPatch的设计遵循了几个关键原则,确保它不仅能规避PatchCleanser,而且能应对其他类似的防御策略。这些特性包括分布式布局、对部分遮蔽的鲁棒性、优化完全,以及视觉隐蔽性。

分布式布局使FI-DorPatch生成的补丁能够广泛分布在目标图像上。通过密度正则化技术,补丁均匀地分布于图像的不同区域,引起这些补丁不易被小尺寸的遮掩窗口完全遮蔽,从而增强了对PatchCleanser等防御的规避能力。

对部分遮蔽的鲁棒性是DorPatch设计的另一重要方面。由于PatchCleanser等防御依赖于部分遮蔽来消除对抗补丁影响, DorPatch确保其生成的补丁即使在不同位置的部分遮蔽后仍能保持其对抗性,迫使防御采用更大的掩码,从而降低模型的整体性能。

图1 图像随机丢弃技术示意

DorPatch采用了图像随机丢弃技术和密度正则化方法,促使补丁分布更广泛,并增强了其对遮掩窗口遮蔽的鲁棒性,对规避PatchCleanser的检测和认证起到了关键作用。

此外,优化完全的概念也被纳入了DorPatch的设计中。这不仅涉及对补丁像素值的优化,还包括对其形状和位置的优化。这是通过在补丁掩码上应用群套索和双阶段的生成过程来实现的,从而最大化补丁的攻击效果。DorPatch采用了双阶段的优化求解方案来处理混合整数编程问题:其先对补丁的形状和位置进行优化,再优化像素值。DorPatch对补丁的掩码采用群套索,兼顾了补丁的物理可实现性和分块稀疏性。

最后,视觉隐蔽性保证DorPatch生成的补丁在视觉上不引人注意。这通过结构损失函数实现,促使补丁的扰动像素在视觉上与图像中的自然结构融为一体,难以被人眼和基于图像处理的防御技术识别。DorPatch引入的结构损失函数。其与L_2约束条件相结合,通过促进补丁在自然图像结构中的融合和更隐蔽的位置安放,进一步增加了补丁的隐蔽性,使其在物理世界中不太明显,而在数字环境中难以察觉。

与现有的对抗补丁相比,DorPatch是唯一同时具备这些特性的补丁构造方法。

实验结果

在数字实验和物理实验中,我们评估了DorPatch针对最先进的认证鲁棒防御系统PatchCleanser的攻击效果。在实验中,使用PatchCleanser开源项目提供的深度学习ResNet模型和预训练权重对攻击进行测试。此外在模型训练过程中,我们使用PatchCleanser默认的剪切的数据增强方式以提高模型对遮挡的鲁棒性。

我们采用模型的鲁棒准确率和面对补丁样本的认证鲁棒率这两个指标来衡量不同补丁攻击对模型的攻击效果。鲁棒准确率描述了模型在面对不同攻击时的预测准确率,而补丁样本的认证鲁棒率描述了模型在有PatchCleanser防御的情况下,对抗补丁样本被模型误分类且该误分类被PatchCleanser鲁棒认证的样本比例。这两个评价指标十分关键,鲁棒准确率可以评估模型在对抗环境下的表现;面对补丁样本的认证鲁棒率评估了模型在有防御的情况下为对抗补丁样本提供虚假认证鲁棒性的概率。

下表展示了在ImageNet数据集上,DorPatch和其他四种基准对抗补丁攻击分别采用3%、6%和12%的补丁大小,在有无PatchCleanser防御下的鲁棒准确率及补丁样本的认证鲁棒率。下表说明DorPatch在能显著降低PatchCleanser的鲁棒准确率的同时大幅度提高防御得到错误鲁棒认证的误分类样本的比例;而在其他的四种基准攻击中,无法如DorPatch那般显著降低PatchCleanser的鲁棒准确率,且均仅能达到极低甚至是零的认证鲁棒率。

表1 DorPatch和其他四种基准攻击在ImageNet上针对PatchCleanser的攻击效果

在物理实验中,DorPatch在优化过程中额外采用期望变化的方法以提高分布式对抗补丁对物理世界的鲁棒性,即确保在不同的物理环境下能够持续稳定的误导分类器决策。在本文中采用的变换方法包含仿射、透视变换、色彩抖动和高斯模糊。具体来说,仿射和透视变换用于模拟不同的摄像机距离和角度,色彩抖动和高斯模糊用于模拟不同的照明条件、印刷色彩误差和照片拍摄。图2展示了DorPatch在不同光照、角度和距离的物理条件下针对街道标志牌的物理世界攻击的视觉效果。采用原物体大小的12%补丁时,在不同的物理条件下,DorPatch对该街道标志牌在物理世界的无防御非定向攻击成功率达到了100%,在有PatchCleanser防御下,DorPatch能使其鲁棒准确率降低到2.1%。

图2 物理世界DorPatch效果展示

详细内容请参见:

Chaoxiang He, Xiaojing Ma, Bin Benjamin Zhu, Yimiao Zeng, Hanqing Hu, Xiaofan Bai, Hai Jin, Dongmei Zhang, "DorPatch: Distributed and Occlusion-Robust Adversarial Patch to Evade Certifiable Defenses", in Proceedings of the Network and Distributed System Security (NDSS) Symposium, San Diego, CA, USA, February 26 - March 1, 2024.

https://www.ndss-symposium.org/ndss-paper/dorpatch-distributed-and-occlusion-robust-adversarial-patch-to-evade-certifiable-defenses/

声明:本文来自穿过丛林,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。