#后门攻击 #不可见后门

Article

Nguyen, Anh, 和Anh Tran. 《WaNet -- Imperceptible Warping-based Backdoor Attack》. arXiv, 2021年3月3日. https://doi.org/10.48550/arXiv.2102.10369.

Data

背景：

目的：

现有的触发器建立在噪声扰动基础上，隐蔽性不足，为增强触发器的隐蔽性。

结论：

Wanet可以成功攻击且绕过SOTA防御方法
Wanet可以躲过网络检查和人眼感知

方法：

提出一种基于扭曲的触发器
提出一种创新的训练模型方法——“噪音”模式

构造扭曲触发器

整体流程：

B(x) = W(x,M)

B(x)为后门注入函数，W是扭曲函数，M是一个预定义的变形空间（运动场），它为目标图像中的每个点定义了向后扭曲的相对采样位置。

M的三个要求：

足够小
弹性、平滑
在图像边界之内

噪音模式

作用：避免模型仅学习到像素级伪像

设置两个超参数\rho_{\alpha}和\rho_{n}，依概率输入三种数据：

干净数据
后门数据
带高斯噪声扰动的后门数据，但输出正常标签

结果：

人眼感知实验

选择25张后门图和25张干净图让测试员判断，得到误分类的概率，可见前四种情况，测试员基本可以很好的判断。而WaNet误分类的概率是其他算法的四倍之多。

应对后门防御实验

FP算法：基本上不奏效，当攻击成功率下降时，模型精度也会下降。

消融实验

可见没有用”噪音“模式训练的模型（黄色），异常值更高

Comment

“噪音”模式像是对抗训练的思路

人眼对于微弱的颜色变化应该也不太敏感，是否可以对图片做颜色的变化，
现实世界的鲁棒性也需要考虑，用相机拍屏幕上的照片的话，很可能颜色会被微小。

创新思路推演：”噪音“模式的提出是由于WaNet原始版本在神经清理防御下被清理了大半，效果很明显。

Why

Summary

不可见后门攻击

Notes

intro：
人类不擅长识别细微的图像扭曲，如微小的几何变换，但机器十分擅长这项任务

图片隐蔽性强的话，当作开源数据集，不会有人察觉，因此会造成很大的安全风险

pixel-wise artifacts：像素级伪像，图像进行微小的、不可察觉的扰动，使得神经网络对图像的分类结果发生错误。作者用噪音模式来强化模型去学习图片弯曲的特性本身，而不是像素级伪像。
如下图，图2是没有用”噪音“模式的后门攻击，经过神经清理算法后，只剩下了一些伪影，而图3经过”噪音“模式训练，学习到了扭曲的特征，而不是一种微小的扰动。

目前两种训练集中毒的模式：

改变数据，也改变标签
只改变数据，不改变标签（Clean Label）

能够躲过SOTA防御的原因：以前的后门攻击都是用图像补丁，而该方法是基于图像变形。（那图片风格肯定呢？两者都不是，图片风格和加随机扰动有啥区别呢，特征更明显？）

WaNet -- Imperceptible Warping-based Backdoor Attack 论文阅读