文章 35
评论 44
浏览 92223
WaNet -- Imperceptible Warping-based Backdoor Attack 论文阅读

WaNet -- Imperceptible Warping-based Backdoor Attack 论文阅读

#后门攻击 #不可见后门

Article

Nguyen, Anh, 和Anh Tran. 《WaNet -- Imperceptible Warping-based Backdoor Attack》. arXiv, 2021年3月3日. https://doi.org/10.48550/arXiv.2102.10369.

Data

背景

目的

现有的触发器建立在噪声扰动基础上,隐蔽性不足,为增强触发器的隐蔽性。

结论

  • Wanet可以成功攻击且绕过SOTA防御方法
  • Wanet可以躲过网络检查和人眼感知

方法

  • 提出一种基于扭曲的触发器
  • 提出一种创新的训练模型方法——“噪音”模式

构造扭曲触发器

整体流程:
Pastedimage20230423195410.png

B(x) = W(x,M)

B(x)为后门注入函数,W是扭曲函数,M是一个预定义的变形空间(运动场),它为目标图像中的每个点定义了向后扭曲的相对采样位置。

M的三个要求:

  1. 足够小
  2. 弹性、平滑
  3. 在图像边界之内

噪音模式

作用:避免模型仅学习到像素级伪像
Pastedimage20230423202848.png
Pastedimage20230423202837.png
设置两个超参数\rho_{\alpha}\rho_{n},依概率输入三种数据:

  1. 干净数据
  2. 后门数据
  3. 带高斯噪声扰动的后门数据,但输出正常标签

结果

人眼感知实验

选择25张后门图和25张干净图让测试员判断,得到误分类的概率,可见前四种情况,测试员基本可以很好的判断。而WaNet误分类的概率是其他算法的四倍之多。
Pastedimage20230423212216.png

应对后门防御实验

FP算法:基本上不奏效,当攻击成功率下降时,模型精度也会下降。
Pastedimage20230423212704.png

消融实验

Pastedimage20230423212958.png
可见没有用”噪音“模式训练的模型(黄色),异常值更高

Comment

“噪音”模式像是对抗训练的思路

人眼对于微弱的颜色变化应该也不太敏感,是否可以对图片做颜色的变化,
现实世界的鲁棒性也需要考虑,用相机拍屏幕上的照片的话,很可能颜色会被微小。

创新思路推演:”噪音“模式的提出是由于WaNet原始版本在神经清理防御下被清理了大半,效果很明显。

Why

Summary

不可见后门攻击

Notes

intro:
人类不擅长识别细微的图像扭曲,如微小的几何变换,但机器十分擅长这项任务

图片隐蔽性强的话,当作开源数据集,不会有人察觉,因此会造成很大的安全风险

pixel-wise artifacts:像素级伪像,图像进行微小的、不可察觉的扰动,使得神经网络对图像的分类结果发生错误。作者用噪音模式来强化模型去学习图片弯曲的特性本身,而不是像素级伪像。
如下图,图2是没有用”噪音“模式的后门攻击,经过神经清理算法后,只剩下了一些伪影,而图3经过”噪音“模式训练,学习到了扭曲的特征,而不是一种微小的扰动。
Pastedimage20230423211652.png

目前两种训练集中毒的模式:

  1. 改变数据,也改变标签
  2. 只改变数据,不改变标签(Clean Label)

能够躲过SOTA防御的原因:以前的后门攻击都是用图像补丁,而该方法是基于图像变形。(那图片风格肯定呢?两者都不是,图片风格和加随机扰动有啥区别呢,特征更明显?)


标题:WaNet -- Imperceptible Warping-based Backdoor Attack 论文阅读
作者:abandon
地址:HTTPS://www.songsci.com/articles/2023/05/05/1683255075230.html

Life Is Like A Boat

取消