文章 35
评论 44
浏览 92633
Dynamic Backdoor Attacks Against Machine Learning Models(Euro E&P2022)论文阅读

Dynamic Backdoor Attacks Against Machine Learning Models(Euro E&P2022)论文阅读

Article

Salem, Ahmed, Rui Wen, Michael Backes, Shiqing Ma和Yang Zhang. 《Dynamic Backdoor Attacks Against Machine Learning Models》. 收入 2022 IEEE (EuroS&P), 703–18, 2022. https://doi.org/10.1109/EuroSP53844.2022.00049.
arxiv:2020年

Data

背景

previous work is based on static patterns and locations

目的

  1. 提出一种动态触发器算法
  2. 提出一种针对动态触发器的防御方法

结论

在MNIST, CelebA, and CIFAR-10三个数据集中表现好,且SOTA防御算法(ABS,Februus, MNTD, Neural Cleanse, and STRIP)无法大幅度的降低动态后门的ASR。


方法

1:动态后门技术

包括随机后门RB、后门生成器网络BaN、条件后门生成器网络c-BaN

1.1 RB

在均匀分布中随机采样生成触发器,嵌入输入数据的随机位置。
数学模型定义:A(x,ti,ki) = x_{bd}

  • x是输入向量
  • ti是触发器
  • ki是嵌入位置信息
  • x_{bd}是带有后门的输入向量
    令T是给定的触发器集合,K是给定位置集合,ti∈T,ki∈K,从两个集合中随机取。
    分布也可以用高斯分布等其他类型,来改变触发器外观。

多标签后门场景:将K分成若干个不相交的子集K_{i},分别对应于目标标签l_{i}

1.2 BaN

BaN源于GAN网络的启发,不同之处在于BaN将GAN的鉴别器换成了目标模型M,且BaN和M不是对抗训练关系,而是联合优化学习最佳的生成触发器和模型学习到触发器的方式。

单目标标签攻击的训练步骤:

  1. 从均匀分布中选出噪声向量输入到后门生成模型BaN,生成触发器t
  2. 用干净数据输入到目标模型M,得到交叉熵损失\gamma_{c}
  3. 将触发器t注入干净数据,输入到模型M,计算输出和目标标签的后门损失\gamma_{backdoor}
  4. 目标模型基于联合损失\gamma_{c}+\gamma_{backdoor}更新,BaN用\gamma_{backdoor}改进生成的触发器
    多目标标签攻击:后门损失改成多个后门损失之和\sum_{i}\gamma_{backdoor_{i}},其中i对应不同的目标标签

1.3 c-BaN

RB和BaN都要求一个位置只允许嵌入一种触发器,在多个目标标签下,具有不相交的位置集合的限制。因此c-BaN基于BaN改进了输入结构,使得每个目标标签不需要具有其唯一的触发位置

相比于BaN的两点区别:

  1. 在多目标场景下,不需要给每个目标标签划分不相交的位置集合K_{i}
  2. c-BaN在输入端加上了一个独热编码处理过的目标标签向量
    Pastedimage20230407113428.png

该框架的应对后门防御的方法:将任何防御作为鉴别器添加到BaN/c-BaN中,通过设定惩罚损失使得触发器尽可能的绕过模型的防御

2. 动态触发器防御算法

采用去噪算法:比如用自编码器,用干净数据来训练AE,再重建训练集。实验结果表明在简单数据如MNIST上重建效果好,能够较好抵御后门攻击,但在如CIFAR这样有多通道的相对复杂图片来说,重建效果不好,目标模型的准确性对于干净和后门数据集分别下降了4.8%和25%

作者提出另外一种想法:首先计算重建输入和原始输入之间的距离,然后基于预定阈值决定是否将输入转发到模型。(阈值不好定)

数据增强:将图片翻转、放缩、裁剪,以此让后门失效。

  • 翻转结果只将ASR下降到88.6%(单目标标签RB)和93.4%(全标签c-BaN),说明BaN算法对翻转有弹性效果
  • 放缩:图片大小从16 * 16变成32 * 32,结果ASR下降40%的同时模型精确度下降15%以上
  • 裁剪:32 * 32的图片,填充边界像素到40 * 40,填充值用0(黑色),然后在(0,0)~(8,8)之间随机选择一个的位置,剪裁回原始大小。结果:ASR下降到73.2%和89.2%,模型精确度下降了0.7%和 0.25%。
    由以上实验得出:数据增强可以降低后门攻击的准确度,但不能防止它。
    Pastedimage20230407212152.png

结果

实验模型

BaN的网络模型:Pastedimage20230407114501.pngReLU在全连接层间作为激活函数,|t|是触发器的大小

c-BaN:最开始由两个完全独立的全连接层组成,分别输入噪音向量和独热编码的目标标签向量,然后在下一层之前将两层的输出连接在一起。
Pastedimage20230407114714.png

实验评估

1 性能表现

单目标下:
ASR都是100%,CSR除了在CIFAR下有2%性能下降,另外两个性能不变
Pastedimage20230407161555.png
多目标下:
ASR都是接近100%,主要看CSR,性能差距都在2%不到,注意到的是CelebA数据集下,BaN和RB比干净模型的精确度还高,作者考虑是随机后门有正则化效果。
Pastedimage20230407161822.png

注意力可视化实验:可以看到注意力从动物的脸部转移到了后门触发器上。
Pastedimage20230407162115.png

2 对抗防御检测的性能

2020年之前的SOTA基于模型的防御算法:Neural Cleanse,ABS , and MNTD
原理:在模型检测是否包含后门。

结果是不能有效的检测出所有后门。
原因:

  1. 这些防御算法基于的假设是触发器的位置和特征是一致的
  2. 实验中为所有可以设置触发器的标签都嵌入了触发器,使得检测更加困难
    MNTD是一种神经分析分类器,通过创建内存节点并记录内存节点状态,MNTD可以检测神经网络执行过程中的异常行为,并清除神经网络后门。最初MNTD以95%以上的精确度检测出模型存在后门,但作者在训练中额外加入一个元分类器(与用于评估的数据集相比,具有不相交的数据集)作为鉴别器,将精确度下降到2%左右

2020年之前的SOTA基于数据集的防御算法:STRIP,Februus
原理:尝试对训练集进行检测是否含有后门。

Februus只能将ASR从100%降到70-80%,而对于静态触发器,该防御可以将ASR降到0.25%,证明了动态触发器在应对目前后门防御检测的优势。

威胁模型

  1. 如果要将BaN和目标模型联合优化,攻击者必须控制模型的训练过程和训练集(外包给其他人做)
  2. 如果放宽威胁模型,攻击者只能控制训练集,那么攻击者可以使用预训练的BaN(触发器的可转移性),实验测试了在CIFAR下预训练的BaN在MNIST数据集下ASR仍是100%,联合优化的优势在于可以往目标模型中使用定制的损失函数。另一方面,没有联合优化,中毒数据需要在10%以上才能有效果。

Comment

1:隐藏性不太够

  • 一种想法是:动态生成的后门图案希望和图片较为相似,满足隐蔽性条件,但又能够被网络学习。
  • 另一种是采用《A new Backdoor Attack in CNNs by training set corruption without label poisoning》这篇论文类似的斜坡函数或者正弦信号,叠加到训练集中,位置选择算法可以保持不变。Pastedimage20230404175033.png

2:对于带有生物图像比如人、动物的数据集,通过注意力可视化方法可以看到,重点都在面部,那么是否可以选择将后门重点放在面部区域,这样更加容易被学习呢?

先通过其他模型找到训练数据集的不同目标类的注意力点,然后插入后门

Why

Summary

第一个通过生成器网络生成触发器的算法

提出三种效果递进的动态生成触发器算法,不仅有几乎完美的攻击成功率,而且能很好的绕过2020年SOTA后门防御机制。

Notes


标题:Dynamic Backdoor Attacks Against Machine Learning Models(Euro E&P2022)论文阅读
作者:abandon
地址:HTTPS://www.songsci.com/articles/2023/04/07/1680874211532.html

Life Is Like A Boat

取消