文章 35
评论 44
浏览 92220
I Know Your Triggers: Defending Against Textual Backdoor Attacks with Benign Backdoor Augmentation 论文阅读(后门防御)

I Know Your Triggers: Defending Against Textual Backdoor Attacks with Benign Backdoor Augmentation 论文阅读(后门防御)

Article

Gao, Yue, Jack W. Stokes, Manoj Ajith Prasad, Andrew T. Marshall, Kassem Fawaz和Emre Kiciman. 《I Know Your Triggers: Defending Against Textual Backdoor Attacks with Benign Backdoor Augmentation》. 收入 MILCOM 2022 - 2022 IEEE Military Communications Conference (MILCOM), 442–49, 2022. https://doi.org/10.1109/MILCOM55135.2022.10017466.

Data

目的(解决了什么问题)

不可见后门的防御问题

方法创新

颠倒攻击和防御的方式,利用文本触发器总是来源于公开的文字子集的事实,防御者用已知的后门触发器来削弱攻击者的触发器

与我研究问题的联系

是一种防御方法,可作为实验比较的目标

Summary(言简意赅)

问题:
方法:


精读

方法

两次微调,第一次微调用干净样本和后门良性样本,第二次微调使用干净样本、后门良性样本、不可信的新样本,联合训练的目的是使得模型学习到了后门样本,但是输出仍然是正确的标签。即存在攻击者是利用’marvelous‘同义词替换’good'来使得文本分类为negative,作者基于文本后门同义词替换是在有限公开的文本集合内选择出来的,因此数据增强有概率选择其他‘good’的同义词来使得文本分类为positive,通过学习这种触发器来削弱攻击者的触发器(虽然实验有效果,但可解释性不强)

结果

Pastedimage20230730171550.png

可以看出在没有良性后门样本增强情况(A),ASR有91%,在经过良性后门样本训练后,ASR下降到33%,说明了该方法确实有一定效果。

作者提出的分类器整体分类概率为65%,但对于token这一种触发器效果不佳,因为token集合是无穷的,有监督的训练很难有效果。Pastedimage20230730164259.png


Comment

问题1:这样的防御会不会变成消除了原有的攻击,但又引入了新的攻击呢?虽然引入的良性后门样本的标签是正确的,但是也存在干净标签攻击的可能,需要控制良性中毒率。

该篇作者设定的存在后门攻击的场景是,在使用预训练模型训练下游任务时存在不可信的新数据,预训练模型是健壮的,但是新数据可能存在后门。
因此该场景是训练数据集的后门攻击,不是外包训练场景。而deepsweep的训练场景在于防御者拿到了一个可能含有后门的模型,通过数据增强的微调来削弱潜在的后门攻击。

局限性:

  1. 只针对不可见攻击,对于如token类型的可见触发器,是不能降低其攻击成功率的。
  2. 对于训练控制的触发器无能为力,因为该防御必须要用良性样本和后门样本同时训练。

Why

Notes

常见攻击:

  • 句法释义触发器:套用一种句法模板
    Hidden killer: Invisible textual backdoor attacks with syntactic trigger
  • 同义词替换:从不常用的词集合中选出替换词
    Turn the combination lock: Learnable textual backdoor attacks via word substitution
  • Token嵌入:从一组不常用且无意义的token集合中选出作为触发器,与前两种方法不同的是,这个集合是无限的。

模型:BERT
数据集:SST-2、IMDB文本情感分类


标题:I Know Your Triggers: Defending Against Textual Backdoor Attacks with Benign Backdoor Augmentation 论文阅读(后门防御)
作者:abandon
地址:HTTPS://www.songsci.com/articles/2023/07/30/1690708764149.html

Life Is Like A Boat

取消