与TimeTrojan的研究角度不同,该后门完全不考虑触发器的大小以及位置,直接用一种优化的扰动来生成后门,效果也很好。 针对两种不同的攻击场景,设计了sample-specific的触发器
I Know Your Triggers: Defending Against Textual Backdoor Attacks with Benign Backdoor Augmentation 论文阅读(后门防御)
颠倒攻击和防御的方式,利用文本触发器总是来源于公开的文字子集的事实,防御者用已知的后门触发器来削弱攻击者的触发器。
Purifier: Plug-and-Play Backdoor Mitigation for Pre-Trained Models Via Anomaly Activation Suppression 论文阅读(后门防御)
目前主流的防御都在模型的输入端和输出端进行研究,但对中间层缺少深入探究,在逃脱攻击中的对抗性例子中,可以发现中间层的通道激活的不同分布和幅度,由此提出抑制异常激活,来抵抗攻击。
LIRA: Learnable, Imperceptible and Robust Backdoor Attacks 论文阅读
和Wanet相比不同的是,LIRA仍然是采用与图片特征无关的微小扰动,但是LIRA是采用生成函数T(x)与目标模型f的联合优化策略。 将后门攻击的问题视作一个非凸优化问题,并提出一种有效的优化算法,即分两个阶段训练,第一阶段采用寻找最优触发器和最优分类器中相互交替,第二阶段仅微调中毒分类器。
TimeTrojan 论文阅读(第一篇时间序列的后门攻击)
创新点1:基于JSM技术,识别出对模型输出有重要影响的位置,然后使用FGSM在这些位置上添加扰动,可以满足触发器大小和触发器的约束。 创新点2:由于JSM是一次性优化,不能完全找到优化问题的最优情况,因此作者采用进化算法来寻找最合适的操作位置的集合(可以用遗传算法或者其他)