颠倒攻击和防御的方式,利用文本触发器总是来源于公开的文字子集的事实,防御者用已知的后门触发器来削弱攻击者的触发器。
Purifier: Plug-and-Play Backdoor Mitigation for Pre-Trained Models Via Anomaly Activation Suppression 论文阅读(后门防御)
目前主流的防御都在模型的输入端和输出端进行研究,但对中间层缺少深入探究,在逃脱攻击中的对抗性例子中,可以发现中间层的通道激活的不同分布和幅度,由此提出抑制异常激活,来抵抗攻击。