I Know Your Triggers: Defending Against Textual Backdoor Attacks with Benign Backdoor Augmentation 论文阅读（后门防御）

2023年07月30日 251 浏览后门攻击后门防御

颠倒攻击和防御的方式，利用文本触发器总是来源于公开的文字子集的事实，防御者用已知的后门触发器来削弱攻击者的触发器。

Purifier: Plug-and-Play Backdoor Mitigation for Pre-Trained Models Via Anomaly Activation Suppression 论文阅读(后门防御）

2023年07月30日 286 浏览后门攻击后门防御

目前主流的防御都在模型的输入端和输出端进行研究，但对中间层缺少深入探究，在逃脱攻击中的对抗性例子中，可以发现中间层的通道激活的不同分布和幅度，由此提出抑制异常激活，来抵抗攻击。