与TimeTrojan的研究角度不同,该后门完全不考虑触发器的大小以及位置,直接用一种优化的扰动来生成后门,效果也很好。 针对两种不同的攻击场景,设计了sample-specific的触发器
I Know Your Triggers: Defending Against Textual Backdoor Attacks with Benign Backdoor Augmentation 论文阅读(后门防御)
颠倒攻击和防御的方式,利用文本触发器总是来源于公开的文字子集的事实,防御者用已知的后门触发器来削弱攻击者的触发器。
Purifier: Plug-and-Play Backdoor Mitigation for Pre-Trained Models Via Anomaly Activation Suppression 论文阅读(后门防御)
目前主流的防御都在模型的输入端和输出端进行研究,但对中间层缺少深入探究,在逃脱攻击中的对抗性例子中,可以发现中间层的通道激活的不同分布和幅度,由此提出抑制异常激活,来抵抗攻击。
LIRA: Learnable, Imperceptible and Robust Backdoor Attacks 论文阅读
和Wanet相比不同的是,LIRA仍然是采用与图片特征无关的微小扰动,但是LIRA是采用生成函数T(x)与目标模型f的联合优化策略。 将后门攻击的问题视作一个非凸优化问题,并提出一种有效的优化算法,即分两个阶段训练,第一阶段采用寻找最优触发器和最优分类器中相互交替,第二阶段仅微调中毒分类器。
TimeTrojan 论文阅读(第一篇时间序列的后门攻击)
创新点1:基于JSM技术,识别出对模型输出有重要影响的位置,然后使用FGSM在这些位置上添加扰动,可以满足触发器大小和触发器的约束。 创新点2:由于JSM是一次性优化,不能完全找到优化问题的最优情况,因此作者采用进化算法来寻找最合适的操作位置的集合(可以用遗传算法或者其他)
定时远眺,保护视力程序
Based on the working time of your mouse, keyboard, and sound devices, automatically prompt for eye rest.(基于鼠标,键盘和声音设备的工作时间的自动化眼睛休息提示工具)
推荐一个神经网络后门攻击/防御工具箱的仓库(BackdoorBox)
BackdoorBox是一个开源的Python工具箱,目前已包含12种攻击方法, 9种防御方法,其目的是在一个统一的框架下实现有代表性的和高级的后门攻击和防御,可以灵活使用。
WaNet -- Imperceptible Warping-based Backdoor Attack 论文阅读
作者提出一种基于扭曲的触发器WaNet,并使用一种创新的训练模型方法——“噪音”模式
A new Backdoor Attack in CNNs by training set corruption without label poisoning(干净标签算法)论文阅读
以往的后门攻击都是同时将数据和标签中毒,而通过可视化检查或者预分类处理可以被察觉到异常,作者提出了一个没有标签中毒却能攻击成功的工作原理,只破坏目标类的样本.结果表明:Clean Label方法缩小了攻击要求的场景,在单/双目标的后门攻击上都有一定可行性。
BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain(DL后门攻击开山之作)论文阅读
Article Gu, Tianyu, Brendan Dolan-Gavitt和Siddharth Garg. 《BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain》. arXiv, 2017年3月11日. https://doi.org/10.48550/arXiv.1708.06733. 源代码:https://github.com/verazuo/badnets-pytorch Data 目的: 提出在深度学习模型中也存在着后门攻击的安全风险。 结论: 经过实验发现,含有后门攻击的神经网络,在常规样本中的表现与正常模型相差无几,但在带有trigger的样本中的识别准确率会显著下降。后门攻击效果明显且不易察觉,在当前深度学习模型外包训练广受欢迎的情况下,具有很大的潜在安全隐患。 利用迁移学习技术将含有后门攻击的模型用于其他场景的模型训练,训练后的模型会保留后门。 对Caffe Model Zoo(预训练模型源)抵御BadNets攻击的安全性进行分析,发现存在多个切入点会导....