文章 35
评论 44
浏览 92228
TimeTrojan 论文阅读(第一篇时间序列的后门攻击)

TimeTrojan 论文阅读(第一篇时间序列的后门攻击)

#时间序列分类后门

Article

Ding, Daizong, Mi Zhang, Yuanmin Huang, Xudong Pan, Fuli Feng, Erling Jiang和Min Yang. 《Towards Backdoor Attack on Deep Learning based Time Series Classification》. 收入 2022 IEEE 38th International Conference on Data Engineering (ICDE), 1274–87, 2022. https://doi.org/10.1109/ICDE53745.2022.00100.

Data

目的(解决了什么问题)

  • 时间序列分类存在后门攻击问题,但图片分类问题的触发器不适用时间序列

方法创新

训练控制的白盒场景

  • 创新点1:基于JSM技术,识别出对模型输出有重要影响的位置,然后使用FGSM在这些位置上添加扰动,可以满足触发器大小和触发器的约束。
  • 创新点2:由于JSM是一次性优化,不能完全找到优化问题的最优情况,因此作者采用进化算法来寻找最合适的操作位置的集合(可以用遗传算法或者其他)

与我研究问题的联系

创新点1的改进:FGSM(ICLR2015)是NLP最初用于对抗训练的方法,之后有很多其他改进方法如PGD(ICLR2018),SMART等,预想PGD效果会更好一些。参考资料

PGD(又叫I-FGSM)多次迭代,相比于FGSM攻击效果好,但速度慢

整体上不足:

  1. 不仅是白盒场景,而且该触发器需要在模型计算梯度后才能注入,这样的攻击方式不方便也不现实。
  2. 作者设计的后门触发器都是基于时间戳对最终输出的影响,然后在选定的时间戳上添加扰动,这在CNN上是可以的,但考虑到时间序列具有上下文的特性,很多模型是都采用RNN、LSTM、TCN等具有记忆能力的神经网络,因此能否构造成时间上具有某种顺序联系的触发器呢?

未来工作:

  1. 本文考虑到通用性,处理的是实值TSC,未来可探究具有离散值的TSC比如网络流量检测,包括一些IP地址,包的长度
  2. 研究具有更多维度的TSC
  3. 目前没有一个针对时序的后门防御模型。

结论

理论:

  1. 触发器的大小增加容易导致分布偏移,因此操纵的位置要尽量少。(比如加全局的高斯模糊很可能就会导致分布偏移?存疑,有可能是因为扰动没有经过优化)
  2. 触发器需要修改在对分类器影响大的序列位置上,否则分类器是不可区分的。
  3. 时序数据不能直接采用NLP中的后门攻击的关键因素是,NLP的输入是自然语言,通过注入有语义信息的词来生成后门,而时序数据是采用实值表示,很难找到一个具有语义信息的实值作为触发器。
    实验:
  4. ASR指标大部分较好,但ACC在较多的组合下下降了5%以上
  5. 对于TCN模型,ASR不够高。在STOCK数据集上只有50%

Notes

同样是高斯模糊,图片分类的ASR可以达到99.7%,而时序数据只能达到53%

JSM雅可比着色图(Jacobian-based saliency map)可以反映训练过程中输入的重要位置和目标标签的关系。

在TSC的上下文中,当扰动的大小增加时,中毒样本可能与正常样本出现很大差异(即产生新特征),这导致训练数据的分布偏移。

分布偏移:一般训练数据和测试数据的分布基本一致,但是如果训练数据中存在一些特征是测试数据没有或者比例不同的话,就会导致测试结果不佳。


标题:TimeTrojan 论文阅读(第一篇时间序列的后门攻击)
作者:abandon
地址:HTTPS://www.songsci.com/articles/2023/07/30/1690708115713.html

Life Is Like A Boat

取消