Trap: Mitigating Poisoning-Based Backdoor Attacks by Treating Poison With Poison
IEEE Transactions on Dependable and Secure Computing(CCF A)
motivation
有以下局限性:
局限性一(检测易被绕过):现有的检测指标在面对某些特定攻击(如干净标签攻击或多目标攻击)时容易失效,导致无法准确检测出有毒样本 。
局限性二(模型性能下降):通过“最大化模型预测与有毒样本标签之间的误差”来进行机器遗忘,虽然能去除后门,但经常会导致模型分类准确率的次优表现,甚至让模型完全不可用 。
有以下发现:
观察一:有毒样本在训练早期会形成独立的簇 。因为后门触发器是目标标签的一个强特征,模型会非常快地学习到这个特征 。这导致在模型还无法完全区分良性样本的训练早期,有毒样本就已经在特征空间中聚集成了一个明显区别于良性样本的“可疑簇” 。
观察二:有毒样本有着独特的分类路径 。当模型完全训练好后,在分类器内部存在一条独特的路径,将后门特征直接连接到目标标签 。这条路径与良性样本的正常分类路径有显著区别。
Trap: Mitigating Poisoning-Based Backdoor Attacks by Treating Poison With Poison
https://lijianxiong.space/2026/20260610/