Trap： Mitigating Poisoning-Based Backdoor Attacks by Treating Poison With Poison

IEEE Transactions on Dependable and Secure Computing（CCF A）

motivation

有以下局限性：

局限性一（检测易被绕过）：现有的检测指标在面对某些特定攻击（如干净标签攻击或多目标攻击）时容易失效，导致无法准确检测出有毒样本。

局限性二（模型性能下降）：通过“最大化模型预测与有毒样本标签之间的误差”来进行机器遗忘，虽然能去除后门，但经常会导致模型分类准确率的次优表现，甚至让模型完全不可用。

有以下发现：

观察一：有毒样本在训练早期会形成独立的簇 。因为后门触发器是目标标签的一个强特征，模型会非常快地学习到这个特征。这导致在模型还无法完全区分良性样本的训练早期，有毒样本就已经在特征空间中聚集成了一个明显区别于良性样本的“可疑簇” 。

观察二：有毒样本有着独特的分类路径 。当模型完全训练好后，在分类器内部存在一条独特的路径，将后门特征直接连接到目标标签。这条路径与良性样本的正常分类路径有显著区别。

#深度学习 #大模型

Trap： Mitigating Poisoning-Based Backdoor Attacks by Treating Poison With Poison

https://lijianxiong.space/2026/20260610/

作者

LJX

发布于

2026年6月10日

许可协议