FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks

(WWW 2026)


概述

LLMs 容易受到欺诈信息的操纵。在面对复杂的、多轮交互的诈骗场景(如“杀猪盘”、虚假招聘)时,LLMs 往往无法识别陷阱,甚至会顺从诈骗者的指令,导致用户遭受财产损失。

现有防御的局限

  • 传统的防御方法(如 Safety Prompt、Self-Reminder)主要针对一般的恶意内容(如仇恨言论、越狱攻击),缺乏对特定**诈骗策略(Fraud Tactics)**的理解 。
  • 这些方法在面对精心设计的诈骗剧本时,防御成功率极低,有时甚至会降低模型识别风险的能力 。

方法

FraudShield 首先利用 LLM 的信息提取能力,基于四种预定义的诈骗战术(紧迫施压、可疑信息、敏感请求、可信度伪造)扫描输入文本 $x$。

提取的结果集合 $F$ 定义为:

$$F = {(t_i, {(k_i^j, s_i^j, r_i^j)} _ {j=1} ^ {m_i})} _ {i=1}^4$$

  • $t_i$:第 $i$ 种诈骗战术(共4种)。
  • $k_i^j$:识别出的第 $j$ 个关键词。
  • $s_i^j$:该关键词的置信度分数(0-10分)。
  • $r_i^j$:判定该关键词为诈骗线索的理由(Rationale)。

为了解决直接提取时出现的关键词重叠(如 “Bank” 和 “Bank of China”)和战术冲突(一个词可能对应多种战术)问题。

将包含关系的关键词合并为簇 $\mathcal{K}^\ast$。对于任意关键词簇 $K_u$,它包含基础关键词及其所有超集:

$$\mathcal{K}^\ast = {K_u | K_u = {k \in \mathcal{K} | k_u \subseteq k}}$$

这意味着较短的关键词被归并到较长的关键词中,避免重复计算 。

构建一个加权二部图 $G=(\mathcal{K}^\ast\cup\mathcal{T}, E)$,其中一侧节点是关键词簇 $\mathcal{K}^\ast$,另一侧是战术集合 $\mathcal{T}$。

  • 边的权重 $w(K_u, t_v)$:定义为该簇中所有关键词针对该战术的平均置信度分数 。

为了消除歧义和噪声,系统执行**图细化(Graph Refinement)**过程。

这里包含两个操作:

  1. 阈值过滤:去除权重低于阈值 $\tau$(例如 $\tau=5$)的边,以减少误报 。
  2. 最大化选择:对于每个关键词簇 $K_u$,只保留权重最大的那条边对应的战术 $t_v$,从而解决战术冲突 。

最后生成最终的高置信度关联集合 $R$:

$$R = {(K_u, t_v) | s _ {uv} = \max(s _ {u\cdot}) \ge \tau}$$

在确定了关键词和战术的关联后,系统需要为每个战术找到最强有力的解释(Rationale)作为证据 $\mathcal{E}$。

对于每个战术 $t_i$,选择分数最高的那个关键词所对应的理由:

$$\mathcal{E} = {(t_i, r_i ^ {j^\ast}) | j^\ast = \arg \max_j s_i^j}$$

最后一步是将上述结构化知识融合回文本中,引导 LLM 进行防御性推理。

利用集合 $R$ 中的映射关系,将原始文本 $x$ 中的关键词用对应的战术标签包裹。定义转换函数 $f(w)$:

$$f(w) = \begin{cases} <t>w</t>, & \text{if } w \in K_u \text{ where } (K_u, t) \in R \\ w, & \text{otherwise} \end{cases}$$

增强后的文本 $x’$ 由 $x’ = {f(w_1), f(w_2), …, f(w_n)}$ 组成。例如,文本中的 “click now” 会被转换为 <Urgency Pressure>click now</Urgency Pressure>

将增强后的文本 $x’$ 和筛选出的证据 $\mathcal{E}$ 作为提示(Prompt)输入给 LLM。LLM 结合高亮的上下文和明确的诈骗理由,生成最终的防御性回复 $y$:

$$y = \arg \max M(y|x’, \mathcal{E})$$


FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks
https://lijianxiong.space/2026/20260211/
作者
LJX
发布于
2026年2月11日
许可协议