FraudShield： Knowledge Graph Empowered Defense for LLMs against Fraud Attacks

(WWW 2026)

概述

LLMs 容易受到欺诈信息的操纵。在面对复杂的、多轮交互的诈骗场景（如“杀猪盘”、虚假招聘）时，LLMs 往往无法识别陷阱，甚至会顺从诈骗者的指令，导致用户遭受财产损失。

现有防御的局限：

传统的防御方法（如 Safety Prompt、Self-Reminder）主要针对一般的恶意内容（如仇恨言论、越狱攻击），缺乏对特定**诈骗策略（Fraud Tactics）**的理解。
这些方法在面对精心设计的诈骗剧本时，防御成功率极低，有时甚至会降低模型识别风险的能力。

FraudShield 首先利用 LLM 的信息提取能力，基于四种预定义的诈骗战术（紧迫施压、可疑信息、敏感请求、可信度伪造）扫描输入文本 $x$。

提取的结果集合 $F$ 定义为：

$$F = {(t_i, {(k_i^j, s_i^j, r_i^j)} _ {j=1} ^ {m_i})} _ {i=1}^4$$

为了解决直接提取时出现的关键词重叠（如 “Bank” 和 “Bank of China”）和战术冲突（一个词可能对应多种战术）问题。

将包含关系的关键词合并为簇 $\mathcal{K}^\ast$。对于任意关键词簇 $K_u$，它包含基础关键词及其所有超集：

$$\mathcal{K}^\ast = {K_u | K_u = {k \in \mathcal{K} | k_u \subseteq k}}$$

这意味着较短的关键词被归并到较长的关键词中，避免重复计算。

构建一个加权二部图 $G=(\mathcal{K}^\ast\cup\mathcal{T}, E)$，其中一侧节点是关键词簇 $\mathcal{K}^\ast$，另一侧是战术集合 $\mathcal{T}$。

为了消除歧义和噪声，系统执行**图细化（Graph Refinement）**过程。

这里包含两个操作：

最后生成最终的高置信度关联集合 $R$：

$$R = {(K_u, t_v) | s _ {uv} = \max(s _ {u\cdot}) \ge \tau}$$

在确定了关键词和战术的关联后，系统需要为每个战术找到最强有力的解释（Rationale）作为证据 $\mathcal{E}$。

对于每个战术 $t_i$，选择分数最高的那个关键词所对应的理由：

$$\mathcal{E} = {(t_i, r_i ^ {j^\ast}) | j^\ast = \arg \max_j s_i^j}$$

最后一步是将上述结构化知识融合回文本中，引导 LLM 进行防御性推理。

利用集合 $R$ 中的映射关系，将原始文本 $x$ 中的关键词用对应的战术标签包裹。定义转换函数 $f(w)$：

$$f(w) = \begin{cases} <t>w</t>, & \text{if } w \in K_u \text{ where } (K_u, t) \in R \\ w, & \text{otherwise} \end{cases}$$

增强后的文本 $x’$ 由 $x’ = {f(w_1), f(w_2), …, f(w_n)}$ 组成。例如，文本中的 “click now” 会被转换为 <Urgency Pressure>click now</Urgency Pressure> 。

将增强后的文本 $x’$ 和筛选出的证据 $\mathcal{E}$ 作为提示（Prompt）输入给 LLM。LLM 结合高亮的上下文和明确的诈骗理由，生成最终的防御性回复 $y$：

$$y = \arg \max M(y|x’, \mathcal{E})$$

#深度学习 #大模型

FraudShield： Knowledge Graph Empowered Defense for LLMs against Fraud Attacks

https://lijianxiong.space/2026/20260211/

作者

LJX

发布于

2026年2月11日

许可协议