Hallucination as Exploit： Evidence-Carrying Multimodal Agents

（arxiv 2026）

motivation

问题的本质：在传统的问答场景中，模型产生视觉幻觉（例如看错了一张图的说明）仅仅是“回答质量错误”。然而，当多模态智能体开始通过读取屏幕截图、文档或网页来调用工具时，一个错误的视觉判断（例如伪造的按钮位置或发票字段）就可以触发工具调用，从而演变成严重的“授权失败”。

概念定义：作者将这种失效模式正式定义为“幻觉到动作的转化”（Hallucination-to-Action Conversion, H2AC）。即一个缺乏依据的主张（unsupported claim）成为了执行特权动作的前提条件。

现有防御的盲区：目前的提示词注入防御主要关注“指令流”（模型是否遵循了恶意指令），而忽略了“信念流”。如果模型自身产生了虚假前提的幻觉（或者被模糊内容误导），即使没有明显的恶意指令，依然会导致不安全动作的执行。

方法

理论建模：如何定义动作与幻觉

在 ECA 的设定中，一个智能体面对一个观察结果 $o \in \mathcal{O}$（如屏幕截图、网页 DOM 或文档），并可能执行一个动作 $a \in \mathcal{A}$（如点击、打字、发送邮件）。

任何一个安全性敏感的动作 $a$ 都有其必须满足的前提谓词集合（Preconditions），记为$\Phi _ {a}$ 。

幻觉到动作的转化（H2AC）发生于：存在某个关键谓词 $p \in \Phi _ {a}$，它实际上是虚假的或仅来源于不可信内容，但模型（MLLM）却将其视为“真”并以此为依据去执行动作。

ECA 架构的三大核心组件

为了阻断上述的转化，ECA 引入了以下机制：

A. 动作模式 (Action Schema)

每个工具动作都必须声明一个对应的动作模式 $G _ {a}$，显式地将该动作所需的参数映射到必须被验证的关键谓词上。例如，对于“点击网页上某个坐标”的动作，其模式需要三个谓词：

$$G _ {\text{click}}(x, y, l) = {\text{ui_element}(l, x, y), \text{task_match}(l), \text{safe_source}(l)}$$

这意味着，如果智能体想点击坐标 $(x,y)$ 上的标签 $l$，系统必须确认：(1) 这里真的存在一个 UI 元素，(2) 它符合当前任务，(3) 它的来源是安全的。

B. 证据证书 (Evidence Certificates)

模型自己生成的文本不能作为证据。证据必须由独立的受限验证器（如 OCR 引擎、DOM 解析器、目标检测器）从原始观察 $o$ 中提取，并生成结构化的证书 $\mathcal{E}$ 。每个证书 $e$ 是一个包含 8 个属性的类型化记录：

$$e = (\tau, v, r, s, \nu, \kappa, t, \lambda)$$

其中分别代表：类型（如 ocr_text）、值、区域坐标、来源、验证器名称、置信度 $\kappa$、时间戳、以及最重要的信任标签 $\lambda$ 。

C. 策略网关 (Policy Gate)

这是最终把关的确定性逻辑门。记作 $\Pi(a, \mathcal{E})$，其输出只能是 {ALLOW, ASK, BLOCK} 中的一个。如果用 $Accept _ {p}(\mathcal{E}) = 1$ 表示证书集合 $\mathcal{E}$ 中包含了能证明谓词 $p$ 为真的合格证书，那么网关放行（ALLOW）的严格条件是：

$$\forall p \in \Phi _ {a}, Accept _ {p}(\mathcal{E}) = 1$$

即：所有要求的谓词，都必须有对应的证书支持，缺一不可。

数学证明：ECA 的安全性上限 (Soundness)

论文的精髓在于通过概率边界证明了这种设计的安全性（Proposition 1）。作者没有宣称验证器是完美无缺的，而是定义了三种残余误差：

验证器假阳性率 ($\epsilon_p$)：某验证器针对谓词 $p$ 发出错误证书的概率。
模式遗漏率 ($\delta _ {schema}(a)$)：动作模式 $G_a$ 漏掉了某个本该检查的关键谓词的概率。
实现绕过率 ($\delta _ {impl}(a)$)：系统代码存在 Bug 被黑客绕过网关的概率。

令 $U(a)$ 为动作 $a$ 涉及的那些“缺乏依据但被模型当真”的谓词集合。根据联合界（Union Bound），一个由幻觉引起的未授权动作成功欺骗系统并执行（H2AAllow）的最高概率为：

$$Pr[\text{H2AAllow}(a)] \le \delta _ {schema}(a) + \delta _ {impl}(a) + \sum _ {p \in U(a)} \epsilon_p$$

公式的含义极其深刻：如果架构设计得当（$\delta _ {schema} \approx 0$ 且 $\delta _ {impl} \approx 0$），那么智能体因幻觉导致危险操作的概率，被严格限定在了底层验证器自身的识别错误率 ($\epsilon_p$) 的总和之内 。ECA 成功将大模型内部“不可解释、不可审计”的幻觉风险，转移成了工程上“可测量、可加固”的验证器错误风险。

为了进一步压低上述公式中的 $\epsilon_p$，ECA 引入了多模态相互印证（Proposition 2）。如果针对同一个谓词 $p$（例如：页面上确实存在“转账”字样），我们同时要求 DOM 树解析器和屏幕截图 OCR 识别器来共同作证，令验证器集合为 $\mathcal{V}$。在假设验证器失效相互独立的情况下，联合假阳性率呈乘积级下降：

$$\epsilon_p^{\text{AND}} \le \prod _ {v_i \in \mathcal{V}} \epsilon_p^{(v_i)}$$

只要攻击者无法同时攻破并伪造 DOM 底层数据和前端视觉像素，这套机制就能在数学上将攻击成功率无限推近于 0（这也就是为什么论文在 1700 次红队测试中实现了 0% 绕过的理论基石）。

#深度学习 #多模态 #大模型

Hallucination as Exploit： Evidence-Carrying Multimodal Agents

https://lijianxiong.space/2026/20260601/

作者

LJX

发布于

2026年6月1日

许可协议

Trap： Mitigating Poisoning-Based Backdoor Attacks by Treating Poison With Poison 上一篇

Finding the Correct Visual Evidence Without Forgetting： Mitigating Hallucination in LVLMs via Inter-Layer Visual Attention Discrepancy 下一篇

Hallucination as Exploit： Evidence-Carrying Multimodal Agents

motivation

方法

理论建模：如何定义动作与幻觉

ECA 架构的三大核心组件

A. 动作模式 (Action Schema)

B. 证据证书 (Evidence Certificates)

C. 策略网关 (Policy Gate)

数学证明：ECA 的安全性上限 (Soundness)

跨模态佐证机制 (Cross-modal Corroboration)