Hallucination as Exploit: Evidence-Carrying Multimodal Agents

(arxiv 2026)

motivation

问题的本质:在传统的问答场景中,模型产生视觉幻觉(例如看错了一张图的说明)仅仅是“回答质量错误”。然而,当多模态智能体开始通过读取屏幕截图、文档或网页来调用工具时,一个错误的视觉判断(例如伪造的按钮位置或发票字段)就可以触发工具调用,从而演变成严重的“授权失败”。

概念定义:作者将这种失效模式正式定义为“幻觉到动作的转化”(Hallucination-to-Action Conversion, H2AC)。即一个缺乏依据的主张(unsupported claim)成为了执行特权动作的前提条件。

现有防御的盲区:目前的提示词注入防御主要关注“指令流”(模型是否遵循了恶意指令),而忽略了“信念流”。如果模型自身产生了虚假前提的幻觉(或者被模糊内容误导),即使没有明显的恶意指令,依然会导致不安全动作的执行。

方法

理论建模:如何定义动作与幻觉

在 ECA 的设定中,一个智能体面对一个观察结果 $o \in \mathcal{O}$(如屏幕截图、网页 DOM 或文档),并可能执行一个动作 $a \in \mathcal{A}$(如点击、打字、发送邮件)。

任何一个安全性敏感的动作 $a$ 都有其必须满足的前提谓词集合(Preconditions),记为$\Phi _ {a}$ 。

  • 幻觉到动作的转化(H2AC)发生于:存在某个关键谓词 $p \in \Phi _ {a}$,它实际上是虚假的或仅来源于不可信内容,但模型(MLLM)却将其视为“真”并以此为依据去执行动作 。

ECA 架构的三大核心组件

为了阻断上述的转化,ECA 引入了以下机制:

A. 动作模式 (Action Schema)

每个工具动作都必须声明一个对应的动作模式 $G _ {a}$,显式地将该动作所需的参数映射到必须被验证的关键谓词上 。 例如,对于“点击网页上某个坐标”的动作,其模式需要三个谓词:

$$G _ {\text{click}}(x, y, l) = {\text{ui_element}(l, x, y), \text{task_match}(l), \text{safe_source}(l)}$$

这意味着,如果智能体想点击坐标 $(x,y)$ 上的标签 $l$,系统必须确认:(1) 这里真的存在一个 UI 元素,(2) 它符合当前任务,(3) 它的来源是安全的。

B. 证据证书 (Evidence Certificates)

模型自己生成的文本不能作为证据 。证据必须由独立的受限验证器(如 OCR 引擎、DOM 解析器、目标检测器)从原始观察 $o$ 中提取,并生成结构化的证书 $\mathcal{E}$ 。 每个证书 $e$ 是一个包含 8 个属性的类型化记录:

$$e = (\tau, v, r, s, \nu, \kappa, t, \lambda)$$

其中分别代表:类型(如 ocr_text)、值、区域坐标、来源、验证器名称、置信度 $\kappa$、时间戳、以及最重要的信任标签 $\lambda$

C. 策略网关 (Policy Gate)

这是最终把关的确定性逻辑门。记作 $\Pi(a, \mathcal{E})$,其输出只能是 {ALLOW, ASK, BLOCK} 中的一个 。 如果用 $Accept _ {p}(\mathcal{E}) = 1$ 表示证书集合 $\mathcal{E}$ 中包含了能证明谓词 $p$ 为真的合格证书,那么网关放行(ALLOW)的严格条件是:

$$\forall p \in \Phi _ {a}, Accept _ {p}(\mathcal{E}) = 1$$

即:所有要求的谓词,都必须有对应的证书支持,缺一不可

数学证明:ECA 的安全性上限 (Soundness)

论文的精髓在于通过概率边界证明了这种设计的安全性(Proposition 1) 。作者没有宣称验证器是完美无缺的,而是定义了三种残余误差:

  1. 验证器假阳性率 ($\epsilon_p$):某验证器针对谓词 $p$ 发出错误证书的概率 。
  2. 模式遗漏率 ($\delta _ {schema}(a)$):动作模式 $G_a$ 漏掉了某个本该检查的关键谓词的概率 。
  3. 实现绕过率 ($\delta _ {impl}(a)$):系统代码存在 Bug 被黑客绕过网关的概率 。

令 $U(a)$ 为动作 $a$ 涉及的那些“缺乏依据但被模型当真”的谓词集合 。根据联合界(Union Bound),一个由幻觉引起的未授权动作成功欺骗系统并执行(H2AAllow)的最高概率为:

$$Pr[\text{H2AAllow}(a)] \le \delta _ {schema}(a) + \delta _ {impl}(a) + \sum _ {p \in U(a)} \epsilon_p$$

公式的含义极其深刻: 如果架构设计得当($\delta _ {schema} \approx 0$ 且 $\delta _ {impl} \approx 0$),那么智能体因幻觉导致危险操作的概率,被严格限定在了底层验证器自身的识别错误率 ($\epsilon_p$) 的总和之内 。ECA 成功将大模型内部“不可解释、不可审计”的幻觉风险,转移成了工程上“可测量、可加固”的验证器错误风险 。

跨模态佐证机制 (Cross-modal Corroboration)

为了进一步压低上述公式中的 $\epsilon_p$,ECA 引入了多模态相互印证(Proposition 2) 。 如果针对同一个谓词 $p$(例如:页面上确实存在“转账”字样),我们同时要求 DOM 树解析器和屏幕截图 OCR 识别器来共同作证,令验证器集合为 $\mathcal{V}$。在假设验证器失效相互独立的情况下,联合假阳性率呈乘积级下降:

$$\epsilon_p^{\text{AND}} \le \prod _ {v_i \in \mathcal{V}} \epsilon_p^{(v_i)}$$

只要攻击者无法同时攻破并伪造 DOM 底层数据和前端视觉像素,这套机制就能在数学上将攻击成功率无限推近于 0(这也就是为什么论文在 1700 次红队测试中实现了 0% 绕过的理论基石) 。