A Unified Definition of Hallucination, Or: It's the World Model, Stupid

(arxiv 2025)

将不同领域(翻译、摘要、QA、Agent、多模态)中的幻觉统一定义为”不准确的(内部)世界建模“。


定义

参考世界模型 (Reference World Model, $W$)

定义为一个元组:

$$W = (S, H, R)$$

其中

  • $S$ (States): 可能的世界状态集合(例如:棋盘局面、数据库条目、真实世界事实)。
  • $H$ (History): 交互历史(例如:指令、对话记录、日志)。
  • $R$ (Rules): 约束状态合法性的规则(例如:国际象棋规则、物理定律)

视图函数 (View Function, $V$)

模型并不总是能看到完整的世界 $W$。$V(W, x)$ 定义了对于输入 $x$,模型可见的世界部分(例如:RAG 中检索到的 Top-k 文档、Agent 看到的当前屏幕截图)。

冲突策略 (Conflict Policy, $P$) 与 真值函数 ($T$)

这是最关键的部分。当不同来源的信息(如模型内部记忆 vs. 检索到的文档)发生冲突时,谁是真理?

  • 冲突策略 $P$: 规定了优先极。例如,“检索文档优先于内部记忆”或“用户指令优先于现实常识” 。
  • 真值函数 $T_{W,P}(x, c)$: 给定世界 $W$ 和策略 $P$,判断原子主张(Atomic Claim)$c$ 是 truefalse 还是 unknown

幻觉的统一定义

给定输入 $x$ 和模型输出 $y$,若输出中包含的任意一个原子主张 $c$ 满足以下条件,则称 $y$ 包含幻觉:

$$\exists c \in C(y), \text{ such that } T_{W,P}(x, c) = \text{false}$$

即:幻觉是模型输出所隐含的世界状态与参考世界模型 $W$(在给定策略 $P$ 下)相矛盾

例子

任务 参考世界 W 视图 V 冲突策略 P 幻觉类型
文档摘要 源文档 完整文档 文档即真理 (忽略外部世界知识) 内在矛盾 (Intrinsic Hallucination)
开放域 QA 现实世界事实 空 (仅依赖参数记忆) 现实即真理 事实错误 (Factual Error)
RAG 检索文档 + 世界知识 检索到的文档 文档 > 记忆 上下文矛盾 (Context Contradiction)
Agent 环境状态 (如 DOM) 环境观察 环境即真理 观察幻觉 (Observation Hallucination)

个人感想

写得比openai的《Why language models hallucinate》更实用一些。

且把传统的“错误$\equiv$幻觉”的混沌的幻觉概念弄得更分明和清晰了。比如拿国际象棋举例,让象走日或者吃掉一个被遮挡的棋子,这是“不准确的(内部)世界建模” ,也就是幻觉。但是如果你走的不是一个最优的位置,甚至因为棋输一着导致输掉棋局,这也是错误。但这并不是幻觉,而是能力差。


A Unified Definition of Hallucination, Or: It's the World Model, Stupid
https://lijianxiong.space/2025/20251231/
作者
LJX
发布于
2025年12月31日
许可协议