A Unified Definition of Hallucination, Or: It's the World Model, Stupid
(arxiv 2025)
将不同领域(翻译、摘要、QA、Agent、多模态)中的幻觉统一定义为”不准确的(内部)世界建模“。
定义
参考世界模型 (Reference World Model, $W$)
定义为一个元组:
$$W = (S, H, R)$$
其中
- $S$ (States): 可能的世界状态集合(例如:棋盘局面、数据库条目、真实世界事实)。
- $H$ (History): 交互历史(例如:指令、对话记录、日志)。
- $R$ (Rules): 约束状态合法性的规则(例如:国际象棋规则、物理定律)
视图函数 (View Function, $V$)
模型并不总是能看到完整的世界 $W$。$V(W, x)$ 定义了对于输入 $x$,模型可见的世界部分(例如:RAG 中检索到的 Top-k 文档、Agent 看到的当前屏幕截图)。
冲突策略 (Conflict Policy, $P$) 与 真值函数 ($T$)
这是最关键的部分。当不同来源的信息(如模型内部记忆 vs. 检索到的文档)发生冲突时,谁是真理?
- 冲突策略 $P$: 规定了优先极。例如,“检索文档优先于内部记忆”或“用户指令优先于现实常识” 。
- 真值函数 $T_{W,P}(x, c)$: 给定世界 $W$ 和策略 $P$,判断原子主张(Atomic Claim)$c$ 是
true、false还是unknown。
幻觉的统一定义
给定输入 $x$ 和模型输出 $y$,若输出中包含的任意一个原子主张 $c$ 满足以下条件,则称 $y$ 包含幻觉:
$$\exists c \in C(y), \text{ such that } T_{W,P}(x, c) = \text{false}$$
即:幻觉是模型输出所隐含的世界状态与参考世界模型 $W$(在给定策略 $P$ 下)相矛盾 。
例子
| 任务 | 参考世界 W | 视图 V | 冲突策略 P | 幻觉类型 |
|---|---|---|---|---|
| 文档摘要 | 源文档 | 完整文档 | 文档即真理 (忽略外部世界知识) | 内在矛盾 (Intrinsic Hallucination) |
| 开放域 QA | 现实世界事实 | 空 (仅依赖参数记忆) | 现实即真理 | 事实错误 (Factual Error) |
| RAG | 检索文档 + 世界知识 | 检索到的文档 | 文档 > 记忆 | 上下文矛盾 (Context Contradiction) |
| Agent | 环境状态 (如 DOM) | 环境观察 | 环境即真理 | 观察幻觉 (Observation Hallucination) |
个人感想
写得比openai的《Why language models hallucinate》更实用一些。
且把传统的“错误$\equiv$幻觉”的混沌的幻觉概念弄得更分明和清晰了。比如拿国际象棋举例,让象走日或者吃掉一个被遮挡的棋子,这是“不准确的(内部)世界建模” ,也就是幻觉。但是如果你走的不是一个最优的位置,甚至因为棋输一着导致输掉棋局,这也是错误。但这并不是幻觉,而是能力差。
A Unified Definition of Hallucination, Or: It's the World Model, Stupid
https://lijianxiong.space/2025/20251231/