A Unified Definition of Hallucination, Or： It's the World Model, Stupid

（arxiv 2025）

将不同领域（翻译、摘要、QA、Agent、多模态）中的幻觉统一定义为”不准确的（内部）世界建模“。

定义

定义为一个元组：

$$W = (S, H, R)$$

其中

模型并不总是能看到完整的世界 $W$。$V(W, x)$ 定义了对于输入 $x$，模型可见的世界部分（例如：RAG 中检索到的 Top-k 文档、Agent 看到的当前屏幕截图）。

这是最关键的部分。当不同来源的信息（如模型内部记忆 vs. 检索到的文档）发生冲突时，谁是真理？

冲突策略 $P$: 规定了优先极。例如，“检索文档优先于内部记忆”或“用户指令优先于现实常识” 。
真值函数 $T_{W,P}(x, c)$: 给定世界 $W$ 和策略 $P$，判断原子主张（Atomic Claim）$c$ 是 true、false 还是 unknown 。

给定输入 $x$ 和模型输出 $y$，若输出中包含的任意一个原子主张 $c$ 满足以下条件，则称 $y$ 包含幻觉：

$$\exists c \in C(y), \text{ such that } T_{W,P}(x, c) = \text{false}$$

即：幻觉是模型输出所隐含的世界状态与参考世界模型 $W$（在给定策略 $P$ 下）相矛盾 。

任务	参考世界 W	视图 V	冲突策略 P	幻觉类型
文档摘要	源文档	完整文档	文档即真理 (忽略外部世界知识)	内在矛盾 (Intrinsic Hallucination)
开放域 QA	现实世界事实	空 (仅依赖参数记忆)	现实即真理	事实错误 (Factual Error)
RAG	检索文档 + 世界知识	检索到的文档	文档 > 记忆	上下文矛盾 (Context Contradiction)
Agent	环境状态 (如 DOM)	环境观察	环境即真理	观察幻觉 (Observation Hallucination)

写得比openai的《Why language models hallucinate》更实用一些。

且把传统的“错误$\equiv$幻觉”的混沌的幻觉概念弄得更分明和清晰了。比如拿国际象棋举例，让象走日或者吃掉一个被遮挡的棋子，这是“不准确的（内部）世界建模” ，也就是幻觉。但是如果你走的不是一个最优的位置，甚至因为棋输一着导致输掉棋局，这也是错误。但这并不是幻觉，而是能力差。

#深度学习 #大模型

A Unified Definition of Hallucination, Or： It's the World Model, Stupid

https://lijianxiong.space/2025/20251231/

作者

LJX

发布于

2025年12月31日

许可协议