SwiftSage： A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

NeurIPS 2023 (spotlight)

方法

在交互式环境（如 ScienceWorld）中，智能体在初始时刻 $t=0$ 会获得任务描述 $D$ 和初始环境状态。在每个时间步 $t$，智能体需要生成一个动作 $A_t$ 。随后，环境会返回四个维度的反馈：

SWIFT 模块代表 System 1，主要用于快速、直觉式的关联推理。

模型基础：使用参数量较小的编码器-解码器语言模型（作者选用 7.7 亿参数的 T5-large 模型）进行离线行为克隆（Behavior Cloning）训练。
长期历史状态表示：为了克服传统方法只能参考单步历史的缺陷，SWIFT 引入了滑动窗口机制，将过去 $K=10$ 个时间步的动作、观察和奖励作为输入上下文。其输入序列的数学化构建格式如下：

“Task: $D$; Time: $t-1$; Score: $S_{t-1}$; Action history: $[A_{t-i}(+R_{t-i})\rightarrow O_{t-i} \text{ | } i \text{ loops from } K \text{ to } 1]$; Current room: $E_{t-1}$; Inventory: $I_{t-1}$; Visited rooms: ${E_1^,…,E_{t-1}^}$”

其中，$R_t$ 表示在时间步 $t$ 获得的即时奖励，公式为 $R_t = S_t - S_{t-1}$ ，$E_t^*$ 代表在时刻 $t$ 所在的地点名称。

为了防止序列到序列（seq2seq）学习中的数据不平衡偏差，研究者对训练数据中的特定任务和动作进行了下采样（Down-sampling）。

SAGE 模块代表 System 2，专门处理需要泛化规划、子目标追踪和异常处理的复杂情况。该模块使用如 GPT-4 这样的大语言模型（LLM），并被设计为两个连续的提示（Prompting）阶段：

系统将任务描述、动作历史（$A_{<t}$ 和 $O_{<t}$）以及当前环境 $E_{t-1}$ 压缩后输入给 LLM ，并要求其在一次输出中回答五个关键问题：

由于 LLM 生成的宏观计划无法直接在环境中执行，这一阶段负责将计划转化为具体动作。

动作模板约束：向 LLM 展示环境中支持的动作类型及其规范格式（例如 POUR (X, Y): pour object X into container Y）。
生成动作缓冲区：结合过去 10 步的历史记录以及规划阶段输出的 Q1-Q5 答案，提示 LLM 将下一个子目标转化为一个动作序列，而不是单一动作。这个由 LLM 生成的动作缓冲区在数学上表示为 $B = {\hat{A}t, \hat{A}{t+1}, \dots}$ 。

SWIFTSAGE 使用一种启发式算法来动态控制两个模块的激活状态。系统在初始阶段默认使用高效的 SWIFT 模块，但当满足以下任意一个触发条件时，将立刻切换到 SAGE 模式：

一旦切换至 SAGE 模块，系统会生成动作缓冲区 $B$ 并按顺序尝试执行其中的动作。当缓冲区被清空（即 $B = \emptyset$）或缓冲区内动作导致连续失败时，智能体会再次切换回快速的 SWIFT 模块。

#深度学习 #大模型

SwiftSage： A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

https://lijianxiong.space/2026/20260425/

作者

LJX

发布于

2026年4月25日

许可协议