REACT:SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

(ICLR 2023)

姚顺雨腾讯实习之作。


交错执行: 模型生成的轨迹由 Thought(想法)、Action(行动)和 Observation(观察结果)组成的循环步骤构成 。

推理的作用: 分解目标、提取关键信息、通过常识推理填补缺失、跟踪进度、处理异常情况 。

稀疏与密集推理:

  • 在主要依赖推理的任务(如 QA)中,推理步骤是密集的(每一步行动前都有思考)。
  • 在决策任务(如游戏)中,推理可以根据需要稀疏地出现 。

代码简单示例:


REACT:SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
https://lijianxiong.space/2026/20260208-1/
作者
LJX
发布于
2026年2月8日
许可协议