REACT:SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
(ICLR 2023)
姚顺雨腾讯实习之作。

交错执行: 模型生成的轨迹由 Thought(想法)、Action(行动)和 Observation(观察结果)组成的循环步骤构成 。
推理的作用: 分解目标、提取关键信息、通过常识推理填补缺失、跟踪进度、处理异常情况 。
稀疏与密集推理:
- 在主要依赖推理的任务(如 QA)中,推理步骤是密集的(每一步行动前都有思考)。
- 在决策任务(如游戏)中,推理可以根据需要稀疏地出现 。
代码简单示例:
REACT:SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
https://lijianxiong.space/2026/20260208-1/