Do Not Waste Your Rollouts： Recycling Search Experience for Efficient Test-Time Scaling

（arxiv 2026）

motivation

测试时扩展 (Test-Time Scaling, TTS)：近期大模型领域的一个重大转变是通过在推理（测试）阶段分配更多的计算资源，让模型进行大量的探索（采样/搜索），从而解决复杂的推理任务。

当前痛点：记忆缺失与计算浪费：现有的搜索策略（如并行采样、多数投票、序列优化等）通常将每次探索轨迹（Rollout）视为一次性消耗品 。一旦某次尝试结束，其中蕴含的中间见解（无论对错）就会被直接丢弃。这种系统性的“失忆”导致模型在大量尝试中，反复重新推导相同的结论，或一遍又一遍地走进同样的死胡同，造成了极大的计算资源浪费。

方法

假设输入问题为 $x$，大语言模型策略为 $\pi$，总共进行 $R$ 轮搜索，第 $r$ 轮的并行采样数为（批大小）$K_r$ 。系统会维护一个全局的经验库（Experience Bank），其中包含正向经验集合和负向经验集合，初始状态为空：

$$\mathcal{E}_0^{pos} \leftarrow \emptyset, \quad \mathcal{E}_0^{neg} \leftarrow \emptyset$$

第一步：批量经验引导搜索 (Batched Experience-Guided Search)

传统的并行采样各条轨迹之间互相孤立。RSE 通过在每轮开始前，将上一轮积累的全局经验库状态序列化并注入到提示词（Prompt）中，使得新一轮的所有探索都能“站在前人的肩膀上” 。

在第 $r$ 轮中，模型首先基于问题 $x$ 和上一轮的经验库生成新的提示词 $u_r$ ：

$$u_r \leftarrow \text{Prompt}(x, (\mathcal{E}{r-1}^{pos}, \mathcal{E}{r-1}^{neg}))$$

随后，模型根据该提示词并行采样出 $K_r$ 条推理轨迹，构成集合 $\Omega_r$ ：

$$\Omega_r \leftarrow {\omega_r^{(i)} \sim \pi(\cdot|u_r)}_{i=1}^{K_r}$$

这种批量同步的设计既保留了同批次采样的探索多样性，又实现了跨轮次的信息复用。

第二步：自我引导的经验提炼 (Self-Guided Experience Distillation)

直接将之前所有的长文本推理轨迹拼接到上下文里是不现实的（会导致上下文溢出且信噪比低）。因此，RSE 利用模型自身的自我评估能力，在不需要外部奖励模型的情况下进行“蒸馏” 。

对于当前批次生成的每一条轨迹 $\omega \in \Omega_r$，模型会执行一次轻量级的提取操作：

$$(\delta^{pos}, \delta^{neg}) \leftarrow \text{Distill}(x, \omega)$$

其中提炼出两类结构化的离散经验：

正向经验 (Positive Experience, $\delta^{pos}$)：经过验证的命题、引理或中间结论，作为后续批次的“真相锚点” 。

负向经验 (Negative Experience, $\delta^{neg}$)：关键的逻辑陷阱或战略死胡同，作为修剪搜索空间的“负面约束” 。

提取出的经验会被汇总到当前轮次的候选集合 $\Delta_r^{pos}$ 和 $\Delta_r^{neg}$ 中。

第三步：语义经验去重 (Semantic Experience Deduplication)

并行生成的轨迹往往具有高度相似性，如果把同一批次内反复发现的简单步骤或常见错误全塞进经验库，会导致上下文爆炸，并挤占高价值信息。

因此，RSE 引入了基于相似度阈值的增量贪婪去重机制。对于每一条新提炼的候选经验 $\delta \in \Delta_r^{type}$（其中 $type \in {pos, neg}$），系统会计算它与当前经验库 $\mathcal{E}^{type}$ 中所有已存经验的最大相似度。

只有当该经验足够“独特”，即最大相似度低于预设的相似度阈值 $\tau$ 时：

$$\max_{e \in \mathcal{E}^{type}} \text{Sim}(\delta, e) < \tau$$

系统才会将该经验加入到更新后的经验库中：

$$\mathcal{E}_r^{type} \leftarrow \mathcal{E}_r^{type} \cup {\delta}$$

这一机制有效过滤了当前批次内以及历史轮次中的重复内容，在有限的上下文窗口内维持了极高的信息密度。

循环迭代： 上述提取、去重并更新后的经验库 $\mathcal{E}_r^{type}$ 将再次作为下一次迭代（第 $r+1$ 轮）的输入上下文，直至 $R$ 轮搜索预算耗尽。通过这种闭环，RSE 将原本孤立的测试时扩展转化为了一种目标导向的、累积性的智能搜索过程。

#深度学习 #大模型

Do Not Waste Your Rollouts： Recycling Search Experience for Efficient Test-Time Scaling

https://lijianxiong.space/2026/20260423/

作者

LJX

发布于

2026年4月23日

许可协议

2026年-腾讯游戏-第十一届游戏安全技术竞赛-比赛笔记上一篇

SPECULATIVE RAG： ENHANCING RETRIEVAL AUGMENTED GENERATION THROUGH DRAFTING 下一篇