Do Not Waste Your Rollouts: Recycling Search Experience for Efficient Test-Time Scaling
(arxiv 2026)
motivation
测试时扩展 (Test-Time Scaling, TTS):近期大模型领域的一个重大转变是通过在推理(测试)阶段分配更多的计算资源,让模型进行大量的探索(采样/搜索),从而解决复杂的推理任务 。
当前痛点:记忆缺失与计算浪费:现有的搜索策略(如并行采样、多数投票、序列优化等)通常将每次探索轨迹(Rollout)视为一次性消耗品 。一旦某次尝试结束,其中蕴含的中间见解(无论对错)就会被直接丢弃 。这种系统性的“失忆”导致模型在大量尝试中,反复重新推导相同的结论,或一遍又一遍地走进同样的死胡同,造成了极大的计算资源浪费 。
方法
假设输入问题为 $x$,大语言模型策略为 $\pi$,总共进行 $R$ 轮搜索,第 $r$ 轮的并行采样数为(批大小)$K_r$ 。 系统会维护一个全局的经验库(Experience Bank),其中包含正向经验集合和负向经验集合,初始状态为空 :
$$\mathcal{E}_0^{pos} \leftarrow \emptyset, \quad \mathcal{E}_0^{neg} \leftarrow \emptyset$$
第一步:批量经验引导搜索 (Batched Experience-Guided Search)
传统的并行采样各条轨迹之间互相孤立 。RSE 通过在每轮开始前,将上一轮积累的全局经验库状态序列化并注入到提示词(Prompt)中,使得新一轮的所有探索都能“站在前人的肩膀上” 。
在第 $r$ 轮中,模型首先基于问题 $x$ 和上一轮的经验库生成新的提示词 $u_r$ :
$$u_r \leftarrow \text{Prompt}(x, (\mathcal{E}{r-1}^{pos}, \mathcal{E}{r-1}^{neg}))$$
随后,模型根据该提示词并行采样出 $K_r$ 条推理轨迹,构成集合 $\Omega_r$ :
$$\Omega_r \leftarrow {\omega_r^{(i)} \sim \pi(\cdot|u_r)}_{i=1}^{K_r}$$
这种批量同步的设计既保留了同批次采样的探索多样性,又实现了跨轮次的信息复用 。
第二步:自我引导的经验提炼 (Self-Guided Experience Distillation)
直接将之前所有的长文本推理轨迹拼接到上下文里是不现实的(会导致上下文溢出且信噪比低) 。因此,RSE 利用模型自身的自我评估能力,在不需要外部奖励模型的情况下进行“蒸馏” 。
对于当前批次生成的每一条轨迹 $\omega \in \Omega_r$,模型会执行一次轻量级的提取操作 :
$$(\delta^{pos}, \delta^{neg}) \leftarrow \text{Distill}(x, \omega)$$
其中提炼出两类结构化的离散经验 :
1.
正向经验 (Positive Experience, $\delta^{pos}$):经过验证的命题、引理或中间结论,作为后续批次的“真相锚点” 。
2.
负向经验 (Negative Experience, $\delta^{neg}$):关键的逻辑陷阱或战略死胡同,作为修剪搜索空间的“负面约束” 。
提取出的经验会被汇总到当前轮次的候选集合 $\Delta_r^{pos}$ 和 $\Delta_r^{neg}$ 中 。
第三步:语义经验去重 (Semantic Experience Deduplication)
并行生成的轨迹往往具有高度相似性,如果把同一批次内反复发现的简单步骤或常见错误全塞进经验库,会导致上下文爆炸,并挤占高价值信息 。
因此,RSE 引入了基于相似度阈值的增量贪婪去重机制 。对于每一条新提炼的候选经验 $\delta \in \Delta_r^{type}$(其中 $type \in {pos, neg}$),系统会计算它与当前经验库 $\mathcal{E}^{type}$ 中所有已存经验的最大相似度 。
只有当该经验足够“独特”,即最大相似度低于预设的相似度阈值 $\tau$ 时 :
$$\max_{e \in \mathcal{E}^{type}} \text{Sim}(\delta, e) < \tau$$
系统才会将该经验加入到更新后的经验库中 :
$$\mathcal{E}_r^{type} \leftarrow \mathcal{E}_r^{type} \cup {\delta}$$
这一机制有效过滤了当前批次内以及历史轮次中的重复内容,在有限的上下文窗口内维持了极高的信息密度 。
循环迭代: 上述提取、去重并更新后的经验库 $\mathcal{E}_r^{type}$ 将再次作为下一次迭代(第 $r+1$ 轮)的输入上下文,直至 $R$ 轮搜索预算耗尽 。通过这种闭环,RSE 将原本孤立的测试时扩展转化为了一种目标导向的、累积性的智能搜索过程 。