R³L：反思-重试强化学习——语言引导探索、关键点信用分配与正向放大

论文：R³L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification
作者：Weijie Shi, Yanxi Chen, Zexi Li, Xuchen Pan, Yuchang Sun, Jiajie Xu, Xiaofang Zhou, Yaliang Li
机构：阿里巴巴集团、苏州大学、香港科技大学
发布时间：2026年1月
🔗 arXiv | 代码
分类标签：GRPO 改进 LLM RL 训练 信用分配 语言引导探索

一句话总结

针对 GRPO 在难任务上探索效率低、信用分配粗糙、失败样本主导导致训练不稳定三大痛点，提出反思-重试（语言反馈引导合成成功轨迹）+ 关键点信用分配（只更新分歧后缀）+ 正向放大（放大正优势梯度）三位一体方案，在 Agentic 和数学推理任务上相对 GRPO 提升 5%–52%。

一、问题与动机

1.1 当前 RL 训练 LLM 的三大瓶颈

以 GRPO 为代表的 LLM RL 方法在 DeepSeek-R1、DeepSeekMath 等系统中已展现出强大推理能力，但当任务扩展到复杂多步 Agentic 环境（稀疏奖励）时，暴露出三个结构性瓶颈：

C1: 随机采样的探索效率极低

在困难任务上，随机采样产生的轨迹绝大多数都是失败的，正信号极度稀缺。当一个 group 内所有样本都失败时，优势全部为零，梯度为空（null gradient problem）。更糟糕的是，标量奖励只告诉模型"对了还是错了"，却不提供"为什么错、怎么改"的可操作信息——尽管环境中往往存在丰富的自然语言反馈（错误信息、执行跟踪、观测描述），GRPO 完全无法利用。

C2: 轨迹级信用分配惩罚有效前缀

标准 GRPO 对整条轨迹中的所有 token 施加相同的奖励信号。如果一条轨迹的前 90% 推理完全正确，但最后一步出错导致失败，那么前 90% 的正确推理也会被一起压制。这给梯度估计引入了大量噪声。

C3: 失败样本主导导致梯度不对称和熵崩塌

在难任务中，失败轨迹远多于成功轨迹。GRPO 的组内归一化会稀释少数成功样本的正信号。失败轨迹提供的梯度是"破坏性"的（suppress 错误 token），成功轨迹提供的梯度是"建设性"的（reinforce 正确 token）。当破坏性信号压倒建设性信号时，被压制的概率质量没有足够的正吸引子来引导，散布到整个词表上，导致策略熵不降反升——论文称之为熵崩塌（entropy collapse）。

1.2 R³L 的解题思路

R³L 用三个互补的机制分别对应上述三个瓶颈：

瓶颈	解决方案
C1: 探索效率低	S1: Reflect-then-Retry — 利用语言反馈诊断错误、从失败点重启，主动合成成功轨迹
C2: 有效前缀被惩罚	S2: Pivotal Credit Assignment — 屏蔽共享前缀，只在分歧后缀上计算梯度
C3: 失败主导致熵崩塌	S3: Positive Amplification — 放大正优势轨迹的权重，确保建设性梯度主导优化

二、预备知识

2.1 问题形式化

将 agent 与环境的交互建模为多轮决策过程。一条轨迹 $τ$ 由 $K$ 轮组成，每轮包含环境观测 $x_{k}$ 和 agent 回复 $y_{k}$ ：

τ = (x_{1}, y_{1}, x_{2}, y_{2}, \dots, x_{K}, y_{K})

RL 目标是最大化期望奖励：

J (θ) = E_{τ \sim π_{θ}} [R (τ)]

2.2 GRPO 回顾

GRPO 通过组内奖励归一化估计优势，无需学习 critic。对每个 query，采样 $N$ 条轨迹 $G = {τ_{1}, \dots, τ_{N}}$ ，第 $i$ 条轨迹的优势为：

A (τ_{i}) = \frac{R (τ_{i}) - \bar{R}}{σ_{R}}

其中 $\bar{R}$ 和 $σ_{R}$ 为组内奖励的均值和标准差。策略更新使用重要性采样 + 裁剪：

L_{i, k, t} = min (r_{i, k, t} {\hat{A}}_{i, k, t}, clip (r_{i, k, t}, 1 - ϵ, 1 + ϵ) {\hat{A}}_{i, k, t})

其中 $r_{i, k, t} = \frac{π_{θ} (y_{k}^{t} | h_{k}, y_{k}^{< t})}{π_{θ_{old}} (y_{k}^{t} | h_{k}, y_{k}^{< t})}$ 是重要性采样比率。

直觉理解：GRPO 的核心思想是"在一组回答中，把好的往上推、差的往下压"。但这个简单机制在难任务上失效——因为一组里可能全是"差的"，没有"好的"可推。

三、核心方法

3.1 语言引导的反思-重试（Reflect-then-Retry）

核心思想：不靠随机撞大运，而是主动利用语言反馈把失败轨迹"修"成成功轨迹。

R³L 构建四类训练数据：

（1）基础轨迹 $D_{base}$

为保持与标准 RL 方法的公平比较，将一半采样预算分配给标准探索。给定 query $x$ ，从行为策略 $π_{θ_{old}}$ 采样 $N / 2$ 条基础轨迹：

D_{base} = {τ_{i}}_{i = 1}^{N / 2}, τ_{i} \sim π_{θ_{old}} (\cdot | x)

（2）蒸馏轨迹 $D_{distill}$

对每条基础轨迹，模型执行结构化反思，生成包含以下内容的诊断报告：

结果分类：成功 / 成功但低效 / 失败
根因分析：通过迭代式"为什么"追问定位根本原因
改进建议
关键转折点 $k_{pivot}$ ：问题首次出现的回合

对于非完全成功的轨迹，将诊断嵌入 guidance prompt，从 $k_{pivot}$ 处重启生成，得到修正后缀 $τ_{i, \geq k_{pivot}}^{'}$ 。

关键设计——上下文蒸馏：训练时将原始前缀与修正后缀拼接，刻意移除 guidance：

D_{distill} = {(τ_{i, < k_{pivot}}, τ_{i, \geq k_{pivot}}^{'})}_{i = 1}^{N / 2}

用大白话说：生成时给模型"抄答案的提示"，但训练时把提示删掉，强迫模型自己学会"不看提示也能做对"。这就是上下文蒸馏——推理时无需任何额外 guidance。

（3）反思元任务 $D_{reflect}$ 与重试元任务 $D_{retry}$

反思和重试是需要显式监督来维持的可学习技能。从重试奖励高于基础轨迹的实例中构建两个辅助 SFT 数据集：

D_{reflect} = {([τ_{i}, f_{i}], r_{i})}

D_{retry} = {(τ_{i, < k_{pivot}} \oplus g_{i}, τ_{i, \geq k_{pivot}}^{'})}

其中 $f_{i}$ 是环境反馈， $r_{i}$ 是反思诊断， $g_{i}$ 是 guidance， $\oplus$ 表示拼接。

训练分组： $D_{base}$ 和 $D_{distill}$ 组成探索组 $G_{explore}$ 用于 RL 优化； $D_{reflect}$ 和 $D_{retry}$ 作为辅助 SFT 目标，在整个训练过程中维持反思和重试能力。

3.2 关键点信用分配（Pivotal Credit Assignment）

问题：标准 GRPO 对所有 token 施加相同奖励信号。一条轨迹如果前 10 步正确、第 11 步出错导致失败，前 10 步也会被不公正地压制。

解法：利用基础轨迹和蒸馏轨迹的对比结构——它们共享同一前缀直到 $k_{pivot}$ ，只在后缀处分歧。既然前缀完全相同，它不包含任何关于"哪条路更好"的信息，应当从梯度更新中排除。

定义关键点掩码：

{mask}_{k}^{t} = {\begin{cases} 0 & if k < k_{pivot} \\ 1 & otherwise \end{cases}

$k_{pivot}$ 之前的所有 token 梯度权重为零，优化聚焦于分歧后缀——一条成功、一条失败的对比信号最清晰的区域。

用大白话说：就像改作文，前半段写得都一样好，只是结尾不同——一个拿了高分，一个跑题了。那应该只对比结尾部分来学习，不应该把前半段也一起评判。

方差缩减效果：设总轨迹长度为 $T$ ，关键点位置为 $T_{pivot}$ ，梯度方差缩减比为：

\frac{Var (\nabla_{R³L})}{Var (\nabla_{GRPO})} \leq \frac{T - T_{pivot}}{T}

随着训练进行，模型越来越强，错误出现得越晚， $T_{pivot}$ 右移，方差缩减效果自增强。

3.3 正向放大（Positive Amplification）

问题：在难任务中，即使经过 reflect-retry，失败轨迹仍可能远多于成功轨迹。GRPO 的组内归一化会稀释正信号，加上 retry 产生的 off-policy 数据带来分布偏移，训练极不稳定。

解法：用一个放大因子 $α > 1$ 对正优势轨迹的权重进行不对称放大：

\hat{A} (τ) = {\begin{cases} α & if R (τ) = R_{max} \\ α \cdot A (τ) & if A (τ) > 0 \\ A (τ) & otherwise \end{cases}

组内最高奖励的轨迹：直接获得完整放大因子 $α$ （保证每组至少有一个强正信号）
其他正优势轨迹：按比例放大
负优势轨迹：保持不变

梯度主导条件：为使建设性梯度主导破坏性梯度， $α$ 需满足：

α > α_{min} = \frac{(1 - p) | {\bar{A}}^{-} |}{p \cdot {\bar{A}}^{+}}

其中 $p$ 为正优势轨迹比例。实践中 $p \in [0.25, 0.45]$ ， $| {\bar{A}}^{-} | / {\bar{A}}^{+} \in [1.0, 2.0]$ ， $α_{min} \in [1.2, 3.0]$ ，因此 $α = 3.0$ 覆盖了绝大多数实际场景。

3.4 最终目标函数

将关键点掩码与放大优势结合，R³L 的完整目标为：

L_{R³L} = - E_{τ \sim G_{explore}} [\frac{1}{| τ |} \sum_{k = 1}^{K} \sum_{t = 1}^{T_{k}} {mask}_{k}^{t} \cdot \hat{A} (τ) \log π_{θ} (y_{k}^{t} | h_{k}, y_{k}^{< t})] + L_{SFT} (D_{reflect} \cup D_{retry})

与标准 GRPO 的关键差异：R³L 移除了重要性采样和 KL 约束。原因是：

重要性采样对 guidance 条件下生成的 retry 轨迹不可靠（行为分布与当前策略差异太大）
KL 约束不再必要，因为正向放大已经防止了策略漂移到高熵区域

3.5 算法流程概览

R³L 训练算法
语言引导探索：采样 $N / 2$ 条基础轨迹；对每条轨迹，生成结构化反思，解析出关键转折点 $k_{pivot}$ 和 guidance $g_{i}$ ；从 $k_{pivot}$ 处条件于 $g_{i}$ 重启生成得到修正后缀；上下文蒸馏——将原始前缀与修正后缀拼接，移除 $g_{i}$
关键点信用分配：为每对基础/蒸馏轨迹构建二值掩码（ $k_{pivot}$ 之前为 0，之后为 1），加入探索组 $G_{explore}$
正向放大：计算组内奖励统计量，对正优势轨迹按 $α$ 放大
策略更新：在 $L_{RL}$ 和 $L_{SFT}$ 上联合梯度下降

四、实验结果

4.1 实验设置

模型：Qwen2.5-1.5B-Instruct、Llama-3.2-3B-Instruct、Qwen2.5-7B-Instruct

Agentic 任务：ALFWorld（具身决策，25 步限制）、WebShop（网页导航，15 步限制）、ScienceWorld（科学推理，30 步限制）

数学推理：在 DAPO 训练集上训练，评估 GSM8K、Math500、MinervaMath、OlympiadBench、AMC23、DAPO 测试集

基线：RAFT、OPMD、GRPO、GSPO、Reflect-GRPO、Critique-GRPO

4.2 主要结果

Qwen2.5-1.5B-Instruct 结果（Average Reward）：

方法	ALFWorld	WebShop	ScienceWorld	GSM8K	Math500	Olympiad
GRPO	0.720	0.614	0.366	0.474	0.368	0.114
GSPO	0.857	0.566	0.200	0.518	0.196	0.087
Reflect-GRPO	0.878	0.559	0.347	0.672	0.376	0.130
Critique-GRPO	0.914	0.613	0.314	0.798	0.404	0.124
R³L	0.928	0.663	0.385	0.721	0.424	0.151

Qwen2.5-7B-Instruct 结果（Average Reward）：

方法	ALFWorld	WebShop	ScienceWorld	GSM8K	Math500	Olympiad
GRPO	0.933	0.709	0.378	0.846	0.572	0.277
Critique-GRPO	0.921	0.714	0.388	0.678	0.522	0.170
R³L	0.948	0.757	0.403	0.897	0.658	0.301

关键观察：

R³L 在 27 个设置中的 26 个达到最佳或次佳。唯一例外是 1.5B 模型上的 GSM8K，Critique-GRPO 领先（0.798 vs 0.721），原因是 GSM8K 足够简单，随机采样已能产生足够成功轨迹
增益在 WebShop 和 ScienceWorld 上最显著（7B 模型分别达 +6.8% 和 +3.9%），这些长时域稀疏奖励任务正是 R³L 三个机制发力最大的场景
7B 模型上，R³L 在 GSM8K 达 0.897（Critique-GRPO 仅 0.678），数学推理上的优势随模型规模扩大而增强

4.3 消融实验

在 Qwen2.5-1.5B-Instruct 上的消融（移除各组件相对于完整 R³L 的性能变化）：

方法	ALFWorld	WebShop	GSM8K	Math500
R³L (Full)	0.928	0.663	0.721	0.424
w/o Positive	0.881	0.646	0.685	0.391
w/o Credit	0.914	0.649	0.706	0.410
w/o Reflect	0.894	0.628	0.562	0.389
GRPO (Baseline)	0.720	0.614	0.474	0.368

移除 Reflect-then-Retry 损失最大：GSM8K 从 0.721 降到 0.562（-22%），验证了主动轨迹合成的必要性
移除 Positive Amplification：所有基准一致下降，验证了失败主导场景下放大正信号的重要性
移除 Pivotal Credit：影响最小但一致存在，在长时域任务（ALFWorld）中更明显

4.4 反思机制的有效性

关键指标——重试改进率（retry 轨迹奖励高于基础轨迹的比例）：

模型	ALFWorld	WebShop	ScienceWorld	DAPO
Qwen2.5-1.5B	64.7%	23.7%	13.5%	16.4%
Llama-3.2-3B	12.8%	31.6%	9.2%	10.3%
Qwen2.5-7B	73.9%	36.5%	19.6%	27.1%

7B 模型改进率最高，说明更强的基础能力有利于反思质量
ALFWorld 改进率远高于其他任务，因为其失败通常源于离散动作错误，易于诊断和修正
改进率在训练过程中持续存在（不会随策略改善而消失），得益于辅助 SFT 任务维持了反思技能

4.5 训练稳定性

在 ALFWorld 上的训练动态对比：

GRPO：Reference KL 在 200 步后爆炸到 10+，梯度范数在 190 步出现 400+ 的 spike，策略在 ~0.4 处过早停滞
R³L：KL 始终平稳，梯度范数光滑，最终收敛到 ~0.9 的高性能
R³L 存在冷启动阶段（~120 步），模型需要学会生成结构化反思；之后出现快速相变，学习曲线陡峭上升

4.6 同步频率鲁棒性

R³L 在不同行为策略同步间隔 $S \in {1, 5, 10, 20}$ 下始终稳定：ALFWorld 在所有 $S$ 下保持 0.920+，而 OPMD 在 $S = 10$ 时崩塌到 0.257，标准 GRPO 也在 $S = 10$ 时降到 0.389。

五、局限性与未来方向

额外推理开销：反思步骤需要一次额外的推理前向。不过 pivot 机制通过从失败点重启（而非从头重来）部分补偿了这一成本
小模型冷启动：1.5B 模型初期难以生成有效的自我纠正，需要较长的 warm-up 期；7B 模型则几乎可以立即利用反思提示
验证限制：实验范围限于有可验证 ground truth 的任务，在创意写作等开放域中 retry 验证的可靠性仍是开放问题

六、个人思考

反思-重试与 VLA RL 领域的联系

R³L 的 Reflect-then-Retry 思想与 VLA RL 后训练领域中的多种"从失败中学习"方法有天然联系：

与 SRPO（自参照策略优化）的关系：两者都试图利用失败轨迹中的有用信息。SRPO 用成功轨迹作为锚点为失败轨迹提供 progress-wise 奖励；R³L 更进一步，直接把失败轨迹"修复"为成功轨迹
与 PLD（残差 RL 蒸馏）的关系：PLD 用残差 RL 专家探索失败区域、混合轨迹蒸馏回主策略；R³L 的 reflect-retry 可视为一种更轻量的"失败区域探索"替代方案

关键创新点的评价

上下文蒸馏是最精巧的设计：生成时用 guidance "作弊"，训练时去掉 guidance 强迫模型内化修正模式。这种"推理时不依赖训练时的辅助信息"的思路在 knowledge distillation 领域有深厚根基
Pivotal Credit Assignment 的方差缩减具有自增强特性：模型越强 → 错误越晚 → pivot 越靠后 → 掩码区域越大 → 方差缩减越多。这是一个优雅的正反馈循环
正向放大的设计哲学值得关注——它本质上是说：与其花力气精确做重要性采样校正 off-policy 数据，不如直接放大 on-policy 的正信号来淹没噪声。这种"简单粗暴但有效"的策略在工程上很有吸引力

潜在局限

反思质量高度依赖模型的元认知能力。在 1.5B 模型上 ScienceWorld 的重试改进率仅 13.5%，说明小模型的"反思"可能不太靠谱
R³L 移除了重要性采样和 KL 约束，虽然论文证明在当前设置下稳定，但这是否在更长训练 horizon 或更大模型上仍然成立值得追踪

参考

GRPO（Shao et al., 2024）：R³L 的基线算法，组相对策略优化
Critique-GRPO（Zhang et al., 2025）：用自然语言 critique 引导 refinement，与 R³L 最直接的对比方法
DAPO（Yu et al., 2025）：提供数学推理训练集和过采样-过滤策略
DeepSeek-R1（Guo et al., 2025）：展示 RL 在 LLM 推理中的潜力
VinePPO（Kazemnejad et al., 2024）：通过 Monte Carlo rollout 估计步级信用，与 Pivotal Credit 目标相似但机制不同
BAPO（Xi et al., 2025）：通过自适应裁剪缓解负样本主导问题，与 Positive Amplification 目标相似

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

R³L：反思-重试强化学习——语言引导探索、关键点信用分配与正向放大 ​

一句话总结 ​

一、问题与动机 ​

1.1 当前 RL 训练 LLM 的三大瓶颈 ​

1.2 R³L 的解题思路 ​

二、预备知识 ​

2.1 问题形式化 ​

2.2 GRPO 回顾 ​

三、核心方法 ​

3.1 语言引导的反思-重试（Reflect-then-Retry） ​

3.2 关键点信用分配（Pivotal Credit Assignment） ​

3.3 正向放大（Positive Amplification） ​

3.4 最终目标函数 ​

3.5 算法流程概览 ​

四、实验结果 ​

4.1 实验设置 ​

4.2 主要结果 ​

4.3 消融实验 ​

4.4 反思机制的有效性 ​

4.5 训练稳定性 ​

4.6 同步频率鲁棒性 ​

五、局限性与未来方向 ​

六、个人思考 ​

反思-重试与 VLA RL 领域的联系 ​

关键创新点的评价 ​

潜在局限 ​

参考 ​