Skip to content

R³L:反思-重试强化学习——语言引导探索、关键点信用分配与正向放大

论文R³L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification

作者:Weijie Shi, Yanxi Chen, Zexi Li, Xuchen Pan, Yuchang Sun, Jiajie Xu, Xiaofang Zhou, Yaliang Li

机构:阿里巴巴集团、苏州大学、香港科技大学

发布时间:2026年1月

🔗 arXiv | 代码

分类标签GRPO 改进 LLM RL 训练 信用分配 语言引导探索


一句话总结

针对 GRPO 在难任务上探索效率低、信用分配粗糙、失败样本主导导致训练不稳定三大痛点,提出反思-重试(语言反馈引导合成成功轨迹)+ 关键点信用分配(只更新分歧后缀)+ 正向放大(放大正优势梯度)三位一体方案,在 Agentic 和数学推理任务上相对 GRPO 提升 5%–52%。


一、问题与动机

1.1 当前 RL 训练 LLM 的三大瓶颈

以 GRPO 为代表的 LLM RL 方法在 DeepSeek-R1、DeepSeekMath 等系统中已展现出强大推理能力,但当任务扩展到复杂多步 Agentic 环境(稀疏奖励)时,暴露出三个结构性瓶颈:

C1: 随机采样的探索效率极低

在困难任务上,随机采样产生的轨迹绝大多数都是失败的,正信号极度稀缺。当一个 group 内所有样本都失败时,优势全部为零,梯度为空(null gradient problem)。更糟糕的是,标量奖励只告诉模型"对了还是错了",却不提供"为什么错、怎么改"的可操作信息——尽管环境中往往存在丰富的自然语言反馈(错误信息、执行跟踪、观测描述),GRPO 完全无法利用。

C2: 轨迹级信用分配惩罚有效前缀

标准 GRPO 对整条轨迹中的所有 token 施加相同的奖励信号。如果一条轨迹的前 90% 推理完全正确,但最后一步出错导致失败,那么前 90% 的正确推理也会被一起压制。这给梯度估计引入了大量噪声。

C3: 失败样本主导导致梯度不对称和熵崩塌

在难任务中,失败轨迹远多于成功轨迹。GRPO 的组内归一化会稀释少数成功样本的正信号。失败轨迹提供的梯度是"破坏性"的(suppress 错误 token),成功轨迹提供的梯度是"建设性"的(reinforce 正确 token)。当破坏性信号压倒建设性信号时,被压制的概率质量没有足够的正吸引子来引导,散布到整个词表上,导致策略熵不降反升——论文称之为熵崩塌(entropy collapse)

1.2 R³L 的解题思路

R³L 用三个互补的机制分别对应上述三个瓶颈:

瓶颈解决方案
C1: 探索效率低S1: Reflect-then-Retry — 利用语言反馈诊断错误、从失败点重启,主动合成成功轨迹
C2: 有效前缀被惩罚S2: Pivotal Credit Assignment — 屏蔽共享前缀,只在分歧后缀上计算梯度
C3: 失败主导致熵崩塌S3: Positive Amplification — 放大正优势轨迹的权重,确保建设性梯度主导优化

二、预备知识

2.1 问题形式化

将 agent 与环境的交互建模为多轮决策过程。一条轨迹 τK 轮组成,每轮包含环境观测 xk 和 agent 回复 yk

τ=(x1,y1,x2,y2,,xK,yK)

RL 目标是最大化期望奖励:

J(θ)=Eτπθ[R(τ)]

2.2 GRPO 回顾

GRPO 通过组内奖励归一化估计优势,无需学习 critic。对每个 query,采样 N 条轨迹 G={τ1,,τN},第 i 条轨迹的优势为:

A(τi)=R(τi)R¯σR

其中 R¯σR 为组内奖励的均值和标准差。策略更新使用重要性采样 + 裁剪:

Li,k,t=min(ri,k,tA^i,k,t, clip(ri,k,t,1ϵ,1+ϵ)A^i,k,t)

其中 ri,k,t=πθ(ykt|hk,yk<t)πθold(ykt|hk,yk<t) 是重要性采样比率。

直觉理解:GRPO 的核心思想是"在一组回答中,把好的往上推、差的往下压"。但这个简单机制在难任务上失效——因为一组里可能全是"差的",没有"好的"可推。


三、核心方法

3.1 语言引导的反思-重试(Reflect-then-Retry)

核心思想:不靠随机撞大运,而是主动利用语言反馈把失败轨迹"修"成成功轨迹。

R³L 构建四类训练数据:

(1)基础轨迹 Dbase

为保持与标准 RL 方法的公平比较,将一半采样预算分配给标准探索。给定 query x,从行为策略 πθold 采样 N/2 条基础轨迹:

Dbase={τi}i=1N/2,τiπθold(|x)

(2)蒸馏轨迹 Ddistill

对每条基础轨迹,模型执行结构化反思,生成包含以下内容的诊断报告:

  • 结果分类:成功 / 成功但低效 / 失败
  • 根因分析:通过迭代式"为什么"追问定位根本原因
  • 改进建议
  • 关键转折点 kpivot:问题首次出现的回合

对于非完全成功的轨迹,将诊断嵌入 guidance prompt,从 kpivot 处重启生成,得到修正后缀 τi,kpivot

关键设计——上下文蒸馏:训练时将原始前缀与修正后缀拼接,刻意移除 guidance

Ddistill={(τi,<kpivot, τi,kpivot)}i=1N/2

用大白话说:生成时给模型"抄答案的提示",但训练时把提示删掉,强迫模型自己学会"不看提示也能做对"。这就是上下文蒸馏——推理时无需任何额外 guidance。

(3)反思元任务 Dreflect 与重试元任务 Dretry

反思和重试是需要显式监督来维持的可学习技能。从重试奖励高于基础轨迹的实例中构建两个辅助 SFT 数据集:

Dreflect={([τi,fi], ri)}Dretry={(τi,<kpivotgi, τi,kpivot)}

其中 fi 是环境反馈,ri 是反思诊断,gi 是 guidance, 表示拼接。

训练分组DbaseDdistill 组成探索组 Gexplore 用于 RL 优化;DreflectDretry 作为辅助 SFT 目标,在整个训练过程中维持反思和重试能力。

3.2 关键点信用分配(Pivotal Credit Assignment)

问题:标准 GRPO 对所有 token 施加相同奖励信号。一条轨迹如果前 10 步正确、第 11 步出错导致失败,前 10 步也会被不公正地压制。

解法:利用基础轨迹和蒸馏轨迹的对比结构——它们共享同一前缀直到 kpivot,只在后缀处分歧。既然前缀完全相同,它不包含任何关于"哪条路更好"的信息,应当从梯度更新中排除。

定义关键点掩码:

maskkt={0if k<kpivot1otherwise

kpivot 之前的所有 token 梯度权重为零,优化聚焦于分歧后缀——一条成功、一条失败的对比信号最清晰的区域。

用大白话说:就像改作文,前半段写得都一样好,只是结尾不同——一个拿了高分,一个跑题了。那应该只对比结尾部分来学习,不应该把前半段也一起评判。

方差缩减效果:设总轨迹长度为 T,关键点位置为 Tpivot,梯度方差缩减比为:

Var(R³L)Var(GRPO)TTpivotT

随着训练进行,模型越来越强,错误出现得越晚,Tpivot 右移,方差缩减效果自增强。

3.3 正向放大(Positive Amplification)

问题:在难任务中,即使经过 reflect-retry,失败轨迹仍可能远多于成功轨迹。GRPO 的组内归一化会稀释正信号,加上 retry 产生的 off-policy 数据带来分布偏移,训练极不稳定。

解法:用一个放大因子 α>1 对正优势轨迹的权重进行不对称放大:

A^(τ)={αif R(τ)=RmaxαA(τ)if A(τ)>0A(τ)otherwise
  • 组内最高奖励的轨迹:直接获得完整放大因子 α(保证每组至少有一个强正信号)
  • 其他正优势轨迹:按比例放大
  • 负优势轨迹:保持不变

梯度主导条件:为使建设性梯度主导破坏性梯度,α 需满足:

α>αmin=(1p)|A¯|pA¯+

其中 p 为正优势轨迹比例。实践中 p[0.25,0.45]|A¯|/A¯+[1.0,2.0]αmin[1.2,3.0],因此 α=3.0 覆盖了绝大多数实际场景。

3.4 最终目标函数

将关键点掩码与放大优势结合,R³L 的完整目标为:

LR³L=EτGexplore[1|τ|k=1Kt=1TkmaskktA^(τ)logπθ(ykt|hk,yk<t)]+LSFT(DreflectDretry)

与标准 GRPO 的关键差异:R³L 移除了重要性采样和 KL 约束。原因是:

  • 重要性采样对 guidance 条件下生成的 retry 轨迹不可靠(行为分布与当前策略差异太大)
  • KL 约束不再必要,因为正向放大已经防止了策略漂移到高熵区域

3.5 算法流程概览

R³L 训练算法

  1. 语言引导探索:采样 N/2 条基础轨迹;对每条轨迹,生成结构化反思,解析出关键转折点 kpivot 和 guidance gi;从 kpivot 处条件于 gi 重启生成得到修正后缀;上下文蒸馏——将原始前缀与修正后缀拼接,移除 gi
  2. 关键点信用分配:为每对基础/蒸馏轨迹构建二值掩码(kpivot 之前为 0,之后为 1),加入探索组 Gexplore
  3. 正向放大:计算组内奖励统计量,对正优势轨迹按 α 放大
  4. 策略更新:在 LRLLSFT 上联合梯度下降

四、实验结果

4.1 实验设置

模型:Qwen2.5-1.5B-Instruct、Llama-3.2-3B-Instruct、Qwen2.5-7B-Instruct

Agentic 任务:ALFWorld(具身决策,25 步限制)、WebShop(网页导航,15 步限制)、ScienceWorld(科学推理,30 步限制)

数学推理:在 DAPO 训练集上训练,评估 GSM8K、Math500、MinervaMath、OlympiadBench、AMC23、DAPO 测试集

基线:RAFT、OPMD、GRPO、GSPO、Reflect-GRPO、Critique-GRPO

4.2 主要结果

Qwen2.5-1.5B-Instruct 结果(Average Reward)

方法ALFWorldWebShopScienceWorldGSM8KMath500Olympiad
GRPO0.7200.6140.3660.4740.3680.114
GSPO0.8570.5660.2000.5180.1960.087
Reflect-GRPO0.8780.5590.3470.6720.3760.130
Critique-GRPO0.9140.6130.3140.7980.4040.124
R³L0.9280.6630.3850.7210.4240.151

Qwen2.5-7B-Instruct 结果(Average Reward)

方法ALFWorldWebShopScienceWorldGSM8KMath500Olympiad
GRPO0.9330.7090.3780.8460.5720.277
Critique-GRPO0.9210.7140.3880.6780.5220.170
R³L0.9480.7570.4030.8970.6580.301

关键观察:

  • R³L 在 27 个设置中的 26 个达到最佳或次佳。唯一例外是 1.5B 模型上的 GSM8K,Critique-GRPO 领先(0.798 vs 0.721),原因是 GSM8K 足够简单,随机采样已能产生足够成功轨迹
  • 增益在 WebShop 和 ScienceWorld 上最显著(7B 模型分别达 +6.8% 和 +3.9%),这些长时域稀疏奖励任务正是 R³L 三个机制发力最大的场景
  • 7B 模型上,R³L 在 GSM8K 达 0.897(Critique-GRPO 仅 0.678),数学推理上的优势随模型规模扩大而增强

4.3 消融实验

在 Qwen2.5-1.5B-Instruct 上的消融(移除各组件相对于完整 R³L 的性能变化):

方法ALFWorldWebShopGSM8KMath500
R³L (Full)0.9280.6630.7210.424
w/o Positive0.8810.6460.6850.391
w/o Credit0.9140.6490.7060.410
w/o Reflect0.8940.6280.5620.389
GRPO (Baseline)0.7200.6140.4740.368
  • 移除 Reflect-then-Retry 损失最大:GSM8K 从 0.721 降到 0.562(-22%),验证了主动轨迹合成的必要性
  • 移除 Positive Amplification:所有基准一致下降,验证了失败主导场景下放大正信号的重要性
  • 移除 Pivotal Credit:影响最小但一致存在,在长时域任务(ALFWorld)中更明显

4.4 反思机制的有效性

关键指标——重试改进率(retry 轨迹奖励高于基础轨迹的比例):

模型ALFWorldWebShopScienceWorldDAPO
Qwen2.5-1.5B64.7%23.7%13.5%16.4%
Llama-3.2-3B12.8%31.6%9.2%10.3%
Qwen2.5-7B73.9%36.5%19.6%27.1%
  • 7B 模型改进率最高,说明更强的基础能力有利于反思质量
  • ALFWorld 改进率远高于其他任务,因为其失败通常源于离散动作错误,易于诊断和修正
  • 改进率在训练过程中持续存在(不会随策略改善而消失),得益于辅助 SFT 任务维持了反思技能

4.5 训练稳定性

在 ALFWorld 上的训练动态对比:

  • GRPO:Reference KL 在 200 步后爆炸到 10+,梯度范数在 190 步出现 400+ 的 spike,策略在 ~0.4 处过早停滞
  • R³L:KL 始终平稳,梯度范数光滑,最终收敛到 ~0.9 的高性能
  • R³L 存在冷启动阶段(~120 步),模型需要学会生成结构化反思;之后出现快速相变,学习曲线陡峭上升

4.6 同步频率鲁棒性

R³L 在不同行为策略同步间隔 S{1,5,10,20} 下始终稳定:ALFWorld 在所有 S 下保持 0.920+,而 OPMD 在 S=10 时崩塌到 0.257,标准 GRPO 也在 S=10 时降到 0.389。


五、局限性与未来方向

  1. 额外推理开销:反思步骤需要一次额外的推理前向。不过 pivot 机制通过从失败点重启(而非从头重来)部分补偿了这一成本
  2. 小模型冷启动:1.5B 模型初期难以生成有效的自我纠正,需要较长的 warm-up 期;7B 模型则几乎可以立即利用反思提示
  3. 验证限制:实验范围限于有可验证 ground truth 的任务,在创意写作等开放域中 retry 验证的可靠性仍是开放问题

六、个人思考

反思-重试与 VLA RL 领域的联系

R³L 的 Reflect-then-Retry 思想与 VLA RL 后训练领域中的多种"从失败中学习"方法有天然联系:

  • SRPO(自参照策略优化)的关系:两者都试图利用失败轨迹中的有用信息。SRPO 用成功轨迹作为锚点为失败轨迹提供 progress-wise 奖励;R³L 更进一步,直接把失败轨迹"修复"为成功轨迹
  • PLD(残差 RL 蒸馏)的关系:PLD 用残差 RL 专家探索失败区域、混合轨迹蒸馏回主策略;R³L 的 reflect-retry 可视为一种更轻量的"失败区域探索"替代方案

关键创新点的评价

  1. 上下文蒸馏是最精巧的设计:生成时用 guidance "作弊",训练时去掉 guidance 强迫模型内化修正模式。这种"推理时不依赖训练时的辅助信息"的思路在 knowledge distillation 领域有深厚根基
  2. Pivotal Credit Assignment 的方差缩减具有自增强特性:模型越强 → 错误越晚 → pivot 越靠后 → 掩码区域越大 → 方差缩减越多。这是一个优雅的正反馈循环
  3. 正向放大的设计哲学值得关注——它本质上是说:与其花力气精确做重要性采样校正 off-policy 数据,不如直接放大 on-policy 的正信号来淹没噪声。这种"简单粗暴但有效"的策略在工程上很有吸引力

潜在局限

  • 反思质量高度依赖模型的元认知能力。在 1.5B 模型上 ScienceWorld 的重试改进率仅 13.5%,说明小模型的"反思"可能不太靠谱
  • R³L 移除了重要性采样和 KL 约束,虽然论文证明在当前设置下稳定,但这是否在更长训练 horizon 或更大模型上仍然成立值得追踪

参考

  • GRPO(Shao et al., 2024):R³L 的基线算法,组相对策略优化
  • Critique-GRPO(Zhang et al., 2025):用自然语言 critique 引导 refinement,与 R³L 最直接的对比方法
  • DAPO(Yu et al., 2025):提供数学推理训练集和过采样-过滤策略
  • DeepSeek-R1(Guo et al., 2025):展示 RL 在 LLM 推理中的潜力
  • VinePPO(Kazemnejad et al., 2024):通过 Monte Carlo rollout 估计步级信用,与 Pivotal Credit 目标相似但机制不同
  • BAPO(Xi et al., 2025):通过自适应裁剪缓解负样本主导问题,与 Positive Amplification 目标相似