Skip to content

TGRPO——轨迹级组相对策略优化微调 VLA

论文:TGRPO: Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization

机构:吉林大学人工智能学院

发布时间:2025年6月(arXiv:2506.08440v3)

🔗 arXiv


一句话总结

提出 TGRPO——一种无 Critic 的在线 RL 框架,通过 LLM 自动生成多阶段稠密奖励,并将 GRPO 的组归一化从"仅轨迹级"扩展为"步级 + 轨迹级"双层优势融合,在 LIBERO 四类任务上平均成功率 80.7%,超越 SFT 4.2%、超越 GRAPE 0.5%。


一、问题与动机

1.1 SFT 的根本局限

VLA 模型(OpenVLA、π₀ 等)的主流训练范式是在人类演示上做行为克隆(SFT)。这种方式有两个根本缺陷:

  1. 只从成功中学:训练数据全是成功轨迹,模型从未见过失败情形,缺乏自纠错能力
  2. 复合误差:部署时偏离训练分布后误差逐步累积,在 OOD 场景下性能急剧下降

用大白话说——SFT 训出来的机器人是"照本宣科"的,一旦遇到没见过的情况就手足无措。

1.2 RL 微调面临的三重挑战

RL 通过试错交互来优化策略,理论上能解决上述问题,但在长时域机器人任务中面临三重挑战:

挑战具体表现
稀疏奖励真实机器人任务通常只有 episode 结束时的 0/1 成功信号,中间步骤无反馈
高方差长 horizon 任务包含多个阶段,不同子目标的奖励尺度不一致,梯度方差大
不稳定优化PPO 需要训练额外的 Critic 网络,增加计算开销;GRPO 的组归一化在机器人非平稳 MDP 中不够稳定

1.3 现有方法的不足

  • PPO:需要额外 Critic 网络,显存和计算开销翻倍
  • DPO / GRAPE:依赖离线偏好数据或人工干预,训练周期长
  • 标准 GRPO:只在轨迹级做组归一化,忽略了步级的细粒度信号,对长 horizon 任务的 credit assignment 不充分

1.4 核心洞察

长 horizon 机器人任务需要同时捕获"全局任务进展"和"局部动作质量"两个层面的优化信号——仅靠轨迹级归一化容易忽视步级差异,仅靠步级归一化又难以感知全局进度。


二、预备知识

2.1 问题建模:MDP

每个语言条件机器人任务建模为 MDP:

M=(S,A,P,R,V,L)

其中 V 是第三人称相机观测空间,L 是自然语言指令集。在每个时间步 t,VLA 模型根据观测 vV 和指令 lL 输出动作 aA,并获得奖励 rt

优化目标为最大化累积轨迹奖励:

R=t=1Mrt

其中 M 为多条轨迹中的最短长度(所有环境同时终止)。

2.2 GRPO 回顾

Group Relative Policy Optimization(GRPO)最早在 DeepSeekMath 中提出,核心思想是用组内采样估计基线,不需要显式 Critic。对 N 条采样结果,优势计算为组内归一化回报:

A^i=Rimean(R)std(R)

GRPO 在 LLM 领域(DeepSeek-R1)表现出色,但直接迁移到机器人的问题在于:它只在轨迹级做归一化,把整条轨迹的累积奖励作为单一信号,无法区分同一轨迹中不同步骤的贡献差异。

2.3 OpenVLA 架构

本文基于 OpenVLA 作为基础 VLA 模型:

  • 视觉编码器:SigLIP + DINOv2 双流融合
  • 语言骨架:Llama-2 7B
  • 动作表示:离散化 action token [Δx,Δθ,ΔGrip]
  • 微调方式:LoRA

三、核心方法

TGRPO 包含两个核心模块:LLM 自动生成的多阶段奖励轨迹-步双层组相对优势估计

3.1 多阶段稠密奖励设计

动机

如果只使用终端 0/1 奖励,把同一个 reward 传播到所有步骤,会忽略不同动作的异质贡献。例如一条失败的轨迹中,前几步可能已经成功完成了若干子目标——这些"局部成功"不应被一刀切地标记为失败。

设计方法

利用 Claude 3.7 Sonnet 自动分解任务为多个子阶段。以 LIBERO-Object 中"把番茄酱瓶放进篮子"为例:

阶段描述
1. Approaching末端执行器接近目标物体
2. Grasping抓取目标物体
3. Moving携带物体移向目标位置
4. Placing放置到目标容器

定义关键物体位置 PobjectR3 和从成功演示中提取的参考关键姿态 {Ppose1,Ppose2,,Pposej}PposekR3

每步奖励由两部分组成:

Rt=f1(Pobject(t),Pposek)+f2(Pposek,st)
  • f1()基于关键物体的阶段奖励——根据物体和目标的空间关系判断当前所处阶段,给予阶段奖励
  • f2()基于末端执行器姿态的 shaping 信号——计算当前末端执行器与参考成功姿态的欧氏距离,鼓励策略对齐专家轨迹

LLM 根据任务描述 + 物体位置 + 参考姿态自动生成奖励函数代码,无需人工 reward engineering。

3.2 轨迹-步双层组相对优势估计

这是 TGRPO 的核心算法创新。假设我们有 N 条轨迹,每条长度 M,第 i 条轨迹第 t 步的奖励为 Ri,t

步级优势(Step-level Advantage)

将同一时间步 tN 条轨迹的奖励组成一组,做组内 z-score 归一化:

Ai,tstep=Ri,t1Ni=1NRi,t1N1i=1N(Ri,t1Ni=1NRi,t)2

直觉:在时间步 t,哪条轨迹的即时奖励相对更好?这提供了局部动作质量的信号。

轨迹级优势(Trajectory-level Advantage)

N 条轨迹的累积奖励 Ri=t=1MRi,t 做组内归一化:

Aitraj=Ri1Ni=1NRi1N1i=1N(Ri1Ni=1NRi)2

直觉:在整个 episode 中,哪条轨迹的整体表现相对更好?这提供了全局任务进展的信号。

双层融合

加权合并两个层面的优势:

Advi,t=α1Ai,tstep+α2Aitraj

实验中最优设置为 α1=0.3α2=0.7——轨迹级信号占主导(提供稳定性),步级信号作为补充(提供细粒度指导)。

3.3 优化目标

定义重要性采样比:

ρi,t=πθ(ai,t|si,t)πθold(ai,t|si,t)

最终优化目标采用 GRPO 风格的 clipped surrogate + KL 正则:

JTGRPO(θ)=E[1Ni=1N1|oi|t=1|oi|{min[ρi,tAdvi,t,clip(ρi,t,1ϵ,1+ϵ)Advi,t]βDKL[πθπref]}]

KL 散度使用无偏估计器:

DKL[πθπref]=πref(ai,t|si,t)πθ(ai,t|si,t)logπref(ai,t|si,t)πθ(ai,t|si,t)1

3.4 训练流水线

完整的在线 RL 后训练流程:

  1. 并行环境采样N 个环境从相同初始状态出发,VLA 逐步采样动作,直到某个环境完成任务或全部达到最大步数——所有轨迹同时终止,长度一致,便于步级对齐
  2. 多阶段奖励计算:每步根据物体位置和末端执行器姿态计算稠密奖励
  3. 双层优势计算:按 Eq. (2)(3)(4) 计算步级和轨迹级优势并融合
  4. 策略更新:按 Eq. (6) 计算 TGRPO 损失并更新 LoRA 参数

四、实验

4.1 实验设置

  • 基础模型:OpenVLA + LoRA 微调
  • 优化器:AdamW,学习率 1×105
  • 测试平台:LIBERO 机器人仿真基准,包含四个任务套件:
    • Spatial(10 tasks):空间位置泛化
    • Object(10 tasks):物体类别泛化
    • Goal(10 tasks):任务目标泛化
    • Long(10 tasks):长 horizon 复杂任务
  • 并行环境数:4(即 group size N=4
  • 评估:每任务 50 个测试 episode,报告平均成功率
  • 硬件:单卡 NVIDIA A100

4.2 主实验结果

方法LIBERO-SpatialLIBERO-ObjectLIBERO-GoalLIBERO-Long平均
Octo77.684.982.950.373.9
OpenVLA-SFT84.788.479.251.176.5
OpenVLA-DPO84.288.679.552.676.2
GRAPE88.592.183.157.280.2
TGRPO90.492.281.059.280.7

关键发现:

  • vs SFT:TGRPO 平均高出 4.2%;在 LIBERO-Long 上高出 8.1%,说明在线 RL 在长 horizon 任务上优势尤为明显
  • vs DPO:TGRPO 全面超越,DPO 的离线偏好学习在机器人领域效果有限
  • vs GRAPE:平均略优 0.5%;TGRPO 在 Spatial、Object、Long 上胜出,但 Goal 上不如 GRAPE(81.0 vs 83.1)

4.3 消融实验(LIBERO-Goal 套件)

方法平均成功率
SFT88.4
TGRPO w/o Trajectory-level Adv.80.2
TGRPO w/o Step-level Adv.86.8
TGRPO (完整)92.2

三个关键结论:

  1. 去掉步级优势(仅用轨迹级)→ 86.8%:损失 5.4%——细粒度的步级反馈对 credit assignment 至关重要
  2. 去掉轨迹级优势(仅用步级)→ 80.2%:损失 12.0%——甚至不如 SFT!说明缺乏全局信号的步级优化极不稳定
  3. 双层融合是必要的,两个层面互补不可替代

4.4 超参数分析

α1 的影响(α1+α2=1

α1平均成功率
0.175.2%
0.381.0%
0.579.0%
0.777.4%
0.977.0%

α1 过小(0.1):步级信号被忽略,细粒度指导不足;α1 过大(0.7+):轨迹级信号被淹没,训练不稳定。最优点在 α1=0.3,即轨迹级信号占 70%

Group Size N 的影响

Group Size平均成功率
276.2%
481.0%
679.4%
880.4%

N=2 时组内只有两条轨迹,相对比较信号不可靠;N4 后差异不大;N=4 在准确性和效率间取得最佳平衡。


五、局限性

  1. 仅在仿真中验证:所有实验都在 LIBERO 仿真器上进行,缺乏真实世界验证
  2. 单任务训练:每次只为单个任务做 RL 微调,未展示多任务/跨任务能力
  3. 依赖仿真器状态信息:奖励函数需要物体位置和末端执行器姿态等特权信息,在真实世界中难以直接获取
  4. 基础模型局限:仅在 OpenVLA(自回归 VLA)上验证,未测试 Flow Matching VLA(如 π₀)
  5. 与更强 baseline 缺乏对比:未与 PPO、RLinf-VLA 等已有 VLA+RL 框架直接比较
  6. LIBERO-Goal 上不如 GRAPE:81.0 vs 83.1,说明 TGRPO 在某些任务结构上仍有改进空间

六、个人思考

6.1 与项目中其他论文的联系

TGRPO 属于 GRPO 在机器人领域的适配工作,与本项目多篇笔记有密切关联:

  • RLVLA:同样在 LIBERO 上对比了 PPO/GRPO/DPO 三种算法,结论是 PPO 最优。RLVLA 认为 GRPO 在机器人 POMDP 中不稳定,而 TGRPO 试图通过双层优势融合来修复 GRPO 的这个缺陷——但从结果来看,TGRPO 的 80.7% 仍低于 RLVLA 中 PPO 在 ManiSkill 上的表现,说明这种修补可能不够彻底
  • RLinf-VLA:同时支持 PPO 和 GRPO,且在 LIBERO-130 上单模型达到 98.11%,远超 TGRPO 的 80.7%。差距主要来自 RLinf-VLA 的系统级优化(Hybrid Pipelining、多轮训练),但也侧面说明 GRPO 变体的上限可能不如 PPO
  • SRPO:同样使用 GRPO 作为基础优化算法,但通过自参照机制 + 世界模型隐表征奖励进行扩展,思路与 TGRPO 的"双层优势"有异曲同工之处——都在"如何给 GRPO 提供更好的优势估计"这个方向发力

6.2 LLM 自动生成奖励函数的价值

TGRPO 用 Claude 3.7 Sonnet 自动分解任务并生成稠密奖励函数,这个设计虽然在本文中只是辅助模块,但可能比算法本身更有实用价值:

  • 降低 reward engineering 门槛:传统 RL 中手工设计奖励函数是最大的瓶颈
  • 可扩展到新任务:只需提供自然语言任务描述,LLM 就能自动生成合理的阶段奖励
  • 但受限于仿真器:需要仿真器提供物体位置等特权信息,在真实世界中需要额外的感知模块

6.3 "轨迹级主导"的深层含义

消融实验和超参数分析一致表明:α2=0.7(轨迹级权重)远大于 α1=0.3(步级权重)是最优的。这意味着在长 horizon 任务中,全局进展信号比局部动作质量更重要

换个角度理解:如果步级信号权重太高,优化可能过度关注"每一步都做到局部最优",反而忽略全局协调——就像下棋只顾吃子不顾大局。轨迹级信号起到"定海神针"的作用,确保优化方向与任务完成目标一致。

6.4 与 TACO 的互补性

有趣的是,TGRPO 和已有笔记中的 TACO 解决的是完全不同维度的问题:

  • TGRPO:改进训练阶段的优化算法,用双层优势估计提升 RL 训练效率
  • TACO:改进推理阶段的动作选择,用伪计数器过滤 OOD 动作

两者理论上可以组合——先用 TGRPO 训练 VLA,再用 TACO 做推理时的 test-time scaling。

6.5 方法的简洁性与局限性

TGRPO 的最大优点是方法简洁:不需要 Critic 网络,不需要离线偏好数据,单卡 A100 就能训练。但简洁也带来了局限——80.7% 的平均成功率在 VLA+RL 领域只能算中等水平,与 RLinf-VLA 的 98.11% 有显著差距。这提示我们:无 Critic 方法在机器人领域的天花板可能确实低于有 Critic 的 PPO,双层优势融合只是缓解而非解决了 GRPO 在非平稳 MDP 中的根本局限。


参考