Skip to content

GR-3:字节跳动大规模双臂移动 VLA——VL 协同训练 + 人类轨迹少样本适配 + 灵巧长时域操作

论文GR-3 Technical Report

机构:ByteDance Seed

发布时间:2025 年 7 月

🔗 arXiv | 项目主页


一句话总结

GR-3 是一个 4B 参数的 VLA 模型,基于 Qwen2.5-VL + Action DiT 的 Mixture-of-Transformers 架构,通过机器人轨迹 + 视觉-语言数据协同训练获得强泛化能力,并可用少量 VR 采集的人类轨迹快速适配新场景,在泛化抓放、长时域餐桌收拾和灵巧衣物操作三大真实世界任务上全面超越 π₀。


一、问题与动机

1.1 VLA 模型的三大挑战

当前 VLA 模型面临三个未解决的关键挑战:

  1. 指令跟随泛化不足:大多数 VLA 模型只能处理训练数据中出现过的指令和物体类别,面对涉及大小关系("最大的物体")、空间关系("可乐旁边的雪碧")、常识知识("海洋动物")等抽象概念的 OOD 指令时表现极差
  2. 数据采集成本高昂:机器人遥操作采集轨迹耗时且昂贵,适配新场景需要大量演示数据
  3. 长时域灵巧任务的鲁棒性差:在需要数十步子任务的复杂操作中,累积误差导致策略频繁失败,尤其在操作可变形物体(如衣物)时

1.2 现有方法为何不够

  • π₀:虽然通过大规模跨构型预训练获得了广泛能力,但其语言理解主要来自 PaliGemma(3B),在 OOD 指令跟随上表现有限。此外,π₀ 的预训练依赖大规模跨构型机器人数据,但并未充分利用网络规模的视觉-语言数据来增强泛化
  • RT-2:最早展示了 VL 协同训练的价值,但仅基于自回归动作离散化,不支持 action chunk 和高频控制
  • 数据效率:现有 VLA 适配新场景通常需要大量机器人遥操作数据(数十小时),从人类演示数据中学习的能力有限

1.3 GR-3 的核心思路

GR-3 从三个维度系统性地解决上述挑战:

  1. VL 协同训练:在机器人轨迹和大规模视觉-语言数据上联合训练,将 VLM 的丰富语义知识迁移到动作预测中,实现零样本泛化到未见物体和抽象概念指令
  2. 人类轨迹少样本适配:通过 VR 设备快速采集人类手部轨迹(每小时 450 条 vs 遥操作每小时 250 条),仅需每类物体 10 条人类轨迹即可显著提升性能
  3. 架构与训练细节优化:Task Status 辅助监督强化指令跟随、DiT 内 RMSNorm 提升训练稳定性和语言条件化能力

二、预备知识

2.1 Mixture-of-Transformers (MoT)

Mixture-of-Transformers 是一种在同一 Transformer 中为不同模态使用不同权重的架构。与标准 Transformer 所有 token 共享全部参数不同,MoT 为每种模态分配独立的 FFN 参数,但在 self-attention 层中共享 key/value,使不同模态能通过注意力机制交互。

这种设计的核心优势在于:

  • 保护预训练知识:视觉-语言 token 走 VLM 的原始权重,避免机器人特有数据干扰预训练表征
  • 专属容量:动作预测有独立的 FFN 层,不与 VL 任务竞争参数容量

GR-3 正是基于此架构,VLM 骨架处理图像和语言,Action DiT 专门负责动作生成,二者通过 KV cache 交互。

2.2 Flow Matching 动作预测

GR-3 沿用 π₀ 的 flow matching 方案进行动作预测。给定真实动作 at,前向过程构造噪声插值:

atτ=(1τ)ϵ+τat,ϵN(0,I),τU(0,1)

训练损失为速度场的 MSE:

Laction(θ)=E[vθ(l,ot,st,atτ)u(atτ|at)2]

其中 u(atτ|at)=atϵ 是真实速度场。推理时从纯噪声出发,用 Euler 积分(Δτ=0.2,5 步)生成动作 chunk。


三、核心方法

3.1 模型架构

GR-3 采用 Mixture-of-Transformers 架构,总计 4B 参数,由两个核心组件组成:

组件功能基座模型处理内容
VLM 骨架视觉-语言理解Qwen2.5-VL-3B-Instruct多视角图像 + 语言指令
Action DiT动作预测随机初始化机器人状态 + 噪声动作 chunk

关键架构设计

  • KV cache 交互:Action DiT 的 flow 预测条件化于当前机器人状态 st 和 VLM 骨架输出的 KV cache。为加速推理,Action DiT 仅使用 VLM 后半部分层的 KV cache
  • 层数设计:Action DiT 的层数为 VLM 骨架的一半
  • 因果注意力:Action DiT 内部对动作 chunk 的 k 个 token 使用因果注意力掩码,建模动作序列内的时序依赖
  • AdaLN 时间步注入:flow matching 时间步 τ 通过 Adaptive Layer Norm 注入 DiT 各层

3.2 训练稳定性:DiT 内 RMSNorm

在早期探索中,团队观察到训练过程频繁出现不稳定。受 QK-Norm 启发,GR-3 在 DiT block 的 Attention 和 FFN 的线性层之后额外添加 RMSNorm:

RMSNorm(x)=xRMS(x)γ,RMS(x)=1di=1dxi2

这个看似简单的设计带来两大收益:

  1. 训练稳定性:彻底消除训练过程中的发散问题
  2. 指令跟随能力:实验表明移除 RMSNorm 后指令跟随性能大幅下降(详见消融实验),说明归一化帮助 DiT 更好地利用 VLM 传递的语言条件信息

3.3 Task Status 辅助监督

先前工作指出,策略可能利用多视角的虚假相关性来预测动作,而非真正关注语言条件。GR-3 引入 Task Status 作为额外的动作维度进行辅助监督:

状态编码值含义
Ongoing0任务进行中
Terminated1任务已完成
Invalid-1指令无效(当前场景中不存在目标物体)

训练策略:随机将正确的语言指令替换为无效指令(如桌上没有刀时给出"把刀放进篮子"),此时仅监督 Task Status 维度预测 Invalid,其他动作维度不施加损失。

这一设计强制 Action DiT 关注语言指令并判断任务可行性,而非仅依赖视觉捷径。在真实部署中,策略能正确拒绝无效指令(10 秒内不动作),避免执行错误任务。

3.4 三阶段训练配方

阶段一:机器人轨迹 + VL 数据协同训练

GR-3 同时在两种数据上训练(Fig. 3):

  • 机器人轨迹数据:训练 VLM 骨架 + Action DiT,使用 flow matching 损失 Laction
  • 视觉-语言数据:仅训练 VLM 骨架,使用 next-token prediction 损失 LNTP

两种数据在 mini-batch 间动态混合,权重相等。协同训练的总损失为:

Ltotal=Laction+LNTP

VL 数据集涵盖四类任务:图像描述(Image Caption)、视觉问答(VQA)、图像定位(Image Grounding)、交叉引用图像描述(Grounded Image Caption)。经过过滤和重标注流水线提升质量。

训练加速:借鉴 MAR 的做法,在 VLM 骨架的单次前向传播中同时计算多个 flow matching 时间步的损失,提升训练效率。

VL 协同训练的关键价值

  • 保持 VLM 预训练的视觉-语言能力不退化
  • 使 Action DiT 能利用 VLM 的语义知识进行动作预测
  • 实现对未见物体和抽象概念指令的零样本泛化

阶段二:加入人类轨迹数据的继续训练

在阶段一的 checkpoint 基础上,进一步加入人类轨迹数据,对三种数据进行联合训练。

人类轨迹的采集与处理

  • 使用 PICO 4 Ultra Enterprise VR 头显进行手部追踪
  • 采集速度约 450 条/小时,远快于遥操作的 250 条/小时
  • 数据仅包含第一人称视频和手部轨迹,没有手臂关节状态和夹爪状态
  • 缺失的腕部视角用空白图像填充,仅训练手部轨迹部分

数据采集调度器

为最大化数据多样性,GR-3 开发了一套数据采集调度器,在每条轨迹采集前自动生成配置:

  1. 执行的动作类型
  2. 物体组合
  3. 背景场景

采集后还会进行质量检查,过滤无效和低质量数据。

3.5 硬件平台:ByteMini

GR-3 部署在 ByteMini 双臂移动机器人上:

规格参数
总自由度22 DoF
手臂2 × 7-DoF,球形腕关节设计
夹爪2 × 1-DoF
升降机构1-DoF
移动底盘3-DoF 全向平台
相机头部 RGBD + 2 × 腕部 RGBD
续航双锂电池 > 10 小时

球形腕关节设计克服了传统 SRS 构型手臂的局限,使两只手臂能在机器人胸前区域执行精细双手协作操作。


四、实验结果

GR-3 在三大真实世界任务上进行了全面评估,对比基线为 π₀(使用官方开源代码和预训练权重微调)。

4.1 泛化抓放(Generalizable Pick-and-Place)

数据:35k 机器人轨迹,101 种物体,总计 69 小时。

四种评估设置

设置描述π₀ IF/成功率GR-3 IF/成功率
Basic训练环境 + 训练物体~80% / ~75%~93% / ~85%
Unseen Env4 种未见环境~75% / ~65%~90% / ~80%
Unseen Instr抽象概念指令~45% / ~40%~80% / ~77.1%
Unseen Obj45 种未见物体~55% / ~40%~65% / ~57.8%

关键发现

  1. VL 协同训练是泛化的关键:GR-3 在 Unseen Instructions 和 Unseen Objects 上大幅超越 π₀(成功率从 40% 提升到 77.1% 和 57.8%)。消融实验表明 GR-3 w/o Co-Training 在这两个设置上反而不如 π₀,说明泛化主要来自 VL 协同训练而非模型架构本身
  2. 协同训练不损害基础性能:在 Basic 和 Unseen Env 设置上,GR-3 和 GR-3 w/o Co-Training 表现相当,说明 VL 协同训练不会干扰已见物体的性能
  3. 抽象概念理解:GR-3 能理解"把可乐旁边的雪碧放进纸箱"、"把最大的物体放进纸箱"、"把海洋动物放进纸箱"等训练数据中从未出现的指令

人类轨迹少样本适配

少样本设置未见物体 IF 率未见物体成功率
0-shot(基线)~65%57.8%
1-shot~70%~65%
5-shot~75%~75%
10-shot~85%86.7%

仅需每类物体 10 条人类轨迹(总计 450 条,约 30 分钟),未见物体成功率从 57.8% 提升到 86.7%,且已见物体性能不下降。

4.2 长时域餐桌收拾(Table Bussing)

数据:约 101 小时机器人轨迹。任务要求机器人清理桌面:打包食物、收拾餐具、丢弃垃圾,需要移动底盘跨区域操作。

Flat 设置(单条指令完成全部子任务):

方法平均任务进度
π₀~70%
GR-3 w/o Norm~75%
GR-3 w/o TS~80%
GR-3~85%

IF 设置(分步子任务指令,6 种测试集):

方法平均子任务成功率
π₀53.8%
GR-3 w/o Norm~60%
GR-3 w/o TS~85%
GR-397.5%

关键发现

  1. 指令跟随差距巨大:π₀ 虽能完成长时域操作,但在 IF 设置下仅 53.8%,无法区分叉子和勺子,在 Novel Destinations 中总是把物体放到训练时的容器而非指令指定的容器。GR-3 在所有 6 个测试集上都能严格跟随指令,达到 97.5%
  2. RMSNorm 至关重要:移除 RMSNorm 后 IF 性能大幅下降,模型无法泛化到新目标位置,证实 RMSNorm 对语言条件化的关键作用
  3. Task Status 有效:移除 Task Status 后 IF 能力也下降,尤其在 Invalid Tasks 设置中无法正确拒绝无效指令
  4. 无效指令拒绝:GR-3 能在场景中不存在目标物体时正确拒绝操作(10 秒内不动作)

4.3 灵巧衣物操作(Dexterous Cloth Manipulation)

数据:116 小时机器人轨迹。任务要求将衣物挂到晾衣架上:拿起衣架 → 将右肩挂上 → 将左肩挂上 → 挂到晾衣杆。

设置π₀ 任务进度GR-3 任务进度
Basic(6 种训练衣物)~65%86.7%
Position(旋转/褶皱摆放)~55%83.9%
Unseen Instances(4 种未见衣物)~50%75.8%

关键发现

  1. 灵巧操作鲁棒性:GR-3 在 Basic 设置上达到 86.7%,且 Position 变化仅损失 2.8pp,展示了对布局变化的强鲁棒性
  2. 泛化到未见衣物:训练数据全是长袖衣物,但 GR-3 能泛化到短袖衣物,达到 75.8%
  3. 最大挑战:Sankey 图分析显示,最难的步骤是"在右肩已挂的情况下挂左肩"——需要翻出常被折叠遮挡的左领口,同时保持衣架不滑落

五、局限性与未来方向

  1. OOD 指令仍有错误:尽管泛化能力大幅提升,GR-3 在涉及全新概念和未见形状物体的指令上仍会犯错,需要进一步扩大模型和数据规模
  2. 纯模仿学习的局限:GR-3 基于纯模仿学习,在 rollout 中遇到 OOD 状态时无法自主恢复。未来计划引入强化学习(RL)来增强鲁棒性和灵巧性
  3. 未探索跨构型预训练:与 π₀ 不同,GR-3 仅在单一构型(ByteMini)上训练,未利用跨构型数据的潜在正迁移

六、个人思考

6.1 与项目中相关论文的对比

维度GR-3π₀π₀.₅
VLM 骨架Qwen2.5-VL-3BPaliGemma 3BPaliGemma 3B
动作生成Flow Matching DiTFlow Matching Action ExpertFlow Matching Action Expert
总参数4B3.3B3.3B
VL 协同训练有(全训练期)有(Web 数据)
人类轨迹学习有(VR 手部追踪)有(YouTube 视频)
跨构型预训练无(单构型)有(7 种构型)有(多种构型)
训练数据规模35k-116 小时/任务~10,000 小时更大
指令跟随机制Task Status + RMSNorm无特殊设计分层推理

6.2 VL 协同训练的实验证据是这篇论文最有价值的部分

GR-3 提供了关于 VL 协同训练的清晰消融证据:

  • GR-3 w/o Co-Training 在 OOD 设置上不如 π₀(Fig. 7a),说明仅换一个更强的 VLM 骨架(Qwen2.5-VL vs PaliGemma)是不够的——VLM 的知识必须通过协同训练才能有效迁移到动作预测中
  • 这个发现解释了为什么 RT-2 需要协同训练、为什么 π₀.₅ 也采用了异构数据协同训练

6.3 Task Status 是一个精巧的设计

通过引入 Invalid 状态和随机替换指令的训练策略,GR-3 迫使模型建立"指令 → 观测 → 可行性判断"的因果链,而非依赖视觉捷径。这比简单的数据增强更深层——它改变了模型的推理路径。这一设计在 IF 设置中带来的提升(53.8% → 97.5% vs π₀)是巨大的。

6.4 人类轨迹适配是一个有前景的方向

GR-3 展示了一种极具成本效益的适配路径:

  • VR 采集效率是遥操作的 1.8 倍
  • 每类物体仅需 10 条人类轨迹
  • 跨构型(人手 → 机器人)迁移依然有效

这与 π₀.₅ 从 YouTube 视频学习的思路互补——π₀.₅ 利用大规模无标注视频进行预训练,GR-3 则用少量有标注的人类轨迹进行高效微调。

6.5 与 π₀ 的公平性讨论

需要注意的是,GR-3 vs π₀ 的比较可能不完全公平:

  • GR-3 使用 Qwen2.5-VL-3B(更新、更强的 VLM),π₀ 使用 PaliGemma 3B
  • GR-3 使用 VL 协同训练,π₀ 没有
  • π₀ 的优势在于跨构型预训练带来的广泛基础能力,这一维度 GR-3 未探索

更准确地说,GR-3 证明的是"VL 协同训练 + 指令跟随强化设计"的组合价值,而非单纯的模型架构优越性。


参考

  • π₀:Flow Matching VLA 基础模型,GR-3 的主要对比基线
  • π₀.₅:π₀ 的后续,同样探索了异构数据协同训练和分层推理
  • RT-2:最早展示 VL 协同微调提升机器人泛化的工作
  • Qwen2.5-VL:GR-3 使用的 VLM 骨架
  • GR-2:GR-3 的前身,探索了大规模视频生成预训练用于机器人操作