GR-3：字节跳动大规模双臂移动 VLA——VL 协同训练 + 人类轨迹少样本适配 + 灵巧长时域操作

论文：GR-3 Technical Report
机构：ByteDance Seed
发布时间：2025 年 7 月
🔗 arXiv | 项目主页

一句话总结

GR-3 是一个 4B 参数的 VLA 模型，基于 Qwen2.5-VL + Action DiT 的 Mixture-of-Transformers 架构，通过机器人轨迹 + 视觉-语言数据协同训练获得强泛化能力，并可用少量 VR 采集的人类轨迹快速适配新场景，在泛化抓放、长时域餐桌收拾和灵巧衣物操作三大真实世界任务上全面超越 π₀。

一、问题与动机

1.1 VLA 模型的三大挑战

当前 VLA 模型面临三个未解决的关键挑战：

指令跟随泛化不足：大多数 VLA 模型只能处理训练数据中出现过的指令和物体类别，面对涉及大小关系（"最大的物体"）、空间关系（"可乐旁边的雪碧"）、常识知识（"海洋动物"）等抽象概念的 OOD 指令时表现极差
数据采集成本高昂：机器人遥操作采集轨迹耗时且昂贵，适配新场景需要大量演示数据
长时域灵巧任务的鲁棒性差：在需要数十步子任务的复杂操作中，累积误差导致策略频繁失败，尤其在操作可变形物体（如衣物）时

1.2 现有方法为何不够

π₀：虽然通过大规模跨构型预训练获得了广泛能力，但其语言理解主要来自 PaliGemma（3B），在 OOD 指令跟随上表现有限。此外，π₀ 的预训练依赖大规模跨构型机器人数据，但并未充分利用网络规模的视觉-语言数据来增强泛化
RT-2：最早展示了 VL 协同训练的价值，但仅基于自回归动作离散化，不支持 action chunk 和高频控制
数据效率：现有 VLA 适配新场景通常需要大量机器人遥操作数据（数十小时），从人类演示数据中学习的能力有限

1.3 GR-3 的核心思路

GR-3 从三个维度系统性地解决上述挑战：

VL 协同训练：在机器人轨迹和大规模视觉-语言数据上联合训练，将 VLM 的丰富语义知识迁移到动作预测中，实现零样本泛化到未见物体和抽象概念指令
人类轨迹少样本适配：通过 VR 设备快速采集人类手部轨迹（每小时 450 条 vs 遥操作每小时 250 条），仅需每类物体 10 条人类轨迹即可显著提升性能
架构与训练细节优化：Task Status 辅助监督强化指令跟随、DiT 内 RMSNorm 提升训练稳定性和语言条件化能力

二、预备知识

2.1 Mixture-of-Transformers (MoT)

Mixture-of-Transformers 是一种在同一 Transformer 中为不同模态使用不同权重的架构。与标准 Transformer 所有 token 共享全部参数不同，MoT 为每种模态分配独立的 FFN 参数，但在 self-attention 层中共享 key/value，使不同模态能通过注意力机制交互。

这种设计的核心优势在于：

保护预训练知识：视觉-语言 token 走 VLM 的原始权重，避免机器人特有数据干扰预训练表征
专属容量：动作预测有独立的 FFN 层，不与 VL 任务竞争参数容量

GR-3 正是基于此架构，VLM 骨架处理图像和语言，Action DiT 专门负责动作生成，二者通过 KV cache 交互。

2.2 Flow Matching 动作预测

GR-3 沿用 π₀ 的 flow matching 方案进行动作预测。给定真实动作 $a_{t}$ ，前向过程构造噪声插值：

a_{t}^{τ} = (1 - τ) ϵ + τ a_{t}, ϵ \sim N (0, I), τ \sim U (0, 1)

训练损失为速度场的 MSE：

L_{action} (θ) = E [∥ v_{θ} (l, o_{t}, s_{t}, a_{t}^{τ}) - u (a_{t}^{τ} | a_{t}) ∥^{2}]

其中 $u (a_{t}^{τ} | a_{t}) = a_{t} - ϵ$ 是真实速度场。推理时从纯噪声出发，用 Euler 积分（ $Δ τ = 0.2$ ，5 步）生成动作 chunk。

三、核心方法

3.1 模型架构

GR-3 采用 Mixture-of-Transformers 架构，总计 4B 参数，由两个核心组件组成：

组件	功能	基座模型	处理内容
VLM 骨架	视觉-语言理解	Qwen2.5-VL-3B-Instruct	多视角图像 + 语言指令
Action DiT	动作预测	随机初始化	机器人状态 + 噪声动作 chunk

关键架构设计：

KV cache 交互：Action DiT 的 flow 预测条件化于当前机器人状态 $s_{t}$ 和 VLM 骨架输出的 KV cache。为加速推理，Action DiT 仅使用 VLM 后半部分层的 KV cache
层数设计：Action DiT 的层数为 VLM 骨架的一半
因果注意力：Action DiT 内部对动作 chunk 的 $k$ 个 token 使用因果注意力掩码，建模动作序列内的时序依赖
AdaLN 时间步注入：flow matching 时间步 $τ$ 通过 Adaptive Layer Norm 注入 DiT 各层

3.2 训练稳定性：DiT 内 RMSNorm

在早期探索中，团队观察到训练过程频繁出现不稳定。受 QK-Norm 启发，GR-3 在 DiT block 的 Attention 和 FFN 的线性层之后额外添加 RMSNorm：

RMSNorm (x) = \frac{x}{RMS (x)} \cdot γ, RMS (x) = \sqrt{\frac{1}{d} \sum_{i = 1}^{d} x_{i}^{2}}

这个看似简单的设计带来两大收益：

训练稳定性：彻底消除训练过程中的发散问题
指令跟随能力：实验表明移除 RMSNorm 后指令跟随性能大幅下降（详见消融实验），说明归一化帮助 DiT 更好地利用 VLM 传递的语言条件信息

3.3 Task Status 辅助监督

先前工作指出，策略可能利用多视角的虚假相关性来预测动作，而非真正关注语言条件。GR-3 引入 Task Status 作为额外的动作维度进行辅助监督：

状态	编码值	含义
Ongoing	0	任务进行中
Terminated	1	任务已完成
Invalid	-1	指令无效（当前场景中不存在目标物体）

训练策略：随机将正确的语言指令替换为无效指令（如桌上没有刀时给出"把刀放进篮子"），此时仅监督 Task Status 维度预测 Invalid，其他动作维度不施加损失。

这一设计强制 Action DiT 关注语言指令并判断任务可行性，而非仅依赖视觉捷径。在真实部署中，策略能正确拒绝无效指令（10 秒内不动作），避免执行错误任务。

3.4 三阶段训练配方

阶段一：机器人轨迹 + VL 数据协同训练

GR-3 同时在两种数据上训练（Fig. 3）：

机器人轨迹数据：训练 VLM 骨架 + Action DiT，使用 flow matching 损失 $L_{action}$
视觉-语言数据：仅训练 VLM 骨架，使用 next-token prediction 损失 $L_{NTP}$

两种数据在 mini-batch 间动态混合，权重相等。协同训练的总损失为：

L_{total} = L_{action} + L_{NTP}

VL 数据集涵盖四类任务：图像描述（Image Caption）、视觉问答（VQA）、图像定位（Image Grounding）、交叉引用图像描述（Grounded Image Caption）。经过过滤和重标注流水线提升质量。

训练加速：借鉴 MAR 的做法，在 VLM 骨架的单次前向传播中同时计算多个 flow matching 时间步的损失，提升训练效率。

VL 协同训练的关键价值：

保持 VLM 预训练的视觉-语言能力不退化
使 Action DiT 能利用 VLM 的语义知识进行动作预测
实现对未见物体和抽象概念指令的零样本泛化

阶段二：加入人类轨迹数据的继续训练

在阶段一的 checkpoint 基础上，进一步加入人类轨迹数据，对三种数据进行联合训练。

人类轨迹的采集与处理：

使用 PICO 4 Ultra Enterprise VR 头显进行手部追踪
采集速度约 450 条/小时，远快于遥操作的 250 条/小时
数据仅包含第一人称视频和手部轨迹，没有手臂关节状态和夹爪状态
缺失的腕部视角用空白图像填充，仅训练手部轨迹部分

数据采集调度器

为最大化数据多样性，GR-3 开发了一套数据采集调度器，在每条轨迹采集前自动生成配置：

执行的动作类型
物体组合
背景场景

采集后还会进行质量检查，过滤无效和低质量数据。

3.5 硬件平台：ByteMini

GR-3 部署在 ByteMini 双臂移动机器人上：

规格	参数
总自由度	22 DoF
手臂	2 × 7-DoF，球形腕关节设计
夹爪	2 × 1-DoF
升降机构	1-DoF
移动底盘	3-DoF 全向平台
相机	头部 RGBD + 2 × 腕部 RGBD
续航	双锂电池 > 10 小时

球形腕关节设计克服了传统 SRS 构型手臂的局限，使两只手臂能在机器人胸前区域执行精细双手协作操作。

四、实验结果

GR-3 在三大真实世界任务上进行了全面评估，对比基线为 π₀（使用官方开源代码和预训练权重微调）。

4.1 泛化抓放（Generalizable Pick-and-Place）

数据：35k 机器人轨迹，101 种物体，总计 69 小时。

四种评估设置：

设置	描述	π₀ IF/成功率	GR-3 IF/成功率
Basic	训练环境 + 训练物体	~80% / ~75%	~93% / ~85%
Unseen Env	4 种未见环境	~75% / ~65%	~90% / ~80%
Unseen Instr	抽象概念指令	~45% / ~40%	~80% / ~77.1%
Unseen Obj	45 种未见物体	~55% / ~40%	~65% / ~57.8%

关键发现：

VL 协同训练是泛化的关键：GR-3 在 Unseen Instructions 和 Unseen Objects 上大幅超越 π₀（成功率从 40% 提升到 77.1% 和 57.8%）。消融实验表明 GR-3 w/o Co-Training 在这两个设置上反而不如 π₀，说明泛化主要来自 VL 协同训练而非模型架构本身
协同训练不损害基础性能：在 Basic 和 Unseen Env 设置上，GR-3 和 GR-3 w/o Co-Training 表现相当，说明 VL 协同训练不会干扰已见物体的性能
抽象概念理解：GR-3 能理解"把可乐旁边的雪碧放进纸箱"、"把最大的物体放进纸箱"、"把海洋动物放进纸箱"等训练数据中从未出现的指令

人类轨迹少样本适配：

少样本设置	未见物体 IF 率	未见物体成功率
0-shot（基线）	~65%	57.8%
1-shot	~70%	~65%
5-shot	~75%	~75%
10-shot	~85%	86.7%

仅需每类物体 10 条人类轨迹（总计 450 条，约 30 分钟），未见物体成功率从 57.8% 提升到 86.7%，且已见物体性能不下降。

4.2 长时域餐桌收拾（Table Bussing）

数据：约 101 小时机器人轨迹。任务要求机器人清理桌面：打包食物、收拾餐具、丢弃垃圾，需要移动底盘跨区域操作。

Flat 设置（单条指令完成全部子任务）：

方法	平均任务进度
π₀	~70%
GR-3 w/o Norm	~75%
GR-3 w/o TS	~80%
GR-3	~85%

IF 设置（分步子任务指令，6 种测试集）：

方法	平均子任务成功率
π₀	53.8%
GR-3 w/o Norm	~60%
GR-3 w/o TS	~85%
GR-3	97.5%

关键发现：

指令跟随差距巨大：π₀ 虽能完成长时域操作，但在 IF 设置下仅 53.8%，无法区分叉子和勺子，在 Novel Destinations 中总是把物体放到训练时的容器而非指令指定的容器。GR-3 在所有 6 个测试集上都能严格跟随指令，达到 97.5%
RMSNorm 至关重要：移除 RMSNorm 后 IF 性能大幅下降，模型无法泛化到新目标位置，证实 RMSNorm 对语言条件化的关键作用
Task Status 有效：移除 Task Status 后 IF 能力也下降，尤其在 Invalid Tasks 设置中无法正确拒绝无效指令
无效指令拒绝：GR-3 能在场景中不存在目标物体时正确拒绝操作（10 秒内不动作）

4.3 灵巧衣物操作（Dexterous Cloth Manipulation）

数据：116 小时机器人轨迹。任务要求将衣物挂到晾衣架上：拿起衣架 → 将右肩挂上 → 将左肩挂上 → 挂到晾衣杆。

设置	π₀ 任务进度	GR-3 任务进度
Basic（6 种训练衣物）	~65%	86.7%
Position（旋转/褶皱摆放）	~55%	83.9%
Unseen Instances（4 种未见衣物）	~50%	75.8%

关键发现：

灵巧操作鲁棒性：GR-3 在 Basic 设置上达到 86.7%，且 Position 变化仅损失 2.8pp，展示了对布局变化的强鲁棒性
泛化到未见衣物：训练数据全是长袖衣物，但 GR-3 能泛化到短袖衣物，达到 75.8%
最大挑战：Sankey 图分析显示，最难的步骤是"在右肩已挂的情况下挂左肩"——需要翻出常被折叠遮挡的左领口，同时保持衣架不滑落

五、局限性与未来方向

OOD 指令仍有错误：尽管泛化能力大幅提升，GR-3 在涉及全新概念和未见形状物体的指令上仍会犯错，需要进一步扩大模型和数据规模
纯模仿学习的局限：GR-3 基于纯模仿学习，在 rollout 中遇到 OOD 状态时无法自主恢复。未来计划引入强化学习（RL）来增强鲁棒性和灵巧性
未探索跨构型预训练：与 π₀ 不同，GR-3 仅在单一构型（ByteMini）上训练，未利用跨构型数据的潜在正迁移

六、个人思考

6.1 与项目中相关论文的对比

维度	GR-3	π₀	π₀.₅
VLM 骨架	Qwen2.5-VL-3B	PaliGemma 3B	PaliGemma 3B
动作生成	Flow Matching DiT	Flow Matching Action Expert	Flow Matching Action Expert
总参数	4B	3.3B	3.3B
VL 协同训练	有（全训练期）	无	有（Web 数据）
人类轨迹学习	有（VR 手部追踪）	无	有（YouTube 视频）
跨构型预训练	无（单构型）	有（7 种构型）	有（多种构型）
训练数据规模	35k-116 小时/任务	~10,000 小时	更大
指令跟随机制	Task Status + RMSNorm	无特殊设计	分层推理

6.2 VL 协同训练的实验证据是这篇论文最有价值的部分

GR-3 提供了关于 VL 协同训练的清晰消融证据：

GR-3 w/o Co-Training 在 OOD 设置上不如 π₀（Fig. 7a），说明仅换一个更强的 VLM 骨架（Qwen2.5-VL vs PaliGemma）是不够的——VLM 的知识必须通过协同训练才能有效迁移到动作预测中
这个发现解释了为什么 RT-2 需要协同训练、为什么 π₀.₅ 也采用了异构数据协同训练

6.3 Task Status 是一个精巧的设计

通过引入 Invalid 状态和随机替换指令的训练策略，GR-3 迫使模型建立"指令 → 观测 → 可行性判断"的因果链，而非依赖视觉捷径。这比简单的数据增强更深层——它改变了模型的推理路径。这一设计在 IF 设置中带来的提升（53.8% → 97.5% vs π₀）是巨大的。

6.4 人类轨迹适配是一个有前景的方向

GR-3 展示了一种极具成本效益的适配路径：

VR 采集效率是遥操作的 1.8 倍
每类物体仅需 10 条人类轨迹
跨构型（人手 → 机器人）迁移依然有效

这与 π₀.₅ 从 YouTube 视频学习的思路互补——π₀.₅ 利用大规模无标注视频进行预训练，GR-3 则用少量有标注的人类轨迹进行高效微调。

6.5 与 π₀ 的公平性讨论

需要注意的是，GR-3 vs π₀ 的比较可能不完全公平：

GR-3 使用 Qwen2.5-VL-3B（更新、更强的 VLM），π₀ 使用 PaliGemma 3B
GR-3 使用 VL 协同训练，π₀ 没有
π₀ 的优势在于跨构型预训练带来的广泛基础能力，这一维度 GR-3 未探索

更准确地说，GR-3 证明的是"VL 协同训练 + 指令跟随强化设计"的组合价值，而非单纯的模型架构优越性。

参考

π₀：Flow Matching VLA 基础模型，GR-3 的主要对比基线
π₀.₅：π₀ 的后续，同样探索了异构数据协同训练和分层推理
RT-2：最早展示 VL 协同微调提升机器人泛化的工作
Qwen2.5-VL：GR-3 使用的 VLM 骨架
GR-2：GR-3 的前身，探索了大规模视频生成预训练用于机器人操作

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

GR-3：字节跳动大规模双臂移动 VLA——VL 协同训练 + 人类轨迹少样本适配 + 灵巧长时域操作 ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 模型的三大挑战 ​

1.2 现有方法为何不够 ​

1.3 GR-3 的核心思路 ​

二、预备知识 ​

2.1 Mixture-of-Transformers (MoT) ​

2.2 Flow Matching 动作预测 ​

三、核心方法 ​

3.1 模型架构 ​

3.2 训练稳定性：DiT 内 RMSNorm ​

3.3 Task Status 辅助监督 ​

3.4 三阶段训练配方 ​

阶段一：机器人轨迹 + VL 数据协同训练 ​

阶段二：加入人类轨迹数据的继续训练 ​

数据采集调度器 ​

3.5 硬件平台：ByteMini ​

四、实验结果 ​

4.1 泛化抓放（Generalizable Pick-and-Place） ​

4.2 长时域餐桌收拾（Table Bussing） ​

4.3 灵巧衣物操作（Dexterous Cloth Manipulation） ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 与项目中相关论文的对比 ​

6.2 VL 协同训练的实验证据是这篇论文最有价值的部分 ​

6.3 Task Status 是一个精巧的设计 ​

6.4 人类轨迹适配是一个有前景的方向 ​

6.5 与 π₀ 的公平性讨论 ​

参考 ​

GR-3：字节跳动大规模双臂移动 VLA——VL 协同训练 + 人类轨迹少样本适配 + 灵巧长时域操作

一句话总结

一、问题与动机

1.1 VLA 模型的三大挑战

1.2 现有方法为何不够

1.3 GR-3 的核心思路

二、预备知识

2.1 Mixture-of-Transformers (MoT)

2.2 Flow Matching 动作预测

三、核心方法

3.1 模型架构

3.2 训练稳定性：DiT 内 RMSNorm

3.3 Task Status 辅助监督

3.4 三阶段训练配方

阶段一：机器人轨迹 + VL 数据协同训练

阶段二：加入人类轨迹数据的继续训练

数据采集调度器

3.5 硬件平台：ByteMini

四、实验结果

4.1 泛化抓放（Generalizable Pick-and-Place）

4.2 长时域餐桌收拾（Table Bussing）

4.3 灵巧衣物操作（Dexterous Cloth Manipulation）

五、局限性与未来方向

六、个人思考

6.1 与项目中相关论文的对比

6.2 VL 协同训练的实验证据是这篇论文最有价值的部分

6.3 Task Status 是一个精巧的设计

6.4 人类轨迹适配是一个有前景的方向

6.5 与 π₀ 的公平性讨论

参考