TGM-VLA:任务引导 Mixup 实现高效采样与鲁棒 3D 机器人操作
论文:TGM-VLA: Task-Guided Mixup for Sampling-Efficient and Robust Robotic Manipulation
作者:Fanqi Pu, Lei Jiang, Wenming Yang
机构:清华大学深圳国际研究生院、国家人形机器人创新中心(上海)
发布时间:2026年2月
分类标签:
3D VLA关键帧采样数据增强点云 Mixup颜色反转RLBench
一句话总结
针对 3D VLA(如 RVT 系列)的三个数据层面瓶颈——关键帧冗余采样、黑色背景下深色物体不可见、训练场景过于简洁导致指令欠利用——提出优化采样策略(存储降 80%、训练加速 5×)、颜色反转投影分支(深色物体成功率 +10-30%)和任务引导点云 Mixup(跨任务 + 任务内),RLBench 18 任务达 90.5%(SOTA)、COLOSSEUM 干扰基准达 68.8%。
一、问题与动机
1.1 关键帧采样的冗余与失衡
RLBench 上的 3D VLA 方法(PerACT、RVT、RVT-2、SAM2ACT)采用"关键帧 + 演示增强"策略构建 replay buffer:每选一个观测帧,就重复采样其后所有关键帧作为训练样本。这导致:
- 数据冗余:411 GB replay buffer 中,349 GB 是冗余关键帧重复
- 时间偏差:后期关键帧被过度采样,模型过度关注后期动作而忽略前期
1.2 深色物体在点云投影中"消失"
RVT 系列将 3D 点云投影到正交视图(黑色背景)。深色物体(如深色杯子、棋子)与黑色背景融为一体,模型即使在训练时也无法学会操作这些物体。深度图无法解决这个问题——因为操作指令通常涉及颜色语义(如"把黑色杯子叠起来"),深度图无法提供颜色信息。
1.3 指令欠利用与干扰物脆弱性
训练场景中只包含任务相关物体,模型学会了"不看指令只看视觉"的捷径——即使不给语言输入也能高成功率完成许多任务。这导致测试时遇到干扰物就严重失败。
二、核心方法
2.1 优化关键帧采样策略
第一步:去冗余 + 循环训练。 去除重复关键帧,将关键帧样本和演示增强样本分开,交替循环训练。
第二步:诊断与修复。 去冗余后暴露出此前被稀释的问题样本,论文设计了逐步诊断流水线:
| 场景 | 症状 | 诊断 | 修复 |
|---|---|---|---|
| A: 错误样本 | 成功率持续下降 | replay buffer 中有有害样本 | 数据清洗 |
| B: 无效关键帧 | 总体平稳但某些任务为 0 | 关键帧选择不当 | 重新设计关键帧 |
| C: 泛化不足 | 训练好但测试差 | 采样本身没问题 | 改进模型泛化 |
针对性修复 5 类失败模式:
- 重复运动(如"放进抽屉"):引入最小距离阈值过滤过近样本 → 60%→100%
- 逆运动学越界(如"打开抽屉"):沿轨迹回退
创建安全缓冲 → 88%→100% - 碰撞避免失败(如"清空洗碗机"):插入防御性途经关键帧 → 0%→36%
- 缺少中间运动(如"擦桌子"):在曲率峰值处插入中间关键帧 → 0%→34%
- 运动间隙不足(如"冰球"):最小 0.8cm 高度偏移 → 20%→64%
最终效果:replay buffer 从 411 GB 降至 62 GB(-85%),训练时间从 120 小时降至 24 小时(2×A6000,5× 加速)。
2.2 颜色反转投影分支
在生成标准正交投影视图
深色物体在反转视图中变为亮色,与黑色背景形成高对比度。SAM2 视觉编码器同时处理标准和反转两路视图,通过特征融合模块整合互补信息。
为什么不用深度图替代? 论文做了消融实验:用深度分支替换颜色反转分支,对深色物体操作完全没有提升。原因有二:
- 数据层面:操作指令涉及颜色语义,深度图不含颜色信息
- 网络层面:低对比度导致 RGB patch 特征趋近零向量,深度特征在不同特征空间,需大量数据才能与退化的 RGB 特征对齐
2.3 任务引导 Mixup
基于 RVT 将动作预测建模为多视图 2D 热力图预测的特性——热力图具有空间可加性(多个目标可合并为多峰热力图),提出两种 Mixup:
任务内 Mixup(Intra-Task Mixup, ITM): 同一指令对应多个有效动作的情况(如"叠杯子"可以先叠任意一个)。混合同指令样本的点云,叠加热力图:
模型学会预测多峰热力图,捕捉多个可行动作位置,解决多目标任务中的样本冲突问题。
跨任务 Mixup(Cross-Task Mixup, CTM): 将不同任务的点云拼接但只保留当前任务的热力图:
模型必须依赖语言指令
三、实验结果
3.1 RLBench 18 任务
| 方法 | 平均成功率 | 训练资源 |
|---|---|---|
| PerACT | 49.4% | 8×V100×16 天 |
| RVT | 62.9% | 8×V100×1 天 |
| RVT-2 | 81.4% | 8×V100×20 小时 |
| SAM2ACT | 86.8% | 8×H100×12h 或 2×A6000×5 天 |
| BridgeVLA | 88.2% | 48×H100×20 小时 |
| TGM-VLA | 90.5% | 2×A6000×1 天 |
TGM-VLA 以最少的计算资源达到最高成功率。在 18 个任务中 11 个取得最佳,特别是 Sort Shape(80% vs BridgeVLA 60.8%,+19.2%)和 Stack Cups(87% vs 81.6%,+5.4%)。
3.2 COLOSSEUM 泛化基准(12 种未见干扰)
| 方法 | 平均成功率 | 平均排名 | All Perturbations | Distractor |
|---|---|---|---|---|
| RVT-2 | 56.7% | 3.92 | 15.6% | 60.8% |
| SAM2ACT | 61.9% | 2.93 | 18.5% | 62.3% |
| BridgeVLA | 64.0% | 2.14 | 18.7% | 51.8% |
| TGM-VLA | 68.8% | 1.14 | 24.3% | 74.3% |
TGM-VLA 在 14 个评估设置中 12 个取得最佳。特别是在 Distractor 干扰下,TGM-VLA(74.3%)大幅超过 BridgeVLA(51.8%,+22.5%),直接体现了跨任务 Mixup 的价值。
3.3 消融实验
Mixup 消融:
| 变体 | 平均成功率 |
|---|---|
| TGM-VLA w/o CTM | 88.2%(-2.3%) |
| TGM-VLA w/o ITM | 88.8%(-1.7%) |
| 完整 TGM-VLA | 90.5% |
CTM 贡献略大(+2.3%),在 Sort Shape 和 Stack Blocks 上提升 7-8%。
颜色反转消融(低对比度任务):
| 任务 | 无颜色反转 | 有颜色反转 | 提升 |
|---|---|---|---|
| Stack Cups(训练) | 80.0% | 94.0% | +14.0% |
| Setup Chess(训练) | 16.0% | 46.0% | +30.0% |
| Stack Cups(测试) | 74.0% | 87.0% | +13.0% |
| Setup Chess(测试) | 12.0% | 30.0% | +18.0% |
3.4 真实世界实验
SO101 机器人 + D435 相机,每任务 10 条演示:
| 任务 | 无 TGM | TGM-VLA | 提升 |
|---|---|---|---|
| Stack Blocks | 60% | 80% | +20% |
| Distractor | 40% | 90% | +50% |
| Background | 60% | 80% | +20% |
四、局限性与未来方向
- 手工启发式采样:关键帧修复策略(如最小距离阈值、高度偏移、途经点插入)都是手工设计的,未来可探索自适应采样和物理感知数据增强
- Sim-to-Real 差距:虽然在 COLOSSEUM 上泛化性强,但真实世界实验规模有限(仅 5 个任务 × 10 条演示)
- 仅适用于关键帧范式:TGM-VLA 的所有贡献都建立在"预测下一个关键帧动作"的范式上,不直接适用于连续动作预测的 VLA(如
)
五、个人思考
5.1 数据中心主义的胜利
TGM-VLA 的核心启示是:在数据层面做对的事情,比在模型架构上花功夫更有性价比。仅通过采样优化 + 数据增强,在 2×A6000×1 天的资源下超越了 48×H100×20 小时训练的 BridgeVLA。这与 DiffRL Data 的发现(合成高质量数据比收集更多人类演示更重要)在精神上一致。
5.2 颜色反转的简洁优雅
颜色反转是一个极其简单的操作(
5.3 Mixup 策略与 heatmap 范式的天然契合
任务引导 Mixup 之所以可行,关键在于 RVT 系列将动作预测建模为 2D 热力图——热力图具有空间可加性,允许多峰叠加。这种策略无法直接迁移到连续动作空间的 VLA(如
5.4 与 DAM-VLA 的互补视角
DAM-VLA 关注的是"如何在架构层面解耦粗/细动作",TGM-VLA 关注的是"如何在数据层面提升质量和效率"。两者可能互补:用 TGM-VLA 的采样优化和 Mixup 增强 DAM-VLA 的训练数据,可能进一步提升性能。
5.5 关键帧诊断流水线的实用价值
论文提出的三类场景诊断方法(成功率持续下降 → 错误样本;局部为零 → 无效关键帧;训练好测试差 → 泛化不足)是一个很实用的调试框架,对所有关键帧方法都有参考价值。
参考
- RVT / RVT-2(Goyal et al., 2023/2024):将 3D 点云投影为 2.5D 多视图——TGM-VLA 的基础范式
- SAM2ACT(Fang et al., 2025):基于 SAM2 的 3D 操作——TGM-VLA 的直接前驱
- BridgeVLA(Li et al., 2025):预训练 VLM 骨干的 3D VLA——TGM-VLA 的主要对比基线
- PerACT(Shridhar et al., 2023):体素空间 3D VLA——最早的关键帧过采样问题来源
- COLOSSEUM(Pumacay et al., 2024):12 种环境干扰的泛化评估基准