Skip to content

TGM-VLA:任务引导 Mixup 实现高效采样与鲁棒 3D 机器人操作

论文:TGM-VLA: Task-Guided Mixup for Sampling-Efficient and Robust Robotic Manipulation

作者:Fanqi Pu, Lei Jiang, Wenming Yang

机构:清华大学深圳国际研究生院、国家人形机器人创新中心(上海)

发布时间:2026年2月

🔗 arXiv | 代码

分类标签:3D VLA 关键帧采样 数据增强 点云 Mixup 颜色反转 RLBench


一句话总结

针对 3D VLA(如 RVT 系列)的三个数据层面瓶颈——关键帧冗余采样、黑色背景下深色物体不可见、训练场景过于简洁导致指令欠利用——提出优化采样策略(存储降 80%、训练加速 5×)、颜色反转投影分支(深色物体成功率 +10-30%)和任务引导点云 Mixup(跨任务 + 任务内),RLBench 18 任务达 90.5%(SOTA)、COLOSSEUM 干扰基准达 68.8%。


一、问题与动机

1.1 关键帧采样的冗余与失衡

RLBench 上的 3D VLA 方法(PerACT、RVT、RVT-2、SAM2ACT)采用"关键帧 + 演示增强"策略构建 replay buffer:每选一个观测帧,就重复采样其后所有关键帧作为训练样本。这导致:

  • 数据冗余:411 GB replay buffer 中,349 GB 是冗余关键帧重复
  • 时间偏差:后期关键帧被过度采样,模型过度关注后期动作而忽略前期

1.2 深色物体在点云投影中"消失"

RVT 系列将 3D 点云投影到正交视图(黑色背景)。深色物体(如深色杯子、棋子)与黑色背景融为一体,模型即使在训练时也无法学会操作这些物体。深度图无法解决这个问题——因为操作指令通常涉及颜色语义(如"把黑色杯子叠起来"),深度图无法提供颜色信息。

1.3 指令欠利用与干扰物脆弱性

训练场景中只包含任务相关物体,模型学会了"不看指令只看视觉"的捷径——即使不给语言输入也能高成功率完成许多任务。这导致测试时遇到干扰物就严重失败。


二、核心方法

2.1 优化关键帧采样策略

第一步:去冗余 + 循环训练。 去除重复关键帧,将关键帧样本和演示增强样本分开,交替循环训练。

第二步:诊断与修复。 去冗余后暴露出此前被稀释的问题样本,论文设计了逐步诊断流水线:

场景症状诊断修复
A: 错误样本成功率持续下降replay buffer 中有有害样本数据清洗
B: 无效关键帧总体平稳但某些任务为 0关键帧选择不当重新设计关键帧
C: 泛化不足训练好但测试差采样本身没问题改进模型泛化

针对性修复 5 类失败模式:

  1. 重复运动(如"放进抽屉"):引入最小距离阈值过滤过近样本 → 60%→100%
  2. 逆运动学越界(如"打开抽屉"):沿轨迹回退 α[0.8,0.9] 创建安全缓冲 → 88%→100%
  3. 碰撞避免失败(如"清空洗碗机"):插入防御性途经关键帧 → 0%→36%
  4. 缺少中间运动(如"擦桌子"):在曲率峰值处插入中间关键帧 → 0%→34%
  5. 运动间隙不足(如"冰球"):最小 0.8cm 高度偏移 → 20%→64%

最终效果:replay buffer 从 411 GB 降至 62 GB(-85%),训练时间从 120 小时降至 24 小时(2×A6000,5× 加速)。

2.2 颜色反转投影分支

在生成标准正交投影视图 {Vi} 的同时,生成颜色反转视图 {Vi}

Vi[R,G,B]=[255R, 255G, 255B]

深色物体在反转视图中变为亮色,与黑色背景形成高对比度。SAM2 视觉编码器同时处理标准和反转两路视图,通过特征融合模块整合互补信息。

为什么不用深度图替代? 论文做了消融实验:用深度分支替换颜色反转分支,对深色物体操作完全没有提升。原因有二:

  • 数据层面:操作指令涉及颜色语义,深度图不含颜色信息
  • 网络层面:低对比度导致 RGB patch 特征趋近零向量,深度特征在不同特征空间,需大量数据才能与退化的 RGB 特征对齐

2.3 任务引导 Mixup

基于 RVT 将动作预测建模为多视图 2D 热力图预测的特性——热力图具有空间可加性(多个目标可合并为多峰热力图),提出两种 Mixup:

任务内 Mixup(Intra-Task Mixup, ITM): 同一指令对应多个有效动作的情况(如"叠杯子"可以先叠任意一个)。混合同指令样本的点云,叠加热力图:

P~=Concat(P1,P2),H~=H1+H2

模型学会预测多峰热力图,捕捉多个可行动作位置,解决多目标任务中的样本冲突问题。

跨任务 Mixup(Cross-Task Mixup, CTM): 将不同任务的点云拼接但只保留当前任务的热力图:

P~=Concat(P1,P2,,PM),L~=L1,H~=H1

模型必须依赖语言指令 L1 来识别相关区域、抑制来自其他任务物体的干扰。这迫使模型建立指令-动作的不变关联,而非依赖视觉捷径。


三、实验结果

3.1 RLBench 18 任务

方法平均成功率训练资源
PerACT49.4%8×V100×16 天
RVT62.9%8×V100×1 天
RVT-281.4%8×V100×20 小时
SAM2ACT86.8%8×H100×12h 或 2×A6000×5 天
BridgeVLA88.2%48×H100×20 小时
TGM-VLA90.5%2×A6000×1 天

TGM-VLA 以最少的计算资源达到最高成功率。在 18 个任务中 11 个取得最佳,特别是 Sort Shape(80% vs BridgeVLA 60.8%,+19.2%)和 Stack Cups(87% vs 81.6%,+5.4%)。

3.2 COLOSSEUM 泛化基准(12 种未见干扰)

方法平均成功率平均排名All PerturbationsDistractor
RVT-256.7%3.9215.6%60.8%
SAM2ACT61.9%2.9318.5%62.3%
BridgeVLA64.0%2.1418.7%51.8%
TGM-VLA68.8%1.1424.3%74.3%

TGM-VLA 在 14 个评估设置中 12 个取得最佳。特别是在 Distractor 干扰下,TGM-VLA(74.3%)大幅超过 BridgeVLA(51.8%,+22.5%),直接体现了跨任务 Mixup 的价值。

3.3 消融实验

Mixup 消融:

变体平均成功率
TGM-VLA w/o CTM88.2%(-2.3%)
TGM-VLA w/o ITM88.8%(-1.7%)
完整 TGM-VLA90.5%

CTM 贡献略大(+2.3%),在 Sort Shape 和 Stack Blocks 上提升 7-8%。

颜色反转消融(低对比度任务):

任务无颜色反转有颜色反转提升
Stack Cups(训练)80.0%94.0%+14.0%
Setup Chess(训练)16.0%46.0%+30.0%
Stack Cups(测试)74.0%87.0%+13.0%
Setup Chess(测试)12.0%30.0%+18.0%

3.4 真实世界实验

SO101 机器人 + D435 相机,每任务 10 条演示:

任务无 TGMTGM-VLA提升
Stack Blocks60%80%+20%
Distractor40%90%+50%
Background60%80%+20%

四、局限性与未来方向

  1. 手工启发式采样:关键帧修复策略(如最小距离阈值、高度偏移、途经点插入)都是手工设计的,未来可探索自适应采样和物理感知数据增强
  2. Sim-to-Real 差距:虽然在 COLOSSEUM 上泛化性强,但真实世界实验规模有限(仅 5 个任务 × 10 条演示)
  3. 仅适用于关键帧范式:TGM-VLA 的所有贡献都建立在"预测下一个关键帧动作"的范式上,不直接适用于连续动作预测的 VLA(如 π0

五、个人思考

5.1 数据中心主义的胜利

TGM-VLA 的核心启示是:在数据层面做对的事情,比在模型架构上花功夫更有性价比。仅通过采样优化 + 数据增强,在 2×A6000×1 天的资源下超越了 48×H100×20 小时训练的 BridgeVLA。这与 DiffRL Data 的发现(合成高质量数据比收集更多人类演示更重要)在精神上一致。

5.2 颜色反转的简洁优雅

颜色反转是一个极其简单的操作(255x),但精准解决了点云投影范式的核心视觉缺陷。论文的深度分支消融实验是一个很好的工程洞察:问题是颜色信号退化,就用颜色手段修复——几何信息无法替代缺失的颜色信息

5.3 Mixup 策略与 heatmap 范式的天然契合

任务引导 Mixup 之所以可行,关键在于 RVT 系列将动作预测建模为 2D 热力图——热力图具有空间可加性,允许多峰叠加。这种策略无法直接迁移到连续动作空间的 VLA(如 π0、CogACT)。这揭示了动作表示选择对数据增强策略的约束关系。

5.4 与 DAM-VLA 的互补视角

DAM-VLA 关注的是"如何在架构层面解耦粗/细动作",TGM-VLA 关注的是"如何在数据层面提升质量和效率"。两者可能互补:用 TGM-VLA 的采样优化和 Mixup 增强 DAM-VLA 的训练数据,可能进一步提升性能。

5.5 关键帧诊断流水线的实用价值

论文提出的三类场景诊断方法(成功率持续下降 → 错误样本;局部为零 → 无效关键帧;训练好测试差 → 泛化不足)是一个很实用的调试框架,对所有关键帧方法都有参考价值。


参考

  • RVT / RVT-2(Goyal et al., 2023/2024):将 3D 点云投影为 2.5D 多视图——TGM-VLA 的基础范式
  • SAM2ACT(Fang et al., 2025):基于 SAM2 的 3D 操作——TGM-VLA 的直接前驱
  • BridgeVLA(Li et al., 2025):预训练 VLM 骨干的 3D VLA——TGM-VLA 的主要对比基线
  • PerACT(Shridhar et al., 2023):体素空间 3D VLA——最早的关键帧过采样问题来源
  • COLOSSEUM(Pumacay et al., 2024):12 种环境干扰的泛化评估基准