TGM-VLA：任务引导 Mixup 实现高效采样与鲁棒 3D 机器人操作

论文：TGM-VLA: Task-Guided Mixup for Sampling-Efficient and Robust Robotic Manipulation
作者：Fanqi Pu, Lei Jiang, Wenming Yang
机构：清华大学深圳国际研究生院、国家人形机器人创新中心（上海）
发布时间：2026年2月
🔗 arXiv | 代码
分类标签：3D VLA 关键帧采样 数据增强 点云 Mixup 颜色反转 RLBench

一句话总结

针对 3D VLA（如 RVT 系列）的三个数据层面瓶颈——关键帧冗余采样、黑色背景下深色物体不可见、训练场景过于简洁导致指令欠利用——提出优化采样策略（存储降 80%、训练加速 5×）、颜色反转投影分支（深色物体成功率 +10-30%）和任务引导点云 Mixup（跨任务 + 任务内），RLBench 18 任务达 90.5%（SOTA）、COLOSSEUM 干扰基准达 68.8%。

一、问题与动机

1.1 关键帧采样的冗余与失衡

RLBench 上的 3D VLA 方法（PerACT、RVT、RVT-2、SAM2ACT）采用"关键帧 + 演示增强"策略构建 replay buffer：每选一个观测帧，就重复采样其后所有关键帧作为训练样本。这导致：

数据冗余：411 GB replay buffer 中，349 GB 是冗余关键帧重复
时间偏差：后期关键帧被过度采样，模型过度关注后期动作而忽略前期

1.2 深色物体在点云投影中"消失"

RVT 系列将 3D 点云投影到正交视图（黑色背景）。深色物体（如深色杯子、棋子）与黑色背景融为一体，模型即使在训练时也无法学会操作这些物体。深度图无法解决这个问题——因为操作指令通常涉及颜色语义（如"把黑色杯子叠起来"），深度图无法提供颜色信息。

1.3 指令欠利用与干扰物脆弱性

训练场景中只包含任务相关物体，模型学会了"不看指令只看视觉"的捷径——即使不给语言输入也能高成功率完成许多任务。这导致测试时遇到干扰物就严重失败。

二、核心方法

2.1 优化关键帧采样策略

第一步：去冗余 + 循环训练。 去除重复关键帧，将关键帧样本和演示增强样本分开，交替循环训练。

第二步：诊断与修复。 去冗余后暴露出此前被稀释的问题样本，论文设计了逐步诊断流水线：

场景	症状	诊断	修复
A: 错误样本	成功率持续下降	replay buffer 中有有害样本	数据清洗
B: 无效关键帧	总体平稳但某些任务为 0	关键帧选择不当	重新设计关键帧
C: 泛化不足	训练好但测试差	采样本身没问题	改进模型泛化

针对性修复 5 类失败模式：

重复运动（如"放进抽屉"）：引入最小距离阈值过滤过近样本 → 60%→100%
逆运动学越界（如"打开抽屉"）：沿轨迹回退 $α \in [0.8, 0.9]$ 创建安全缓冲 → 88%→100%
碰撞避免失败（如"清空洗碗机"）：插入防御性途经关键帧 → 0%→36%
缺少中间运动（如"擦桌子"）：在曲率峰值处插入中间关键帧 → 0%→34%
运动间隙不足（如"冰球"）：最小 0.8cm 高度偏移 → 20%→64%

最终效果：replay buffer 从 411 GB 降至 62 GB（-85%），训练时间从 120 小时降至 24 小时（2×A6000，5× 加速）。

2.2 颜色反转投影分支

在生成标准正交投影视图 ${V_{i}}$ 的同时，生成颜色反转视图 ${{\overset{―}{V}}_{i}}$ ：

{\overset{―}{V}}_{i} [R, G, B] = [255 - R, 255 - G, 255 - B]

深色物体在反转视图中变为亮色，与黑色背景形成高对比度。SAM2 视觉编码器同时处理标准和反转两路视图，通过特征融合模块整合互补信息。

为什么不用深度图替代？ 论文做了消融实验：用深度分支替换颜色反转分支，对深色物体操作完全没有提升。原因有二：

数据层面：操作指令涉及颜色语义，深度图不含颜色信息
网络层面：低对比度导致 RGB patch 特征趋近零向量，深度特征在不同特征空间，需大量数据才能与退化的 RGB 特征对齐

2.3 任务引导 Mixup

基于 RVT 将动作预测建模为多视图 2D 热力图预测的特性——热力图具有空间可加性（多个目标可合并为多峰热力图），提出两种 Mixup：

任务内 Mixup（Intra-Task Mixup, ITM）： 同一指令对应多个有效动作的情况（如"叠杯子"可以先叠任意一个）。混合同指令样本的点云，叠加热力图：

\tilde{P} = Concat (P_{1}, P_{2}), \tilde{H} = H_{1} + H_{2}

模型学会预测多峰热力图，捕捉多个可行动作位置，解决多目标任务中的样本冲突问题。

跨任务 Mixup（Cross-Task Mixup, CTM）： 将不同任务的点云拼接但只保留当前任务的热力图：

\tilde{P} = Concat (P_{1}, P_{2}, \dots, P_{M}), \tilde{L} = L_{1}, \tilde{H} = H_{1}

模型必须依赖语言指令 $L_{1}$ 来识别相关区域、抑制来自其他任务物体的干扰。这迫使模型建立指令-动作的不变关联，而非依赖视觉捷径。

三、实验结果

3.1 RLBench 18 任务

方法	平均成功率	训练资源
PerACT	49.4%	8×V100×16 天
RVT	62.9%	8×V100×1 天
RVT-2	81.4%	8×V100×20 小时
SAM2ACT	86.8%	8×H100×12h 或 2×A6000×5 天
BridgeVLA	88.2%	48×H100×20 小时
TGM-VLA	90.5%	2×A6000×1 天

TGM-VLA 以最少的计算资源达到最高成功率。在 18 个任务中 11 个取得最佳，特别是 Sort Shape（80% vs BridgeVLA 60.8%，+19.2%）和 Stack Cups（87% vs 81.6%，+5.4%）。

3.2 COLOSSEUM 泛化基准（12 种未见干扰）

方法	平均成功率	平均排名	All Perturbations	Distractor
RVT-2	56.7%	3.92	15.6%	60.8%
SAM2ACT	61.9%	2.93	18.5%	62.3%
BridgeVLA	64.0%	2.14	18.7%	51.8%
TGM-VLA	68.8%	1.14	24.3%	74.3%

TGM-VLA 在 14 个评估设置中 12 个取得最佳。特别是在 Distractor 干扰下，TGM-VLA（74.3%）大幅超过 BridgeVLA（51.8%，+22.5%），直接体现了跨任务 Mixup 的价值。

3.3 消融实验

Mixup 消融：

变体	平均成功率
TGM-VLA w/o CTM	88.2%（-2.3%）
TGM-VLA w/o ITM	88.8%（-1.7%）
完整 TGM-VLA	90.5%

CTM 贡献略大（+2.3%），在 Sort Shape 和 Stack Blocks 上提升 7-8%。

颜色反转消融（低对比度任务）：

任务	无颜色反转	有颜色反转	提升
Stack Cups（训练）	80.0%	94.0%	+14.0%
Setup Chess（训练）	16.0%	46.0%	+30.0%
Stack Cups（测试）	74.0%	87.0%	+13.0%
Setup Chess（测试）	12.0%	30.0%	+18.0%

3.4 真实世界实验

SO101 机器人 + D435 相机，每任务 10 条演示：

任务	无 TGM	TGM-VLA	提升
Stack Blocks	60%	80%	+20%
Distractor	40%	90%	+50%
Background	60%	80%	+20%

四、局限性与未来方向

手工启发式采样：关键帧修复策略（如最小距离阈值、高度偏移、途经点插入）都是手工设计的，未来可探索自适应采样和物理感知数据增强
Sim-to-Real 差距：虽然在 COLOSSEUM 上泛化性强，但真实世界实验规模有限（仅 5 个任务 × 10 条演示）
仅适用于关键帧范式：TGM-VLA 的所有贡献都建立在"预测下一个关键帧动作"的范式上，不直接适用于连续动作预测的 VLA（如 $π_{0}$ ）

五、个人思考

5.1 数据中心主义的胜利

TGM-VLA 的核心启示是：在数据层面做对的事情，比在模型架构上花功夫更有性价比。仅通过采样优化 + 数据增强，在 2×A6000×1 天的资源下超越了 48×H100×20 小时训练的 BridgeVLA。这与 DiffRL Data 的发现（合成高质量数据比收集更多人类演示更重要）在精神上一致。

5.2 颜色反转的简洁优雅

颜色反转是一个极其简单的操作（ $255 - x$ ），但精准解决了点云投影范式的核心视觉缺陷。论文的深度分支消融实验是一个很好的工程洞察：问题是颜色信号退化，就用颜色手段修复——几何信息无法替代缺失的颜色信息。

5.3 Mixup 策略与 heatmap 范式的天然契合

任务引导 Mixup 之所以可行，关键在于 RVT 系列将动作预测建模为 2D 热力图——热力图具有空间可加性，允许多峰叠加。这种策略无法直接迁移到连续动作空间的 VLA（如 $π_{0}$ 、CogACT）。这揭示了动作表示选择对数据增强策略的约束关系。

5.4 与 DAM-VLA 的互补视角

DAM-VLA 关注的是"如何在架构层面解耦粗/细动作"，TGM-VLA 关注的是"如何在数据层面提升质量和效率"。两者可能互补：用 TGM-VLA 的采样优化和 Mixup 增强 DAM-VLA 的训练数据，可能进一步提升性能。

5.5 关键帧诊断流水线的实用价值

论文提出的三类场景诊断方法（成功率持续下降 → 错误样本；局部为零 → 无效关键帧；训练好测试差 → 泛化不足）是一个很实用的调试框架，对所有关键帧方法都有参考价值。

参考

RVT / RVT-2（Goyal et al., 2023/2024）：将 3D 点云投影为 2.5D 多视图——TGM-VLA 的基础范式
SAM2ACT（Fang et al., 2025）：基于 SAM2 的 3D 操作——TGM-VLA 的直接前驱
BridgeVLA（Li et al., 2025）：预训练 VLM 骨干的 3D VLA——TGM-VLA 的主要对比基线
PerACT（Shridhar et al., 2023）：体素空间 3D VLA——最早的关键帧过采样问题来源
COLOSSEUM（Pumacay et al., 2024）：12 种环境干扰的泛化评估基准

02 Alignment & Safety

04 Multimodal

VLM

幻觉缓解

Token 压缩

视频生成

06 Embodied AI

VLA

基础模型

高效推理

推理增强

RL 后训练

World Models

Imitation Learning

09 Evaluation

10 Reinforcement Learning

TGM-VLA：任务引导 Mixup 实现高效采样与鲁棒 3D 机器人操作

一句话总结

一、问题与动机

1.1 关键帧采样的冗余与失衡

1.2 深色物体在点云投影中"消失"

1.3 指令欠利用与干扰物脆弱性

二、核心方法

2.1 优化关键帧采样策略

2.2 颜色反转投影分支

2.3 任务引导 Mixup

三、实验结果

3.1 RLBench 18 任务

3.2 COLOSSEUM 泛化基准（12 种未见干扰）

3.3 消融实验

3.4 真实世界实验

四、局限性与未来方向

五、个人思考

5.1 数据中心主义的胜利

5.2 颜色反转的简洁优雅

5.3 Mixup 策略与 heatmap 范式的天然契合

5.4 与 DAM-VLA 的互补视角

5.5 关键帧诊断流水线的实用价值

参考

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

TGM-VLA：任务引导 Mixup 实现高效采样与鲁棒 3D 机器人操作 ​

一句话总结 ​

一、问题与动机 ​

1.1 关键帧采样的冗余与失衡 ​

1.2 深色物体在点云投影中"消失" ​

1.3 指令欠利用与干扰物脆弱性 ​

二、核心方法 ​

2.1 优化关键帧采样策略 ​

2.2 颜色反转投影分支 ​

2.3 任务引导 Mixup ​

三、实验结果 ​

3.1 RLBench 18 任务 ​

3.2 COLOSSEUM 泛化基准（12 种未见干扰） ​

3.3 消融实验 ​

3.4 真实世界实验 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 数据中心主义的胜利 ​

5.2 颜色反转的简洁优雅 ​

5.3 Mixup 策略与 heatmap 范式的天然契合 ​

5.4 与 DAM-VLA 的互补视角 ​

5.5 关键帧诊断流水线的实用价值 ​

参考 ​

TGM-VLA：任务引导 Mixup 实现高效采样与鲁棒 3D 机器人操作

一句话总结

一、问题与动机

1.1 关键帧采样的冗余与失衡

1.2 深色物体在点云投影中"消失"

1.3 指令欠利用与干扰物脆弱性

二、核心方法

2.1 优化关键帧采样策略

2.2 颜色反转投影分支

2.3 任务引导 Mixup

三、实验结果

3.1 RLBench 18 任务

3.2 COLOSSEUM 泛化基准（12 种未见干扰）

3.3 消融实验

3.4 真实世界实验

四、局限性与未来方向

五、个人思考

5.1 数据中心主义的胜利

5.2 颜色反转的简洁优雅

5.3 Mixup 策略与 heatmap 范式的天然契合

5.4 与 DAM-VLA 的互补视角

5.5 关键帧诊断流水线的实用价值

参考