3D-MIX for VLA:即插即用的 VGGT 3D 信息融合模块
论文:3D-MIX for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models
作者:Bin Yu, Shijie Lian, Xiaopeng Lin, Zhaolong Shen, Yuliang Wei, Haishan Liu, Changti Wu, Hang Yuan, Bailing Wang, Cong Huang, Kai Chen
机构:HIT、ZGCA、ZGCI、HUST、HKUST(GZ)、BUAA、ECNU、DeepCybo
发布时间:2026年03月
分类标签:
VLA3D 融合VGGTGated Fusion即插即用SimplerEnvLIBEROGR00Tπ-style
一句话总结
系统对比 9 种 VGGT 3D 特征融合策略,发现**语义条件化门控融合(GatedFusion)**最优,据此提出 3D-MIX 即插即用模块,通过自适应门控动态平衡 2D 语义与 3D 几何特征,无需修改 MLLM 或动作专家,在 GR00T-style 和
一、问题与动机
1.1 MLLM 的空间智能缺陷
VLA 模型依赖 MLLM 作为语义编码器,但 MLLM 主要在 2D 图像-文本语料上预训练,缺乏显式 3D 几何监督,导致深度感知和空间推理能力不足——而这正是抓取姿态估计、空间关系理解等操作任务所需的关键能力。
1.2 VGGT 融合策略缺乏系统比较
VGGT(Visual Geometry Grounded Transformer)作为强大的 3D 特征提取器已被多个工作引入 VLA。然而现有方法采用各不相同的融合策略(有的在输入端注入、有的在中间层注入、有的在动作头端融合),缺乏控制变量的系统比较,社区对最优融合方案没有共识。
1.3 核心问题
论文提出三个关键问题:
- Where:3D 特征应注入 VLA pipeline 的哪个位置?
- How:几何信息和语义信息应如何组合?
- What:什么融合机制能实现有效的跨模态交互?
二、先导实验:9 种融合策略对比
2.1 基础架构
采用 GR00T-style VLA 框架:Qwen3-VL-4B 作为 MLLM 骨干,DiT-based flow-matching 动作专家。VGGT-1B 作为冻结的 3D 特征提取器。
2.2 九种融合策略
| 编号 | 策略 | 融合位置 | 核心机制 | 推理开销 |
|---|---|---|---|---|
| 1 | AE-Fusion | 动作专家 | 双路交叉注意力同时注意 MLLM 和 VGGT | 高 |
| 2 | Early Fusion | MLLM 输入 | VGGT token 直接拼入输入序列 | 高 |
| 3 | Concat Fusion | MLLM 输出 | GateMixer 预处理后直接拼接 | 中 |
| 4 | CrossAttn Fusion | MLLM 输出 | GateMixer + 交叉注意力后拼接 | 中 |
| 5 | GatedFusion | MLLM 输出 | 语义条件化自适应门控 | 中 |
| 6 | 3D-Tokens | MLLM 输入 | 特殊 token + 对齐损失,推理时不需 VGGT | 零 |
| 7 | Middle Layer Injection | MLLM 中间层 | Adapter 风格交叉注意力 | 高 |
| 8 | Spatial Forcing | MLLM 中间层 | 训练时对齐损失,推理时丢弃 VGGT | 零 |
| 9 | Visual Fusion | 视觉 token 层 | 2D token 作为 query 交叉注意力查询 3D token | 高 |
2.3 先导实验结果
| 方法 | SIMPLER Avg | LIBERO Avg |
|---|---|---|
| Base(Qwen3-VL-4B) | 57.81 | 96.50 |
| + AE-Fusion | 3.13 | 97.40 |
| + Early Fusion | 44.53 | 86.45 |
| + Visual Fusion | 4.69 | 73.40 |
| + 3D-Tokens | 56.25 | 97.64 |
| + Spatial Forcing | 58.85 | 97.72 |
| + Concat Fusion | 60.42 | 97.75 |
| + CrossAttn Fusion | 56.25 | 83.45 |
| + Middle Layer Injection | 51.82 | 97.82 |
| + GatedFusion | 68.23 | 98.05 |
关键发现:
- GatedFusion 双指标最优:SIMPLER +10.42%,LIBERO +1.55%,在两个基准上均排名第一
- AE-Fusion 和 Visual Fusion 严重崩溃:SIMPLER 分别降至 3.13% 和 4.69%,说明在错误位置注入 3D 信息会严重干扰模型
- Early Fusion 效果差:直接将 VGGT token 注入 MLLM 输入端,增加了自注意力长度但缺乏有效的跨模态交互
- 零推理开销方法(3D-Tokens、Spatial Forcing)表现中规中矩:免费的 3D 信息注入仍然有效但不如显式融合
三、核心方法:3D-MIX 模块
基于先导实验中 GatedFusion 的最优表现,论文将其工程化为即插即用的 3D-MIX 模块。
3.1 特征提取与投影
VGGT 从多视图 RGB 图像
同时 MLLM 处理相同图像和语言指令,产出语义隐状态
3.2 语义条件化门控
核心思想:不同操作任务对语义理解和几何精度的依赖程度不同,应由模型自适应决定融合比例。
第一步:提取全局语义摘要。对 MLLM 隐状态做均值池化:
第二步:计算逐位置门控权重。将全局语义上下文广播到每个几何 token 位置,拼接后通过门控网络计算 sigmoid 门:
其中
用大白话说:每个几何 token 位置都会"参考"当前任务的整体语义,决定自己应该保留多少几何信息、吸收多少语义信息。这是一个 element-wise 的
3.3 自适应特征融合
融合后的每个位置表示为语义和几何特征的加权混合:
其中
3.4 GR00T-style 集成
3D-MIX 作为 MLLM 和动作专家之间的桥接模块插入。MLLM 产出最终层隐状态,经 3D-MIX 融合后传给 DiT 动作专家做交叉注意力去噪:
无需修改 DiT 架构。
3.5 -style 集成
- VGGT 特征提取一次,投影到
,所有层共享 - 每层
独立计算语义上下文 和门控参数 - 每层有独立的门控网络参数,实现层级别的自适应融合
逐层融合的优势:(1) 不同层可关注不同层级的几何抽象;(2) 每层学习自己的最优融合比例。
3.6 即插即用特性
3D-MIX 仅需两个输入:MLLM 隐状态和 VGGT 几何特征,不修改 MLLM 和动作专家的任何源代码。集成步骤:
- 加载预训练 VGGT 并冻结参数
- 在 MLLM 和动作专家之间插入 3D-MIX
- 用标准 flow-matching 目标端到端训练,梯度通过融合模块但不更新 VGGT
四、实验结果
4.1 训练配置
- 8× NVIDIA H100 GPU,DeepSpeed ZeRO-2
- 60K steps,GR00T-style batch size 16(有效 128),
-style batch size 10 - MLLM 学习率
,动作专家和融合参数 ,AdamW + 余弦退火 - VGGT-1B 全程冻结
4.2 GR00T-style 结果(9 个模型变体)
| MLLM 骨干 | SIMPLER Avg(无 3D-MIX → 有 3D-MIX) | 提升 | LIBERO Avg 提升 |
|---|---|---|---|
| Qwen3-VL-4B | 57.81 → 68.23 | +10.42 | +1.55 |
| Qwen3-VL-8B | 58.40 → 63.27 | +4.87 | +0.85 |
| Qwen2.5-VL-3B | 45.05 → 47.92 | +2.87 | +0.90 |
| Qwen2.5-VL-7B | 45.31 → 47.14 | +1.83 | +0.40 |
| RoboBrain2.0-7B | 37.83 → 49.22 | +11.39 | +0.75 |
| RynnBrain-8B | 52.60 → 65.11 | +12.51 | +0.35 |
| RynnBrain-2B | 48.18 → 56.25 | +8.07 | +0.05 |
| MimoEmbodied-7B | 52.87 → 63.28 | +10.41 | +0.63 |
| RoboBrain2.5-8B | 64.58 → 65.63 | +1.05 | +0.35 |
| RoboBrain2.5-4B | 56.25 → 63.02 | +6.77 | +0.25 |
平均 SIMPLER 提升 +7.0%。所有 9 个变体均取得正向提升,无一例外。
4.3 -style 结果(5 个模型变体)
| MLLM 骨干 | SIMPLER Avg 提升 | LIBERO Avg 提升 |
|---|---|---|
| Qwen3-VL-4B | +6.77 | +0.70 |
| Qwen3-VL-2B | +5.38 | +0.95 |
| Qwen2.5-VL-3B | +5.99 | +0.65 |
| RynnBrain-2B | +1.57 | +1.30 |
| RoboBrain2.5-4B | +2.60 | +0.75 |
4.4 消融实验
(a) VGGT 冻结 vs. 可训练:冻结 VGGT(68.23%)优于或持平微调 VGGT(最高 65.56%,lr=1e-6),说明预训练几何表征已足够好,微调反而引入过拟合风险。
(b) 3D 信息敏感性:将 VGGT 特征替换为零向量或高斯噪声,性能均显著下降,确认 3D-MIX 的增益来自真实的 3D 几何信息,而非简单的特征维度扩展。
(c) 稀疏层融合(
五、局限性与未来方向
- 推理时需要 VGGT 前向传播:与 Spatial Forcing 和 3D-Tokens 不同,3D-MIX 在推理时仍需运行 VGGT-1B 提取 3D 特征,增加了计算和显存开销
- VGGT 质量上限:3D-MIX 的效果受限于 VGGT 的 3D 表征质量,在 VGGT 处理不佳的场景(如极端遮挡、镜面反射)可能受限
- 仅在仿真中验证:实验全部在 SimplerEnv 和 LIBERO 上进行,缺乏真实世界机器人实验
- SIMPLER 基准多样性有限:OOD 评测仅 4 个任务(Stack Green、Put Carrot/Spoon/Eggplant),难以全面反映 3D 感知的价值
- LIBERO 提升有限:in-domain LIBERO 的提升普遍在 0.05%–1.55%,接近饱和,可能无法体现 3D 信息在高难度任务上的更大价值
六、个人思考
6.1 系统融合对比的价值
论文最大的贡献可能不是 3D-MIX 本身,而是对 9 种融合策略的系统对比。先导实验中几个有趣的发现:
- AE-Fusion(在动作专家端融合)和 Visual Fusion(在视觉 token 端融合)几乎完全崩溃(SIMPLER 仅 3-5%),说明在 VLA pipeline 的首尾端注入 3D 信息极其危险——可能是因为这些位置的特征空间已高度特化,外部 3D 信息的引入导致严重的分布偏移
- GatedFusion 在 MLLM 输出和动作专家之间的中间位置效果最好,与 Spatial Forcing 中第 24/32 层最优的发现一致——VLA pipeline 存在一个"甜蜜区"适合注入额外模态信息
6.2 与 Spatial Forcing 的互补与权衡
本论文实际上包含了 Spatial Forcing 作为 9 种方案之一。两者的核心权衡是:
| 3D-MIX | Spatial Forcing | |
|---|---|---|
| 融合方式 | 显式门控融合 | 隐式表征对齐 |
| 推理开销 | 需运行 VGGT-1B | 零 |
| OOD 泛化 | +10.42%(SIMPLER) | +1.04%(SIMPLER) |
| 融合深度 | 自适应、逐位置 | 固定对齐层 |
3D-MIX 以推理开销为代价换取了更强的 OOD 泛化。如果推理延迟和显存不敏感(如大型工业部署),3D-MIX 更优;如果追求轻量部署,Spatial Forcing 是更实用的选择。
6.3 门控机制的设计洞察
GatedFusion 的关键设计选择值得注意:
- 全局语义上下文驱动门控:用 MLLM 隐状态的均值池化而非局部特征来调制门,确保门控"理解"当前任务的整体语义需求
- 逐元素门而非标量门:
维门向量允许在特征维度上做更细粒度的选择——某些维度可能更需要几何信息,另一些更需要语义信息 - 投影后再融合:语义和几何特征各自经过独立的
、 投影后再做加权混合,而非直接对原始特征做门控,增加了表达能力
6.4 RoboBrain2.5-8B 的"饱和"现象
RoboBrain2.5-8B 的 baseline 已达 64.58%(所有模型中最高),3D-MIX 仅提升 +1.05%。这暗示当 MLLM 骨干本身已具备较强空间感知能力时,外部 3D 信息的边际收益递减。反之,baseline 较弱的 RoboBrain2.0-7B(37.83%)和 RynnBrain-8B(52.60%)获得了最大提升(+11-12%)。这与直觉一致:3D 信息对空间感知较弱的模型帮助最大。
6.5 与已有 3D VLA 的定位关系
在已有笔记中,3D VLA 方法可按介入方式分为三层:
- 数据层面(TGM-VLA):点云 Mixup、颜色反转等数据增强
- 表征层面(Spatial Forcing):中间层隐式对齐,推理零开销
- 架构层面(3D-MIX、3D-CAVLA):显式注入 3D 特征或模块
这三层理论上可以叠加——用 TGM-VLA 的数据增强 + Spatial Forcing 的隐式监督 + 3D-MIX 的显式融合,是否能获得更大提升值得探索。
参考
- VGGT(Wang et al., CVPR 2025):3D-MIX 使用的冻结 3D 几何特征提取器
- Spatial Forcing(Li et al., ICLR 2026):9 种融合策略之一,隐式对齐范式的代表
- GR00T-N1.6(NVIDIA, 2025):GR00T-style VLA 架构的来源
- π₀ / π₀.₅(Physical Intelligence, 2024/2025):
-style VLA 架构的来源 - 3D-CAVLA(Bhat et al., CVPR Workshop 2025):深度编码器 + CoT 的显式 3D VLA 对比方案
- EVO-0(Lin et al., 2025):另一种 VGGT 融合方案(Visual Fusion 类)