3D-MIX for VLA：即插即用的 VGGT 3D 信息融合模块

论文：3D-MIX for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models
作者：Bin Yu, Shijie Lian, Xiaopeng Lin, Zhaolong Shen, Yuliang Wei, Haishan Liu, Changti Wu, Hang Yuan, Bailing Wang, Cong Huang, Kai Chen
机构：HIT、ZGCA、ZGCI、HUST、HKUST(GZ)、BUAA、ECNU、DeepCybo
发布时间：2026年03月
🔗 arXiv | 代码
分类标签：VLA 3D 融合 VGGT Gated Fusion 即插即用 SimplerEnv LIBERO GR00T π-style

一句话总结

系统对比 9 种 VGGT 3D 特征融合策略，发现**语义条件化门控融合（GatedFusion）**最优，据此提出 3D-MIX 即插即用模块，通过自适应门控动态平衡 2D 语义与 3D 几何特征，无需修改 MLLM 或动作专家，在 GR00T-style 和 $π$ -style 两类 VLA 架构上均取得一致提升，9 个 GR00T-style 变体在 OOD SIMPLER 基准上平均 +7.0%。

一、问题与动机

1.1 MLLM 的空间智能缺陷

VLA 模型依赖 MLLM 作为语义编码器，但 MLLM 主要在 2D 图像-文本语料上预训练，缺乏显式 3D 几何监督，导致深度感知和空间推理能力不足——而这正是抓取姿态估计、空间关系理解等操作任务所需的关键能力。

1.2 VGGT 融合策略缺乏系统比较

VGGT（Visual Geometry Grounded Transformer）作为强大的 3D 特征提取器已被多个工作引入 VLA。然而现有方法采用各不相同的融合策略（有的在输入端注入、有的在中间层注入、有的在动作头端融合），缺乏控制变量的系统比较，社区对最优融合方案没有共识。

1.3 核心问题

论文提出三个关键问题：

Where：3D 特征应注入 VLA pipeline 的哪个位置？
How：几何信息和语义信息应如何组合？
What：什么融合机制能实现有效的跨模态交互？

二、先导实验：9 种融合策略对比

2.1 基础架构

采用 GR00T-style VLA 框架：Qwen3-VL-4B 作为 MLLM 骨干，DiT-based flow-matching 动作专家。VGGT-1B 作为冻结的 3D 特征提取器。

2.2 九种融合策略

编号	策略	融合位置	核心机制	推理开销
1	AE-Fusion	动作专家	双路交叉注意力同时注意 MLLM 和 VGGT	高
2	Early Fusion	MLLM 输入	VGGT token 直接拼入输入序列	高
3	Concat Fusion	MLLM 输出	GateMixer 预处理后直接拼接	中
4	CrossAttn Fusion	MLLM 输出	GateMixer + 交叉注意力后拼接	中
5	GatedFusion	MLLM 输出	语义条件化自适应门控	中
6	3D-Tokens	MLLM 输入	特殊 token + 对齐损失，推理时不需 VGGT	零
7	Middle Layer Injection	MLLM 中间层	Adapter 风格交叉注意力	高
8	Spatial Forcing	MLLM 中间层	训练时对齐损失，推理时丢弃 VGGT	零
9	Visual Fusion	视觉 token 层	2D token 作为 query 交叉注意力查询 3D token	高

2.3 先导实验结果

方法	SIMPLER Avg	LIBERO Avg
Base（Qwen3-VL-4B）	57.81	96.50
+ AE-Fusion	3.13	97.40
+ Early Fusion	44.53	86.45
+ Visual Fusion	4.69	73.40
+ 3D-Tokens	56.25	97.64
+ Spatial Forcing	58.85	97.72
+ Concat Fusion	60.42	97.75
+ CrossAttn Fusion	56.25	83.45
+ Middle Layer Injection	51.82	97.82
+ GatedFusion	68.23	98.05

关键发现：

GatedFusion 双指标最优：SIMPLER +10.42%，LIBERO +1.55%，在两个基准上均排名第一
AE-Fusion 和 Visual Fusion 严重崩溃：SIMPLER 分别降至 3.13% 和 4.69%，说明在错误位置注入 3D 信息会严重干扰模型
Early Fusion 效果差：直接将 VGGT token 注入 MLLM 输入端，增加了自注意力长度但缺乏有效的跨模态交互
零推理开销方法（3D-Tokens、Spatial Forcing）表现中规中矩：免费的 3D 信息注入仍然有效但不如显式融合

三、核心方法：3D-MIX 模块

基于先导实验中 GatedFusion 的最优表现，论文将其工程化为即插即用的 3D-MIX 模块。

3.1 特征提取与投影

VGGT 从多视图 RGB 图像 $I = {I_{1}, \dots, I_{V}}$ 中提取几何 patch token $F_{VGGT} \in R^{B \times N_{patches} \times D_{VGGT}}$ ，通过线性投影对齐到 MLLM 隐层维度：

F_{geo} = W_{proj} F_{VGGT}, F_{geo} \in R^{B \times N_{patches} \times D}

同时 MLLM 处理相同图像和语言指令，产出语义隐状态 $H_{MLLM} \in R^{B \times L \times D}$ 。

3.2 语义条件化门控

核心思想：不同操作任务对语义理解和几何精度的依赖程度不同，应由模型自适应决定融合比例。

第一步：提取全局语义摘要。对 MLLM 隐状态做均值池化：

s_{global} = \frac{1}{L} \sum_{i = 1}^{L} H_{MLLM} [:, i, :] \in R^{B \times 1 \times D}

第二步：计算逐位置门控权重。将全局语义上下文广播到每个几何 token 位置，拼接后通过门控网络计算 sigmoid 门：

g_{j} = σ (W_{gate} [S_{broadcast} [:, j, :]; F_{geo} [:, j, :]]) \in R^{B \times D}

其中 $W_{gate} \in R^{D \times 2 D}$ 是可学习线性层， $[\cdot; \cdot]$ 表示拼接， $σ$ 为 sigmoid。

用大白话说：每个几何 token 位置都会"参考"当前任务的整体语义，决定自己应该保留多少几何信息、吸收多少语义信息。这是一个 element-wise 的 $D$ 维门控向量，而非标量门。

3.3 自适应特征融合

融合后的每个位置表示为语义和几何特征的加权混合：

f_{fused, j} = g_{j} ⊙ W_{s} S_{broadcast} [:, j, :] + (1 - g_{j}) ⊙ W_{g} F_{geo} [:, j, :]

其中 $W_{s}, W_{g} \in R^{D \times D}$ 为可学习投影矩阵， $⊙$ 为逐元素乘法。融合后的几何 token 拼接到 MLLM 隐状态形成增强条件序列：

H_{cond} = [H_{MLLM}; F_{fused}] \in R^{B \times (L + N_{patches}) \times D}

3.4 GR00T-style 集成

3D-MIX 作为 MLLM 和动作专家之间的桥接模块插入。MLLM 产出最终层隐状态，经 3D-MIX 融合后传给 DiT 动作专家做交叉注意力去噪：

A_{τ} = DiT (A_{τ - 1}, H_{cond}, τ)

无需修改 DiT 架构。

3.5 $π$ -style 集成

$π$ -style 架构在 DiT 的每一层分别交叉注意力于 MLLM 对应层的隐状态。3D-MIX 需要逐层独立融合：

VGGT 特征提取一次，投影到 $F_{geo}$ ，所有层共享
每层 $i$ 独立计算语义上下文 $s_{global}^{(i)}$ 和门控参数
每层有独立的门控网络参数，实现层级别的自适应融合

H_{cond}^{(i)} = [H_{MLLM}^{(i)}; F_{fused}^{(i)}] \in R^{B \times (L + N_{patches}) \times D}

逐层融合的优势：(1) 不同层可关注不同层级的几何抽象；(2) 每层学习自己的最优融合比例。

3.6 即插即用特性

3D-MIX 仅需两个输入：MLLM 隐状态和 VGGT 几何特征，不修改 MLLM 和动作专家的任何源代码。集成步骤：

加载预训练 VGGT 并冻结参数
在 MLLM 和动作专家之间插入 3D-MIX
用标准 flow-matching 目标端到端训练，梯度通过融合模块但不更新 VGGT

四、实验结果

4.1 训练配置

8× NVIDIA H100 GPU，DeepSpeed ZeRO-2
60K steps，GR00T-style batch size 16（有效 128）， $π$ -style batch size 10
MLLM 学习率 $10^{- 5}$ ，动作专家和融合参数 $10^{- 4}$ ，AdamW + 余弦退火
VGGT-1B 全程冻结

4.2 GR00T-style 结果（9 个模型变体）

MLLM 骨干	SIMPLER Avg（无 3D-MIX → 有 3D-MIX）	提升	LIBERO Avg 提升
Qwen3-VL-4B	57.81 → 68.23	+10.42	+1.55
Qwen3-VL-8B	58.40 → 63.27	+4.87	+0.85
Qwen2.5-VL-3B	45.05 → 47.92	+2.87	+0.90
Qwen2.5-VL-7B	45.31 → 47.14	+1.83	+0.40
RoboBrain2.0-7B	37.83 → 49.22	+11.39	+0.75
RynnBrain-8B	52.60 → 65.11	+12.51	+0.35
RynnBrain-2B	48.18 → 56.25	+8.07	+0.05
MimoEmbodied-7B	52.87 → 63.28	+10.41	+0.63
RoboBrain2.5-8B	64.58 → 65.63	+1.05	+0.35
RoboBrain2.5-4B	56.25 → 63.02	+6.77	+0.25

平均 SIMPLER 提升 +7.0%。所有 9 个变体均取得正向提升，无一例外。

4.3 $π$ -style 结果（5 个模型变体）

MLLM 骨干	SIMPLER Avg 提升	LIBERO Avg 提升
Qwen3-VL-4B	+6.77	+0.70
Qwen3-VL-2B	+5.38	+0.95
Qwen2.5-VL-3B	+5.99	+0.65
RynnBrain-2B	+1.57	+1.30
RoboBrain2.5-4B	+2.60	+0.75

$π$ -style 同样全面提升，验证了 3D-MIX 的跨架构泛化性。

4.4 消融实验

(a) VGGT 冻结 vs. 可训练：冻结 VGGT（68.23%）优于或持平微调 VGGT（最高 65.56%，lr=1e-6），说明预训练几何表征已足够好，微调反而引入过拟合风险。

(b) 3D 信息敏感性：将 VGGT 特征替换为零向量或高斯噪声，性能均显著下降，确认 3D-MIX 的增益来自真实的 3D 几何信息，而非简单的特征维度扩展。

(c) 稀疏层融合（ $π$ -style）：在 $π$ -style 中每隔 $k$ 层注入一次 3D 特征（ $k = 0$ 为全层融合），发现稀疏融合（ $k = 1, 2$ ）可达到与全层融合相当甚至更好的性能，同时降低显存消耗。这为资源受限部署提供了实用方案。

五、局限性与未来方向

推理时需要 VGGT 前向传播：与 Spatial Forcing 和 3D-Tokens 不同，3D-MIX 在推理时仍需运行 VGGT-1B 提取 3D 特征，增加了计算和显存开销
VGGT 质量上限：3D-MIX 的效果受限于 VGGT 的 3D 表征质量，在 VGGT 处理不佳的场景（如极端遮挡、镜面反射）可能受限
仅在仿真中验证：实验全部在 SimplerEnv 和 LIBERO 上进行，缺乏真实世界机器人实验
SIMPLER 基准多样性有限：OOD 评测仅 4 个任务（Stack Green、Put Carrot/Spoon/Eggplant），难以全面反映 3D 感知的价值
LIBERO 提升有限：in-domain LIBERO 的提升普遍在 0.05%–1.55%，接近饱和，可能无法体现 3D 信息在高难度任务上的更大价值

六、个人思考

6.1 系统融合对比的价值

论文最大的贡献可能不是 3D-MIX 本身，而是对 9 种融合策略的系统对比。先导实验中几个有趣的发现：

AE-Fusion（在动作专家端融合）和 Visual Fusion（在视觉 token 端融合）几乎完全崩溃（SIMPLER 仅 3-5%），说明在 VLA pipeline 的首尾端注入 3D 信息极其危险——可能是因为这些位置的特征空间已高度特化，外部 3D 信息的引入导致严重的分布偏移
GatedFusion 在 MLLM 输出和动作专家之间的中间位置效果最好，与 Spatial Forcing 中第 24/32 层最优的发现一致——VLA pipeline 存在一个"甜蜜区"适合注入额外模态信息

6.2 与 Spatial Forcing 的互补与权衡

本论文实际上包含了 Spatial Forcing 作为 9 种方案之一。两者的核心权衡是：

	3D-MIX	Spatial Forcing
融合方式	显式门控融合	隐式表征对齐
推理开销	需运行 VGGT-1B	零
OOD 泛化	+10.42%（SIMPLER）	+1.04%（SIMPLER）
融合深度	自适应、逐位置	固定对齐层

3D-MIX 以推理开销为代价换取了更强的 OOD 泛化。如果推理延迟和显存不敏感（如大型工业部署），3D-MIX 更优；如果追求轻量部署，Spatial Forcing 是更实用的选择。

6.3 门控机制的设计洞察

GatedFusion 的关键设计选择值得注意：

全局语义上下文驱动门控：用 MLLM 隐状态的均值池化而非局部特征来调制门，确保门控"理解"当前任务的整体语义需求
逐元素门而非标量门： $D$ 维门向量允许在特征维度上做更细粒度的选择——某些维度可能更需要几何信息，另一些更需要语义信息
投影后再融合：语义和几何特征各自经过独立的 $W_{s}$ 、 $W_{g}$ 投影后再做加权混合，而非直接对原始特征做门控，增加了表达能力

6.4 RoboBrain2.5-8B 的"饱和"现象

RoboBrain2.5-8B 的 baseline 已达 64.58%（所有模型中最高），3D-MIX 仅提升 +1.05%。这暗示当 MLLM 骨干本身已具备较强空间感知能力时，外部 3D 信息的边际收益递减。反之，baseline 较弱的 RoboBrain2.0-7B（37.83%）和 RynnBrain-8B（52.60%）获得了最大提升（+11-12%）。这与直觉一致：3D 信息对空间感知较弱的模型帮助最大。

6.5 与已有 3D VLA 的定位关系

在已有笔记中，3D VLA 方法可按介入方式分为三层：

数据层面（TGM-VLA）：点云 Mixup、颜色反转等数据增强
表征层面（Spatial Forcing）：中间层隐式对齐，推理零开销
架构层面（3D-MIX、3D-CAVLA）：显式注入 3D 特征或模块

这三层理论上可以叠加——用 TGM-VLA 的数据增强 + Spatial Forcing 的隐式监督 + 3D-MIX 的显式融合，是否能获得更大提升值得探索。

参考

VGGT（Wang et al., CVPR 2025）：3D-MIX 使用的冻结 3D 几何特征提取器
Spatial Forcing（Li et al., ICLR 2026）：9 种融合策略之一，隐式对齐范式的代表
GR00T-N1.6（NVIDIA, 2025）：GR00T-style VLA 架构的来源
π₀ / π₀.₅（Physical Intelligence, 2024/2025）： $π$ -style VLA 架构的来源
3D-CAVLA（Bhat et al., CVPR Workshop 2025）：深度编码器 + CoT 的显式 3D VLA 对比方案
EVO-0（Lin et al., 2025）：另一种 VGGT 融合方案（Visual Fusion 类）

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

3D-MIX for VLA：即插即用的 VGGT 3D 信息融合模块 ​

一句话总结 ​

一、问题与动机 ​

1.1 MLLM 的空间智能缺陷 ​

1.2 VGGT 融合策略缺乏系统比较 ​

1.3 核心问题 ​

二、先导实验：9 种融合策略对比 ​

2.1 基础架构 ​

2.2 九种融合策略 ​

2.3 先导实验结果 ​

三、核心方法：3D-MIX 模块 ​

3.1 特征提取与投影 ​

3.2 语义条件化门控 ​

3.3 自适应特征融合 ​

3.4 GR00T-style 集成 ​

3.5 π-style 集成 ​

3.6 即插即用特性 ​

四、实验结果 ​

4.1 训练配置 ​

4.2 GR00T-style 结果（9 个模型变体） ​

4.3 π-style 结果（5 个模型变体） ​

4.4 消融实验 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 系统融合对比的价值 ​

6.2 与 Spatial Forcing 的互补与权衡 ​

6.3 门控机制的设计洞察 ​

6.4 RoboBrain2.5-8B 的"饱和"现象 ​

6.5 与已有 3D VLA 的定位关系 ​

参考 ​