Skip to content

3D-MIX for VLA:即插即用的 VGGT 3D 信息融合模块

论文:3D-MIX for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models

作者:Bin Yu, Shijie Lian, Xiaopeng Lin, Zhaolong Shen, Yuliang Wei, Haishan Liu, Changti Wu, Hang Yuan, Bailing Wang, Cong Huang, Kai Chen

机构:HIT、ZGCA、ZGCI、HUST、HKUST(GZ)、BUAA、ECNU、DeepCybo

发布时间:2026年03月

🔗 arXiv | 代码

分类标签:VLA 3D 融合 VGGT Gated Fusion 即插即用 SimplerEnv LIBERO GR00T π-style


一句话总结

系统对比 9 种 VGGT 3D 特征融合策略,发现**语义条件化门控融合(GatedFusion)**最优,据此提出 3D-MIX 即插即用模块,通过自适应门控动态平衡 2D 语义与 3D 几何特征,无需修改 MLLM 或动作专家,在 GR00T-style 和 π-style 两类 VLA 架构上均取得一致提升,9 个 GR00T-style 变体在 OOD SIMPLER 基准上平均 +7.0%


一、问题与动机

1.1 MLLM 的空间智能缺陷

VLA 模型依赖 MLLM 作为语义编码器,但 MLLM 主要在 2D 图像-文本语料上预训练,缺乏显式 3D 几何监督,导致深度感知和空间推理能力不足——而这正是抓取姿态估计、空间关系理解等操作任务所需的关键能力。

1.2 VGGT 融合策略缺乏系统比较

VGGT(Visual Geometry Grounded Transformer)作为强大的 3D 特征提取器已被多个工作引入 VLA。然而现有方法采用各不相同的融合策略(有的在输入端注入、有的在中间层注入、有的在动作头端融合),缺乏控制变量的系统比较,社区对最优融合方案没有共识。

1.3 核心问题

论文提出三个关键问题:

  1. Where:3D 特征应注入 VLA pipeline 的哪个位置?
  2. How:几何信息和语义信息应如何组合?
  3. What:什么融合机制能实现有效的跨模态交互?

二、先导实验:9 种融合策略对比

2.1 基础架构

采用 GR00T-style VLA 框架:Qwen3-VL-4B 作为 MLLM 骨干,DiT-based flow-matching 动作专家。VGGT-1B 作为冻结的 3D 特征提取器。

2.2 九种融合策略

编号策略融合位置核心机制推理开销
1AE-Fusion动作专家双路交叉注意力同时注意 MLLM 和 VGGT
2Early FusionMLLM 输入VGGT token 直接拼入输入序列
3Concat FusionMLLM 输出GateMixer 预处理后直接拼接
4CrossAttn FusionMLLM 输出GateMixer + 交叉注意力后拼接
5GatedFusionMLLM 输出语义条件化自适应门控
63D-TokensMLLM 输入特殊 token + 对齐损失,推理时不需 VGGT
7Middle Layer InjectionMLLM 中间层Adapter 风格交叉注意力
8Spatial ForcingMLLM 中间层训练时对齐损失,推理时丢弃 VGGT
9Visual Fusion视觉 token 层2D token 作为 query 交叉注意力查询 3D token

2.3 先导实验结果

方法SIMPLER AvgLIBERO Avg
Base(Qwen3-VL-4B)57.8196.50
+ AE-Fusion3.1397.40
+ Early Fusion44.5386.45
+ Visual Fusion4.6973.40
+ 3D-Tokens56.2597.64
+ Spatial Forcing58.8597.72
+ Concat Fusion60.4297.75
+ CrossAttn Fusion56.2583.45
+ Middle Layer Injection51.8297.82
+ GatedFusion68.2398.05

关键发现

  • GatedFusion 双指标最优:SIMPLER +10.42%,LIBERO +1.55%,在两个基准上均排名第一
  • AE-Fusion 和 Visual Fusion 严重崩溃:SIMPLER 分别降至 3.13% 和 4.69%,说明在错误位置注入 3D 信息会严重干扰模型
  • Early Fusion 效果差:直接将 VGGT token 注入 MLLM 输入端,增加了自注意力长度但缺乏有效的跨模态交互
  • 零推理开销方法(3D-Tokens、Spatial Forcing)表现中规中矩:免费的 3D 信息注入仍然有效但不如显式融合

三、核心方法:3D-MIX 模块

基于先导实验中 GatedFusion 的最优表现,论文将其工程化为即插即用的 3D-MIX 模块。

3.1 特征提取与投影

VGGT 从多视图 RGB 图像 I={I1,,IV} 中提取几何 patch token FVGGTRB×Npatches×DVGGT,通过线性投影对齐到 MLLM 隐层维度:

Fgeo=WprojFVGGT,FgeoRB×Npatches×D

同时 MLLM 处理相同图像和语言指令,产出语义隐状态 HMLLMRB×L×D

3.2 语义条件化门控

核心思想:不同操作任务对语义理解和几何精度的依赖程度不同,应由模型自适应决定融合比例。

第一步:提取全局语义摘要。对 MLLM 隐状态做均值池化:

sglobal=1Li=1LHMLLM[:,i,:]RB×1×D

第二步:计算逐位置门控权重。将全局语义上下文广播到每个几何 token 位置,拼接后通过门控网络计算 sigmoid 门:

gj=σ(Wgate[Sbroadcast[:,j,:]; Fgeo[:,j,:]])RB×D

其中 WgateRD×2D 是可学习线性层,[;] 表示拼接,σ 为 sigmoid。

用大白话说:每个几何 token 位置都会"参考"当前任务的整体语义,决定自己应该保留多少几何信息、吸收多少语义信息。这是一个 element-wise 的 D 维门控向量,而非标量门。

3.3 自适应特征融合

融合后的每个位置表示为语义和几何特征的加权混合:

ffused,j=gjWsSbroadcast[:,j,:]+(1gj)WgFgeo[:,j,:]

其中 Ws,WgRD×D 为可学习投影矩阵, 为逐元素乘法。融合后的几何 token 拼接到 MLLM 隐状态形成增强条件序列:

Hcond=[HMLLM; Ffused]RB×(L+Npatches)×D

3.4 GR00T-style 集成

3D-MIX 作为 MLLM 和动作专家之间的桥接模块插入。MLLM 产出最终层隐状态,经 3D-MIX 融合后传给 DiT 动作专家做交叉注意力去噪:

Aτ=DiT(Aτ1,Hcond,τ)

无需修改 DiT 架构。

3.5 π-style 集成

π-style 架构在 DiT 的每一层分别交叉注意力于 MLLM 对应层的隐状态。3D-MIX 需要逐层独立融合

  1. VGGT 特征提取一次,投影到 Fgeo,所有层共享
  2. 每层 i 独立计算语义上下文 sglobal(i) 和门控参数
  3. 每层有独立的门控网络参数,实现层级别的自适应融合
Hcond(i)=[HMLLM(i); Ffused(i)]RB×(L+Npatches)×D

逐层融合的优势:(1) 不同层可关注不同层级的几何抽象;(2) 每层学习自己的最优融合比例。

3.6 即插即用特性

3D-MIX 仅需两个输入:MLLM 隐状态和 VGGT 几何特征,不修改 MLLM 和动作专家的任何源代码。集成步骤:

  1. 加载预训练 VGGT 并冻结参数
  2. 在 MLLM 和动作专家之间插入 3D-MIX
  3. 用标准 flow-matching 目标端到端训练,梯度通过融合模块但不更新 VGGT

四、实验结果

4.1 训练配置

  • 8× NVIDIA H100 GPU,DeepSpeed ZeRO-2
  • 60K steps,GR00T-style batch size 16(有效 128),π-style batch size 10
  • MLLM 学习率 105,动作专家和融合参数 104,AdamW + 余弦退火
  • VGGT-1B 全程冻结

4.2 GR00T-style 结果(9 个模型变体)

MLLM 骨干SIMPLER Avg(无 3D-MIX → 有 3D-MIX)提升LIBERO Avg 提升
Qwen3-VL-4B57.81 → 68.23+10.42+1.55
Qwen3-VL-8B58.40 → 63.27+4.87+0.85
Qwen2.5-VL-3B45.05 → 47.92+2.87+0.90
Qwen2.5-VL-7B45.31 → 47.14+1.83+0.40
RoboBrain2.0-7B37.83 → 49.22+11.39+0.75
RynnBrain-8B52.60 → 65.11+12.51+0.35
RynnBrain-2B48.18 → 56.25+8.07+0.05
MimoEmbodied-7B52.87 → 63.28+10.41+0.63
RoboBrain2.5-8B64.58 → 65.63+1.05+0.35
RoboBrain2.5-4B56.25 → 63.02+6.77+0.25

平均 SIMPLER 提升 +7.0%。所有 9 个变体均取得正向提升,无一例外。

4.3 π-style 结果(5 个模型变体)

MLLM 骨干SIMPLER Avg 提升LIBERO Avg 提升
Qwen3-VL-4B+6.77+0.70
Qwen3-VL-2B+5.38+0.95
Qwen2.5-VL-3B+5.99+0.65
RynnBrain-2B+1.57+1.30
RoboBrain2.5-4B+2.60+0.75

π-style 同样全面提升,验证了 3D-MIX 的跨架构泛化性。

4.4 消融实验

(a) VGGT 冻结 vs. 可训练:冻结 VGGT(68.23%)优于或持平微调 VGGT(最高 65.56%,lr=1e-6),说明预训练几何表征已足够好,微调反而引入过拟合风险。

(b) 3D 信息敏感性:将 VGGT 特征替换为零向量或高斯噪声,性能均显著下降,确认 3D-MIX 的增益来自真实的 3D 几何信息,而非简单的特征维度扩展。

(c) 稀疏层融合(π-style):在 π-style 中每隔 k 层注入一次 3D 特征(k=0 为全层融合),发现稀疏融合(k=1,2)可达到与全层融合相当甚至更好的性能,同时降低显存消耗。这为资源受限部署提供了实用方案。


五、局限性与未来方向

  1. 推理时需要 VGGT 前向传播:与 Spatial Forcing 和 3D-Tokens 不同,3D-MIX 在推理时仍需运行 VGGT-1B 提取 3D 特征,增加了计算和显存开销
  2. VGGT 质量上限:3D-MIX 的效果受限于 VGGT 的 3D 表征质量,在 VGGT 处理不佳的场景(如极端遮挡、镜面反射)可能受限
  3. 仅在仿真中验证:实验全部在 SimplerEnv 和 LIBERO 上进行,缺乏真实世界机器人实验
  4. SIMPLER 基准多样性有限:OOD 评测仅 4 个任务(Stack Green、Put Carrot/Spoon/Eggplant),难以全面反映 3D 感知的价值
  5. LIBERO 提升有限:in-domain LIBERO 的提升普遍在 0.05%–1.55%,接近饱和,可能无法体现 3D 信息在高难度任务上的更大价值

六、个人思考

6.1 系统融合对比的价值

论文最大的贡献可能不是 3D-MIX 本身,而是对 9 种融合策略的系统对比。先导实验中几个有趣的发现:

  • AE-Fusion(在动作专家端融合)和 Visual Fusion(在视觉 token 端融合)几乎完全崩溃(SIMPLER 仅 3-5%),说明在 VLA pipeline 的首尾端注入 3D 信息极其危险——可能是因为这些位置的特征空间已高度特化,外部 3D 信息的引入导致严重的分布偏移
  • GatedFusion 在 MLLM 输出和动作专家之间的中间位置效果最好,与 Spatial Forcing 中第 24/32 层最优的发现一致——VLA pipeline 存在一个"甜蜜区"适合注入额外模态信息

6.2 与 Spatial Forcing 的互补与权衡

本论文实际上包含了 Spatial Forcing 作为 9 种方案之一。两者的核心权衡是:

3D-MIXSpatial Forcing
融合方式显式门控融合隐式表征对齐
推理开销需运行 VGGT-1B
OOD 泛化+10.42%(SIMPLER)+1.04%(SIMPLER)
融合深度自适应、逐位置固定对齐层

3D-MIX 以推理开销为代价换取了更强的 OOD 泛化。如果推理延迟和显存不敏感(如大型工业部署),3D-MIX 更优;如果追求轻量部署,Spatial Forcing 是更实用的选择。

6.3 门控机制的设计洞察

GatedFusion 的关键设计选择值得注意:

  • 全局语义上下文驱动门控:用 MLLM 隐状态的均值池化而非局部特征来调制门,确保门控"理解"当前任务的整体语义需求
  • 逐元素门而非标量门D 维门向量允许在特征维度上做更细粒度的选择——某些维度可能更需要几何信息,另一些更需要语义信息
  • 投影后再融合:语义和几何特征各自经过独立的 WsWg 投影后再做加权混合,而非直接对原始特征做门控,增加了表达能力

6.4 RoboBrain2.5-8B 的"饱和"现象

RoboBrain2.5-8B 的 baseline 已达 64.58%(所有模型中最高),3D-MIX 仅提升 +1.05%。这暗示当 MLLM 骨干本身已具备较强空间感知能力时,外部 3D 信息的边际收益递减。反之,baseline 较弱的 RoboBrain2.0-7B(37.83%)和 RynnBrain-8B(52.60%)获得了最大提升(+11-12%)。这与直觉一致:3D 信息对空间感知较弱的模型帮助最大

6.5 与已有 3D VLA 的定位关系

在已有笔记中,3D VLA 方法可按介入方式分为三层:

  • 数据层面(TGM-VLA):点云 Mixup、颜色反转等数据增强
  • 表征层面(Spatial Forcing):中间层隐式对齐,推理零开销
  • 架构层面(3D-MIX、3D-CAVLA):显式注入 3D 特征或模块

这三层理论上可以叠加——用 TGM-VLA 的数据增强 + Spatial Forcing 的隐式监督 + 3D-MIX 的显式融合,是否能获得更大提升值得探索。


参考

  • VGGT(Wang et al., CVPR 2025):3D-MIX 使用的冻结 3D 几何特征提取器
  • Spatial Forcing(Li et al., ICLR 2026):9 种融合策略之一,隐式对齐范式的代表
  • GR00T-N1.6(NVIDIA, 2025):GR00T-style VLA 架构的来源
  • π₀ / π₀.₅(Physical Intelligence, 2024/2025):π-style VLA 架构的来源
  • 3D-CAVLA(Bhat et al., CVPR Workshop 2025):深度编码器 + CoT 的显式 3D VLA 对比方案
  • EVO-0(Lin et al., 2025):另一种 VGGT 融合方案(Visual Fusion 类)