Skip to content

BitVLA:首个 1-bit VLA 模型

论文:BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

作者:Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen

机构:Key Laboratory of AI Safety, Institute of Computing Technology, Chinese Academy of Sciences; University of Chinese Academy of Sciences

发布时间:2025年6月

论文链接arXiv | GitHub

分类标签1-bit 量化 VLA 蒸馏感知训练 三值化 边端部署


一句话总结

首个全参数三值化({1,0,1})的 VLA 模型,基于 BitNet b1.58 LLM 骨架 + 蒸馏感知训练将视觉编码器也量化到 1.58-bit,在 LIBERO 上无需大规模机器人预训练即达 94.8% 平均成功率(匹配 OpenVLA-OFT INT4),显存仅 1.4GB(29.8%)。


一、问题与动机

1.1 VLA 部署的显存瓶颈

VLA 模型(如 OpenVLA 7.5B、OpenVLA-OFT 7.7B)在机器人操控上展现了强大泛化能力,但模型体量过大:

  • OpenVLA-OFT 需要 15.4GB 显存,远超消费级 GPU(如 RTX 3050 Ti 4GB)的预算
  • 实际机器人平台通常内存和算力受限,无法承载 7B+ 的全精度模型
  • 即使 4-bit PTQ 也需 4.7GB,仍超出许多边端设备能力

1.2 1-bit LLM 的成功与空白

1-bit(实为 1.58-bit)LLM 近期取得了突破性进展:

  • BitNet b1.58 证明 3B 规模下三值化 LLM 可匹配全精度模型性能
  • bitnet.cpp 实现了 1-bit 模型在 CPU 上的高效推理
  • 三值参数空间支持加法替代乘法,硬件效率极高

但这些工作全部停留在纯语言领域——1-bit 模型向多模态和机器人控制的延伸尚未被探索。

1.3 视觉编码器的显存占比

VLA 中 LLM 已有原生 1-bit 方案(BitNet b1.58 2B4T),但视觉编码器仍是全精度:

  • SigLIP-L 虽然参数量相对小,但全精度仍占 0.8GB
  • 将 ViT 量化到 1.58-bit 可进一步压至 0.1GB(8× 压缩)
  • 难点在于 ViT 的量化感知训练缺乏现成方案,且量化后视觉表征质量如何保持是核心挑战

二、预备知识

2.1 BitNet b1.58 量化

BitNet b1.58 将权重限制为三值 {1,0,1},使用 absmean 量化器

Qw(W)=αRoundClip(Wα,1,1),α=1nmW1

其中 WRm×n 是线性层权重,α 为 L1 范数的均值。

激活值使用 per-token absmax 量化器 量化到 INT8:

Qa(x)=β127RoundClip(127xβ,128,127),β=xRoundClip(x,a,b)=max(a,min(b,round(x)))

用大白话说:权重被「粗暴地」量化到 {1,0,1} 三个值,用 L1 均值做缩放;激活值量化到 8-bit 整数,用每个 token 的最大绝对值做缩放。三值化的好处是矩阵乘法可以用加法和减法代替,硬件效率极高。

2.2 直通估计器(STE)

量化操作不可微,训练时使用 STE 近似梯度:

LW=LQw(W),LX=LQa(X)

梯度直接「穿过」量化函数传递,优化器状态保持全精度以维持训练稳定性。

2.3 OpenVLA-OFT 微调范式

OpenVLA-OFT 通过三项关键改进优化 VLA 微调:

  1. 并行解码:用双向注意力掩码替代因果掩码,一次前向传播生成完整动作轨迹
  2. 动作分块(Action Chunking):每次生成 K=8 步动作,执行完整块后再重规划
  3. 连续动作建模:MLP 动作头将隐表征映射到连续机器人动作空间,用 L1 损失训练

三、核心方法

BitVLA 的训练分为四个阶段:VLM 的视觉对齐 + 指令微调(Stage I/II)、蒸馏感知训练量化 ViT(Stage III)、机器人微调(OFT)。

3.1 模型架构

组件选择精度
LLMBitNet b1.58 2B4T(2B 参数)1.58-bit 权重 + 8-bit 激活
视觉编码器SigLIP-L(224×224)Stage I/II: BF16 → Stage III: 1.58-bit
连接器2 层 MLP + GeLU全精度(参数量可忽略)

选择 SigLIP-L 而非更高分辨率版本是为了生成更短的视觉 token 序列(256 tokens),以提升计算效率。

3.2 Stage I & II:VLM 训练

沿用 LLaVA 范式,使用 1-bit LLM + 全精度 ViT:

Stage I — 视觉对齐

  • 仅训练连接器,LLM 和 ViT 冻结
  • 数据:LLaVA 1.5-558k 图像描述数据集
  • 步数:25k,学习率 1e-3

Stage II — 指令微调

  • 训练 LLM + 连接器,ViT 冻结
  • 数据:MammoTH-VL 的 10M 样本子集(单图像)
  • 步数:40k,学习率 3e-4
  • 使用两阶段权重衰减(0.1 → 0)

3.3 Stage III:蒸馏感知训练

这是 BitVLA 的核心创新——将全精度 ViT 量化到 1.58-bit 同时保持视觉表征质量。

初始化:从 Stage II 的全精度 ViT 权重初始化 1.58-bit ViT 的潜在权重。

教师模型:全精度 ViT 作为教师,冻结不参与训练。

训练目标由两部分组成:

语言建模损失——维持任务能力:

LLM=tokeniTanslogPr(YiV1.58-bit,T[:i1])

其中 V1.58-bit 是 1.58-bit ViT 提取的视觉 token,损失仅在回答部分计算。

表征对齐损失——约束 1.58-bit ViT 逐层对齐教师模型:

Laux=1nl=1Lhbf16lh1.58-bitl2

其中 hbf16lh1.58-bitl 分别是全精度和 1.58-bit ViT 第 l 层的输出,n 是隐藏维度,L 是层数。

总训练目标

Ltotal=LLM+γLaux

其中 γ=0.1。仅 ViT 可训练,LLM 和连接器冻结。

用大白话说:一边让 1.58-bit ViT 学会做任务(语言建模损失),一边强制它每一层的输出都尽量模仿全精度教师(对齐损失)。双重约束确保极端量化下视觉表征不崩坏。

关键发现:与 LLM 的 1.58-bit 预训练不同,ViT 的量化感知训练在有教师蒸馏的情况下极其数据高效——仅需约 10B token 即可保持大部分性能。

量化范围:对 ViT 中所有线性层施加量化,但排除输入和输出 embedding 层。

3.4 机器人微调(OFT)

使用 OpenVLA-OFT 的微调范式:

  • 并行解码 + 动作分块(K=8
  • MLP 动作头映射到连续动作空间
  • L1 损失:L=apredagt1
  • 处理多视角视觉输入(腕部摄像头 + 外部摄像头)+ 本体感觉信号
  • 全参数微调(包括 1-bit LLM、1-bit ViT、连接器、动作头)

四、实验结果

4.1 LIBERO 机器人操控主实验

LIBERO 评估四个维度:空间泛化(Spatial)、物体泛化(Object)、目标泛化(Goal)、长时序推理(Long),每个维度 10 个任务 × 500 条演示。

与有大规模机器人预训练的方法对比

模型参数量显存SpatialObjectGoalLongAvg.
OpenVLA7.5B15.1GB (10.79×)84.788.479.253.776.5
SpatialVLA4.2B8.5GB (6.07×)88.289.978.655.578.1
CoT-VLA8.0B16.2GB (11.57×)87.591.687.669.081.1
NORA-Long3.8B7.5GB (5.36×)92.295.489.474.687.9
π₀3.5B7.0GB (5.00×)96.898.895.885.294.2
OpenVLA-OFT(预训练)7.7B15.4GB (11.00×)97.698.497.994.597.1

无机器人预训练对比

模型参数量显存SpatialObjectGoalLongAvg.
OpenVLA-OFT(无预训练)7.7B15.4GB (11.00×)94.395.291.786.591.9
BitVLA3.0B1.4GB (1.00×)97.499.694.487.694.8

核心数字

  • BitVLA 平均 94.8%,超越无预训练的 OpenVLA-OFT(91.9%)2.9pp
  • 显存仅 1.4GB,是 OpenVLA-OFT 的 29.8%(1/11)
  • 超越有预训练的 π₀(94.2%),比 NORA-Long(87.9%)高 6.9pp
  • 仅 LIBERO-Long 上略逊于有大规模机器人预训练的 OpenVLA-OFT(87.6 vs 94.5),差距来自预训练数据

4.2 与 PTQ 方法对比

模型显存SpatialObjectGoalLongAvg.
OpenVLA INT87.4GB (5.29×)86.485.277.258.876.9
OpenVLA-OFT INT87.7GB (5.50×)98.898.096.694.096.7
OpenVLA INT44.4GB (3.14×)83.084.072.051.672.7
OpenVLA-OFT INT44.7GB (3.36×)98.298.297.293.896.9
BitVLA1.4GB (1.00×)97.499.694.487.694.8

BitVLA 以不到 OpenVLA-OFT INT4 三分之一的显存(1.4 vs 4.7GB),达到可比的性能(94.8 vs 96.9),且 Object 维度 99.6% 超越所有方法。

4.3 VQA 零样本评估

评估蒸馏感知训练对视觉理解能力的影响:

模型MMMUSeedBenchSeedBench2+MMStarAI2DAvg.
BitVLA w/ 16-bit ViT37.470.645.043.668.653.0
BitVLA w/ 1.58-bit ViT35.469.343.741.567.651.5

1.58-bit ViT 仅造成 1.5% 平均精度下降,同时将 ViT 显存从 0.8GB 压缩到 0.1GB(8× 压缩)。

4.4 消融实验

表征对齐损失的作用

训练 Token 数LauxVQA Avg.LIBERO Avg.
10B51.594.8
5B50.893.6
5B42.492.9
  • 对齐损失在 VQA 上提供 8.4pp 的巨大增益(42.4 → 50.8)
  • 在 LIBERO 上增益较小(92.9 → 93.6),因为下游 fine-tuning 部分弥补了差距
  • LIBERO-Goal 上对齐损失提供 2.4pp 增益

数据量的影响

  • 10B token 比 5B token 在 VQA 上提升 0.7pp、LIBERO 上提升 1.2pp
  • 说明蒸馏感知训练的数据效率很高——5B token 已接近上限

4.5 失败案例分析

论文细致分析了 LIBERO 上的三类失败模式:

  1. 空间定位偏差(最常见,占比 71-100%):抓取位姿不精确、放置位置偏移、重心不稳物体(酒瓶)处理失败
  2. 目标误解(占比 7-21%):错误交互非目标物体后触发新任务 rollout,视觉-本体感觉信号在目标切换时的主导性问题
  3. 轨迹规划失败(占比 6-17%):运动碰撞(如机械臂撞到抽屉面板),需更好的前瞻性子目标规划

五、局限性与未来方向

5.1 缺乏大规模机器人预训练

BitVLA 受限于资源未在 Open X-Embodiment 等大规模数据集上预训练,LIBERO-Long 上与有预训练的 OpenVLA-OFT 差距 6.9pp。在大规模预训练数据上训练 1-bit VLA 可能进一步释放性能。

5.2 训练成本较高

三阶段 VLM 训练 + 蒸馏感知训练共需 8×A100 训练 14 天,加上下游 OFT 微调。虽然推理极高效,但训练代价不小。

5.3 仅验证仿真环境

实验仅在 LIBERO 仿真环境上评估,未涉及真实机器人部署。1-bit 模型在边端硬件上的实际推理速度和控制频率还需验证。

5.4 空间定位能力不足

失败案例分析显示空间定位偏差是最主要的瓶颈(Long 套件 93.5%),可能需要更强的空间感知模块(如 3D 信息)来解决。


六、个人思考

6.1 原生 1-bit vs 后训练量化:两条路线的碰撞

BitVLA 和 RLRC 代表了 VLA 压缩的两条截然不同的路线:

维度BitVLA(原生 1-bit)RLRC(PTQ + 恢复)
量化策略从头训练 1-bit 模型先全精度训练再剪枝/量化
精度1.58-bit 权重 + 8-bit 激活90% 剪枝 + 4-bit 量化
显存1.4GB1.772GB
性能恢复蒸馏感知训练SFT + RL
基座依赖BitNet b1.58 2B4T(原生 1-bit)OpenVLA 7.5B(全精度剪枝)
训练代价14 天 8×A100SFT 10k 步 + RL 0.6M 步

RLRC 更灵活——可以对任何现有 VLA 施加,且 RL 恢复甚至能超越原始模型。BitVLA 更极致——显存更低、原生支持高效硬件执行,但需要专用 1-bit LLM 基座。两者的最终显存接近(1.4 vs 1.772GB),说明不同路线在「压缩极限」上趋于收敛。

6.2 蒸馏的数据效率令人意外

BitVLA 在 Stage III 仅用 5-10B token 就能完成 ViT 的 1.58-bit 量化感知训练,且性能损失极小(VQA 仅降 1.5pp)。这与 LLM 的 1-bit 预训练需要海量数据形成对比。原因可能是:

  1. ViT 参数量远小于 LLM,需要的数据量相应更少
  2. 全精度教师模型提供了强大的正则化——对齐损失将 VQA 从 42.4% 拉到 50.8%,贡献了绝大部分的性能保持
  3. ViT 的权重分布可能天然更适合三值化——视觉特征的冗余度高于语言特征

这暗示一个有趣的方向:对 VLA 的不同组件施加不同精度的量化可能比统一量化更高效。例如 LLM 需要 1.58-bit 从头训练,但 ViT 可以从全精度快速蒸馏。

6.3 「无预训练也能很强」的启示

BitVLA 没有在 Open X-Embodiment 上做大规模机器人预训练,却在 LIBERO 上达到 94.8%,超越了有预训练的 π₀(94.2%)和 NORA-Long(87.9%)。这说明:

  1. OFT 微调范式本身非常强大——并行解码 + 动作分块 + L1 连续动作可能比预训练数据量更重要
  2. VLM 阶段的多模态理解能力已经足够——BitNet b1.58 2B4T 虽然是 1-bit 模型,但在 10M 指令微调后已具备足够的视觉-语言理解
  3. 预训练的主要价值可能集中在长时序推理上——LIBERO-Long 是 BitVLA 唯一明显落后的维度

6.4 与 VLA Token 压缩方法的正交性

BitVLA 压缩的是模型参数(权重三值化),而 VLA-CacheVLA-PrunerEfficientVLA 等方法压缩的是推理计算(Token 缓存/剪枝)。两者完全正交——理论上可以在 BitVLA 的 1-bit 模型上再叠加 Token 级优化,进一步提升推理效率。这可能是边端 VLA 部署的最终形态:极致参数量化 + 动态 Token 压缩

6.5 Object 维度为何特别强?

BitVLA 在 LIBERO-Object 上达到了惊人的 99.6%,超越所有方法(包括有预训练的 OpenVLA-OFT 的 98.4%)。Object 维度测试的是对未见物体类别的泛化——这恰好是 VLM 预训练最擅长的方面。BitVLA 虽然权重是 1-bit,但通过 SigLIP + BitNet 的多模态训练,保留了强大的语义理解能力。这进一步印证了 VLA 中「视觉-语言理解」和「精细操控」是两个相对独立的能力维度。


参考

  • BitNet b1.58 — 1.58-bit LLM 预训练(BitVLA 的 LLM 骨架来源)
  • BitNet b1.58 2B4T — 2B 参数三值化 LLM
  • OpenVLA-OFT — VLA 微调优化(BitVLA 的微调策略来源)
  • LLaVA — 视觉指令微调范式(BitVLA 的 VLM 训练范式来源)
  • RLRC — 后训练剪枝+量化 VLA 压缩(另一种压缩路线)
  • VLA-Cache — Token 缓存加速(正交的推理加速方法)
  • SigLIP — Sigmoid Loss 视觉-语言预训练(BitVLA 的视觉编码器)