UniVLA：基于任务中心潜在动作的跨具身统一 VLA 框架

论文：UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
作者：Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
机构：The University of Hong Kong, OpenDriveLab, AgiBot
发布时间：2025年5月
链接：arXiv | 代码
发表会议：RSS 2025

一句话总结

UniVLA 通过无监督的"任务中心潜在动作"（task-centric latent action）将不同具身形态和视角的视频统一到一个共享动作空间，使 VLA 能利用海量无动作标注的跨具身视频甚至人类视频进行预训练，仅用 OpenVLA 1/20 的预训练算力和 1/10 的下游数据即实现全面超越。

一、问题与动机

1.1 核心问题：动作标注的瓶颈

现有 VLA 模型（OpenVLA、RT-2 等）严重依赖带有真实动作标注（ground-truth action labels）的数据进行训练。但这带来三重限制：

数据瓶颈：动作标注需要遥操作采集，成本极高，难以像互联网图文数据那样大规模扩展
具身异质性：不同机器人（Franka、WidowX、人手）的动作空间和观测空间完全不同，无法直接跨具身迁移知识
互联网视频浪费：YouTube 上有海量的操作和导航视频，但它们没有动作标注，现有 VLA 无法利用

核心问题可以归结为：能否学习一个统一的、与具身形态无关的动作表示，让 VLA 从海量无标注视频中学习可迁移的操作知识？

1.2 已有潜在动作方法的缺陷

LAPA 和 IGOR 等工作尝试从视频中学习潜在动作（latent action），但它们有一个关键问题：天真的重建目标会捕获大量与任务无关的视觉变化。

例如在人类操作视频中，除了手部的操作动作（任务相关），还有：

相机抖动或视角变化
其他人或物体的移动
光照变化、新物体出现

这些"噪声"被编码进潜在动作后，会严重干扰下游策略训练。LAPA 在 LIBERO-Long 上仅达 55.4%，说明这种朴素方法难以处理长时域复杂任务。

1.3 UniVLA 的核心思路

UniVLA 的关键创新是将潜在动作显式分解为"任务中心"和"任务无关"两类表示：

Stage 1：利用语言指令作为条件，让模型学到一套编码环境变化（相机抖、背景动）的"任务无关"潜在动作
Stage 2：冻结任务无关的 codebook，引入新的 codebook 专门学习任务相关的动作——相当于"减法"，把总变化减去无关变化，剩下的就是任务中心的动作

同时，UniVLA 使用 DINOv2 特征代替原始像素作为预测目标，避免模型被像素级噪声（纹理、光照）干扰。

二、预备知识

2.1 逆动力学模型（IDM）与前向动力学模型（FDM）

从视频帧对中提取动作的经典范式：

IDM（编码器）：给定当前帧 $o_{t}$ 和未来帧 $o_{t + k}$ ，推断它们之间发生了什么动作 $a_{t}$

a_{t} = I (a_{t} | o_{t}, o_{t + k})

FDM（解码器）：给定当前帧 $o_{t}$ 和动作 $a_{t}$ ，预测未来帧会变成什么样

{\hat{o}}_{t + k} = F (o_{t + k} | o_{t}, a_{t})

两者对偶训练：编码器提取的动作必须足够好，好到能让解码器准确预测未来——这迫使潜在动作编码"真正有意义的变化"。

2.2 VQ-VAE 向量量化

为了与自回归 VLM 的离散预测目标对齐，UniVLA 使用 VQ-VAE 将连续的潜在动作离散化为 codebook 中的索引：

a_{z} = VQ (\hat{a}) = \arg min_{c_{i} \in C} ∥ \hat{a} - c_{i} ∥

codebook 大小 $| C | = 16$ ，每个动作用 $N = 4$ 个 token 表示。因此整个动作空间只有 $16^{4} = 65536$ 种可能，远小于 OpenVLA 的 $256^{7}$ 动作空间。这种紧凑表示是 UniVLA 训练效率高的关键原因之一。

2.3 DINOv2 空间特征

UniVLA 不在像素空间做预测，而是使用 DINOv2 的 patch-level 特征。DINOv2 是自监督预训练的 ViT，其特征具有：

以物体为中心：自然地关注场景中的物体和交互
空间感知：保留了图像的空间布局信息
语义丰富：编码了高层语义而非低层纹理

这让潜在动作编码的是语义级别的场景变化，而非像素级噪声。

三、核心方法

UniVLA 的完整流程分为三个阶段。

3.1 Stage 1：任务中心潜在动作学习

3.1.1 潜在动作量化

给定一对视频帧 ${o_{t}, o_{t + k}}$ （间隔约 1 秒），模型结构如下：

编码器（Spatial-Temporal Transformer）：将两帧的 DINOv2 特征 ${O_{t}, O_{t + k}}$ 和可学习的 action query token $a_{q} \in R^{N \times d}$ 拼接后编码，提取隐含的逆动力学
VQ-VAE 量化：将连续动作表示离散化为 codebook 索引
解码器（Spatial Transformer）：仅从当前帧特征 $O_{t}$ 和量化后的动作 token $\tilde{a}$ 重建未来帧特征 ${\hat{O}}_{t + k}$

训练目标是最小化 DINOv2 特征空间的重建误差：

L = ∥ {\hat{O}}_{t + k} - O_{t + k} ∥^{2}

关键设计：解码器不接收历史帧，只靠动作 token 和当前帧预测未来帧。这迫使动作 token 必须编码足够完整的变化信息。

3.1.2 语言引导的动作解耦

这是 UniVLA 最核心的创新。分两个阶段训练：

Stage 1（学习任务无关动作）：

{\hat{a}}_{T I} = I ([O_{t}; O_{t + k}; a_{T I}; ℓ])

{\tilde{a}}_{T I} = VQ ({\hat{a}}_{T I})

{\hat{O}}_{t + k} = F ([O_{t}; {\tilde{a}}_{T I}; ℓ])

其中 $ℓ$ 是 T5 文本编码器输出的指令嵌入。将语言指令同时输入编码器和解码器。

为什么这样做能得到"任务无关"的动作？直觉如下：

解码器已经从语言指令 $ℓ$ 中获得了"应该做什么"的高层语义（比如"拿起杯子"）
由于 codebook 容量有限（仅 16 个码字），量化后的动作 token 被迫编码语言指令未覆盖的信息——即与任务无关的环境变化（相机晃动、背景物体移动等）
这是信息瓶颈（information bottleneck）的巧妙应用

Stage 2（学习任务中心动作）：

{{\hat{a}}_{T I}, {\hat{a}}_{T C}} = I ([O_{t}; O_{t + k}; a_{T I}; a_{T C}])

{\tilde{a}}_{T I} = VQ ({\hat{a}}_{T I}), {\tilde{a}}_{T C} = {VQ}_{T C} ({\hat{a}}_{T C})

{\hat{O}}_{t + k} = F ([O_{t}; {\tilde{a}}_{T I}; {\tilde{a}}_{T C}])

此阶段的关键操作：

冻结 Stage 1 学到的任务无关 codebook $VQ$
新引入一个任务中心 codebook ${VQ}_{T C}$
移除语言指令输入——强迫新的 $a_{T C}$ 承担起原来语言指令的角色，编码与任务直接相关的动作信息

这相当于在概念上做了一个"减法"：

任务中心动作 \approx 总视觉变化 - 任务无关变化（已由冻结的 a_{T I} 覆盖）

3.2 通才策略预训练

有了潜在动作模型后，可以给任意视频帧 $o_{t}$ 标注潜在动作 $a_{z}$ （给定 $o_{t + k}$ ），然后训练一个自回归 VLM 预测这些标注。

3.2.1 模型架构

基于 Prismatic-7B VLM 构建：

组件	描述
视觉编码器	SigLIP + DINOv2 融合
投影层	对齐视觉嵌入到语言空间
LLM 主干	LLaMA-2

3.2.2 动作 Token 化

与 OpenVLA 将动作映射到已有词表中不常用的 token 不同，UniVLA 在 LLaMA 的词表中新增 $| C |$ 个特殊 token：

{ACT_1, ACT_2, ACT_3, \dots, ACT_C}

每个潜在动作根据其 codebook 索引映射到对应的特殊 token。这保留了 VLM 原有的架构和训练目标。

3.2.3 训练目标

标准的自回归 next-token prediction：

L = E_{o_{t}, l, a_{z, < i}} [- \sum_{i = 1}^{N} \log π_{ϕ} ({\hat{a}}_{z, i} = a_{z, i} | o_{t}, l, a_{z, < i})]

其中 $N = 4$ 是每步预测的动作 token 数。

压缩的动作空间带来的效率提升：OpenVLA 的动作空间为 $256^{7}$ （7 个维度各 256 个 bin），而 UniVLA 只有 $16^{4}$ 。这使得模型收敛速度大幅加快，仅需 960 A100-hours 预训练，是 OpenVLA（21,500 A100-hours）的 1/22。

3.2.4 预训练数据

UniVLA 的预训练数据来自三个来源：

数据源	类型	特点
OpenX 子集	机器人操作	单臂末端执行器控制
GNM 子集	导航	室内外场景，鱼眼第一视角
Ego4D	人类视频	日常活动，自我中心视角

关键：预训练只使用帧和文本指令，不使用任何动作标注或本体感知状态。

3.3 部署后训练

3.3.1 潜在动作解码

部署时需要将 VLM 预测的潜在动作 token 转换为机器人可执行的物理动作。设计了一个轻量级的 Action Decoder（仅 12.6M 参数）：

视觉嵌入聚合：通过多头注意力池化将视觉 token 序列压缩为单个 token

E_{v}^{'} = A (Q = q_{v}, K = V = E_{v})

动作嵌入提取：聚合后的视觉 token 作为 query，从潜在动作嵌入中提取上下文信息

E_{a}^{'} = A (Q = q_{a} + E_{v}^{'}, K = V = E_{a})

线性投影：将结果线性映射到目标机器人的动作空间维度

由于潜在动作编码了约 1 秒时间窗口的动作，因此天然适合解码为 action chunk（如 chunk size = 12），通过简单地扩展投影层输出维度即可实现。

使用 LoRA 进行参数高效微调，总可训练参数约 123M。

3.3.2 历史潜在动作作为上下文

类比 LLM 的 Chain-of-Thought：将前一步预测的潜在动作 token（4 个 token）追加到当前步的指令输入中，形成反馈回路。

增强时序一致性，尤其对长时域任务有显著收益
仅增加 4 个 token 的开销，远小于输入多帧历史图像
LIBERO-Long 成功率提升 3.9%，R2R 导航提升 16.5%

四、实验结果

4.1 LIBERO 操控基准

方法	Spatial	Object	Goal	Long	平均
LAPA	73.8	74.6	58.8	55.4	65.7
Diffusion Policy	78.3	92.5	68.3	50.5	72.4
Octo	78.9	85.7	84.6	51.1	75.1
OpenVLA	84.7	88.4	79.2	53.7	76.5
MaIL (带腕部相机)	74.3	90.1	81.8	78.6	83.5
UniVLA (Human)	91.2	94.2	90.2	79.4	88.7
UniVLA (Bridge)	95.2	95.4	91.9	87.5	92.5
UniVLA (Full)	96.5	96.8	95.6	92.0	95.2

关键发现：

UniVLA (Full) 以 95.2% 平均成功率全面 SOTA，超 OpenVLA 18.7%
仅用 Bridge-V2 数据预训练（92.5%）即超越所有使用额外腕部相机的基线
甚至仅用人类视频数据预训练（88.7%）也超 OpenVLA 12.2%，说明人类视频中确实包含可迁移的操作知识

4.2 CALVIN ABC→D

方法	1 task	2 tasks	3 tasks	4 tasks	5 tasks	Avg. Len.
OpenVLA	91.3	77.8	62.0	52.1	43.5	3.27
RoboDual	94.4	82.7	72.1	62.4	54.4	3.66
UniVLA	95.5	85.8	75.4	66.9	56.5	3.80

UniVLA 仅使用第三视角 RGB 图像就达到 SOTA，5 任务连续完成率 56.5% 超越所有基线，且随任务链变长优势更大。

4.3 R2R 导航

方法	Oracle 成功率
Seq2Seq	8.1
CMA	10.8
LLaVA-Nav	14.0
OpenVLA	17.5
NaVid（全历史观测）	49.1
UniVLA（单帧+历史动作）	47.1

UniVLA 仅用当前帧和历史潜在动作 token（4 个 token），就接近使用全部历史观测的 NaVid（47.1% vs 49.1%），超 OpenVLA 29.6%。这验证了潜在动作空间跨操控/导航两个领域的迁移能力。

4.4 真实机器人

四个任务：收纳螺丝刀（空间感知）、清洁砧板（工具使用）、折叠毛巾（柔性物体）、汉诺塔（语义理解）。

方法	平均成功率	平均得分（满分 3）
Diffusion Policy	33.3	1.45
OpenVLA	38.3	1.63
LAPA	45.0	1.95
UniVLA	81.7	2.63

UniVLA 超 LAPA 36.7% 成功率、0.68 平均得分。在汉诺塔任务上成功率 86.7%（需要正确理解三个杯子的大小关系并按序堆叠），而 Diffusion Policy 仅 6.7%。

推理速度：RTX 4090 上 10 Hz 闭环控制。

4.5 消融实验

任务中心 vs 任务无关 vs 朴素潜在动作

在 Ego4D 人类视频上预训练后测试 LIBERO：

潜在动作类型	Spatial	Object	Goal	Long	平均
Genie（朴素）	89.8	92.8	77.2	69.6	82.3
任务无关	68.0	90.4	67.2	0.2	56.5
任务中心	91.2	94.2	90.2	79.4	88.7

任务无关的潜在动作在 LIBERO-Long 上成功率接近零——因为它们编码的是相机抖动等噪声，策略无法从观测和指令推断出这些信息。任务中心动作比朴素方法提升 6.4%，在 Goal 和 Long 上优势尤其显著（+13% / +9.8%）。

数据规模可扩展性

Bridge-V2 → +OpenX → +人类视频：真实机器人平均得分从 2.05 → 2.35 → 2.63，持续提升
R2R 导航：30 → 44 → 49，同样持续提升
即使人类视频没有动作标注且存在巨大的具身形态差异，纳入后仍能带来额外增益

数据效率

10% 训练数据下，UniVLA 在 LIBERO-Goal 上达 86.3%，超过 OpenVLA 使用全量数据的 79.2%
LIBERO-Long 在 50% 数据下即达 SOTA

Action Decoder 设计

解码方式	Spatial	Object	Goal	Long	平均
自回归（如 OpenVLA）	85.2	81.2	79.0	49.0	73.6
注意力解码 w/o 视觉	95.0	95.4	93.7	86.0	92.5
注意力解码 w/ 视觉	96.5	96.8	95.6	92.0	95.2

注意力解码远优于自回归解码（+21.6% 平均），加入视觉 query 再提升 2.7%。

五、局限性与未来方向

动作粒度固定：codebook 大小和 token 数预定义（ $| C | = 16$ ， $N = 4$ ），可能不适合所有任务。未来可探索自适应机制
单臂限制：主要在单臂操控上验证，扩展到双臂、灵巧手等需要更细粒度的动作空间建模
语言标注依赖：任务中心动作的解耦依赖语言指令的质量。粗粒度指令可能导致解耦不彻底
与世界模型的结合：潜在动作模型的解码器本质上就是一个世界模型，可以用于规划树或强化学习的 test-time scaling
上下文学习：潜在动作模型可以作为"视频分词器"，将人类演示视频编码为潜在动作序列作为 in-context sample，实现零样本技能获取

六、个人思考

6.1 与 π₀ 的对比：两种不同的"跨具身"路线

π₀ 的跨具身策略是统一低层动作空间——用零填充将所有机器人的动作向量对齐到同一维度，然后直接在这个统一空间中用 flow matching 生成连续动作。这要求所有训练数据都有真实动作标注。

UniVLA 走的是统一潜在动作空间——先从视频中无监督提取一个离散的语义动作表示，再在这个表示上做自回归预测。这绕开了对动作标注的依赖，使得人类视频、导航视频等异构数据都可以纳入训练。

两者的互补性很强：π₀ 擅长高频精细控制（50 Hz、action chunk = 50），UniVLA 擅长大规模异构数据利用和快速适配（仅需 12.6M 参数的解码器）。

6.2 信息瓶颈的巧妙运用

Stage 1 中用语言指令"抢走"任务相关信息，迫使 codebook 只编码剩余的任务无关信息——这本质上是利用了信息瓶颈原理。codebook 容量有限 → 无法同时编码所有信息 → 语言指令已提供的高层语义信息被优先"省略" → 剩下的都是低层环境噪声。

这个设计的优雅之处在于：它不需要显式地定义什么是"任务无关"的，而是通过训练目标和容量约束让模型自动发现。

6.3 跨域潜在动作的语义一致性

论文中 Fig. 8 展示了一个令人印象深刻的发现：同一个潜在动作码字在不同数据源（Bridge、RT-1、LIBERO、Ego4D）中标注的帧对，都对应语义一致的动作（如"拿起东西"、"放下东西"、"向前移动"）。这说明 VQ-VAE 的离散化确实学到了跨域通用的动作原语（action primitives），而不仅仅是数据集特定的模式。

更值得注意的是，潜在动作模型在训练中从未见过 LIBERO 的数据，却能准确标注 LIBERO 中的动作。这种零样本泛化能力是 VQ-VAE 离散化带来的"分类效应"——将连续的动力学空间分割成有限的语义类别，天然具备泛化性。

6.4 与 LAPA 的关键区别

LAPA 同样使用 VQ-VAE 从视频中学习潜在动作，但 UniVLA 在三个关键点上做了改进：

DINOv2 特征空间 vs LAPA 的像素空间预测——避免像素级噪声
两阶段任务中心解耦 vs LAPA 的单阶段编码——显式分离任务相关/无关动态
注意力解码器 vs LAPA 的自回归解码——LIBERO-Long 上差距从 55.4% 到 92.0%

这三个改进的效果叠加，使得 UniVLA 在相同架构（Prismatic-7B）下超 LAPA 29.5%。

参考

LAPA（Ye et al., ICLR 2025）：UniVLA 的直接前身，提出从人类视频中无监督学习潜在动作预训练 VLA，但受限于像素级重建和朴素编码
OpenVLA（Kim et al., CoRL 2024）：主要对比基线，将动作离散化为 LLM token 进行自回归预测
Genie（Bruce et al., ICML 2024）：提出因果潜在动作模型，从视频中学习可交互环境
π₀（Physical Intelligence, RSS 2025）：用 Flow Matching 构建 VLA 基础模型，走的是另一条跨具身路线
DINOv2（Oquab et al., TMLR 2024）：自监督视觉表征，为 UniVLA 提供空间感知和物体中心的特征空间

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

UniVLA：基于任务中心潜在动作的跨具身统一 VLA 框架 ​

一句话总结 ​

一、问题与动机 ​

1.1 核心问题：动作标注的瓶颈 ​

1.2 已有潜在动作方法的缺陷 ​

1.3 UniVLA 的核心思路 ​

二、预备知识 ​

2.1 逆动力学模型（IDM）与前向动力学模型（FDM） ​

2.2 VQ-VAE 向量量化 ​

2.3 DINOv2 空间特征 ​

三、核心方法 ​

3.1 Stage 1：任务中心潜在动作学习 ​

3.1.1 潜在动作量化 ​

3.1.2 语言引导的动作解耦 ​

3.2 通才策略预训练 ​

3.2.1 模型架构 ​

3.2.2 动作 Token 化 ​

3.2.3 训练目标 ​

3.2.4 预训练数据 ​

3.3 部署后训练 ​

3.3.1 潜在动作解码 ​

3.3.2 历史潜在动作作为上下文 ​

四、实验结果 ​

4.1 LIBERO 操控基准 ​

4.2 CALVIN ABC→D ​

4.3 R2R 导航 ​

4.4 真实机器人 ​

4.5 消融实验 ​

任务中心 vs 任务无关 vs 朴素潜在动作 ​

数据规模可扩展性 ​

数据效率 ​

Action Decoder 设计 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 与 π₀ 的对比：两种不同的"跨具身"路线 ​

6.2 信息瓶颈的巧妙运用 ​

6.3 跨域潜在动作的语义一致性 ​

6.4 与 LAPA 的关键区别 ​

参考 ​