UniVLA:基于任务中心潜在动作的跨具身统一 VLA 框架
论文:UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
作者:Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
机构:The University of Hong Kong, OpenDriveLab, AgiBot
发布时间:2025年5月
发表会议:RSS 2025
一句话总结
UniVLA 通过无监督的"任务中心潜在动作"(task-centric latent action)将不同具身形态和视角的视频统一到一个共享动作空间,使 VLA 能利用海量无动作标注的跨具身视频甚至人类视频进行预训练,仅用 OpenVLA 1/20 的预训练算力和 1/10 的下游数据即实现全面超越。
一、问题与动机
1.1 核心问题:动作标注的瓶颈
现有 VLA 模型(OpenVLA、RT-2 等)严重依赖带有真实动作标注(ground-truth action labels)的数据进行训练。但这带来三重限制:
- 数据瓶颈:动作标注需要遥操作采集,成本极高,难以像互联网图文数据那样大规模扩展
- 具身异质性:不同机器人(Franka、WidowX、人手)的动作空间和观测空间完全不同,无法直接跨具身迁移知识
- 互联网视频浪费:YouTube 上有海量的操作和导航视频,但它们没有动作标注,现有 VLA 无法利用
核心问题可以归结为:能否学习一个统一的、与具身形态无关的动作表示,让 VLA 从海量无标注视频中学习可迁移的操作知识?
1.2 已有潜在动作方法的缺陷
LAPA 和 IGOR 等工作尝试从视频中学习潜在动作(latent action),但它们有一个关键问题:天真的重建目标会捕获大量与任务无关的视觉变化。
例如在人类操作视频中,除了手部的操作动作(任务相关),还有:
- 相机抖动或视角变化
- 其他人或物体的移动
- 光照变化、新物体出现
这些"噪声"被编码进潜在动作后,会严重干扰下游策略训练。LAPA 在 LIBERO-Long 上仅达 55.4%,说明这种朴素方法难以处理长时域复杂任务。
1.3 UniVLA 的核心思路
UniVLA 的关键创新是将潜在动作显式分解为"任务中心"和"任务无关"两类表示:
- Stage 1:利用语言指令作为条件,让模型学到一套编码环境变化(相机抖、背景动)的"任务无关"潜在动作
- Stage 2:冻结任务无关的 codebook,引入新的 codebook 专门学习任务相关的动作——相当于"减法",把总变化减去无关变化,剩下的就是任务中心的动作
同时,UniVLA 使用 DINOv2 特征代替原始像素作为预测目标,避免模型被像素级噪声(纹理、光照)干扰。
二、预备知识
2.1 逆动力学模型(IDM)与前向动力学模型(FDM)
从视频帧对中提取动作的经典范式:
- IDM(编码器):给定当前帧
和未来帧 ,推断它们之间发生了什么动作
- FDM(解码器):给定当前帧
和动作 ,预测未来帧会变成什么样
两者对偶训练:编码器提取的动作必须足够好,好到能让解码器准确预测未来——这迫使潜在动作编码"真正有意义的变化"。
2.2 VQ-VAE 向量量化
为了与自回归 VLM 的离散预测目标对齐,UniVLA 使用 VQ-VAE 将连续的潜在动作离散化为 codebook 中的索引:
codebook 大小
2.3 DINOv2 空间特征
UniVLA 不在像素空间做预测,而是使用 DINOv2 的 patch-level 特征。DINOv2 是自监督预训练的 ViT,其特征具有:
- 以物体为中心:自然地关注场景中的物体和交互
- 空间感知:保留了图像的空间布局信息
- 语义丰富:编码了高层语义而非低层纹理
这让潜在动作编码的是语义级别的场景变化,而非像素级噪声。
三、核心方法
UniVLA 的完整流程分为三个阶段。
3.1 Stage 1:任务中心潜在动作学习
3.1.1 潜在动作量化
给定一对视频帧
- 编码器(Spatial-Temporal Transformer):将两帧的 DINOv2 特征
和可学习的 action query token 拼接后编码,提取隐含的逆动力学 - VQ-VAE 量化:将连续动作表示离散化为 codebook 索引
- 解码器(Spatial Transformer):仅从当前帧特征
和量化后的动作 token 重建未来帧特征
训练目标是最小化 DINOv2 特征空间的重建误差:
关键设计:解码器不接收历史帧,只靠动作 token 和当前帧预测未来帧。这迫使动作 token 必须编码足够完整的变化信息。
3.1.2 语言引导的动作解耦
这是 UniVLA 最核心的创新。分两个阶段训练:
Stage 1(学习任务无关动作):
其中
为什么这样做能得到"任务无关"的动作?直觉如下:
- 解码器已经从语言指令
中获得了"应该做什么"的高层语义(比如"拿起杯子") - 由于 codebook 容量有限(仅 16 个码字),量化后的动作 token 被迫编码语言指令未覆盖的信息——即与任务无关的环境变化(相机晃动、背景物体移动等)
- 这是信息瓶颈(information bottleneck)的巧妙应用
Stage 2(学习任务中心动作):
此阶段的关键操作:
- 冻结 Stage 1 学到的任务无关 codebook
- 新引入一个任务中心 codebook
- 移除语言指令输入——强迫新的
承担起原来语言指令的角色,编码与任务直接相关的动作信息
这相当于在概念上做了一个"减法":
3.2 通才策略预训练
有了潜在动作模型后,可以给任意视频帧
3.2.1 模型架构
基于 Prismatic-7B VLM 构建:
| 组件 | 描述 |
|---|---|
| 视觉编码器 | SigLIP + DINOv2 融合 |
| 投影层 | 对齐视觉嵌入到语言空间 |
| LLM 主干 | LLaMA-2 |
3.2.2 动作 Token 化
与 OpenVLA 将动作映射到已有词表中不常用的 token 不同,UniVLA 在 LLaMA 的词表中新增
每个潜在动作根据其 codebook 索引映射到对应的特殊 token。这保留了 VLM 原有的架构和训练目标。
3.2.3 训练目标
标准的自回归 next-token prediction:
其中
压缩的动作空间带来的效率提升:OpenVLA 的动作空间为
3.2.4 预训练数据
UniVLA 的预训练数据来自三个来源:
| 数据源 | 类型 | 特点 |
|---|---|---|
| OpenX 子集 | 机器人操作 | 单臂末端执行器控制 |
| GNM 子集 | 导航 | 室内外场景,鱼眼第一视角 |
| Ego4D | 人类视频 | 日常活动,自我中心视角 |
关键:预训练只使用帧和文本指令,不使用任何动作标注或本体感知状态。
3.3 部署后训练
3.3.1 潜在动作解码
部署时需要将 VLM 预测的潜在动作 token 转换为机器人可执行的物理动作。设计了一个轻量级的 Action Decoder(仅 12.6M 参数):
- 视觉嵌入聚合:通过多头注意力池化将视觉 token 序列压缩为单个 token
- 动作嵌入提取:聚合后的视觉 token 作为 query,从潜在动作嵌入中提取上下文信息
- 线性投影:将结果线性映射到目标机器人的动作空间维度
由于潜在动作编码了约 1 秒时间窗口的动作,因此天然适合解码为 action chunk(如 chunk size = 12),通过简单地扩展投影层输出维度即可实现。
使用 LoRA 进行参数高效微调,总可训练参数约 123M。
3.3.2 历史潜在动作作为上下文
类比 LLM 的 Chain-of-Thought:将前一步预测的潜在动作 token(4 个 token)追加到当前步的指令输入中,形成反馈回路。
- 增强时序一致性,尤其对长时域任务有显著收益
- 仅增加 4 个 token 的开销,远小于输入多帧历史图像
- LIBERO-Long 成功率提升 3.9%,R2R 导航提升 16.5%
四、实验结果
4.1 LIBERO 操控基准
| 方法 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|
| LAPA | 73.8 | 74.6 | 58.8 | 55.4 | 65.7 |
| Diffusion Policy | 78.3 | 92.5 | 68.3 | 50.5 | 72.4 |
| Octo | 78.9 | 85.7 | 84.6 | 51.1 | 75.1 |
| OpenVLA | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 |
| MaIL (带腕部相机) | 74.3 | 90.1 | 81.8 | 78.6 | 83.5 |
| UniVLA (Human) | 91.2 | 94.2 | 90.2 | 79.4 | 88.7 |
| UniVLA (Bridge) | 95.2 | 95.4 | 91.9 | 87.5 | 92.5 |
| UniVLA (Full) | 96.5 | 96.8 | 95.6 | 92.0 | 95.2 |
关键发现:
- UniVLA (Full) 以 95.2% 平均成功率全面 SOTA,超 OpenVLA 18.7%
- 仅用 Bridge-V2 数据预训练(92.5%)即超越所有使用额外腕部相机的基线
- 甚至仅用人类视频数据预训练(88.7%)也超 OpenVLA 12.2%,说明人类视频中确实包含可迁移的操作知识
4.2 CALVIN ABC→D
| 方法 | 1 task | 2 tasks | 3 tasks | 4 tasks | 5 tasks | Avg. Len. |
|---|---|---|---|---|---|---|
| OpenVLA | 91.3 | 77.8 | 62.0 | 52.1 | 43.5 | 3.27 |
| RoboDual | 94.4 | 82.7 | 72.1 | 62.4 | 54.4 | 3.66 |
| UniVLA | 95.5 | 85.8 | 75.4 | 66.9 | 56.5 | 3.80 |
UniVLA 仅使用第三视角 RGB 图像就达到 SOTA,5 任务连续完成率 56.5% 超越所有基线,且随任务链变长优势更大。
4.3 R2R 导航
| 方法 | Oracle 成功率 |
|---|---|
| Seq2Seq | 8.1 |
| CMA | 10.8 |
| LLaVA-Nav | 14.0 |
| OpenVLA | 17.5 |
| NaVid(全历史观测) | 49.1 |
| UniVLA(单帧+历史动作) | 47.1 |
UniVLA 仅用当前帧和历史潜在动作 token(4 个 token),就接近使用全部历史观测的 NaVid(47.1% vs 49.1%),超 OpenVLA 29.6%。这验证了潜在动作空间跨操控/导航两个领域的迁移能力。
4.4 真实机器人
四个任务:收纳螺丝刀(空间感知)、清洁砧板(工具使用)、折叠毛巾(柔性物体)、汉诺塔(语义理解)。
| 方法 | 平均成功率 | 平均得分(满分 3) |
|---|---|---|
| Diffusion Policy | 33.3 | 1.45 |
| OpenVLA | 38.3 | 1.63 |
| LAPA | 45.0 | 1.95 |
| UniVLA | 81.7 | 2.63 |
UniVLA 超 LAPA 36.7% 成功率、0.68 平均得分。在汉诺塔任务上成功率 86.7%(需要正确理解三个杯子的大小关系并按序堆叠),而 Diffusion Policy 仅 6.7%。
推理速度:RTX 4090 上 10 Hz 闭环控制。
4.5 消融实验
任务中心 vs 任务无关 vs 朴素潜在动作
在 Ego4D 人类视频上预训练后测试 LIBERO:
| 潜在动作类型 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|
| Genie(朴素) | 89.8 | 92.8 | 77.2 | 69.6 | 82.3 |
| 任务无关 | 68.0 | 90.4 | 67.2 | 0.2 | 56.5 |
| 任务中心 | 91.2 | 94.2 | 90.2 | 79.4 | 88.7 |
任务无关的潜在动作在 LIBERO-Long 上成功率接近零——因为它们编码的是相机抖动等噪声,策略无法从观测和指令推断出这些信息。任务中心动作比朴素方法提升 6.4%,在 Goal 和 Long 上优势尤其显著(+13% / +9.8%)。
数据规模可扩展性
- Bridge-V2 → +OpenX → +人类视频:真实机器人平均得分从 2.05 → 2.35 → 2.63,持续提升
- R2R 导航:30 → 44 → 49,同样持续提升
- 即使人类视频没有动作标注且存在巨大的具身形态差异,纳入后仍能带来额外增益
数据效率
- 10% 训练数据下,UniVLA 在 LIBERO-Goal 上达 86.3%,超过 OpenVLA 使用全量数据的 79.2%
- LIBERO-Long 在 50% 数据下即达 SOTA
Action Decoder 设计
| 解码方式 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|
| 自回归(如 OpenVLA) | 85.2 | 81.2 | 79.0 | 49.0 | 73.6 |
| 注意力解码 w/o 视觉 | 95.0 | 95.4 | 93.7 | 86.0 | 92.5 |
| 注意力解码 w/ 视觉 | 96.5 | 96.8 | 95.6 | 92.0 | 95.2 |
注意力解码远优于自回归解码(+21.6% 平均),加入视觉 query 再提升 2.7%。
五、局限性与未来方向
- 动作粒度固定:codebook 大小和 token 数预定义(
, ),可能不适合所有任务。未来可探索自适应机制 - 单臂限制:主要在单臂操控上验证,扩展到双臂、灵巧手等需要更细粒度的动作空间建模
- 语言标注依赖:任务中心动作的解耦依赖语言指令的质量。粗粒度指令可能导致解耦不彻底
- 与世界模型的结合:潜在动作模型的解码器本质上就是一个世界模型,可以用于规划树或强化学习的 test-time scaling
- 上下文学习:潜在动作模型可以作为"视频分词器",将人类演示视频编码为潜在动作序列作为 in-context sample,实现零样本技能获取
六、个人思考
6.1 与 π₀ 的对比:两种不同的"跨具身"路线
π₀ 的跨具身策略是统一低层动作空间——用零填充将所有机器人的动作向量对齐到同一维度,然后直接在这个统一空间中用 flow matching 生成连续动作。这要求所有训练数据都有真实动作标注。
UniVLA 走的是统一潜在动作空间——先从视频中无监督提取一个离散的语义动作表示,再在这个表示上做自回归预测。这绕开了对动作标注的依赖,使得人类视频、导航视频等异构数据都可以纳入训练。
两者的互补性很强:π₀ 擅长高频精细控制(50 Hz、action chunk = 50),UniVLA 擅长大规模异构数据利用和快速适配(仅需 12.6M 参数的解码器)。
6.2 信息瓶颈的巧妙运用
Stage 1 中用语言指令"抢走"任务相关信息,迫使 codebook 只编码剩余的任务无关信息——这本质上是利用了信息瓶颈原理。codebook 容量有限 → 无法同时编码所有信息 → 语言指令已提供的高层语义信息被优先"省略" → 剩下的都是低层环境噪声。
这个设计的优雅之处在于:它不需要显式地定义什么是"任务无关"的,而是通过训练目标和容量约束让模型自动发现。
6.3 跨域潜在动作的语义一致性
论文中 Fig. 8 展示了一个令人印象深刻的发现:同一个潜在动作码字在不同数据源(Bridge、RT-1、LIBERO、Ego4D)中标注的帧对,都对应语义一致的动作(如"拿起东西"、"放下东西"、"向前移动")。这说明 VQ-VAE 的离散化确实学到了跨域通用的动作原语(action primitives),而不仅仅是数据集特定的模式。
更值得注意的是,潜在动作模型在训练中从未见过 LIBERO 的数据,却能准确标注 LIBERO 中的动作。这种零样本泛化能力是 VQ-VAE 离散化带来的"分类效应"——将连续的动力学空间分割成有限的语义类别,天然具备泛化性。
6.4 与 LAPA 的关键区别
LAPA 同样使用 VQ-VAE 从视频中学习潜在动作,但 UniVLA 在三个关键点上做了改进:
- DINOv2 特征空间 vs LAPA 的像素空间预测——避免像素级噪声
- 两阶段任务中心解耦 vs LAPA 的单阶段编码——显式分离任务相关/无关动态
- 注意力解码器 vs LAPA 的自回归解码——LIBERO-Long 上差距从 55.4% 到 92.0%
这三个改进的效果叠加,使得 UniVLA 在相同架构(Prismatic-7B)下超 LAPA 29.5%。
参考
- LAPA(Ye et al., ICLR 2025):UniVLA 的直接前身,提出从人类视频中无监督学习潜在动作预训练 VLA,但受限于像素级重建和朴素编码
- OpenVLA(Kim et al., CoRL 2024):主要对比基线,将动作离散化为 LLM token 进行自回归预测
- Genie(Bruce et al., ICML 2024):提出因果潜在动作模型,从视频中学习可交互环境
- π₀(Physical Intelligence, RSS 2025):用 Flow Matching 构建 VLA 基础模型,走的是另一条跨具身路线
- DINOv2(Oquab et al., TMLR 2024):自监督视觉表征,为 UniVLA 提供空间感知和物体中心的特征空间