Skip to content

UniVLA:基于任务中心潜在动作的跨具身统一 VLA 框架

论文UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

作者:Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li

机构:The University of Hong Kong, OpenDriveLab, AgiBot

发布时间:2025年5月

链接arXiv | 代码

发表会议:RSS 2025


一句话总结

UniVLA 通过无监督的"任务中心潜在动作"(task-centric latent action)将不同具身形态和视角的视频统一到一个共享动作空间,使 VLA 能利用海量无动作标注的跨具身视频甚至人类视频进行预训练,仅用 OpenVLA 1/20 的预训练算力和 1/10 的下游数据即实现全面超越。


一、问题与动机

1.1 核心问题:动作标注的瓶颈

现有 VLA 模型(OpenVLA、RT-2 等)严重依赖带有真实动作标注(ground-truth action labels)的数据进行训练。但这带来三重限制:

  1. 数据瓶颈:动作标注需要遥操作采集,成本极高,难以像互联网图文数据那样大规模扩展
  2. 具身异质性:不同机器人(Franka、WidowX、人手)的动作空间和观测空间完全不同,无法直接跨具身迁移知识
  3. 互联网视频浪费:YouTube 上有海量的操作和导航视频,但它们没有动作标注,现有 VLA 无法利用

核心问题可以归结为:能否学习一个统一的、与具身形态无关的动作表示,让 VLA 从海量无标注视频中学习可迁移的操作知识?

1.2 已有潜在动作方法的缺陷

LAPA 和 IGOR 等工作尝试从视频中学习潜在动作(latent action),但它们有一个关键问题:天真的重建目标会捕获大量与任务无关的视觉变化

例如在人类操作视频中,除了手部的操作动作(任务相关),还有:

  • 相机抖动或视角变化
  • 其他人或物体的移动
  • 光照变化、新物体出现

这些"噪声"被编码进潜在动作后,会严重干扰下游策略训练。LAPA 在 LIBERO-Long 上仅达 55.4%,说明这种朴素方法难以处理长时域复杂任务。

1.3 UniVLA 的核心思路

UniVLA 的关键创新是将潜在动作显式分解为"任务中心"和"任务无关"两类表示

  1. Stage 1:利用语言指令作为条件,让模型学到一套编码环境变化(相机抖、背景动)的"任务无关"潜在动作
  2. Stage 2:冻结任务无关的 codebook,引入新的 codebook 专门学习任务相关的动作——相当于"减法",把总变化减去无关变化,剩下的就是任务中心的动作

同时,UniVLA 使用 DINOv2 特征代替原始像素作为预测目标,避免模型被像素级噪声(纹理、光照)干扰。


二、预备知识

2.1 逆动力学模型(IDM)与前向动力学模型(FDM)

从视频帧对中提取动作的经典范式:

  • IDM(编码器):给定当前帧 ot 和未来帧 ot+k,推断它们之间发生了什么动作 at
at=I(at|ot,ot+k)
  • FDM(解码器):给定当前帧 ot 和动作 at,预测未来帧会变成什么样
o^t+k=F(ot+k|ot,at)

两者对偶训练:编码器提取的动作必须足够好,好到能让解码器准确预测未来——这迫使潜在动作编码"真正有意义的变化"。

2.2 VQ-VAE 向量量化

为了与自回归 VLM 的离散预测目标对齐,UniVLA 使用 VQ-VAE 将连续的潜在动作离散化为 codebook 中的索引:

az=VQ(a^)=argminciCa^ci

codebook 大小 |C|=16,每个动作用 N=4 个 token 表示。因此整个动作空间只有 164=65536 种可能,远小于 OpenVLA 的 2567 动作空间。这种紧凑表示是 UniVLA 训练效率高的关键原因之一。

2.3 DINOv2 空间特征

UniVLA 不在像素空间做预测,而是使用 DINOv2 的 patch-level 特征。DINOv2 是自监督预训练的 ViT,其特征具有:

  • 以物体为中心:自然地关注场景中的物体和交互
  • 空间感知:保留了图像的空间布局信息
  • 语义丰富:编码了高层语义而非低层纹理

这让潜在动作编码的是语义级别的场景变化,而非像素级噪声。


三、核心方法

UniVLA 的完整流程分为三个阶段。

3.1 Stage 1:任务中心潜在动作学习

3.1.1 潜在动作量化

给定一对视频帧 {ot,ot+k}(间隔约 1 秒),模型结构如下:

  • 编码器(Spatial-Temporal Transformer):将两帧的 DINOv2 特征 {Ot,Ot+k} 和可学习的 action query token aqRN×d 拼接后编码,提取隐含的逆动力学
  • VQ-VAE 量化:将连续动作表示离散化为 codebook 索引
  • 解码器(Spatial Transformer):仅从当前帧特征 Ot 和量化后的动作 token a~ 重建未来帧特征 O^t+k

训练目标是最小化 DINOv2 特征空间的重建误差:

L=O^t+kOt+k2

关键设计:解码器不接收历史帧,只靠动作 token 和当前帧预测未来帧。这迫使动作 token 必须编码足够完整的变化信息。

3.1.2 语言引导的动作解耦

这是 UniVLA 最核心的创新。分两个阶段训练:

Stage 1(学习任务无关动作)

a^TI=I([Ot;Ot+k;aTI;])a~TI=VQ(a^TI)O^t+k=F([Ot;a~TI;])

其中 是 T5 文本编码器输出的指令嵌入。将语言指令同时输入编码器和解码器。

为什么这样做能得到"任务无关"的动作?直觉如下:

  • 解码器已经从语言指令 中获得了"应该做什么"的高层语义(比如"拿起杯子")
  • 由于 codebook 容量有限(仅 16 个码字),量化后的动作 token 被迫编码语言指令未覆盖的信息——即与任务无关的环境变化(相机晃动、背景物体移动等)
  • 这是信息瓶颈(information bottleneck)的巧妙应用

Stage 2(学习任务中心动作)

{a^TI,a^TC}=I([Ot;Ot+k;aTI;aTC])a~TI=VQ(a^TI),a~TC=VQTC(a^TC)O^t+k=F([Ot;a~TI;a~TC])

此阶段的关键操作:

  • 冻结 Stage 1 学到的任务无关 codebook VQ
  • 新引入一个任务中心 codebook VQTC
  • 移除语言指令输入——强迫新的 aTC 承担起原来语言指令的角色,编码与任务直接相关的动作信息

这相当于在概念上做了一个"减法":

任务中心动作总视觉变化任务无关变化(已由冻结的 aTI 覆盖)

3.2 通才策略预训练

有了潜在动作模型后,可以给任意视频帧 ot 标注潜在动作 az(给定 ot+k),然后训练一个自回归 VLM 预测这些标注。

3.2.1 模型架构

基于 Prismatic-7B VLM 构建:

组件描述
视觉编码器SigLIP + DINOv2 融合
投影层对齐视觉嵌入到语言空间
LLM 主干LLaMA-2

3.2.2 动作 Token 化

与 OpenVLA 将动作映射到已有词表中不常用的 token 不同,UniVLA 在 LLaMA 的词表中新增 |C| 个特殊 token:

{ACT_1,ACT_2,ACT_3,,ACT_C}

每个潜在动作根据其 codebook 索引映射到对应的特殊 token。这保留了 VLM 原有的架构和训练目标。

3.2.3 训练目标

标准的自回归 next-token prediction:

L=Eot,l,az,<i[i=1Nlogπϕ(a^z,i=az,i|ot,l,az,<i)]

其中 N=4 是每步预测的动作 token 数。

压缩的动作空间带来的效率提升:OpenVLA 的动作空间为 2567(7 个维度各 256 个 bin),而 UniVLA 只有 164。这使得模型收敛速度大幅加快,仅需 960 A100-hours 预训练,是 OpenVLA(21,500 A100-hours)的 1/22

3.2.4 预训练数据

UniVLA 的预训练数据来自三个来源:

数据源类型特点
OpenX 子集机器人操作单臂末端执行器控制
GNM 子集导航室内外场景,鱼眼第一视角
Ego4D人类视频日常活动,自我中心视角

关键:预训练只使用帧和文本指令,不使用任何动作标注或本体感知状态

3.3 部署后训练

3.3.1 潜在动作解码

部署时需要将 VLM 预测的潜在动作 token 转换为机器人可执行的物理动作。设计了一个轻量级的 Action Decoder(仅 12.6M 参数):

  1. 视觉嵌入聚合:通过多头注意力池化将视觉 token 序列压缩为单个 token
Ev=A(Q=qv,K=V=Ev)
  1. 动作嵌入提取:聚合后的视觉 token 作为 query,从潜在动作嵌入中提取上下文信息
Ea=A(Q=qa+Ev,K=V=Ea)
  1. 线性投影:将结果线性映射到目标机器人的动作空间维度

由于潜在动作编码了约 1 秒时间窗口的动作,因此天然适合解码为 action chunk(如 chunk size = 12),通过简单地扩展投影层输出维度即可实现。

使用 LoRA 进行参数高效微调,总可训练参数约 123M。

3.3.2 历史潜在动作作为上下文

类比 LLM 的 Chain-of-Thought:将前一步预测的潜在动作 token(4 个 token)追加到当前步的指令输入中,形成反馈回路。

  • 增强时序一致性,尤其对长时域任务有显著收益
  • 仅增加 4 个 token 的开销,远小于输入多帧历史图像
  • LIBERO-Long 成功率提升 3.9%,R2R 导航提升 16.5%

四、实验结果

4.1 LIBERO 操控基准

方法SpatialObjectGoalLong平均
LAPA73.874.658.855.465.7
Diffusion Policy78.392.568.350.572.4
Octo78.985.784.651.175.1
OpenVLA84.788.479.253.776.5
MaIL (带腕部相机)74.390.181.878.683.5
UniVLA (Human)91.294.290.279.488.7
UniVLA (Bridge)95.295.491.987.592.5
UniVLA (Full)96.596.895.692.095.2

关键发现:

  • UniVLA (Full) 以 95.2% 平均成功率全面 SOTA,超 OpenVLA 18.7%
  • 仅用 Bridge-V2 数据预训练(92.5%)即超越所有使用额外腕部相机的基线
  • 甚至仅用人类视频数据预训练(88.7%)也超 OpenVLA 12.2%,说明人类视频中确实包含可迁移的操作知识

4.2 CALVIN ABC→D

方法1 task2 tasks3 tasks4 tasks5 tasksAvg. Len.
OpenVLA91.377.862.052.143.53.27
RoboDual94.482.772.162.454.43.66
UniVLA95.585.875.466.956.53.80

UniVLA 仅使用第三视角 RGB 图像就达到 SOTA,5 任务连续完成率 56.5% 超越所有基线,且随任务链变长优势更大。

4.3 R2R 导航

方法Oracle 成功率
Seq2Seq8.1
CMA10.8
LLaVA-Nav14.0
OpenVLA17.5
NaVid(全历史观测)49.1
UniVLA(单帧+历史动作)47.1

UniVLA 仅用当前帧和历史潜在动作 token(4 个 token),就接近使用全部历史观测的 NaVid(47.1% vs 49.1%),超 OpenVLA 29.6%。这验证了潜在动作空间跨操控/导航两个领域的迁移能力。

4.4 真实机器人

四个任务:收纳螺丝刀(空间感知)、清洁砧板(工具使用)、折叠毛巾(柔性物体)、汉诺塔(语义理解)。

方法平均成功率平均得分(满分 3)
Diffusion Policy33.31.45
OpenVLA38.31.63
LAPA45.01.95
UniVLA81.72.63

UniVLA 超 LAPA 36.7% 成功率、0.68 平均得分。在汉诺塔任务上成功率 86.7%(需要正确理解三个杯子的大小关系并按序堆叠),而 Diffusion Policy 仅 6.7%。

推理速度:RTX 4090 上 10 Hz 闭环控制。

4.5 消融实验

任务中心 vs 任务无关 vs 朴素潜在动作

在 Ego4D 人类视频上预训练后测试 LIBERO:

潜在动作类型SpatialObjectGoalLong平均
Genie(朴素)89.892.877.269.682.3
任务无关68.090.467.20.256.5
任务中心91.294.290.279.488.7

任务无关的潜在动作在 LIBERO-Long 上成功率接近零——因为它们编码的是相机抖动等噪声,策略无法从观测和指令推断出这些信息。任务中心动作比朴素方法提升 6.4%,在 Goal 和 Long 上优势尤其显著(+13% / +9.8%)。

数据规模可扩展性

  • Bridge-V2 → +OpenX → +人类视频:真实机器人平均得分从 2.05 → 2.35 → 2.63,持续提升
  • R2R 导航:30 → 44 → 49,同样持续提升
  • 即使人类视频没有动作标注且存在巨大的具身形态差异,纳入后仍能带来额外增益

数据效率

  • 10% 训练数据下,UniVLA 在 LIBERO-Goal 上达 86.3%,超过 OpenVLA 使用全量数据的 79.2%
  • LIBERO-Long 在 50% 数据下即达 SOTA

Action Decoder 设计

解码方式SpatialObjectGoalLong平均
自回归(如 OpenVLA)85.281.279.049.073.6
注意力解码 w/o 视觉95.095.493.786.092.5
注意力解码 w/ 视觉96.596.895.692.095.2

注意力解码远优于自回归解码(+21.6% 平均),加入视觉 query 再提升 2.7%。


五、局限性与未来方向

  1. 动作粒度固定:codebook 大小和 token 数预定义(|C|=16N=4),可能不适合所有任务。未来可探索自适应机制
  2. 单臂限制:主要在单臂操控上验证,扩展到双臂、灵巧手等需要更细粒度的动作空间建模
  3. 语言标注依赖:任务中心动作的解耦依赖语言指令的质量。粗粒度指令可能导致解耦不彻底
  4. 与世界模型的结合:潜在动作模型的解码器本质上就是一个世界模型,可以用于规划树或强化学习的 test-time scaling
  5. 上下文学习:潜在动作模型可以作为"视频分词器",将人类演示视频编码为潜在动作序列作为 in-context sample,实现零样本技能获取

六、个人思考

6.1 与 π₀ 的对比:两种不同的"跨具身"路线

π₀ 的跨具身策略是统一低层动作空间——用零填充将所有机器人的动作向量对齐到同一维度,然后直接在这个统一空间中用 flow matching 生成连续动作。这要求所有训练数据都有真实动作标注。

UniVLA 走的是统一潜在动作空间——先从视频中无监督提取一个离散的语义动作表示,再在这个表示上做自回归预测。这绕开了对动作标注的依赖,使得人类视频、导航视频等异构数据都可以纳入训练。

两者的互补性很强:π₀ 擅长高频精细控制(50 Hz、action chunk = 50),UniVLA 擅长大规模异构数据利用和快速适配(仅需 12.6M 参数的解码器)。

6.2 信息瓶颈的巧妙运用

Stage 1 中用语言指令"抢走"任务相关信息,迫使 codebook 只编码剩余的任务无关信息——这本质上是利用了信息瓶颈原理。codebook 容量有限 → 无法同时编码所有信息 → 语言指令已提供的高层语义信息被优先"省略" → 剩下的都是低层环境噪声。

这个设计的优雅之处在于:它不需要显式地定义什么是"任务无关"的,而是通过训练目标和容量约束让模型自动发现。

6.3 跨域潜在动作的语义一致性

论文中 Fig. 8 展示了一个令人印象深刻的发现:同一个潜在动作码字在不同数据源(Bridge、RT-1、LIBERO、Ego4D)中标注的帧对,都对应语义一致的动作(如"拿起东西"、"放下东西"、"向前移动")。这说明 VQ-VAE 的离散化确实学到了跨域通用的动作原语(action primitives),而不仅仅是数据集特定的模式。

更值得注意的是,潜在动作模型在训练中从未见过 LIBERO 的数据,却能准确标注 LIBERO 中的动作。这种零样本泛化能力是 VQ-VAE 离散化带来的"分类效应"——将连续的动力学空间分割成有限的语义类别,天然具备泛化性。

6.4 与 LAPA 的关键区别

LAPA 同样使用 VQ-VAE 从视频中学习潜在动作,但 UniVLA 在三个关键点上做了改进:

  1. DINOv2 特征空间 vs LAPA 的像素空间预测——避免像素级噪声
  2. 两阶段任务中心解耦 vs LAPA 的单阶段编码——显式分离任务相关/无关动态
  3. 注意力解码器 vs LAPA 的自回归解码——LIBERO-Long 上差距从 55.4% 到 92.0%

这三个改进的效果叠加,使得 UniVLA 在相同架构(Prismatic-7B)下超 LAPA 29.5%。


参考

  • LAPA(Ye et al., ICLR 2025):UniVLA 的直接前身,提出从人类视频中无监督学习潜在动作预训练 VLA,但受限于像素级重建和朴素编码
  • OpenVLA(Kim et al., CoRL 2024):主要对比基线,将动作离散化为 LLM token 进行自回归预测
  • Genie(Bruce et al., ICML 2024):提出因果潜在动作模型,从视频中学习可交互环境
  • π₀(Physical Intelligence, RSS 2025):用 Flow Matching 构建 VLA 基础模型,走的是另一条跨具身路线
  • DINOv2(Oquab et al., TMLR 2024):自监督视觉表征,为 UniVLA 提供空间感知和物体中心的特征空间