Skip to content

ViVa:视频生成式价值模型用于机器人强化学习

论文ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

作者:Jindi Lv, Hao Li, Jie Li, Yifei Nie, Fankun Kong, Yang Wang, Xiaofeng Wang, Zheng Zhu†, Chaojun Ni, Qiuping Deng, Hengtao Li, Jiancheng Lv†, Guan Huang

机构:GigaAI、四川大学、清华大学

发布时间:2026 年 4 月(arXiv 2604.08168 v1)

🔗 arXiv | 项目主页


一句话总结

把预训练视频扩散 Transformer(Wan2.2)原封不动当作价值函数用:通过 latent injection 把当前本体感知、多视角图像塞进视频序列前缀,同时去噪预测"未来本体感知 + 当前标量价值",让价值估计植根于预期的具身动力学,替换 RECAP 里的 VLM value model,真实 box assembly 成功率 58%→73%、吞吐 11→14 件/小时,且对未见过的物体(如叠裤子)仍能正确跟踪任务进度。


一、问题与动机

1.1 价值函数的核心地位

RECAP(见 π₀.₆*)已经证明:VLA 的 RL 后训练效果几乎完全取决于价值模型质量——它提供优势指标 It,指挥 advantage-conditioned 策略的每一步改进。

1.2 VLM-based 价值模型的天生缺陷

现有方案(π₀.₆* 的分类头、GVL 的帧排序)都用 VLM 作 backbone。VLM 在静态图文对上训练,擅长回答"场景里有什么",不擅长回答"交互如何让环境演化"。结果:

  • 在长时程任务上,它们只能做"每帧独立打分",缺乏对时间演化的显式建模
  • 定性上(Figures 4–6)表现为:值信号要么单调上升但对错误完全不敏感(对成功轨迹过拟合),要么随机扁平抖动,无法反映真实进度

1.3 作者的核心 insight

Value estimation is inherently a problem of anticipating how the future will unfold.

价值估计本质上就是预测未来会怎样展开。而视频生成模型恰恰是被训练来建模时空演化的,天然自带"设想下一段视频怎么走"的能力。既然如此,直接把视频生成模型当价值模型用,比用 VLM 更契合任务本身。


二、预备知识

2.1 POMDP 下的价值函数

机器人 MDP (S,A,T,R,γ) 中,完整状态不可观;时刻 t 只能观测 xt=(ot,qt),其中 ot 是多视角 RGB,qtR14 是双臂本体感知(末端位姿或关节角)。

策略 π 的价值函数:

Vπ(xt)=Eτρπ[k=tTrk|xt]

ViVa 不学策略,只学这个 Vπ,然后塞回 RECAP 用于 advantage 计算。

2.2 Wan2.2 视频扩散 Transformer

底座是 Wan2.2 —— 一个预训练的视频 DiT,输入是"初始帧 + 文本",输出是后续视频帧。作者保留核心架构,只通过 latent injection(借鉴 Cosmos 世界模型和 Liang 2025《Video Generators are Robot Policies》)扩展 I/O 模态。

2.3 Flow Matching 训练目标

Wan2.2 用 flow matching:给定干净 latent z0 和噪声 z1N(0,I),构造线性插值路径 zτ=(1τ)z0+τz1,模型 vθ 在任意 τ 下预测常速度 z1z0


三、核心方法:ViVa 架构

3.1 把所有模态统一成 latent frame

所有输入/输出都被映射成形状为 (H,W,C) 的 latent frame(H,W 是 VAE 下采样后的空间维度,C 是通道数):

模态注入方式得到的 latent
3 路相机 oti预训练时空 VAE 独立编码zoti
本体感知 qtR14归一化到 [1,1],repeat-padding 填满 HWC 后 reshapezqt
标量价值 vt[0,1]归一化到 [1,1],broadcast 到整个 latent framezvt

为什么要这么搞? 视频 DiT 原本只能吃 latent frame。低维向量要融入这个 pipeline,最简洁的方式是把它们"扩张"成和视觉 latent 同形的张量,由 DiT 的 attention 自行学习提取信息。不用改动任何一层。

3.2 训练时的 latent 序列

[zblank,zqt,zot1,zot2,zot3clean conditioning prefix,zqt+K,zvtnoised targets]
  • 前缀(5 帧,全部干净):blank 占位符(causal VAE 要求)+ 当前 proprio + 3 路图像
  • 目标(2 帧,加噪):未来本体感知 qt+K当前标量价值 vt
  • DiT 根据干净前缀,把加噪的目标去噪回 zqt+Kzvt

K 是一个固定的预测 horizon(主实验 K=50,对齐 RECAP 的 advantage estimation horizon)。

3.3 推理时

只保留前缀,反向扩散生成 z^qt+K,z^vt:

  • v^t:对 z^vt 所有元素求平均,从 [1,1] 还原回 [0,1](broadcast 的逆运算)
  • q^t+K:flatten z^qt+K,按 14 维切块,块内平均,再反归一化(repeat-padding 的逆运算)

推理只需要 1 步 DDIM —— 因为价值 latent 结构非常简单,1 步即可收敛。

3.4 训练目标

两个目标模态的 flow matching 损失加权:

L=λpropEz0q,z1,τ[vθ(zτq;τ,c)(z1z0q)22]+λvalEz0v,z1,τ[vθ(zτv;τ,c)(z1z0v)22]

其中 c 是干净前缀,τU[0,1]。实验取 λprop=1.0,λval=0.5

一个反常识的消融结论:作者也试过同时让模型预测未来视觉帧,但发现价值精度反而下降。猜测是:视觉生成(高维空间结构)和价值预测(简单标量)在优化难度上严重不匹配,联合训练时视觉重建的梯度主导优化,把简单的价值信号淹没了。

3.5 为什么要预测未来 proprioception?

这是 ViVa 相比"纯视频价值模型"的关键设计:

  1. 强迫模型内化机器人自身动力学:对需要精确双臂协调的任务(插入、叠衣)至关重要
  2. 为价值估计提供互补的运动度量:有些错误在视觉上不明显但本体上异常(抬举摇摆、非同步抬起),靠 proprio 才能捕捉

消融(Figure 9 & 10)显示:去掉 proprio 预测后,模型对"盖好盖子后箱子错位"、"抬举时抖动"完全无反应;而完整 ViVa 能检测 missed grasp、uneven force、premature release、asynchronous lifting 等细粒度失败。


四、奖励设计:巧妙的 margin shift

step-wise reward 定义(Eq. 1):

rt={1/T,t<T0,t=T 且成功1,t=T 且失败

累积回报 Gt=k=tTrk(Eq. 2):

Gt={TtT,成功TtT+1,失败

这个奖励 shape 极其巧妙:

  • 成功 episode 的价值严格落在 [0,1),就是归一化的任务进度
  • 失败 episode 整体被抬升到 [1,2),保留了进度信号
  • 任意时间步 t,成功与失败之间都有常数 margin 1.0

这直接解决了"进度"和"失败"的价值歧义 —— 传统 0/1 sparse 奖励下,失败轨迹后半段的真值几乎恒为 0,和"还没完成"无法区分;这里 +1 shift 让模型必须同时学会识别"快完成了"和"要失败了"。

Gt 作为 zvt 的监督信号送入 flow matching 损失。


五、实验

5.1 真实世界三大任务

所有训练数据来自真机演示,单 epoch 训练,batch size 192,8× A800:

任务描述限时
叠衬衫双臂协调铺平 → 折袖 → 纵向折 → 横向折200 s
Box 装配拾取物品 → 装入半成型纸盒 → 折侧翼 → 闭合盖300 s
厕纸整理撕一张 → 丢弃 → 卷回松端 → 贴封条300 s

5.2 真机主结果(Box assembly)

方法SuccessThroughput(件/小时)
π₀.₅(纯模仿)42%8
Gigabrain-0(纯模仿)53%10
RECAP + VLM value58%11
RECAP + ViVa(本文)73%14

相比 VLM baseline,成功率绝对 +15 pp,吞吐 +27%。

5.3 效率对比(Table 2)

模型Training(GPU·天)Inference(秒/帧)
VLM-based60.32
Vid-based(无 proprio 预测)30.11
ViVa(完整)40.18

反直觉但合理:大的视频 DiT 反而比 VLM baseline 更便宜 —— VLM baseline 的 SigLIP 视觉编码器才是瓶颈。

5.4 定性分析:值信号质量

这是论文最有说服力的部分。对同一条轨迹画出 VLM-value 和 ViVa-value 的时序曲线:

  • Figure 4(装箱):VLM 值几乎单调上升,对"插入错位"、"箱子悬挂"完全无反应,典型的对成功轨迹过拟合——只学到"时间越往后,值越高"。ViVa 在错误发生时值立刻锐减
  • Figure 5(叠衣):VLM 值是一条带随机噪声的水平线;ViVa 平滑稳步上升,与任务进度对齐
  • Figure 6(厕纸):ViVa 在"卷纸对齐"和"贴封条"两个里程碑处有清晰阶跃;VLM 毫无反应

5.5 OOD 泛化:叠裤子(训练集未见)

Figure 7 显示:在"抓取、折腿、折腰带、最终放置"四个里程碑处,ViVa 都有清晰的值阶跃,曲线单调平滑上升;VLM 完全崩溃 —— 漏掉第 1 和第 4 里程碑,前半段甚至出现反向下降趋势。

→ 证明 VLM 靠"记忆训练集的视觉模式",ViVa 靠视频生成先验带来的真正时空理解

5.6 消融实验

视频 backbone vs VLM backbone(Figure 8,保持相同 I/O 格式):即使不加 proprio 预测,视频 backbone 单独就已显著优于 VLM backbone,证明"时空先验"是第一性的。

proprio 预测开关(Figure 9 & 10):没 proprio 时 ViVa 对"盖完盖子后箱子错位"、"抬举摇摆"等错误完全无反应;加上后能稳定检测 5 类细粒度错误。

prediction horizon K(Figure 11):K=25 抖动严重,K=75 漏掉关键事件(edge insertion),K=50 最平滑稳定。

  • 太短:缺乏未来上下文,对瞬时噪声不稳健
  • 太长:预测不确定性主导,信号质量劣化

六、局限性与未来方向

  1. 真机实验仅 box assembly:另外两个任务(叠衣、厕纸)只做了定性分析。作者解释是 RECAP 的 rollout cycle 成本太高,其他任务留给未来
  2. 底座绑定 Wan2.2:方法论上不限,但是否对不同视频底座(Hunyuan / CogVideoX / Cosmos)都有效,未展示
  3. 推理延迟 0.18 s/帧:虽然比 VLM 快,但对 50 Hz 闭环控制来说,仍然是"决策级"而非"控制级"(实际上 RECAP 里 value 只参与 advantage 计算,不在控制环内,所以够用)
  4. 未用未来视觉预测信号:论文自己发现联合视觉预测会降点,但这可能只是难度平衡问题。如果能用更精细的 loss 权重调度或 stop-gradient 策略,或许能拿回这部分收益

七、个人思考

7.1 与 GigaBrain-0.5M* 的关系

GigaBrain-0.5M*(同机构,2026.02)已经在做世界模型预测未来状态 + 优势条件化(RAMP,证明 RECAP 是其退化特例)。ViVa(2026.04)可以看作 GigaBrain 系列"把视频生成重新利用到 RL 管线"这个主题的下一步:GigaBrain 用世界模型辅助策略生成,ViVa 则把视频 backbone 直接用作价值模型。

两者共同的 motto:视频生成模型学到的时空先验,是当前最接近"物理理解"的 prior;用它取代 VLM 是 VLA RL 管线的系统性升级

7.2 与奖励模型路线(RoboReward / ROBOMETER / LRM / TOPReward)的分野

奖励模型路线在扩大数据规模 + 改进监督信号(反事实、时序裁剪、token logits 零样本);ViVa 路线在换 backbone(VLM → 视频生成模型)。

两个方向其实正交:

  • 数据端:可以把 RoboReward 的反事实负样本 / ROBOMETER 的轨迹偏好思路迁移过来,补强 ViVa 的监督信号
  • 架构端:ViVa 的"视频 DiT + latent injection"范式也许能嫁接到奖励模型上(但奖励模型多任务多摄像头场景下, VLM 的 language-grounding 不容易丢)

7.3 π₀.₆*(RECAP)与 ViVa 的替换边界

ViVa 是只替换 value model,策略部分仍是 Gigabrain-0 + RECAP 优势条件化。这是一个干净的 ablation 设计:

  • 上游管线不变(RECAP、advantage conditioning、CFG 推理)
  • 下游策略不变
  • 只把 value head 从 201-way SigLIP-based classifier 换成 video DiT

由此得到的提升(+15 pp)可以纯粹归因于 value model 质量。这种"最小变更"设计方式很值得借鉴。

7.4 Margin-shift 奖励的普适性

第四节的 Gt 设计(成功 [0,1),失败 [1,2),常数 margin 1.0)是回归式 value head 的黄金公式,比 π₀.₆* 的分类头(201 bins + CE)更直接。

失败信号用 +1 shift 而非传统 Cfail 惩罚,避免了惩罚量级超参数的调整,且天然适配 broadcast 后 [1,1] 的 latent 归一化。这个 reward shaping 细节值得单独记下来。

7.5 关键论断与验证缺口

论文核心论断是"视频生成先验 > VLM 先验",但所有证据都建立在同一个数据集、同一套下游管线上。强验证应该是:

  • 在不同规模的数据下比较(少数据时 VLM 先验可能反而更稳)
  • 与 GVL(Ma 2024)的 frame-ordering VLM value 做直接对比
  • 在 sim(LIBERO、RoboCasa)上也跑一遍,看是否仍成立

这些都是未来 follow-up 工作的机会。


参考

  • π₀.₆* (2025):提出 RECAP 管线和 VLM-based 分布式 value head,本文直接替换其 value model
  • GigaBrain-0.5M* (2026):同机构前作,证明"未来状态条件化"(RAMP)是 RECAP 的严格推广,ViVa 是其 value side 的自然延伸
  • GVL (Ma 2024):VLM 做 zero-shot value learner(frame-ordering 框架),本文的主要概念对手
  • Wan2.2 (Wan Team 2025):视频 DiT 底座
  • Cosmos WFM Platform (Agarwal 2025):latent injection 思想的来源之一
  • Video Generators are Robot Policies (Liang 2025):同样用 latent injection 把视频模型改造成 policy,ViVa 是它的 value model 对偶版
  • RoboReward (2026) / ROBOMETER (2026) / LRM (2026) / TOPReward (2026):另一条路线——在 VLM 上改进奖励/价值的监督信号,与 ViVa 正交