ViVa：视频生成式价值模型用于机器人强化学习

论文：ViVa: A Video-Generative Value Model for Robot Reinforcement Learning
作者：Jindi Lv, Hao Li, Jie Li, Yifei Nie, Fankun Kong, Yang Wang, Xiaofeng Wang, Zheng Zhu†, Chaojun Ni, Qiuping Deng, Hengtao Li, Jiancheng Lv†, Guan Huang
机构：GigaAI、四川大学、清华大学
发布时间：2026 年 4 月(arXiv 2604.08168 v1)
🔗 arXiv | 项目主页

一句话总结

把预训练视频扩散 Transformer(Wan2.2)原封不动当作价值函数用:通过 latent injection 把当前本体感知、多视角图像塞进视频序列前缀,同时去噪预测"未来本体感知 + 当前标量价值",让价值估计植根于预期的具身动力学,替换 RECAP 里的 VLM value model,真实 box assembly 成功率 58%→73%、吞吐 11→14 件/小时,且对未见过的物体(如叠裤子)仍能正确跟踪任务进度。

一、问题与动机

1.1 价值函数的核心地位

RECAP(见 π₀.₆*)已经证明:VLA 的 RL 后训练效果几乎完全取决于价值模型质量——它提供优势指标 $I_{t}$ ,指挥 advantage-conditioned 策略的每一步改进。

1.2 VLM-based 价值模型的天生缺陷

现有方案(π₀.₆* 的分类头、GVL 的帧排序)都用 VLM 作 backbone。VLM 在静态图文对上训练,擅长回答"场景里有什么",不擅长回答"交互如何让环境演化"。结果:

在长时程任务上,它们只能做"每帧独立打分",缺乏对时间演化的显式建模
定性上(Figures 4–6)表现为:值信号要么单调上升但对错误完全不敏感(对成功轨迹过拟合),要么随机扁平抖动,无法反映真实进度

1.3 作者的核心 insight

Value estimation is inherently a problem of anticipating how the future will unfold.

价值估计本质上就是预测未来会怎样展开。而视频生成模型恰恰是被训练来建模时空演化的,天然自带"设想下一段视频怎么走"的能力。既然如此,直接把视频生成模型当价值模型用,比用 VLM 更契合任务本身。

二、预备知识

2.1 POMDP 下的价值函数

机器人 MDP $(S, A, T, R, γ)$ 中,完整状态不可观;时刻 $t$ 只能观测 $x_{t} = (o_{t}, q_{t})$ ,其中 $o_{t}$ 是多视角 RGB, $q_{t} \in R^{14}$ 是双臂本体感知(末端位姿或关节角)。

策略 $π$ 的价值函数:

V^{π} (x_{t}) = E_{τ \sim ρ_{π}} [\sum_{k = t}^{T} r_{k} | x_{t}]

ViVa 不学策略,只学这个 $V^{π}$ ,然后塞回 RECAP 用于 advantage 计算。

2.2 Wan2.2 视频扩散 Transformer

底座是 Wan2.2 —— 一个预训练的视频 DiT,输入是"初始帧 + 文本",输出是后续视频帧。作者保留核心架构,只通过 latent injection(借鉴 Cosmos 世界模型和 Liang 2025《Video Generators are Robot Policies》)扩展 I/O 模态。

2.3 Flow Matching 训练目标

Wan2.2 用 flow matching:给定干净 latent $z_{0}$ 和噪声 $z_{1} \sim N (0, I)$ ,构造线性插值路径 $z_{τ} = (1 - τ) z_{0} + τ z_{1}$ ,模型 $v_{θ}$ 在任意 $τ$ 下预测常速度 $z_{1} - z_{0}$ 。

三、核心方法:ViVa 架构

3.1 把所有模态统一成 latent frame

所有输入/输出都被映射成形状为 $(H^{'}, W^{'}, C^{'})$ 的 latent frame( $H^{'}, W^{'}$ 是 VAE 下采样后的空间维度, $C^{'}$ 是通道数):

模态	注入方式	得到的 latent
3 路相机 $o_{t}^{i}$	预训练时空 VAE 独立编码	$z_{o_{t}^{i}}$
本体感知 $q_{t} \in R^{14}$	归一化到 $[- 1, 1]$ ,repeat-padding 填满 $H^{'} W^{'} C^{'}$ 后 reshape	$z_{q_{t}}$
标量价值 $v_{t} \in [0, 1]$	归一化到 $[- 1, 1]$ ,broadcast 到整个 latent frame	$z_{v_{t}}$

为什么要这么搞? 视频 DiT 原本只能吃 latent frame。低维向量要融入这个 pipeline,最简洁的方式是把它们"扩张"成和视觉 latent 同形的张量,由 DiT 的 attention 自行学习提取信息。不用改动任何一层。

3.2 训练时的 latent 序列

[\underset{clean conditioning prefix}{\underset{⏟}{z_{blank}, z_{q_{t}}, z_{o_{t}^{1}}, z_{o_{t}^{2}}, z_{o_{t}^{3}}}}, \underset{noised targets}{\underset{⏟}{z_{q_{t + K}}, z_{v_{t}}}}]

前缀(5 帧,全部干净):blank 占位符(causal VAE 要求)+ 当前 proprio + 3 路图像
目标(2 帧,加噪):未来本体感知 $q_{t + K}$ 和 当前标量价值 $v_{t}$
DiT 根据干净前缀,把加噪的目标去噪回 $z_{q_{t + K}}$ 和 $z_{v_{t}}$

$K$ 是一个固定的预测 horizon(主实验 $K = 50$ ,对齐 RECAP 的 advantage estimation horizon)。

3.3 推理时

只保留前缀,反向扩散生成 ${\hat{z}}_{q_{t + K}}, {\hat{z}}_{v_{t}}$ :

${\hat{v}}_{t}$ :对 ${\hat{z}}_{v_{t}}$ 所有元素求平均,从 $[- 1, 1]$ 还原回 $[0, 1]$ (broadcast 的逆运算)
${\hat{q}}_{t + K}$ :flatten ${\hat{z}}_{q_{t + K}}$ ,按 14 维切块,块内平均,再反归一化(repeat-padding 的逆运算)

推理只需要 1 步 DDIM —— 因为价值 latent 结构非常简单,1 步即可收敛。

3.4 训练目标

两个目标模态的 flow matching 损失加权:

L = λ_{prop} E_{z_{0}^{q}, z_{1}, τ} [∥ v_{θ} (z_{τ}^{q}; τ, c) - (z_{1} - z_{0}^{q}) ∥_{2}^{2}] + λ_{val} E_{z_{0}^{v}, z_{1}, τ} [∥ v_{θ} (z_{τ}^{v}; τ, c) - (z_{1} - z_{0}^{v}) ∥_{2}^{2}]

其中 $c$ 是干净前缀, $τ \sim U [0, 1]$ 。实验取 $λ_{prop} = 1.0, λ_{val} = 0.5$ 。

一个反常识的消融结论:作者也试过同时让模型预测未来视觉帧,但发现价值精度反而下降。猜测是:视觉生成(高维空间结构)和价值预测(简单标量)在优化难度上严重不匹配,联合训练时视觉重建的梯度主导优化,把简单的价值信号淹没了。

3.5 为什么要预测未来 proprioception?

这是 ViVa 相比"纯视频价值模型"的关键设计:

强迫模型内化机器人自身动力学:对需要精确双臂协调的任务(插入、叠衣)至关重要
为价值估计提供互补的运动度量:有些错误在视觉上不明显但本体上异常(抬举摇摆、非同步抬起),靠 proprio 才能捕捉

消融(Figure 9 & 10)显示:去掉 proprio 预测后,模型对"盖好盖子后箱子错位"、"抬举时抖动"完全无反应;而完整 ViVa 能检测 missed grasp、uneven force、premature release、asynchronous lifting 等细粒度失败。

四、奖励设计:巧妙的 margin shift

step-wise reward 定义(Eq. 1):

r_{t} = {\begin{cases} 1 / T, & t < T \\ 0, & t = T 且成功 \\ 1, & t = T 且失败 \end{cases}

累积回报 $G_{t} = \sum_{k = t}^{T} r_{k}$ (Eq. 2):

G_{t} = {\begin{cases} \frac{T - t}{T}, & 成功 \\ \frac{T - t}{T} + 1, & 失败 \end{cases}

这个奖励 shape 极其巧妙:

成功 episode 的价值严格落在 $[0, 1)$ ,就是归一化的任务进度
失败 episode 整体被抬升到 $[1, 2)$ ,保留了进度信号
任意时间步 $t$ ,成功与失败之间都有常数 margin 1.0

这直接解决了"进度"和"失败"的价值歧义 —— 传统 0/1 sparse 奖励下,失败轨迹后半段的真值几乎恒为 0,和"还没完成"无法区分;这里 +1 shift 让模型必须同时学会识别"快完成了"和"要失败了"。

$G_{t}$ 作为 $z_{v_{t}}$ 的监督信号送入 flow matching 损失。

五、实验

5.1 真实世界三大任务

所有训练数据来自真机演示,单 epoch 训练,batch size 192,8× A800:

任务	描述	限时
叠衬衫	双臂协调铺平 → 折袖 → 纵向折 → 横向折	200 s
Box 装配	拾取物品 → 装入半成型纸盒 → 折侧翼 → 闭合盖	300 s
厕纸整理	撕一张 → 丢弃 → 卷回松端 → 贴封条	300 s

5.2 真机主结果(Box assembly)

方法	Success	Throughput(件/小时)
π₀.₅(纯模仿)	42%	8
Gigabrain-0(纯模仿)	53%	10
RECAP + VLM value	58%	11
RECAP + ViVa(本文)	73%	14

相比 VLM baseline,成功率绝对 +15 pp,吞吐 +27%。

5.3 效率对比(Table 2)

模型	Training(GPU·天)	Inference(秒/帧)
VLM-based	6	0.32
Vid-based(无 proprio 预测)	3	0.11
ViVa(完整)	4	0.18

反直觉但合理:大的视频 DiT 反而比 VLM baseline 更便宜 —— VLM baseline 的 SigLIP 视觉编码器才是瓶颈。

5.4 定性分析:值信号质量

这是论文最有说服力的部分。对同一条轨迹画出 VLM-value 和 ViVa-value 的时序曲线:

Figure 4(装箱):VLM 值几乎单调上升,对"插入错位"、"箱子悬挂"完全无反应,典型的对成功轨迹过拟合——只学到"时间越往后,值越高"。ViVa 在错误发生时值立刻锐减
Figure 5(叠衣):VLM 值是一条带随机噪声的水平线;ViVa 平滑稳步上升,与任务进度对齐
Figure 6(厕纸):ViVa 在"卷纸对齐"和"贴封条"两个里程碑处有清晰阶跃;VLM 毫无反应

5.5 OOD 泛化:叠裤子(训练集未见)

Figure 7 显示:在"抓取、折腿、折腰带、最终放置"四个里程碑处,ViVa 都有清晰的值阶跃,曲线单调平滑上升;VLM 完全崩溃 —— 漏掉第 1 和第 4 里程碑,前半段甚至出现反向下降趋势。

→ 证明 VLM 靠"记忆训练集的视觉模式",ViVa 靠视频生成先验带来的真正时空理解。

5.6 消融实验

视频 backbone vs VLM backbone(Figure 8,保持相同 I/O 格式):即使不加 proprio 预测,视频 backbone 单独就已显著优于 VLM backbone,证明"时空先验"是第一性的。

proprio 预测开关(Figure 9 & 10):没 proprio 时 ViVa 对"盖完盖子后箱子错位"、"抬举摇摆"等错误完全无反应;加上后能稳定检测 5 类细粒度错误。

prediction horizon $K$ (Figure 11): $K = 25$ 抖动严重, $K = 75$ 漏掉关键事件(edge insertion), $K = 50$ 最平滑稳定。

太短:缺乏未来上下文,对瞬时噪声不稳健
太长:预测不确定性主导,信号质量劣化

六、局限性与未来方向

真机实验仅 box assembly:另外两个任务(叠衣、厕纸)只做了定性分析。作者解释是 RECAP 的 rollout cycle 成本太高,其他任务留给未来
底座绑定 Wan2.2:方法论上不限,但是否对不同视频底座(Hunyuan / CogVideoX / Cosmos)都有效,未展示
推理延迟 0.18 s/帧:虽然比 VLM 快,但对 50 Hz 闭环控制来说,仍然是"决策级"而非"控制级"(实际上 RECAP 里 value 只参与 advantage 计算,不在控制环内,所以够用)
未用未来视觉预测信号:论文自己发现联合视觉预测会降点,但这可能只是难度平衡问题。如果能用更精细的 loss 权重调度或 stop-gradient 策略,或许能拿回这部分收益

七、个人思考

7.1 与 GigaBrain-0.5M* 的关系

GigaBrain-0.5M*(同机构,2026.02)已经在做世界模型预测未来状态 + 优势条件化(RAMP,证明 RECAP 是其退化特例)。ViVa(2026.04)可以看作 GigaBrain 系列"把视频生成重新利用到 RL 管线"这个主题的下一步:GigaBrain 用世界模型辅助策略生成,ViVa 则把视频 backbone 直接用作价值模型。

两者共同的 motto:视频生成模型学到的时空先验,是当前最接近"物理理解"的 prior;用它取代 VLM 是 VLA RL 管线的系统性升级。

7.2 与奖励模型路线(RoboReward / ROBOMETER / LRM / TOPReward)的分野

奖励模型路线在扩大数据规模 + 改进监督信号(反事实、时序裁剪、token logits 零样本);ViVa 路线在换 backbone(VLM → 视频生成模型)。

两个方向其实正交:

数据端:可以把 RoboReward 的反事实负样本 / ROBOMETER 的轨迹偏好思路迁移过来,补强 ViVa 的监督信号
架构端:ViVa 的"视频 DiT + latent injection"范式也许能嫁接到奖励模型上(但奖励模型多任务多摄像头场景下, VLM 的 language-grounding 不容易丢)

7.3 π₀.₆*(RECAP)与 ViVa 的替换边界

ViVa 是只替换 value model,策略部分仍是 Gigabrain-0 + RECAP 优势条件化。这是一个干净的 ablation 设计:

上游管线不变(RECAP、advantage conditioning、CFG 推理)
下游策略不变
只把 value head 从 201-way SigLIP-based classifier 换成 video DiT

由此得到的提升(+15 pp)可以纯粹归因于 value model 质量。这种"最小变更"设计方式很值得借鉴。

7.4 Margin-shift 奖励的普适性

第四节的 $G_{t}$ 设计(成功 $[0, 1)$ ,失败 $[1, 2)$ ,常数 margin 1.0)是回归式 value head 的黄金公式,比 π₀.₆* 的分类头(201 bins + CE)更直接。

失败信号用 +1 shift 而非传统 $- C_{fail}$ 惩罚,避免了惩罚量级超参数的调整,且天然适配 broadcast 后 $[- 1, 1]$ 的 latent 归一化。这个 reward shaping 细节值得单独记下来。

7.5 关键论断与验证缺口

论文核心论断是"视频生成先验 > VLM 先验",但所有证据都建立在同一个数据集、同一套下游管线上。强验证应该是:

在不同规模的数据下比较(少数据时 VLM 先验可能反而更稳)
与 GVL(Ma 2024)的 frame-ordering VLM value 做直接对比
在 sim(LIBERO、RoboCasa)上也跑一遍,看是否仍成立

这些都是未来 follow-up 工作的机会。

参考

π₀.₆* (2025):提出 RECAP 管线和 VLM-based 分布式 value head,本文直接替换其 value model
GigaBrain-0.5M* (2026):同机构前作,证明"未来状态条件化"(RAMP)是 RECAP 的严格推广,ViVa 是其 value side 的自然延伸
GVL (Ma 2024):VLM 做 zero-shot value learner(frame-ordering 框架),本文的主要概念对手
Wan2.2 (Wan Team 2025):视频 DiT 底座
Cosmos WFM Platform (Agarwal 2025):latent injection 思想的来源之一
Video Generators are Robot Policies (Liang 2025):同样用 latent injection 把视频模型改造成 policy,ViVa 是它的 value model 对偶版
RoboReward (2026) / ROBOMETER (2026) / LRM (2026) / TOPReward (2026):另一条路线——在 VLM 上改进奖励/价值的监督信号,与 ViVa 正交

幻觉缓解

Token 压缩

基础模型

感知增强

推理与规划

高效推理

RL 后训练

ViVa：视频生成式价值模型用于机器人强化学习 ​

一句话总结 ​

一、问题与动机 ​

1.1 价值函数的核心地位 ​

1.2 VLM-based 价值模型的天生缺陷 ​

1.3 作者的核心 insight ​

二、预备知识 ​

2.1 POMDP 下的价值函数 ​

2.2 Wan2.2 视频扩散 Transformer ​

2.3 Flow Matching 训练目标 ​

三、核心方法:ViVa 架构 ​

3.1 把所有模态统一成 latent frame ​

3.2 训练时的 latent 序列 ​

3.3 推理时 ​

3.4 训练目标 ​

3.5 为什么要预测未来 proprioception? ​

四、奖励设计:巧妙的 margin shift ​

五、实验 ​

5.1 真实世界三大任务 ​

5.2 真机主结果(Box assembly) ​

5.3 效率对比(Table 2) ​

5.4 定性分析:值信号质量 ​

5.5 OOD 泛化:叠裤子(训练集未见) ​

5.6 消融实验 ​

六、局限性与未来方向 ​

七、个人思考 ​

7.1 与 GigaBrain-0.5M* 的关系 ​

7.2 与奖励模型路线(RoboReward / ROBOMETER / LRM / TOPReward)的分野 ​

7.3 π₀.₆*(RECAP)与 ViVa 的替换边界 ​

7.4 Margin-shift 奖励的普适性 ​

7.5 关键论断与验证缺口 ​

参考 ​