ViVa:视频生成式价值模型用于机器人强化学习
论文:ViVa: A Video-Generative Value Model for Robot Reinforcement Learning
作者:Jindi Lv, Hao Li, Jie Li, Yifei Nie, Fankun Kong, Yang Wang, Xiaofeng Wang, Zheng Zhu†, Chaojun Ni, Qiuping Deng, Hengtao Li, Jiancheng Lv†, Guan Huang
机构:GigaAI、四川大学、清华大学
发布时间:2026 年 4 月(arXiv 2604.08168 v1)
一句话总结
把预训练视频扩散 Transformer(Wan2.2)原封不动当作价值函数用:通过 latent injection 把当前本体感知、多视角图像塞进视频序列前缀,同时去噪预测"未来本体感知 + 当前标量价值",让价值估计植根于预期的具身动力学,替换 RECAP 里的 VLM value model,真实 box assembly 成功率 58%→73%、吞吐 11→14 件/小时,且对未见过的物体(如叠裤子)仍能正确跟踪任务进度。
一、问题与动机
1.1 价值函数的核心地位
RECAP(见 π₀.₆*)已经证明:VLA 的 RL 后训练效果几乎完全取决于价值模型质量——它提供优势指标
1.2 VLM-based 价值模型的天生缺陷
现有方案(π₀.₆* 的分类头、GVL 的帧排序)都用 VLM 作 backbone。VLM 在静态图文对上训练,擅长回答"场景里有什么",不擅长回答"交互如何让环境演化"。结果:
- 在长时程任务上,它们只能做"每帧独立打分",缺乏对时间演化的显式建模
- 定性上(Figures 4–6)表现为:值信号要么单调上升但对错误完全不敏感(对成功轨迹过拟合),要么随机扁平抖动,无法反映真实进度
1.3 作者的核心 insight
Value estimation is inherently a problem of anticipating how the future will unfold.
价值估计本质上就是预测未来会怎样展开。而视频生成模型恰恰是被训练来建模时空演化的,天然自带"设想下一段视频怎么走"的能力。既然如此,直接把视频生成模型当价值模型用,比用 VLM 更契合任务本身。
二、预备知识
2.1 POMDP 下的价值函数
机器人 MDP
策略
ViVa 不学策略,只学这个
2.2 Wan2.2 视频扩散 Transformer
底座是 Wan2.2 —— 一个预训练的视频 DiT,输入是"初始帧 + 文本",输出是后续视频帧。作者保留核心架构,只通过 latent injection(借鉴 Cosmos 世界模型和 Liang 2025《Video Generators are Robot Policies》)扩展 I/O 模态。
2.3 Flow Matching 训练目标
Wan2.2 用 flow matching:给定干净 latent
三、核心方法:ViVa 架构
3.1 把所有模态统一成 latent frame
所有输入/输出都被映射成形状为
| 模态 | 注入方式 | 得到的 latent |
|---|---|---|
| 3 路相机 | 预训练时空 VAE 独立编码 | |
| 本体感知 | 归一化到 | |
| 标量价值 | 归一化到 |
为什么要这么搞? 视频 DiT 原本只能吃 latent frame。低维向量要融入这个 pipeline,最简洁的方式是把它们"扩张"成和视觉 latent 同形的张量,由 DiT 的 attention 自行学习提取信息。不用改动任何一层。
3.2 训练时的 latent 序列
- 前缀(5 帧,全部干净):blank 占位符(causal VAE 要求)+ 当前 proprio + 3 路图像
- 目标(2 帧,加噪):未来本体感知
和 当前标量价值 - DiT 根据干净前缀,把加噪的目标去噪回
和
3.3 推理时
只保留前缀,反向扩散生成
:对 所有元素求平均,从 还原回 (broadcast 的逆运算) :flatten ,按 14 维切块,块内平均,再反归一化(repeat-padding 的逆运算)
推理只需要 1 步 DDIM —— 因为价值 latent 结构非常简单,1 步即可收敛。
3.4 训练目标
两个目标模态的 flow matching 损失加权:
其中
一个反常识的消融结论:作者也试过同时让模型预测未来视觉帧,但发现价值精度反而下降。猜测是:视觉生成(高维空间结构)和价值预测(简单标量)在优化难度上严重不匹配,联合训练时视觉重建的梯度主导优化,把简单的价值信号淹没了。
3.5 为什么要预测未来 proprioception?
这是 ViVa 相比"纯视频价值模型"的关键设计:
- 强迫模型内化机器人自身动力学:对需要精确双臂协调的任务(插入、叠衣)至关重要
- 为价值估计提供互补的运动度量:有些错误在视觉上不明显但本体上异常(抬举摇摆、非同步抬起),靠 proprio 才能捕捉
消融(Figure 9 & 10)显示:去掉 proprio 预测后,模型对"盖好盖子后箱子错位"、"抬举时抖动"完全无反应;而完整 ViVa 能检测 missed grasp、uneven force、premature release、asynchronous lifting 等细粒度失败。
四、奖励设计:巧妙的 margin shift
step-wise reward 定义(Eq. 1):
累积回报
这个奖励 shape 极其巧妙:
- 成功 episode 的价值严格落在
,就是归一化的任务进度 - 失败 episode 整体被抬升到
,保留了进度信号 - 任意时间步
,成功与失败之间都有常数 margin 1.0
这直接解决了"进度"和"失败"的价值歧义 —— 传统 0/1 sparse 奖励下,失败轨迹后半段的真值几乎恒为 0,和"还没完成"无法区分;这里 +1 shift 让模型必须同时学会识别"快完成了"和"要失败了"。
五、实验
5.1 真实世界三大任务
所有训练数据来自真机演示,单 epoch 训练,batch size 192,8× A800:
| 任务 | 描述 | 限时 |
|---|---|---|
| 叠衬衫 | 双臂协调铺平 → 折袖 → 纵向折 → 横向折 | 200 s |
| Box 装配 | 拾取物品 → 装入半成型纸盒 → 折侧翼 → 闭合盖 | 300 s |
| 厕纸整理 | 撕一张 → 丢弃 → 卷回松端 → 贴封条 | 300 s |
5.2 真机主结果(Box assembly)
| 方法 | Success | Throughput(件/小时) |
|---|---|---|
| π₀.₅(纯模仿) | 42% | 8 |
| Gigabrain-0(纯模仿) | 53% | 10 |
| RECAP + VLM value | 58% | 11 |
| RECAP + ViVa(本文) | 73% | 14 |
相比 VLM baseline,成功率绝对 +15 pp,吞吐 +27%。
5.3 效率对比(Table 2)
| 模型 | Training(GPU·天) | Inference(秒/帧) |
|---|---|---|
| VLM-based | 6 | 0.32 |
| Vid-based(无 proprio 预测) | 3 | 0.11 |
| ViVa(完整) | 4 | 0.18 |
反直觉但合理:大的视频 DiT 反而比 VLM baseline 更便宜 —— VLM baseline 的 SigLIP 视觉编码器才是瓶颈。
5.4 定性分析:值信号质量
这是论文最有说服力的部分。对同一条轨迹画出 VLM-value 和 ViVa-value 的时序曲线:
- Figure 4(装箱):VLM 值几乎单调上升,对"插入错位"、"箱子悬挂"完全无反应,典型的对成功轨迹过拟合——只学到"时间越往后,值越高"。ViVa 在错误发生时值立刻锐减
- Figure 5(叠衣):VLM 值是一条带随机噪声的水平线;ViVa 平滑稳步上升,与任务进度对齐
- Figure 6(厕纸):ViVa 在"卷纸对齐"和"贴封条"两个里程碑处有清晰阶跃;VLM 毫无反应
5.5 OOD 泛化:叠裤子(训练集未见)
Figure 7 显示:在"抓取、折腿、折腰带、最终放置"四个里程碑处,ViVa 都有清晰的值阶跃,曲线单调平滑上升;VLM 完全崩溃 —— 漏掉第 1 和第 4 里程碑,前半段甚至出现反向下降趋势。
→ 证明 VLM 靠"记忆训练集的视觉模式",ViVa 靠视频生成先验带来的真正时空理解。
5.6 消融实验
视频 backbone vs VLM backbone(Figure 8,保持相同 I/O 格式):即使不加 proprio 预测,视频 backbone 单独就已显著优于 VLM backbone,证明"时空先验"是第一性的。
proprio 预测开关(Figure 9 & 10):没 proprio 时 ViVa 对"盖完盖子后箱子错位"、"抬举摇摆"等错误完全无反应;加上后能稳定检测 5 类细粒度错误。
prediction horizon
- 太短:缺乏未来上下文,对瞬时噪声不稳健
- 太长:预测不确定性主导,信号质量劣化
六、局限性与未来方向
- 真机实验仅 box assembly:另外两个任务(叠衣、厕纸)只做了定性分析。作者解释是 RECAP 的 rollout cycle 成本太高,其他任务留给未来
- 底座绑定 Wan2.2:方法论上不限,但是否对不同视频底座(Hunyuan / CogVideoX / Cosmos)都有效,未展示
- 推理延迟 0.18 s/帧:虽然比 VLM 快,但对 50 Hz 闭环控制来说,仍然是"决策级"而非"控制级"(实际上 RECAP 里 value 只参与 advantage 计算,不在控制环内,所以够用)
- 未用未来视觉预测信号:论文自己发现联合视觉预测会降点,但这可能只是难度平衡问题。如果能用更精细的 loss 权重调度或 stop-gradient 策略,或许能拿回这部分收益
七、个人思考
7.1 与 GigaBrain-0.5M* 的关系
GigaBrain-0.5M*(同机构,2026.02)已经在做世界模型预测未来状态 + 优势条件化(RAMP,证明 RECAP 是其退化特例)。ViVa(2026.04)可以看作 GigaBrain 系列"把视频生成重新利用到 RL 管线"这个主题的下一步:GigaBrain 用世界模型辅助策略生成,ViVa 则把视频 backbone 直接用作价值模型。
两者共同的 motto:视频生成模型学到的时空先验,是当前最接近"物理理解"的 prior;用它取代 VLM 是 VLA RL 管线的系统性升级。
7.2 与奖励模型路线(RoboReward / ROBOMETER / LRM / TOPReward)的分野
奖励模型路线在扩大数据规模 + 改进监督信号(反事实、时序裁剪、token logits 零样本);ViVa 路线在换 backbone(VLM → 视频生成模型)。
两个方向其实正交:
- 数据端:可以把 RoboReward 的反事实负样本 / ROBOMETER 的轨迹偏好思路迁移过来,补强 ViVa 的监督信号
- 架构端:ViVa 的"视频 DiT + latent injection"范式也许能嫁接到奖励模型上(但奖励模型多任务多摄像头场景下, VLM 的 language-grounding 不容易丢)
7.3 π₀.₆*(RECAP)与 ViVa 的替换边界
ViVa 是只替换 value model,策略部分仍是 Gigabrain-0 + RECAP 优势条件化。这是一个干净的 ablation 设计:
- 上游管线不变(RECAP、advantage conditioning、CFG 推理)
- 下游策略不变
- 只把 value head 从 201-way SigLIP-based classifier 换成 video DiT
由此得到的提升(+15 pp)可以纯粹归因于 value model 质量。这种"最小变更"设计方式很值得借鉴。
7.4 Margin-shift 奖励的普适性
第四节的
失败信号用 +1 shift 而非传统
7.5 关键论断与验证缺口
论文核心论断是"视频生成先验 > VLM 先验",但所有证据都建立在同一个数据集、同一套下游管线上。强验证应该是:
- 在不同规模的数据下比较(少数据时 VLM 先验可能反而更稳)
- 与 GVL(Ma 2024)的 frame-ordering VLM value 做直接对比
- 在 sim(LIBERO、RoboCasa)上也跑一遍,看是否仍成立
这些都是未来 follow-up 工作的机会。
参考
- π₀.₆* (2025):提出 RECAP 管线和 VLM-based 分布式 value head,本文直接替换其 value model
- GigaBrain-0.5M* (2026):同机构前作,证明"未来状态条件化"(RAMP)是 RECAP 的严格推广,ViVa 是其 value side 的自然延伸
- GVL (Ma 2024):VLM 做 zero-shot value learner(frame-ordering 框架),本文的主要概念对手
- Wan2.2 (Wan Team 2025):视频 DiT 底座
- Cosmos WFM Platform (Agarwal 2025):latent injection 思想的来源之一
- Video Generators are Robot Policies (Liang 2025):同样用 latent injection 把视频模型改造成 policy,ViVa 是它的 value model 对偶版
- RoboReward (2026) / ROBOMETER (2026) / LRM (2026) / TOPReward (2026):另一条路线——在 VLM 上改进奖励/价值的监督信号,与 ViVa 正交