BridgeV2W：通过 Embodiment Masks 将视频生成模型桥接为具身世界模型

论文：BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
作者：Anonymous（双盲审稿中）
发布时间：2025年
投稿：Under review at ICLR 2026
分类标签：World Model Embodiment Mask ControlNet 视频生成 跨构型 动作条件化

一句话总结

将坐标空间动作通过 URDF + 相机参数渲染为像素对齐的 Embodiment Mask，经 ControlNet 注入预训练视频生成模型，辅以光流运动损失聚焦任务相关区域，统一解决动作-视频表征鸿沟、视角敏感性和跨构型架构不统一三大问题。

一、问题与动机

1.1 具身世界模型的定义

给定初始帧 $I_{0} \in R^{H \times W \times 3}$ 和动作序列 $a_{0 : T - 1}$ ，世界模型 $f_{θ}$ 预测未来帧：

{\hat{V}}_{1 : T} = f_{θ} (I_{0}, a_{0 : T - 1})

动作空间支持多臂拼接 $A ≜ A^{(1)} \times \dots \times A^{(N)}$ ，每个臂可以是笛卡尔空间（位置 + 旋转 + 夹爪）或关节空间。

1.2 现有方法的三个核心缺陷

当前动作条件化世界模型的两大范式——从零训练 vs. 微调预训练视频模型——都面临以下三个问题：

动作-视频表征鸿沟（Action-Video Gap）：末端执行器位姿（坐标空间动作）是低维几何量，而预训练视频生成模型工作在高维像素空间。这种表征空间不匹配削弱了条件化效果，限制了预训练先验的复用。

视角敏感性（Viewpoint Sensitivity）：坐标空间动作对相机视角高度敏感。即使是同一个动作，当相机视角改变时，现有方法仍然无法生成合理的未来状态。

跨构型架构不统一：单臂和双臂系统自由度不同，通常需要不同的动作编码器，阻碍了知识迁移和通用世界模型的构建。

1.3 核心洞察

一个简单的观察：如果将动作表示变换为反映构型实际运动的像素对齐掩码，上述三个问题都能得到实质性缓解：

掩码与视频模型同处像素空间 → 弥合表征鸿沟
掩码锚定于图像平面 → 视角自适应
掩码与机器人动作空间无关 → 构型无关的统一架构

二、核心方法

2.1 Embodiment Mask 提取

利用机器人 URDF（Unified Robot Description Format）描述构型，通过正向运动学恢复 3D 结构，再根据已知相机内外参将构型投影到图像平面，得到逐帧掩码 $m_{t}$ ：

动作 $a_{t}$ （笛卡尔或关节空间）→ 逆运动学转换为关节角
URDF 正向运动学 → 各连杆 3D 位姿
相机内外参投影 → 像素对齐的二值掩码 $m_{t}$

最终形成训练元组 $(I_{0}, M, V_{1 : T})$ ，其中 $M ≜ {m_{t}}_{t = 1}^{T}$ 。

扩展性：对于无动作标注或相机标定的数据（如人手交互视频），可用 GroundedSAM 等分割工具直接从视频中提取 $M$ 。

2.2 ControlNet 条件化视频生成

骨架模型：CogVideoX-5B-I2V（3D full attention DiT），将初始图像和视频编码为隐空间张量：

z^{img}, z^{vid} \in R^{T_{ℓ} \times H_{ℓ} \times W_{ℓ} \times C}, T_{ℓ} = \frac{T}{4}, H_{ℓ} = \frac{H}{8}, W_{ℓ} = \frac{W}{8}, C = 16

图像隐变量沿时间轴零填充至 $T_{ℓ}$ 后与加噪视频隐变量拼接，送入 DiT 逐步去噪。

ControlNet 掩码注入：掩码序列 $M \in R^{T \times H \times W \times 1}$ 经同一 3D VAE 编码为 $z^{mask} \in R^{T_{ℓ} \times H_{ℓ} \times W_{ℓ} \times C}$ ，送入一组可训练的 DiT 块。每个 ControlNet 块的输出经零初始化卷积层后加性融合到对应骨干 DiT 块中。这保证微调初期不破坏预训练权重，逐步学习新的掩码引导信号。

2.3 训练目标

扩散损失（velocity prediction）：

L_{diff} = E_{τ, ϵ \sim N (0, I), z_{0}} [∥ z_{0} - (\sqrt{α_{τ}} {\tilde{z}}_{τ} - \sqrt{1 - α_{τ}} v_{θ}) ∥_{2}^{2}]

其中 ${\tilde{z}}_{τ} = \sqrt{α_{τ}} z_{0} + \sqrt{1 - α_{τ}} ϵ$ 。

动力学一致性损失：显式监督隐空间中的时序运动（帧间差分），捕获短期和长期动态：

L_{dyn} = \sum_{j = 1}^{K} \frac{1}{T_{ℓ} - j} \sum_{t = 0}^{T_{ℓ} - 1 - j} ∥ ({\hat{z}}_{t + j} - {\hat{z}}_{t}) - (z_{t + j} - z_{t}) ∥_{2}^{2}

其中 $K = 4$ 为最大时间偏移。

光流运动损失：使用冻结的 RAFT 光流估计器，在像素域比较预测视频和真实视频的运动场，聚焦构型和被操作物体等动态区域：

L_{flow} = Loss (F_{ϕ} ({\hat{V}}_{1 : T}), F_{ϕ} (V_{1 : T}))

Loss 包含方向项（余弦距离）和幅值项（Huber 损失）。

总训练目标：

L_{total} = L_{diff} + λ_{dyn} L_{dyn} + λ_{flow} L_{flow}

其中 $λ_{dyn} = 0.1$ ， $λ_{flow} = 0.05$ 。为避免训练初期视频质量差导致不稳定，光流损失在前 $e_{switch} = 5$ 个 epoch 关闭。

三、实验结果

3.1 数据集与基线

数据集	构型	训练规模	测试集
DROID	单臂 Franka	19k 轨迹 × 2 视角 = 38k	200 标准 + 100 未见视角 + 100 未见场景
AgiBot-G1	双臂	15k 轨迹	200 标准

基线：IRASim（从零训练 DiT）、Cosmos（大规模预训练世界基础模型）、EVAC（多级动作注入 + ray-map 编码）。

3.2 DROID 视频生成

数据变体	方法	PSNR ↑	SSIM ↑	LPIPS ↓	FVD ↓	Mask-IoU ↑
In-Domain	IRASim	22.11	0.846	0.119	175.7	58.0
	Cosmos	21.13	0.826	0.122	184.3	59.2
	EVAC	21.97	0.877	0.124	219.8	57.4
	BridgeV2W	22.89	0.874	0.111	145.2	62.2
Unseen Cam	IRASim	18.02	0.763	0.162	415.8	45.9
	Cosmos	19.73	0.786	0.177	303.1	48.0
	EVAC	20.15	0.830	0.148	224.7	52.6
	BridgeV2W	20.87	0.833	0.127	191.3	55.3
Unseen Scene	IRASim	16.23	0.672	0.166	583.8	32.7
	Cosmos	19.38	0.709	0.147	412.2	37.0
	EVAC	17.78	0.693	0.159	486.5	31.4
	BridgeV2W	19.73	0.717	0.138	362.1	44.1

BridgeV2W 在所有设置下 FVD 和 Mask-IoU 全面最优。特别是未见视角下 FVD 比次优 EVAC 降低 14.9%，未见场景下 Mask-IoU 比次优 Cosmos 高出 19.2%（44.1 vs 37.0）。

3.3 AgiBot-G1 双臂

方法	PSNR ↑	SSIM ↑	LPIPS ↓	FVD ↓	Mask-IoU ↑
IRASim	23.38	0.842	0.121	144.6	55.6
Cosmos	22.96	0.857	0.135	239.7	54.8
EVAC	23.64	0.858	0.117	169.4	57.9
BridgeV2W	24.49	0.868	0.102	129.5	58.3

统一的 mask 架构从单臂无缝扩展到双臂，无需重新设计动作编码器。

3.4 消融实验

变体	PSNR (In/Cam/Scene)	FVD (In/Cam/Scene)	Mask-IoU (In/Cam/Scene)
w/o 预训练	21.24 / 19.61 / 17.72	211.3 / 245.3 / 513.6	59.7 / 56.1 / 34.2
w/o Mask Action	21.77 / 17.59 / 17.96	175.8 / 360.4 / 453.0	58.9 / 47.0 / 41.4
w/o ControlNet	21.38 / 19.57 / 17.17	194.9 / 255.2 / 446.2	58.9 / 53.4 / 36.8
w/o Flow Loss	20.72 / 20.02 / 18.98	201.4 / 235.7 / 420.4	58.3 / 52.1 / 39.7
完整 BridgeV2W	22.89 / 20.87 / 19.73	145.2 / 191.3 / 362.1	62.2 / 55.3 / 44.1

关键发现：

Mask Action 是视角鲁棒性的关键：去除后未见视角 FVD 从 191.3 暴涨至 360.4（+88%），Mask-IoU 从 55.3 降至 47.0
预训练提供场景泛化能力：去除后未见场景 FVD 从 362.1 升至 513.6（+42%）
ControlNet 保护预训练知识：去除零初始化路径后各项指标均下降
Flow Loss 提升运动区域一致性：主要体现在 Mask-IoU 改善

3.5 下游应用：策略评估

将 BridgeV2W 作为 VLA 策略评估代理——给定初始图像，VLA 输出动作块，BridgeV2W 自回归生成未来帧，再送回 VLA 循环推理：

任务	MMRV ↓	Pearson r ↑
Put on plate	0.133	0.655
Put in shelf	0.033	0.944
Close drawer	0.000	0.982
Flip cup	0.033	0.945
平均	0.050	0.882

总体 Pearson r = 0.84，与真实世界成功率高度相关。BridgeV2W 主要在训练数据以成功演示为主时倾向高估成功率——因为模型学会了"修复"小偏差。

3.6 下游应用：目标图像条件化规划

使用 CEM-MPC 优化动作序列使 BridgeV2W 生成的终端帧接近目标图像：

任务	OpenVLA-OFT	π₀	SpatialVLA	BridgeV2W
Put on plate	4/10	8/10	9/10	5/10
Put in shelf	6/10	9/10	8/10	5/10
Close drawer	5/10	8/10	6/10	3/10
Flip cup	2/10	7/10	7/10	0/10

Pick-and-place 任务表现较好，涉及大旋转的任务（如翻杯）因旋转搜索空间困难而失败。

四、局限性与未来方向

视频生成固有缺陷：长时域漂移和幻觉问题，作为下游模块时误差会累积
推理速度慢：CogVideoX-5B 骨干推理开销大，限制了目标条件化规划的实时性
依赖 URDF 和相机标定：虽然可以通过分割工具替代，但当前实验主要依赖精确的 URDF 和相机参数
旋转动作搜索困难：CEM 在高维旋转空间中搜索效率低，flip cup 等任务完全失败
成功率高估偏差：训练数据以成功演示为主，模型倾向于"修复"小偏差，导致策略评估时高估

五、个人思考

5.1 像素空间对齐的统一性优势

BridgeV2W 的核心洞察——将动作投射到与视频模型相同的像素空间——是一个优雅的对称性论点。坐标空间动作需要额外的跨模态映射才能与像素空间的视频先验对齐，而 Embodiment Mask 天然就在像素空间中，消除了这一瓶颈。这与 SF（Spatial Forcing）的思路有相似的哲学：都是通过表征空间对齐来桥接不同模态，只是 SF 对齐的是 VLA 内部表征与 3D 几何表征，BridgeV2W 对齐的是动作条件与视频像素空间。

5.2 与 VLA RL 后训练中世界模型的关系

项目中已有多篇论文（RISE、WoVR、GigaBrain、World-VLA-Loop、WMPO、VLA-RFT 等）使用世界模型辅助 VLA 训练。BridgeV2W 作为独立的动作条件化世界模型，可以直接服务于这些方法——例如替代 World-VLA-Loop 中的 Cosmos-Predict 2，或为 VLA-RFT 提供更精确的 verified reward 评估。其跨构型统一性尤其有吸引力：一个世界模型同时服务单臂和双臂场景的 RL 训练。

5.3 ControlNet 范式的适用性

ControlNet 的零初始化设计完美匹配了"保留预训练先验 + 注入新条件"的需求。消融实验证实去除 ControlNet（用非零初始化分支替代）会显著劣化结果，说明保护预训练知识是关键。这对其他需要条件化微调视频模型的场景有参考意义。

5.4 Flow Loss 的设计巧妙之处

传统帧级重建损失无差别地重建所有区域，包括大量静态背景。光流损失只在运动区域计算差异，天然聚焦于构型和被操作物体。而且使用冻结 RAFT 在像素域计算，不引入额外可训练参数。延迟启动（前 5 epoch 关闭）避免了训练初期视频质量差时的不稳定——这种"先学基本再学精细"的课程化训练策略值得借鉴。

5.5 策略评估的实用价值与局限

Pearson r = 0.84 的相关性对于无需真实执行的策略筛选有实用价值。但论文坦诚地指出了高估偏差问题——因为训练数据主要是成功演示，模型学会了在动作偏差较小时"想象"成功结果。这对将世界模型用于 RL 奖励评估（如 VLA-RFT）提出了警示：世界模型的乐观偏差可能导致奖励信号不准确。

参考

CogVideoX（Yang et al., 2025）：BridgeV2W 的骨干视频生成模型，5B 参数 DiT + 3D Full Attention
ControlNet（Zhang et al., 2023）：零初始化条件注入范式的开创工作
RAFT（Teed & Deng, 2020）：用于 flow loss 的冻结光流估计器
IRASim（Zhu et al., 2024）：从零训练的轨迹-视频世界模型基线
Cosmos（Agarwal et al., 2025）：大规模预训练的世界基础模型平台
EVAC（Jiang et al., 2025）：多级动作注入 + ray-map 编码的世界模型
DROID（Khazatsky et al., 2024）：大规模野外单臂机器人操作数据集
AgiBot-G1（Bu et al., 2025）：大规模双臂操作平台与数据集

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

BridgeV2W：通过 Embodiment Masks 将视频生成模型桥接为具身世界模型 ​

一句话总结 ​

一、问题与动机 ​

1.1 具身世界模型的定义 ​

1.2 现有方法的三个核心缺陷 ​

1.3 核心洞察 ​

二、核心方法 ​

2.1 Embodiment Mask 提取 ​

2.2 ControlNet 条件化视频生成 ​

2.3 训练目标 ​

三、实验结果 ​

3.1 数据集与基线 ​

3.2 DROID 视频生成 ​

3.3 AgiBot-G1 双臂 ​

3.4 消融实验 ​

3.5 下游应用：策略评估 ​

3.6 下游应用：目标图像条件化规划 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 像素空间对齐的统一性优势 ​

5.2 与 VLA RL 后训练中世界模型的关系 ​

5.3 ControlNet 范式的适用性 ​

5.4 Flow Loss 的设计巧妙之处 ​

5.5 策略评估的实用价值与局限 ​

参考 ​