Skip to content

Kinema4D:运动学驱动的 4D 生成式具身仿真器

论文Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

作者:Mutian Xu, Tianbao Zhang, Tianqi Liu, Zhaoxi Chen, Xiaoguang Han, Ziwei Liu

机构:S-Lab, Nanyang Technological University(NTU)、SSE, CUHKSZ

发布时间:2026年3月

🔗 arXiv | 项目主页

发表会议:暂未中稿


一句话总结

Kinema4D 将机器人-环境交互的仿真解耦为两部分:运动学确定性的 4D 机器人轨迹(URDF + 正/逆运动学 → pointmap 序列)和生成式环境动态响应(Diffusion Transformer 联合预测 RGB + pointmap 序列),在 Robo4D-200k(20 万条 4D 标注 episode)上训练,实现物理合理、几何一致、构型无关的 4D 具身仿真,首次展示零样本真实世界迁移能力。


一、问题与动机

1.1 2D 视频生成仿真的根本局限

现有生成式仿真器(IRASim、Cosmos、Ctrl-World 等)将机器人动作作为条件提示,生成 2D RGB 视频预测环境变化。但机器人-世界交互本质上是4D 时空事件,2D 像素流无法提供:

  • 深度和几何约束:无法判断夹爪是否真正接触物体(2D 纹理重叠 ≠ 3D 接触)
  • 精确的空间推理:物体变形、遮挡动态需要 3D 几何理解
  • 物理一致性:缺乏时空约束导致生成的交互违反物理常识

1.2 现有动作条件化方式的不足

方式代表方法问题
文本指令UniSim、TesserAct语义模糊,缺乏精细控制粒度
潜在嵌入IRASim、Ctrl-World迫使生成模型"猜测"运动学,常产生物理不合理结果
3D 语义ORV需要离线占用预测模型,缺乏时间动态
2D 视觉提示EVAC、BridgeV2W缺乏时空约束,无法提供精确控制引导

核心矛盾:所有现有方法无法同时解决动态性(dynamics)、**精确性(precision)时空感知(spatiotemporal awareness)**这一三难困境。

1.3 Kinema4D 的核心洞察

两个协同的设计哲学,将仿真解耦为机器人控制和环境响应:

  1. 机器人动作是 4D 空间中的精确物理确定量,不应被生成模型"猜测"。通过 URDF + 运动学将抽象动作向量映射为精确的 4D 轨迹
  2. 环境动态是复杂的随机过程,需要灵活的生成式建模。将 4D 机器人轨迹投影为 pointmap 作为控制信号,让生成模型专注于合成环境的反应动态

二、核心方法

2.1 运动学控制(Kinematics Control)

3D 机器人资产获取

  • 标准化机器人:使用工厂提供的 CAD 网格
  • 未知平台:手机拍摄环绕视频 → Grounded-SAM2 分割 → SAM2 视频追踪 → ReconViaGen 重建纹理网格(单 A100 约 15 秒)
  • 将 URDF 关节锚点映射到重建网格的对应坐标,建立数字孪生对齐

运动学驱动的 4D 轨迹扩展

给定对齐后的机器人模型 M 和输入动作 a1:T

  • 末端执行器控制:逆运动学求解关节配置 qt=IK(Tee,t,qt1,M),以前一状态为种子确保时间平滑性
  • 关节空间控制:直接映射或积分得到 qt

对每个时刻 t,正向运动学计算所有 K 个连杆的 6-DoF 位姿:

{Tk,trecon}k=1K=FK(qt,M)

空间-视觉投影

选择主视角(通常为正前方偏上视角),将 4D 轨迹投影到图像平面生成 4D 机器人 pointmap M1:TRH×W×3

[uzvzz]=KTreconcamTk,treconx

其中 K 为相机内参矩阵。Pointmap 与 RGB 网格像素对齐,像素值存储相机空间的 (x,y,z) 坐标。

2.2 4D 生成式建模

基础架构

基于 WAN 2.1(14B 参数视频生成模型),利用 4DNex 的 4D 感知预训练权重,通过 LoRA(rank 64)进行参数高效微调。

多模态潜在构造

  1. 初始世界图像 I0 沿时间轴通过零填充扩展(或拼接可选的机器人 RGB 序列)
  2. 与机器人 pointmap 序列 M1:Trobot 沿宽度维度拼接
  3. 通过共享 VAE 编码为统一潜在表示

引导掩码

引入机器人占用掩码 m{0,1}T×H×W,其中 mt,i,j=1 表示机器人占据的空间。采用软掩码策略:将 10% 占据区域的值设为 0.5,使生成模型保留精细化机器人视觉信号的能力,缓解前一阶段引入的噪声。

输入潜在、噪声潜在和掩码沿通道维度拼接,确保生成模型专注于合成环境反应动态。

4D 感知联合建模

  • Diffusion Transformer 同时预测同步的 RGB 和 pointmap 序列
  • 采用共享 RoPE(Rotary Positional Encoding)跨 RGB 和 pointmap 潜在保持像素级对齐
  • 可学习域嵌入区分 RGB 和 pointmap 模态,使 Transformer 进行跨模态推理——用机器人 pointmap 作为几何锚点引导 RGB 环境响应合成
  • 有意替换文本嵌入为机器人 VAE 潜在,迫使网络解耦视觉合成与语义歧义,专注于动作控制的精确执行

训练目标

标准条件化去噪目标:

Lvid=Ez0,ϵ,τ,c[ϵϵθ(zτ,τ,c)2]

训练配置

  • 硬件:32 × NVIDIA A100 GPU
  • 训练:5,000 步,batch size 32,AdamW,学习率 2e-5,cosine warmup + constant decay
  • 分辨率:每模态 480 × 720,约 2 天完成训练
  • 显存:67 GB/GPU

2.3 Robo4D-200k 数据集

迄今最大规模的 4D 机器人交互数据集,包含 201,426 条 episode:

数据源类型数量
DROID真实世界96,236
Bridge真实世界44,916
LIBERO仿真40,480
RT-1真实世界19,794

4D 标注流程

  • 真实世界数据:使用 ST-v2 从 2D RGB 视频重建高质量像素对齐的 4D 轨迹(优先级高于 MonST3R、MegaSaM、VGGT 等方案)
  • 仿真数据(LIBERO):直接利用原生无噪声深度参数确保绝对精度
  • 统一降采样为 49 帧/episode,确保运动频率一致

三、实验结果

3.1 视频生成质量

方法动作表示输出PSNR↑SSIM↑L2_latent↓FID↓FVD↓LPIPS↓
UniSim [ICLR'24]TextRGB19.320.6810.212032.3153.20.175
IRASim [ICCV'25]Emb.RGB20.210.8130.172225.2126.00.135
Cosmos [arXiv'25]Emb.RGB20.390.7870.193527.1113.40.110
Ctrl-World [ICLR'26]Emb.RGB21.030.8030.153324.9112.80.122
TesserAct [ICCV'25]Text4D19.350.7660.191129.5120.30.158
Kinema4D4D4D22.500.8640.138025.298.50.105

核心发现

  • Kinema4D 在所有指标上取得第一或第二,且是唯一同时在 4D 空间中表示动作和合成输出的方法
  • PSNR 22.50(第一),SSIM 0.864(第一),FVD 98.5(第一),LPIPS 0.105(第一)
  • 相比最强 RGB 基线 Ctrl-World:PSNR +1.47,SSIM +0.061,FVD -14.3

3.2 几何质量

方法CD-L1↓CD-L1 (temp)↓CD-L2↓CD-L2 (temp)↓F-Score↑F-Score (temp)↑
TesserAct0.08360.00670.01300.00080.28960.9523
Kinema4D0.04790.00740.00770.00020.47330.9686
  • CD-L1 绝对精度大幅领先(0.0479 vs 0.0836,提升 43%)
  • F-Score 0.4733 vs 0.2896(提升 63%)
  • TesserAct 仅在时间自一致性 CD-L1(temp) 上略优,但绝对精度远逊

3.3 策略评估(Policy Evaluation)

在 LIBERO 仿真平台和真实世界(零样本 OOD)环境中评估 Diffusion Policy 的 rollout:

评估者仿真 1仿真 2仿真 3真实 1真实 2真实 3
Ground Truth0.480.380.800.340.460.78
Kinema4D0.560.460.840.600.760.90
差值0.080.080.040.260.300.12

关键发现

  • 仿真平台上差值仅 4-8%,高度对齐真实执行结果
  • 真实世界零样本迁移,无需任何微调,差值在合理范围内
  • 生成的成功率普遍高于实际执行——仿真复杂失败模式比仿真成功更具挑战性
  • 首次在严格 OOD 条件下评估具身世界模型(无真实世界微调、物理环境完全未见)

3.4 定性亮点

Near-Miss 失败仿真:当夹爪与物体的 RGB 纹理在 2D 视角下重叠(看似"接触"),Kinema4D 能正确解读 3D 空间间隙并仿真"差一点抓住"的失败——这是 4D 感知相对于 2D 视频生成的核心优势。

3.5 消融实验

动作表示方式

表示PSNR↑FID↓CD-L1↓
Pointmap(Ours)22.5025.20.0479
RGB+Pointmap22.9825.70.0495
RGB 序列21.5325.80.0677
Token Embedding20.8926.30.0528
二值掩码21.4727.50.0639
文本指令19.8928.80.0750
  • Pointmap 综合性能最优(PSNR 第二,CD-L1 第二,FID 第一)
  • RGB+Pointmap 仅带来微小改善,但 RGB 引入噪声和过拟合风险
  • 文本指令表现最差,验证了语义表示的精度不足

单域 vs 混合域训练

仅在 DROID 上训练并测试的"single"配置性能下降(PSNR 21.26,CD-L1 0.0581),验证了 pointmap 表示的构型无关性使得混合数据集训练能有效提升泛化能力。

为何不先生成 RGB 再重建?

纯 RGB 输出 + 后重建("2D-out"):PSNR 20.07,CD-L1 0.0712,显著低于联合 4D 生成。证明了全程 4D 感知的必要性。

软掩码比例

比例PSNRFIDCD-L1
无掩码21.0326.80.0510
0%(纯硬掩码)21.1026.10.0528
10%(默认)22.5025.20.0479
20%22.0425.20.0433
50%21.8326.00.0463

10% 软掩码为最优平衡点——允许生成模型精细化机器人视觉信号同时保持控制精度。

Pointmap 噪声鲁棒性

噪声类型PSNRCD-L1
无噪声22.500.0479
随机移除 5%22.480.0499
高斯噪声21.980.0501
平移 ±5 像素21.870.0513
旋转 ±5°22.340.0483

框架对 pointmap 噪声具有强鲁棒性,得益于初始世界图像先验和生成模型的精细化能力。


四、局限性与未来方向

  1. 缺乏显式物理约束:环境动态通过统计合成学习而非物理定律约束(如刚体动力学、摩擦系数),可能偶尔产生违反守恒律或穿透伪影的行为
  2. 仿真失败比成功更难:零样本真实世界评估中,生成的成功率普遍高于实际执行,表明精确仿真复杂失败模式仍具挑战
  3. 单视角限制:当前仅支持单一主视角的 4D 生成,多视角一致的 4D 仿真尚未实现
  4. 推理效率:基于 14B 参数扩散模型,单次推理约 15 分钟(单 A100),距离实时仿真仍有很大差距

五、个人思考

5.1 解耦范式的精妙之处

Kinema4D 最核心的洞察在于:机器人动作是确定性的,不应被"生成";环境响应是随机的,需要被"生成"。这一解耦看似简单,却优雅地回避了让一个生成模型同时学习运动学和环境动态的困难。类比于物理仿真中"刚体动力学"和"接触响应"的分离,Kinema4D 在生成式范式中实现了类似的关注点分离。

5.2 与 BridgeV2W 的关系

项目中已有的 BridgeV2W 是 Kinema4D 的直接前身——两者都使用 URDF 驱动机器人生成控制信号。但关键区别:

  • BridgeV2W:将轨迹渲染为 2D 二值掩码 → ControlNet → 2D RGB 视频
  • Kinema4D:将轨迹投影为 4D pointmap → DiT 联合生成 → 4D RGB+Pointmap 序列

从 2D 掩码到 4D pointmap 的提升是质的飞跃——后者携带深度和 3D 坐标信息,使生成模型具备真正的时空推理能力。消融实验中 pointmap(CD-L1 0.0479)vs 二值掩码(0.0639)的差距也验证了这一点。

5.3 Near-Miss 仿真的重要性

Kinema4D 能正确仿真"差一点抓住"的失败案例(2D 看似接触但 3D 有间隙),这对策略评估极其关键。传统 2D 仿真器要么总是"成功"(无法区分接触与否),要么产生与实际不符的结果。4D 感知使得世界模型第一次能作为可靠的策略评估器

5.4 构型无关性的扩展潜力

Pointmap 表示本质上是构型无关的——不同形态的机器人(单臂、双臂、移动操作)在 pointmap 空间中共享同一种表示。消融实验显示混合数据集训练优于单域训练,暗示这种表示具有跨构型知识迁移的潜力,这比基于原始动作向量的方法具有根本性优势。

5.5 推理效率是最大瓶颈

单次推理 15 分钟(A100)使得 Kinema4D 目前只适合离线策略评估和数据增强,远不能用于在线规划或实时仿真。相比之下 Ctrl-World 仅需 2.5 分钟,TesserAct 10 分钟。14B 参数的模型规模是主要原因,知识蒸馏和模型量化是明确的优化方向。

5.6 伪 4D 标注的"够用就好"哲学

Robo4D-200k 使用 ST-v2 从 2D 视频重建 4D 标注(非绝对精确的 GT),但作者明确表示优先数据规模而非单样本精度。消融实验中框架对 pointmap 噪声的鲁棒性验证了这一选择——生成模型能从大量近似标注中学到鲁棒的运动先验,这比在少量精确数据上训练更有效。


参考

  • WAN 2.1(Wan et al., 2025):14B 参数视频生成基础模型,Kinema4D 的骨干
  • 4DNex(Chen et al., 2025):前馈 4D 生成建模,提供 4D 感知预训练权重
  • BridgeV2W(Chen et al., 2026):Embodiment Mask 2D 控制信号,Kinema4D 的直接前身
  • Ctrl-World(Guo et al., 2026):嵌入式动作条件化世界模型,最强 2D 基线
  • TesserAct(Zhen et al., 2025):文本条件化 4D 具身世界模型,最强 4D 基线
  • ST-v2(Xiao et al., 2025):3D 点追踪,用于 4D 伪标注
  • Diffusion Policy(Chi et al., 2025):策略评估中的执行策略