Skip to content

EC-Flow:基于具身中心光流的无动作标注视频操作学习

论文EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow

作者:Yixiang Chen, Peiyan Li, Yan Huang, Jiabing Yang, Kehan Chen, Liang Wang

机构:中科院自动化所(NLPR)、中国科学院大学、FiveAges

发布时间:2025年7月

🔗 arXiv | 项目主页

发表会议:ICCV 2025


一句话总结

EC-Flow 将光流预测的视角从物体中心转换为具身中心(即预测机器人本体上随机采样点的未来位置),配合目标图像辅助对齐和 URDF 感知的运动学动作计算,仅用 5 条无动作标注的 RGB 视频即可学习操作策略,在遮挡(+62%)、柔性物体(+45%)和非位移操作(+80%)场景中大幅超越物体中心光流方法。


一、问题与动机

1.1 从视频学习操作的瓶颈

当前主流机器人操作学习方法(VLA、模仿学习)严重依赖低层动作标注数据集。然而动作标注数据采集成本高、噪声大、难以规模化。与此同时,大量无动作标注的操作视频蕴含丰富的运动先验,但尚未被充分利用。

1.2 物体中心光流的三大局限

现有无动作标注方法(如 AVDC、Track2Act、General Flow)主要采用物体中心光流——预测物体上关键点的运动轨迹,再通过物体变换推导机器人动作。这条技术路线存在三个根本性缺陷:

  1. 刚性假设(Rigidity Assumption):假设物体各部分做统一刚体变换,无法处理柔性物体(如折叠毛巾、叠衣服)
  2. 遮挡脆弱性(Occlusion Vulnerability):动作完全依赖物体状态变化推导,目标物体被遮挡时无法获取有效信息(如锤击钉子时锤头遮挡钉子)
  3. 非位移操作失效(Non-Object-Displacement):当物体发生旋转(如旋转开关)或几乎不移动(如按鼠标)时,物体光流无法捕获有效运动信号

1.3 EC-Flow 的核心洞察

EC-Flow 提出了一个关键的视角转换:将光流预测的焦点从物体转移到机器人本体(embodiment)。这一转换从根本上消除了上述三个局限:

  • 机器人运动与物体属性无关,天然适用于刚性和柔性物体
  • 机器人在操作过程中始终可见(至少部分关节可见),即使目标物体被遮挡
  • 机器人末端执行器的运动完整描述了操作意图,无论物体是否发生位移

但具身中心光流面临两个新挑战:(1) 纯粹的机械臂运动预测可能无法确保与目标物体的正确交互;(2) 机器人不同关节具有不同的运动学约束,不能作为统一实体计算动作。


二、预备知识

2.1 条件扩散模型

EC-Flow 使用条件扩散模型预测光流轨迹。前向过程通过 Markov 链逐步向 ground truth 光流 z0 添加噪声:

q(zt|zt1)=N(zt;1βtzt1,βtI)

其中 {βt}t=1T 采用 cosine noise schedule。反向过程学习参数化的去噪转换:

pθ(zt1|zt)=N(zt1;μθ(zt,t,c),Σθ(zt,t,c))

训练目标为最小化预测噪声与真实噪声的距离:

Lflow=Et,z0,ϵ[ϵϵθ(zt,t,c)22]

2.2 URDF 与正运动学

URDF(Unified Robot Description Format)是机器人标准描述文件,定义了关节类型、运动范围、连杆几何等信息。正运动学(Forward Kinematics)根据给定的末端执行器位姿 Tee 和关节配置,计算每个关节相对于末端执行器的变换矩阵 jeeT。逆运动学(Inverse Kinematics)则是反向过程。EC-Flow 利用 URDF 文件将全局具身光流分解为关节级别的局部运动,实现物理约束下的动作计算。

2.3 点跟踪(Point Tracking)

CoTracker 是一种视频点跟踪模型,能够同时预测多个查询点在视频帧序列中的未来 uv 坐标和可见性状态。EC-Flow 用 CoTracker 从无动作标注视频中提取机械臂采样点的 ground truth 运动轨迹,作为扩散模型的训练监督信号。


三、核心方法

EC-Flow 由两个核心模块组成:(1) 具身中心光流预测——从初始帧预测机器人上采样点的未来运动轨迹;(2) 运动学感知动作计算——利用 URDF 将预测光流转换为可执行的末端执行器动作。

3.1 数据集构建

从原始 RGB 视频自动构建训练数据,无需任何动作标注:

  1. 对初始帧 o0,用 Grounded SAM(GroundingDINO 检测 + SAM2 分割)提取机械臂的像素级 mask
  2. 在 mask 区域内随机采样 Np 个点
  3. 用 CoTracker 追踪这些点在整个视频中的 uv 坐标和可见性
  4. 训练时从完整轨迹中采样固定长度 T 的时间窗口,坐标归一化保证分辨率不变性

最终数据集为 D={(pi,o0i,li)}i=1n,其中 piNNp×T×3 包含 uv 坐标和可见性。

值得注意的是,由于后续动作计算阶段会过滤异常点,EC-Flow 对分割精度的要求较低——即使分割模型误将部分环境(如冰箱门)识别为机械臂,也不会影响最终动作质量。

3.2 具身中心光流预测

主分支:扩散光流预测

采用 DiT(Diffusion Transformer)架构,条件信号 c=[v~,l~,s~] 包含三部分:

  • 视觉上下文 v~:初始帧通过 ResNet-50 编码
  • 语言引导 l~:指令通过 CLIP 文本编码器编码
  • 起始状态 s~:初始采样点坐标(作为 ground truth 直接传入,对应位置噪声置零)

三种异构特征经可学习 adapter 层投影到统一隐空间,通过交叉注意力与轨迹 token 融合。推理时使用 DDIM 采样(250 步),一次性生成整个 T 步的光流轨迹。

网络参数:24 层 DiT,隐藏维度 1152,16 头注意力,MLP ratio 4.0。

辅助分支:目标图像预测

纯粹的具身光流预测可能与语言指令和物体交互不对齐——机械臂可能做出运动学合理但语义错误的动作。为此引入目标图像预测作为辅助任务。

目标图像生成器与光流预测器共享核心 DiT 架构(12 层,隐藏维度 384,6 头),但在像素空间操作。关键设计:同步扩散时间步——在每个时间步 t,目标图像生成器接收增强条件:

ctimg=[v~,l~,s~,ftflow]

其中 ftflow 是光流预测分支在时间步 t 的输出,建立了运动估计与视觉合成之间的信息传递。

总训练损失:

L=Lflow+λLimage

其中 λ=0.4

这种协同训练策略建立了三重隐式约束:

  1. 物体交互有效性:生成的目标图像必须展示由预测光流导致的物理合理的物体状态
  2. 指令接地性:目标图像的视觉语义被强制与语言指令对齐
  3. 时间一致性:中间光流轨迹必须连贯地桥接初始状态和目标状态

3.3 运动学感知动作计算

将预测的 2D 光流转换为可执行的末端执行器动作,需要处理机器人的铰接结构——不同关节有不同的运动学约束。整个流程分为两个阶段:

阶段一:采样点到关节的分配

  1. 点过滤(FilterPoints):根据三个标准过滤采样点——(a) 连续帧间一致可见性,(b) 位移超过最小运动阈值,(c) 有效的深度信息
  2. 关节边界框投影(ProjectJointPositions):利用 URDF 文件中的几何属性确定各关节的 3D 位置,结合相机内外参数投影为 2D 边界框
  3. 点-关节分配(AssignPointsToJoints):若采样点落入某关节的边界框内则归属于该关节;为避免 2D 视角下关节重叠的歧义,仅保留唯一归属于单个关节的点

阶段二:末端执行器变换优化

  1. 深度感知 3D 重建:利用标定深度图和相机参数将 2D 光流提升到 3D 坐标 Pji(t)3D
  2. 关节变换计算:对候选末端执行器位姿 Tee,通过逆运动学计算各关节相对于末端执行器的变换 jeeT
  3. 重投影对齐优化:最小化重投影误差,求解最优末端执行器位姿:
Tee=argminTeej=1Mi=1Njπ(TeejeeTPji(t)3D)Pji(t+1)2D2

其中 π() 为相机投影函数,M 为关节数,Nj 为第 j 个关节上的采样点数。优化受机器人机械极限约束。

用大白话说:对于候选的末端执行器位姿,通过正/逆运动学计算每个关节应该在哪里,再投影到 2D 图像上,看与预测的下一帧光流位置是否吻合。反复迭代找到最吻合的末端执行器位姿,即为最终动作。为提高收敛性和稳定性,使用前一步的位姿估计作为初始化。

3.4 抓取策略与自适应重规划

抓取点选取采用与 AVDC 一致的物体中心方法——取分割 mask 的质心作为抓取位置。同时实现了自适应重规划协议:当连续动作变化低于阈值时触发重规划,提升运动规划的鲁棒性。


四、实验结果

4.1 仿真实验:Meta-World(9 个任务)

每个任务仅用 5 条视频演示(无动作标注),每任务评估 25 次。

方法训练数据Avg. SRdoor-opendoor-closebtn-top-presshammer-strike
BC-Scratch动作标注0.2040.240.360.120
BC-R3M动作标注0.3600.040.600.040.76
Diffusion Policy动作标注0.2980.480.480.200.04
UniPi动作标注0.09300.3600.04
AVDC无动作标注0.4890.720.920.240.08
Track2Act无动作标注0.5560.880.760.400.24
EC-Flow无动作标注0.7200.961.001.000.88

关键观察:

  • EC-Flow 在 btn-top-presshammer-strike 上相比物体中心方法提升约 65%,这两个任务的共同特点是目标物体被遮挡
  • 即使与使用动作标注数据的方法相比,EC-Flow 仍以 0.720 vs 0.360 大幅领先最强基线 BC-R3M
  • 总体超越 SOTA 物体中心方法(Track2Act)16.4%

4.2 真实世界实验(7 个任务)

设备:Franka Research 3 + Intel Realsense D435i RGB-D 相机,每任务 5 条无动作标注视频,评估 10 次。

方法总成功open-fridgeopen-draweropen-ovenfold-clothesfold-towelpress-mouserotate-switch
BC(动作标注)31/705/106/106/104/102/103/105/10
Track2Act21/708/108/105/100/100/100/100/10
EC-Flow54/709/1010/1010/103/106/109/107/10

三类场景的提升幅度:

  • 柔性物体(fold-clothes + fold-towel):EC-Flow 9/20 vs Track2Act 0/20,+45% 改善
  • 非位移操作(press-mouse + rotate-switch):EC-Flow 16/20 vs Track2Act 0/20,+80% 改善
  • 遮挡场景(刚性物体任务中的遮挡情况):+62% 改善

fold-clothes 任务成功率偏低(3/10),作者归因于 D435i 低成本相机的深度感知不精确,使用更高精度的深度传感器可能改善。

4.3 消融实验

#变体Avg. SR
1EC-Flow(完整)0.720
2Video + GT Flow(视频预测模型 + 点跟踪)0.636
3去掉目标图像预测0.582
4去掉点过滤 + 仅用 EEF 点0.604
5仅用末端执行器点(EEF Points)0.667

关键结论:

  1. 端到端优于两阶段(#2 vs #1):视频预测模型可能产生幻觉(如预测出多个机械臂),导致后续点跟踪出错。端到端光流预测避免了这一问题
  2. 目标图像预测不可缺少(#3 vs #1):去掉辅助任务后性能下降 13.8%,说明纯粹的具身光流可能与物体交互和语言指令不对齐
  3. 点过滤至关重要(#4 vs #1):静止点、不可见点和无效深度点会严重干扰动作计算
  4. 全关节点优于仅 EEF 点(#5 vs #1):末端执行器被遮挡时,使用完整机械臂的点信息可减少误差

4.4 超参数敏感性

采样点数 Np:100→0.591、200→0.688、400→0.720、800→0.733。较少的点导致异常点影响增大,400 以上趋于饱和。

预测步长 T:2→0.244、4→0.648、8→0.720、16→0.707。过短的步长可能遗漏关键操作阶段,且连续动作间隔大会累积误差;过长则不会显著提升。选择 T=8 平衡性能与计算成本。

4.5 跨构型数据的初步探索

在 door-open 和 door-close 上验证人类视频增强效果:

数据组合成功率
50 条人类视频(零样本迁移)0%
2 条机器人视频46%
5 条人类视频 + 2 条机器人视频52%
50 条人类视频 + 2 条机器人视频70%

人类视频虽然无法零样本迁移到机器人,但能提供有价值的运动先验,显著提升小样本学习效果(46%→70%)。这预示了在互联网规模人类视频上预训练、再用少量机器人数据微调的研究方向。

4.6 推理延迟

阶段耗时
光流预测(8 帧,仅执行一次)4.37 s
3D 点投影0.01 s
动作计算(仅 EEF)0.21 s
动作计算(全关节优化)0.37 s

光流预测在轨迹开始时执行一次,后续每步仅需 0.37 s(全关节)。仅用 EEF 回归可提速 1.76×,但成功率下降 5.3%(仿真)和 7.1%(真实)。


五、局限性与未来方向

  1. 初始位姿依赖手动设定:EC-Flow 从手动设定的初始位姿开始计算后续动作,未来计划集成现成的抓取位姿生成模型(如 GraspNet)实现全自动化
  2. 夹爪状态未建模:当前无法从视频中预测夹爪的开合状态,计划利用多模态基础模型从视频中提取夹爪信息并集成到光流预测网络中
  3. 深度感知受限:在 fold-clothes 等需要精确深度的任务上表现受限于低成本 RGB-D 相机的深度精度
  4. 可见关节需帧间一致:虽然不要求所有关节可见(2-3 个即可),但要求初始帧可见的关节在后续帧中保持可见,否则跟踪失败
  5. 光流预测延迟:扩散模型的 250 步 DDIM 采样需 4.37 s,作者指出可用 flow matching 替代加速

六、个人思考

6.1 物体中心 vs 具身中心:视角转换的深层意义

EC-Flow 最核心的贡献是一个简洁而深刻的 insight:与其预测物体"去了哪里",不如预测机器人"怎么动的"。这个视角转换一举解决了物体中心方法的三个根本性限制,因为机器人的运动是操作意图的最直接表征。这类似于 BridgeVLA 中"在 2D 空间对齐输入-输出"的设计哲学——找到正确的表征空间,比在错误空间里做更复杂的建模更有效。

6.2 与世界模型方法的互补性

EC-Flow 与 BridgeV2W 形成有趣的互补:BridgeV2W 也利用 URDF 文件(将动作渲染为 Embodiment Mask 注入世界模型),但它的目标是生成未来视频帧(世界模型),而 EC-Flow 直接预测具身光流用于动作计算。两者都认识到 URDF 是连接视觉预测与物理执行的关键桥梁,但在技术路线上代表了"预测视频 → 推导动作"vs"预测光流 → 计算动作"两条不同的路径。

6.3 目标图像预测的精妙设计

目标图像预测分支不仅仅是一个辅助损失——它通过同步扩散时间步光流输出作为条件建立了光流预测与视觉合成之间的双向信息流。这意味着光流预测需要生成"能支撑合理目标图像"的轨迹,而目标图像需要与"光流预测暗示的运动结果"一致。这种对偶约束比简单的多任务学习更具约束力,是消融实验中去掉目标图像导致 13.8% 下降的根本原因。

6.4 从 5 条视频到互联网规模数据

跨构型实验(人类视频 + 机器人视频)虽然是初步的,但揭示了一个重要的研究方向:在互联网规模的人类操作视频上预训练具身光流预测模型,再用少量机器人数据微调。这与 VLA 领域的"大规模预训练 + 任务微调"范式一脉相承,但完全绕开了动作标注的需求。

6.5 局限性思考

EC-Flow 当前最大的限制是需要 RGB-D 相机 + URDF 文件 + 相机标定这套完整的几何管线。相比之下,VLA 方法只需要 RGB 图像输入即可端到端输出动作。但 EC-Flow 的优势在于极低的数据需求(5 条无标注视频)和对困难场景的鲁棒性(遮挡、柔性物体),这在很多实际场景中可能比端到端简洁性更重要。


参考

  • Track2Act — 物体中心光流预测方法,EC-Flow 的主要对比对象,直接预测物体流并计算动作
  • AVDC — 视频预测 + 物体光流跟踪 + 动作推导的两阶段方法
  • General Flow — 基于 3D 物体光流的通用操作可供性方法,需要 RGBD 输入
  • CoTracker — EC-Flow 用于构建训练数据的视频点跟踪模型
  • Grounded SAM — EC-Flow 用于机械臂分割的视觉基础模型组合
  • π₀ — Flow Matching VLA 基础模型,代表端到端动作标注路线的 SOTA