Skip to content

06 Embodied AI

具身智能:VLA 模型、世界模型、机器人策略 RL 训练、模仿学习等。


🤖 VLA(Vision-Language-Action)

基础模型

π₀ 系列、RT 系列、OpenVLA、GR00T 等。

论文关键词年份
3D-CAVLA3D 深度感知、CoT 指令分解、ROI 检测、零样本泛化、LIBERO2025
3D-MIXVGGT 3D 融合、9 种策略对比、语义条件化门控、即插即用、GR00T/π-style、SIMPLER +7.0%2026
AimBot瞄准线 + 准星视觉空间线索、EE 位姿/朝向/夹爪编码到像素空间、<1 ms 模型无关、LIBERO-Long +5.8、真实世界 27→43/502025
AnchorVLA4D首帧锚帧 + 冻结 Any4D 空间编码器、遮挡遗忘缓解、早期重试、SimplerEnv 64.6%(+13.6%)、真实世界 80%2026
BridgeVLA输入-输出 2D 对齐、正交投影、2D 热力图预训练、RLBench 88.2%、3 条轨迹 95.4%2025
ChatVLASpurious Forgetting 分析、Phased Alignment Training、MoE 双专家(共享 Attention 隔离 MLP)、2B 参数统一理解+控制、MMMU 37.42025
CoWVLA结构-运动解耦 Video VAE、潜在运动链、Chain-of-World、终端帧预测、LIBERO 95.6%、SimplerEnv 76.0%、CALVIN 4.212026
CronusVLAFeature Chunking 多帧特征聚合、DiT 跨帧解码器、多帧正则化、SimplerEnv 70.9%、LIBERO 97.0%、SimplerEnv-OR R-Score 86.92026
DAM-VLA动作路由、双扩散动作头(手臂 class token + 夹爪 register token)、双尺度加权2026
DeepVision-VLA视觉敏感性衰减诊断、VL-MoT DINOv3 视觉专家深层耦合、AGVP 动作引导 Token 剪枝、RLBench 83%、真实世界 91.7%2026
DreamVLA综合世界知识预测(动态区域/深度/语义)、Block-Wise 结构化注意力、DiT 动作头、GPT-2 Medium、CALVIN 4.44 SOTA、LIBERO 92.6%2025
DexboticVLA Toolbox、统一模块化框架(VLM + AE)、DexboticVLM(Qwen2.5)、Exp 脚本实验开发、SimplerEnv +46.2%2025
FASTDCT + BPE 频域压缩动作 tokenization、高频灵巧任务、π₀-FAST 匹配扩散 π₀ 训练 5× 加速、FAST+ 通用 tokenizer2025
FocusVLAModality Cascaded Attention + Focus Attention(Patch 剪枝 + Channel 门控)、视觉利用效率瓶颈诊断、0.5B 超越 7B、LIBERO 98.7%、训练 1.5× 加速2026
FutureVLA联合视觉运动预测(JVPM)、3D-VAE 连续 17 帧编码、双流解耦监督、门控交叉注意力、潜在嵌入对齐、SimplerEnv 80.1%、真实机器人 +26.7%2026
GR-3MoT 架构(Qwen2.5-VL + Action DiT)、VL 协同训练、VR 人类轨迹少样本适配、Task Status 辅助监督、全面超越 π₀2025
MoH多 Horizon 动作块并行融合、轻量门控(2k 参数)、跨 Horizon 共识动态推理、Plug-and-Play、LIBERO 99%2025
MemoryVLA感知-认知双流记忆库(PCMB)、跨注意力检索 + 门控融合 + 合并压缩、长时域操作、SimplerEnv-Bridge +14.6、LIBERO 96.5%、真实世界时序 +262025
MMaDA-VLA原生离散扩散、统一多模态 token、并行去噪、混合注意力、目标观测生成、LIBERO 98.0%、CALVIN 4.782026
OptimusVLA双记忆增强(GPM 任务级先验检索 + LCM Mamba 时序一致性)、自适应 NFE、LIBERO 98.6%、2.9× 推理加速2026
OTTER冻结 CLIP、文本感知视觉特征提取、ClearCLIP Xattn、余弦相似度 Softmax 选择、零样本泛化2025
ProgressVLA进度估计、Classifier Guidance、潜在动作空间、世界模型、扩散策略、长时域操作2026.03
π₀Flow Matching VLA、VLM 骨架 + Action Expert、跨构型预训练、预训练/后训练范式2024
π₀.₅异构多源数据协同训练、分层推理(子任务预测 + 低层控制)、开放世界泛化2025
SF隐式空间表征对齐(VGGT)、中间层视觉 embedding 监督、推理零开销、3.8× 训练加速、LIBERO 98.5%2025
SpatialVLA3D 空间感知、Ego3D 位置编码、自适应高斯动作网格、3 token/step、20 Hz2025
SPR进度感知空间子目标规划、See-Plan-Rewind 闭环、自主错误恢复、LIBERO 91.8%、LIBERO-Plus OOD ↓18.8%2026
TCoT全局/局部轨迹思维链、GLSR 失败检测与策略切换恢复、跨任务知识共享、LIBERO 83.3%(Multi)、真实世界 +28%2026
TGM-VLA关键帧采样优化、颜色反转投影、跨任务/任务内 Mixup、RLBench 90.5%、COLOSSEUM 68.8%2026
UniVLA任务中心潜在动作解耦(VQ-VAE + DINOv2 + 语言引导两阶段分离)、跨具身无标注视频预训练、1/20 算力超越 OpenVLA、LIBERO 95.2%、真实世界 81.7%2025
VP-VLA双系统架构、视觉提示接口(十字准星+边框)、事件驱动任务分解、视觉接地辅助损失、RoboCasa +5%、SimplerEnv +8.3%2026

高效推理

VLA 模型推理加速,包括 Token 缓存/剪枝、动态计算、量化等。

论文关键词年份
BitVLA1-bit 量化、蒸馏感知训练、三值化 VLA、LIBERO 94.8%、显存 1.4GB2025
EfficientVLALLM 层剪枝、任务感知 Token 选择、扩散步缓存、Training-Free、1.93× 加速2025
HeiSD混合推测解码(Drafter + Retrieval SD)、运动学融合指标、Verify-Skip、序列级宽松接受、2.45× 加速2026
LAC可学习自适应 Token 缓存、光流运动先验、Gumbel-Softmax 端到端优化、1.76× 加速2026
PD-VLAJacobi 并行解码、Action Chunking、Training-Free、Modification-Free、2.52× 加速2025
SD-VLA静态-动态 Token 解耦、多级缓存层次、可学习重缓存门、长时程建模、2.26× 加速2026
RLRC结构化剪枝 + SFT/RL 恢复 + 4-bit 量化、90% 剪枝率、8× 显存压缩、2.3× 加速2025
RTC异步动作块修复执行、ΠGDM 引导 + 软掩码、Training-Free、π₀.₅ 快 20%、300ms+ 延迟鲁棒2025
VLA-Cache训练无关跨帧 Token 缓存、注意力驱动任务相关性过滤、层自适应复用策略、1.7× 加速2025
VLA-Pruner双层 Token 剪枝(语义级 + 动作级注意力)、时序平滑估计、mRMR 双层选择、Training-Free、1.8× 加速2025

推理增强

VLA 推理阶段的 training-free 增强方法,无需修改模型权重即可提升性能。

论文关键词年份
UAORAction Entropy、观测重注入、FFN-as-Memory、Training-Free、Plug-and-Play2026

RL 后训练

用强化学习微调或改进机器人策略,包括 VLA + RL 自改进、Flow/Diffusion Policy + RL 等。

论文关键词年份
ARMTri-state 优势标注、MIMO Transformer、双头(区间分类 + 完成)、长度自适应 AW-BC、叠毛巾 99.4%2026
ConRFT一致性策略、Cal-QL + BC 离线训练、HIL 在线 RL、真实世界 96.3% 成功率2025
DiffRL Data扩散策略 + PPO 数据生成、BC Warm-Start、低方差轨迹、LIBERO-1302025
FPO++CFM 损失差值代理似然比、逐样本裁剪、非对称信任域 ASPO、sim-to-real2026
GigaBrain-0.5M*世界模型 RL、RAMP、优势+未来状态条件化、Wan2.2、HILR 迭代训练2026
GRAPE轨迹级 DPO(TPO)、VLM 代价函数自动生成、多元对齐目标、plug-and-play2025
GR-RL数据过滤 + 形态对称增强 + 隐空间在线 RL,通才 VLA 特化为精密操作专家2025
LRM三维度帧级在线奖励(时序对比/绝对进度/任务完成)、Qwen3-VL-8B LoRA、24 源数据、零样本 PPO2026
MoREMixture of LoRA Experts、自回归 Q-learning、混合质量数据、四足多任务 VLA2025
π₀.₆*RECAP 优势条件化离线 RL、分布式价值函数、VLA 吞吐量翻倍2025
π-StepNFTSDE 探索、逐步监督、对比排序损失、无 Critic 无似然在线 RL2026
πRLFlow-Noise 可学习噪声联合似然、Flow-SDE ODE→SDE 两层 MDP、PPO 微调 π₀/π₀.₅、LIBERO 97.6%/98.3%2025
PLD残差 RL 专家、基础策略探针、混合轨迹蒸馏、VLA 自改进、LIBERO 99%2026
PTRPosterior-Transition Reweighting、无奖励 identification 评分、保守权重裁剪、跨构型选择性迁移、Being-H0.52026
ReWiND语言条件化奖励、Video Rewind、进度预测、Open-X 多样化、零演示泛化2025
RISE组合式世界模型、想象空间 RL、VLA 自改进2026
Robo-Dopamine通用过程奖励模型、Hop-based 进度归一化、多视角融合、策略不变奖励塑形、One-shot 适配2025
ROBOMETER通用奖励模型、帧级进度 + 轨迹偏好比较、失败数据利用、21 种具身泛化2026
RoboReward通用奖励模型、反事实重标注、时序裁剪、RoboRewardBench、Episode 级离散进度奖励2026
RL-CoSim-Real RL Co-Training、SFT 正则防遗忘、OpenVLA / π0.5 双验证2026
RLinfM2Flow 宏-微流变换、弹性流水线、上下文切换、RL 训练系统2025
RLinf-USER统一硬件抽象、云-边通信、全异步流水线、持久化缓冲区、真实世界在线学习2026
RLinf-VLAHybrid Fine-grained Pipelining、统一 VLA+RL 框架(PPO/GRPO)、LIBERO-130 达 98.11%2025
RL-VLA Survey综述:RL-VLA 架构、在线/离线/测试时训练范式、sim-to-real 部署、评测基准2025
RLVLAPPO 优于 DPO/GRPO、共享 Actor-Critic、RL 在语义和执行维度显著优于 SFT2025
RPDVLA→RL 策略蒸馏、PPO + MSE 引导、稀疏奖励加速、视角变化鲁棒、ManiSkill32025
SAC FlowFlow 策略 × 序列模型、GRU/Transformer 重参数化、off-policy RL2026
SC-VLA稀疏世界想象、残差 SAC 在线修正、内生密集奖励、Flow Matching2026
SimpleVLA-RL在线 GRPO、二元结果奖励、Dynamic Sampling + Clip Higher + 高温采样、pushcut 涌现行为2025
SRPO自参照策略优化、世界模型隐空间 progress-wise 奖励、V-JEPA 2、GRPO 扩展2025
TACOTest-Time Scaling、Anti-Exploration、轻量 CFN 伪计数器选择 in-support 动作2025
TGRPO无 Critic 在线 RL、LLM 自动生成多阶段稠密奖励、步级/轨迹级双层组相对优势2025
TOPRewardToken 概率零样本奖励、VLM logits 进度估计、ManiRewardBench、VOC 0.9472026
TwinRL数字孪生探索放大器、探索空间扩展、Sim-to-Real 引导探索、HiL2026
VLAC统一 Actor-Critic、Pairwise Progress Delta、真实世界 RL、分级人机协作2025
VLA-RFT视频世界模型充当模拟器、Verified Reward(MAE+LPIPS)、SDE-Policy、GRPO 400 步微调2025
VLA-RL在线 PPO 微调自回归 VLA、Robotic Process Reward Model、多模态多轮对话建模2025
WMPO隐空间世界模型、Imagination Rollout + PPO、离线 RL 后训练 VLA2025
World-VLA-Loop闭环联合优化、SANS 近成功数据、Cosmos-Predict 2 + 奖励预测头、迭代 RL2026
WoVR幻觉感知世界模型 RL、关键帧初始化 Rollout、策略-模型协同进化(PACE)2026

🌍 World Models

视频世界模型、动力学预测、可控生成、想象与规划。

论文关键词年份
BridgeV2WEmbodiment Mask(URDF + 相机参数)、ControlNet 像素空间动作注入、光流运动损失、跨构型统一、视角鲁棒2025
Fast-WAM视频协同训练 vs. 测试时未来想象受控拆解、MoT 架构(Wan2.2-5B + Action DiT)、训练-推理解耦、190 ms 延迟、RoboTwin 91.8%、LIBERO 97.6%2026.03
Kinema4D4D Pointmap 运动学控制、DiT 联合 RGB+Pointmap 合成、Robo4D-200k、构型无关、零样本真实世界迁移、PSNR 22.50、F-Score 0.47332026
WorldVLA自回归统一动作+世界模型、Chameleon 骨架、Action Attention Mask 阻断误差累积、VQ-GAN 离散 token、LIBERO 81.8%2025

🎓 Imitation Learning

从视频演示学习操作策略,包括无动作标注学习、光流策略、轨迹模仿等。

论文关键词年份
EC-Flow具身中心光流、目标图像辅助对齐、URDF 运动学动作计算、无动作标注、DiT 扩散、遮挡 +62%、柔性 +45%、非位移 +80%2025