06 Embodied AI

具身智能：VLA 模型、世界模型、机器人策略 RL 训练、模仿学习等。

🤖 VLA（Vision-Language-Action）

基础模型

π₀ 系列、OpenVLA、GR-3、SpatialVLA、UniVLA 等大规模预训练或新训练范式。

论文	关键词	年份
ChatVLA	Spurious Forgetting 分析、Phased Alignment Training、MoE 双专家（共享 Attention 隔离 MLP）、2B 参数统一理解+控制、MMMU 37.4	2025
Dexbotic	VLA Toolbox、统一模块化框架（VLM + AE）、DexboticVLM（Qwen2.5）、Exp 脚本实验开发、SimplerEnv +46.2%	2025
FAST	DCT + BPE 频域压缩动作 tokenization、高频灵巧任务、π₀-FAST 匹配扩散 π₀ 训练 5× 加速、FAST+ 通用 tokenizer	2025
GR-3	MoT 架构（Qwen2.5-VL + Action DiT）、VL 协同训练、VR 人类轨迹少样本适配、Task Status 辅助监督、全面超越 π₀	2025
MMaDA-VLA	原生离散扩散、统一多模态 token、并行去噪、混合注意力、目标观测生成、LIBERO 98.0%、CALVIN 4.78	2026
OTTER	冻结 CLIP、文本感知视觉特征提取、ClearCLIP $X_{attn}$ 、余弦相似度 Softmax 选择、零样本泛化	2025
SpatialVLA	3D 空间感知、Ego3D 位置编码、自适应高斯动作网格、3 token/step、20 Hz	2025
UniVLA	任务中心潜在动作解耦（VQ-VAE + DINOv2 + 语言引导两阶段分离）、跨具身无标注视频预训练、1/20 算力超越 OpenVLA、LIBERO 95.2%、真实世界 81.7%	2025
π₀	Flow Matching VLA、VLM 骨架 + Action Expert、跨构型预训练、预训练/后训练范式	2024
π₀.₅	异构多源数据协同训练、分层推理（子任务预测 + 低层控制）、开放世界泛化	2025

感知增强

视觉/3D/空间表征增强，包括 VGGT 对齐、深度/点云/4D 编码、视觉提示、关键帧采样等。

论文	关键词	年份
3D-CAVLA	3D 深度感知、CoT 指令分解、ROI 检测、零样本泛化、LIBERO	2025
3D-MIX	VGGT 3D 融合、9 种策略对比、语义条件化门控、即插即用、GR00T/π-style、SIMPLER +7.0%	2026
AimBot	瞄准线 + 准星视觉空间线索、EE 位姿/朝向/夹爪编码到像素空间、<1 ms 模型无关、LIBERO-Long +5.8、真实世界 27→43/50	2025
AnchorVLA4D	首帧锚帧 + 冻结 Any4D 空间编码器、遮挡遗忘缓解、早期重试、SimplerEnv 64.6%（+13.6%）、真实世界 80%	2026
BridgeVLA	输入-输出 2D 对齐、正交投影、2D 热力图预训练、RLBench 88.2%、3 条轨迹 95.4%	2025
DeepVision-VLA	视觉敏感性衰减诊断、VL-MoT DINOv3 视觉专家深层耦合、AGVP 动作引导 Token 剪枝、RLBench 83%、真实世界 91.7%	2026
SF	隐式空间表征对齐（VGGT）、中间层视觉 embedding 监督、推理零开销、3.8× 训练加速、LIBERO 98.5%	2025
TGM-VLA	关键帧采样优化、颜色反转投影、跨任务/任务内 Mixup、RLBench 90.5%、COLOSSEUM 68.8%	2026
UAOR	观测遗忘诊断、Action Entropy 不确定性检测、观测特征 FFN 重注入、Training-Free、Plug-and-Play	2026
VP-VLA	双系统架构、视觉提示接口（十字准星+边框）、事件驱动任务分解、视觉接地辅助损失、RoboCasa +5%、SimplerEnv +8.3%	2026

推理与规划

时序记忆、世界模型预测、进度估计、轨迹 CoT、子目标规划、多 horizon 动作建模等。

论文	关键词	年份
CoWVLA	结构-运动解耦 Video VAE、潜在运动链、Chain-of-World、终端帧预测、LIBERO 95.6%、SimplerEnv 76.0%、CALVIN 4.21	2026
CronusVLA	Feature Chunking 多帧特征聚合、DiT 跨帧解码器、多帧正则化、SimplerEnv 70.9%、LIBERO 97.0%、SimplerEnv-OR R-Score 86.9	2026
DAM-VLA	动作路由、双扩散动作头（手臂 class token + 夹爪 register token）、双尺度加权	2026
DreamVLA	综合世界知识预测（动态区域/深度/语义）、Block-Wise 结构化注意力、DiT 动作头、GPT-2 Medium、CALVIN 4.44 SOTA、LIBERO 92.6%	2025
DUST	世界模型增强 VLA、MMDiT 双流（共享跨模态注意力）、解耦噪声调度（per-modality 独立加噪，学正/逆双向因果）、异步联合采样推理缩放、超 FLARE 5-6%、真实 Franka +10%、ICML 2026	2026
FLARE	隐式世界模型、未来潜在表示对齐（cos 相似度，λ=0.2）、可学习未来 token、动作感知 Q-former 嵌入、EMA target、RoboCasa 70.1%/GR1 55.0%、真实 GR1 95.1%、无动作人类视频协同训练	2025
FutureVLA	联合视觉运动预测（JVPM）、3D-VAE 连续 17 帧编码、双流解耦监督、门控交叉注意力、潜在嵌入对齐、SimplerEnv 80.1%、真实机器人 +26.7%	2026
MemoryVLA	感知-认知双流记忆库（PCMB）、跨注意力检索 + 门控融合 + 合并压缩、长时域操作、SimplerEnv-Bridge +14.6、LIBERO 96.5%、真实世界时序 +26	2025
MoH	多 Horizon 动作块并行融合、轻量门控（2k 参数）、跨 Horizon 共识动态推理、Plug-and-Play、LIBERO 99%	2025
OptimusVLA	双记忆增强（GPM 任务级先验检索 + LCM Mamba 时序一致性）、自适应 NFE、LIBERO 98.6%、2.9× 推理加速	2026
ProgressVLA	进度估计、Classifier Guidance、潜在动作空间、世界模型、扩散策略、长时域操作	2026.03
SPR	进度感知空间子目标规划、See-Plan-Rewind 闭环、自主错误恢复、LIBERO 91.8%、LIBERO-Plus OOD ↓18.8%	2026
TCoT	全局/局部轨迹思维链、GLSR 失败检测与策略切换恢复、跨任务知识共享、LIBERO 83.3%（Multi）、真实世界 +28%	2026

高效推理

VLA 模型推理加速，包括 Token 缓存/剪枝、动态计算、量化等。

论文	关键词	年份
BitVLA	1-bit 量化、蒸馏感知训练、三值化 VLA、LIBERO 94.8%、显存 1.4GB	2025
EfficientVLA	LLM 层剪枝、任务感知 Token 选择、扩散步缓存、Training-Free、1.93× 加速	2025
FocusVLA	Modality Cascaded Attention + Focus Attention（Patch 剪枝 + Channel 门控）、视觉利用效率瓶颈诊断、0.5B 超越 7B、LIBERO 98.7%、训练 1.5× 加速	2026
GridS	可微双线性采样、连续坐标预测、几何感知剪枝、端到端联合训练、ICML 2026	2026
HeiSD	混合推测解码（Drafter + Retrieval SD）、运动学融合指标、Verify-Skip、序列级宽松接受、2.45× 加速	2026
LAC	可学习自适应 Token 缓存、光流运动先验、Gumbel-Softmax 端到端优化、1.76× 加速	2026
PD-VLA	Jacobi 并行解码、Action Chunking、Training-Free、Modification-Free、2.52× 加速	2025
SD-VLA	静态-动态 Token 解耦、多级缓存层次、可学习重缓存门、长时程建模、2.26× 加速	2026
RLRC	结构化剪枝 + SFT/RL 恢复 + 4-bit 量化、90% 剪枝率、8× 显存压缩、2.3× 加速	2025
RTC	异步动作块修复执行、ΠGDM 引导 + 软掩码、Training-Free、π₀.₅ 快 20%、300ms+ 延迟鲁棒	2025
VLA-Cache	训练无关跨帧 Token 缓存、注意力驱动任务相关性过滤、层自适应复用策略、1.7× 加速	2025
VLA-Pruner	双层 Token 剪枝（语义级 + 动作级注意力）、时序平滑估计、mRMR 双层选择、Training-Free、1.8× 加速	2025

RL 后训练

用强化学习微调或改进机器人策略，包括 VLA + RL 自改进、Flow/Diffusion Policy + RL 等。

论文	关键词	年份
ARM	Tri-state 优势标注、MIMO Transformer、双头（区间分类 + 完成）、长度自适应 AW-BC、叠毛巾 99.4%	2026
ConRFT	一致性策略、Cal-QL + BC 离线训练、HIL 在线 RL、真实世界 96.3% 成功率	2025
DiffRL Data	扩散策略 + PPO 数据生成、BC Warm-Start、低方差轨迹、LIBERO-130	2025
FPO++	CFM 损失差值代理似然比、逐样本裁剪、非对称信任域 ASPO、sim-to-real	2026
GigaBrain-0.5M*	世界模型 RL、RAMP、优势+未来状态条件化、Wan2.2、HILR 迭代训练	2026
GRAPE	轨迹级 DPO（TPO）、VLM 代价函数自动生成、多元对齐目标、plug-and-play	2025
GR-RL	数据过滤 + 形态对称增强 + 隐空间在线 RL，通才 VLA 特化为精密操作专家	2025
LRM	三维度帧级在线奖励（时序对比/绝对进度/任务完成）、Qwen3-VL-8B LoRA、24 源数据、零样本 PPO	2026
MoRE	Mixture of LoRA Experts、自回归 Q-learning、混合质量数据、四足多任务 VLA	2025
π₀.₆*	RECAP 优势条件化离线 RL、分布式价值函数、VLA 吞吐量翻倍	2025
π-StepNFT	SDE 探索、逐步监督、对比排序损失、无 Critic 无似然在线 RL	2026
πRL	Flow-Noise 可学习噪声联合似然、Flow-SDE ODE→SDE 两层 MDP、PPO 微调 π₀/π₀.₅、LIBERO 97.6%/98.3%	2025
PLD	残差 RL 专家、基础策略探针、混合轨迹蒸馏、VLA 自改进、LIBERO 99%	2026
PTR	Posterior-Transition Reweighting、无奖励 identification 评分、保守权重裁剪、跨构型选择性迁移、Being-H0.5	2026
ReWiND	语言条件化奖励、Video Rewind、进度预测、Open-X 多样化、零演示泛化	2025
RISE	组合式世界模型、想象空间 RL、VLA 自改进	2026
Robo-Dopamine	通用过程奖励模型、Hop-based 进度归一化、多视角融合、策略不变奖励塑形、One-shot 适配	2025
ROBOMETER	通用奖励模型、帧级进度 + 轨迹偏好比较、失败数据利用、21 种具身泛化	2026
RoboReward	通用奖励模型、反事实重标注、时序裁剪、RoboRewardBench、Episode 级离散进度奖励	2026
RL-Co	Sim-Real RL Co-Training、SFT 正则防遗忘、OpenVLA / $π_{0.5}$ 双验证	2026
RLinf	M2Flow 宏-微流变换、弹性流水线、上下文切换、RL 训练系统	2025
RLinf-USER	统一硬件抽象、云-边通信、全异步流水线、持久化缓冲区、真实世界在线学习	2026
RLinf-VLA	Hybrid Fine-grained Pipelining、统一 VLA+RL 框架（PPO/GRPO）、LIBERO-130 达 98.11%	2025
RL-VLA Survey	综述：RL-VLA 架构、在线/离线/测试时训练范式、sim-to-real 部署、评测基准	2025
RLVLA	PPO 优于 DPO/GRPO、共享 Actor-Critic、RL 在语义和执行维度显著优于 SFT	2025
RPD	VLA→RL 策略蒸馏、PPO + MSE 引导、稀疏奖励加速、视角变化鲁棒、ManiSkill3	2025
SAC Flow	Flow 策略 × 序列模型、GRU/Transformer 重参数化、off-policy RL	2026
SC-VLA	稀疏世界想象、残差 SAC 在线修正、内生密集奖励、Flow Matching	2026
SimpleVLA-RL	在线 GRPO、二元结果奖励、Dynamic Sampling + Clip Higher + 高温采样、pushcut 涌现行为	2025
SRPO	自参照策略优化、世界模型隐空间 progress-wise 奖励、V-JEPA 2、GRPO 扩展	2025
TACO	Test-Time Scaling、Anti-Exploration、轻量 CFN 伪计数器选择 in-support 动作	2025
TGRPO	无 Critic 在线 RL、LLM 自动生成多阶段稠密奖励、步级/轨迹级双层组相对优势	2025
TOPReward	Token 概率零样本奖励、VLM logits 进度估计、ManiRewardBench、VOC 0.947	2026
TwinRL	数字孪生探索放大器、探索空间扩展、Sim-to-Real 引导探索、HiL	2026
ViVa	视频生成价值模型、Wan2.2 DiT、Latent Injection、未来本体感知预测、RECAP value 替换	2026
VLAC	统一 Actor-Critic、Pairwise Progress Delta、真实世界 RL、分级人机协作	2025
VLA-RFT	视频世界模型充当模拟器、Verified Reward（MAE+LPIPS）、SDE-Policy、GRPO 400 步微调	2025
VLA-RL	在线 PPO 微调自回归 VLA、Robotic Process Reward Model、多模态多轮对话建模	2025
WMPO	像素级视频世界模型、OpenSora + Policy Behavior Alignment、On-policy GRPO、OpenVLA-OFT 微调	2025
World-VLA-Loop	闭环联合优化、SANS 近成功数据、Cosmos-Predict 2 + 奖励预测头、迭代 RL	2026
WoVR	幻觉感知世界模型 RL、关键帧初始化 Rollout、策略-模型协同进化（PACE）	2026

🌍 World Models

视频世界模型、动力学预测、可控生成、想象与规划。

论文	关键词	年份
BridgeV2W	Embodiment Mask（URDF + 相机参数）、ControlNet 像素空间动作注入、光流运动损失、跨构型统一、视角鲁棒	2025
Fast-WAM	视频协同训练 vs. 测试时未来想象受控拆解、MoT 架构（Wan2.2-5B + Action DiT）、训练-推理解耦、190 ms 延迟、RoboTwin 91.8%、LIBERO 97.6%	2026.03
Kinema4D	4D Pointmap 运动学控制、DiT 联合 RGB+Pointmap 合成、Robo4D-200k、构型无关、零样本真实世界迁移、PSNR 22.50、F-Score 0.4733	2026
MIND-V	认知分层 VWM（SRH + BSB + MVG）、CogVideoX-5B 底座、V-JEPA2 物理裁判 PFC 奖励、GRPO 后训练、Staged Visual Future Rollouts、PFC +9.0%、Task Success +76.7%	2026
SpatialVAM	3D Video Action Model、多视图正交投影 RGB + 热力图、Wan2.2-5B + View-Attention LoRA、双扩散损失、Meta-World 89.1%、RoboCasa 42%、真实 Franka 57.1%、单步去噪 85.7%	2026
WorldVLA	自回归统一动作+世界模型、Chameleon 骨架、Action Attention Mask 阻断误差累积、VQ-GAN 离散 token、LIBERO 81.8%	2025

🎓 Imitation Learning

从视频演示学习操作策略，包括无动作标注学习、光流策略、轨迹模仿等。

论文	关键词	年份
EC-Flow	具身中心光流、目标图像辅助对齐、URDF 运动学动作计算、无动作标注、DiT 扩散、遮挡 +62%、柔性 +45%、非位移 +80%	2025

02 Alignment & Safety

04 Multimodal

VLM

幻觉缓解

Token 压缩

视频生成

06 Embodied AI

VLA

基础模型

感知增强

推理与规划

高效推理

RL 后训练

World Models

Imitation Learning

09 Evaluation

10 Reinforcement Learning

06 Embodied AI

🤖 VLA（Vision-Language-Action）

基础模型

感知增强

推理与规划

高效推理

RL 后训练

🌍 World Models

🎓 Imitation Learning

幻觉缓解

Token 压缩

基础模型

感知增强

推理与规划

高效推理

RL 后训练

06 Embodied AI ​

🤖 VLA（Vision-Language-Action） ​

基础模型 ​

感知增强 ​

推理与规划 ​

高效推理 ​

RL 后训练 ​

🌍 World Models ​

🎓 Imitation Learning ​

06 Embodied AI

🤖 VLA（Vision-Language-Action）

基础模型

感知增强

推理与规划

高效推理

RL 后训练

🌍 World Models

🎓 Imitation Learning