π₀.₅：基于异构数据协同训练的开放世界泛化 VLA 模型——原理详解

论文：π₀.₅: a Vision-Language-Action Model with Open-World Generalization
机构：Physical Intelligence（π）
发布时间：2025年4月
🔗 arXiv | PDF | 项目主页

一句话总结

π₀.₅ 在 π₀ 的基础上，通过异构多源数据协同训练（跨构型机器人数据、高层语义子任务预测、网络多模态数据、人类口头指令）和分层推理架构（先预测子任务、再生成低层动作），首次实现了端到端 VLA 在全新家庭环境中执行 10-15 分钟长时域灵巧操作任务。

一、论文要解决什么问题？

1.1 从"实验室泛化"到"开放世界泛化"

π₀ 已经证明了 Flow Matching VLA 在灵巧操作上的强大能力，但有一个关键前提：评估环境与训练环境高度匹配。当机器人被部署到一个训练集中从未见过的厨房或卧室时，面临的挑战是多层次的：

低层泛化：新环境中物体的外观、材质、尺寸都不同（比如没见过的菜刀、碗碟）
组合泛化：需要将已学过的技能以新的方式和新的顺序组合（比如在不同布局的厨房里收拾碗碟）
语义泛化：需要理解场景语义来做决策（比如哪个抽屉该放餐具、台面上什么东西是晾碗架）

仅靠暴力扩展目标机器人的数据收集来覆盖所有可能场景是不现实的——你不可能在每个厨房都采集数据。

1.2 核心洞察：人类靠"杂学"泛化

人类面对新环境时能从容应对，靠的不是在每个环境中都亲身练习过，而是综合了多种来源的知识：

直接经验（操作过类似物品）
间接经验（看别人做过、从书上读到过）
语义知识（知道"碗"该放在什么地方）
不同情境下的操作经验（不同场景下的操作可以迁移）

π₀.₅ 正是模仿了这种"杂学"策略：让一个 VLA 模型同时从多种异构数据源中学习，使得知识在不同层级上互补和迁移。

1.3 与 π₀ 的核心区别

维度	π₀	π₀.₅
核心目标	灵巧操作能力	开放世界泛化能力
训练数据	10,000+ 小时机器人数据为主	异构混合：机器人数据（多种构型）+ 高层语义预测 + 网络数据 + 口头指令
推理架构	单层（输入指令 → 输出动作）	分层（输入指令 → 预测子任务 → 输出动作）
动作表示	仅 Flow Matching（连续）	预训练用 FAST 离散 token，后训练加入 Flow Matching 连续动作
评估方式	训练环境匹配的任务	完全未见过的家庭环境
任务时长	几十秒到数分钟	10-15 分钟长时域任务
VLM 骨架	PaliGemma (SigLIP 400M + Gemma 2B)	PaliGemma (SigLIP 400M + Gemma 2.6B)

二、预备知识

2.1 VLA 基础回顾（承接 π₀）

VLA 的核心训练目标是模仿学习——最大化动作的对数似然：

max_{θ} E_{(a_{t : t + H}, o_{t}, ℓ) \sim D} [\log π_{θ} (a_{t : t + H} | o_{t}, ℓ)]

其中观测 $o_{t} = [I_{t}^{1}, \dots, I_{t}^{n}, q_{t}]$ 包含多摄像头图像和本体感知状态， $ℓ$ 是语言指令， $a_{t : t + H}$ 是动作 chunk。

2.2 FAST Action Tokenizer

FAST（Flexible Action Sequence Tokenizer）是一种基于压缩的离散化方法，将连续动作 chunk 编码为离散 token 序列。相比直接把每个维度离散化为 256 档，FAST 利用 chunk 内的时间冗余实现高效压缩。

优势：训练速度显著快于 Flow Matching（因为可以用标准自回归 next-token prediction）。

劣势：推理时需要自回归逐 token 解码，延迟较高，不适合实时控制。

2.3 Flow Matching（承接 π₀）

与 π₀ 相同，使用 flow matching 在连续空间生成动作。给定噪声-动作的线性插值：

a_{t : t + H}^{τ, ω} = τ a_{t : t + H} + (1 - τ) ω, ω \sim N (0, I)

训练目标是预测向量场 $ω - a_{t}$ ，推理时从噪声出发经 10 步积分生成动作。

2.4 分层策略（Hierarchical Policy）

将复杂长任务分解为两级推理：

高层策略：根据当前场景和总任务指令，预测下一步该做什么子任务（如"拿起盘子"）
低层策略：根据子任务指令，输出具体的机器人动作

传统做法用两个独立模型（如 VLM + 低层策略），π₀.₅ 的创新在于同一个模型既做高层推理也做低层控制。

三、方法论详解

3.1 模型架构

3.1.1 统一的多模态模型

π₀.₅ 的核心思想是将所有异构任务统一到同一个序列建模框架中。模型的联合分布可以分解为：

π_{θ} (a_{t : t + H}, \hat{ℓ} | o_{t}, ℓ) = \underset{高层推理}{\underset{⏟}{π_{θ} (\hat{ℓ} | o_{t}, ℓ)}} \cdot \underset{低层控制}{\underset{⏟}{π_{θ} (a_{t : t + H} | o_{t}, \hat{ℓ})}}

其中：

$ℓ$ 是高层任务提示（如"清理厨房"）
$\hat{ℓ}$ 是模型预测的子任务文本（如"拿起盘子"）
$a_{t : t + H}$ 是动作 chunk

关键设计：低层动作分布只依赖于子任务 $\hat{ℓ}$ ，不直接依赖总任务 $ℓ$ 。这意味着高层负责"想清楚该做什么"，低层负责"怎么做"。

3.1.2 Transformer 架构与双专家设计

沿用 π₀ 的双专家架构，但有扩展：

组件	功能	参数量	初始化
VLM 骨架	处理图像 + 语言 + 本体感知 + FAST token	~2.6B（PaliGemma）	预训练 VLM
动作专家	处理连续动作（Flow Matching）	300M	随机初始化（后训练阶段加入）

输入 token 类型包括：

文本 token $x_{i}^{w} \in N$ ：语言指令、子任务标签、FAST 编码的离散动作
图像 patch $x_{i}^{I} \in R^{p \times p \times 3}$ ：通过 SigLIP 视觉编码器处理
连续动作 token $x_{i}^{a} \in R^{d}$ ：flow matching 的中间去噪值

本体感知状态（关节角度、夹爪位姿、底盘速度等）被离散化后作为文本 token 输入。

3.1.3 注意力掩码设计

相比 π₀ 的三块掩码，π₀.₅ 的掩码更精细（见论文 Figure 18）：

图像 + 文本提示 + 本体感知状态：全前缀掩码（bidirectional）
FAST 动作 token：可以看到前缀，并对之前的 FAST token 自回归注意力
动作专家 embedding：可以看到前缀和彼此，但不能看到 FAST token（防止两种动作表示之间的信息泄漏）
信息单向流动：VLM → 动作专家，VLM 的 embedding 不关注动作专家

3.1.4 与 π₀ 时间步处理的差异

π₀ 将 flow matching 时间步 $τ$ 与噪声动作拼接后一起输入 Transformer。π₀.₅ 改为：

用独立的 MLP 处理 $τ$ ： $swish (W_{2} \cdot swish (W_{1} \cdot ϕ (τ)))$
通过 adaptive RMSNorm 在动作专家的每一层注入时间步信息

这种设计让时间步的条件化更加灵活和稳定。

3.2 离散与连续动作的统一训练

这是 π₀.₅ 相比 π₀ 的一个重要架构创新：同时训练离散 FAST token 和连续 flow matching 两种动作表示。

联合损失函数：

E_{D, τ, ω} [H (x_{1 : M}, f_{θ}^{ℓ} (o_{t}, ℓ)) + α {‖ ω - a_{t : t + H} - f_{θ}^{a} (a_{t : t + H}^{τ, ω}, o_{t}, ℓ) ‖}^{2}]

其中：

$H (\cdot)$ 是交叉熵损失，用于文本 token 和 FAST 编码的动作 token
第二项是 flow matching 损失，用于连续动作预测
$α$ 是权衡系数（后训练中设为 10.0）

两阶段策略：

预训练： $α = 0$ ，只用 FAST 离散 token，享受高效的标准 VLM 训练
后训练： $α = 10.0$ ，加入随机初始化的动作专家，同时训练两种表示

推理时：先自回归解码文本 token $\hat{ℓ}$ （子任务预测），再用 10 步 flow matching 去噪生成连续动作 $a_{t : t + H}$ 。

为什么这样设计？

预训练阶段用 FAST 离散 token 训练效率高得多（相比纯 flow matching）
推理阶段用 flow matching 生成连续动作延迟更低（相比自回归解码 FAST token）
两者取长补短：训练快 + 推理快

3.3 异构数据协同训练

这是 π₀.₅ 的核心贡献——精心设计的多源数据训练配方。

3.3.1 预训练阶段数据组成

数据类型	缩写	描述	占比
多样化移动操作	MM	~400 小时，~100 个不同家庭环境的移动机械臂数据	少（仅 2.4%）
多环境非移动操作	ME	固定臂在多种家庭环境中的数据（更轻便，覆盖环境更广）	中
跨构型实验室数据	CE	实验室中多种机器人类型的数据 + OXE 开源数据	大
高层子任务预测	HL	对多子任务数据标注语义子任务标签，训练模型预测子任务	中
多模态网络数据	WD	图像描述、VQA、物体定位等	大

关键数据：97.6% 的预训练数据并非来自目标移动机械臂，而是来自其他机器人、网络数据等辅助来源。

3.3.2 高层子任务预测（HL）的详细设计

对于包含多个子任务的机器人数据（MM、ME、CE），手动标注每个子任务的语义描述。训练时，模型需要：

根据当前观测和高层命令，预测相关物体的 bounding box
预测当前应执行的 子任务标签（如"拿起切菜板"）
根据子任务标签预测 低层动作

这使模型自然地学会了两种角色：

高层策略：给定"清理厨房" → 输出"拿起盘子"
低层策略：给定"拿起盘子" → 输出动作

3.3.3 后训练阶段数据调整

数据类型	变化	原因
MM + ME	保留（过滤为成功轨迹）	核心任务数据
CE	移除	聚焦移动操作
WD	保留	维持语义和视觉能力
HL	保留（仅多环境部分）	维持高层推理能力
VI（新增）	口头指令数据	提升高层子任务预测质量

3.3.4 口头指令数据（VI）

这是一种创新的数据收集方式：人类专家用实时语言指令遥操作机器人完成任务。不是传统的物理遥操作，而是用语言命令"遥操作"——专家观察场景，选择合适的子任务命令，让机器人的已训练低层策略执行。

本质上是在给高层策略做"demonstrations"：在各种场景下，什么样的子任务选择是合理的。虽然 VI 数据仅占高层移动操作数据的约 11%，但对性能影响巨大（见实验部分）。

3.4 预训练与后训练

3.4.1 预训练

初始化：标准 VLM（PaliGemma）
训练方式：标准自回归 Transformer，next-token prediction
动作表示：FAST 离散 token（ $α = 0$ ）
步数：280k gradient steps
训练任务：文本预测、FAST 动作 token 预测、物体定位、图像描述、VQA

3.4.2 后训练

新增组件：随机初始化的 300M 动作专家
训练方式：同时优化交叉熵 + flow matching 损失（ $α = 10.0$ ）
步数：80k additional steps
数据过滤：仅使用成功的、长度合理的轨迹
核心目标：专精移动操作 + 获得流畅的连续动作推理能力

3.5 推理流程

每个推理步分为两阶段：

阶段 1：高层推理（较低频率）

输入：4 个摄像头图像 + 高层任务命令（如"清理卧室"）
模型自回归输出子任务文本（如"拿起枕头"）

阶段 2：低层推理（较高频率，50 Hz）

输入：腕部 + 前方 3 个摄像头图像 + 子任务命令 + 噪声动作
10 步 flow matching 去噪 → 50 步连续动作 chunk
开环执行动作

注意：高层推理用 4 个摄像头（包含前后方），低层推理只用 3 个摄像头（腕部 + 前方）。高层推理频率低于低层（不是每步都重新预测子任务）。

3.6 机器人系统

特性	详情
平台	两种移动机械臂
手臂	2 × 6 DoF + 1 DoF 夹爪
底盘	3 DoF 全向移动底盘
升降	1-2 DoF 躯干升降机构
摄像头	4 个：前方、后方、左右腕部各 1
状态/动作维度	18-19 维
控制频率	50 Hz（带 action chunking）
底层控制	简单 PD 控制器，无额外轨迹规划或碰撞检测

全端到端：从感知到操作到导航，全部由 π₀.₅ 模型直接控制。

四、实验评估

4.1 实验设计

所有实验都在训练数据中从未见过的新环境中进行：

模拟家庭：受控、可复现的定量对比
真实家庭：3 个全新真实家庭（最终评估）

核心实验问题：

能否泛化到全新家庭？
训练环境数量如何影响泛化？
各数据源的贡献有多大？
与 π₀ 的对比如何？
高层推理有多重要？

4.2 真实家庭泛化（Q1）

在 3 个全新家庭中评估厨房清理和卧室整理任务，每个任务持续 2-5 分钟。

评估任务与评分标准：

任务	描述	满分
碗碟入水池	4 件餐具放入水池	8 分（拿起 +1，放入 +1）
物品入抽屉	台面物品放入抽屉	4 分（拿起、开抽屉、放入、关抽屉各 +1）
衣物入篮	地上衣物放入洗衣篮	3 分
整理床铺	整理毯子 + 放枕头	5 分

结果：π₀.₅ 在所有 3 个真实家庭中都能持续成功完成任务。模型只收到简单的高层命令（如"把碗碟放进水池"），高层推理自主决定具体步骤（如"拿起杯子"）。模拟家庭的评估结果与真实家庭高度一致，验证了模拟评估的代表性。

4.3 环境数量缩放（Q2）

训练集中分别使用 3、12、22、53、82、104 个不同地点的数据：

关键发现：

泛化性能随环境数量稳步提升
104 个训练环境的模型性能接近直接在测试环境上训练的模型
不使用完整协同训练配方的模型（即使包含测试环境数据）性能显著更差
语言跟随能力（尤其是 OOD 物体）也随环境数量提升

4.4 数据源消融（Q3）

消融	端到端任务性能	语言跟随（ID）	语言跟随（OOD）
完整 π₀.₅	最高	最高	最高
no WD（去除网络数据）	无显著差异	略降	显著下降
no CE（去除实验室跨构型数据）	显著下降 (p<0.001)	显著下降	显著下降
no ME（去除多环境非移动数据）	显著下降 (p<0.001)	显著下降	显著下降
no CE or ME（同时去除）	大幅下降 (p<0.001)	大幅下降	大幅下降

关键发现：

跨构型数据至关重要：即使来自不同机器人（非移动臂），也能显著提升移动机械臂在新环境的性能
网络数据主要影响语义泛化：对 OOD 物体的语言跟随影响最大（帮助模型理解从未见过的物体类别）
两种跨构型数据的作用不同：ME 提供环境多样性，CE 提供任务多样性，缺一不可

4.5 与 π₀ 对比（Q4）

对比三个模型：π₀.₅、π₀-FAST+Flow（使用混合训练但无 HL/WD）、π₀（原始版本）：

结果：π₀.₅ 在所有四个测试任务（碗碟入水池、物品入抽屉、衣物入篮、整理床铺）上显著优于 π₀ 和 π₀-FAST+Flow。即使 π₀ 训练到 300k 步（远超标准训练），仍不如 π₀.₅ 80k 步后训练的表现。这验证了：

FAST 离散 token 预训练 + Flow Matching 后训练的混合策略效率更高
协同训练配方（HL + WD）带来的增益不可替代

4.6 高层推理消融（Q5）

方法	描述	平均任务进度
π₀.₅（完整）	同一模型做高层+低层推理	最高（~80%）
implicit HL	训练包含 HL 数据但推理时不做高层推理	第二（~70%）
no HL	训练和推理都不包含高层	显著更低（~55%）
no VI	去除口头指令数据	显著更低
no WD	去除网络数据	显著更低
GPT-4 HL	用 GPT-4 做高层策略	最低（~40%）
human HL	人类专家做高层策略（oracle）	稍低于完整 π₀.₅

最令人惊讶的发现：

π₀.₅ 超越了人类 oracle 高层策略——因为模型的高层和低层是联合训练的，形成了更好的协同
implicit HL（不推理但训练时见过 HL 数据）排名第二——说明即使不显式做高层推理，协同训练配方中的子任务预测数据也能让模型隐式地学到任务分解能力
零样本 GPT-4 做高层策略效果最差——说明必须用机器人数据 fine-tune 高层策略，通用 VLM 不够
VI 口头指令数据仅占 11% 但至关重要——高质量的人类高层决策示范价值极高

五、核心原理类比

类比一：厨师培训（承接 π₀ 的类比）

π₀：从全世界厨房实习回来的全能厨师，能做各种菜，但被分配到一个完全陌生的厨房时，可能找不到东西、不熟悉灶台布局。

π₀.₅：同一个厨师，但培训方式升级了——

看了大量美食节目和菜谱（网络多模态数据 WD）→ 知道"碗碟应该放水池里"这样的常识
在不同厨房的台面上做过简单菜（多环境非移动数据 ME）→ 适应各种环境布局
在培训学校系统学过各种菜系（实验室跨构型数据 CE）→ 有扎实的基本功
有一个高级主厨口头指导他做过复杂宴席（口头指令 VI）→ 知道复杂任务该先做什么后做什么
自己形成了一个"先想菜单，再动手做"的习惯（分层推理）→ 接到"做一桌晚餐"的指令时，先想好"先做冷盘、再做热菜、最后做甜点"，然后依次执行

类比二：离散 + 连续动作的设计

想象你学打字：

学习阶段用拼音输入法（FAST 离散 token）——虽然慢，但学习过程简单明确，容易掌握
实际工作切换到五笔输入法（Flow Matching 连续动作）——更快更流畅，适合实时使用

π₀.₅ 的两阶段训练正是如此：用简单高效的方式学到知识，再用高性能的方式应用知识。

六、局限性与未来方向

6.1 仍会犯错

某些环境持续困难（如不熟悉的抽屉把手、物理上难以打开的柜门）
部分可观测性问题（如机械臂遮挡了需要擦拭的污渍）
高层推理偶尔"分心"（如反复开关抽屉）

6.2 指令复杂度受限

当前只能处理相对简单的提示。更复杂的用户偏好和指令需要更丰富、更多样的训练标注（可用人工或合成数据）。

6.3 上下文和记忆不足

模型使用较短的上下文窗口，不具备跨房间记忆能力。如果需要"先去厨房拿碗再回卧室"，或"记住物品存放位置"，需要更丰富的上下文和记忆机制。

6.4 数据来源可进一步扩展

π₀.₅ 探索了特定的数据组合，但还有更多可能性。例如：口头指令这种监督方式非常强大，未来可以探索更多人类向机器人提供上下文知识的方式。

七、个人思考

7.1 数据配方的重要性超越模型架构

π₀.₅ 的架构变化相对于 π₀ 并不大（主要是离散+连续训练和分层推理），但泛化性能的飞跃主要来自精心设计的数据配方。这说明在 VLA 领域，数据工程可能比模型工程更重要。97.6% 的预训练数据不是来自目标机器人，但这些"间接经验"是泛化的关键。

7.2 口头指令是一种高效的监督信号

VI 数据仅占 11% 但影响巨大。用语言"遥操作"比物理遥操作成本低得多，却能提供高层决策的高质量示范。这暗示未来机器人数据收集可能转向更高层的、语言化的监督方式。

7.3 "隐式学到的能力"值得关注

implicit HL 实验表明，模型不需要在推理时显式做高层推理，仅仅在训练数据中包含子任务预测就能提升性能。这说明多任务协同训练的好处可能比我们想象的更深——它不只是教模型做新任务，而是改善了模型内部的表征。

7.4 GPT-4 做高层策略反而最差

这个结果非常有启发性。尽管 GPT-4 有强大的语言理解和常识推理能力，但缺乏对物理交互的接地理解（grounding），不知道机器人能做什么、当前场景下什么操作是可行的。这再次强调了 VLA 必须在机器人数据上训练的必要性。

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

π₀.₅：基于异构数据协同训练的开放世界泛化 VLA 模型——原理详解 ​

一句话总结 ​

一、论文要解决什么问题？ ​

1.1 从"实验室泛化"到"开放世界泛化" ​

1.2 核心洞察：人类靠"杂学"泛化 ​

1.3 与 π₀ 的核心区别 ​

二、预备知识 ​

2.1 VLA 基础回顾（承接 π₀） ​

2.2 FAST Action Tokenizer ​

2.3 Flow Matching（承接 π₀） ​

2.4 分层策略（Hierarchical Policy） ​

三、方法论详解 ​

3.1 模型架构 ​

3.1.1 统一的多模态模型 ​

3.1.2 Transformer 架构与双专家设计 ​

3.1.3 注意力掩码设计 ​

3.1.4 与 π₀ 时间步处理的差异 ​

3.2 离散与连续动作的统一训练 ​

3.3 异构数据协同训练 ​

3.3.1 预训练阶段数据组成 ​

3.3.2 高层子任务预测（HL）的详细设计 ​

3.3.3 后训练阶段数据调整 ​

3.3.4 口头指令数据（VI） ​

3.4 预训练与后训练 ​

3.4.1 预训练 ​

3.4.2 后训练 ​

3.5 推理流程 ​

3.6 机器人系统 ​

四、实验评估 ​

4.1 实验设计 ​

4.2 真实家庭泛化（Q1） ​

4.3 环境数量缩放（Q2） ​

4.4 数据源消融（Q3） ​

4.5 与 π₀ 对比（Q4） ​

4.6 高层推理消融（Q5） ​

五、核心原理类比 ​

类比一：厨师培训（承接 π₀ 的类比） ​

类比二：离散 + 连续动作的设计 ​

六、局限性与未来方向 ​

6.1 仍会犯错 ​

6.2 指令复杂度受限 ​

6.3 上下文和记忆不足 ​

6.4 数据来源可进一步扩展 ​

七、个人思考 ​

7.1 数据配方的重要性超越模型架构 ​

7.2 口头指令是一种高效的监督信号 ​

7.3 "隐式学到的能力"值得关注 ​

7.4 GPT-4 做高层策略反而最差 ​

参考 ​