PTR：基于后验-转移重加权的保守离线 VLA 后训练

论文：Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting
作者：Wanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu
机构：北京大学、清华大学、BeingBeyond
发布时间：2026年3月
链接：arXiv | 项目主页

一句话总结

PTR 提出一种无需奖励的保守离线后训练方法：通过将每个样本的动作后果（post-action observation）编码为 latent target，在候选池中执行 identification test，用后验概率与均匀分布的比值作为 PTR score，经指数化、裁剪和混合映射为保守权重，重新缩放监督动作损失，从而在异构机器人数据中自动提升高质量样本权重、抑制次优或冲突数据，兼容 diffusion 和 flow-matching 动作头。

二、问题与动机

2.1 数据异质性是离线后训练的核心挑战

大规模机器人数据集混合了不同的：

构型（embodiment）：不同运动学、自由度
相机设置：固定/移动、自我中心/第三人称
操作员技能：从专家到新手，包含恢复行为、犹豫动作
控制延迟和标注质量

标准 SFT 对所有样本施加均匀权重，会在冲突或低质量数据上"求平均"，产生次优策略。

2.2 现有方法的局限

方法类别	代表工作	局限
均匀 SFT	OpenVLA, $π_{0}$	对异质数据不区分
带 reward 的 RL	SimpleVLA-RL, VLA-RL	需要奖励信号或在线交互
Advantage-Weighted Regression	AWR, RWR, MPO	需要可计算的策略似然，不兼容 diffusion/flow 动作头
Reward-conditioned	Decision Transformer	条件化回报而非重加权，需要 return 标注

2.3 PTR 的核心 Insight

离线数据集不仅记录了动作，还记录了动作之后发生了什么。PTR 将这一观测转化为一个 identification test：给定当前表征和动作，能否从一组候选后果中识别出真实的 post-action observation？

集中的后验 → 高质量样本：动作-后果链路清晰，给予更高权重
分散的后验 → 低质量样本：恢复行为/噪声数据/跨构型冲突，权重回退至均匀或更低
无需奖励标注、无需策略似然、无需在线交互

三、预备知识

3.1 VLA 后训练数据格式

每个样本是五元组 $(o_{t}, s_{t}, l, a_{t : t + L - 1}, o_{t + Δ})$ ：视觉观测、状态、指令、动作 chunk、未来观测。推理时仅使用 $(o_{t}, s_{t}, l)$ ， $o_{t + Δ}$ 仅在训练时用于 identification test。

3.2 统一动作空间

PTR 基于 Being-H0.5 的 200 维统一动作空间，不同构型机器人的相似运动组件占据相同语义槽位，使跨构型的 identification 信号有意义。

3.3 Flow-Matching 动作头

标准后训练目标：

min_{ϕ} E_{(o_{t}, s_{t}, l, a_{t : t + L - 1}) \sim D} [ℓ_{act} (ϕ; h_{t}, s_{t}, a_{t : t + L - 1})]

其中 flow-matching loss 为：

ℓ_{act} (ϕ; h_{t}, s_{t}, a_{t : t + L - 1}) = {‖ v_{ϕ} (σ a_{t : t + L - 1} + (1 - σ) ϵ, σ, h_{t}, s_{t}) - (a_{t : t + L - 1} - ϵ) ‖}^{2}

PTR 不改变这个损失函数本身，只改变每个样本对损失的贡献权重。

四、核心方法

4.1 BeliefTokenizer：交互历史的紧凑编码

PTR 维护 $M = 4$ 个 belief proxy token $z_{t} \in R^{M \times d}$ ，附加到 backbone 输入序列中，总结 pre-action 交互历史。

每个 chunk 的前向传播：

计算 backbone 隐状态和上下文： $(H_{t}, h_{t}) = f_{ϕ} (o_{t}, l, z_{t})$
计算动作通道 token： $E_{t} = g_{ϕ} (h_{t}, s_{t}, a_{t : t + L - 1})$ ， $e_{t} = pool (E_{t})$
更新 belief token： $z_{t + 1} = sg (B (H_{t}, E_{t}))$

Soft causal tokenization：将 $L = 16$ 个 per-step 特征压缩为 $M = 4$ 个 belief token。先融合上下文和动作特征：

c_{t, i} = \tanh (W_{f} [C_{t, i}; A_{t, i}]) \in R^{d}

然后计算 slot assignment（沿时间维归一化）：

π_{t, i, m} = \frac{\exp (ξ_{t, i, m} / τ_{tok})}{\sum_{j = 1}^{L} \exp (ξ_{t, j, m} / τ_{tok})}

加权平均得到 belief token： $z_{t + 1, m} = \sum_{i = 1}^{L} π_{t, i, m} c_{t, i}$

正则化：熵损失鼓励 slot 决定性分配 + 多样性损失（Gram 矩阵正交化）防止 slot 坍缩。

4.2 Posterior Transition Score：核心评分机制

Step 1：编码 post-action target

将观测到的未来帧编码为 matched target： $y_{t, 0}^{+} = sg (g (o_{t + Δ}))$

其中 $g$ 是 EMA 目标编码器（复用 InternViT-300M 第 12 层，衰减 $μ = 0.999$ ），所有 target 做 L2 归一化。

Step 2：构建候选池

Y_{t} = {y_{t, 0}^{+}} \cup Y_{t}^{-}

负样本来自三个来源：(i) batch 内其他样本的 target，(ii) 跨 GPU rank 聚合的 target，(iii) FIFO 队列存储的历史 target（队列大小 1024，每样本最多 64 个队列负样本）。

Step 3：计算 identification posterior

Scorer 生成 query 嵌入 $u_{t} = f (h_{t}, e_{t})$ ，对每个候选计算余弦相似度 logit：

d_{t, i} = \frac{⟨ norm (u_{t}), norm (y_{t, i}) ⟩}{τ_{score}}

定义 identification posterior：

\hat{p} (I_{t} = 0 ∣ h_{t}, e_{t}, Y_{t}) = \frac{\exp (d_{t, 0})}{\sum_{j = 0}^{K} \exp (d_{t, j})}

Step 4：PTR score

后验与均匀分布的对数比值：

T_{t} ≜ \log \frac{\hat{p} (I_{t} = 0 ∣ h_{t}, e_{t}, Y_{t})}{1 / | Y_{t} |}

$T_{t} = 0$ ：后验均匀，样本回退至标准 SFT
$T_{t} > 0$ ：后验集中在 matched target，高质量样本
$T_{t} < 0$ ：matched target 比平均候选更不可能，低质量/冲突样本

Action-sensitivity 正则化：防止 scorer 退化为 context-only shortcut。将 batch 内打乱的动作特征 ${\tilde{e}}_{t}$ 代入得到 $u_{t}^{-}$ ，用排序损失确保真实动作的 logit 高于打乱后的：

L_{rank} (θ) = - E_{t} [\log σ (d_{t, 0}^{+} - d_{t, 0}^{-})]

4.3 理论基础

Proposition 1（密度比形式）：Bayes 最优 scorer 的 logit 恢复密度比：

s^{⋆} (h, e, y) = \log \frac{p (y ∣ h, e)}{p_{N} (y ∣ h)} + b (h, e)

其中 $b (h, e)$ 不依赖于 $y$ ，在 softmax 中被消去。

Proposition 2（KL 散度极限）：当候选池大小 $K \to \infty$ ，PTR score 的期望收敛到正向与负向 target 分布的 KL 散度：

E [T^{⋆} ∣ h, e] ⟶ KL (p_{+} ∥ p_{-})

用大白话说：动作使下一帧观测与随机候选高度可区分的样本具有大的 KL，获得高 PTR score。次优或噪声动作模糊这种区分度，得到低分或负分。

KL 正则化 tilting 产生指数权重：PTR 的权重形式 $w_{t} = \exp (T_{t} / β)$ 是以下 KL 正则化目标的最优解：

max_{q ≪ p_{D}} E_{x \sim q} [J (x)] - β KL (q ∥ p_{D})

Proposition 3（跨源重加权）：对混合数据 $p_{D} (x) = \sum_{m} π_{m} p_{m} (x)$ ，指数 tilting 后各源的有效比例正比于其 moment generating function $E_{p_{m}} [\exp (T_{t} / β)]$ 。高分源被放大，低分源被抑制。

4.4 保守权重映射

PTR score → 保守权重的映射：

w_{t} := 1 + α ({clip}_{[w_{min}, w_{max}]} (\exp (T_{t} / β)) - 1), α \in [0, 1]

三层保守机制：

裁剪 $[w_{min}, w_{max}] = [0.25, 4.0]$ ：防止极端权重
混合 $α \in [0, 1]$ ： $α = 0$ 恢复标准 SFT， $α = 1$ 完全 PTR
自归一化加权回归： $L_{act}^{⋆} = \frac{\sum_{t} sg (w_{t}) ℓ_{act}}{\sum_{t} sg (w_{t})}$

KL 散度界：默认参数下 $KL (q ∥ p_{D}) \leq \log 16 \approx 2.77$ nats。无论 score 函数如何极端，induced 分布永远不会偏离原始数据分布太远——这是 PTR 被称为"保守"的形式化理由。

4.5 Adaptive Scale Controller

自适应控制三个参数以保持 identification test 在有意义的工作范围内：

参数	初始值	范围	作用
$τ_{score}$	0.12	[0.03, 0.20]	控制后验锐度
$β$	1.5	[0.5, 3.0]	控制权重分布展度
Hard-negative ratio	0.0	[0.0, 0.5]	难负样本比例

监控四个 EMA 统计量：identification accuracy、score margin、mean PTR score、valid-target ratio。Scorer 不成熟时保守（增大 $τ$ 和 $β$ ），成熟后锐化（减小两者并增加 hard negatives）。

4.6 总训练目标

L_{total} = L_{act}^{⋆} + λ_{id} L_{id} + λ_{rank} L_{rank} + L_{tok}

关键的梯度路由：

$sg (w_{t})$ ：阻止策略通过操纵 scorer 来提升自身权重
$sg (g (\cdot))$ ：EMA 目标编码器是 teacher 而非 online head
$sg (z_{t + 1})$ ：阻断跨时间步梯度，BeliefTokenizer 仅从当前步损失学习
保守权重仅作用于动作损失，其余项接受均匀梯度

五、实验结果

5.1 仿真基准（干净数据）

方法	LIBERO Avg.	RoboCasa Avg.
SFT	98.3	54.2
SFT+Belief	97.6	54.4
PTR	97.8	55.6

在干净数据上 PTR 与 SFT 接近（LIBERO 已饱和），但在 RoboCasa（更异质的厨房场景）上稳定领先 +1.4 pp。

5.2 数据损坏鲁棒性

损坏类型	SFT LIBERO	PTR LIBERO	Delta	SFT RoboCasa	PTR RoboCasa	Delta
Action Noise	93.2	95.4	+2.2	46.8	52.0	+5.2
Truncation	91.6	94.0	+2.4	44.2	50.4	+6.2
Label Noise	94.8	96.2	+1.4	48.6	52.6	+4.0
Combined	85.4	91.0	+5.6	36.4	45.8	+9.4

PTR 的核心价值在数据质量下降时显现：Combined 损坏下 RoboCasa 提升 +9.4 pp。机制清晰：损坏样本的 post-action 后果更难识别 → 后验分散 → 权重被自然抑制。

5.3 真实机器人实验

三个构型平台：

Unitree G1 + LinkerHand O6：26-DoF 双臂灵巧手
PND Adam-U：31-DoF 双臂 + 头部 + 腰部
FR3 + Inspire Hand：13-DoF 单臂灵巧手

方法	Bimanual	Long-Horizon	Spatial	Robust	Overall
SFT-Specialist	55.0	63.3	75.0	50.0	60.8
PTR-Specialist	66.7	61.7	78.3	61.7	67.1
SFT-Generalist	45.0	51.7	63.3	40.0	50.0
PTR-Generalist	60.0	65.0	73.3	56.7	63.8

关键发现：

Specialist：PTR 平均 67.1% vs SFT 60.8%（+6.3 pp），Bimanual 和 Robust 各提升 +11.7 pp
Generalist：PTR-vs-SFT 差距从 +6.3 扩大到 +13.8 pp，跨构型异质性越大 PTR 收益越大
PTR-Generalist (65.0) 在 Long-Horizon 上超越 SFT-Specialist (63.3)，说明跨构型数据在 PTR 过滤下可提供有益覆盖

5.4 消融实验

变体	LIBERO Avg.	RoboCasa Avg.
PTR (full)	97.8	55.6
w/o clipping	95.5	49.1
w/o EMA (frozen enc.)	95.3	50.2
w/o refiner	97.1	51.9
w/o cross-rank gather	97.0	54.3
w/o belief tokens	97.4	54.0
$α = 0$ (SFT+Belief)	97.5	54.3

裁剪最关键（去掉后 RoboCasa -6.5 pp），EMA 编码器次之（-5.4 pp），验证了保守约束和稳定目标空间是 PTR 工作的前提条件。

六、局限性与未来方向

依赖 post-action observation：缺少未来帧的 chunk 回退到均匀权重（ $w_{t} = 1$ ），纯实时流式场景不适用
依赖骨干表征质量：预训练质量不足的 backbone 限制 scorer 的区分能力，PTR 回退至近均匀加权——方法的上界受限于基座模型
非策略优化算法：PTR 改善有效训练分布但不直接优化任务成功率。它是数据策展机制而非策略优化算法，与 RL 方法正交互补
identification test 假设后果可区分：当不同动作 chunk 产生极为相似的后果（如缓慢移动阶段），PTR score 趋近于零，退化为标准 SFT
超参数敏感性： $τ_{score}$ 、 $β$ 、 $w_{max}$ 三者有明确的 sweet spot，虽然 adaptive controller 缓解了这一问题，但跨域迁移时仍可能需要调整

七、个人思考

7.1 "保守"设计哲学的价值

PTR 最核心的设计理念是宁可不加权也不错加权。三层保守机制（裁剪、混合、自归一化）确保了 $KL (q ∥ p_{D}) \leq 2.77$ nats 的严格界。这意味着即使 scorer 完全失效，PTR 也只是退化为标准 SFT 而非产生灾难性结果。这种"最坏情况等于基线"的特性在真实部署中极有价值。

7.2 与 RL 后训练方法的关系

PTR 与 RL-based VLA 后训练（SimpleVLA-RL、VLA-RL、RISE）形成互补关系：

维度	PTR	RL 后训练
信号来源	Post-action observation（数据集中已有）	奖励函数或在线交互
交互需求	纯离线	通常需要在线交互或奖励标注
兼容动作头	Diffusion、Flow-Matching 均可	部分方法需要可计算策略似然
改善目标	数据利用效率（谁权重更高）	策略优化（超越数据分布）
上界	受限于数据集中最好的样本	可超越数据分布

PTR 和 RL 原则上可以组合：先用 PTR 做高质量 SFT 初始化，再用 RL 进一步优化。

7.3 InfoNCE 与 Advantage 的类比

PTR score 的数学结构与 advantage function 高度相似——都是"相对于基线的价值估计"。但 PTR 不需要学习 value function，而是通过 contrastive identification 直接从数据中"涌现"出类似 advantage 的信号。这提示了一个更广泛的研究方向：后果可区分性是否可以作为奖励的通用替代？

7.4 跨构型迁移的选择性

Proposition 3 的形式化特别优雅：通过 moment generating function 自动决定每个数据源的有效权重。这意味着 PTR 不需要显式标注哪些跨构型数据有用——高 PTR score 的跨构型样本（后果与目标构型对齐）自然被放大，低分样本被抑制。这是一种隐式的、数据驱动的迁移学习。

7.5 与 ChatVLA 的对比

ChatVLA 用 MoE 解决 task interference（控制 vs 理解），PTR 用 identification 后验解决 data heterogeneity（高质量 vs 低质量）。两者处理的"冲突"层面不同但相关：ChatVLA 在任务层面隔离，PTR 在样本层面加权。原则上，PTR 的 reweighting 机制可以嵌入 ChatVLA 的训练流程中，在 Stage 1 的 robot data 训练阶段通过 PTR 提升数据利用效率。

参考

Being-H0.5 — PTR 的实验基座 VLA，提供 200 维统一动作空间和跨构型预训练
InfoNCE — PTR 的 identification posterior 直接基于 CPC 的对比学习框架
AWR — Advantage-Weighted Regression，PTR 采用相同的指数权重形式但用无奖励的 identification score 替代 advantage
$π_{0}$ — Flow-matching VLA 基座，PTR 兼容的动作头类型之一
Diffusion Policy — 扩散策略，PTR 兼容的另一类动作头
MoCo — PTR 的 EMA 目标编码器设计灵感来源

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

PTR：基于后验-转移重加权的保守离线 VLA 后训练 ​

一句话总结 ​

二、问题与动机 ​

2.1 数据异质性是离线后训练的核心挑战 ​

2.2 现有方法的局限 ​

2.3 PTR 的核心 Insight ​

三、预备知识 ​

3.1 VLA 后训练数据格式 ​

3.2 统一动作空间 ​

3.3 Flow-Matching 动作头 ​

四、核心方法 ​

4.1 BeliefTokenizer：交互历史的紧凑编码 ​

4.2 Posterior Transition Score：核心评分机制 ​

4.3 理论基础 ​

4.4 保守权重映射 ​

4.5 Adaptive Scale Controller ​

4.6 总训练目标 ​

五、实验结果 ​

5.1 仿真基准（干净数据） ​

5.2 数据损坏鲁棒性 ​

5.3 真实机器人实验 ​

5.4 消融实验 ​

六、局限性与未来方向 ​

七、个人思考 ​

7.1 "保守"设计哲学的价值 ​

7.2 与 RL 后训练方法的关系 ​

7.3 InfoNCE 与 Advantage 的类比 ​

7.4 跨构型迁移的选择性 ​

7.5 与 ChatVLA 的对比 ​

参考 ​