PTR:基于后验-转移重加权的保守离线 VLA 后训练
论文:Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting
作者:Wanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu
机构:北京大学、清华大学、BeingBeyond
发布时间:2026年3月
一句话总结
PTR 提出一种无需奖励的保守离线后训练方法:通过将每个样本的动作后果(post-action observation)编码为 latent target,在候选池中执行 identification test,用后验概率与均匀分布的比值作为 PTR score,经指数化、裁剪和混合映射为保守权重,重新缩放监督动作损失,从而在异构机器人数据中自动提升高质量样本权重、抑制次优或冲突数据,兼容 diffusion 和 flow-matching 动作头。
二、问题与动机
2.1 数据异质性是离线后训练的核心挑战
大规模机器人数据集混合了不同的:
- 构型(embodiment):不同运动学、自由度
- 相机设置:固定/移动、自我中心/第三人称
- 操作员技能:从专家到新手,包含恢复行为、犹豫动作
- 控制延迟和标注质量
标准 SFT 对所有样本施加均匀权重,会在冲突或低质量数据上"求平均",产生次优策略。
2.2 现有方法的局限
| 方法类别 | 代表工作 | 局限 |
|---|---|---|
| 均匀 SFT | OpenVLA, | 对异质数据不区分 |
| 带 reward 的 RL | SimpleVLA-RL, VLA-RL | 需要奖励信号或在线交互 |
| Advantage-Weighted Regression | AWR, RWR, MPO | 需要可计算的策略似然,不兼容 diffusion/flow 动作头 |
| Reward-conditioned | Decision Transformer | 条件化回报而非重加权,需要 return 标注 |
2.3 PTR 的核心 Insight
离线数据集不仅记录了动作,还记录了动作之后发生了什么。PTR 将这一观测转化为一个 identification test:给定当前表征和动作,能否从一组候选后果中识别出真实的 post-action observation?
- 集中的后验 → 高质量样本:动作-后果链路清晰,给予更高权重
- 分散的后验 → 低质量样本:恢复行为/噪声数据/跨构型冲突,权重回退至均匀或更低
- 无需奖励标注、无需策略似然、无需在线交互
三、预备知识
3.1 VLA 后训练数据格式
每个样本是五元组
3.2 统一动作空间
PTR 基于 Being-H0.5 的 200 维统一动作空间,不同构型机器人的相似运动组件占据相同语义槽位,使跨构型的 identification 信号有意义。
3.3 Flow-Matching 动作头
标准后训练目标:
其中 flow-matching loss 为:
PTR 不改变这个损失函数本身,只改变每个样本对损失的贡献权重。
四、核心方法
4.1 BeliefTokenizer:交互历史的紧凑编码
PTR 维护
每个 chunk 的前向传播:
- 计算 backbone 隐状态和上下文:
- 计算动作通道 token:
, - 更新 belief token:
Soft causal tokenization:将
然后计算 slot assignment(沿时间维归一化):
加权平均得到 belief token:
正则化:熵损失鼓励 slot 决定性分配 + 多样性损失(Gram 矩阵正交化)防止 slot 坍缩。
4.2 Posterior Transition Score:核心评分机制
Step 1:编码 post-action target
将观测到的未来帧编码为 matched target:
其中
Step 2:构建候选池
负样本来自三个来源:(i) batch 内其他样本的 target,(ii) 跨 GPU rank 聚合的 target,(iii) FIFO 队列存储的历史 target(队列大小 1024,每样本最多 64 个队列负样本)。
Step 3:计算 identification posterior
Scorer 生成 query 嵌入
定义 identification posterior:
Step 4:PTR score
后验与均匀分布的对数比值:
:后验均匀,样本回退至标准 SFT :后验集中在 matched target,高质量样本 :matched target 比平均候选更不可能,低质量/冲突样本
Action-sensitivity 正则化:防止 scorer 退化为 context-only shortcut。将 batch 内打乱的动作特征
4.3 理论基础
Proposition 1(密度比形式):Bayes 最优 scorer 的 logit 恢复密度比:
其中
Proposition 2(KL 散度极限):当候选池大小
用大白话说:动作使下一帧观测与随机候选高度可区分的样本具有大的 KL,获得高 PTR score。次优或噪声动作模糊这种区分度,得到低分或负分。
KL 正则化 tilting 产生指数权重:PTR 的权重形式
Proposition 3(跨源重加权):对混合数据
4.4 保守权重映射
PTR score → 保守权重的映射:
三层保守机制:
- 裁剪
:防止极端权重 - 混合
: 恢复标准 SFT, 完全 PTR - 自归一化加权回归:
KL 散度界:默认参数下
4.5 Adaptive Scale Controller
自适应控制三个参数以保持 identification test 在有意义的工作范围内:
| 参数 | 初始值 | 范围 | 作用 |
|---|---|---|---|
| 0.12 | [0.03, 0.20] | 控制后验锐度 | |
| 1.5 | [0.5, 3.0] | 控制权重分布展度 | |
| Hard-negative ratio | 0.0 | [0.0, 0.5] | 难负样本比例 |
监控四个 EMA 统计量:identification accuracy、score margin、mean PTR score、valid-target ratio。Scorer 不成熟时保守(增大
4.6 总训练目标
关键的梯度路由:
:阻止策略通过操纵 scorer 来提升自身权重 :EMA 目标编码器是 teacher 而非 online head :阻断跨时间步梯度,BeliefTokenizer 仅从当前步损失学习 - 保守权重仅作用于动作损失,其余项接受均匀梯度
五、实验结果
5.1 仿真基准(干净数据)
| 方法 | LIBERO Avg. | RoboCasa Avg. |
|---|---|---|
| SFT | 98.3 | 54.2 |
| SFT+Belief | 97.6 | 54.4 |
| PTR | 97.8 | 55.6 |
在干净数据上 PTR 与 SFT 接近(LIBERO 已饱和),但在 RoboCasa(更异质的厨房场景)上稳定领先 +1.4 pp。
5.2 数据损坏鲁棒性
| 损坏类型 | SFT LIBERO | PTR LIBERO | Delta | SFT RoboCasa | PTR RoboCasa | Delta |
|---|---|---|---|---|---|---|
| Action Noise | 93.2 | 95.4 | +2.2 | 46.8 | 52.0 | +5.2 |
| Truncation | 91.6 | 94.0 | +2.4 | 44.2 | 50.4 | +6.2 |
| Label Noise | 94.8 | 96.2 | +1.4 | 48.6 | 52.6 | +4.0 |
| Combined | 85.4 | 91.0 | +5.6 | 36.4 | 45.8 | +9.4 |
PTR 的核心价值在数据质量下降时显现:Combined 损坏下 RoboCasa 提升 +9.4 pp。机制清晰:损坏样本的 post-action 后果更难识别 → 后验分散 → 权重被自然抑制。
5.3 真实机器人实验
三个构型平台:
- Unitree G1 + LinkerHand O6:26-DoF 双臂灵巧手
- PND Adam-U:31-DoF 双臂 + 头部 + 腰部
- FR3 + Inspire Hand:13-DoF 单臂灵巧手
| 方法 | Bimanual | Long-Horizon | Spatial | Robust | Overall |
|---|---|---|---|---|---|
| SFT-Specialist | 55.0 | 63.3 | 75.0 | 50.0 | 60.8 |
| PTR-Specialist | 66.7 | 61.7 | 78.3 | 61.7 | 67.1 |
| SFT-Generalist | 45.0 | 51.7 | 63.3 | 40.0 | 50.0 |
| PTR-Generalist | 60.0 | 65.0 | 73.3 | 56.7 | 63.8 |
关键发现:
- Specialist:PTR 平均 67.1% vs SFT 60.8%(+6.3 pp),Bimanual 和 Robust 各提升 +11.7 pp
- Generalist:PTR-vs-SFT 差距从 +6.3 扩大到 +13.8 pp,跨构型异质性越大 PTR 收益越大
- PTR-Generalist (65.0) 在 Long-Horizon 上超越 SFT-Specialist (63.3),说明跨构型数据在 PTR 过滤下可提供有益覆盖
5.4 消融实验
| 变体 | LIBERO Avg. | RoboCasa Avg. |
|---|---|---|
| PTR (full) | 97.8 | 55.6 |
| w/o clipping | 95.5 | 49.1 |
| w/o EMA (frozen enc.) | 95.3 | 50.2 |
| w/o refiner | 97.1 | 51.9 |
| w/o cross-rank gather | 97.0 | 54.3 |
| w/o belief tokens | 97.4 | 54.0 |
| 97.5 | 54.3 |
裁剪最关键(去掉后 RoboCasa -6.5 pp),EMA 编码器次之(-5.4 pp),验证了保守约束和稳定目标空间是 PTR 工作的前提条件。
六、局限性与未来方向
依赖 post-action observation:缺少未来帧的 chunk 回退到均匀权重(
),纯实时流式场景不适用 依赖骨干表征质量:预训练质量不足的 backbone 限制 scorer 的区分能力,PTR 回退至近均匀加权——方法的上界受限于基座模型
非策略优化算法:PTR 改善有效训练分布但不直接优化任务成功率。它是数据策展机制而非策略优化算法,与 RL 方法正交互补
identification test 假设后果可区分:当不同动作 chunk 产生极为相似的后果(如缓慢移动阶段),PTR score 趋近于零,退化为标准 SFT
超参数敏感性:
、 、 三者有明确的 sweet spot,虽然 adaptive controller 缓解了这一问题,但跨域迁移时仍可能需要调整
七、个人思考
7.1 "保守"设计哲学的价值
PTR 最核心的设计理念是宁可不加权也不错加权。三层保守机制(裁剪、混合、自归一化)确保了
7.2 与 RL 后训练方法的关系
PTR 与 RL-based VLA 后训练(SimpleVLA-RL、VLA-RL、RISE)形成互补关系:
| 维度 | PTR | RL 后训练 |
|---|---|---|
| 信号来源 | Post-action observation(数据集中已有) | 奖励函数或在线交互 |
| 交互需求 | 纯离线 | 通常需要在线交互或奖励标注 |
| 兼容动作头 | Diffusion、Flow-Matching 均可 | 部分方法需要可计算策略似然 |
| 改善目标 | 数据利用效率(谁权重更高) | 策略优化(超越数据分布) |
| 上界 | 受限于数据集中最好的样本 | 可超越数据分布 |
PTR 和 RL 原则上可以组合:先用 PTR 做高质量 SFT 初始化,再用 RL 进一步优化。
7.3 InfoNCE 与 Advantage 的类比
PTR score 的数学结构与 advantage function 高度相似——都是"相对于基线的价值估计"。但 PTR 不需要学习 value function,而是通过 contrastive identification 直接从数据中"涌现"出类似 advantage 的信号。这提示了一个更广泛的研究方向:后果可区分性是否可以作为奖励的通用替代?
7.4 跨构型迁移的选择性
Proposition 3 的形式化特别优雅:通过 moment generating function 自动决定每个数据源的有效权重。这意味着 PTR 不需要显式标注哪些跨构型数据有用——高 PTR score 的跨构型样本(后果与目标构型对齐)自然被放大,低分样本被抑制。这是一种隐式的、数据驱动的迁移学习。
7.5 与 ChatVLA 的对比
ChatVLA 用 MoE 解决 task interference(控制 vs 理解),PTR 用 identification 后验解决 data heterogeneity(高质量 vs 低质量)。两者处理的"冲突"层面不同但相关:ChatVLA 在任务层面隔离,PTR 在样本层面加权。原则上,PTR 的 reweighting 机制可以嵌入 ChatVLA 的训练流程中,在 Stage 1 的 robot data 训练阶段通过 PTR 提升数据利用效率。
参考
- Being-H0.5 — PTR 的实验基座 VLA,提供 200 维统一动作空间和跨构型预训练
- InfoNCE — PTR 的 identification posterior 直接基于 CPC 的对比学习框架
- AWR — Advantage-Weighted Regression,PTR 采用相同的指数权重形式但用无奖励的 identification score 替代 advantage
— Flow-matching VLA 基座,PTR 兼容的动作头类型之一 - Diffusion Policy — 扩散策略,PTR 兼容的另一类动作头
- MoCo — PTR 的 EMA 目标编码器设计灵感来源