Skip to content

PTR:基于后验-转移重加权的保守离线 VLA 后训练

论文Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

作者:Wanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu

机构:北京大学、清华大学、BeingBeyond

发布时间:2026年3月

链接arXiv | 项目主页


一句话总结

PTR 提出一种无需奖励的保守离线后训练方法:通过将每个样本的动作后果(post-action observation)编码为 latent target,在候选池中执行 identification test,用后验概率与均匀分布的比值作为 PTR score,经指数化、裁剪和混合映射为保守权重,重新缩放监督动作损失,从而在异构机器人数据中自动提升高质量样本权重、抑制次优或冲突数据,兼容 diffusion 和 flow-matching 动作头。


二、问题与动机

2.1 数据异质性是离线后训练的核心挑战

大规模机器人数据集混合了不同的:

  • 构型(embodiment):不同运动学、自由度
  • 相机设置:固定/移动、自我中心/第三人称
  • 操作员技能:从专家到新手,包含恢复行为、犹豫动作
  • 控制延迟和标注质量

标准 SFT 对所有样本施加均匀权重,会在冲突或低质量数据上"求平均",产生次优策略。

2.2 现有方法的局限

方法类别代表工作局限
均匀 SFTOpenVLA, π0对异质数据不区分
带 reward 的 RLSimpleVLA-RL, VLA-RL需要奖励信号或在线交互
Advantage-Weighted RegressionAWR, RWR, MPO需要可计算的策略似然,不兼容 diffusion/flow 动作头
Reward-conditionedDecision Transformer条件化回报而非重加权,需要 return 标注

2.3 PTR 的核心 Insight

离线数据集不仅记录了动作,还记录了动作之后发生了什么。PTR 将这一观测转化为一个 identification test:给定当前表征和动作,能否从一组候选后果中识别出真实的 post-action observation?

  • 集中的后验 → 高质量样本:动作-后果链路清晰,给予更高权重
  • 分散的后验 → 低质量样本:恢复行为/噪声数据/跨构型冲突,权重回退至均匀或更低
  • 无需奖励标注、无需策略似然、无需在线交互

三、预备知识

3.1 VLA 后训练数据格式

每个样本是五元组 (ot,st,l,at:t+L1,ot+Δ):视觉观测、状态、指令、动作 chunk、未来观测。推理时仅使用 (ot,st,l)ot+Δ 仅在训练时用于 identification test。

3.2 统一动作空间

PTR 基于 Being-H0.5 的 200 维统一动作空间,不同构型机器人的相似运动组件占据相同语义槽位,使跨构型的 identification 信号有意义。

3.3 Flow-Matching 动作头

标准后训练目标:

minϕE(ot,st,l,at:t+L1)D[act(ϕ;ht,st,at:t+L1)]

其中 flow-matching loss 为:

act(ϕ;ht,st,at:t+L1)=vϕ(σat:t+L1+(1σ)ϵ,σ,ht,st)(at:t+L1ϵ)2

PTR 不改变这个损失函数本身,只改变每个样本对损失的贡献权重


四、核心方法

4.1 BeliefTokenizer:交互历史的紧凑编码

PTR 维护 M=4 个 belief proxy token ztRM×d,附加到 backbone 输入序列中,总结 pre-action 交互历史。

每个 chunk 的前向传播:

  1. 计算 backbone 隐状态和上下文:(Ht,ht)=fϕ(ot,l,zt)
  2. 计算动作通道 token:Et=gϕ(ht,st,at:t+L1)et=pool(Et)
  3. 更新 belief token:zt+1=sg(B(Ht,Et))

Soft causal tokenization:将 L=16 个 per-step 特征压缩为 M=4 个 belief token。先融合上下文和动作特征:

ct,i=tanh(Wf[Ct,i;At,i])Rd

然后计算 slot assignment(沿时间维归一化):

πt,i,m=exp(ξt,i,m/τtok)j=1Lexp(ξt,j,m/τtok)

加权平均得到 belief token:zt+1,m=i=1Lπt,i,mct,i

正则化:熵损失鼓励 slot 决定性分配 + 多样性损失(Gram 矩阵正交化)防止 slot 坍缩。

4.2 Posterior Transition Score:核心评分机制

Step 1:编码 post-action target

将观测到的未来帧编码为 matched target:yt,0+=sg(g(ot+Δ))

其中 g 是 EMA 目标编码器(复用 InternViT-300M 第 12 层,衰减 μ=0.999),所有 target 做 L2 归一化。

Step 2:构建候选池

Yt={yt,0+}Yt

负样本来自三个来源:(i) batch 内其他样本的 target,(ii) 跨 GPU rank 聚合的 target,(iii) FIFO 队列存储的历史 target(队列大小 1024,每样本最多 64 个队列负样本)。

Step 3:计算 identification posterior

Scorer 生成 query 嵌入 ut=f(ht,et),对每个候选计算余弦相似度 logit:

dt,i=norm(ut),norm(yt,i)τscore

定义 identification posterior:

p^(It=0ht,et,Yt)=exp(dt,0)j=0Kexp(dt,j)

Step 4:PTR score

后验与均匀分布的对数比值:

Ttlogp^(It=0ht,et,Yt)1/|Yt|
  • Tt=0:后验均匀,样本回退至标准 SFT
  • Tt>0:后验集中在 matched target,高质量样本
  • Tt<0:matched target 比平均候选更不可能,低质量/冲突样本

Action-sensitivity 正则化:防止 scorer 退化为 context-only shortcut。将 batch 内打乱的动作特征 e~t 代入得到 ut,用排序损失确保真实动作的 logit 高于打乱后的:

Lrank(θ)=Et[logσ(dt,0+dt,0)]

4.3 理论基础

Proposition 1(密度比形式):Bayes 最优 scorer 的 logit 恢复密度比:

s(h,e,y)=logp(yh,e)pN(yh)+b(h,e)

其中 b(h,e) 不依赖于 y,在 softmax 中被消去。

Proposition 2(KL 散度极限):当候选池大小 K,PTR score 的期望收敛到正向与负向 target 分布的 KL 散度:

E[Th,e]KL(p+p)

用大白话说:动作使下一帧观测与随机候选高度可区分的样本具有大的 KL,获得高 PTR score。次优或噪声动作模糊这种区分度,得到低分或负分。

KL 正则化 tilting 产生指数权重:PTR 的权重形式 wt=exp(Tt/β) 是以下 KL 正则化目标的最优解:

maxqpDExq[J(x)]βKL(qpD)

Proposition 3(跨源重加权):对混合数据 pD(x)=mπmpm(x),指数 tilting 后各源的有效比例正比于其 moment generating function Epm[exp(Tt/β)]。高分源被放大,低分源被抑制。

4.4 保守权重映射

PTR score → 保守权重的映射:

wt:=1+α(clip[wmin,wmax](exp(Tt/β))1),α[0,1]

三层保守机制:

  • 裁剪 [wmin,wmax]=[0.25,4.0]:防止极端权重
  • 混合 α[0,1]α=0 恢复标准 SFT,α=1 完全 PTR
  • 自归一化加权回归Lact=tsg(wt)acttsg(wt)

KL 散度界:默认参数下 KL(qpD)log162.77 nats。无论 score 函数如何极端,induced 分布永远不会偏离原始数据分布太远——这是 PTR 被称为"保守"的形式化理由。

4.5 Adaptive Scale Controller

自适应控制三个参数以保持 identification test 在有意义的工作范围内:

参数初始值范围作用
τscore0.12[0.03, 0.20]控制后验锐度
β1.5[0.5, 3.0]控制权重分布展度
Hard-negative ratio0.0[0.0, 0.5]难负样本比例

监控四个 EMA 统计量:identification accuracy、score margin、mean PTR score、valid-target ratio。Scorer 不成熟时保守(增大 τβ),成熟后锐化(减小两者并增加 hard negatives)。

4.6 总训练目标

Ltotal=Lact+λidLid+λrankLrank+Ltok

关键的梯度路由:

  • sg(wt):阻止策略通过操纵 scorer 来提升自身权重
  • sg(g()):EMA 目标编码器是 teacher 而非 online head
  • sg(zt+1):阻断跨时间步梯度,BeliefTokenizer 仅从当前步损失学习
  • 保守权重仅作用于动作损失,其余项接受均匀梯度

五、实验结果

5.1 仿真基准(干净数据)

方法LIBERO Avg.RoboCasa Avg.
SFT98.354.2
SFT+Belief97.654.4
PTR97.855.6

在干净数据上 PTR 与 SFT 接近(LIBERO 已饱和),但在 RoboCasa(更异质的厨房场景)上稳定领先 +1.4 pp。

5.2 数据损坏鲁棒性

损坏类型SFT LIBEROPTR LIBERODeltaSFT RoboCasaPTR RoboCasaDelta
Action Noise93.295.4+2.246.852.0+5.2
Truncation91.694.0+2.444.250.4+6.2
Label Noise94.896.2+1.448.652.6+4.0
Combined85.491.0+5.636.445.8+9.4

PTR 的核心价值在数据质量下降时显现:Combined 损坏下 RoboCasa 提升 +9.4 pp。机制清晰:损坏样本的 post-action 后果更难识别 → 后验分散 → 权重被自然抑制。

5.3 真实机器人实验

三个构型平台:

  • Unitree G1 + LinkerHand O6:26-DoF 双臂灵巧手
  • PND Adam-U:31-DoF 双臂 + 头部 + 腰部
  • FR3 + Inspire Hand:13-DoF 单臂灵巧手
方法BimanualLong-HorizonSpatialRobustOverall
SFT-Specialist55.063.375.050.060.8
PTR-Specialist66.761.778.361.767.1
SFT-Generalist45.051.763.340.050.0
PTR-Generalist60.065.073.356.763.8

关键发现:

  • Specialist:PTR 平均 67.1% vs SFT 60.8%(+6.3 pp),Bimanual 和 Robust 各提升 +11.7 pp
  • Generalist:PTR-vs-SFT 差距从 +6.3 扩大到 +13.8 pp,跨构型异质性越大 PTR 收益越大
  • PTR-Generalist (65.0) 在 Long-Horizon 上超越 SFT-Specialist (63.3),说明跨构型数据在 PTR 过滤下可提供有益覆盖

5.4 消融实验

变体LIBERO Avg.RoboCasa Avg.
PTR (full)97.855.6
w/o clipping95.549.1
w/o EMA (frozen enc.)95.350.2
w/o refiner97.151.9
w/o cross-rank gather97.054.3
w/o belief tokens97.454.0
α=0 (SFT+Belief)97.554.3

裁剪最关键(去掉后 RoboCasa -6.5 pp),EMA 编码器次之(-5.4 pp),验证了保守约束和稳定目标空间是 PTR 工作的前提条件。


六、局限性与未来方向

  1. 依赖 post-action observation:缺少未来帧的 chunk 回退到均匀权重(wt=1),纯实时流式场景不适用

  2. 依赖骨干表征质量:预训练质量不足的 backbone 限制 scorer 的区分能力,PTR 回退至近均匀加权——方法的上界受限于基座模型

  3. 非策略优化算法:PTR 改善有效训练分布但不直接优化任务成功率。它是数据策展机制而非策略优化算法,与 RL 方法正交互补

  4. identification test 假设后果可区分:当不同动作 chunk 产生极为相似的后果(如缓慢移动阶段),PTR score 趋近于零,退化为标准 SFT

  5. 超参数敏感性τscoreβwmax 三者有明确的 sweet spot,虽然 adaptive controller 缓解了这一问题,但跨域迁移时仍可能需要调整


七、个人思考

7.1 "保守"设计哲学的价值

PTR 最核心的设计理念是宁可不加权也不错加权。三层保守机制(裁剪、混合、自归一化)确保了 KL(qpD)2.77 nats 的严格界。这意味着即使 scorer 完全失效,PTR 也只是退化为标准 SFT 而非产生灾难性结果。这种"最坏情况等于基线"的特性在真实部署中极有价值。

7.2 与 RL 后训练方法的关系

PTR 与 RL-based VLA 后训练(SimpleVLA-RLVLA-RLRISE)形成互补关系:

维度PTRRL 后训练
信号来源Post-action observation(数据集中已有)奖励函数或在线交互
交互需求纯离线通常需要在线交互或奖励标注
兼容动作头Diffusion、Flow-Matching 均可部分方法需要可计算策略似然
改善目标数据利用效率(谁权重更高)策略优化(超越数据分布)
上界受限于数据集中最好的样本可超越数据分布

PTR 和 RL 原则上可以组合:先用 PTR 做高质量 SFT 初始化,再用 RL 进一步优化。

7.3 InfoNCE 与 Advantage 的类比

PTR score 的数学结构与 advantage function 高度相似——都是"相对于基线的价值估计"。但 PTR 不需要学习 value function,而是通过 contrastive identification 直接从数据中"涌现"出类似 advantage 的信号。这提示了一个更广泛的研究方向:后果可区分性是否可以作为奖励的通用替代?

7.4 跨构型迁移的选择性

Proposition 3 的形式化特别优雅:通过 moment generating function 自动决定每个数据源的有效权重。这意味着 PTR 不需要显式标注哪些跨构型数据有用——高 PTR score 的跨构型样本(后果与目标构型对齐)自然被放大,低分样本被抑制。这是一种隐式的、数据驱动的迁移学习。

7.5 与 ChatVLA 的对比

ChatVLA 用 MoE 解决 task interference(控制 vs 理解),PTR 用 identification 后验解决 data heterogeneity(高质量 vs 低质量)。两者处理的"冲突"层面不同但相关:ChatVLA 在任务层面隔离,PTR 在样本层面加权。原则上,PTR 的 reweighting 机制可以嵌入 ChatVLA 的训练流程中,在 Stage 1 的 robot data 训练阶段通过 PTR 提升数据利用效率。


参考

  • Being-H0.5 — PTR 的实验基座 VLA,提供 200 维统一动作空间和跨构型预训练
  • InfoNCE — PTR 的 identification posterior 直接基于 CPC 的对比学习框架
  • AWR — Advantage-Weighted Regression,PTR 采用相同的指数权重形式但用无奖励的 identification score 替代 advantage
  • π0 — Flow-matching VLA 基座,PTR 兼容的动作头类型之一
  • Diffusion Policy — 扩散策略,PTR 兼容的另一类动作头
  • MoCo — PTR 的 EMA 目标编码器设计灵感来源