TCoT：基于轨迹思维链的 VLA 操作框架与失败恢复

论文：TCoT: Trajectory Chain-of-Thoughts for Robotic Manipulation with Failure Recovery in Vision-Language-Action Model
作者：Xiang Li, Ya-Li Li*, Yuan Wang, Huaqiang Wang, Shengjin Wang
机构：Tsinghua University（电子工程系）、BNRist
发布时间：2026年
发表会议：AAAI 2026

一句话总结

TCoT 在 VLA 模型中引入轨迹级思维链推理作为高层指令到低层动作的中间规划层：全局轨迹提供任务导向的长时域路径规划，局部轨迹提供高频动态调整，并通过 GLSR（Global-Local Switching Recovery）算法实现统一框架内的失败检测与策略切换恢复，LIBERO 平均成功率 83.3%（多任务），真实世界 +28% 超越 OpenVLA 基线。

一、问题与动机

1.1 缺乏中间任务规划

当前 VLA 模型（OpenVLA、π₀、RDT-1B 等）直接从视觉 + 语言输入映射到低层动作 $a_{t} = π (o_{t}, l_{t})$ ，缺少高层指令与低层执行之间的中间规划层。这导致：

长时域任务性能差：无法将复杂任务分解为可管理的子步骤
缺乏历史上下文：模型无法有效评估任务进度，可能重复已完成的动作
空间-时间推理不足：无法利用过去和未来的运动信息指导当前决策

1.2 缺乏失败检测与恢复能力

VLA 模型主要在成功示范上训练，忽视失败案例：

虽然 VLA 可能展现隐式重试行为，但这种重试是无引导的、有限的、不可靠的——往往以相同方式反复失败
现有失败检测方法（DoReMi、Code-as-Monitor 等）依赖外部 VLM 作为失败检测器，引入额外计算开销
失败检测与恢复解耦——检测在外部完成，恢复仍依赖独立控制机制

1.3 TCoT 的核心思路

将轨迹（2D 末端执行器路径）作为操作任务的思维链（CoT）推理表示：

轨迹是精确、紧凑的中间表示，桥接任务理解与执行
离散路径点将长时域任务分解为结构化的子步骤
在统一 VLA 框架内集成轨迹规划、动作生成和失败恢复

二、核心方法

2.1 整体架构

TCoT 基于预训练 VLA 骨干（OpenVLA），通过两阶段指令微调集成三种能力：

轨迹规划： $P_{g / l} = π_{1} (o_{1}, l_{g / l})$ — 生成全局/局部轨迹
动作生成： $a_{t} = π_{1} (o_{t}, l_{g / l} | P_{g / l})$ — 基于轨迹条件化生成动作
失败检测： $I_{s u c c e s s} = π_{1} (o_{t}, l_{f})$ — 判断任务是否成功完成

三种能力通过不同的 prompt 模板在同一模型中动态调用。

2.2 轨迹数据生成 Pipeline

从已有示范数据自动生成 2D 轨迹标注：

初始定位：开放词汇检测器 $Φ_{d}$ 检测夹爪 bounding box → SAM 分割模型 $Φ_{s}$ 生成掩码 → 质心作为初始位置：

p_{1} = Centroid (M_{1}), M_{1} = Φ_{s} (o_{1}, b_{1})

轨迹追踪：使用 CoTracker 追踪后续帧中的夹爪位置
遮挡处理：当追踪点丢失时，调用 SAM2 的可提示视频分割：

p_{t} = Centroid (Φ_{s} (o_{t}, p_{p}, p_{n}, s_{t - 1})), t \in [2, T]

其中 $p_{p}$ 为正样本点（掩码内）， $p_{n}$ 为负样本点（掩码外）

噪声过滤：提取机器人状态中的 3D 夹爪位置，构建 3D→2D 映射，用 RANSAC 过滤异常点

2.3 层次轨迹规划

全局轨迹（Global Trajectory）

在每个时刻 $t$ ，通过对称窗口采样构建全局轨迹：

P_{g}^{t} = {p_{t - n_{g} ⌊ L_{g} / 2 ⌋}, \dots, p_{t}, \dots, p_{t + n_{g} ⌊ L_{g} / 2 ⌋}}

其中 $L_{g}$ 为最大轨迹长度， $n_{g}$ 为时间采样间隔。

设计意图：

未来路径点 ${p_{i} | i > t}$ ：确保平滑的、目标导向的任务规划
历史路径点 ${p_{i} | i < t}$ ：保留历史上下文，帮助模型评估任务进度
轨迹作为中间层促进跨任务知识共享——共享相似轨迹片段的任务可以互相增强

局部轨迹（Local Trajectory）

从当前位置开始的短时域密集路径点：

P_{l}^{t} = {p_{t}, p_{t + n_{l}}, \dots, p_{t + n_{l} L_{l}}}

其中 $L_{l}$ 和 $n_{l}$ 为局部轨迹长度和采样间隔（ $n_{l} < n_{g}$ ）。

设计意图：

更短的时域 → 更高频的更新，适应动态变化
更密集的路径点 → 更精细的空间引导，适合精细操作
与全局规划互补：全局提供上下文，局部提供精度

2.4 轨迹思维链训练（第一阶段）

使用 LoRA 微调，联合预测轨迹和动作 token：

L_{p} = - \sum_{S \in D} \sum_{t}^{T} \log p (P_{i}^{t}, a_{t} | o_{t}, l_{t}; π_{1}), i \in {l, g}

Prompt 模板：

Instruction: "Predict the gripper's global/local trajectory and the action to complete the {TASK}." Answer: "Trajectory: $P_{g} / P_{l}$ Action: $A$ "

与传统 VLA 直接映射 $o_{t} \to a_{t}$ 不同，TCoT 引入了结构化的轨迹推理作为中间步骤。

2.5 失败检测与 GLSR 恢复（第二阶段）

失败数据收集

部署第一阶段模型 $π_{1}$ 在环境中交互，收集包含成功和失败样本的在线数据集 $D_{f}$ ，附带二值成功标签 $I_{s u c c e s s} \in {True, False}$ 。

失败检测训练

L_{f} = - \sum_{S \in D_{f}} \sum_{t = t_{f}}^{T} \log p (I_{s u c c e s s}^{t} | o_{t}, l_{t}; π_{1})

总损失

L = L_{a} + L_{p} + L_{f}

通过调整三类数据的比例而非损失权重来优化性能。

GLSR 算法（Algorithm 1）

$t = 1$ ：生成全局轨迹 $P_{g}^{1}$ 和首步动作
$t \in [2, t_{f}]$ ：基于冻结全局轨迹生成动作
$t > t_{f}$ ：执行失败检测
若检测到失败（ $\neg I_{s u c c e s s}$ ）：切换至局部轨迹规划，重新规划并执行
否则：继续跟随局部轨迹

核心机制：当全局规划失败时，显式切换到局部规划——提供不同的解决路径，而非以相同方式重试。

三、实验结果

3.1 LIBERO 仿真评估（离散动作建模）

方法	发表	Spatial	Object	Goal	Long	平均 SR
ECoT	CoRL2024	84.0	87.0	78.5	55.0	76.1
OpenVLA	CoRL2024	84.7	88.4	79.2	53.7	76.5
GRAPE	ICLR2025	87.6	91.2	82.2	55.8	79.2
CoT-VLA	CVPR2025	87.5	91.6	87.6	69.0	81.1
TCoT	—	91.0	94.8	78.8	66.8	82.9
TCoT-Multi	—	90.0	87.0	85.0	71.0	83.3

核心发现：

单任务设置下 TCoT 平均 SR 最高（82.9%），超越 SOTA +1.8%
多任务设置下 TCoT-Multi（83.3%）优于单任务（82.9%）——轨迹作为中间表示促进了跨任务知识共享
相比之下 OpenVLA-Multi（71.0%）比单任务（76.5%）下降 5.5%
LIBERO-Long 上多任务 TCoT 达 71.0%，显著领先

3.2 LIBERO 连续动作建模

方法	Spatial	Object	Goal	Long	平均
π₀	96.8	98.8	95.8	85.2	94.2
UniVLA	96.5	96.8	95.6	92.0	95.2
OpenVLA-OFT	96.9	98.1	95.5	91.1	95.4
TCoT-OFT	97.5	98.8	95.0	93.5	96.2

以 OpenVLA-OFT 为骨干的 TCoT 在 Long 任务上提升 2.4%，进一步验证了轨迹规划对长时域任务的增益。

3.3 真实世界评估（AIRBOT Arm，7 个任务）

设置	方法	Pick cube	Pick cup	Pick spoon	Stack bowl	Stack cube	Use spoon	Use shovel	平均
Single	OpenVLA	0.50	0.25	0.45	0.40	0.20	0.60	0.35	0.39
Single	TCoT	0.70	0.50	0.75	0.90	0.35	0.85	0.60	0.67
Multi	OpenVLA	0.55	0.25	0.45	0.45	0.30	0.60	0.40	0.43
Multi	TCoT	0.80	0.65	0.85	0.90	0.50	0.85	0.70	0.75

核心发现：

TCoT 单任务平均 +28%（0.39→0.67），多任务平均 +32%（0.43→0.75）
多任务 TCoT 提升幅度（+8%）是 OpenVLA（+4%）的两倍，验证了轨迹中间表示的跨任务知识共享能力
工具使用任务（Use spoon、Use shovel）涉及复杂多步操作，TCoT 增益最为显著

3.4 消融实验

方法	全局轨迹	局部轨迹	GLSR	平均 SR
OpenVLA	—	—	—	76.5
TCoT	✓	—	—	78.6（+2.1）
TCoT	—	✓	—	77.3（+0.8）
TCoT	✓	✓	✓	82.9（+6.4）

全局轨迹贡献 +2.1%，局部轨迹贡献 +0.8%
加入 GLSR 后总增益达 +6.4%——失败检测与恢复的贡献（+3.5%）超过两种轨迹规划之和
验证了显式失败恢复相比隐式重试的巨大优势

四、局限性与未来方向

2D 轨迹的局限：TCoT 使用 2D 图像坐标系中的轨迹，缺乏深度信息。对于需要精确 3D 操作的任务（如插入、对齐），2D 轨迹可能不足
全局轨迹冻结：全局轨迹在首步生成后冻结，无法适应环境的重大变化。虽然局部轨迹部分缓解了这一问题，但对于根本性目标变化仍然无力
失败检测的二值化：当前失败检测仅输出 True/False，缺乏对失败类型的细粒度分类（如抓取失败 vs 放置失败），限制了恢复策略的针对性
骨干依赖：TCoT 的效果受限于底层 VLA 骨干的能力（OpenVLA 7B），更强的骨干可能进一步释放轨迹规划的潜力

五、个人思考

5.1 轨迹作为 CoT 的自然选择

文本 CoT（如 ECoT）在机器人操作中面临一个根本问题：文本描述无法精确表达空间关系。"向左移动 5cm"比不上一条从 (120, 80) 到 (75, 80) 的轨迹直观。TCoT 选择轨迹作为 CoT 表示，巧妙地利用了操作任务的几何本质——末端执行器的运动路径本身就是最紧凑的任务描述。

5.2 与 SPR 的有趣对比

项目中的 SPR 同样关注子目标规划和失败恢复（See-Plan-Rewind），但路线不同：

SPR：离散的 2D 坐标子目标 + 进度监控 + 回退机制
TCoT：连续的全局/局部轨迹 + GLSR 全局-局部切换

两者都证明了中间规划层 + 失败恢复对 VLA 的重要性。有趣的是，SPR 在 LIBERO 上达 91.8%（连续动作建模基线更强），TCoT 在离散设置下达 83.3%——说明轨迹规划的增益与底层动作建模方式正交。

5.3 多任务知识共享的轨迹机制

TCoT 最令人印象深刻的发现：多任务训练提升性能（83.3% > 82.9%），而 OpenVLA 多任务反而下降（71.0% < 76.5%）。作者的解释很有说服力：当两个任务共享相似轨迹片段时（如"拿起物体"的轨迹在多个任务中相似），模型可以从重叠轨迹中学习共享抽象。这意味着轨迹作为中间表示不仅帮助单个任务，还创造了跨任务的知识桥梁。

5.4 GLSR 的简洁有效

GLSR 的核心思路极其简单——检测到失败就从全局规划切换到局部规划。但消融实验显示这一机制贡献了 +3.5%（全部增益的 55%）。其有效性的根源在于：全局轨迹一旦产生偏差，继续跟随只会放大错误；切换到局部规划提供了"重新出发"的机会。这与人类操作的直觉一致——当计划失败时，我们会缩短视野，专注于当前状态的局部调整。

5.5 统一框架的实用价值

TCoT 将轨迹规划、动作生成、失败检测集成到单一 VLA 中，通过不同 prompt 调用不同能力。这种设计避免了使用外部 VLM 做失败检测的额外开销，同时保证了检测与恢复的一致性。对于实际部署，这种统一性比模块化方案更具工程价值。

参考

OpenVLA（Kim et al., 2024）：TCoT 的 VLA 骨干
OpenVLA-OFT（Kim, Finn, and Liang, 2025）：连续动作建模骨干变体
ECoT（Zawalski et al., 2024）：文本级 Embodied CoT 推理，TCoT 的主要对比
CoT-VLA（Zhao et al., 2025）：视觉 CoT 推理增强 VLA
CoTracker（Karaev et al., 2024）：轨迹追踪模型，TCoT 数据生成 pipeline 的核心组件
SAM2（Ravi et al., 2024）：视频分割模型，处理遮挡场景的轨迹补全
LIBERO（Liu et al., 2023）：主要仿真评估基准

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

TCoT：基于轨迹思维链的 VLA 操作框架与失败恢复 ​

一句话总结 ​

一、问题与动机 ​

1.1 缺乏中间任务规划 ​

1.2 缺乏失败检测与恢复能力 ​

1.3 TCoT 的核心思路 ​

二、核心方法 ​

2.1 整体架构 ​

2.2 轨迹数据生成 Pipeline ​

2.3 层次轨迹规划 ​

全局轨迹（Global Trajectory） ​

局部轨迹（Local Trajectory） ​

2.4 轨迹思维链训练（第一阶段） ​

2.5 失败检测与 GLSR 恢复（第二阶段） ​

失败数据收集 ​

失败检测训练 ​

总损失 ​

GLSR 算法（Algorithm 1） ​

三、实验结果 ​

3.1 LIBERO 仿真评估（离散动作建模） ​

3.2 LIBERO 连续动作建模 ​

3.3 真实世界评估（AIRBOT Arm，7 个任务） ​

3.4 消融实验 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 轨迹作为 CoT 的自然选择 ​

5.2 与 SPR 的有趣对比 ​

5.3 多任务知识共享的轨迹机制 ​

5.4 GLSR 的简洁有效 ​

5.5 统一框架的实用价值 ​

参考 ​