UAOR:不确定性感知的观测重注入——无训练增强 VLA 推理
论文:UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models
作者:Jiabing Yang, Yixiang Chen, Yuan Xu, Peiyan Li, Xiangnan Wu, Zichen Wen, Bowen Fang, Tao Yu, Zhengbo Zhang, Yingda Li, Kai Wang, Jing Liu, Nianfeng Liu, Yan Huang, Liang Wang
机构:CASIA NLPR、UCAS、SJTU、FiveAges
发布时间:2026年2月
分类标签:
Training-Free观测重注入不确定性量化Plug-and-Play
一句话总结
发现 VLA 模型在 Transformer 前几层就会"遗忘"观测信息导致动作不确定性飙升,提出用 Action Entropy 检测高不确定性层并通过注意力检索将观测特征重注入 FFN,无需训练、即插即用,在仿真和真实机器人上一致提升多种 VLA 架构的性能。
一、问题与动机
1.1 VLA 模型的"观测遗忘"现象
VLA 模型的典型架构是:视觉编码器将图像编码为 token → 与语言指令 token 拼接 → 送入 LLM 骨干 → 解码出动作。问题在于,LLM 骨干(如 LLaMA)的 Transformer 层是逐层处理的,观测信息只在输入端注入一次,随后在数十层的 FFN 和自注意力变换中逐渐被稀释。
论文通过两个实验直接验证了这一点:
- Action Entropy 上升(Figure 1):在第 2-8 层,动作 token 的 entropy 持续攀升,说明模型对"下一步该做什么"越来越不确定
- 观测注意力衰减(Figure 2):同样在这些层中,动作 token 对观测 token 的交叉注意力急剧下降,模型"看不到"输入画面了
这两个现象高度相关——模型之所以不确定,恰恰是因为它丢失了观测信息。
1.2 现有方法的不足
已有增强 VLA 推理的方法可分为两类:
额外观测信号类:如 3D-CAVLA 引入深度图、SpatialVLA 加入空间坐标、Tra2VLA 叠加视觉轨迹。这些方法需要额外的传感器、编码器或微调,部署成本高。
RL 后训练类:如 RISE、SimpleVLA-RL 等通过强化学习改进策略。这些方法需要大量训练计算或环境交互,且改变了模型权重。
UAOR 的思路完全不同:不增加外部信号,不修改模型权重,而是让模型更好地利用已有的观测信息。
1.3 核心洞察
FFN 在 Transformer 中扮演"键值记忆"角色(Geva et al., 2021),隐状态作为查询从 FFN 权重中检索知识。当模型不确定时,说明 FFN 检索到的信息不足以支撑决策。此时,如果能将原始观测特征作为"外部记忆"补充注入 FFN,就能缓解信息丢失。
关键在于:不是每一层都需要注入,只在模型不确定时才注入——否则会破坏已经良好的表征。
二、预备知识
2.1 FFN 作为键值记忆
标准 FFN 的计算为:
其中
将
直觉理解:隐状态
2.2 Logit Lens
Logit Lens(nostalgebraist, 2020)是一种探针技术:将 Transformer 中间层的隐状态直接投影到词汇表空间,查看模型在每一层的"中间预测":
其中
2.3 VLA 模型分类
论文将 VLA 架构分为两类:
- 单系统 VLA(如 OpenVLA-OFT、LLaVA-VLA):将动作离散化为 token,直接用 LLM 自回归解码。动作空间与词汇表共享,每个动作维度量化为
个 bin - 双系统 VLA(如
、CogACT):LLM 骨干输出隐状态,再由独立的动作头(flow matching / diffusion)解码为连续动作
UAOR 对两类架构都适用,但 Action Entropy 的计算方式略有不同。
三、核心方法
UAOR 的完整流程可以概括为三步:量化不确定性 → 判断是否需要干预 → 注入观测信息。
3.1 Action Entropy:VLA 专用的不确定性度量
3.1.1 定义
对第
其中
对所有
3.1.2 为什么不用通用的熵度量?
传统 VLM 不确定性度量(如对整个词汇表计算熵)对 VLA 不适用,因为:
- VLA 的动作 token 只占词汇表的一小部分(256 / 32000),全词汇表熵被大量无关 token 稀释
- 不同 VLA 架构的动作空间差异很大(离散 bin vs. 连续向量),需要统一的度量
Action Entropy 只关注动作相关的分布,是 VLA 特有的不确定性信号。
3.1.3 对双系统 VLA 的适配
对于
3.2 观测重注入机制
3.2.1 触发条件
当第
为什么是"下一层"而非"当前层"?因为不确定性是在当前层 FFN 输出后才能量化的,此时当前层的计算已经完成,只能干预下一层。
3.2.2 注意力检索
将当前动作 token 的隐状态
其中
直觉理解:不是把所有观测信息一股脑灌进去,而是让当前的动作表征"主动询问"观测——"我现在最需要哪部分视觉信息?"——然后只检索最相关的部分。
3.2.3 混合注入
将检索到的观测特征与原始 FFN 输出通过
其中
3.3 完整算法流程
- 输入:当前观测
、语言指令 ,VLA 模型参数 (冻结),阈值 ,混合系数 - 将观测和指令编码后送入 Transformer 第 1 层
- 对每一层
:
- (a) 正常计算自注意力和 FFN,得到输出隐状态
- (b) 通过 Logit Lens 计算 Action Entropy
- (c) 聚合得到层级不确定性
- (d) 若
:在第 层的 FFN 中执行观测重注入 - 最后一层输出通过动作头解码为动作
3.4 理论分析
论文提供了四个定理从信息论角度证明 UAOR 的合理性:
定理 3.1(观测信息增益): 重注入增加了隐状态与观测之间的互信息:
其中
用大白话说:注入观测信息后,隐状态确实"记住"了更多关于观测的内容。
定理 3.2(动作不确定性降低): 注入后的条件熵不高于原始条件熵:
用大白话说:观测信息更充分 → 模型对动作的预测更确定。
定理 3.3(信息瓶颈优化): UAOR 优化了信息瓶颈目标,当观测注入带来的动作相关信息增益
用大白话说:只要注入的信息中"有用的"(与动作相关的)比"噪声"多,就是值得的。
定理 3.4(熵触发的收益保证): 在高不确定性条件下注入的期望信息相关性更高:
用大白话说:高不确定性时注入比无差别注入更有效——因为模型最需要帮助的时候,外部信息的边际价值最高。
四、实验结果
4.1 实验设置
验证的 VLA 模型(覆盖单系统和双系统):
| 模型 | 类型 | 动作解码方式 |
|---|---|---|
| OpenVLA-OFT | 单系统 | 离散 token 自回归 |
| LLaVA-VLA | 单系统 | 离散 token 自回归 |
| 双系统 | Flow Matching | |
| CogACT | 双系统 | 扩散动作头 |
评估基准:LIBERO(4 个子任务套件)、SIMPLER(4 个任务)、CALVIN(长序列多任务)、真实机器人(Franka,4 个任务)
4.2 LIBERO 基准
| 方法 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|
| OpenVLA-OFT | 98.2% | 98.2% | 97.6% | 94.2% | 97.1% |
| + UAOR | 99.0% | 98.4% | 98.2% | 96.2% | 98.0% |
| — | — | — | — | 91.7% | |
| — | — | — | — | 93.2% | |
| 3D-CAVLA | — | — | — | — | 98.1% |
关键观察:
- UAOR 在 OpenVLA-OFT 上将平均成功率从 97.1% 提升至 98.0%(+0.9pp),在已经很高的基线上仍有稳定提升
- 在最难的 Long 子任务上提升最大(+2.0pp),说明 UAOR 对长序列任务中的信息衰减尤为有效
- 无需深度图或额外编码器就达到了 3D-CAVLA(98.1%)的水平——后者需要深度传感器和辅助 3D 编码器
- 在
上同样有效(+1.5pp),验证了对双系统架构的通用性
4.3 SIMPLER 基准
| 方法 | Pick Coke Can | Move Near | Open/Close Drawer | Open Top Drawer | 平均 |
|---|---|---|---|---|---|
| CogACT | 92.3% | 83.7% | 72.7% | 43.5% | 73.1% |
| + UAOR | 95.0% | 87.1% | 73.6% | 47.2% | 75.7% |
在扩散动作头的 CogACT 上平均提升 2.6pp,其中 Move Near(+3.4pp)和 Open Top Drawer(+3.7pp)提升最为显著——这两个任务都需要精确的空间推理,恰好是观测信息最关键的场景。
4.4 CALVIN 基准
| 方法 | 1/5 | 2/5 | 3/5 | 4/5 | 5/5 | Avg. Len |
|---|---|---|---|---|---|---|
| LLaVA-VLA | 93.3% | 79.0% | 63.2% | 50.0% | 39.0% | 3.55 |
| + UAOR | 94.3% | 81.3% | 65.5% | 51.7% | 40.5% | 3.67 |
CALVIN 需要在不同任务之间连续切换,平均完成链长从 3.55 提升至 3.67(+3.4% 相对提升)。随着任务链变长,UAOR 的收益更加明显。
4.5 真实机器人实验
在 Franka 机械臂上测试 4 个任务,每个任务 20 次 rollout:
OpenVLA-OFT:
| 任务 | 基线 | + UAOR |
|---|---|---|
| Close Upper Drawer | — | 提升 |
| Put Redbull on Plate | — | +20pp |
| Put Lion on Shelf | — | 提升 |
| Stand Coke Can Up | — | +44.4% 相对提升 |
| 平均 | 55.0% | 72.5%(+31.8% 相对) |
CogACT:
| 平均 | 基线 | + UAOR |
|---|---|---|
| 4 个任务 | 63.8% | 78.8%(+23.5% 相对) |
真实世界的提升幅度远大于仿真——平均 +31.8%(OpenVLA-OFT)和 +23.5%(CogACT)。这说明真实环境中的视觉复杂度和干扰更容易导致观测信息丢失,UAOR 的价值在此类场景下更加凸显。
4.6 消融实验
4.6.1 注入机制设计
| 注入方式 | 触发策略 | LIBERO 平均 |
|---|---|---|
| 直接残差加法 | — | 0.0%(灾难性崩溃) |
| 均值池化残差 | 随机触发 | 96.9% |
| 熵触发 | 96.3-97.2% | |
| 注意力检索 + | 熵触发 | 98.0% |
关键发现:
- 直接残差加法直接导致模型崩溃(0.0%),说明观测信息的尺度和分布与 FFN 输出差异极大,不能简单相加
- 均值池化将所有观测 token 平等对待,无法区分关键区域(如夹爪附近)和背景,性能次优
- 注意力检索让动作隐状态主动选择最相关的观测特征,效果最好
4.6.2 注入内容
| 注入类型 | LIBERO 平均 |
|---|---|
| 仅语言指令 | 96.4% |
| 语言 + 观测 | 97.1% |
| 仅观测(视觉 + 本体感知) | 98.0% |
意外发现:注入语言指令不仅无效,反而有害。论文认为这暴露了当前 VLA 模型在 instruction-following 方面的不足——语言信息的表征质量不足以作为有效的补充信号。
4.6.3 触发策略
| 触发方式 | LIBERO 平均 |
|---|---|
| 所有层都注入 | 96.7% |
| 随机注入(匹配注入率) | 96.4% |
| Action Entropy 阈值触发 | 98.0% |
无差别注入(所有层)反而降低了性能——在模型已经很确定的层注入观测信息相当于引入噪声。随机触发同样不行,验证了定理 3.4 的预测:只有在高不确定性时注入才有正收益。
4.6.4 超参数敏感性
论文提供了
过小 + 过大:过度修正,破坏正常表征 过大 + 过小:修正不足,观测信息补充量不够
4.7 计算开销
| 指标 | 原始 | + UAOR | 变化 |
|---|---|---|---|
| 吞吐量 | 49.7 Hz | 47.3 Hz | -4.8% |
| 延迟 | 0.161s | 0.169s | +5.0% |
开销可以忽略:不到 5% 的延迟增加,换来仿真 +0.9-2.6pp、真实世界 +17.5-31.8% 的性能提升。
五、局限性与未来方向
5.1 超参数需要调节
5.2 语言信息注入无效
消融实验揭示了一个深层问题:当前 VLA 模型的语言表征质量不足以作为有效补充。这暗示 VLA 的 instruction-following 能力有待提升,未来可以探索更好的语言-动作对齐方式。
5.3 单层触发的局限
当前设计是逐层独立判断是否注入,未考虑层间的依赖关系。未来可以引入更全局的触发策略,如滑动窗口熵变化或跨层累积不确定性。
六、个人思考
6.1 与 VLA-Cache 的对称关系
VLA-Cache 和 UAOR 可以看作一枚硬币的两面:
| 维度 | VLA-Cache | UAOR |
|---|---|---|
| 目标 | 加速推理(减少冗余计算) | 增强推理(补充丢失信息) |
| 核心发现 | 跨帧视觉 token 有大量冗余 | 深层隐状态丢失观测信息 |
| 机制 | 跳过静态 token 的 KV 计算 | 在不确定层重注入观测 |
| 训练需求 | 无 | 无 |
| 开销 | 加速 1.7× | 延迟增加 <5% |
| 效果 | 性能基本不降 | 性能一致提升 |
两者完全正交且可叠加:VLA-Cache 减少冗余计算的同时,UAOR 补充关键信息。一个"做减法",一个"做加法"。
6.2 FFN-as-Memory 视角的启发
论文最有洞察力的地方是将 FFN 视为键值记忆。这个视角解释了为什么简单的残差加法会崩溃(尺度不匹配),而注意力检索有效(与 FFN 的内在机制一致)。这也暗示:如果能直接优化 FFN 权重中存储的"机器人知识"(比如通过知识编辑技术),或许能获得更持久的改进。
6.3 "观测遗忘"现象的普遍性
论文发现的观测遗忘现象(Action Entropy 在前几层上升、观测注意力衰减)很可能是所有基于 LLM 骨干的 VLA 模型的通病。这是因为 LLM 的预训练目标是语言建模,其 FFN 权重中存储的主要是语言知识而非视觉-运动知识。这与 VLM 中的幻觉问题(模型依赖语言先验而忽视视觉输入)有深层的联系。
参考
- VLA-Cache — 训练无关跨帧 Token 缓存加速 VLA
- 3D-CAVLA — 引入深度图和 3D 编码器增强 VLA 感知
- OpenVLA-OFT — 高频动作分块 VLA
— Flow Matching VLA 基础模型 - CogACT — 扩散动作头 VLA
- Geva et al., 2021 — Transformer FFN 作为键值记忆
- nostalgebraist, 2020 — Logit Lens:探测 Transformer 中间层预测