UAOR：不确定性感知的观测重注入——无训练增强 VLA 推理

论文：UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models
作者：Jiabing Yang, Yixiang Chen, Yuan Xu, Peiyan Li, Xiangnan Wu, Zichen Wen, Bowen Fang, Tao Yu, Zhengbo Zhang, Yingda Li, Kai Wang, Jing Liu, Nianfeng Liu, Yan Huang, Liang Wang
机构：CASIA NLPR、UCAS、SJTU、FiveAges
发布时间：2026年2月
链接：arXiv | 项目主页
分类标签：Training-Free 观测重注入 不确定性量化 Plug-and-Play

一句话总结

发现 VLA 模型在 Transformer 前几层就会"遗忘"观测信息导致动作不确定性飙升，提出用 Action Entropy 检测高不确定性层并通过注意力检索将观测特征重注入 FFN，无需训练、即插即用，在仿真和真实机器人上一致提升多种 VLA 架构的性能。

一、问题与动机

1.1 VLA 模型的"观测遗忘"现象

VLA 模型的典型架构是：视觉编码器将图像编码为 token → 与语言指令 token 拼接 → 送入 LLM 骨干 → 解码出动作。问题在于，LLM 骨干（如 LLaMA）的 Transformer 层是逐层处理的，观测信息只在输入端注入一次，随后在数十层的 FFN 和自注意力变换中逐渐被稀释。

论文通过两个实验直接验证了这一点：

Action Entropy 上升（Figure 1）：在第 2-8 层，动作 token 的 entropy 持续攀升，说明模型对"下一步该做什么"越来越不确定
观测注意力衰减（Figure 2）：同样在这些层中，动作 token 对观测 token 的交叉注意力急剧下降，模型"看不到"输入画面了

这两个现象高度相关——模型之所以不确定，恰恰是因为它丢失了观测信息。

1.2 现有方法的不足

已有增强 VLA 推理的方法可分为两类：

额外观测信号类：如 3D-CAVLA 引入深度图、SpatialVLA 加入空间坐标、Tra2VLA 叠加视觉轨迹。这些方法需要额外的传感器、编码器或微调，部署成本高。

RL 后训练类：如 RISE、SimpleVLA-RL 等通过强化学习改进策略。这些方法需要大量训练计算或环境交互，且改变了模型权重。

UAOR 的思路完全不同：不增加外部信号，不修改模型权重，而是让模型更好地利用已有的观测信息。

1.3 核心洞察

FFN 在 Transformer 中扮演"键值记忆"角色（Geva et al., 2021），隐状态作为查询从 FFN 权重中检索知识。当模型不确定时，说明 FFN 检索到的信息不足以支撑决策。此时，如果能将原始观测特征作为"外部记忆"补充注入 FFN，就能缓解信息丢失。

关键在于：不是每一层都需要注入，只在模型不确定时才注入——否则会破坏已经良好的表征。

二、预备知识

2.1 FFN 作为键值记忆

标准 FFN 的计算为：

FFN (h) = φ (h W_{1}) W_{2}

其中 $W_{1} \in R^{d \times d_{m}}$ ， $W_{2} \in R^{d_{m} \times d}$ ， $φ$ 是非线性激活函数。

将 $W_{1}$ 的列向量记为"键" ${k_{i}}_{i = 1}^{D}$ ， $W_{2}$ 的行向量记为"值" ${v_{i}}_{i = 1}^{D}$ ，则 FFN 可以重写为：

FFN (h) = \sum_{i = 1}^{D} φ (⟨ h, k_{i} ⟩) \cdot v_{i}

直觉理解：隐状态 $h$ 与每个键 $k_{i}$ 计算相似度，相似度高的值 $v_{i}$ 被激活并加权求和——这本质上就是一个注意力检索过程。FFN 的权重矩阵存储了预训练时学到的"世界知识"。

2.2 Logit Lens

Logit Lens（nostalgebraist, 2020）是一种探针技术：将 Transformer 中间层的隐状态直接投影到词汇表空间，查看模型在每一层的"中间预测"：

p_{t}^{(ℓ)} = Softmax (h_{t}^{(ℓ)} W_{lm_head})

其中 $W_{lm_head}$ 是语言建模头。这让我们无需等到最后一层就能窥探模型每一层对动作的"临时看法"。

2.3 VLA 模型分类

论文将 VLA 架构分为两类：

单系统 VLA（如 OpenVLA-OFT、LLaVA-VLA）：将动作离散化为 token，直接用 LLM 自回归解码。动作空间与词汇表共享，每个动作维度量化为 $K = 256$ 个 bin
双系统 VLA（如 $π_{0}$ 、CogACT）：LLM 骨干输出隐状态，再由独立的动作头（flow matching / diffusion）解码为连续动作

UAOR 对两类架构都适用，但 Action Entropy 的计算方式略有不同。

三、核心方法

UAOR 的完整流程可以概括为三步：量化不确定性 → 判断是否需要干预 → 注入观测信息。

3.1 Action Entropy：VLA 专用的不确定性度量

3.1.1 定义

对第 $ℓ$ 层、第 $n$ 个动作 token 的隐状态，通过 Logit Lens 投影到动作空间后取 Top-K 概率分布，计算归一化熵：

H_{t, n}^{(ℓ)} = - \frac{\sum_{i = 1}^{K} p_{t, n, i}^{(ℓ)} \log p_{t, n, i}^{(ℓ)}}{\log K}

其中 $p_{t, n, i}^{(ℓ)}$ 是第 $i$ 个动作候选的概率。分母 $\log K$ 将熵归一化到 $[0, 1]$ 。

对所有 $N_{a}$ 个动作 token 取平均，得到该层的整体不确定性：

u_{t}^{(ℓ)} = \frac{1}{N_{a}} \sum_{n = 1}^{N_{a}} H_{t, n}^{(ℓ)}

3.1.2 为什么不用通用的熵度量？

传统 VLM 不确定性度量（如对整个词汇表计算熵）对 VLA 不适用，因为：

VLA 的动作 token 只占词汇表的一小部分（256 / 32000），全词汇表熵被大量无关 token 稀释
不同 VLA 架构的动作空间差异很大（离散 bin vs. 连续向量），需要统一的度量

Action Entropy 只关注动作相关的分布，是 VLA 特有的不确定性信号。

3.1.3 对双系统 VLA 的适配

对于 $π_{0}$ 、CogACT 等输出连续动作的双系统 VLA，虽然没有天然的动作词汇表，但仍然可以通过 Logit Lens 将隐状态投影到语言词汇表空间，固定 $K = 256$ 计算 Top-K 熵。论文实验表明，这种统一方式对两类架构都能有效量化不确定性。

3.2 观测重注入机制

3.2.1 触发条件

当第 $ℓ$ 层的不确定性 $u_{t}^{(ℓ)}$ 超过阈值 $γ$ 时，在第 $ℓ + 1$ 层的 FFN 中注入观测信息：

u_{t}^{(ℓ)} > γ \Rightarrow 在第 ℓ + 1 层激活重注入

为什么是"下一层"而非"当前层"？因为不确定性是在当前层 FFN 输出后才能量化的，此时当前层的计算已经完成，只能干预下一层。

3.2.2 注意力检索

将当前动作 token 的隐状态 $h_{t}^{(ℓ + 1)}$ 作为查询，观测 token 序列 $o_{t} = {o_{t, 1}, \dots, o_{t, N_{o}}}$ 作为键值对，通过注意力机制检索最相关的观测特征：

{inj}_{t}^{(ℓ + 1)} (o_{t} ∣ h_{t}^{(ℓ + 1)}) = \sum_{i = 1}^{N_{o}} φ (⟨ h_{t}^{(ℓ + 1)}, o_{t, i} ⟩) \cdot o_{t, i}

其中 $φ$ 是 Softmax 归一化。

直觉理解：不是把所有观测信息一股脑灌进去，而是让当前的动作表征"主动询问"观测——"我现在最需要哪部分视觉信息？"——然后只检索最相关的部分。

3.2.3 混合注入

将检索到的观测特征与原始 FFN 输出通过 $α$ -混合融合：

{FFN}^{(ℓ + 1)} (h_{t}^{(ℓ + 1)}, o_{t}) = α \cdot {inj}_{t}^{(ℓ + 1)} (o_{t} ∣ h_{t}^{(ℓ + 1)}) + (1 - α) \cdot {FFN}^{(ℓ + 1)} (h_{t}^{(ℓ + 1)})

其中 $α \in [0, 1]$ 控制注入强度。当 $α = 0$ 时退化为标准 FFN，当 $α = 1$ 时完全用观测检索结果替代 FFN 输出。

3.3 完整算法流程

输入：当前观测 $o_{t}$ 、语言指令 $ℓ$ ，VLA 模型参数 $θ$ （冻结），阈值 $γ$ ，混合系数 $α$
将观测和指令编码后送入 Transformer 第 1 层
对每一层 $ℓ = 1, \dots, L - 1$ ：
(a) 正常计算自注意力和 FFN，得到输出隐状态 $h_{t}^{(ℓ)}$
(b) 通过 Logit Lens 计算 Action Entropy $H_{t, n}^{(ℓ)}$
(c) 聚合得到层级不确定性 $u_{t}^{(ℓ)}$
(d) 若 $u_{t}^{(ℓ)} > γ$ ：在第 $ℓ + 1$ 层的 FFN 中执行观测重注入
最后一层输出通过动作头解码为动作

3.4 理论分析

论文提供了四个定理从信息论角度证明 UAOR 的合理性：

定理 3.1（观测信息增益）： 重注入增加了隐状态与观测之间的互信息：

I ({\hat{h}}_{t}^{(ℓ + 1)}; o_{t}) \geq I ({\tilde{h}}_{t}^{(ℓ + 1)}; o_{t})

其中 $\hat{h}$ 是注入后的隐状态， $\tilde{h}$ 是原始隐状态。当注入引入了依赖于观测的额外变化时，不等式严格成立。

用大白话说：注入观测信息后，隐状态确实"记住"了更多关于观测的内容。

定理 3.2（动作不确定性降低）： 注入后的条件熵不高于原始条件熵：

H (y_{t} ∣ {\hat{h}}_{t}^{(ℓ + 1)}) \leq H (y_{t} ∣ {\tilde{h}}_{t}^{(ℓ + 1)})

用大白话说：观测信息更充分 → 模型对动作的预测更确定。

定理 3.3（信息瓶颈优化）： UAOR 优化了信息瓶颈目标，当观测注入带来的动作相关信息增益 $Δ I_{t, y}^{(ℓ + 1)}$ 大于等于 $(1 / β)$ 倍的输入信息增加量 $Δ I_{t, x}^{(ℓ + 1)}$ 时，信息瓶颈损失严格降低。

用大白话说：只要注入的信息中"有用的"（与动作相关的）比"噪声"多，就是值得的。

定理 3.4（熵触发的收益保证）： 在高不确定性条件下注入的期望信息相关性更高：

E [I ({inj}_{t}^{(ℓ + 1)}; y_{t} ∣ {\tilde{h}}_{t}^{(ℓ + 1)}) ∣ u_{t}^{(ℓ)} > γ] \geq E [I ({inj}_{t}^{(ℓ + 1)}; y_{t} ∣ {\tilde{h}}_{t}^{(ℓ + 1)})]

用大白话说：高不确定性时注入比无差别注入更有效——因为模型最需要帮助的时候，外部信息的边际价值最高。

四、实验结果

4.1 实验设置

验证的 VLA 模型（覆盖单系统和双系统）：

模型	类型	动作解码方式
OpenVLA-OFT	单系统	离散 token 自回归
LLaVA-VLA	单系统	离散 token 自回归
$π_{0}$	双系统	Flow Matching
CogACT	双系统	扩散动作头

评估基准：LIBERO（4 个子任务套件）、SIMPLER（4 个任务）、CALVIN（长序列多任务）、真实机器人（Franka，4 个任务）

4.2 LIBERO 基准

方法	Spatial	Object	Goal	Long	平均
OpenVLA-OFT	98.2%	98.2%	97.6%	94.2%	97.1%
+ UAOR	99.0%	98.4%	98.2%	96.2%	98.0%
$π_{0}$	—	—	—	—	91.7%
$π_{0}$ + UAOR	—	—	—	—	93.2%
3D-CAVLA	—	—	—	—	98.1%

关键观察：

UAOR 在 OpenVLA-OFT 上将平均成功率从 97.1% 提升至 98.0%（+0.9pp），在已经很高的基线上仍有稳定提升
在最难的 Long 子任务上提升最大（+2.0pp），说明 UAOR 对长序列任务中的信息衰减尤为有效
无需深度图或额外编码器就达到了 3D-CAVLA（98.1%）的水平——后者需要深度传感器和辅助 3D 编码器
在 $π_{0}$ 上同样有效（+1.5pp），验证了对双系统架构的通用性

4.3 SIMPLER 基准

方法	Pick Coke Can	Move Near	Open/Close Drawer	Open Top Drawer	平均
CogACT	92.3%	83.7%	72.7%	43.5%	73.1%
+ UAOR	95.0%	87.1%	73.6%	47.2%	75.7%

在扩散动作头的 CogACT 上平均提升 2.6pp，其中 Move Near（+3.4pp）和 Open Top Drawer（+3.7pp）提升最为显著——这两个任务都需要精确的空间推理，恰好是观测信息最关键的场景。

4.4 CALVIN 基准

方法	1/5	2/5	3/5	4/5	5/5	Avg. Len
LLaVA-VLA	93.3%	79.0%	63.2%	50.0%	39.0%	3.55
+ UAOR	94.3%	81.3%	65.5%	51.7%	40.5%	3.67

CALVIN 需要在不同任务之间连续切换，平均完成链长从 3.55 提升至 3.67（+3.4% 相对提升）。随着任务链变长，UAOR 的收益更加明显。

4.5 真实机器人实验

在 Franka 机械臂上测试 4 个任务，每个任务 20 次 rollout：

OpenVLA-OFT：

任务	基线	+ UAOR
Close Upper Drawer	—	提升
Put Redbull on Plate	—	+20pp
Put Lion on Shelf	—	提升
Stand Coke Can Up	—	+44.4% 相对提升
平均	55.0%	72.5%（+31.8% 相对）

CogACT：

平均	基线	+ UAOR
4 个任务	63.8%	78.8%（+23.5% 相对）

真实世界的提升幅度远大于仿真——平均 +31.8%（OpenVLA-OFT）和 +23.5%（CogACT）。这说明真实环境中的视觉复杂度和干扰更容易导致观测信息丢失，UAOR 的价值在此类场景下更加凸显。

4.6 消融实验

4.6.1 注入机制设计

注入方式	触发策略	LIBERO 平均
直接残差加法	—	0.0%（灾难性崩溃）
均值池化残差	随机触发	96.9%
$α$ -混合 + 均值池化	熵触发	96.3-97.2%
注意力检索 + $α$ -混合	熵触发	98.0%

关键发现：

直接残差加法直接导致模型崩溃（0.0%），说明观测信息的尺度和分布与 FFN 输出差异极大，不能简单相加
均值池化将所有观测 token 平等对待，无法区分关键区域（如夹爪附近）和背景，性能次优
注意力检索让动作隐状态主动选择最相关的观测特征，效果最好

4.6.2 注入内容

注入类型	LIBERO 平均
仅语言指令	96.4%
语言 + 观测	97.1%
仅观测（视觉 + 本体感知）	98.0%

意外发现：注入语言指令不仅无效，反而有害。论文认为这暴露了当前 VLA 模型在 instruction-following 方面的不足——语言信息的表征质量不足以作为有效的补充信号。

4.6.3 触发策略

触发方式	LIBERO 平均
所有层都注入	96.7%
随机注入（匹配注入率）	96.4%
Action Entropy 阈值触发	98.0%

无差别注入（所有层）反而降低了性能——在模型已经很确定的层注入观测信息相当于引入噪声。随机触发同样不行，验证了定理 3.4 的预测：只有在高不确定性时注入才有正收益。

4.6.4 超参数敏感性

论文提供了 $γ$ （熵阈值）和 $α$ （混合系数）的 3D 性能曲面（Figure 5），呈凸形态，有明确的最优区域：

$γ$ 过小 + $α$ 过大：过度修正，破坏正常表征
$γ$ 过大 + $α$ 过小：修正不足，观测信息补充量不够

4.7 计算开销

指标	原始	+ UAOR	变化
吞吐量	49.7 Hz	47.3 Hz	-4.8%
延迟	0.161s	0.169s	+5.0%

开销可以忽略：不到 5% 的延迟增加，换来仿真 +0.9-2.6pp、真实世界 +17.5-31.8% 的性能提升。

五、局限性与未来方向

5.1 超参数需要调节

$γ$ 和 $α$ 的最优值可能因模型架构和任务场景而异。虽然论文展示了相对平滑的性能曲面（不太敏感），但仍需在新场景下做少量调参。

5.2 语言信息注入无效

消融实验揭示了一个深层问题：当前 VLA 模型的语言表征质量不足以作为有效补充。这暗示 VLA 的 instruction-following 能力有待提升，未来可以探索更好的语言-动作对齐方式。

5.3 单层触发的局限

当前设计是逐层独立判断是否注入，未考虑层间的依赖关系。未来可以引入更全局的触发策略，如滑动窗口熵变化或跨层累积不确定性。

六、个人思考

6.1 与 VLA-Cache 的对称关系

VLA-Cache 和 UAOR 可以看作一枚硬币的两面：

维度	VLA-Cache	UAOR
目标	加速推理（减少冗余计算）	增强推理（补充丢失信息）
核心发现	跨帧视觉 token 有大量冗余	深层隐状态丢失观测信息
机制	跳过静态 token 的 KV 计算	在不确定层重注入观测
训练需求	无	无
开销	加速 1.7×	延迟增加 <5%
效果	性能基本不降	性能一致提升

两者完全正交且可叠加：VLA-Cache 减少冗余计算的同时，UAOR 补充关键信息。一个"做减法"，一个"做加法"。

6.2 FFN-as-Memory 视角的启发

论文最有洞察力的地方是将 FFN 视为键值记忆。这个视角解释了为什么简单的残差加法会崩溃（尺度不匹配），而注意力检索有效（与 FFN 的内在机制一致）。这也暗示：如果能直接优化 FFN 权重中存储的"机器人知识"（比如通过知识编辑技术），或许能获得更持久的改进。

6.3 "观测遗忘"现象的普遍性

论文发现的观测遗忘现象（Action Entropy 在前几层上升、观测注意力衰减）很可能是所有基于 LLM 骨干的 VLA 模型的通病。这是因为 LLM 的预训练目标是语言建模，其 FFN 权重中存储的主要是语言知识而非视觉-运动知识。这与 VLM 中的幻觉问题（模型依赖语言先验而忽视视觉输入）有深层的联系。

参考

VLA-Cache — 训练无关跨帧 Token 缓存加速 VLA
3D-CAVLA — 引入深度图和 3D 编码器增强 VLA 感知
OpenVLA-OFT — 高频动作分块 VLA
$π_{0}$ — Flow Matching VLA 基础模型
CogACT — 扩散动作头 VLA
Geva et al., 2021 — Transformer FFN 作为键值记忆
nostalgebraist, 2020 — Logit Lens：探测 Transformer 中间层预测

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

UAOR：不确定性感知的观测重注入——无训练增强 VLA 推理 ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 模型的"观测遗忘"现象 ​

1.2 现有方法的不足 ​

1.3 核心洞察 ​

二、预备知识 ​

2.1 FFN 作为键值记忆 ​

2.2 Logit Lens ​

2.3 VLA 模型分类 ​

三、核心方法 ​

3.1 Action Entropy：VLA 专用的不确定性度量 ​

3.1.1 定义 ​

3.1.2 为什么不用通用的熵度量？ ​

3.1.3 对双系统 VLA 的适配 ​

3.2 观测重注入机制 ​

3.2.1 触发条件 ​

3.2.2 注意力检索 ​

3.2.3 混合注入 ​

3.3 完整算法流程 ​

3.4 理论分析 ​

四、实验结果 ​

4.1 实验设置 ​

4.2 LIBERO 基准 ​

4.3 SIMPLER 基准 ​

4.4 CALVIN 基准 ​

4.5 真实机器人实验 ​

4.6 消融实验 ​

4.6.1 注入机制设计 ​

4.6.2 注入内容 ​

4.6.3 触发策略 ​

4.6.4 超参数敏感性 ​

4.7 计算开销 ​

五、局限性与未来方向 ​

5.1 超参数需要调节 ​

5.2 语言信息注入无效 ​

5.3 单层触发的局限 ​

六、个人思考 ​

6.1 与 VLA-Cache 的对称关系 ​

6.2 FFN-as-Memory 视角的启发 ​

6.3 "观测遗忘"现象的普遍性 ​

参考 ​