RFI：基于 Rectified Flow 的动态干预缓解大视觉-语言模型对象幻觉

论文：RFI: Rectified Flow Intervention for Mitigating Object Hallucination in Large Vision-Language Models
作者：Junyu Cheng, Zhibiao Liang, Yidong Chen*, Shuangyin Li*
机构：厦门大学、华南师范大学
发布时间：2026年（AAAI 2026）
🔗 代码
分类标签：LVLM Hallucination Rectified Flow Feature-Level Intervention Input-Specific Plug-and-Play

一句话总结

提出 RFI，利用 Rectified Flow 模型从正负样本对的隐藏状态差异中学习从查询表示到干预向量的线性轨迹，推理时根据输入动态预测特定干预向量 + SVD 去噪后注入解码器隐藏层，结合动态方法的适应性和静态方法的稳定性，仅需单次额外前向传播（100 token 时 1.09x 延迟），LLaVA-v1.5 POPE 平均 F1 提升 7.59%，在 9 个 POPE 子集上全面超越 VCD/DeCo/VTI/ICT。

一、问题与动机

1.1 现有幻觉缓解方法的两类范式及局限

范式	代表方法	核心思路	局限
动态方法	VCD, DeCo, DoLa, OPERA	推理时通过 logit 调整、对比解码、注意力调控实时干预	过度抑制有用的语言先验，输出保守；可能"拆东墙补西墙"——修正一类幻觉却引入另一类
静态方法	VTI, ICT, Nullu	预计算固定干预向量/权重编辑，离线施加到特征空间	缺乏对输入变化的适应性，同一向量无法适配所有图像和问题

1.2 固定干预的理论证明

论文给出了一个简洁的数学证明：不存在一个固定向量能同时降低所有样本的幻觉损失。

设 $h_{x}$ 为输入 $x$ 的隐藏状态， $L (x, v) = ℓ (g (h_{x} + v), y_{x})$ 为加入干预 $v$ 后的幻觉损失。一阶展开要求 $⟨ g_{x}, v ⟩ < 0$ 对所有 $x$ 成立（ $g_{x} = \nabla_{h} L (x, 0)$ ）。

命题 1：若存在两个样本 $x_{1}, x_{2}$ 使得 $⟨ g_{x_{1}}, g_{x_{2}} ⟩ < 0$ （梯度负相关），则不存在非零 $v$ 满足上述条件。

在多样数据分布下梯度协方差矩阵满秩，必然存在梯度负相关的样本对。因此固定干预最多只能最小化期望幻觉损失，无法保证逐样本的降低。

1.3 核心洞察

需要一种方法：

像动态方法一样针对输入自适应生成干预向量
像静态方法一样稳定、不破坏有用的语言先验

Rectified Flow 的线性轨迹设计天然满足这两个需求。

二、预备知识

2.1 Rectified Flow

Rectified Flow 是一种 flow matching 模型，在源分布 $p_{source}$ 和目标分布 $p_{target}$ 之间构建线性轨迹。

给定配对样本 $x \sim p_{source}$ 和 $y \sim p_{target}$ ，线性插值路径为：

z_{t} = t y + (1 - t) x, t \in [0, 1]

理想速度场方向： $\frac{d z_{t}}{d t} = y - x$

训练神经网络 $v_{ϕ} : [0, 1] \times R^{d} \to R^{d}$ 近似该速度场：

min_{ϕ} \int_{0}^{1} E_{x, y} [∥ (y - x) - v_{ϕ} (t, z_{t}) ∥_{2}^{2}] d t

推理时通过求解 ODE $d z_{t} = v_{ϕ} (t, z_{t}) d t$ 生成新样本。

关键特性：线性轨迹保证了输入条件下的平滑、可预测变换，避免了复杂的扩散过程。

三、核心方法

RFI 包含两个阶段：Rectified Flow 训练和干预推理。

3.1 训练数据构建

给定图像 $V$ 和文本输入 $X$ ：

正样本：拼接 $S_{p} = concat (q, A_{p})$ ，其中 $q = concat (X, V)$ ， $A_{p}$ 为正确回答
负样本：对图像进行随机遮蔽得到 $\tilde{V}$ ，拼接 $S_{n} = concat (\tilde{q}, A_{n})$ ，其中 $\tilde{q} = concat (X, \tilde{V})$ ， $A_{n}$ 为幻觉回答

通过 LVLM 提取第 $l$ 层最后一个 token 的隐藏状态：

$h_{q}^{(l)}$ ：仅输入查询 $q$ 的隐藏状态（源分布）
$h_{p}^{(l)}$ ：正确回答的隐藏状态
$h_{n}^{(l)}$ ：幻觉回答的隐藏状态

干预向量（目标分布）定义为：

δ^{(l)} = h_{p}^{(l)} - h_{n}^{(l)}

用大白话说：干预向量编码的是"正确回答与幻觉回答在隐藏空间中的差异方向"——将表示沿这个方向推动就能从幻觉走向正确。

3.2 Rectified Flow 训练

在查询表示分布 $π_{q}$ 和干预向量分布 $π_{δ}$ 之间训练 Rectified Flow：

z_{t} = t δ^{(l)} + (1 - t) h_{q}^{(l)}, t \in [0, 1]

训练目标：

min_{ϕ} \int_{0}^{1} E_{h_{q}^{(l)}, δ^{(l)} \sim π_{q} \otimes π_{δ}} [{‖ (δ^{(l)} - h_{q}^{(l)}) - v_{ϕ} (t, z_{t}) ‖}_{2}^{2}] d t

用大白话说：Rectified Flow 学习从"给定查询的隐藏表示"出发，沿线性路径到达"该查询对应的最优干预向量"。由于每个查询的起点不同，生成的干预向量自然是输入特定的。

3.3 干预推理

Step 1：提取隐藏状态。 将测试输入 $q = concat (X, V)$ 通过 LVLM 前向传播，提取第 $l$ 层最后 token 的隐藏状态 $h_{q}^{(l)}$ 。

Step 2：采样干预向量。 通过 Rectified Flow 模型采样： $δ^{(l)} = R_{ϕ} (h_{q}^{(l)})$ 。

Step 3：SVD 去噪。 对干预向量进行 SVD 投影，仅保留前 $k$ 个奇异值分量：

δ_{proj}^{(l)} = U_{k} Σ_{k} V_{k}^{⊤} = {Proj}_{k} (δ^{(l)})

丢弃小奇异值对应的噪声和冗余维度。

Step 4：注入干预。 在生成过程中修改解码器第 $l$ 层的隐藏状态：

h_{q}^{(l)} \leftarrow h_{q}^{(l)} + α δ_{proj}^{(l)}

其中 $α$ 为缩放系数（LLaVA-v1.5: $α = 5.0$ , Qwen-VL: $α = 2.0$ ）。生成完成后恢复原始隐藏状态。

关键效率优势：整个流程仅需 LVLM 的一次额外前向传播（提取 $h_{q}^{(l)}$ ）+ 一次 Rectified Flow 采样 + 一次 SVD。

四、实验结果

4.1 POPE 基准

在 3 个数据集（COCO/A-OKVQA/GQA）× 3 种设置（Random/Popular/Adversarial）= 9 个子集上的结果（摘录 COCO）：

方法	类型	LLaVA-v1.5 Acc	LLaVA-v1.5 F1	Qwen-VL Acc	Qwen-VL F1
Regular	—	83.29	81.33	84.37	82.67
VCD	动态	87.73	87.16	88.63	87.81
DeCo	动态	88.80	89.26	89.53	89.31
VTI	静态	89.50	88.89	86.73	85.59
ICT	静态	90.11	90.03	89.46	89.20
RFI	—	90.73 (+7.44)	90.40 (+9.07)	89.70 (+5.33)	88.89 (+6.22)

RFI 在所有 9 个子集上均取得最佳性能：

LLaVA-v1.5 平均 F1 提升 7.59%
Qwen-VL 平均 F1 提升 6.90%
在 GQA Popular 子集上 Qwen-VL F1 提升高达 13.20%

4.2 MME 基准

RFI 在 MME 幻觉子集上超越 ICT 27.91 分（LLaVA-v1.5）和 47.48 分（Qwen-VL），同时在非幻觉指标上也有提升，说明缓解幻觉的同时增强了通用多模态推理能力。

4.3 推理延迟

生成 token 数	LLaVA-v1.5 (s)	+ RFI (s)	开销比
5	0.28	0.53	1.89x
25	0.81	1.07	1.32x
50	1.47	1.73	1.17x
100	2.79	3.05	1.09x

生成越长，相对开销越低。在 100 token 时仅 1.09x，因为额外开销是固定的一次性成本（一次前向 + 一次采样）。

4.4 消融实验

干预层 $l$ ：两个模型均在第 15 层达到峰值，说明该层是跨模态融合的关键点。

干预强度 $α$ ：LLaVA-v1.5 最优 $α = 5.0$ ，Qwen-VL 最优 $α = 2.0$ ，后者对参数更敏感。

训练数据效率：仅需 100 个 OOD 样本对 + 秒级训练时间即可达到有效泛化。

五、局限性与未来方向

仅在第 15 层单层干预：当前方法选择单一最优层注入干预向量，多层联合干预可能进一步提升效果
超参数敏感性： $α$ 和 $l$ 需要针对不同模型调优（LLaVA 和 Qwen-VL 的最优 $α$ 相差 2.5 倍），缺乏自适应选择机制
训练数据质量依赖：正负样本对的质量直接影响 Rectified Flow 学到的干预方向，论文使用的遮蔽图像可能无法覆盖所有类型的幻觉
计数任务表现略弱：在 MME 的 count 子类上略低于 ICT，可能因为 Rectified Flow 的全局干预不如 ICT 的对象级细粒度方法
仅验证了 7B 模型：未在更大规模模型（13B+）上验证，Rectified Flow 的训练和干预是否在更高维隐藏空间中仍然有效有待探索

六、个人思考

6.1 动态 vs 静态的"第三条路"

RFI 的创新在于提出了一个有说服力的框架来统一动态和静态方法的优势。命题 1 的证明虽然简单但非常有力——直观地解释了为什么 VTI/Nullu 等固定向量方法在多样化输入上必然存在欠纠正或过纠正。Rectified Flow 作为解决方案既优雅又实用：线性轨迹保证了稳定性，输入条件化保证了适应性。

6.2 与 CIPHER/Nullu 的比较

CIPHER 和 Nullu 都是"预计算固定子空间 → 推理时投影"的静态范式，RFI 则是"训练生成模型 → 推理时动态采样"的动态范式。RFI 的优势在命题 1 中已经论证。但 CIPHER/Nullu 完全不需要训练额外模型，而 RFI 需要训练一个 Rectified Flow 模型（虽然只需 100 样本和秒级训练）。

6.3 与 TAF 的互补性

TAF 在注意力层面操作（识别 phantom/anchor token 调制注意力 logits），RFI 在隐藏状态层面操作（注入干预向量）。两者在不同抽象层面工作，理论上可以组合：TAF 在视觉活跃层调制注意力，RFI 在跨模态融合层注入干预向量。

6.4 训练效率令人印象深刻

仅 100 个样本对 + 25-40 epochs 的秒级训练就能在 9 个 POPE 子集上全面 SOTA——这说明幻觉方向在隐藏空间中具有很强的低维结构，少量样本就足以捕获其主要模式。这也从侧面印证了 CIPHER/Nullu 中"幻觉子空间是低秩的"这一发现。

6.5 关于 Rectified Flow 的选择

论文选择 Rectified Flow 而非 DDPM/Score Matching 等其他生成模型，关键原因是其线性轨迹设计——ODE 求解路径短且直，采样效率高（少量步数即可），这对推理时的延迟至关重要。

参考

VTI (Liu et al., 2024)：潜在空间转向缓解幻觉，预计算固定干预向量，RFI 的直接对比基线
ICT (Chen et al., 2024)：图像-对象跨级可信干预，对象级细粒度方法
Nullu (Yang et al., CVPR 2025)：幻觉子空间投影，固定 SVD 基向量方法
VCD (Leng et al., CVPR 2024)：视觉对比解码，动态方法代表
Rectified Flow (Liu, 2022; Liu, Gong & Liu, 2022)：线性轨迹 flow matching，RFI 的理论基础

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

RFI：基于 Rectified Flow 的动态干预缓解大视觉-语言模型对象幻觉 ​

一句话总结 ​

一、问题与动机 ​

1.1 现有幻觉缓解方法的两类范式及局限 ​

1.2 固定干预的理论证明 ​

1.3 核心洞察 ​

二、预备知识 ​

2.1 Rectified Flow ​

三、核心方法 ​

3.1 训练数据构建 ​

3.2 Rectified Flow 训练 ​

3.3 干预推理 ​

四、实验结果 ​

4.1 POPE 基准 ​

4.2 MME 基准 ​

4.3 推理延迟 ​

4.4 消融实验 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 动态 vs 静态的"第三条路" ​

6.2 与 CIPHER/Nullu 的比较 ​

6.3 与 TAF 的互补性 ​

6.4 训练效率令人印象深刻 ​

6.5 关于 Rectified Flow 的选择 ​

参考 ​