ACPO：非对称约束偏好优化对抗视觉-语言对齐中的似然位移

论文：ACPO: Counteracting Likelihood Displacement in Vision-Language Alignment with Asymmetric Constraints
作者：Kaili Huang*, Hongming Zhang*, Rui Shen, Linjun Dai, Jiahao Wang, Hanming Deng, Lewei Lu（* 共同第一作者）
机构：SenseTime Research
发布时间：2026年3月
论文链接：arXiv:2603.22165
发表状态：未录用
分类标签：VLM DPO Likelihood Displacement Visual Anchor Collapse Asymmetric Optimization Hallucination

一句话总结

DPO 的"似然位移"在多模态场景中表现为视觉锚点崩塌——chosen 似然下降导致模型放弃视觉证据转而依赖语言先验；ACPO 引入长度自适应优势目标 τ（按响应长度缩放目标间距）和非对称标定系数 α（stop-gradient 后仅作用于 rejected 梯度），在 InternVL3-14B 和 8B 上多基准达到 SOTA，POPE 提升至 89.22 / 89.32，MM-IFEval 提升至 0.570 / 0.533。

一、问题与动机

1.1 DPO 的似然位移

DPO 已成为 VLM 偏好对齐的主流方法，但存在一个被称为似然位移（Likelihood Displacement） 的病理动态：优化器满足 chosen/rejected 间隔时，主要通过压低 rejected 似然而非提高 chosen 似然来实现，导致两者绝对似然值在训练过程中同步下滑。

训练曲线量化地呈现了这一现象：标准 DPO 最终将 chosen 奖励压到约 +2、rejected 压到约 −25，间距约 27；而 ACPO 将 chosen 稳定在约 +10、rejected 约 −20，间距约 30——前者以牺牲 chosen 绝对值换取间距，后者以 rejected 为主要压力源。

1.2 视觉锚点崩塌

在 VLM 中，似然位移尤为有害：由于 chosen 与 rejected 响应共享大量视觉接地 token（如正确的物体名称），当 rejected 被过度压制时，这些共享 token 在 chosen 响应中的概率也连带下降。随着视觉接地 token 的概率质量崩塌，模型不得不转向高频语言先验，加剧幻觉。

论文将此现象命名为视觉锚点崩塌（Visual Anchor Collapse），并通过注意力热图直观验证：标准 DPO 的注意力在长序列中扩散到先前文本而非目标视觉区域；ACPO 始终保持对关键视觉主体的密集全局锚定。

1.3 现有修复方案的不足

方法	核心思路	不足
DPO-Shift	静态偏移量 +0.95	内容无关，无法适应样本难度变化，可能强化语言先验
β-DPO	批次级动态调整 β	粗粒度，目标仍对称，无法独立锚定 chosen 分布
SimPO	长度归一化 + 无参考	目标对称，OCRBench/MMBench 下降，alignment tax 明显
IPO	平方 hinge 正则	保守，chosen 奖励变化可忽略

以上方案要么处理了长度偏差，要么动态调整超参，但均保留了对称梯度结构——chosen 和 rejected 以相同强度被优化，根本上无法阻止视觉锚点崩塌。

二、预备知识

2.1 DPO 回顾

给定偏好数据集 $D = {(x^{(i)}, y_{w}^{(i)}, y_{l}^{(i)})}$ ，DPO 将 Bradley-Terry 偏好模型下的最优策略解代入后，直接对策略参数 $θ$ 优化：

L_{DPO} = - \log σ (β \log \frac{π_{θ} (y_{w} | x)}{π_{ref} (y_{w} | x)} - β \log \frac{π_{θ} (y_{l} | x)}{π_{ref} (y_{l} | x)})

其中隐式奖励可按 token 级自回归分解：

r (y) = β \log \frac{π_{θ} (y | x)}{π_{ref} (y | x)} = β \sum_{t = 1}^{| y |} \log \frac{π_{θ} (y_{t} | x, y_{< t})}{π_{ref} (y_{t} | x, y_{< t})}

2.2 对称梯度问题

DPO 梯度的对称结构为：

\nabla_{θ} L_{DPO} \propto (\nabla \log π_{θ} (y_{w}) - \nabla \log π_{θ} (y_{l}))

优化器的最小阻力路径是激进压制 $\log π_{θ} (y_{l})$ ，而非提升 $\log π_{θ} (y_{w})$ ——尤其当 $y_{w}, y_{l}$ 共享大量 token 时，抑制 rejected 分布会连带拖低 chosen 中相同 token 的概率。

三、核心方法

3.1 长度自适应优势目标

标准 DPO 使用固定标量间距。本文指出：序列级奖励 $r (y)$ 与序列长度正相关，对不同复杂度的样本施加同一间距会引入长度偏差。

定义平均步骤优势（Average Step-wise Advantage）：

\bar{r} (y) = \frac{r (y)}{| y |}

要对每个 token 强制恒定的目标步骤优势 $δ$ ，最优对齐边界须随总响应复杂度线性缩放，由此定义长度自适应优势目标 $τ$ ：

τ (y_{w}, y_{l}) ≜ δ \cdot (| y_{w} | + | y_{l} |)

用大白话说： $δ = 0.1$ 意味着模型每生成一个 token，对 chosen 的置信度应比 rejected 高出 $e^{0.1} \approx 1.105$ 倍；响应越长，目标绝对间距 $τ_{batch}$ 越大，阻止梯度在长序列中稀释。

3.2 非对称约束求解

为打破梯度对称性，将对齐目标重新表述为单侧约束问题：

\underset{Gradient-Stable Anchor}{\underset{⏟}{r (y_{w})}} - α \cdot r (y_{l}) = τ_{batch}

其中 $α$ 不是超参数，而是每批次解析求解的动态标定系数：

α^{*} = \frac{r (y_{w}) - τ_{batch}}{r (y_{l})}

设计逻辑：

当模型不满足目标间距（ $α^{*} \to 1$ ）时，保持对 $r (y_{l})$ 的完整惩罚压力；
当模型达到或超过目标（ $α^{*} \to 0$ ）时，动态减弱对 $r (y_{l})$ 的梯度——停止对已满足目标的 rejected 过度压制，从而不再拖累 chosen 中的共享 token。

3.3 ACPO 目标函数

为防止 $α^{*}$ 本身产生梯度干扰，施加 stop-gradient 算子，并数值截断至 $[0, 1]$ ：

\hat{α} = clamp (sg [\frac{r (y_{w}) - δ (| y_{w} | + | y_{l} |)}{r (y_{l})}], 0, 1)

最终 ACPO 损失：

L_{ACPO} = - \log σ (r (y_{w}) - \hat{α} \cdot r (y_{l}))

梯度分析：令 $u = r (y_{w}) - \hat{α} \cdot r (y_{l})$ ，ACPO 梯度为：

\nabla_{θ} L_{ACPO} = - (1 - σ (u)) (\nabla_{θ} r (y_{w}) - \hat{α} \cdot \nabla_{θ} r (y_{l}))

与标准 DPO 相比，rejected 的有效梯度幅度被缩放为 $\hat{α} \in [0, 1]$ ：

\frac{∥ rejected 有效梯度 ∥}{∥ chosen 有效梯度 ∥} = \hat{α} \cdot \frac{∥ \nabla_{θ} r (y_{l}) ∥}{∥ \nabla_{θ} r (y_{w}) ∥}

3.4 边界行为与数值稳定性

情形	含义	处理
$α^{*} > 1$	模型未达目标间距，需要完整压制 rejected	clamp 到 1，等价 DPO，避免过度惩罚
$α^{*} < 0$	chosen 已独立超过目标，无需再惩罚 rejected	clamp 到 0，梯度清零
$r (y_{l}) \to 0$	分母趋零， $α^{*} \to \pm \infty$	分母取绝对值并 clamp 到最小 $ϵ = 10^{- 5}$

实践中采用略紧的经验截断窗口 $[0.3, 0.95]$ ，保证梯度平滑过渡、避免 sigmoid 饱和。

四、实验结果

4.1 实验设置

基础模型：InternVL3-14B-Instruct 和 InternVL3-8B-Instruct（仅 SFT，未经过任何偏好优化，保证干净对比）
偏好数据：自有约 320K 偏好对，含视觉接地对比、规则正确性采样、格式遵从三类构造策略
训练：32 张 H100、4-way 张量并行 + 序列并行 + FlashAttention；1 epoch，batch size 32，lr $1 \times 10^{- 6}$ ，余弦衰减； $β = 0.1$ ， $δ = 0.1$ ， $\hat{α}$ 截断 $[0.3, 0.95]$

4.2 主实验结果

类别	基准	Instruct 14B	DPO 14B	SimPO 14B	β-DPO 14B	DPO-Shift 14B	ACPO 14B
幻觉	HallusionBench	68.9	69.7	68.0	69.5	70.0	70.0
幻觉	MM-IFEval	0.480	0.500	0.520	0.530	0.500	0.570
幻觉	POPE	88.48	86.89	87.81	87.23	89.00	89.22
幻觉	AMBER	89.68	89.78	89.52	89.45	89.97	90.79
推理	MMBench (EN)	0.830	0.830	0.815	0.820	0.830	0.830
推理	MMBench (CN)	0.820	0.816	0.790	0.820	0.810	0.810
推理	MMStar	0.657	0.665	0.640	0.660	0.660	0.670
VQA	SimpleVQA	0.387	0.380	0.395	0.390	0.397	0.400
VQA	RealWorldQA	0.690	0.686	0.670	0.700	0.700	0.700
OCR	OCRBench v2 (EN)	0.456	0.479	0.477	0.478	0.467	0.485
OCR	OCRBench v2 (ZH)	0.437	0.498	0.483	0.498	0.450	0.520

关键观察：

标准 DPO 在 POPE 上反而降低基线（88.48 → 86.89），即出现视觉锚点崩塌；ACPO 逆转为 89.22
ACPO 是唯一无 alignment tax 的方法：SimPO 在 MMBench CN 降至 0.790，而 ACPO 维持 0.810；SimPO 在 OCRBench ZH 降至 0.483，ACPO 提升至 0.520
MM-IFEval 指令遵从提升最显著（0.480 → 0.570），因为格式 token 是 chosen/rejected 共享的典型 token，ACPO 通过单侧锚定保护这些 token 不被抑制
8B 模型同样一致：11 个基准中 8 个最优，RealWorldQA 0.714 为所有方法最高

4.3 训练动态

论文量化对比 chosen/rejected 隐式奖励曲线：

DPO：chosen 奖励短暂上升后持续下降至约 +2，rejected 下降至约 −25，间距约 27
ACPO：chosen 奖励稳定在约 +10 并维持高位，rejected 下降至约 −20，间距约 30

在跨方法对比（DPO、IPO、DPO-Shift、ACPO）中，ACPO 获得最高的 chosen 奖励增益（Δ ≈ +8.5），而最终间距约 27 与其他方法相当——ACPO 提升了 chosen 的绝对值，而非以牺牲间距为代价。

4.4 消融实验

变体	MMBench	POPE
完整 ACPO	0.830	89.22
去掉非对称控制（α = 1，退化为对称 DPO）	0.830	86.89
去掉长度间距（ $τ_{batch} \to β$ ，静态标量）	0.808	88.51

非对称控制是核心：去掉后 POPE 骤降 2.33 pp，恢复到标准 DPO 水平
长度间距影响通用推理：MMBench 从 0.830 降至 0.808，长序列梯度稀释未被归一化

4.5 偏好评估

以 Gemini 为裁判进行成对偏好评测，ACPO 对比各 baseline 的胜率：

对手	ACPO 胜率	平局	败率
Standard DPO	61.6%	4.6%	33.8%
Shift-DPO	58.2%	5.1%	36.7%
SimPO	56.5%	6.3%	37.2%
IPO	54.8%	7.0%	38.2%
β-Dynamic	52.6%	6.5%	40.9%

五、局限性与未来方向

偏好数据集私有：全部实验基于 SenseTime 内部 320K 数据，公开偏好语料（如 RLHF-V、POVID）上的验证缺失，泛化性待确认
多轮对话与在线 RL：当前为单轮 offline 对齐，向 GRPO 等在线范式扩展是明显方向
数据集偏差未分析：视觉接地对比数据由 GPT-4o 生成，隐含 GPT-4o 的视觉偏好，是否对特定任务引入新偏差未深入讨论

六、个人思考

6.1 与 mDPO 的对比：两种视角下的"视觉信息丢失"

ACPO 和 mDPO 都揭示了多模态 DPO 中视觉信息被忽略的问题，但诊断角度不同：

维度	mDPO	ACPO
问题定位	DPO 优化时图像条件未被利用（无条件偏好）	DPO 梯度对称导致 chosen 似然下降（似然位移）
解决方法	构造"图像是唯一变量"的偏好对 + 锚定奖励	单侧约束只作用于 rejected 梯度
触发机制	偏好数据中 chosen/rejected 的文本差异太大	chosen/rejected 共享视觉接地 token
评估重点	CHAIR、POPE 物体幻觉	MM-IFEval 指令遵从 + OCRBench 视觉文字

两者互补：mDPO 修复偏好数据层面的"图像无关性"，ACPO 修复优化目标层面的梯度对称性。理论上组合使用应有叠加效益，但目前尚无相关实验。

6.2 长度归一化的多种实现路径

SimPO 通过长度归一化隐式奖励避免长度偏差；ACPO 通过将目标间距线性缩放为 $δ (| y_{w} | + | y_{l} |)$ 显式归一化。两者在意图上等价，但 SimPO 是无参考模型的，ACPO 保留了参考模型以提供绝对值锚定——从实验数据看，ACPO 在通用推理（MMBench 0.830 vs SimPO 0.815）和 OCR（0.520 vs 0.483）上均优于 SimPO，印证了保留参考模型的价值。

6.3 stop-gradient 的关键性

$\hat{α}$ 的 stop-gradient 处理看似是工程细节，实则是理论核心：若 $α^{*}$ 参与反向传播，梯度会同时通过系数 $α^{*}$ 流向 $r (y_{w})$ 和 $r (y_{l})$ ，破坏"chosen 作为稳定锚"的设计意图。类似 stop-gradient 的思路在对比学习（MoCo、BYOL）中被广泛验证，ACPO 将其迁移到偏好优化领域。

6.4 与 CSR、SENTINEL 的对比

CSR 通过 CLIP 校准奖励信号迭代改进，SENTINEL 通过句子级早期干预改进偏好数据粒度，ACPO 通过修改损失目标本身。三者分别作用于奖励设计、数据构造、目标函数三个层次，理论上可以叠加，而实际上该领域目前组合方法的实验还非常稀少。

6.5 潜在局限：α 的分母稳定性

当 $r (y_{l}) \to 0$ 时， $α^{*}$ 趋向 $\pm \infty$ ，论文用 $ϵ = 10^{- 5}$ 钳制。在训练后期 rejected 奖励已趋近 0 时， $α^{*}$ 会频繁被 clamp，实际退化为固定常数。此时 ACPO 的"动态"性质减弱，但此阶段模型已接近收敛，影响有限。

参考

DPO (Rafailov et al., 2023)：直接偏好优化，ACPO 的基础框架
Likelihood Displacement (Razin et al., 2024)：正式提出似然位移概念
SimPO (Meng et al., 2024)：长度归一化无参考偏好优化，主要 baseline
β-DPO (Wu et al., 2024)：批次级动态 β，主要 baseline
DPO-Shift (Yang et al., 2025)：静态偏移量 DPO，主要 baseline
Smaug / DPO-Positive (Pal et al., 2024)：讨论"共享 token 附带抑制"（Collateral Suppression）问题，与 ACPO 视觉锚点崩塌诊断相关
InternVL3 (Zhu et al., 2025)：实验所用基础模型
mDPO (Wang et al., 2024)：从偏好数据层面解决多模态 DPO 忽略图像条件的问题
CSR (Zhou et al., 2024)：CLIP 校准自奖励迭代 DPO，从奖励信号层面缓解多模态幻觉
SENTINEL (Peng et al., 2025)：句子级域内偏好 + C-DPO 早期干预

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

ACPO：非对称约束偏好优化对抗视觉-语言对齐中的似然位移 ​

一句话总结 ​

一、问题与动机 ​

1.1 DPO 的似然位移 ​

1.2 视觉锚点崩塌 ​

1.3 现有修复方案的不足 ​

二、预备知识 ​

2.1 DPO 回顾 ​

2.2 对称梯度问题 ​

三、核心方法 ​

3.1 长度自适应优势目标 ​

3.2 非对称约束求解 ​

3.3 ACPO 目标函数 ​

3.4 边界行为与数值稳定性 ​

四、实验结果 ​

4.1 实验设置 ​

4.2 主实验结果 ​

4.3 训练动态 ​

4.4 消融实验 ​

4.5 偏好评估 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 与 mDPO 的对比：两种视角下的"视觉信息丢失" ​

6.2 长度归一化的多种实现路径 ​

6.3 stop-gradient 的关键性 ​

6.4 与 CSR、SENTINEL 的对比 ​

6.5 潜在局限：α 的分母稳定性 ​

参考 ​