Skip to content

ACPO:非对称约束偏好优化对抗视觉-语言对齐中的似然位移

论文ACPO: Counteracting Likelihood Displacement in Vision-Language Alignment with Asymmetric Constraints

作者:Kaili Huang*, Hongming Zhang*, Rui Shen, Linjun Dai, Jiahao Wang, Hanming Deng, Lewei Lu(* 共同第一作者)

机构:SenseTime Research

发布时间:2026年3月

论文链接arXiv:2603.22165

发表状态:未录用

分类标签VLM DPO Likelihood Displacement Visual Anchor Collapse Asymmetric Optimization Hallucination


一句话总结

DPO 的"似然位移"在多模态场景中表现为视觉锚点崩塌——chosen 似然下降导致模型放弃视觉证据转而依赖语言先验;ACPO 引入长度自适应优势目标 τ(按响应长度缩放目标间距)和非对称标定系数 α(stop-gradient 后仅作用于 rejected 梯度),在 InternVL3-14B 和 8B 上多基准达到 SOTA,POPE 提升至 89.22 / 89.32,MM-IFEval 提升至 0.570 / 0.533。


一、问题与动机

1.1 DPO 的似然位移

DPO 已成为 VLM 偏好对齐的主流方法,但存在一个被称为似然位移(Likelihood Displacement) 的病理动态:优化器满足 chosen/rejected 间隔时,主要通过压低 rejected 似然而非提高 chosen 似然来实现,导致两者绝对似然值在训练过程中同步下滑。

训练曲线量化地呈现了这一现象:标准 DPO 最终将 chosen 奖励压到约 +2、rejected 压到约 −25,间距约 27;而 ACPO 将 chosen 稳定在约 +10、rejected 约 −20,间距约 30——前者以牺牲 chosen 绝对值换取间距,后者以 rejected 为主要压力源。

1.2 视觉锚点崩塌

在 VLM 中,似然位移尤为有害:由于 chosen 与 rejected 响应共享大量视觉接地 token(如正确的物体名称),当 rejected 被过度压制时,这些共享 token 在 chosen 响应中的概率也连带下降。随着视觉接地 token 的概率质量崩塌,模型不得不转向高频语言先验,加剧幻觉。

论文将此现象命名为视觉锚点崩塌(Visual Anchor Collapse),并通过注意力热图直观验证:标准 DPO 的注意力在长序列中扩散到先前文本而非目标视觉区域;ACPO 始终保持对关键视觉主体的密集全局锚定。

1.3 现有修复方案的不足

方法核心思路不足
DPO-Shift静态偏移量 +0.95内容无关,无法适应样本难度变化,可能强化语言先验
β-DPO批次级动态调整 β粗粒度,目标仍对称,无法独立锚定 chosen 分布
SimPO长度归一化 + 无参考目标对称,OCRBench/MMBench 下降,alignment tax 明显
IPO平方 hinge 正则保守,chosen 奖励变化可忽略

以上方案要么处理了长度偏差,要么动态调整超参,但均保留了对称梯度结构——chosen 和 rejected 以相同强度被优化,根本上无法阻止视觉锚点崩塌。


二、预备知识

2.1 DPO 回顾

给定偏好数据集 D={(x(i),yw(i),yl(i))},DPO 将 Bradley-Terry 偏好模型下的最优策略解代入后,直接对策略参数 θ 优化:

LDPO=logσ(βlogπθ(yw|x)πref(yw|x)βlogπθ(yl|x)πref(yl|x))

其中隐式奖励可按 token 级自回归分解:

r(y)=βlogπθ(y|x)πref(y|x)=βt=1|y|logπθ(yt|x,y<t)πref(yt|x,y<t)

2.2 对称梯度问题

DPO 梯度的对称结构为:

θLDPO(logπθ(yw)logπθ(yl))

优化器的最小阻力路径是激进压制 logπθ(yl),而非提升 logπθ(yw)——尤其当 yw,yl 共享大量 token 时,抑制 rejected 分布会连带拖低 chosen 中相同 token 的概率。


三、核心方法

3.1 长度自适应优势目标

标准 DPO 使用固定标量间距。本文指出:序列级奖励 r(y) 与序列长度正相关,对不同复杂度的样本施加同一间距会引入长度偏差

定义平均步骤优势(Average Step-wise Advantage)

r¯(y)=r(y)|y|

要对每个 token 强制恒定的目标步骤优势 δ,最优对齐边界须随总响应复杂度线性缩放,由此定义长度自适应优势目标 τ

τ(yw,yl)δ(|yw|+|yl|)

用大白话说:δ=0.1 意味着模型每生成一个 token,对 chosen 的置信度应比 rejected 高出 e0.11.105 倍;响应越长,目标绝对间距 τbatch 越大,阻止梯度在长序列中稀释。

3.2 非对称约束求解

为打破梯度对称性,将对齐目标重新表述为单侧约束问题

r(yw)Gradient-Stable Anchorαr(yl)=τbatch

其中 α 不是超参数,而是每批次解析求解的动态标定系数:

α=r(yw)τbatchr(yl)

设计逻辑

  • 当模型不满足目标间距(α1)时,保持对 r(yl) 的完整惩罚压力;
  • 当模型达到或超过目标(α0)时,动态减弱对 r(yl) 的梯度——停止对已满足目标的 rejected 过度压制,从而不再拖累 chosen 中的共享 token。

3.3 ACPO 目标函数

为防止 α 本身产生梯度干扰,施加 stop-gradient 算子,并数值截断至 [0,1]

α^=clamp(sg[r(yw)δ(|yw|+|yl|)r(yl)],0,1)

最终 ACPO 损失:

LACPO=logσ(r(yw)α^r(yl))

梯度分析:令 u=r(yw)α^r(yl),ACPO 梯度为:

θLACPO=(1σ(u))(θr(yw)α^θr(yl))

与标准 DPO 相比,rejected 的有效梯度幅度被缩放为 α^[0,1]

rejected 有效梯度chosen 有效梯度=α^θr(yl)θr(yw)

3.4 边界行为与数值稳定性

情形含义处理
α>1模型未达目标间距,需要完整压制 rejectedclamp 到 1,等价 DPO,避免过度惩罚
α<0chosen 已独立超过目标,无需再惩罚 rejectedclamp 到 0,梯度清零
r(yl)0分母趋零,α±分母取绝对值并 clamp 到最小 ϵ=105

实践中采用略紧的经验截断窗口 [0.3,0.95],保证梯度平滑过渡、避免 sigmoid 饱和。


四、实验结果

4.1 实验设置

  • 基础模型:InternVL3-14B-Instruct 和 InternVL3-8B-Instruct(仅 SFT,未经过任何偏好优化,保证干净对比)
  • 偏好数据:自有约 320K 偏好对,含视觉接地对比、规则正确性采样、格式遵从三类构造策略
  • 训练:32 张 H100、4-way 张量并行 + 序列并行 + FlashAttention;1 epoch,batch size 32,lr 1×106,余弦衰减;β=0.1δ=0.1α^ 截断 [0.3,0.95]

4.2 主实验结果

类别基准Instruct 14BDPO 14BSimPO 14Bβ-DPO 14BDPO-Shift 14BACPO 14B
幻觉HallusionBench68.969.768.069.570.070.0
幻觉MM-IFEval0.4800.5000.5200.5300.5000.570
幻觉POPE88.4886.8987.8187.2389.0089.22
幻觉AMBER89.6889.7889.5289.4589.9790.79
推理MMBench (EN)0.8300.8300.8150.8200.8300.830
推理MMBench (CN)0.8200.8160.7900.8200.8100.810
推理MMStar0.6570.6650.6400.6600.6600.670
VQASimpleVQA0.3870.3800.3950.3900.3970.400
VQARealWorldQA0.6900.6860.6700.7000.7000.700
OCROCRBench v2 (EN)0.4560.4790.4770.4780.4670.485
OCROCRBench v2 (ZH)0.4370.4980.4830.4980.4500.520

关键观察

  1. 标准 DPO 在 POPE 上反而降低基线(88.48 → 86.89),即出现视觉锚点崩塌;ACPO 逆转为 89.22
  2. ACPO 是唯一无 alignment tax 的方法:SimPO 在 MMBench CN 降至 0.790,而 ACPO 维持 0.810;SimPO 在 OCRBench ZH 降至 0.483,ACPO 提升至 0.520
  3. MM-IFEval 指令遵从提升最显著(0.480 → 0.570),因为格式 token 是 chosen/rejected 共享的典型 token,ACPO 通过单侧锚定保护这些 token 不被抑制
  4. 8B 模型同样一致:11 个基准中 8 个最优,RealWorldQA 0.714 为所有方法最高

4.3 训练动态

论文量化对比 chosen/rejected 隐式奖励曲线:

  • DPO:chosen 奖励短暂上升后持续下降至约 +2,rejected 下降至约 −25,间距约 27
  • ACPO:chosen 奖励稳定在约 +10 并维持高位,rejected 下降至约 −20,间距约 30

在跨方法对比(DPO、IPO、DPO-Shift、ACPO)中,ACPO 获得最高的 chosen 奖励增益(Δ ≈ +8.5),而最终间距约 27 与其他方法相当——ACPO 提升了 chosen 的绝对值,而非以牺牲间距为代价

4.4 消融实验

变体MMBenchPOPE
完整 ACPO0.83089.22
去掉非对称控制(α = 1,退化为对称 DPO)0.83086.89
去掉长度间距(τbatchβ,静态标量)0.80888.51
  • 非对称控制是核心:去掉后 POPE 骤降 2.33 pp,恢复到标准 DPO 水平
  • 长度间距影响通用推理:MMBench 从 0.830 降至 0.808,长序列梯度稀释未被归一化

4.5 偏好评估

以 Gemini 为裁判进行成对偏好评测,ACPO 对比各 baseline 的胜率:

对手ACPO 胜率平局败率
Standard DPO61.6%4.6%33.8%
Shift-DPO58.2%5.1%36.7%
SimPO56.5%6.3%37.2%
IPO54.8%7.0%38.2%
β-Dynamic52.6%6.5%40.9%

五、局限性与未来方向

  1. 偏好数据集私有:全部实验基于 SenseTime 内部 320K 数据,公开偏好语料(如 RLHF-V、POVID)上的验证缺失,泛化性待确认
  2. 多轮对话与在线 RL:当前为单轮 offline 对齐,向 GRPO 等在线范式扩展是明显方向
  3. 数据集偏差未分析:视觉接地对比数据由 GPT-4o 生成,隐含 GPT-4o 的视觉偏好,是否对特定任务引入新偏差未深入讨论

六、个人思考

6.1 与 mDPO 的对比:两种视角下的"视觉信息丢失"

ACPO 和 mDPO 都揭示了多模态 DPO 中视觉信息被忽略的问题,但诊断角度不同:

维度mDPOACPO
问题定位DPO 优化时图像条件未被利用(无条件偏好)DPO 梯度对称导致 chosen 似然下降(似然位移)
解决方法构造"图像是唯一变量"的偏好对 + 锚定奖励单侧约束只作用于 rejected 梯度
触发机制偏好数据中 chosen/rejected 的文本差异太大chosen/rejected 共享视觉接地 token
评估重点CHAIR、POPE 物体幻觉MM-IFEval 指令遵从 + OCRBench 视觉文字

两者互补:mDPO 修复偏好数据层面的"图像无关性",ACPO 修复优化目标层面的梯度对称性。理论上组合使用应有叠加效益,但目前尚无相关实验。

6.2 长度归一化的多种实现路径

SimPO 通过长度归一化隐式奖励避免长度偏差;ACPO 通过将目标间距线性缩放为 δ(|yw|+|yl|) 显式归一化。两者在意图上等价,但 SimPO 是无参考模型的,ACPO 保留了参考模型以提供绝对值锚定——从实验数据看,ACPO 在通用推理(MMBench 0.830 vs SimPO 0.815)和 OCR(0.520 vs 0.483)上均优于 SimPO,印证了保留参考模型的价值。

6.3 stop-gradient 的关键性

α^ 的 stop-gradient 处理看似是工程细节,实则是理论核心:若 α 参与反向传播,梯度会同时通过系数 α 流向 r(yw)r(yl),破坏"chosen 作为稳定锚"的设计意图。类似 stop-gradient 的思路在对比学习(MoCo、BYOL)中被广泛验证,ACPO 将其迁移到偏好优化领域。

6.4 与 CSR、SENTINEL 的对比

CSR 通过 CLIP 校准奖励信号迭代改进,SENTINEL 通过句子级早期干预改进偏好数据粒度,ACPO 通过修改损失目标本身。三者分别作用于奖励设计、数据构造、目标函数三个层次,理论上可以叠加,而实际上该领域目前组合方法的实验还非常稀少。

6.5 潜在局限:α 的分母稳定性

r(yl)0 时,α 趋向 ±,论文用 ϵ=105 钳制。在训练后期 rejected 奖励已趋近 0 时,α 会频繁被 clamp,实际退化为固定常数。此时 ACPO 的"动态"性质减弱,但此阶段模型已接近收敛,影响有限。


参考

  • DPO (Rafailov et al., 2023):直接偏好优化,ACPO 的基础框架
  • Likelihood Displacement (Razin et al., 2024):正式提出似然位移概念
  • SimPO (Meng et al., 2024):长度归一化无参考偏好优化,主要 baseline
  • β-DPO (Wu et al., 2024):批次级动态 β,主要 baseline
  • DPO-Shift (Yang et al., 2025):静态偏移量 DPO,主要 baseline
  • Smaug / DPO-Positive (Pal et al., 2024):讨论"共享 token 附带抑制"(Collateral Suppression)问题,与 ACPO 视觉锚点崩塌诊断相关
  • InternVL3 (Zhu et al., 2025):实验所用基础模型
  • mDPO (Wang et al., 2024):从偏好数据层面解决多模态 DPO 忽略图像条件的问题
  • CSR (Zhou et al., 2024):CLIP 校准自奖励迭代 DPO,从奖励信号层面缓解多模态幻觉
  • SENTINEL (Peng et al., 2025):句子级域内偏好 + C-DPO 早期干预