ACPO:非对称约束偏好优化对抗视觉-语言对齐中的似然位移
论文:ACPO: Counteracting Likelihood Displacement in Vision-Language Alignment with Asymmetric Constraints
作者:Kaili Huang*, Hongming Zhang*, Rui Shen, Linjun Dai, Jiahao Wang, Hanming Deng, Lewei Lu(* 共同第一作者)
机构:SenseTime Research
发布时间:2026年3月
论文链接:arXiv:2603.22165
发表状态:未录用
分类标签:
VLMDPOLikelihood DisplacementVisual Anchor CollapseAsymmetric OptimizationHallucination
一句话总结
DPO 的"似然位移"在多模态场景中表现为视觉锚点崩塌——chosen 似然下降导致模型放弃视觉证据转而依赖语言先验;ACPO 引入长度自适应优势目标 τ(按响应长度缩放目标间距)和非对称标定系数 α(stop-gradient 后仅作用于 rejected 梯度),在 InternVL3-14B 和 8B 上多基准达到 SOTA,POPE 提升至 89.22 / 89.32,MM-IFEval 提升至 0.570 / 0.533。
一、问题与动机
1.1 DPO 的似然位移
DPO 已成为 VLM 偏好对齐的主流方法,但存在一个被称为似然位移(Likelihood Displacement) 的病理动态:优化器满足 chosen/rejected 间隔时,主要通过压低 rejected 似然而非提高 chosen 似然来实现,导致两者绝对似然值在训练过程中同步下滑。
训练曲线量化地呈现了这一现象:标准 DPO 最终将 chosen 奖励压到约 +2、rejected 压到约 −25,间距约 27;而 ACPO 将 chosen 稳定在约 +10、rejected 约 −20,间距约 30——前者以牺牲 chosen 绝对值换取间距,后者以 rejected 为主要压力源。
1.2 视觉锚点崩塌
在 VLM 中,似然位移尤为有害:由于 chosen 与 rejected 响应共享大量视觉接地 token(如正确的物体名称),当 rejected 被过度压制时,这些共享 token 在 chosen 响应中的概率也连带下降。随着视觉接地 token 的概率质量崩塌,模型不得不转向高频语言先验,加剧幻觉。
论文将此现象命名为视觉锚点崩塌(Visual Anchor Collapse),并通过注意力热图直观验证:标准 DPO 的注意力在长序列中扩散到先前文本而非目标视觉区域;ACPO 始终保持对关键视觉主体的密集全局锚定。
1.3 现有修复方案的不足
| 方法 | 核心思路 | 不足 |
|---|---|---|
| DPO-Shift | 静态偏移量 +0.95 | 内容无关,无法适应样本难度变化,可能强化语言先验 |
| β-DPO | 批次级动态调整 β | 粗粒度,目标仍对称,无法独立锚定 chosen 分布 |
| SimPO | 长度归一化 + 无参考 | 目标对称,OCRBench/MMBench 下降,alignment tax 明显 |
| IPO | 平方 hinge 正则 | 保守,chosen 奖励变化可忽略 |
以上方案要么处理了长度偏差,要么动态调整超参,但均保留了对称梯度结构——chosen 和 rejected 以相同强度被优化,根本上无法阻止视觉锚点崩塌。
二、预备知识
2.1 DPO 回顾
给定偏好数据集
其中隐式奖励可按 token 级自回归分解:
2.2 对称梯度问题
DPO 梯度的对称结构为:
优化器的最小阻力路径是激进压制
三、核心方法
3.1 长度自适应优势目标
标准 DPO 使用固定标量间距。本文指出:序列级奖励
定义平均步骤优势(Average Step-wise Advantage):
要对每个 token 强制恒定的目标步骤优势
用大白话说:
3.2 非对称约束求解
为打破梯度对称性,将对齐目标重新表述为单侧约束问题:
其中
设计逻辑:
- 当模型不满足目标间距(
)时,保持对 的完整惩罚压力; - 当模型达到或超过目标(
)时,动态减弱对 的梯度——停止对已满足目标的 rejected 过度压制,从而不再拖累 chosen 中的共享 token。
3.3 ACPO 目标函数
为防止
最终 ACPO 损失:
梯度分析:令
与标准 DPO 相比,rejected 的有效梯度幅度被缩放为
3.4 边界行为与数值稳定性
| 情形 | 含义 | 处理 |
|---|---|---|
| 模型未达目标间距,需要完整压制 rejected | clamp 到 1,等价 DPO,避免过度惩罚 | |
| chosen 已独立超过目标,无需再惩罚 rejected | clamp 到 0,梯度清零 | |
| 分母趋零, | 分母取绝对值并 clamp 到最小 |
实践中采用略紧的经验截断窗口
四、实验结果
4.1 实验设置
- 基础模型:InternVL3-14B-Instruct 和 InternVL3-8B-Instruct(仅 SFT,未经过任何偏好优化,保证干净对比)
- 偏好数据:自有约 320K 偏好对,含视觉接地对比、规则正确性采样、格式遵从三类构造策略
- 训练:32 张 H100、4-way 张量并行 + 序列并行 + FlashAttention;1 epoch,batch size 32,lr
,余弦衰减; , , 截断
4.2 主实验结果
| 类别 | 基准 | Instruct 14B | DPO 14B | SimPO 14B | β-DPO 14B | DPO-Shift 14B | ACPO 14B |
|---|---|---|---|---|---|---|---|
| 幻觉 | HallusionBench | 68.9 | 69.7 | 68.0 | 69.5 | 70.0 | 70.0 |
| 幻觉 | MM-IFEval | 0.480 | 0.500 | 0.520 | 0.530 | 0.500 | 0.570 |
| 幻觉 | POPE | 88.48 | 86.89 | 87.81 | 87.23 | 89.00 | 89.22 |
| 幻觉 | AMBER | 89.68 | 89.78 | 89.52 | 89.45 | 89.97 | 90.79 |
| 推理 | MMBench (EN) | 0.830 | 0.830 | 0.815 | 0.820 | 0.830 | 0.830 |
| 推理 | MMBench (CN) | 0.820 | 0.816 | 0.790 | 0.820 | 0.810 | 0.810 |
| 推理 | MMStar | 0.657 | 0.665 | 0.640 | 0.660 | 0.660 | 0.670 |
| VQA | SimpleVQA | 0.387 | 0.380 | 0.395 | 0.390 | 0.397 | 0.400 |
| VQA | RealWorldQA | 0.690 | 0.686 | 0.670 | 0.700 | 0.700 | 0.700 |
| OCR | OCRBench v2 (EN) | 0.456 | 0.479 | 0.477 | 0.478 | 0.467 | 0.485 |
| OCR | OCRBench v2 (ZH) | 0.437 | 0.498 | 0.483 | 0.498 | 0.450 | 0.520 |
关键观察:
- 标准 DPO 在 POPE 上反而降低基线(88.48 → 86.89),即出现视觉锚点崩塌;ACPO 逆转为 89.22
- ACPO 是唯一无 alignment tax 的方法:SimPO 在 MMBench CN 降至 0.790,而 ACPO 维持 0.810;SimPO 在 OCRBench ZH 降至 0.483,ACPO 提升至 0.520
- MM-IFEval 指令遵从提升最显著(0.480 → 0.570),因为格式 token 是 chosen/rejected 共享的典型 token,ACPO 通过单侧锚定保护这些 token 不被抑制
- 8B 模型同样一致:11 个基准中 8 个最优,RealWorldQA 0.714 为所有方法最高
4.3 训练动态
论文量化对比 chosen/rejected 隐式奖励曲线:
- DPO:chosen 奖励短暂上升后持续下降至约 +2,rejected 下降至约 −25,间距约 27
- ACPO:chosen 奖励稳定在约 +10 并维持高位,rejected 下降至约 −20,间距约 30
在跨方法对比(DPO、IPO、DPO-Shift、ACPO)中,ACPO 获得最高的 chosen 奖励增益(Δ ≈ +8.5),而最终间距约 27 与其他方法相当——ACPO 提升了 chosen 的绝对值,而非以牺牲间距为代价。
4.4 消融实验
| 变体 | MMBench | POPE |
|---|---|---|
| 完整 ACPO | 0.830 | 89.22 |
| 去掉非对称控制(α = 1,退化为对称 DPO) | 0.830 | 86.89 |
| 去掉长度间距( | 0.808 | 88.51 |
- 非对称控制是核心:去掉后 POPE 骤降 2.33 pp,恢复到标准 DPO 水平
- 长度间距影响通用推理:MMBench 从 0.830 降至 0.808,长序列梯度稀释未被归一化
4.5 偏好评估
以 Gemini 为裁判进行成对偏好评测,ACPO 对比各 baseline 的胜率:
| 对手 | ACPO 胜率 | 平局 | 败率 |
|---|---|---|---|
| Standard DPO | 61.6% | 4.6% | 33.8% |
| Shift-DPO | 58.2% | 5.1% | 36.7% |
| SimPO | 56.5% | 6.3% | 37.2% |
| IPO | 54.8% | 7.0% | 38.2% |
| β-Dynamic | 52.6% | 6.5% | 40.9% |
五、局限性与未来方向
- 偏好数据集私有:全部实验基于 SenseTime 内部 320K 数据,公开偏好语料(如 RLHF-V、POVID)上的验证缺失,泛化性待确认
- 多轮对话与在线 RL:当前为单轮 offline 对齐,向 GRPO 等在线范式扩展是明显方向
- 数据集偏差未分析:视觉接地对比数据由 GPT-4o 生成,隐含 GPT-4o 的视觉偏好,是否对特定任务引入新偏差未深入讨论
六、个人思考
6.1 与 mDPO 的对比:两种视角下的"视觉信息丢失"
ACPO 和 mDPO 都揭示了多模态 DPO 中视觉信息被忽略的问题,但诊断角度不同:
| 维度 | mDPO | ACPO |
|---|---|---|
| 问题定位 | DPO 优化时图像条件未被利用(无条件偏好) | DPO 梯度对称导致 chosen 似然下降(似然位移) |
| 解决方法 | 构造"图像是唯一变量"的偏好对 + 锚定奖励 | 单侧约束只作用于 rejected 梯度 |
| 触发机制 | 偏好数据中 chosen/rejected 的文本差异太大 | chosen/rejected 共享视觉接地 token |
| 评估重点 | CHAIR、POPE 物体幻觉 | MM-IFEval 指令遵从 + OCRBench 视觉文字 |
两者互补:mDPO 修复偏好数据层面的"图像无关性",ACPO 修复优化目标层面的梯度对称性。理论上组合使用应有叠加效益,但目前尚无相关实验。
6.2 长度归一化的多种实现路径
SimPO 通过长度归一化隐式奖励避免长度偏差;ACPO 通过将目标间距线性缩放为
6.3 stop-gradient 的关键性
6.4 与 CSR、SENTINEL 的对比
CSR 通过 CLIP 校准奖励信号迭代改进,SENTINEL 通过句子级早期干预改进偏好数据粒度,ACPO 通过修改损失目标本身。三者分别作用于奖励设计、数据构造、目标函数三个层次,理论上可以叠加,而实际上该领域目前组合方法的实验还非常稀少。
6.5 潜在局限:α 的分母稳定性
当
参考
- DPO (Rafailov et al., 2023):直接偏好优化,ACPO 的基础框架
- Likelihood Displacement (Razin et al., 2024):正式提出似然位移概念
- SimPO (Meng et al., 2024):长度归一化无参考偏好优化,主要 baseline
- β-DPO (Wu et al., 2024):批次级动态 β,主要 baseline
- DPO-Shift (Yang et al., 2025):静态偏移量 DPO,主要 baseline
- Smaug / DPO-Positive (Pal et al., 2024):讨论"共享 token 附带抑制"(Collateral Suppression)问题,与 ACPO 视觉锚点崩塌诊断相关
- InternVL3 (Zhu et al., 2025):实验所用基础模型
- mDPO (Wang et al., 2024):从偏好数据层面解决多模态 DPO 忽略图像条件的问题
- CSR (Zhou et al., 2024):CLIP 校准自奖励迭代 DPO,从奖励信号层面缓解多模态幻觉
- SENTINEL (Peng et al., 2025):句子级域内偏好 + C-DPO 早期干预