04 Multimodal
多模态模型:VLM(GPT-4V、LLaVA)、视频理解、语音模型、多模态生成、统一架构等。
VLM — 幻觉缓解
| 论文 | 关键词 | 时间 |
|---|---|---|
| ACPO | 似然位移、视觉锚点崩塌、非对称标定系数、长度自适应优势目标 | 2026.03 |
| AGLA | GradCAM、全局-局部注意力组装、自适应遮蔽、Training-Free | 2024.06 |
| AVISC | Blind Token、层选择注意力校准、对比解码、Training-Free | 2024.05 |
| CIPHER | 扩散反事实图像、SVD 幻觉子空间、特征投影、Training-Free、零推理开销 | 2026.03 |
| CSR | 校准自奖励、CLIP Score、迭代 DPO、模态对齐、Self-Rewarding | 2024 |
| DLC | 动态 Logits 校准、CLIP 探针、相对视觉优势、自适应引导、Training-Free | 2025 |
| EFUF | 细粒度遗忘、CLIP 数据筛选、梯度上升、三重损失 | 2024.02 |
| FLB | 首 Token Logit、视觉锚定、长程衰减、"The" 效应、Training-Free、单次前向 | 2026.04 |
| FarSight | 注意力寄存器、因果掩码优化、位置感知编码、Training-Free、Image+Video | 2025 |
| HALC | FOV 对比解码、JSD 双向对比、视觉匹配 Beam Search、Plug-and-Play | 2024 |
| HIME | HIS、层自适应模型编辑、零空间投影、Training-Free | 2026.02 |
| IBD | 图像偏置注意力、内容词/功能词动态调节、Prompt Tuning、74K 参数 | 2024.02 |
| HIO | 反转 BT 模型、Evil LVLM 对比解码、多幻觉诱导、Logit 约束 | 2024.05 |
| ICD | 指令对比解码、多模态对齐不确定性、自适应截断、Training-Free | 2024.03 |
| LessIsMore | EOS 决策、Selective EOS Supervision、数据过滤、训练目标修改 | 2024.02 |
| LogicCheckGPT | 逻辑闭环、逻辑一致性、Training-Free、Plug-and-Play | 2024.02 |
| LPOI | 列表级偏好优化、对象遮蔽、渐进插值、硬负样本、Visual Prompting | 2025.05 |
| LURE | 共现/不确定性/位置统计分析、GPT-3.5 幻觉数据构造、[IDK] 占位修正器、Post-hoc | 2023.10 |
| mDPO | 条件偏好优化、图像对比偏好、奖励锚定、无条件偏好问题 | 2024.06 |
| MemVR | FFN Key-Value Memory、视觉回溯、不确定性触发、Training-Free、Plug-and-Play | 2025.05 |
| MMHalSnowball | 幻觉雪球效应、残差视觉解码、自适应分布混合、Training-Free | 2024.07 |
| OPERA | 注意力聚合模式、Over-Trust Penalty、Beam Search 回溯、Training-Free | 2024 |
| REVERIE | 反思微调、正负 Rationale、细粒度推理监督、REVERIE 数据集 | 2024.07 |
| RFI | Rectified Flow、动态干预向量、输入自适应、SVD 去噪、Plug-and-Play | 2026 |
| SENTINEL | 句子级早期干预、域内偏好学习、C-DPO、交叉验证 | 2025.07 |
| SIMA | 自生成响应、上下文自评估、三视觉指标、DPO、Self-Improvement | 2024.05 |
| STIC | 自训练、图像理解、描述注入微调、正则化 DPO、Self-Training | 2024.05 |
| TAF | Phantom Token 隔离、Anchor Token 强调、非对称注意力过滤、Training-Free | 2026 |
| VACoDe | 视觉增强选择、Softmax Distance、对比解码、Training-Free、Plug-and-Play | 2024 |
| VCD | 视觉对比解码、高斯噪声扰动、统计偏差、语言先验、Training-Free | 2023.11 |
| VGA | GUI 理解、Referent Method、两阶段微调、Image-Centric | 2024.06 |
| VisFlow | 双层注意力干预、Visual Sink/Salient Token、Head 分类抑制、Training-Free | 2025.06 |
VLM — Token 压缩
| 论文 | 关键词 | 时间 |
|---|---|---|
| DART | Token Duplication、Pivot Token、FlashAttention 兼容、Training-Free | 2025.02 |
| Elastic Cache | KV Cache 压缩、Cache Merging、两阶段策略、Training-Free | 2024.07 |
| Token Pruning Survey | Token Pruning、位置偏差、重要性 vs. 冗余性、训练感知压缩、评估方法论 | 2025.02 |
| VisionZip | Dominant Token Selection、Token Merging、Text-Agnostic、Training-Free | 2024.12 |
视频生成
| 论文 | 关键词 | 时间 |
|---|---|---|
| WorldForge | Video Diffusion、3D/4D Generation、Training-Free、Trajectory Control、Inference-Time Guidance | 2025.09 |