Skip to content

04 Multimodal

多模态模型:VLM(GPT-4V、LLaVA)、视频理解、语音模型、多模态生成、统一架构等。


VLM — 幻觉缓解

论文关键词时间
ACPO似然位移、视觉锚点崩塌、非对称标定系数、长度自适应优势目标2026.03
AGLAGradCAM、全局-局部注意力组装、自适应遮蔽、Training-Free2024.06
AVISCBlind Token、层选择注意力校准、对比解码、Training-Free2024.05
CIPHER扩散反事实图像、SVD 幻觉子空间、特征投影、Training-Free、零推理开销2026.03
CSR校准自奖励、CLIP Score、迭代 DPO、模态对齐、Self-Rewarding2024
DLC动态 Logits 校准、CLIP 探针、相对视觉优势、自适应引导、Training-Free2025
EFUF细粒度遗忘、CLIP 数据筛选、梯度上升、三重损失2024.02
FLB首 Token Logit、视觉锚定、长程衰减、"The" 效应、Training-Free、单次前向2026.04
FarSight注意力寄存器、因果掩码优化、位置感知编码、Training-Free、Image+Video2025
HALCFOV 对比解码、JSD 双向对比、视觉匹配 Beam Search、Plug-and-Play2024
HIMEHIS、层自适应模型编辑、零空间投影、Training-Free2026.02
IBD图像偏置注意力、内容词/功能词动态调节、Prompt Tuning、74K 参数2024.02
HIO反转 BT 模型、Evil LVLM 对比解码、多幻觉诱导、Logit 约束2024.05
ICD指令对比解码、多模态对齐不确定性、自适应截断、Training-Free2024.03
LessIsMoreEOS 决策、Selective EOS Supervision、数据过滤、训练目标修改2024.02
LogicCheckGPT逻辑闭环、逻辑一致性、Training-Free、Plug-and-Play2024.02
LPOI列表级偏好优化、对象遮蔽、渐进插值、硬负样本、Visual Prompting2025.05
LURE共现/不确定性/位置统计分析、GPT-3.5 幻觉数据构造、[IDK] 占位修正器、Post-hoc2023.10
mDPO条件偏好优化、图像对比偏好、奖励锚定、无条件偏好问题2024.06
MemVRFFN Key-Value Memory、视觉回溯、不确定性触发、Training-Free、Plug-and-Play2025.05
MMHalSnowball幻觉雪球效应、残差视觉解码、自适应分布混合、Training-Free2024.07
OPERA注意力聚合模式、Over-Trust Penalty、Beam Search 回溯、Training-Free2024
REVERIE反思微调、正负 Rationale、细粒度推理监督、REVERIE 数据集2024.07
RFIRectified Flow、动态干预向量、输入自适应、SVD 去噪、Plug-and-Play2026
SENTINEL句子级早期干预、域内偏好学习、C-DPO、交叉验证2025.07
SIMA自生成响应、上下文自评估、三视觉指标、DPO、Self-Improvement2024.05
STIC自训练、图像理解、描述注入微调、正则化 DPO、Self-Training2024.05
TAFPhantom Token 隔离、Anchor Token 强调、非对称注意力过滤、Training-Free2026
VACoDe视觉增强选择、Softmax Distance、对比解码、Training-Free、Plug-and-Play2024
VCD视觉对比解码、高斯噪声扰动、统计偏差、语言先验、Training-Free2023.11
VGAGUI 理解、Referent Method、两阶段微调、Image-Centric2024.06
VisFlow双层注意力干预、Visual Sink/Salient Token、Head 分类抑制、Training-Free2025.06

VLM — Token 压缩

论文关键词时间
DARTToken Duplication、Pivot Token、FlashAttention 兼容、Training-Free2025.02
Elastic CacheKV Cache 压缩、Cache Merging、两阶段策略、Training-Free2024.07
Token Pruning SurveyToken Pruning、位置偏差、重要性 vs. 冗余性、训练感知压缩、评估方法论2025.02
VisionZipDominant Token Selection、Token Merging、Text-Agnostic、Training-Free2024.12

视频生成

论文关键词时间
WorldForgeVideo Diffusion、3D/4D Generation、Training-Free、Trajectory Control、Inference-Time Guidance2025.09