04 Multimodal

多模态模型：VLM（GPT-4V、LLaVA）、视频理解、语音模型、多模态生成、统一架构等。

VLM — 幻觉缓解

论文	关键词	时间
ACPO	似然位移、视觉锚点崩塌、非对称标定系数、长度自适应优势目标	2026.03
AGLA	GradCAM、全局-局部注意力组装、自适应遮蔽、Training-Free	2024.06
AVISC	Blind Token、层选择注意力校准、对比解码、Training-Free	2024.05
CIPHER	扩散反事实图像、SVD 幻觉子空间、特征投影、Training-Free、零推理开销	2026.03
CSR	校准自奖励、CLIP Score、迭代 DPO、模态对齐、Self-Rewarding	2024
DLC	动态 Logits 校准、CLIP 探针、相对视觉优势、自适应引导、Training-Free	2025
EFUF	细粒度遗忘、CLIP 数据筛选、梯度上升、三重损失	2024.02
FLB	首 Token Logit、视觉锚定、长程衰减、"The" 效应、Training-Free、单次前向	2026.04
FarSight	注意力寄存器、因果掩码优化、位置感知编码、Training-Free、Image+Video	2025
HALC	FOV 对比解码、JSD 双向对比、视觉匹配 Beam Search、Plug-and-Play	2024
HIME	HIS、层自适应模型编辑、零空间投影、Training-Free	2026.02
IBD	图像偏置注意力、内容词/功能词动态调节、Prompt Tuning、74K 参数	2024.02
HIO	反转 BT 模型、Evil LVLM 对比解码、多幻觉诱导、Logit 约束	2024.05
ICD	指令对比解码、多模态对齐不确定性、自适应截断、Training-Free	2024.03
LessIsMore	EOS 决策、Selective EOS Supervision、数据过滤、训练目标修改	2024.02
LogicCheckGPT	逻辑闭环、逻辑一致性、Training-Free、Plug-and-Play	2024.02
LPOI	列表级偏好优化、对象遮蔽、渐进插值、硬负样本、Visual Prompting	2025.05
LURE	共现/不确定性/位置统计分析、GPT-3.5 幻觉数据构造、[IDK] 占位修正器、Post-hoc	2023.10
mDPO	条件偏好优化、图像对比偏好、奖励锚定、无条件偏好问题	2024.06
MemVR	FFN Key-Value Memory、视觉回溯、不确定性触发、Training-Free、Plug-and-Play	2025.05
MMHalSnowball	幻觉雪球效应、残差视觉解码、自适应分布混合、Training-Free	2024.07
OPERA	注意力聚合模式、Over-Trust Penalty、Beam Search 回溯、Training-Free	2024
REVERIE	反思微调、正负 Rationale、细粒度推理监督、REVERIE 数据集	2024.07
RFI	Rectified Flow、动态干预向量、输入自适应、SVD 去噪、Plug-and-Play	2026
SENTINEL	句子级早期干预、域内偏好学习、C-DPO、交叉验证	2025.07
SIMA	自生成响应、上下文自评估、三视觉指标、DPO、Self-Improvement	2024.05
STIC	自训练、图像理解、描述注入微调、正则化 DPO、Self-Training	2024.05
TAF	Phantom Token 隔离、Anchor Token 强调、非对称注意力过滤、Training-Free	2026
VACoDe	视觉增强选择、Softmax Distance、对比解码、Training-Free、Plug-and-Play	2024
VCD	视觉对比解码、高斯噪声扰动、统计偏差、语言先验、Training-Free	2023.11
VGA	GUI 理解、Referent Method、两阶段微调、Image-Centric	2024.06
VisFlow	双层注意力干预、Visual Sink/Salient Token、Head 分类抑制、Training-Free	2025.06

VLM — Token 压缩

论文	关键词	时间
DART	Token Duplication、Pivot Token、FlashAttention 兼容、Training-Free	2025.02
Elastic Cache	KV Cache 压缩、Cache Merging、两阶段策略、Training-Free	2024.07
Token Pruning Survey	Token Pruning、位置偏差、重要性 vs. 冗余性、训练感知压缩、评估方法论	2025.02
VisionZip	Dominant Token Selection、Token Merging、Text-Agnostic、Training-Free	2024.12

视频生成

论文	关键词	时间
WorldForge	Video Diffusion、3D/4D Generation、Training-Free、Trajectory Control、Inference-Time Guidance	2025.09

02 Alignment & Safety

04 Multimodal

VLM

幻觉缓解

Token 压缩

视频生成

06 Embodied AI

VLA

基础模型

感知增强

推理与规划

高效推理

RL 后训练

World Models

Imitation Learning

09 Evaluation

10 Reinforcement Learning

04 Multimodal

VLM — 幻觉缓解

VLM — Token 压缩

视频生成

幻觉缓解

Token 压缩

基础模型

感知增强

推理与规划

高效推理

RL 后训练

04 Multimodal ​

VLM — 幻觉缓解 ​

VLM — Token 压缩 ​

视频生成 ​

04 Multimodal

VLM — 幻觉缓解

VLM — Token 压缩

视频生成