MME：多模态大语言模型的综合评估基准

论文：MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
作者：Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li*, Xing Sun, Yunsheng Wu, Rongrong Ji
机构：Tencent Youtu Lab、Xiamen University
发布时间：2023年6月（v4: 2024年3月）
发表会议：NeurIPS 2025 Datasets and Benchmarks Track
链接：arXiv | GitHub
分类标签：MLLM 评测 感知与认知 Yes/No 指令 手工标注 14 子任务 30 模型对比

一句话总结

MME 是首个针对多模态大语言模型（MLLM）的综合评测基准，覆盖感知（10 个子任务）和认知（4 个子任务）共 14 个维度，采用人工构造的 Yes/No 指令对避免数据泄漏并实现精确量化统计，系统评测了 30 个先进 MLLM 并揭示了指令跟随失败、感知缺陷、推理断裂和目标幻觉四大共性问题。

一、问题与动机

1.1 MLLM 评估的现有困境

随着 MLLM（如 GPT-4V、LLaVA、MiniGPT-4）的快速涌现，已有的定量评估方式暴露出三大局限：

评估方式	问题
传统多模态数据集（VQA、Image Caption）	难以反映 MLLM 的涌现能力；训练集不统一导致无法保证测试集未被用于训练（数据泄漏风险）
开放式评估	数据不公开或规模极小（如仅 50 张图像）
单维度评估（如 POPE 只测幻觉）	无法全面刻画 MLLM 的综合能力

1.2 理想基准的四个特征

作者认为一个通用的综合评测基准应同时满足：

覆盖全面：同时测试感知（perception）和认知（cognition）能力
避免泄漏：标注数据不直接来自已有公开数据集
指令简洁：统一简短指令，公平对比所有模型，而非依赖 prompt engineering
易于量化：模型回答应便于自动化定量统计，避免 GPT 评分或人工打分的主观性

二、基准设计

2.1 指令设计：Yes/No 双问题范式

MME 的核心设计原则是让模型回答 "yes" 或 "no"。对每张测试图像，人工设计两条指令：

第一条指令的正确答案为 yes
第二条指令的正确答案为 no

指令格式统一为：[问题内容] Please answer yes or no.

这种设计的好处是：只有当模型对同一图像的两个互补问题都回答正确时，才能说明模型真正理解了图像内容，而非简单猜测。

2.2 评估指标

基于 Yes/No 输出，MME 定义了两个互补指标：

Accuracy（ACC）：基于每个问题计算，随机基线为 50%
Accuracy+（ACC+）：基于每张图像计算，要求同一图像的两个问题都回答正确才算对，随机基线仅 25%

子任务得分 = ACC + ACC+，因此每个子任务满分为 200。感知总分满分 2000（10 个子任务），认知总分满分 800（4 个子任务）。

2.3 任务体系：14 个子任务

感知任务（Perception）— 10 个子任务

粗粒度识别（图像来自 COCO，指令人工构造）：

子任务	内容	数据量
Existence	判断特定物体是否存在	30 图 / 60 指令
Count	判断物体数量	30 图 / 60 指令
Position	判断物体位置关系	30 图 / 60 指令
Color	判断物体颜色	30 图 / 60 指令

细粒度识别（图像来自公开数据集，指令人工构造）：

子任务	内容	数据量
Poster	识别电影海报信息	147 图
Celebrity	识别名人（红框标注）	170 图
Scene	识别场景类别	200 图
Landmark	识别地标建筑	200 图
Artwork	识别艺术品信息	200 图

OCR：识别图像中的文字（20 图 / 40 指令）。

认知任务（Cognition）— 4 个子任务

子任务	内容	数据量
Commonsense Reasoning	基于图像的常识推理	70 图 / 140 指令
Numerical Calculation	读取图中算术题并计算	20 图 / 40 指令
Text Translation	将图中中文翻译为英文	20 图 / 40 指令
Code Reasoning	读取图中代码并推理输出	20 图 / 40 指令

所有指令-答案对均为人工设计，即使使用了公开数据集的图像，也不直接使用其原始标注。

三、实验结果

3.1 总体排行榜

共评测 30 个 MLLM，包括 GPT-4V、LLaVA、BLIP-2、InstructBLIP、MiniGPT-4、Qwen-VL-Chat 等。

感知能力排行（满分 2000）：

排名	模型	得分
1	WeMM	1621.66
2	InfMLLM	1567.99
3	SPHINX	1560.15
4	Lion	1545.80
5	LLaVA	1531.31
10	GPT-4V	1409.43

认知能力排行（满分 800）：

排名	模型	得分
1	GPT-4V	517.14
2	Lion	445.71
3	WeMM	445.00
4	MMICL	428.93

关键发现：

感知 vs 认知的解耦：感知排名第一的 WeMM 在认知上仅排第三；认知排名第一的 GPT-4V 在感知上仅排第十
粗粒度 vs 细粒度的差异：某些模型（如 Qwen-VL-Chat）在粗粒度任务上一般，但细粒度（海报识别）表现优秀，说明分维度评估的必要性
GPT-4V 的特殊情况：拒绝回答涉及个人的名人识别问题导致该子任务得零分；代码推理大幅领先（170 分 vs 第二名 130 分）

3.2 子任务分析

子任务	最佳模型	最佳得分/满分 200	备注
Existence	Otter / Lynx / WeMM 等	195	多个模型接近满分，任务较简单
Count	Muffin	163.33	整体水平偏低
Position	Lion / SPHINX	153.33	最弱维度，模型对位置信息不敏感
Color	InfMLLM	185
OCR	GPT-4V	185	大幅领先第二名 22+ 分
Commonsense	GPT-4V	142.14	认知任务整体偏低，无模型突破 150
Code Reasoning	GPT-4V	170	GPT-4V 独占优势

3.3 四大共性问题

通过实验分析，作者总结了当时 MLLM 的四大问题：

问题一：不遵循指令。尽管指令已经非常简洁（"Please answer yes or no"），部分模型仍然自由发挥、只做陈述而不给出 yes/no 回答。

问题二：感知缺陷。模型会错误识别图像中物体的数量（如把两根香蕉认成三根）、误读图中文字（如将 "15×15" 错读），且同一图像的两个仅差一个词的指令会导致完全矛盾的感知结果。

问题三：推理断裂。模型在推理过程中已经得出了正确的中间结论，但最终答案却与中间结论矛盾。例如，模型认出图中不是办公室场景，却仍回答 "yes"；计算出正确的乘法结果 340，却最终说答案不是 340。

问题四：目标幻觉。当指令中提到图像中不存在的物体时，模型会"想象"该物体存在并回答 "yes"。这种 yes-bias 导致 ACC 约 50% 但 ACC+ 接近 0%——模型对所有问题都回答 yes。

四、局限性与未来方向

数据规模有限：部分认知子任务仅 20 张图像（40 指令对），统计信度偏低
仅支持 Yes/No 格式：虽然便于量化，但无法评估开放式生成能力、长文本推理、多轮对话等 MLLM 核心能力
任务难度偏低：作者在 OCR、数学计算、代码推理等子任务上有意选择了简单样本，未能充分测试模型上限
静态基准：论文发表时的 30 个模型已有许多被后续模型超越，排行榜的时效性有限
缺乏细粒度错误分析：只报告了 ACC/ACC+，未提供按错误类型的细分统计（如 yes-bias 率、感知错误率 vs 推理错误率）
单图像单轮：未涉及多图像理解、视频理解、多轮交互等场景

五、个人思考

5.1 Yes/No 设计的深层价值

MME 的 Yes/No 双问题设计虽然看似简单，但实际上蕴含了一个巧妙的一致性检验：通过要求模型对同一图像的正/反两个问题都回答正确，过滤掉了"碰运气"和"yes-bias"的模型。ACC+ 指标的随机基线仅 25%，远低于单问题 ACC 的 50%，这使得评分具有更好的区分度。这一思路后来被 POPE 等幻觉评测广泛采用。

5.2 评测基准的设计哲学

MME 在四个设计目标（覆盖全面、避免泄漏、指令简洁、易量化）之间做出了明确取舍——为了"易量化"牺牲了"评估深度"。后续的 MMBench、SEED-Bench 等采用多选题形式，在保持可量化的同时提供了更丰富的选项空间；而 MM-Vet、LLaVA-Bench 则走向开放式评估 + GPT-4 评分路线，覆盖更复杂的能力维度但引入了评分噪声。MME 代表了评测基准设计中"精确但窄"与"宽泛但噪"之间的一个关键选择点。

5.3 四大问题的演进

MME 揭示的四大问题在后续工作中逐步被缓解：

指令跟随：经过指令微调的模型（如 InstructBLIP、LLaVA-1.5）已基本解决
感知缺陷：更强的视觉编码器（SigLIP、InternViT）和更高分辨率输入显著改善
推理断裂：CoT prompting 和更大规模的 LLM backbone 有所缓解，但远未解决
目标幻觉：至今仍是 MLLM 的核心挑战，催生了 POPE、CHAIR、Woodpecker 等一系列幻觉检测与缓解工作

5.4 与本项目其他论文的联系

MME 中对 MLLM 幻觉问题的识别和分析，直接推动了后续大量幻觉缓解工作的产生，本项目中记录的 HALC、OPERA、ICD、VGA 等论文均可视为对 MME 所揭示问题的回应。同时，MME 的评估框架设计思路（简洁指令 + 精确量化 + 手工标注）也影响了后续 benchmark 的设计范式。

参考

POPE（Li et al., 2023）：专注于目标幻觉评测的 Yes/No 问答基准，与 MME 的 Existence 子任务思路相近
MMBench（Liu et al., 2023）：采用多选题形式的 MLLM 综合评测，覆盖更多能力维度
LLaVA-Bench（Liu et al., 2023）：开放式评估 + GPT-4 评分，评估对话和推理能力
Woodpecker（Yin et al., 2023）：针对 MLLM 幻觉的后处理纠正框架，与 MME 揭示的幻觉问题直接相关
BLIP-2（Li et al., 2023）：MME 评测的代表性 MLLM 之一，bootstrap 式视觉-语言预训练

02 Alignment & Safety

04 Multimodal

VLM

幻觉缓解

Token 压缩

视频生成

06 Embodied AI

VLA

基础模型

高效推理

推理增强

RL 后训练

World Models

Imitation Learning

09 Evaluation

10 Reinforcement Learning

MME：多模态大语言模型的综合评估基准

一句话总结

一、问题与动机

1.1 MLLM 评估的现有困境

1.2 理想基准的四个特征

二、基准设计

2.1 指令设计：Yes/No 双问题范式

2.2 评估指标

2.3 任务体系：14 个子任务

感知任务（Perception）— 10 个子任务

认知任务（Cognition）— 4 个子任务

三、实验结果

3.1 总体排行榜

3.2 子任务分析

3.3 四大共性问题

四、局限性与未来方向

五、个人思考

5.1 Yes/No 设计的深层价值

5.2 评测基准的设计哲学

5.3 四大问题的演进

5.4 与本项目其他论文的联系

参考

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

MME：多模态大语言模型的综合评估基准 ​

一句话总结 ​

一、问题与动机 ​

1.1 MLLM 评估的现有困境 ​

1.2 理想基准的四个特征 ​

二、基准设计 ​

2.1 指令设计：Yes/No 双问题范式 ​

2.2 评估指标 ​

2.3 任务体系：14 个子任务 ​

感知任务（Perception）— 10 个子任务 ​

认知任务（Cognition）— 4 个子任务 ​

三、实验结果 ​

3.1 总体排行榜 ​

3.2 子任务分析 ​

3.3 四大共性问题 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 Yes/No 设计的深层价值 ​

5.2 评测基准的设计哲学 ​

5.3 四大问题的演进 ​

5.4 与本项目其他论文的联系 ​

参考 ​

MME：多模态大语言模型的综合评估基准

一句话总结

一、问题与动机

1.1 MLLM 评估的现有困境

1.2 理想基准的四个特征

二、基准设计

2.1 指令设计：Yes/No 双问题范式

2.2 评估指标

2.3 任务体系：14 个子任务

感知任务（Perception）— 10 个子任务

认知任务（Cognition）— 4 个子任务

三、实验结果

3.1 总体排行榜

3.2 子任务分析

3.3 四大共性问题

四、局限性与未来方向

五、个人思考

5.1 Yes/No 设计的深层价值

5.2 评测基准的设计哲学

5.3 四大问题的演进

5.4 与本项目其他论文的联系

参考