Skip to content

MME:多模态大语言模型的综合评估基准

论文MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

作者:Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li*, Xing Sun, Yunsheng Wu, Rongrong Ji

机构:Tencent Youtu Lab、Xiamen University

发布时间:2023年6月(v4: 2024年3月)

发表会议:NeurIPS 2025 Datasets and Benchmarks Track

链接arXiv | GitHub

分类标签MLLM 评测 感知与认知 Yes/No 指令 手工标注 14 子任务 30 模型对比


一句话总结

MME 是首个针对多模态大语言模型(MLLM)的综合评测基准,覆盖感知(10 个子任务)和认知(4 个子任务)共 14 个维度,采用人工构造的 Yes/No 指令对避免数据泄漏并实现精确量化统计,系统评测了 30 个先进 MLLM 并揭示了指令跟随失败、感知缺陷、推理断裂和目标幻觉四大共性问题。


一、问题与动机

1.1 MLLM 评估的现有困境

随着 MLLM(如 GPT-4V、LLaVA、MiniGPT-4)的快速涌现,已有的定量评估方式暴露出三大局限:

评估方式问题
传统多模态数据集(VQA、Image Caption)难以反映 MLLM 的涌现能力;训练集不统一导致无法保证测试集未被用于训练(数据泄漏风险)
开放式评估数据不公开或规模极小(如仅 50 张图像)
单维度评估(如 POPE 只测幻觉)无法全面刻画 MLLM 的综合能力

1.2 理想基准的四个特征

作者认为一个通用的综合评测基准应同时满足:

  1. 覆盖全面:同时测试感知(perception)和认知(cognition)能力
  2. 避免泄漏:标注数据不直接来自已有公开数据集
  3. 指令简洁:统一简短指令,公平对比所有模型,而非依赖 prompt engineering
  4. 易于量化:模型回答应便于自动化定量统计,避免 GPT 评分或人工打分的主观性

二、基准设计

2.1 指令设计:Yes/No 双问题范式

MME 的核心设计原则是让模型回答 "yes" 或 "no"。对每张测试图像,人工设计两条指令

  • 第一条指令的正确答案为 yes
  • 第二条指令的正确答案为 no

指令格式统一为:[问题内容] Please answer yes or no.

这种设计的好处是:只有当模型对同一图像的两个互补问题都回答正确时,才能说明模型真正理解了图像内容,而非简单猜测。

2.2 评估指标

基于 Yes/No 输出,MME 定义了两个互补指标:

  • Accuracy(ACC):基于每个问题计算,随机基线为 50%
  • Accuracy+(ACC+):基于每张图像计算,要求同一图像的两个问题都回答正确才算对,随机基线仅 25%

子任务得分 = ACC + ACC+,因此每个子任务满分为 200。感知总分满分 2000(10 个子任务),认知总分满分 800(4 个子任务)。

2.3 任务体系:14 个子任务

感知任务(Perception)— 10 个子任务

粗粒度识别(图像来自 COCO,指令人工构造):

子任务内容数据量
Existence判断特定物体是否存在30 图 / 60 指令
Count判断物体数量30 图 / 60 指令
Position判断物体位置关系30 图 / 60 指令
Color判断物体颜色30 图 / 60 指令

细粒度识别(图像来自公开数据集,指令人工构造):

子任务内容数据量
Poster识别电影海报信息147 图
Celebrity识别名人(红框标注)170 图
Scene识别场景类别200 图
Landmark识别地标建筑200 图
Artwork识别艺术品信息200 图

OCR:识别图像中的文字(20 图 / 40 指令)。

认知任务(Cognition)— 4 个子任务

子任务内容数据量
Commonsense Reasoning基于图像的常识推理70 图 / 140 指令
Numerical Calculation读取图中算术题并计算20 图 / 40 指令
Text Translation将图中中文翻译为英文20 图 / 40 指令
Code Reasoning读取图中代码并推理输出20 图 / 40 指令

所有指令-答案对均为人工设计,即使使用了公开数据集的图像,也不直接使用其原始标注。


三、实验结果

3.1 总体排行榜

共评测 30 个 MLLM,包括 GPT-4V、LLaVA、BLIP-2、InstructBLIP、MiniGPT-4、Qwen-VL-Chat 等。

感知能力排行(满分 2000)

排名模型得分
1WeMM1621.66
2InfMLLM1567.99
3SPHINX1560.15
4Lion1545.80
5LLaVA1531.31
10GPT-4V1409.43

认知能力排行(满分 800)

排名模型得分
1GPT-4V517.14
2Lion445.71
3WeMM445.00
4MMICL428.93

关键发现:

  • 感知 vs 认知的解耦:感知排名第一的 WeMM 在认知上仅排第三;认知排名第一的 GPT-4V 在感知上仅排第十
  • 粗粒度 vs 细粒度的差异:某些模型(如 Qwen-VL-Chat)在粗粒度任务上一般,但细粒度(海报识别)表现优秀,说明分维度评估的必要性
  • GPT-4V 的特殊情况:拒绝回答涉及个人的名人识别问题导致该子任务得零分;代码推理大幅领先(170 分 vs 第二名 130 分)

3.2 子任务分析

子任务最佳模型最佳得分/满分 200备注
ExistenceOtter / Lynx / WeMM 等195多个模型接近满分,任务较简单
CountMuffin163.33整体水平偏低
PositionLion / SPHINX153.33最弱维度,模型对位置信息不敏感
ColorInfMLLM185
OCRGPT-4V185大幅领先第二名 22+ 分
CommonsenseGPT-4V142.14认知任务整体偏低,无模型突破 150
Code ReasoningGPT-4V170GPT-4V 独占优势

3.3 四大共性问题

通过实验分析,作者总结了当时 MLLM 的四大问题:

问题一:不遵循指令。尽管指令已经非常简洁("Please answer yes or no"),部分模型仍然自由发挥、只做陈述而不给出 yes/no 回答。

问题二:感知缺陷。模型会错误识别图像中物体的数量(如把两根香蕉认成三根)、误读图中文字(如将 "15×15" 错读),且同一图像的两个仅差一个词的指令会导致完全矛盾的感知结果。

问题三:推理断裂。模型在推理过程中已经得出了正确的中间结论,但最终答案却与中间结论矛盾。例如,模型认出图中不是办公室场景,却仍回答 "yes";计算出正确的乘法结果 340,却最终说答案不是 340。

问题四:目标幻觉。当指令中提到图像中不存在的物体时,模型会"想象"该物体存在并回答 "yes"。这种 yes-bias 导致 ACC 约 50% 但 ACC+ 接近 0%——模型对所有问题都回答 yes。


四、局限性与未来方向

  1. 数据规模有限:部分认知子任务仅 20 张图像(40 指令对),统计信度偏低
  2. 仅支持 Yes/No 格式:虽然便于量化,但无法评估开放式生成能力、长文本推理、多轮对话等 MLLM 核心能力
  3. 任务难度偏低:作者在 OCR、数学计算、代码推理等子任务上有意选择了简单样本,未能充分测试模型上限
  4. 静态基准:论文发表时的 30 个模型已有许多被后续模型超越,排行榜的时效性有限
  5. 缺乏细粒度错误分析:只报告了 ACC/ACC+,未提供按错误类型的细分统计(如 yes-bias 率、感知错误率 vs 推理错误率)
  6. 单图像单轮:未涉及多图像理解、视频理解、多轮交互等场景

五、个人思考

5.1 Yes/No 设计的深层价值

MME 的 Yes/No 双问题设计虽然看似简单,但实际上蕴含了一个巧妙的一致性检验:通过要求模型对同一图像的正/反两个问题都回答正确,过滤掉了"碰运气"和"yes-bias"的模型。ACC+ 指标的随机基线仅 25%,远低于单问题 ACC 的 50%,这使得评分具有更好的区分度。这一思路后来被 POPE 等幻觉评测广泛采用。

5.2 评测基准的设计哲学

MME 在四个设计目标(覆盖全面、避免泄漏、指令简洁、易量化)之间做出了明确取舍——为了"易量化"牺牲了"评估深度"。后续的 MMBench、SEED-Bench 等采用多选题形式,在保持可量化的同时提供了更丰富的选项空间;而 MM-Vet、LLaVA-Bench 则走向开放式评估 + GPT-4 评分路线,覆盖更复杂的能力维度但引入了评分噪声。MME 代表了评测基准设计中"精确但窄"与"宽泛但噪"之间的一个关键选择点。

5.3 四大问题的演进

MME 揭示的四大问题在后续工作中逐步被缓解:

  • 指令跟随:经过指令微调的模型(如 InstructBLIP、LLaVA-1.5)已基本解决
  • 感知缺陷:更强的视觉编码器(SigLIP、InternViT)和更高分辨率输入显著改善
  • 推理断裂:CoT prompting 和更大规模的 LLM backbone 有所缓解,但远未解决
  • 目标幻觉:至今仍是 MLLM 的核心挑战,催生了 POPE、CHAIR、Woodpecker 等一系列幻觉检测与缓解工作

5.4 与本项目其他论文的联系

MME 中对 MLLM 幻觉问题的识别和分析,直接推动了后续大量幻觉缓解工作的产生,本项目中记录的 HALC、OPERA、ICD、VGA 等论文均可视为对 MME 所揭示问题的回应。同时,MME 的评估框架设计思路(简洁指令 + 精确量化 + 手工标注)也影响了后续 benchmark 的设计范式。


参考

  • POPE(Li et al., 2023):专注于目标幻觉评测的 Yes/No 问答基准,与 MME 的 Existence 子任务思路相近
  • MMBench(Liu et al., 2023):采用多选题形式的 MLLM 综合评测,覆盖更多能力维度
  • LLaVA-Bench(Liu et al., 2023):开放式评估 + GPT-4 评分,评估对话和推理能力
  • Woodpecker(Yin et al., 2023):针对 MLLM 幻觉的后处理纠正框架,与 MME 揭示的幻觉问题直接相关
  • BLIP-2(Li et al., 2023):MME 评测的代表性 MLLM 之一,bootstrap 式视觉-语言预训练