MME:多模态大语言模型的综合评估基准
论文:MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
作者:Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li*, Xing Sun, Yunsheng Wu, Rongrong Ji
机构:Tencent Youtu Lab、Xiamen University
发布时间:2023年6月(v4: 2024年3月)
发表会议:NeurIPS 2025 Datasets and Benchmarks Track
分类标签:
MLLM 评测感知与认知Yes/No 指令手工标注14 子任务30 模型对比
一句话总结
MME 是首个针对多模态大语言模型(MLLM)的综合评测基准,覆盖感知(10 个子任务)和认知(4 个子任务)共 14 个维度,采用人工构造的 Yes/No 指令对避免数据泄漏并实现精确量化统计,系统评测了 30 个先进 MLLM 并揭示了指令跟随失败、感知缺陷、推理断裂和目标幻觉四大共性问题。
一、问题与动机
1.1 MLLM 评估的现有困境
随着 MLLM(如 GPT-4V、LLaVA、MiniGPT-4)的快速涌现,已有的定量评估方式暴露出三大局限:
| 评估方式 | 问题 |
|---|---|
| 传统多模态数据集(VQA、Image Caption) | 难以反映 MLLM 的涌现能力;训练集不统一导致无法保证测试集未被用于训练(数据泄漏风险) |
| 开放式评估 | 数据不公开或规模极小(如仅 50 张图像) |
| 单维度评估(如 POPE 只测幻觉) | 无法全面刻画 MLLM 的综合能力 |
1.2 理想基准的四个特征
作者认为一个通用的综合评测基准应同时满足:
- 覆盖全面:同时测试感知(perception)和认知(cognition)能力
- 避免泄漏:标注数据不直接来自已有公开数据集
- 指令简洁:统一简短指令,公平对比所有模型,而非依赖 prompt engineering
- 易于量化:模型回答应便于自动化定量统计,避免 GPT 评分或人工打分的主观性
二、基准设计
2.1 指令设计:Yes/No 双问题范式
MME 的核心设计原则是让模型回答 "yes" 或 "no"。对每张测试图像,人工设计两条指令:
- 第一条指令的正确答案为 yes
- 第二条指令的正确答案为 no
指令格式统一为:[问题内容] Please answer yes or no.
这种设计的好处是:只有当模型对同一图像的两个互补问题都回答正确时,才能说明模型真正理解了图像内容,而非简单猜测。
2.2 评估指标
基于 Yes/No 输出,MME 定义了两个互补指标:
- Accuracy(ACC):基于每个问题计算,随机基线为 50%
- Accuracy+(ACC+):基于每张图像计算,要求同一图像的两个问题都回答正确才算对,随机基线仅 25%
子任务得分 = ACC + ACC+,因此每个子任务满分为 200。感知总分满分 2000(10 个子任务),认知总分满分 800(4 个子任务)。
2.3 任务体系:14 个子任务
感知任务(Perception)— 10 个子任务
粗粒度识别(图像来自 COCO,指令人工构造):
| 子任务 | 内容 | 数据量 |
|---|---|---|
| Existence | 判断特定物体是否存在 | 30 图 / 60 指令 |
| Count | 判断物体数量 | 30 图 / 60 指令 |
| Position | 判断物体位置关系 | 30 图 / 60 指令 |
| Color | 判断物体颜色 | 30 图 / 60 指令 |
细粒度识别(图像来自公开数据集,指令人工构造):
| 子任务 | 内容 | 数据量 |
|---|---|---|
| Poster | 识别电影海报信息 | 147 图 |
| Celebrity | 识别名人(红框标注) | 170 图 |
| Scene | 识别场景类别 | 200 图 |
| Landmark | 识别地标建筑 | 200 图 |
| Artwork | 识别艺术品信息 | 200 图 |
OCR:识别图像中的文字(20 图 / 40 指令)。
认知任务(Cognition)— 4 个子任务
| 子任务 | 内容 | 数据量 |
|---|---|---|
| Commonsense Reasoning | 基于图像的常识推理 | 70 图 / 140 指令 |
| Numerical Calculation | 读取图中算术题并计算 | 20 图 / 40 指令 |
| Text Translation | 将图中中文翻译为英文 | 20 图 / 40 指令 |
| Code Reasoning | 读取图中代码并推理输出 | 20 图 / 40 指令 |
所有指令-答案对均为人工设计,即使使用了公开数据集的图像,也不直接使用其原始标注。
三、实验结果
3.1 总体排行榜
共评测 30 个 MLLM,包括 GPT-4V、LLaVA、BLIP-2、InstructBLIP、MiniGPT-4、Qwen-VL-Chat 等。
感知能力排行(满分 2000):
| 排名 | 模型 | 得分 |
|---|---|---|
| 1 | WeMM | 1621.66 |
| 2 | InfMLLM | 1567.99 |
| 3 | SPHINX | 1560.15 |
| 4 | Lion | 1545.80 |
| 5 | LLaVA | 1531.31 |
| 10 | GPT-4V | 1409.43 |
认知能力排行(满分 800):
| 排名 | 模型 | 得分 |
|---|---|---|
| 1 | GPT-4V | 517.14 |
| 2 | Lion | 445.71 |
| 3 | WeMM | 445.00 |
| 4 | MMICL | 428.93 |
关键发现:
- 感知 vs 认知的解耦:感知排名第一的 WeMM 在认知上仅排第三;认知排名第一的 GPT-4V 在感知上仅排第十
- 粗粒度 vs 细粒度的差异:某些模型(如 Qwen-VL-Chat)在粗粒度任务上一般,但细粒度(海报识别)表现优秀,说明分维度评估的必要性
- GPT-4V 的特殊情况:拒绝回答涉及个人的名人识别问题导致该子任务得零分;代码推理大幅领先(170 分 vs 第二名 130 分)
3.2 子任务分析
| 子任务 | 最佳模型 | 最佳得分/满分 200 | 备注 |
|---|---|---|---|
| Existence | Otter / Lynx / WeMM 等 | 195 | 多个模型接近满分,任务较简单 |
| Count | Muffin | 163.33 | 整体水平偏低 |
| Position | Lion / SPHINX | 153.33 | 最弱维度,模型对位置信息不敏感 |
| Color | InfMLLM | 185 | |
| OCR | GPT-4V | 185 | 大幅领先第二名 22+ 分 |
| Commonsense | GPT-4V | 142.14 | 认知任务整体偏低,无模型突破 150 |
| Code Reasoning | GPT-4V | 170 | GPT-4V 独占优势 |
3.3 四大共性问题
通过实验分析,作者总结了当时 MLLM 的四大问题:
问题一:不遵循指令。尽管指令已经非常简洁("Please answer yes or no"),部分模型仍然自由发挥、只做陈述而不给出 yes/no 回答。
问题二:感知缺陷。模型会错误识别图像中物体的数量(如把两根香蕉认成三根)、误读图中文字(如将 "15×15" 错读),且同一图像的两个仅差一个词的指令会导致完全矛盾的感知结果。
问题三:推理断裂。模型在推理过程中已经得出了正确的中间结论,但最终答案却与中间结论矛盾。例如,模型认出图中不是办公室场景,却仍回答 "yes";计算出正确的乘法结果 340,却最终说答案不是 340。
问题四:目标幻觉。当指令中提到图像中不存在的物体时,模型会"想象"该物体存在并回答 "yes"。这种 yes-bias 导致 ACC 约 50% 但 ACC+ 接近 0%——模型对所有问题都回答 yes。
四、局限性与未来方向
- 数据规模有限:部分认知子任务仅 20 张图像(40 指令对),统计信度偏低
- 仅支持 Yes/No 格式:虽然便于量化,但无法评估开放式生成能力、长文本推理、多轮对话等 MLLM 核心能力
- 任务难度偏低:作者在 OCR、数学计算、代码推理等子任务上有意选择了简单样本,未能充分测试模型上限
- 静态基准:论文发表时的 30 个模型已有许多被后续模型超越,排行榜的时效性有限
- 缺乏细粒度错误分析:只报告了 ACC/ACC+,未提供按错误类型的细分统计(如 yes-bias 率、感知错误率 vs 推理错误率)
- 单图像单轮:未涉及多图像理解、视频理解、多轮交互等场景
五、个人思考
5.1 Yes/No 设计的深层价值
MME 的 Yes/No 双问题设计虽然看似简单,但实际上蕴含了一个巧妙的一致性检验:通过要求模型对同一图像的正/反两个问题都回答正确,过滤掉了"碰运气"和"yes-bias"的模型。ACC+ 指标的随机基线仅 25%,远低于单问题 ACC 的 50%,这使得评分具有更好的区分度。这一思路后来被 POPE 等幻觉评测广泛采用。
5.2 评测基准的设计哲学
MME 在四个设计目标(覆盖全面、避免泄漏、指令简洁、易量化)之间做出了明确取舍——为了"易量化"牺牲了"评估深度"。后续的 MMBench、SEED-Bench 等采用多选题形式,在保持可量化的同时提供了更丰富的选项空间;而 MM-Vet、LLaVA-Bench 则走向开放式评估 + GPT-4 评分路线,覆盖更复杂的能力维度但引入了评分噪声。MME 代表了评测基准设计中"精确但窄"与"宽泛但噪"之间的一个关键选择点。
5.3 四大问题的演进
MME 揭示的四大问题在后续工作中逐步被缓解:
- 指令跟随:经过指令微调的模型(如 InstructBLIP、LLaVA-1.5)已基本解决
- 感知缺陷:更强的视觉编码器(SigLIP、InternViT)和更高分辨率输入显著改善
- 推理断裂:CoT prompting 和更大规模的 LLM backbone 有所缓解,但远未解决
- 目标幻觉:至今仍是 MLLM 的核心挑战,催生了 POPE、CHAIR、Woodpecker 等一系列幻觉检测与缓解工作
5.4 与本项目其他论文的联系
MME 中对 MLLM 幻觉问题的识别和分析,直接推动了后续大量幻觉缓解工作的产生,本项目中记录的 HALC、OPERA、ICD、VGA 等论文均可视为对 MME 所揭示问题的回应。同时,MME 的评估框架设计思路(简洁指令 + 精确量化 + 手工标注)也影响了后续 benchmark 的设计范式。
参考
- POPE(Li et al., 2023):专注于目标幻觉评测的 Yes/No 问答基准,与 MME 的 Existence 子任务思路相近
- MMBench(Liu et al., 2023):采用多选题形式的 MLLM 综合评测,覆盖更多能力维度
- LLaVA-Bench(Liu et al., 2023):开放式评估 + GPT-4 评分,评估对话和推理能力
- Woodpecker(Yin et al., 2023):针对 MLLM 幻觉的后处理纠正框架,与 MME 揭示的幻觉问题直接相关
- BLIP-2(Li et al., 2023):MME 评测的代表性 MLLM 之一,bootstrap 式视觉-语言预训练