Skip to content

09 Evaluation & Benchmarks

评测:Benchmark 设计(MMLU、HumanEval)、LLM-as-Judge、Arena 排行榜、数据污染检测、评估方法论等。

论文列表

论文关键词年份
MMEMLLM 评测、感知与认知、Yes/No 指令、手工标注、14 子任务2024