Skip to content
🧠 LLM Paper Notes
搜索
K
Main Navigation
首页
论文索引
笔记模板
主题
Menu
回到顶部
目录
09 Evaluation & Benchmarks
评测:Benchmark 设计(MMLU、HumanEval)、LLM-as-Judge、Arena 排行榜、数据污染检测、评估方法论等。
论文列表
论文
关键词
年份
MME
MLLM 评测、感知与认知、Yes/No 指令、手工标注、14 子任务
2024