LLM Leaderboard Explorer

比较和探索大语言模型评测榜单

输入关键词过滤下方的榜单列表。

Index
榜单名称
测评方式
核心指标/任务
透明度
更新频率
模型类型
机构
测评维度
地区
1🏆 Chatbot Arena人类偏好Elo 评分频繁开源 & 闭源 (聊天模型)LMSYS ORG综合对话能力 / 人类偏好国际
2LiveBench.ai动态/真实世界基准动态/真实世界任务表现频繁开源 & 闭源Together AI / 学术合作者综合 (真实世界表现)国际
3MTEB Leaderboard基准测试多项文本嵌入任务得分频繁主要开源 (嵌入模型)Hugging Face / MTEB Community专业 (文本嵌入质量)国际
4Open Chinese LLM Leaderboard基准测试Avg(C-Eval, CMMLU, Gaokao等)频繁主要开源中文模型BAAI / Community综合 (中文基准)国内
5Open LLM Leaderboard基准测试Avg(ARC, HellaSwag, MMLU, TruthfulQA, Wino, GSM8k等)频繁开源Hugging Face综合国际
6Artificial Analysis Models基准测试智力指数, 价格, 延迟, 吞吐量定期主要闭源 / API 模型Artificial Analysis综合质量, 性能, 成本国际
7FlagEval (智源指数)基准测试FlagEval 评测集得分 (多维度)中/高定期开源 & 闭源, 侧重中文BAAI综合 (能力-场景-系统)国内
8HELM全面基准测试准确性, 鲁棒性, 公平性, 效率等7项定期开源 & 闭源Stanford CRFM综合 (Holistic)国际
9OpenCompass (司南)大规模基准测试综合得分 (CompassRank)定期开源 & 闭源, 侧重中文OpenCompass Community综合 (多维度能力)国内
10Scale Leaderboard人类评估 / 基准测试Elo 评分 / 综合能力定期主要闭源Scale AI综合对话 / 人类偏好国际
11SuperCLUE基准测试, 含人工评估总分 (基础能力, 专业能力, 中文特性)定期开源 & 闭源, 侧重中文CLUE Org综合 (中文特性)国内
12Vellum LLM Leaderboard基准测试 / 平台对比质量, 成本, 延迟 (分任务)定期主要闭源 / API 模型Vellum实用性, 性能, 成本国际
13Aider Chat Leaderboard编程基准测试 (代码编辑)Aider 代码编辑基准通过率定期 / 按需开源 & 闭源 (代码能力)Aider Chat Project专业 (代码编辑)国际
14AlpacaEval自动评估 (vs 参考模型)胜率 (Win Rate) / LC Win Rate定期 / 按需主要开源 (指令遵循模型)Stanford (Tatsu Lab)综合 (指令遵循质量 - 相对)国际
15EQBench基准测试 (对话分析)EQBench 情商测试得分定期 / 按需开源 & 闭源EQBench 项目专业 (情商 EQ)国际
16EvalPlus Leaderboard编程基准测试HumanEval+ / MBPP+ 通过率定期 / 按需开源 & 闭源 (代码能力)EvalPlus 项目专业 (代码生成 - 鲁棒性)国际
17Gorilla Leaderboard基准测试 (API调用)API 调用准确率定期 / 按需开源 & 闭源 (支持 API 调用)UC Berkeley / Gorilla Team专业 (API / 工具调用)国际
18SciHorizon 模型列表平台测试 / 展示平台任务表现随平台更新开源 & 闭源紫为云 (Tsingke)平台表现 / 综合国内
19C-Eval基准测试平均准确率 (分学科)固定基准 / 定期更新排名开源 & 闭源C-Eval 团队专业 (中文知识与推理)国内
20CMMLU基准测试平均准确率固定基准 / 定期更新排名开源 & 闭源 (含多模态)CMMLU 项目团队专业 (中文多任务理解)国内