比较和探索大语言模型评测榜单
输入关键词过滤下方的榜单列表。
Index | 榜单名称 | 测评方式 | 核心指标/任务 | 透明度 | 更新频率 | 模型类型 | 机构 | 测评维度 | 地区 |
---|---|---|---|---|---|---|---|---|---|
1 | 🏆 Chatbot Arena | 人类偏好 | Elo 评分 | 中 | 频繁 | 开源 & 闭源 (聊天模型) | LMSYS ORG | 综合对话能力 / 人类偏好 | 国际 |
2 | LiveBench.ai | 动态/真实世界基准 | 动态/真实世界任务表现 | 中 | 频繁 | 开源 & 闭源 | Together AI / 学术合作者 | 综合 (真实世界表现) | 国际 |
3 | MTEB Leaderboard | 基准测试 | 多项文本嵌入任务得分 | 高 | 频繁 | 主要开源 (嵌入模型) | Hugging Face / MTEB Community | 专业 (文本嵌入质量) | 国际 |
4 | Open Chinese LLM Leaderboard | 基准测试 | Avg(C-Eval, CMMLU, Gaokao等) | 高 | 频繁 | 主要开源中文模型 | BAAI / Community | 综合 (中文基准) | 国内 |
5 | Open LLM Leaderboard | 基准测试 | Avg(ARC, HellaSwag, MMLU, TruthfulQA, Wino, GSM8k等) | 高 | 频繁 | 开源 | Hugging Face | 综合 | 国际 |
6 | Artificial Analysis Models | 基准测试 | 智力指数, 价格, 延迟, 吞吐量 | 低 | 定期 | 主要闭源 / API 模型 | Artificial Analysis | 综合质量, 性能, 成本 | 国际 |
7 | FlagEval (智源指数) | 基准测试 | FlagEval 评测集得分 (多维度) | 中/高 | 定期 | 开源 & 闭源, 侧重中文 | BAAI | 综合 (能力-场景-系统) | 国内 |
8 | HELM | 全面基准测试 | 准确性, 鲁棒性, 公平性, 效率等7项 | 高 | 定期 | 开源 & 闭源 | Stanford CRFM | 综合 (Holistic) | 国际 |
9 | OpenCompass (司南) | 大规模基准测试 | 综合得分 (CompassRank) | 高 | 定期 | 开源 & 闭源, 侧重中文 | OpenCompass Community | 综合 (多维度能力) | 国内 |
10 | Scale Leaderboard | 人类评估 / 基准测试 | Elo 评分 / 综合能力 | 中 | 定期 | 主要闭源 | Scale AI | 综合对话 / 人类偏好 | 国际 |
11 | SuperCLUE | 基准测试, 含人工评估 | 总分 (基础能力, 专业能力, 中文特性) | 中 | 定期 | 开源 & 闭源, 侧重中文 | CLUE Org | 综合 (中文特性) | 国内 |
12 | Vellum LLM Leaderboard | 基准测试 / 平台对比 | 质量, 成本, 延迟 (分任务) | 中 | 定期 | 主要闭源 / API 模型 | Vellum | 实用性, 性能, 成本 | 国际 |
13 | Aider Chat Leaderboard | 编程基准测试 (代码编辑) | Aider 代码编辑基准通过率 | 高 | 定期 / 按需 | 开源 & 闭源 (代码能力) | Aider Chat Project | 专业 (代码编辑) | 国际 |
14 | AlpacaEval | 自动评估 (vs 参考模型) | 胜率 (Win Rate) / LC Win Rate | 高 | 定期 / 按需 | 主要开源 (指令遵循模型) | Stanford (Tatsu Lab) | 综合 (指令遵循质量 - 相对) | 国际 |
15 | EQBench | 基准测试 (对话分析) | EQBench 情商测试得分 | 中 | 定期 / 按需 | 开源 & 闭源 | EQBench 项目 | 专业 (情商 EQ) | 国际 |
16 | EvalPlus Leaderboard | 编程基准测试 | HumanEval+ / MBPP+ 通过率 | 高 | 定期 / 按需 | 开源 & 闭源 (代码能力) | EvalPlus 项目 | 专业 (代码生成 - 鲁棒性) | 国际 |
17 | Gorilla Leaderboard | 基准测试 (API调用) | API 调用准确率 | 高 | 定期 / 按需 | 开源 & 闭源 (支持 API 调用) | UC Berkeley / Gorilla Team | 专业 (API / 工具调用) | 国际 |
18 | SciHorizon 模型列表 | 平台测试 / 展示 | 平台任务表现 | 低 | 随平台更新 | 开源 & 闭源 | 紫为云 (Tsingke) | 平台表现 / 综合 | 国内 |
19 | C-Eval | 基准测试 | 平均准确率 (分学科) | 高 | 固定基准 / 定期更新排名 | 开源 & 闭源 | C-Eval 团队 | 专业 (中文知识与推理) | 国内 |
20 | CMMLU | 基准测试 | 平均准确率 | 高 | 固定基准 / 定期更新排名 | 开源 & 闭源 (含多模态) | CMMLU 项目团队 | 专业 (中文多任务理解) | 国内 |