LLM Leaderboard Explorer

比较和探索大语言模型评测榜单

Index	榜单名称	测评方式	核心指标/任务	透明度	更新频率	模型类型	机构	测评维度	目标受众	地区	备注
1	🏆 Chatbot Arena	人类偏好	Elo 评分	中	频繁	开源 & 闭源 (聊天模型)	LMSYS ORG	综合对话能力 / 人类偏好	普通用户, 开发者	国际	侧重对话体验, 排名变动快
2	LiveBench.ai	动态/真实世界基准	动态/真实世界任务表现	中	频繁	开源 & 闭源	Together AI / 学术合作者	综合 (真实世界表现)	研究者, 开发者	国际	强调动态、真实场景评测
3	MTEB Leaderboard	基准测试	多项文本嵌入任务得分	高	频繁	主要开源 (嵌入模型)	Hugging Face / MTEB Community	专业 (文本嵌入质量)	研究者, 开发者	国际	专注嵌入模型
4	Open Chinese LLM Leaderboard	基准测试	Avg(C-Eval, CMMLU, Gaokao等)	高	频繁	主要开源中文模型	BAAI / Community	综合 (中文基准)	开源社区, 开发者	国内	HF 上的中文开源榜
5	Open LLM Leaderboard	基准测试	Avg(ARC, HellaSwag, MMLU, TruthfulQA, Wino, GSM8k等)	高	频繁	开源	Hugging Face	综合	开源社区, 开发者	国际	HF社区主要开源榜
6	Artificial Analysis Models	基准测试	智力指数, 价格, 延迟, 吞吐量	低	定期	主要闭源 / API 模型	Artificial Analysis	综合质量, 性能, 成本	企业决策者, 开发者	国际	关注API实用性指标
7	FlagEval (智源指数)	基准测试	FlagEval 评测集得分 (多维度)	中/高	定期	开源 & 闭源, 侧重中文	BAAI	综合 (能力-场景-系统)	国内研究者, 开发者	国内	官方背景，体系化评测
8	HELM	全面基准测试	准确性, 鲁棒性, 公平性, 效率等7项	高	定期	开源 & 闭源	Stanford CRFM	综合 (Holistic)	学术研究者	国际	非常全面, 学术性强
9	OpenCompass (司南)	大规模基准测试	综合得分 (CompassRank)	高	定期	开源 & 闭源, 侧重中文	OpenCompass Community	综合 (多维度能力)	国内研究者, 开发者	国内	开放评测体系，覆盖广
10	Scale Leaderboard	人类评估 / 基准测试	Elo 评分 / 综合能力	中	定期	主要闭源	Scale AI	综合对话 / 人类偏好	企业, 研究者, 开发者	国际	强调人类评估, 对比顶尖闭源模型
11	SuperCLUE	基准测试, 含人工评估	总分 (基础能力, 专业能力, 中文特性)	中	定期	开源 & 闭源, 侧重中文	CLUE Org	综合 (中文特性)	国内开发者, 企业, 研究者	国内	国内代表性综合榜单
12	Vellum LLM Leaderboard	基准测试 / 平台对比	质量, 成本, 延迟 (分任务)	中	定期	主要闭源 / API 模型	Vellum	实用性, 性能, 成本	开发者, 企业决策者	国际	侧重 API 模型实用对比
13	Aider Chat Leaderboard	编程基准测试 (代码编辑)	Aider 代码编辑基准通过率	高	定期 / 按需	开源 & 闭源 (代码能力)	Aider Chat Project	专业 (代码编辑)	开发者	国际	专注代码编辑任务
14	AlpacaEval	自动评估 (vs 参考模型)	胜率 (Win Rate) / LC Win Rate	高	定期 / 按需	主要开源 (指令遵循模型)	Stanford (Tatsu Lab)	综合 (指令遵循质量 - 相对)	研究者, 开发者	国际	基于模型自身打分比较
15	EQBench	基准测试 (对话分析)	EQBench 情商测试得分	中	定期 / 按需	开源 & 闭源	EQBench 项目	专业 (情商 EQ)	研究者, 开发者	国际	专注情商能力
16	EvalPlus Leaderboard	编程基准测试	HumanEval+ / MBPP+ 通过率	高	定期 / 按需	开源 & 闭源 (代码能力)	EvalPlus 项目	专业 (代码生成 - 鲁棒性)	研究者, 开发者	国际	强化代码评测
17	Gorilla Leaderboard	基准测试 (API调用)	API 调用准确率	高	定期 / 按需	开源 & 闭源 (支持 API 调用)	UC Berkeley / Gorilla Team	专业 (API / 工具调用)	研究者, 开发者	国际	专注工具使用/函数调用
18	SciHorizon 模型列表	平台测试 / 展示	平台任务表现	低	随平台更新	开源 & 闭源	紫为云 (Tsingke)	平台表现 / 综合	平台用户	国内	更像模型平台展示
19	C-Eval	基准测试	平均准确率 (分学科)	高	固定基准 / 定期更新排名	开源 & 闭源	C-Eval 团队	专业 (中文知识与推理)	研究者, 开发者	国内	专注中文核心知识
20	CMMLU	基准测试	平均准确率	高	固定基准 / 定期更新排名	开源 & 闭源 (含多模态)	CMMLU 项目团队	专业 (中文多任务理解)	研究者, 开发者	国内	重要中文理解基准(含多模态)