GitHub
2024-11-08 23:47:260 次浏览
投稿
CLiB中文大模型能力评测榜单(持续更新)目前已囊括128个大模型,覆盖chatgpt、gpt-4o、谷歌gemini、百度文心一言、阿里通义千问、百川、讯飞星火、商汤senseChat、minimax等商用模型,以及qwen2.5、llama3.1、glm4、书生internLM2.5、openbuddy、AquilaChat等开源大模型。模型来源涉及国内外大厂、大模型创业公司、高校研究机构。支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、数据分析能力、中文编码效率、中文指令遵从、算术能力。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行!目录🔄最近更新⚓TODO📝大模型基本信息📊排行榜综合能力排行榜10B以下开源大模型排行榜10B~20B开源大模型排行榜20B以上开源大模型排行榜分类能力排行榜信息抽取能力排行榜阅读理解能力排行榜数据分析排行榜中文指令遵从排行榜数学基础(算术)能力排行榜中文编码效率排行榜🌐各项能力评分⚖️原始评测数据为什么做榜单?最近更新[2024/10/20] 发布v2.3版本评测榜单新增6个模型:yi-lightning、gemini-1.5-flash、gemini-1.0-pro、gemini-1.5-pro、GLM-4-Long、GLM-4-Plus更新4个模型:GLM4、qwen-max、ERNIE-4.0-Turbo-8K、ERNIE-3.5-8K删除陈旧的模型:Baichuan2-13B-Chat、Baichuan2-7B-Chat、deepseek-llm-67b-chat、gpt4、gemma-2b-it、gemma-7b-it[2024/9/29] 发布v2.2版本评测榜单新增qwen2.5系列7个开源模型[2024/9/21] 新增开源大模型发布历史 link[2024/8/27] 发布v2.1版本评测榜单新增2个大模型:Llama-3.1-8B-Instruct、Llama-3.1-70B-Instruct完善大模型信息汇总列表,link[2024/8/7] 发布v2.0版本评测榜单中文指令遵从、算术运算计入总分,作为综合能力排行依据新增7个大模型:qwen2-1.5b-instruct、qwen2-0.5b-instruct、qwen2-57b-a14b-instruct、internlm2-chat-1_8b、internlm2_5-7b-chat、gemma-2-9b-it、DeepSeek-V2-Lite-Chat删除陈旧的模型:aquilachat2-34b、AquilaChat2-70B-Expr、BlueLM-7B-Chat、openbuddy-deepseek-67b、openbuddy-mixtral-7bx8、tigerbot-13b-chat-v4、Yi-34B-Chat[2024/7/26] 发布v1.21版本评测榜单新增8个大模型:gpt-4o-mini、讯飞4.0Ultra、ERNIE-3.5-8K、ERNIE-4.0-Turbo-8K、ERNIE-Speed-8K、Doubao-lite-32k、Doubao-pro-32k、qwen-turbo删除陈旧的模型:baichuan3、minimax-abab6-chat、tigerbot-70b-chat-v3、openbuddy-zephyr-7b、Yi-6B-Chat、chatglm3-6b、Llama-2-70b-chat、miniCPM-2B-sft、openbuddy-mistral-7b[2024/7/15] 发布v1.20版本评测榜单新增10个大模型:gpt-4o、yi-spark、qwen-plus、qwen-long、GLM-4-AirX、GLM-4-Air、GLM-4-Flash、Baichuan4、Baichuan3-Turbo、SenseChat-Turbo更新模型:商汤senseChat删除陈旧的模型:谷歌bard、openbuddy-llama2-70b、XVERSE-65B-Chat、微软new-bing、BELLE-Llama2-13B-chat-0.4M、讯飞星火v2.0、chatglm-std、chatglm-pro、chatglm-turbo、字节跳动豆包[2024/6/29] 发布v1.19版本评测榜单新增数学基础(算术)能力排行榜新增5个大模型:Qwen2-7B-Instruct、Qwen2-72B-Instruct 、glm-4-9b-chat、Yi-1.5-9B-Chat、Yi-1.5-34B-Chat排行榜删除陈旧的模型[2024/6/2] 发布v1.18版本评测榜单新增6个大模型:abab6.5-chat、abab6.5s-chat、deepseek-chat-v2、yi-large、yi-large-turbo、yi-medium中文指令遵从排行榜补充