大语言模型评估测试

CMMLU和C-Eval是两个中文多学科评估基准。CMMLU包含67个主题的测试数据，主要评估中文大模型的知识和推理能力，项目结构分为src、data、script三个模块。C-Eval涵盖52个学科的13948道题目，分为4个难度等级，核心评估代码位于code/evaluator_series目录下，提供命令行参数评估功能。两个项目均开源在GitHub平台，为中文大语言模型评估提供标准化测试框架

wa的一声哭了

514人浏览 · 2025-06-28 11:08:05

wa的一声哭了 · 2025-06-28 11:08:05 发布

文章目录

一、CMMLU

二、C-Eval

三、gsm8k数据集

一、CMMLU

CMMLU全称Chinese Multi-choice Multi-subject Understanding，是一个中文多选多学科理解评估基准，用于评测大语言模型在中文语境下的知识和推理能力。
其中包含艺术、商业、文化、法律、大学、高中等67个主题。
该项目主要包含3个文件。
src、data、script三个文件夹.

src：主要包含调用模型测试的py代码。
data：data文件夹下包含dev和test两个子文件夹。
script：封装了一层shell脚本，调用script中的py文件。

仓库链接：CMMLU

二、C-Eval

C-Eval涵盖52个不同学科的13948个多项选择题，这些题目被分为4个不同的难度请添加图片描述
该项目下主要内容在code/evaluator_series目录下。
其中evaluators文件夹下是对各个具体模型评估函数的实现。
而eval.py和eval_llama.py则是进行了一层封装，便于在命令行输入参数运行评估的脚本。

仓库链接：ceval模型评估脚本
数据集链接：ceval数据集

三、gsm8k数据集

全称Grade School Math 8k，是一个包含8k个小学数学题的英文数据集，解题步骤一般需要2-8步推理过程。
主要评测模型的数学推理能力。
数据格式以QA对的形式出现，同时问题以自然语言的形式描述，而非数学公式。
在这里插入图片描述
数据集链接：gsm8k

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插