一、CMMLU

CMMLU全称Chinese Multi-choice Multi-subject Understanding,是一个中文多选多学科理解评估基准,用于评测大语言模型在中文语境下的知识和推理能力。
其中包含艺术、商业、文化、法律、大学、高中等67个主题。
该项目主要包含3个文件。
srcdatascript三个文件夹.

  1. src:主要包含调用模型测试的py代码。
  2. data:data文件夹下包含dev和test两个子文件夹。在这里插入图片描述在这里插入图片描述
  3. script:封装了一层shell脚本,调用script中的py文件。

仓库链接:CMMLU

二、C-Eval

C-Eval涵盖52个不同学科的13948个多项选择题,这些题目被分为4个不同的难度请添加图片描述
该项目下主要内容在code/evaluator_series目录下。
其中evaluators文件夹下是对各个具体模型评估函数的实现。
而eval.py和eval_llama.py则是进行了一层封装,便于在命令行输入参数运行评估的脚本。

仓库链接:ceval模型评估脚本
数据集链接:ceval数据集

三、gsm8k数据集

全称Grade School Math 8k,是一个包含8k个小学数学题的英文数据集,解题步骤一般需要2-8步推理过程。
主要评测模型的数学推理能力。
数据格式以QA对的形式出现,同时问题以自然语言的形式描述,而非数学公式。
在这里插入图片描述
数据集链接:gsm8k

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐