问答类AI智能体评测方案
维度用来描述从哪些方面对智能体进行效果评估。通常可以分层对维度进行细化,第一层维度通常是场景,用来描述智能体可以完成哪些业务场景,第二层维度通常是任务,描述一个业务场景下需要完成的具体任务。通过对智能体进行场景和任务的拆解,可以确保更加全面地对智能体进行多方面、多维度的效果评估。维度定义对于数据集构建、指标设定具有重要参考意义。业务场景(第一层维度)任务定义(第二层维度)销售相关问题:意图识别、黑
本文系统介绍了AI评测体系的构建方法,包括前置依赖、维度定义(业务场景和具体任务)、客观与主观指标设计、评测集构建、人工与自动化评估方法、打分与对比评估策略,以及端到端与分段评估链路。文章详细阐述了各指标的计算逻辑和应用场景,为开发者提供了从理论到实践的完整AI评测框架,帮助准确评估智能体性能并持续优化。
👍
根据一篇文章讲清楚AI评测体系是什么?创建本方案
前置依赖
智能体评测依赖智能体的产品需求文档和智能体的系统设计文档。这是进行智能体评测需求分析分析的前提。
| 类型 | 链接 |
| 产品需求 | |
| 系统设计 |
维度定义
维度用来描述从哪些方面对智能体进行效果评估。通常可以分层对维度进行细化,第一层维度通常是场景,用来描述智能体可以完成哪些业务场景,第二层维度通常是任务,描述一个业务场景下需要完成的具体任务。
通过对智能体进行场景和任务的拆解,可以确保更加全面地对智能体进行多方面、多维度的效果评估。维度定义对于数据集构建、指标设定具有重要参考意义。
| 业务场景(第一层维度) | 任务定义(第二层维度) |
| 销售相关问题: | 意图识别、黑化改写、文档检索、答案生成 |
| 代码相关问题: | 联网搜索、知识检索模型调用、答案生成 |
| 文档内容洞察 | 意图识别、文档理解、知识检索、洞察生成。 |
| 机器人群聊记录洞察 | 群聊记录洞察 |
| …… | …… |
指标定义
智能体评估的指标,按照指标的计算逻辑可以分为客观指标和主观指标:
- 客观指标是通过公式计算得到,有很多成熟论文可以参考。主观指标需根据具体任务要求进行详细定义,明确指标含义和打分标准。
- 客观指标评测比较成熟,稳定性好,但不能完全和人类评价对齐。主观指标设计复杂,受人类主观影响比较大,但也更能表达AI效果的人类主观判断。
- 客观指标在学术上使用的更多,方便学术交流和横向比较。主观指标在企业应用更广,更加关注应用带来的商业价值。
客观指标(定义+计算方法)
| 指标名称 | 定义 | 计算方法 | 举例子 |
| Context Precision 上下文精度 | 衡量检索到的上下文(context)与用户问题(query)的相关程度,理想情况下相关度高的排在前面。 | 上下文精度(Context Precision)的计算方法是对上下文中每个片段的计算公式:这里的K代表检索到的上下文(retrieved_contexts)中的总片段数,而V(k)是一个二元变量,表示在排名k位置上的片段的相关性指示器,其值可以是0或1。如果一个片段在排名k时被认为是相关的,则V(k)为1;如果无关,则V(k)为0。precision@kPrecision@k | 假设你正在使用一个搜索引擎来搜索“最好的智能手机”,搜索引擎返回了以下结果列表: 1. 智能手机评测文章 2. 智能手机销售网站 3. 智能手机用户论坛 4. 智能手机游戏应用 5. 智能手机比较工具 假设你只关注前3个结果(即k=3),并且你已经确定: * 结果1(智能手机评测文章)是相关的。 * 结果2(智能手机销售网站)是相关的。 * 结果3(智能手机用户论坛)是不相关的。 那么,precision@3 的计算如下: * 相关项的数量 = 2(结果1和结果2) * 排名位置3的总项数 = 3(结果1、结果2和结果3) 即precision@3=2/3 |
| Context Recall 上下文召回率 | 衡量检索器检索所有必要信息(context)以回答用户问题(query)的能力。值介于 0 和 1 之间,值越大表示性能越好。 | 评估过程中,参考答案(ground_truth)被分解成一系列的主张(claims),然后对参考答案(ground_truth)中的每个主张进行分析,以确定它是否可以归因于检索到的上下文(retrieved_contexts)。换句话说,就是检查参考答案中的每个信息点是否都能在检索到的上下文(retrieved_contexts)中找到依据。在理想的情况下,参考答案(ground_truth)中的所有主张都应该能够追溯到检索到的上下文(retrieved_contexts)中,这样的结果表明检索系统能够准确地找到与用户查询相关的信息。计算公式:其中,Number of claims in GT that can be attributed to context表示能够追溯到检索到的上下文(retrieved_contexts)的主张数量Number of claims in GT表示参考答案中的主张(claims)数据量。 | 无 |
| Context Entities Recall 上下文实体召回率 | 指的是retrieved_contexts中存在的实体数量与reference中存在的实体数量之间的相对比例。 | 其中,GE表示Ground Entity,即参考文本中的实体集合,CE表示Context Entity,即检索到的上下文中的实体集合。该公式表示,先计算这两个集合的交集,即同时出现在GE和CE中的实体。再统计出交集中的元素数量。最后将交集中的元素数量除以GE集合中的元素数量。 | 参考(reference):泰姬陵是一座位于印度阿格拉市亚穆纳河右岸的象牙白色大理石陵墓。它是莫卧儿皇帝沙贾汗于1631年下令建造的,用来安葬他最喜爱的妻子穆塔兹·马哈尔。 高实体召回上下文(High entity recall context):泰姬陵是位于印度阿格拉的一座爱情和建筑奇迹的象征。它是莫卧儿皇帝沙贾汗为了纪念他心爱的妻子穆塔兹·马哈尔而建造的。这座建筑以其精致的大理石雕刻和环绕周围的美丽的花园而闻名。 低实体召回上下文(Low entity recall context):泰姬陵是印度的一个标志性建筑。它是联合国教科文组织世界遗产地,每年吸引数百万游客。其精致的雕刻和惊人的建筑使其成为必游之地。 第一步,找出ground truths即reference中存在的实体集合 - [‘泰姬陵’, ‘亚穆纳河’, ‘阿格拉’, ‘1631’, ‘沙贾汗’, ‘穆塔兹·马哈尔’] 第二步:找出上下文中存在的实体。高实体召回上下文中实体集合是: [‘泰姬陵’, ‘阿格拉’, ‘沙贾汗’, ‘穆塔兹·马哈尔’, ‘印度’],低实体召回上下文中实体集合是: [‘泰姬陵’, ‘联合国教科文组织’, ‘印度’] 第三步:使用上述公式计算实体召回率。 我们可以看到,第一个上下文的实体召回率很高,因为它在真实情况下具有更好的实体覆盖率。如果这两个上下文是由同一组文档的两个检索机制提取的,那么可以说,在实体很重要的情况下,第一个机制比另一个更好。 |
| Noise Sensitivity 噪声敏感 | 衡量系统在利用相关或不相关的Context时提供错误响应的频率。该分数的范围为0到1,分数越低表示性能越好。 | 为了估算噪声敏感度,需要对生成的响应(response)中的每个陈述(claim)进行检查,以确定其是否基于事实(Ground truth),以及其是否能归因于相关(或不相关)的检索到的上下文(retrieved_contexts)。理想情况下,响应中的所有断言(claim)都应由相关的检索到的上下文(retrieved_contexts)支持。 | 问题user_input:印度人寿保险公司(LIC)以什么著称?事实reference:印度人寿保险公司(LIC)是印度最大的保险公司,成立于1956年,当时政府将保险业国有化。该公司以管理庞大的投资组合而闻名。响应response:印度人寿保险公司(LIC)是印度最大的保险公司,以其庞大的投资组合而闻名。LIC为国家的金融稳定做出了贡献。相关检索:context 1. 印度人寿保险有限公司(LIC)成立于1956年,当时印度的保险业实现了国有化。context 2. LIC是印度最大的保险公司,拥有庞大的保单持有人网络,在金融领域发挥着重要作用。context 3. 作为印度最大的机构投资者,LIC管理着一笔庞大的寿险基金,为国家的金融稳定做出了贡献。不相关的检索:context4:印度经济是全球增长最快的主要经济体之一,得益于金融、技术、制造业等行业。计算步骤:第1步:从事实(reference)中,识别出相关的上下文:context 1、context 2和context 3第2步:确认答案(response)中提出的主张是否能从上面的上下文中推断得出:context 1(能)、context 2(能)和context 3(能)。第3步:识别答案(response)中的任何错误陈述(即没有得到事实(reference)支持的陈述):事实真相中并未提及LIC对国家金融稳定作出贡献。因此,答案中的这个陈述是不正确的。因此,错误陈述1:全部陈述:3。根据公式计算答案NoiseSensitivity=1/3=0.3333这导致噪声敏感度得分为 0.333,表明答案中每三个主张就有一个是错误的。 |
| Response Relevancy 响应的相关性 | 衡量答案与问题之间的相关程度。包含不完整信息或冗余信息的答案得分较低,而得分越高表示相关性越好。 | 原始问题与基于答案生成(反向工程)的一系列人工问题之间的平均余弦相似度。其中, | 问题:法国在哪里?它的首都是哪里?response_relevancyresponse_relevancy较高为了计算答案与给定问题的相关性,我们遵循以下两个步骤:第一步:利用大型语言模型(LLM)从生成的响应中逆向推导出“n”种问题变体。例如,对于第一个答案,LLM可能会生成以下可能的问题:问题1:“法国位于欧洲的哪个部分?”问题2:“法国在欧洲的地理位置在哪里?”问题3:“你能指出法国位于欧洲的哪个地区吗?”第二步:计算生成的问题与实际问题的平均余弦相似度。 |
| Faithfulness 忠实度 | 用于评估生成答案的事实一致性,即检查答案answer中所述内容是否由提供的上下文(Context)所支持。通过分析生成答案中每个陈述的有效性(相对于上下文)来计算该指标。“忠实度”值在0到1的范围内,值越大表示“忠实度”越好。 | 首先将生成的答案拆解成一组陈述语句。然后,将这些陈述语句与给定的上下文一一核对,以查看它们是否可以从上下文中推断出来。忠实度 | Question:爱因斯坦出生在哪里,何时?Context: 阿尔伯特·爱因斯坦(生于1879年3月14日)是一位德国出生的理论物理学家,被普遍认为是有史以来最伟大、最有影响力的科学家之一。高 faithfulness 答案: 爱因斯坦于1879年3月14日出生在德国。低 faithfulness 答案: 爱因斯坦于1879年3月20日出生在德国。让我们来看看如何对于“低忠诚度”答案,他的忠诚度怎么计算:第1步:将生成的答案分解为独立的陈述语句:陈述语句1:“爱因斯坦出生在德国。”陈述语句2:“爱因斯坦于1879年3月20日出生。”第2步:对于生成的每个陈述语句,检查它是否能从给定的上下文中推断得出。显然,陈述语句1:能陈述语句2:不能第3步:使用上图所示的公式计算忠诚度。例如计算低faithfulness的答案的忠实度为:faithfulness=1/2=0.5 |
| Factual Correctness 事实正确性 | 用于确定生成的回应Answer与GroundTruth的事一致性程度,事实正确性得分的范围是0到1,值越高表示性能越好。有F1(F1分数),精确度(precision)或召回率(recall)三种评估指标。 | 具体计算过程:使用大型语言模型(LLM)将响应(Response)和参考信息(reference)分解成单独的陈述或“主张”(claims)。然后使用自然语言推理(natural language inference)来确定响应(Response)和参考信息(reference)之间的事实重叠部分。使用精确度(precision)、召回率(recall)和F1分数(F1 score)来量化这种事实重叠。精确度、召回率和F1分数的计算公式如下:真正例(True Positive, TP):响应(Response)中存在且参考中也有的主张数量。假正例(False Positive, FP):响应(Response)中存在但参考中没有的主张数量。假负例(False Negative, FN):参考中存在但响应(Response)中没有的主张数量。精确度(Precision)= TP / (TP + FP)召回率(Recall)= TP / (TP + FN)F1分数(F1 Score)= 2 × 精确度 × 召回率 / (精确度 + 召回率) | 无 |
| Answer Semantic Similarity 答案的语义相似度 | 评估生成答案与真实答案(ground truth)之间语义相似度。得分范围为0到1,分数越高表示生成答案与真实答案的对齐度越好 | 先将真实答案和生成响应向量化,然后计算两个向量之间的余弦相似度来得出答案相似度。 | 无 |
主观指标(定义+打分标准)
| 指标名称 | 定义 | 量级表 | 评判要点 |
| 知识召回质量 | 根据用户问题召回的知识内容的质量情况,从与问题的相关性,知识排序,知识时效性三个方面考量 | 3 =相关性高,按相关性知识排准确,仅包含高时效知识(新知识信息)2 =按相关性知识排序不准确,或者包含低时效知识 (旧知识信息)1 =相关性不高 | 依次核对召回知识内容与问题的相关性、知识排序(从高到低)、知识时效性,对照[级量表]给出评分 |
| 事实正确性 | 回复内容中关键信息对于【召回知识】的参考与遵守程度,无关键信息编造 | 3 =关键回复信息全部参考【召回知识】生成2 =【召回知识】为空,或者关键回复信息仅部分参考【召回知识】生成1 =关键回复信息存在与【召回知识】不一致情况 | 首先找出回复内容中的关键信息,然后依次核对【召回知识】是否为空,关键回复信息是否存在与【召回知识】不一致情况,关键回复信息是否全部参考【召回知识】生成 |
| 信息时效性 | 回复内容中关键信息必须使用【召回知识】中高时效信息的遵守程度。 | 3 =关键回复信息全部参考【召回知识】中高时效信息(新知识信息)生成2 =【召回知识】为空,或者关键回复信息仅部分参考【召回知识】中高时效信息(新知识信息)生成1 =关键回复信息使用了【召回知识】中低时效信息(旧知识信息)生成 | 首先找出回复内容中的关键信息,然后依次核对【召回知识】是否为空,关键回复信息是否使用了【召回知识】中低时效信息,关键回复信息是否全部参考【召回知识】中高时效信息生成 |
| 满足用户需求 | 回复内容对用户提出的问题和需求的解答与满足程度。 | 3 =能直接完美地解答用户问题2 =能部分解答用户问题,并给出更好解答指引1 =对用户问题无有效帮助 ,或者回复存在误导信息,或者回复内容与问题不相关 | 依次核对回复内容是否完全解答用户问题,是否存在误导,是否与问题不相关 |
评测集
高质量、覆盖全、具有真实用户数据特征的评测集是评估准确率、可靠性的重要保障。评测集的构造需要考虑维度定义时的业务场景,任务定义。
评测集样本来源:线上真实用户场景的问题、基于知识中心中的文档构建
评测样本举例:
{
"query":"2025年NIO DAY的地点和时间是什么时候",
"answer":"2025年NIO DAY的举办地点是杭州【3】,举办时间为2025年9月20日【2】。",
"ground_truth":"2025年NIO DAY的将在2025年9月20日在杭州举办",
"context":[""],
"category":["企业问答"],
"capacity":["意图识别","语义改写","文档检索","答案生成"]
}
评估方法
评估方法分为人工评估和自动化评估两种方式。项目不同的时期,或者研发流程中的不同阶段,适用的评估方式也不相同。
- 人工评估:产品的调研及MVP阶段、AI交互过程复杂、需要领域专家评分时一般都采用该方式。在评估过程中,可以采用不同的协作方式:
- 分工协作:不同评估人员负责不同的评估集。
- 背靠背评估:不同的评估人员负责相同的评估集,需要对不同的打分结果进行合并。
- 自动化评估:当AI原生应用的场景及能力固定下来之后,就可以针对一些维度和指标进行自动化评估。常见的自动化评估方式有AI评估、传统算法(如BLEU)、精准断言等。
本方案采用人工评估和自动化评估相结合的方法进行。
人工评估
针对人工评估,采用专家背靠背评估方式,组织如下领域专家参与评估。
正式评估前,领域专家针对从评测集中随机抽取10条样本进行预打分,目的是对齐大家的执行打分标准时候的尺度松紧,为后续正式打分提供操作准绳。
| 样本ID | query | answer | ground_truth | context | category | capacity | score | reason |
自动化评估
基于AI评估器
针对前面设置的主观指标,使用LLM作为裁判员对AI应用的输出进行评估。使用的AI评估器如下:
| 评估器名称 | 模型 | Prompt详情 |
| 知识召回质量 | Qwen-72b | 【角色说明】 你是一位资深的智能体质量评估专家,专门从事大语言模型智能体产品的评估。 【任务指令】 请结合打分说明对智能体产品效果进行打分。 【打分说明】 知识召回质量:根据用户问题召回的知识内容的质量情况,从与问题的相关性,知识排序,知识时效性三个方面考量 [级量表] 3 =相关性高,按相关性知识排准确,仅包含高时效知识(新知识信息) 2 =按相关性知识排序不准确,或者包含低时效知识 (旧知识信息) 1 =相关性不高 [评判要点] 依次核对召回知识内容与问题的相关性、知识排序(从高到低)、知识时效性,对照[级量表]给出评分 【输出格式】 知识召回质量评分:[[x]] // x只能是[1,2,3]里的数值 理由如下:客观判断理由。 【特别说明】 1.你的任务是打分,请不要输出与打分无关的内容。 2.请严格打分,确保你的打分结果是可信的,经得起反复推敲。 3.你的输出结果将会被后续任务使用,请严格按照【输出格式】输出。 |
| 事实正确性 | Qwen-72b | 【角色说明】 你是一位资深的智能体质量评估专家,专门从事大语言模型智能体产品的评估。 【任务指令】 请结合打分说明对智能体产品效果进行打分。 【打分说明】 事实正确性:回复内容中关键信息对于【召回知识】的参考与遵守程度,无关键信息编造 [级量表] 3 =关键回复信息全部参考【召回知识】生成 2 =【召回知识】为空,或者关键回复信息仅部分参考【召回知识】生成 1 =关键回复信息存在与【召回知识】不一致情况 [评判要点] 首先找出回复内容中的关键信息,然后依次核对【召回知识】是否为空,关键回复信息是否存在与【召回知识】不一致情况,关键回复信息是否全部参考【召回知识】生成 【输出格式】 事实正确性评分:[[x]] // x只能是[1,2,3]里的数值 理由如下:客观判断理由。 【特别说明】 1.你的任务是打分,请不要输出与打分无关的内容。 2.请严格打分,确保你的打分结果是可信的,经得起反复推敲。 3.你的输出结果将会被后续任务使用,请严格按照【输出格式】输出。 |
| 信息时效性 | Qwen-72b | 【角色说明】 你是一位资深的智能体质量评估专家,专门从事大语言模型智能体产品的评估。 【任务指令】 请结合打分说明对智能体产品效果进行打分。 【打分说明】 信息时效性:回复内容中关键信息必须使用【召回知识】中高时效信息的遵守程度。 [级量表] 3 =关键回复信息全部参考【召回知识】中高时效信息(新知识信息)生成 2 =【召回知识】为空,或者关键回复信息仅部分参考【召回知识】中高时效信息(新知识信息)生成 1 =关键回复信息使用了【召回知识】中低时效信息(旧知识信息)生成 [评判要点] 首先找出回复内容中的关键信息,然后依次核对【召回知识】是否为空,关键回复信息是否使用了【召回知识】中低时效信息,关键回复信息是否全部参考【召回知识】中高时效信息生成 【输出格式】 信息时效性评分:[[x]] // x只能是[1,2,3]里的数值 理由如下:客观判断理由。 【特别说明】 1.你的任务是打分,请不要输出与打分无关的内容。 2.请严格打分,确保你的打分结果是可信的,经得起反复推敲。 3.你的输出结果将会被后续任务使用,请严格按照【输出格式】输出。 |
| 满足用户需求 | Qwen-72b | 【角色说明】 你是一位资深的智能体质量评估专家,专门从事大语言模型智能体产品的评估。 【任务指令】 请结合打分说明对智能体产品效果进行打分。 【打分说明】 满足用户需求:回复内容对用户提出的问题和需求的解答与满足程度。 [级量表]] 3 =能直接完美地解答用户问题 2 =能部分解答用户问题,并给出更好解答指引 1 =对用户问题无有效帮助 ,或者回复存在误导信息,或者回复内容与问题不相关 [评判要点] 依次核对回复内容是否完全解答用户问题,是否存在误导,是否与问题不相关 【输出格式】 满足用户需求评分:[[x]] // x只能是[1,2,3]里的数值 理由如下:客观判断理由。 【特别说明】 1.你的任务是打分,请不要输出与打分无关的内容。 2.请严格打分,确保你的打分结果是可信的,经得起反复推敲。 3.你的输出结果将会被后续任务使用,请严格按照【输出格式】输出。 |
基于Ragas指标
针对前面设置的8个客观指标,使用RAGAS计算逻辑进行计算。
评估策略
AI评估策略分为打分评估和对比评估。对比评估和打分评估是两种根本不同的评估逻辑,差异体现在参照系、输出结果、适用阶段、数据要求四个维度。
- 参照系(跟谁比?)
- 打分评估:像“体检报告”——只看你的血压是否达到120/80标准,不和别人比。参照系是绝对标准或历史自我(如法规、预设KPI、上一版本)。
- 对比评估:像“运动员排名”——你的血压要和所有参赛者比,看能否进前三。参照系是其他对象(竞品、替代方案)。
- 输出结果(给什么结论?)
| 维度 | 打分评估 | 对比评估 |
| 结论形式 | 二元化(通过/不通过)或绝对分值(如85/100) | 排序(A>B>C)或相对差距(A比B高20%) |
| 典型话术 | “该智能体准确率92%,达标” | “A版本智能体准确率比B版本高5%,排名第一” |
- 适用阶段(何时用?)
- 打分评估:✅ 准入验证(“能否发布?”)✅ 迭代验证(“比上一版改进了吗?”)
- 对比评估:✅ 选型决策(“用A还是用B?”)✅ 竞争优化(“如何超越竞品?”)
- 数据要求(需要什么?)
- 打分评估:只需待评对象的数据+明确阈值(如“≥90%”)。例:测试自研模型在私有数据集上的F1分数。
- 对比评估:必须多对象同条件数据(如用同一测试集跑所有模型)。例:在公开基准(如GLUE)上对比10个预训练模型。
评估策略的选择,取决于具体的评测需求。打分评估回答“够好吗?”,对比评估回答“哪个更好?”——前者是“达标性判断”,后者是“优劣性排序”。
本次评估采用打分评估策略。目的是评价NIOChat的效果达到了什么水平,并且挖掘相关的BadCase。
评估链路
评估链路分为端到端评估和分段评估。
端到端评估AI应用的整体效果,目的是考察AI应用是否满足用户需求,通常作为验收环节的评估方式。分段评估会根据智能体的架构设计,针对其中的核心重点环节进行单独评测,目的是找出各环节的效果问题进行优化改进。
分析智能体的架构,可以知道,NIOChat智能体的完整链路包括如下几个阶段
用户输入 → 意图理解(S1) → 问题改写(S2) → 知识检索(S3) → 联网搜索(S4) → 答案生成(S5)
| 环节 | 关注问题 | 典型指标 |
| 意图理解(S1) | 是否准确将问题归属哪类问题(销售、代码、其他) | 意图识别准确率 |
| 问题改写(S2) | 改写的问题是否正确,是否与原问题语义保持一致 | 语义一致性 |
| 知识检索(S3) | 能否检索到相关的知识片段,并且按照相关性排序 | Context Precision 上下文精度、Context Recall 上下文召回率、Context Entities Recall 上下文实体召回率 |
| 联网搜索(S4) | 能否搜索到最新、与问题最相关内容,检索效率如何 | 归一化折扣累计增益(NDCG)、平均倒数排名(MRR) |
| 答案生成(S5) | 生成的答案是否与问题相关,语句连贯。 | Response Relevancy 响应的相关性、Faithfulness 忠实度、Factual Correctness 事实正确性、Answer Semantic Similarity 答案的语义相似度、满足用户需求、信息时效性、事实正确性 |
计分规则
评分标准需要定义清楚单样本评分标准,以及总体得分统计规则。
- 单样本评分标准
对于客观指标:单样本评分和总体得分统计参考客观指标理论进行。
对于主观指标:
- 二等级法,将单样本的结果进行判断,例如正确得1分,错误得0分
- 多等级法,将单样本的结果分为3等或者5等,对应得分分别是1-3分或1-5分。
- 总体得分统计规则:
通常采用将多个样本得分进行累加并进行归一化。
- 以SuperCLUE的智能座舱评测基准为例,每个样本得分划分为1-5分五个等级。为了评估综合表现,计算所有样本的答案均值,并通过归一化将结果转换为百分制分数,以作为最终测评得分。
- 以SuperCLUE的深度搜索评测基准为例,每个样本进行0/1评分,模型的答案与参考答案一致则该题得1分,反之,该题得0分。为了评估综合表现,计算所有样本的答案均值,并通过归一化将结果转换为百分制分数,以作为最终测评得分。
单样本评分标准
针对客观指标,按照RAGAS理论计算单样本得分(统计维度)。
针对主观指标,按照三个等级,将将单样本的结果分为3等,对应得分分别是1-3分。这在指标设定的分量表上也有体现。
总体得分统计规则
每个样本得分划分为1-3分三个等级。为了评估综合表现,计算所有样本的答案均值,并通过归一化将结果转换为百分制分数,以作为最终测评得分。

针对客观指标,按照RAGAS理论计算单样本得分(统计维度)。
针对主观指标,按照三个等级,将将单样本的结果分为3等,对应得分分别是1-3分。这在指标设定的分量表上也有体现。
总体得分统计规则
每个样本得分划分为1-3分三个等级。为了评估综合表现,计算所有样本的答案均值,并通过归一化将结果转换为百分制分数,以作为最终测评得分。
六、如何学习大模型 AI ?
那么,如何系统的去学习大模型LLM?
如果你也想系统学习AI大模型技术,想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习*_,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。
为了帮助大家打破壁垒,快速了解大模型核心技术原理,学习相关大模型技术。从原理出发真正入局大模型。在这里我和MoPaaS魔泊云联合梳理打造了系统大模型学习脉络,这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️

【大模型全套视频教程】
教程从当下的市场现状和趋势出发,分析各个岗位人才需求,带你充分了解自身情况,get 到适合自己的 AI 大模型入门学习路线。
从基础的 prompt 工程入手,逐步深入到 Agents,其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。
同时课程详细介绍了AI大模型技能图谱知识树,规划属于你自己的大模型学习路线,并且专门提前收集了大家对大模型常见的疑问,集中解答所有疑惑!

深耕 AI 领域技术专家带你快速入门大模型
跟着行业技术专家免费学习的机会非常难得,相信跟着学习下来能够对大模型有更加深刻的认知和理解,也能真正利用起大模型,从而“弯道超车”,实现职业跃迁!

【精选AI大模型权威PDF书籍/教程】
精心筛选的经典与前沿并重的电子书和教程合集,包含《深度学习》等一百多本书籍和讲义精要等材料。绝对是深入理解理论、夯实基础的不二之选。

【AI 大模型面试题 】
除了 AI 入门课程,我还给大家准备了非常全面的**「AI 大模型面试题」,**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。
【大厂 AI 岗位面经分享(92份)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

【640套 AI 大模型行业研究报告】

【AI大模型完整版学习路线图(2025版)】
明确学习方向,2025年 AI 要学什么,这一张图就够了!

👇👇点击下方卡片链接免费领取全部内容👇👇

抓住AI浪潮,重塑职业未来!
科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整,缩减部分传统岗位,同时AI相关技术岗位(尤其是大模型方向)需求激增,已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。
行业趋势洞察:
- 转型加速: 传统IT岗位面临转型压力,拥抱AI技术成为关键。
- 人才争夺战: 拥有3-5年经验、扎实AI技术功底和真实项目经验的工程师,在头部大厂及明星AI企业中的薪资竞争力显著提升(部分核心岗位可达较高水平)。
- 门槛提高: “具备AI项目实操经验”正迅速成为简历筛选的重要标准,预计未来1-2年将成为普遍门槛。
与其观望,不如行动!
面对变革,主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验,是抓住时代机遇、实现职业跃迁的关键一步。

01 为什么分享这份学习资料?
当前,我国在AI大模型领域的高质量人才供给仍显不足,行业亟需更多有志于此的专业力量加入。
因此,我们决定将这份精心整理的AI大模型学习资料,无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴!
我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题,也欢迎交流探讨,我们乐于分享所知。
*02 这份资料的价值在哪里?*
专业背书,系统构建:
-
本资料由我与MoPaaS魔泊云的鲁为民博士共同整理。鲁博士拥有清华大学学士和美国加州理工学院博士学位,在人工智能领域造诣深厚:
-
- 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇。
- 拥有多项中美发明专利。
- 荣获吴文俊人工智能科学技术奖(中国人工智能领域重要奖项)。
-
目前,我有幸与鲁博士共同进行人工智能相关研究。

内容实用,循序渐进:
-
资料体系化覆盖了从基础概念入门到核心技术进阶的知识点。
-
包含丰富的视频教程与实战项目案例,强调动手实践能力。
-
无论你是初探AI领域的新手,还是已有一定技术基础希望深入大模型的学习者,这份资料都能为你提供系统性的学习路径和宝贵的实践参考,助力你提升技术能力,向大模型相关岗位转型发展。



抓住机遇,开启你的AI学习之旅!

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐


所有评论(0)