回到目录

【评测】DuReader-Retrieval数据集之初体验

上一篇[《【评测】推理和微调 “GTE文本向量-中文-通用领域-base”模型》 ](https://blog.csdn.net/u010593516/article/details/148312365) 微调不太成功,但是
数据集文件值得研究。

数据集结构

query: 问题

positive_passages: 正面答复(准确)

negative_passages: 负面答复(不准确)

具体案例解释

query:ps如何去掉衣服褶皱

positive_passages: 包括3个doc_id的准确答复,

negative_passages: 包括n个doc_id的不准确答复,答复基本是围绕我们日常穿的衣服的褶皱处理方法

在这里插入图片描述
实际文件里面这一个条目的negative_passages有好多好多的doc_id,问题来了,为什么需要在dataset里面标记这么多negative_passages呢?

本文结束

回到目录

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐