【评测】DuReader-Retrieval数据集之初体验
本文介绍了DuReader-Retrieval数据集包含query(问题)、positive_passages(准确答复)和negative_passages(不准确答复)三个部分,并通过具体案例展示了数据格式的特点。作者特别
·
【评测】DuReader-Retrieval数据集之初体验
上一篇[《【评测】推理和微调 “GTE文本向量-中文-通用领域-base”模型》 ](https://blog.csdn.net/u010593516/article/details/148312365) 微调不太成功,但是
数据集文件值得研究。
数据集结构
query: 问题
positive_passages: 正面答复(准确)
negative_passages: 负面答复(不准确)
具体案例解释
query:ps如何去掉衣服褶皱
positive_passages: 包括3个doc_id的准确答复,
negative_passages: 包括n个doc_id的不准确答复,答复基本是围绕我们日常穿的衣服的褶皱处理方法

实际文件里面这一个条目的negative_passages有好多好多的doc_id,问题来了,为什么需要在dataset里面标记这么多negative_passages呢?
本文结束
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)