在这里插入图片描述

📖标题:DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
🌐来源:arXiv, 2508.20033

🌟摘要

研究和合成知识的能力是人类专业知识和进步的核心。一类新兴的系统通过生成研究合成承诺这些令人兴奋的能力,对实时网络执行检索,并将许多发现的来源合成为长格式引用的摘要。然而,评估此类系统仍然是一个开放的挑战:现有的问答基准侧重于简短的事实响应,而专家策划的数据集具有风险陈旧性和数据污染。两者都无法捕获真实研究合成任务的复杂性和演变性质。在这项工作中,我们介绍了 DeepScholar-bench,这是一个实时基准和整体的自动评估框架,旨在评估生成研究合成。DeepScholarbench 从最近的高质量 ArXiv 论文中提取查询,并专注于真正的研究综合任务:通过检索、合成和引用先前的研究来生成论文的相关工作部分。我们开发了一个自动评估框架,该框架使用与专家人类判断表现出强烈一致性的指标,从三个关键维度(知识合成、检索质量和可验证性)中整体评估性能。我们还开发了 DeepScholar-base,这是一种用于生成研究合成的参考管道,使用 LOTUS API 有效地实现。使用 DeepScholar-bench 框架,我们对先前的开源系统进行了系统的评估,使用开源和强大的专有模型搜索 AI,OpenAI 的 DeepResearch 和 DeepScholar-base。我们发现 DeepScholar-base 建立了一个强大的基线,比以前的开源系统、搜索 AI 和 OpenAI 的 DeepResearch 获得了具有竞争力或更高的性能。我们还发现 DeepScholar-bench 仍然远未饱和,所有指标没有超过 19% 的分数的系统。这些结果强调了 DeepScholar-bench 的难度和重要性,作为能够生成研究合成的 AI 系统进展的基础。我们在 https://github.com/guerinlab/deepscholar-bench 上提供我们的基准代码和数据。

🛎️文章简介

🔸研究问题:如何有效的评估生成性研究综合系统的性能?
🔸主要贡献:论文提出了DeepScholar-bench,一个实时基准数据集及其自动评估框架,用于全面评估生成性研究综合系统。

📝重点思路

🔸构建了一个实时数据集,自动收集高质量的ArXiv论文,以生成相关工作部分的任务。
🔸设计了一个自动化评估框架,通过知识综合、检索质量和可验证性三大维度对系统性能进行全面测评。
🔸采用了七个关键指标进行评估,包括组织结构、重要性联系、引用准确性等,以确保结果的可靠性。
🔸开发了DeepScholar-base作为生成性研究综合的开放源代码基线系统,与其他现有系统进行了比较。

🔎分析总结

🔸现有的生成性研究综合系统在知识综合、检索质量和可验证性上均未达到令人满意的性能,未有系统在所有指标上得分超过19%。
🔸DeepScholar-base在各方面的性能显示出竞争力,包括在引用准确性和信息覆盖率上显著高于OpenAI的DeepResearch系统。
🔸评估结果表明,生成性研究综合系统的性能仍有较大的改进空间,尤其是在文档重要性和引用覆盖率方面。
🔸研究通过高人类一致性得到了良好的自动化评估效果,展示了该评估框架的有效性。

💡个人观点

论文提出了一个新的基准和评估框架,能够实时反映生成性研究综合系统的性能,不仅考虑了知识综合的复杂性,还有效地解决了数据陈旧和训练污染的问题。

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐