在这里插入图片描述

📖标题:Repurposing Synthetic Data for Fine-grained Search Agent Supervision
🌐来源:arXiv, 2510.24694

🌟摘要

基于LLM的搜索代理越来越多地在以实体为中心的合成数据上进行训练,以解决复杂的、知识密集型的任务。然而,流行的训练方法,如组相对策略优化 (GRPO) 会丢弃这种丰富的实体信息,而不是依赖于稀疏、基于结果的奖励。这一关键限制使它们无法区分信息丰富的“近距离”样本——那些具有显着正确推理但存在缺陷最终答案的样本——来自完全故障,从而丢弃有价值的学习信号。我们通过利用训练期间丢弃的非常实体来解决这个问题。我们的实证分析揭示了代理推理过程和最终答案准确性期间识别的真实实体数量之间的强正相关。基于这一见解,我们引入了实体感知组相对策略优化 (E-GRPO),这是一个制定密集实体感知奖励函数的新框架。E-GRPO 将部分奖励分配给与其实体匹配率成比例的错误样本,使模型能够从这些“接近未命中”有效地学习。对不同问答 (QA) 和深度研究基准的实验表明,E-GRPO 始终且显着优于 GRPO 基线。此外,我们的分析表明,E-GRPO 不仅实现了更高的准确性,而且还诱导了更有效的推理策略,需要较少的工具调用,展示了一种更有效和样本效率的方法来对齐搜索代理。

🛎️文章简介

🔸研究问题:如何利用合成数据中的实体信息来提升搜索代理的监督学习效果?
🔸主要贡献:论文提出了一种新的框架E-GRPO,通过引入基于实体的奖励函数,显著提高了搜索代理的策略优化效果。

📝重点思路

🔸 以实体为中心的数据合成:通过两种操作(事实注入和模糊化)逐步增加问题的复杂性,确保生成的合成数据中包含关键实体信息。
🔸 实体匹配分析:对搜索代理在合成数据上的表现和实体匹配率进行实证分析,探讨其之间的相关性。
🔸 E-GRPO框架:提出该框架以实体匹配率作为奖励信号,通过赋予“近乎错误”的回答部分奖励,促进更有效的学习和探索。

🔎分析总结

🔸 实验结果表明,E-GRPO模型在多个问答和深度研究基准测试中优于基础的GRPO模型,证明了实体匹配率与任务准确率之间的强相关性。
🔸 E-GRPO能够高效学习策略,较少的工具调用即可获得正确答案,显示出其在训练过程中的有效性和经济性。
🔸 在测试新环境(如开放网页环境)时,E-GRPO的可泛化性和鲁棒性得到了验证,进一步提升了模型的实际应用能力。

💡个人观点

论文核心是将实体检索作为搜索代理的一项细粒度奖励信号,使策略优化过程能够朝着更有效的方向探索。

🧩附录

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐