AI圈集体炸锅!腾讯提出Training-Free GRPO,不用训练模型,性能还能暴涨?
大型语言模型(LLM)如GPT-4、DeepSeek等,已经在通用任务上表现出色,但在专业领域(如数学推理、网络搜索)中,它们常常表现不佳。这是因为这些任务需要模型灵活使用外部工具(如计算器、浏览器),并结合领域特定的提示策略。传统方法通常通过“微调”模型参数来适应新任务,但这需要大量标注数据、昂贵的计算资源,并且容易导致模型“过拟合”——即在新任务上表现差强人意。
大型语言模型(LLM)如GPT-4、DeepSeek等,已经在通用任务上表现出色,但在专业领域(如数学推理、网络搜索)中,它们常常表现不佳。这是因为这些任务需要模型灵活使用外部工具(如计算器、浏览器),并结合领域特定的提示策略。传统方法通常通过“微调”模型参数来适应新任务,但这需要大量标注数据、昂贵的计算资源,并且容易导致模型“过拟合”——即在新任务上表现差强人意。

- 论文:Training-Free GRPO: Efficient RL for Large Language Models
正是在这样的背景下,腾讯优图实验室提出了Training-Free Group Relative Policy Optimization。这是一种无需更新模型参数、仅通过“上下文学习”就能提升LLM代理性能的新方法。它像是一位“经验丰富的教练”,通过总结成功与失败的经验,指导模型在后续任务中做出更优决策,而无需重新训练模型本身。这种方法不仅成本极低,还能保持模型原有的泛化能力,成为传统强化学习方法的有力替代。
研究动机:告别“调参”时代
传统强化学习方法(如GRPO)通过更新模型参数来优化策略,但这带来四大问题:
- 计算成本高:即使是小模型(如32B参数)的微调,也需要上万美元的GPU资源。
- 泛化能力差:模型在训练任务上表现好,但在新任务上表现不佳。
- 数据需求大:需要大量高质量标注数据,在专业领域中难以获取。
- 收益递减:由于成本限制,往往只能微调小模型,而无法利用更大模型的潜力。
论文提出一个根本性问题:是否只能通过参数更新来优化模型? 答案是否定的。LLM本身具备强大的上下文学习能力,只需少量“练习样本”,就能通过经验总结提升表现。Training-Free GRPO正是基于这一理念,将优化过程从“参数空间”转移到“上下文空间”,通过动态更新提示中的经验知识库来引导模型行为。
方法详解:Training-Free GRPO如何工作?
整体流程概述
Training-Free GRPO模仿传统GRPO的多轮学习机制,但完全不更新模型参数。其核心是维护一个经验知识库,在每轮迭代中,模型根据当前经验生成多个答案,评估它们的质量,并总结出“成功经验”或“失败教训”,更新到知识库中。后续查询时,模型会参考这些经验,从而提升表现。

上图对比了传统GRPO与Training-Free GRPO的流程。传统GRPO通过梯度更新参数,而Training-Free GRPO通过更新上下文中的经验库来实现优化。
关键步骤拆解
-
Rollout与奖励
对于每个问题,模型生成一组答案(例如5个),并使用奖励模型(或真实答案)为每个答案打分。 -
组相对语义优势计算
传统GRPO使用数值公式计算每个答案的相对优势:其中:
这个公式衡量每个答案在组内的“相对好坏”。但在Training-Free GRPO中,不直接使用数值,而是让LLM自己分析这些答案,总结出“为什么A答案比B答案好”的语义描述,形成一条条经验(例如:“在几何题中,应先验证点是否在边界内,避免无效解”)。
- 是第i个答案的奖励分数
- 和 分别是组内奖励的均值和标准差
-
经验库优化
系统根据语义优势,对经验库进行四种操作:这些操作由LLM自动判断和执行,确保经验库始终保持高质量、高泛化性。
- 添加:新增一条经验
- 删除:移除无效经验
- 修改:优化现有经验
- 保留:不做改动
与传统GRPO的对比
- 相同点:都使用组内比较、多轮学习。
- 不同点:
- 传统GRPO更新模型参数,Training-Free GRPO更新上下文经验。
- 传统GRPO依赖数值优势,Training-Free GRPO使用语义优势。
- 传统GRPO需要大量数据与计算,Training-Free GRPO仅需少量样本与API调用。
实验验证:效果如何?
数学推理任务
论文在AIME 2024和2025数学竞赛题上测试方法,使用DeepSeek-V3.1-Terminus(671B参数)模型,仅用100个训练样本。

结果显示:
- 无工具提示:准确率从68.6%提升至72.6%(+4.0%)
- 带工具ReAct:准确率从80.0%提升至82.7%(+2.7%),AIME25从67.9%提升至73.3%(+5.4%)
相比之下,传统RL方法(如ReTool、AFM)需数千样本、上万美元训练小模型,而Training-Free GRPO仅花费约18美元。

上图展示了学习过程中性能稳步提升,同时工具调用次数减少,说明模型学会了更高效的解题策略。
网络搜索任务
在WebWalkerQA基准上,使用100条训练样本:

- ReAct基线:63.2%
- Training-Free GRPO:67.8%(+4.6%)
模型学会了优先点击官方来源、优化搜索词等实用策略。
跨领域泛化能力

传统方法在跨领域测试中表现大幅下降(如数学模型在搜索任务中准确率仅18.3%),而Training-Free GRPO通过切换经验库,在数学和搜索任务中均达到最优表现,凸显其泛化优势。
讨论与分析:为什么它有效?
消融研究:关键组件的作用

- 直接生成经验:性能反而下降,说明未经优化的经验无效。
- 无真实答案:仅通过组内比较也能提升,说明方法在无监督场景下仍有效。
- 无组计算:性能显著下降,证明组内比较是语义优势的核心。
模型规模的影响

- 在Qwen2.5-32B等小模型上,提升有限甚至下降。
- 在DeepSeek-V3.1-Terminus等大模型上,提升显著。
说明:Training-Free GRPO更适合能力强的大模型,因为语义理解与经验总结需要较高的推理能力。
经验知识的实际案例

论文附录中列出了学到的经验示例,例如:
- “在几何题中,验证解是否在边界内,避免无效解”
- “优先从官方来源提取信息,而非第三方摘要”
这些经验像“解题技巧”一样,被插入到提示中,引导模型更稳健地推理和行动。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等
博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。


这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。

课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路
一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐








所有评论(0)