Claude 4.5发布,Agent能力提升:学术写作效率又又升级了!
Sonnet 4.5的突出亮点是agent能力的提升,但是,过于复杂的任务它也会频频出错,比如选题的“读取附件-写代码分析数据-提取信息-给出答案”,适度复杂的任务可以完成的很好,比如文献综述。根据官方公告,称本次更新“世界上最好的编码模型、构建复杂代理的最强大工具、使用计算机的最佳模型”,代码能力和agent能力的显著提升,将AI从“辅助工具”升级为“独立生产力”。个人觉得4.1的这个信息呈现就
一觉醒来,Claude发布了最新模型sonnet 4.5。
根据官方公告,称本次更新“世界上最好的编码模型、构建复杂代理的最强大工具、使用计算机的最佳模型”,代码能力和agent能力的显著提升,将AI从“辅助工具”升级为“独立生产力”。

评分对比我也不贴了,因为每次更新,各大模型的比分都是显示“我最强”的,已经看麻木了。
话不多说,娜姐给大家实战测试一下它的升级版agent能力在学术写作方面到底表现如何?
1 选题
之前娜姐写过如何用GPT-5进行选题的效果展示:
GPT-5论文选题实测:如何从2000篇文献中提炼出3个可快速落地的高命中选题?
具体思路是,需要AI根据我们提交的文献检索信息,进行:
1 编写Python程序对附件文献进行分析,提取关键词,进行主题聚类,展示聚类效果;
2 基于主题分析,识别领域发展趋势,给出可行性高和新颖性高的选题列表;
3 对用户关注的选题进一步细化:进行实验规划,统计学分析,图表设计、注意事项等,加速课题实现。
GPT-5表现不错。来看看Claude sonnet 4.5:
在我提交附件列表信息,说明任务之后,sonnet 4.5并没有立即执行,而是跟我一起对其目标,细化任务:

看起来还挺智能的。但是分析数据的时候就开始出错:


先是要我重新提交数据,然后分析的时候说年份出错。中间输出内容太多,需要你不停continue才能继续。
最后输出的这个选题,还行:


就是中间出错太多,而且8个选题卡描述越来越简略。
2 文献综述
文献综述也是agent能力高低的指标。之前各家的深研究工具就是主题调研专用agent。
来看看sonnet 4.5实时检索参考文献,撰写文献综述的能力如何。
之前标书课的立项依据部分,需要大家自己补充文献支撑,来看看sonnet 4.5能不能帮我们加参考文献:

在检索了将近40条文献之后,sonnet 4.5帮我们写出了第一部分研究背景:

效果很不错。在保证行文逻辑正确的基础上,sonnet 4.5加上了参考文献来源。你甚至可以不提供任何附件资料给它,可以让它自行检索相关文献撰写该部分。
这部分娜姐给标书课的学员同步更新了提示词,之前完成度是6-70%,现在可以到90%了。
3 撰写论文
让sonnet 4.5根据我们做好的图帮我们撰写Figure legends和results部分,之前娜姐写过:
GPT-5 vs Claude 4.1:谁才是论文Figure legend与Results写作的最强AI?
来看看Sonnet 4.5的表现:

对比之前的4.1,会更详细具体。以下是4.1输出版本:

个人觉得4.1的这个信息呈现就可以了,sonnet 4.5的legend过于详细,但是,呈现信息都是准确无误的。很强。
总结一下:
Sonnet 4.5的突出亮点是agent能力的提升,但是,过于复杂的任务它也会频频出错,比如选题的“读取附件-写代码分析数据-提取信息-给出答案”,适度复杂的任务可以完成的很好,比如文献综述。
之前的简单任务,则是都可以用sonnet 4.5替代。
---
今天就介绍到这。如果觉得有用,欢迎在看、转发和点赞,一键三连!娜姐继续输出有用的AI辅助科研写作、绘图相关技巧和知识。

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)