一觉醒来,Claude发布了最新模型sonnet 4.5。

根据官方公告,称本次更新“世界上最好的编码模型、构建复杂代理的最强大工具、使用计算机的最佳模型”,代码能力和agent能力的显著提升,将AI从“辅助工具”升级为“独立生产力”。 

图片

评分对比我也不贴了,因为每次更新,各大模型的比分都是显示“我最强”的,已经看麻木了。

话不多说,娜姐给大家实战测试一下它的升级版agent能力在学术写作方面到底表现如何?

1 选题

之前娜姐写过如何用GPT-5进行选题的效果展示:

GPT-5论文选题实测:如何从2000篇文献中提炼出3个可快速落地的高命中选题?

具体思路是,需要AI根据我们提交的文献检索信息,进行:

1 编写Python程序对附件文献进行分析,提取关键词,进行主题聚类,展示聚类效果;

2 基于主题分析,识别领域发展趋势,给出可行性高和新颖性高的选题列表;

3 对用户关注的选题进一步细化:进行实验规划,统计学分析,图表设计、注意事项等,加速课题实现。

GPT-5表现不错。来看看Claude sonnet 4.5:

在我提交附件列表信息,说明任务之后,sonnet 4.5并没有立即执行,而是跟我一起对其目标,细化任务:

图片

看起来还挺智能的。但是分析数据的时候就开始出错:

图片

图片

先是要我重新提交数据,然后分析的时候说年份出错。中间输出内容太多,需要你不停continue才能继续。

最后输出的这个选题,还行: 

图片

图片

就是中间出错太多,而且8个选题卡描述越来越简略。

2 文献综述

文献综述也是agent能力高低的指标。之前各家的深研究工具就是主题调研专用agent。

来看看sonnet 4.5实时检索参考文献,撰写文献综述的能力如何。

之前标书课的立项依据部分,需要大家自己补充文献支撑,来看看sonnet 4.5能不能帮我们加参考文献:

图片

在检索了将近40条文献之后,sonnet 4.5帮我们写出了第一部分研究背景:

图片

效果很不错。在保证行文逻辑正确的基础上,sonnet 4.5加上了参考文献来源。你甚至可以不提供任何附件资料给它,可以让它自行检索相关文献撰写该部分。

这部分娜姐给标书课的学员同步更新了提示词,之前完成度是6-70%,现在可以到90%了。

3 撰写论文

让sonnet 4.5根据我们做好的图帮我们撰写Figure legends和results部分,之前娜姐写过:

GPT-5 vs Claude 4.1:谁才是论文Figure legend与Results写作的最强AI?

来看看Sonnet 4.5的表现:

图片

对比之前的4.1,会更详细具体。以下是4.1输出版本:

图片

个人觉得4.1的这个信息呈现就可以了,sonnet 4.5的legend过于详细,但是,呈现信息都是准确无误的。很强。

总结一下:

Sonnet 4.5的突出亮点是agent能力的提升,但是,过于复杂的任务它也会频频出错,比如选题的“读取附件-写代码分析数据-提取信息-给出答案”,适度复杂的任务可以完成的很好,比如文献综述。

之前的简单任务,则是都可以用sonnet 4.5替代。 

---

今天就介绍到这。如果觉得有用,欢迎在看、转发和点赞,一键三连!娜姐继续输出有用的AI辅助科研写作、绘图相关技巧和知识。 

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐