大家好,我是R哥。
今天我们来聊聊刚刚发布的 Claude Sonnet 4.5,Claude 全新一代 AI 模型,今天在 AI 圈引起不小震动。
这次更新不仅仅是性能提升那么简单,它在多个关键维度都有突破:代码生成、任务执行、推理能力、工具集成,全方位进行了加强。
先说结论,Claude Sonnet 4.5 是目前在多个公开基准测试中表现最强的模型之一:
具体数据上,Claude Sonnet 4.5:
- 在 SWE-bench Verified(衡量软件工程实际能力)中表现最佳;
- 在 OSWorld(测试模型执行真实电脑任务能力)上达到 61.4%,大幅领先前一代的 42.2%;
- 支持长达 30 小时以上的多步骤任务不中断,这对构建智能代理至关重要。
Claude Sonnet 4.5 还支持了关键的底层能力:
- 检查点(Checkpoint)机制:Claude Code 支持任务状态保存和回滚,代码回退更灵活了;
- 上下文编辑能力和内存工具:使代理可以运行更长时间并处理更大的复杂性;
- Claude Agent SDK:为开发者提供开发 Claude Code 所需的构建模块;
- VS Code 原生插件:可本地集成使用,支持开发流程辅助;
- Chrome 扩展:Max 用户已经可以在浏览器里让 Claude 直接执行网页操作;
这次真的全方位补齐短板了,太强了,这些数据和新功能的背后,是目前其他主流模型难以比拟的。
Claude Code 的使用可以看我写的教程:
- 自从用上了 Claude Code,才发现 Cursor 和 Gemini Cli 都是弱智。。(保姆级安装和使用教程分享)
- 再见 Cursor!玩转 Claude Code的23个实用小技巧,效率拉满!!
这下又加强了,又可以愉快的撸码了。。。
Claude Sonnet 4.5 模型在推理和数学等广泛评估方面的改进能力:
与包括 Opus 4.1 在内的旧模型相比,Sonnet 4.5 表现出了更出色的领域特定知识和推理能力:
特别在金融、法律、医学等领域,表现更加出色。
Sonnet 4.5 还有一项很重要但容易被忽略的更新,它的行为表现更一致,安全机制更严谨。
Sonnet 4.5 通过引入自动行为审计系统,以及 ASL-3 安全级别的发布机制,在这些方面做了大量改进。
如何使用?
Claude Sonnet 4.5 现已全面上线,在 https://claude.ai/
中默认就是 Claude Sonnet 4.5
模型:
在 Claude API 中也可以使用 claude-sonnet-4-5
模型,价格与 Claude Sonnet 4 相同,均为每百万 tokens $3/$15 。
另外,干儿子 Cursor 也火速支持 Claude Sonnet 4.5:
这波 Claude Sonnet 4.5 的更新,说实话我是真有点惊着了,特别是在执行复杂的多步骤任务时,它能够保持专注超过 30 小时,碾压 CodeX 的 7 小时?
如果你是开发者,这波更新有几个点值得重点关注:
- 在代码理解和执行能力上拉满了,尤其是 SWE-bench 和 OSWorld 的表现,几乎是为程序员量身定制的;
- 对开发工具的支持非常完善,从 VS Code 插件到 Chrome 扩展,再到完整的 Agent SDK,Claude 已经全方面补齐能力了;
- 多轮任务不中断 + 任务状态回滚机制,这两个组合在一起,就意味着我们离构建真正记忆持久、任务连续的 AI Agent 更近一步了;
- 行为一致性和安全性提升,这一点虽然不显眼,但对于企业应用、尤其是合规要求高的场景至关重要。
Claude Sonnet 4.5 这波更新很给力,Claude Code 生态又更好了。
好了,这波压力给到 GPT,给到 CodeX!
未完待续,接下来我会继续分享使用 AI 新玩法,真的都是无保留实践总结,公众号第一时间发布,关注「AI技术宅」公众号和我一起学 AI。
AI 不会淘汰程序员,但不会用 AI 的除外,会用 AI 的程序员才有未来!
版权声明: 本文系公众号 "AI技术宅" 原创,转载、引用本文内容请注明出处,抄袭、洗稿一律投诉侵权,后果自负,并保留追究其法律责任的权利。