当前位置: 首页 > news >正文

Claude 4.5 刚刚发布,能连肝 30 多个小时,史上最卷 AI 诞生

论卷编程,还得看 Claude。
就在刚刚,Anthropic 正式发布 Claude Sonnet 4.5。

Claude

先说 Claude Sonnet 4.5 交出的成绩单,在考察真实编程水平的 SWE-bench Verified 测试里,Claude Sonnet 4.5 直接登顶业界第一。

Chart showing frontier model performance on SWE-bench Verified with Claude Sonnet 4.5 leading

更离谱的是,它能连续专注干活超过 30 小时。
好好好,AI 取代人类的优势又 +1 了。

比如让它写个类似 Slack 或 Teams 的聊天应用,它能一口气敲出大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex,最多也就能独立工作七小时。

用 Anthropic 的话来说,Claude Sonnet 4.5 现在就是全球最强编程模型——构建复杂智能体、操作电脑、推理和数学,各项能力都狠狠提升了一波。

Benchmark table comparing frontier models across popular public evals

比方说,在 OSWorld 这个专门测试真实计算机任务的基准里,它拿下了 61.4% 的成绩,直接第一。要知道,四个月前 Sonnet 4 还以 42.2% 的成绩遥遥领先,这才多久性能就又往上抬了一大截。

而 Anthropic 的 Claude Chrome 插件甚至能直接在浏览器里自己导航网站、填表格、处理任务,像个真人在操作似的。推理、金融这些测评项目上也都更强了,各项指标都在往上涨。

Finance

有了这么强的能力,Anthropic 这次自然不会只发个模型就完事。

Claude Code terminal interface showing welcome screen with recent project activity and new features including agent capabilities and security review tools, running Sonnet 4.5.

具体来看:

  • Claude Code加了「检查点」功能,能随时保存进度,想回退到之前某个状态一键搞定
  • 终端界面翻新,还发布了原生 VS Code 插件
  • Claude API 增加了上下文编辑功能和记忆工具
  • 代码执行和文件创建现在直接整合到对话里

甚至,Anthropic 把自己内部用来搭建 Claude Code 的底层基础设施也开放出来了,叫 Claude Agent SDK。
智能体怎么在长时间任务里管理记忆、怎么设计权限系统让自主性和用户控制找到平衡点、怎么让多个子智能体配合着完成目标,这些都是构建和设计 AI 智能体的棘手问题。
而借助 Claude Agent SDK,现在你也能拿去构建自己的产品。

Claude Agent SDK

今天起,开发者还可以通过 Claude API 调用 claude-sonnet-4-5。定价还是跟 Claude Sonnet 4 一样,每百万 tokens $3/$15,价格没变能力更强。

网友 @vasumanmoza 体验完直接发帖:

「Claude 4.5 Sonnet 刚在一次调用里重构了我整个代码库,25 次工具调用,新增 3000 多行代码,生成了 12 个全新文件。它把所有东西都模块化了,拆掉了巨石式结构,清理了意大利面条式代码。结果完全跑不通,但天啊真的很优雅。」这评价,属于又爱又恨那种。

Cursor 表示,在 Claude Sonnet 4.5 上看到了最前沿的编程性能,尤其处理长周期任务时提升明显。这也再次说明为什么很多 Cursor 用户会选 Claude 来解决最复杂的问题。

知名测评博主 Dan Shipper 则表示,新版 Sonnet 4.5 在使用体验上响应速度更快,可控性更强,也更稳定。

Evry

性能强是一方面,安全性也得跟上。

据介绍,Claude Sonnet 4.5 也是 Anthropic 到目前为止对齐度最高的前沿模型。

靠着 Claude 更强的能力加上完善的安全训练,Anthropic 在模型行为上取得了显著改进,减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为。此外,Anthropic 在防御提示注入攻击和减少内容误判这块也有了重大突破。

Misaligned

比较让我感兴趣的是,Anthropic 还在 Claude Sonnet 4.5 发布的同时推出了个临时研究预览功能,叫「Imagine with Claude」。

在这个功能里,Claude 会实时生成软件,所有功能不是预设的,所有代码也不是提前写好的。你看到的一切都是 Claude 跟你互动时当场创造和调整出来的。

不过,「Imagine with Claude」接下来五天内只会对 Max 订阅用户开放。
附上传送门 claude.ai/imagine。

Chat

毫无疑问,今年的 AI 赛道依旧是卷编程的一年。

目前 Anthropic 估值已经到了 1830 亿美元,8 月还实现了年化营收 50 亿美元,但这其中相当一部分增长靠着来自编程软件的普及。问题是,老对手 OpenAI 和 Google Gemini 也在疯狂推类似工具抢程序员用户。

甚至一周之后就是 OpenAI 年度开发者大会,Anthropic 这个时候抢先发布 Claude Sonnet 4.5,时间卡得够精准,明摆着就是要给对手上一波压力。

此外,Anthropic 联合创始人兼首席科学官 Jared Kaplan 还表示,更先进的 Opus 模型,预计今年晚些时候推出:「Anthropic 在大小模型的使用上都能占优势。」

Claude

不过有一说一,Anthropic 自己眼下也有麻烦要解决。

过去两个月,Claude 系列模型刚经历了一场「降智」风波。 用户普遍反映模型推理、代码、格式和工具调用质量断崖式下滑,连付费的 Max 用户都没能幸免。

虽然 Anthropic 后来紧急回滚了 Opus 4.1 更新,还承认了两个独立 Bug,声明「绝非为省成本故意降智」,但由于没提供补偿或退款,GitHub 和 X 等平台上还是出现了退订潮,不少用户直接转投 Codex。
这次 Claude Sonnet 4.5 的发布,显然就是 Anthropic 想用实打实的性能提升来挽回流失的用户。至于能不能成功,就看接下来几周的实际表现了。

http://www.hskmm.com/?act=detail&tid=21369

相关文章:

  • 香橙派5pro驱动开发(一)
  • Python 脚本遇到 SSL 证书问题
  • sa-token开发时遇到的问题
  • HR如何摆脱入离职事务性内耗?组织管理系统助力聚焦人才价值挖掘
  • 基于SpringAI构建大模型应用
  • C# TCP - 串口转发 - 实践
  • 【研发规范】Git 提交(commit)、CodeReview规范
  • PCIE 各个管脚的作用是什么?
  • Windows 11 局域网打印机共享设置
  • DailyPaper-2025-9-29
  • gpd winmax2 fedora42 睡眠秒唤醒问题
  • 国企人力资源管理系统怎么选?内行人推荐这8款,功能、服务双保障
  • spring service注入命名规则
  • 完整教程:基于岗课赛证的中职物联网专业“综合布线课程”教学解决方案
  • tensorflow加载和预处理信息
  • linux查询磁盘空间,查询指定目录的空间 df命令
  • 轻松规划房贷:用好公积金贷款,让梦想之家触手可及
  • milvus使用的etcd空间整理
  • 本土化战略赋能:Gitee如何领跑中国DevOps黄金赛道
  • 打印机错误0x0000709,问题排查和修复指南
  • k8s使用的etcd空间清理
  • MyBatis 与 JPA 的核心对比
  • 2025.9.29 测试
  • 深度学习(CVAE)
  • c# aot orm 框架测试 mysql
  • 洛谷题单指南-进阶数论-P2303 [SDOI2012] Longge 的问题
  • PK-2877电流互感器在高频脉冲电源模块测试中的应用方案
  • VC++ 使用OpenSSL创建RSA密钥PEM档案
  • CF1699D Almost Triple Deletions
  • QMT回测模式为什么要在副图进行