logo NodeSeekbeta

Claude Sonnet 5 发布

发布时间:2026年7月1日
官方公告:https://www.anthropic.com/news/claude-sonnet-5

一、定位

Anthropic 把 Sonnet 5 定位为"迄今为止Agent能力最强的 Sonnet 模型"。官方原话大意是:它能制定计划、调用浏览器和终端等工具,并在自主运行的层面上,达到几个月前还需要更大、更贵的模型才能实现的水平。

核心卖点很直接:整体表现已经逼近 Opus 4.8,但价格更低——把此前基本只有 Opus 级别才能稳定完成的Agent任务,下放到了 Sonnet 价位。

二、基准测试

官方公布的对比数据(Sonnet 5 / Sonnet 4.6 / Opus 4.8,Opus 仅作参考):

测试项 Sonnet 5 Sonnet 4.6 Opus 4.8(参考)
SWE-bench Pro(agentic coding) 63.2% 58.1% 69.2%
Terminal-Bench 2.1(agentic coding) 80.4% 67.0% 82.7%
Humanity's Last Exam(无工具) 43.2% 34.6% 49.8%
Humanity's Last Exam(有工具) 57.4% 46.8% 57.9%
OSWorld-Verified(computer use) 81.2% 78.5% 83.4%
GDPval-AA v2(知识工作,分数制) 1618 1395 1615

几个值得注意的点:

  • GDPval-AA v2 上 Sonnet 5(1618)反超了 Opus 4.8(1615),是表中唯一 Sonnet 5 领先参考模型的项目。
  • Terminal-Bench 2.1 涨幅最大,相比 Sonnet 4.6 提升了 13.4 个百分点;SWE-bench Pro 提升相对温和,5.1 个百分点。
  • 官方在脚注里说明,为了保持对比口径一致,重新评测了 HLE 和 OSWorld-Verified:HLE 换了评分模型(grader model),OSWorld-Verified 调整了运行方式以更准确反映真实表现。所以表中 Sonnet 4.6 的分数(HLE 34.6%/46.8%,OSWorld 78.5%)和 Sonnet 4.6 当初发布博客里的数字对不上,这是方法论更新导致的,不是错误。

官方还放出了 BrowseComp(agentic search)和 OSWorld-Verified 在不同 effort 等级下的成本-性能曲线:Sonnet 5(橙线)在多数 effort 区间内严格优于 Sonnet 4.6(灰线);Opus 4.8(黄线)在追求更高精度时仍是更优选择。effort 是 API 里控制思考深度和 token 消耗的参数,目前最高档位是 xhigh。也就是说 Sonnet 5 和 Opus 4.8 现在共同覆盖了一段连续的性价比区间,可以通过调节 effort 在两者之间找平衡点,而不是非此即彼。

三、价格

这部分是最直接影响成本核算的内容:

  • 介绍期定价(即日起至 2026年8月31日):输入 $2/MTok,输出 $10/MTok
  • 标准定价(9月1日起):输入 $3/MTok,输出 $15/MTok —— 和 Sonnet 4.6 的标准价完全一致

容易被忽略的细节:Sonnet 5 换了新 tokenizer(和 Opus 4.7 当时换 tokenizer 是同一性质的变化),同样的输入文本会被切成更多 token,大约是原来的 1.0–1.35 倍,具体倍数取决于内容类型。官方说介绍期定价"大致做到了迁移成本中性"——账面单价降了,但 token 数量可能涨,实际换算下来对多数场景接近持平,不是单纯降价。如果在做精确的成本预算迁移,建议自己用 count_tokens 实测一遍,不要直接按单价倍率估算。

对比之下,Opus 4.8 标准定价是输入 $5/MTok、输出 $25/MTok,所以哪怕过了介绍期,Sonnet 5 标准价也只是 Opus 4.8 的三到五折。

四、可用性

  • 即日起成为 Free 和 Pro 计划的默认模型
  • Max、Team、Enterprise 用户均可使用
  • 同步上线 Claude CodeClaude Platform(API)
  • API 模型 ID:claude-sonnet-5
  • 为配合更高 effort 等级带来的 token 消耗增长,官方同步上调了 Chat、Cowork、Claude Code 和 Claude Platform 的速率限制

五、安全性

官方安全评估的几个结论:

  • 相比 Sonnet 4.6,不良行为整体发生率更低,在代理场景下更安全
  • 拒绝恶意请求、抵抗 prompt injection 劫持的能力有提升
  • 幻觉率和谄媚(sycophancy)倾向低于 Sonnet 4.6
  • 在覆盖配合滥用、欺骗等大范围失调行为的自动化行为审计中,Sonnet 5 的失调行为率低于 Sonnet 4.6,但仍高于 Opus 4.8 和 Claude Mythos Preview

网络安全相关能力:Sonnet 5 没有针对网络安全任务做专门训练,在开发漏洞利用(exploit)这类高危测试中能力明显弱于 Opus 系列。在与 Mozilla 合作的 Firefox 147 漏洞利用评测中,Sonnet 5 和 Sonnet 4.6 都没能开发出完整可用的 exploit(均为 0.0%),但 Sonnet 5 的部分成功率略高于 4.6——官方认为这更多是通用智能提升带来的副产物,而非专门训练的结果。

因为这项能力比上一代略有抬升,Sonnet 5 默认启用了网络安全实时防护(cyber safeguards),规格和 Opus 4.7/4.8 一致,比 Fable 5 上的限制更宽松。Sonnet 5 也被纳入了 Cyber Verification Program,目前在 Claude Platform 原生环境、AWS 上的 Claude Platform、Microsoft Foundry(Azure/Anthropic 托管)均可用,Google Vertex 上的支持即将上线。

六、生态配套

claude-api skill

配合 Sonnet 5 发布,官方同步更新了开源的 claude-api Agent Skill,用于辅助开发和迁移:

  • 覆盖 Messages APIClaude Managed Agents(beta)两个使用面
  • 支持 8 种语言:Python、TypeScript、C#、Go、Java、PHP、Ruby、cURL
  • 针对迁移到 Sonnet 5 的场景,会做几件事:推荐合适的 effort 起始档位、标记可能在新模型上行为不同的 prompt(涉及长度控制、工具触发、子代理调用、指令遵循等)、按需配置 thinking 摘要显示、配置顾问模式(advisor mode)
  • 采用渐进式加载(progressive disclosure),只在需要时加载对应语言/场景的文档,不会一次性把全部参考资料塞进上下文
  • Claude Code 默认自带这个 skill,也可以从 Anthropic 官方开源 skills 仓库单独安装到其他环境

Multiagent sessions(Claude Managed Agents)

另一项同步更新是 Claude Managed Agents 里的多代理编排功能,文档里明确把"用 Sonnet 5 做执行层、搭配更高容量模型(如 Opus)处理疑难子任务"列为典型用法之一,也就是官方说的 escalation(升级)模式。技术细节:

  • 一个 coordinator 代理负责把任务派发给名下的子代理
  • 单个 session 最多可登记 20 个不同代理,最多 25 个并发线程
  • 每个代理可单独配置模型、system prompt、工具、MCP server 和 skill,彼此之间工具和上下文不共享
  • 所有代理共享同一个 sandbox、文件系统和 vault 凭据,但各自维护独立的对话历史(session thread)
  • 官方建议的三种典型用法:并行化(拆分独立子任务同时跑)、专业化(按领域分配给专门配置的代理)、升级(把高难度子任务交给更强的模型处理)
  • 需要这个功能记得带上 beta header:managed-agents-2026-04-01

七、早期合作伙伴反馈(转述,非原文引用)

官方公告附带了一批合作伙伴的使用反馈,这里挑几条有明确署名和公司的做简单转述:

  • Cursor(Sualeh Asif,联合创始人):用 Sonnet 5 跑的 agent 能保持在既定计划内,遵循代码规范,完成多步骤改动,同时保持成本可控
  • ClickHouse(Ryadh Dahimene,AI/ML 产品总监):Sonnet 5 的推理步骤更紧凑,能让用户更快拿到结果,这种速度提升用户能直接感受到
  • Lovable(Fabian Hedin,联合创始人):模型拒绝不安全请求时表现得干净利落,对于把构建工具开放给大量普通用户的产品来说,这点很重要
  • Pace(Eric He,技术团队成员):公司的 computer-use agent 用 Sonnet 5 处理保单受理、首次出险通知(FNOL)、损失记录查询等保险业务流程,模型能稳定做出正确操作且执行迅速
  • Eve(Mauricio Wulfovich,首席机器学习工程师):在原告方法律业务场景中,Sonnet 5 处于性价比帕累托前沿,法律研究和分析方面提升最明显,迁移决策因此变得容易

小结

这次发布的信号很清楚:Anthropic 正在把"代理能力"从 Opus 专属下放到 Sonnet 价位。如果现在的工作流里用 Opus 4.8 主要是因为"普通模型完不成多步任务才不得不用",Sonnet 5 很可能已经够用,值得拿实际场景重新跑一轮评测;如果还是需要顶尖精度,Opus 4.8 仍是更稳的选择,Multiagent sessions 提供的"Sonnet 5 执行 + Opus 升级"模式可能是目前性价比较优的折中方案。

迁移时务必注意 tokenizer 变化对实际 token 消耗的影响,别只看账面单价。


参考链接

  • 比GPT-5.5更便宜且更优秀 xhj006

  • 感觉不太行
    找了个之前用4.6改的代码,让它帮我复核一下有没问题,然后它巴拉巴拉一顿输出给我指了一个问题,我还耐心地一点一点往下看,结果看到最后这狗日的又告诉我是误判 xhj013

  • 也不知道缓存有 1M 了没

你好啊,陌生人!

我的朋友,看起来你是新来的,如果想参与到讨论中,点击下面的按钮!

📈用户数目📈

目前论坛共有62865位seeker

🎉欢迎新用户🎉