Introducing Claude Sonnet 5

为什么重要

Claude Sonnet 5 是 Anthropic 迄今为止最具 Agent 能力的 Sonnet 系列模型,其性能在多个关键指标上直逼更大规模的 Opus 4.8,同时保持显著更低的推理成本。它标志着 Sonnet 级别模型首次具备接近旗舰级的工具使用、自主规划和长程推理能力,意味着更多开发者可以在不增加成本的前提下获得生产级 Agent 体验,将加速 AI Agent 在企业级场景的规模化落地。

关键要点

  1. Agent 能力大幅跃升:Sonnet 5 在工具调用(browser / terminal)、代码生成和多步骤推理等 Agent 核心任务上大幅超越前代 Sonnet 4.6,接近 Opus 4.8 的水平,完成了 Sonnet 系列的"Agent 化升级"。

  2. 安全评估优于前代:Anthropic 安全团队确认,Sonnet 5 在 Agent 场景下的不良行为率低于 Sonnet 4.6,且网络安全任务能力被评估为"总体安全可控",降低了自主 Agent 部署的潜在风险。

  3. 价格亲民、能力旗舰:Anthropic 强调 Sonnet 5 定位为"最具性价比的 Agent 级模型",为需要高频调用 Agent 能力的开发者(如 SaaS 平台、工作流自动化)提供了更低成本的高能力选项。

  4. Benchmark 更新与透明度:Anthropic 同步更新了 OSWorld-Verified 和 Humanity's Last Exam 等关键评测的评分方法,使 Sonnet 4.6 的历史数据可与 Sonnet 5 直接对比,提升了评测的可信度和透明度。

来源全文 | 原文