Introducing Claude Sonnet 5

为什么重要

Claude Sonnet 5 是 Anthropic 迄今为止最具 Agent 能力的 Sonnet 系列模型，其性能在多个关键指标上直逼更大规模的 Opus 4.8，同时保持显著更低的推理成本。它标志着 Sonnet 级别模型首次具备接近旗舰级的工具使用、自主规划和长程推理能力，意味着更多开发者可以在不增加成本的前提下获得生产级 Agent 体验，将加速 AI Agent 在企业级场景的规模化落地。

关键要点

Agent 能力大幅跃升：Sonnet 5 在工具调用（browser / terminal）、代码生成和多步骤推理等 Agent 核心任务上大幅超越前代 Sonnet 4.6，接近 Opus 4.8 的水平，完成了 Sonnet 系列的"Agent 化升级"。
安全评估优于前代：Anthropic 安全团队确认，Sonnet 5 在 Agent 场景下的不良行为率低于 Sonnet 4.6，且网络安全任务能力被评估为"总体安全可控"，降低了自主 Agent 部署的潜在风险。
价格亲民、能力旗舰：Anthropic 强调 Sonnet 5 定位为"最具性价比的 Agent 级模型"，为需要高频调用 Agent 能力的开发者（如 SaaS 平台、工作流自动化）提供了更低成本的高能力选项。
Benchmark 更新与透明度：Anthropic 同步更新了 OSWorld-Verified 和 Humanity's Last Exam 等关键评测的评分方法，使 Sonnet 4.6 的历史数据可与 Sonnet 5 直接对比，提升了评测的可信度和透明度。

来源：全文 | 原文