升级后的 Claude 3.5 Sonnet 在行业基准测试中展现出全面改进,尤其在主动编程和工具使用任务方面取得显著进展。在编程方面,其在 SWE-bench Verified 上的表现从 33.4% 提升至 49.0%,超越了所有公开可用的模型——包括 OpenAI o1-preview 等推理模型和专门设计用于主动编程的系统。在 TAU-bench(一项主动工具使用任务)上,零售领域的表现从 62.6% 提升至 69.2%,在更具挑战性的航空领域则从 36.0% 提升至 46.0%。新版 Claude 3.5 Sonnet 在保持与前代产品相同价格和速度的同时提供这些进步。