全新升级：新版 Claude 3.5 Sonnet 和 Claude 3.5 Haiku 发布

Anthropic 正式发布了新版 Claude 3.5 Sonnet，并推出了全新的 Claude 3.5 Haiku 模型：

升级后的 Claude 3.5 Sonnet 在多个领域都有显著提升，尤其在它擅长的编程领域，又取得了突破性进展。
新发布的 Claude 3.5 Haiku 在多项测试中表现出色，能与 Claude 3 Opus 相媲美，同时还保持了与上一代 Haiku 相近的速度和成本优势。

革命性功能：计算机使用能力

Anthropic 还启动了全新的「计算机使用能力」(Computer Use) 公测。通过 Computer Use API，开发者可以教导 Claude 模拟人类操作计算机，包括观察屏幕、移动鼠标、点击按钮和输入文字。该功能能够自动化重复性工作，支持软件开发和测试，甚至用于开放式研究任务。

Claude 3.5 Sonnet 是首个支持「计算机使用能力」的 AI 模型，但该功能仍处于实验阶段，可能存在一定的局限和错误。

通过 Computer Use API，Claude 能够感知和交互计算机界面，将指令转化为计算机操作，例如：

在 OSWorld 测试中，Claude 3.5 Sonnet 在「仅截图」类别中得分 14.9%，领先于其他 AI 系统；当允许更多操作步骤时，得分提升到了 22.0%。

新版 Claude 3.5 Sonnet 在多项行业基准测试中取得了全面的进步，尤其是在智能体编码 (Agentic Coding) 和工具使用 (Tool Use) 任务中突破明显：

在编程领域，它在 SWE-bench Verified 测试中的得分从 33.4% 提升到了 49.0%，超越了所有公开可用的模型，包括 OpenAI o1-preview 等推理模型和专门为智能体编码设计的系统。
在 TAU-bench 测试中，新版 Claude 3.5 Sonnet 在零售领域的得分从 62.6% 提升到了 69.2%；在航空领域从 36.0% 提升到了 46.0%。这一进步还是在价格和速度保持不变的情况下实现的。
新版 Claude 3.5 Sonnet 在发布前经过了美国 AI 安全研究所（US AISI）和英国安全研究所（UK AISI）的联合测试，确保了模型的可靠性和安全性。

升级版 Claude 3.5 Sonnet 现已对所有用户开放。开发者现在就可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台使用这款支持「计算机使用能力」的测试版模型。

Claude 3.5 Haiku 是 Anthropic 最新的快速模型。它保持了与 Claude 3 Haiku 相同成本和速度，并在各项能力上实现了显著提升，甚至超越了 Claude 3 Opus。

在编程任务中，Claude 3.5 Haiku 在 SWE-bench Verified 测试中的得分达到了 40.6%，超越了多款公开可用的顶尖 AI 模型，包括原版 Claude 3.5 Sonnet 和 GPT-4o。
Claude 3.5 Haiku 凭借低延迟、出色的指令理解能力和更精准的工具使用能力，非常适合拿来开发用户产品、处理子智能体任务，或从海量数据（如购买记录、价格或库存信息）中生成个性化体验。

Claude 3.5 Haiku 预计将于本月晚些时候上线，初期仅支持文本输入功能，图像输入功能将在后续版本中推出，届时可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台使用。