Claude 3.5 Haiku与Sonnet升级版:AI推理与计算机操作技能的双重飞跃-AITOP100,AI资讯

Claude 3.5 Haiku与Sonnet升级版:AI推理与计算机操作技能的双重飞跃

Claude 3.5 Haiku翩翩而至，升级版的Claude 3.5 Sonnet亦同步亮相，其推理能力更是超越了O1，令人瞩目。

更令人兴奋的是，Claude现已具备类似人类操作计算机的技能，能够通过观察屏幕、操控光标、点击按钮以及输入文本等方式进行互动。

Claude 3.5 Sonnet升级版现已开放，同时，computer use测试版也面向大众开放使用。

揭开新版Claude 3.5 Sonnet的神秘面纱：

经过全面更新的Claude 3.5 Sonnet在多项行业基准测试中展现了卓越的性能提升，尤其在代理编码和工具使用任务上，进步显著。

其在SWE-bench Verified上的表现从33.4%飙升至49.0%，超越了所有公开模型，包括推理模型OpenAI o1-preview以及专为代理编码设计的系统。

在代理工具使用任务TAU-bench上，Claude 3.5 Sonnet同样表现出色，零售领域从62.6%提升至69.2%，挑战性的航空领域也从36.0%增长至46.0%。

早期客户的反馈显示，升级后的Claude 3.5 Sonnet在AI编码领域实现了重大突破。GitLab在DevSecOps任务中测试了该模型，发现其在不增加延迟的情况下，推理能力显著提升（高达10%）。

经过全面更新的Claude 3.5 Sonnet在多项行业基准测试中展现了卓越的性能提升，尤其在代理编码和工具使用任务上，进步显著。

Claude 3.5 Haiku在各项技能上均有精进，甚至在多个智能基准测试中超越了前代旗舰模型Claude 3 Opus。

Claude 3.5 Haiku具备低延迟、优化的指令遵循和更精准的工具使用能力。

在编码任务方面，Haiku的表现尤为突出，例如在SWE-bench Verified上的得分为40.6%，超越了众多使用最先进公开模型的代理，包括原始的Claude 3.5 Sonnet和GPT-4o。

为了让这些通用技能成为现实，我们构建了一个API，使Claude能够感知并互动计算机界面。

开发者可通过集成此API，让Claude能够将指令（如“使用我电脑上的数据并在线填写此表格”）转化为计算机操作（如检查电子表格、打开浏览器、导航至网页、填写表格等）。

在评估AI模型人类化使用计算机能力的OSWorld上，Claude 3.5 Sonnet在仅屏幕截图类别中取得了14.9%的得分，远超第二名人工智能系统的7.8%。

当提供更多步骤以完成任务时，Claude的得分更是达到了22.0%，展现了其非凡的计算机操作能力。

想了解更多AI行业资讯信息请关注AI人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html