Claude 3.5 Haiku翩翩而至,升级版的Claude 3.5 Sonnet亦同步亮相,其推理能力更是超越了O1,令人瞩目。
更令人兴奋的是,Claude现已具备类似人类操作计算机的技能,能够通过观察屏幕、操控光标、点击按钮以及输入文本等方式进行互动。
Claude 3.5 Sonnet升级版现已开放,同时,computer use测试版也面向大众开放使用。
揭开新版Claude 3.5 Sonnet的神秘面纱:
经过全面更新的Claude 3.5 Sonnet在多项行业基准测试中展现了卓越的性能提升,尤其在代理编码和工具使用任务上,进步显著。
其在SWE-bench Verified上的表现从33.4%飙升至49.0%,超越了所有公开模型,包括推理模型OpenAI o1-preview以及专为代理编码设计的系统。
在代理工具使用任务TAU-bench上,Claude 3.5 Sonnet同样表现出色,零售领域从62.6%提升至69.2%,挑战性的航空领域也从36.0%增长至46.0%。
早期客户的反馈显示,升级后的Claude 3.5 Sonnet在AI编码领域实现了重大突破。GitLab在DevSecOps任务中测试了该模型,发现其在不增加延迟的情况下,推理能力显著提升(高达10%)。
Claude 3.5 Haiku的魅力展现:
Claude 3.5 Haiku在各项技能上均有精进,甚至在多个智能基准测试中超越了前代旗舰模型Claude 3 Opus。
Claude 3.5 Haiku具备低延迟、优化的指令遵循和更精准的工具使用能力。
在编码任务方面,Haiku的表现尤为突出,例如在SWE-bench Verified上的得分为40.6%,超越了众多使用最先进公开模型的代理,包括原始的Claude 3.5 Sonnet和GPT-4o。
教授Claude掌握计算机操作的艺术:
为了让这些通用技能成为现实,我们构建了一个API,使Claude能够感知并互动计算机界面。
开发者可通过集成此API,让Claude能够将指令(如“使用我电脑上的数据并在线填写此表格”)转化为计算机操作(如检查电子表格、打开浏览器、导航至网页、填写表格等)。
在评估AI模型人类化使用计算机能力的OSWorld上,Claude 3.5 Sonnet在仅屏幕截图类别中取得了14.9%的得分,远超第二名人工智能系统的7.8%。
当提供更多步骤以完成任务时,Claude的得分更是达到了22.0%,展现了其非凡的计算机操作能力。
想了解更多AI行业资讯信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html