• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

Claude 3.5 Haiku与Sonnet升级版:AI推理与计算机操作技能的双重飞跃

Claude 3.5 Haiku与Sonnet升级版:AI推理与计算机操作技能的双重飞跃
AI TOP100
2024-10-23 09:45:25

Claude 3.5 Haiku与Sonnet升级版:AI推理与计算机操作技能的双重飞跃

Claude 3.5 Haiku翩翩而至,升级版的Claude 3.5 Sonnet亦同步亮相,其推理能力更是超越了O1,令人瞩目。

更令人兴奋的是,Claude现已具备类似人类操作计算机的技能,能够通过观察屏幕、操控光标、点击按钮以及输入文本等方式进行互动。

Claude 3.5 Sonnet升级版现已开放,同时,computer use测试版也面向大众开放使用。

揭开新版Claude 3.5 Sonnet的神秘面纱:

经过全面更新的Claude 3.5 Sonnet在多项行业基准测试中展现了卓越的性能提升,尤其在代理编码和工具使用任务上,进步显著。

其在SWE-bench Verified上的表现从33.4%飙升至49.0%,超越了所有公开模型,包括推理模型OpenAI o1-preview以及专为代理编码设计的系统。

在代理工具使用任务TAU-bench上,Claude 3.5 Sonnet同样表现出色,零售领域从62.6%提升至69.2%,挑战性的航空领域也从36.0%增长至46.0%。

早期客户的反馈显示,升级后的Claude 3.5 Sonnet在AI编码领域实现了重大突破。GitLab在DevSecOps任务中测试了该模型,发现其在不增加延迟的情况下,推理能力显著提升(高达10%)。

经过全面更新的Claude 3.5 Sonnet在多项行业基准测试中展现了卓越的性能提升,尤其在代理编码和工具使用任务上,进步显著。

Claude 3.5 Haiku的魅力展现:

Claude 3.5 Haiku在各项技能上均有精进,甚至在多个智能基准测试中超越了前代旗舰模型Claude 3 Opus。

Claude 3.5 Haiku具备低延迟、优化的指令遵循和更精准的工具使用能力。

在编码任务方面,Haiku的表现尤为突出,例如在SWE-bench Verified上的得分为40.6%,超越了众多使用最先进公开模型的代理,包括原始的Claude 3.5 Sonnet和GPT-4o。

教授Claude掌握计算机操作的艺术:

为了让这些通用技能成为现实,我们构建了一个API,使Claude能够感知并互动计算机界面。

开发者可通过集成此API,让Claude能够将指令(如“使用我电脑上的数据并在线填写此表格”)转化为计算机操作(如检查电子表格、打开浏览器、导航至网页、填写表格等)。

在评估AI模型人类化使用计算机能力的OSWorld上,Claude 3.5 Sonnet在仅屏幕截图类别中取得了14.9%的得分,远超第二名人工智能系统的7.8%。

当提供更多步骤以完成任务时,Claude的得分更是达到了22.0%,展现了其非凡的计算机操作能力。

想了解更多AI行业资讯信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • Claude:AI人工智能助手
相关资讯
  • Perplexity AI杀疯了!从问答到视频生成,AI搜索进入“多模态”新战场

  • Perplexity Comet浏览器体验大揭秘:速度快、功能强,邀请码成“香饽饽”

  • 字节跳动放大招!视频字幕“一键消失术”来了,短剧出海有救了

  • Suno Studio重磅官宣:多轨创作+MIDI导出,音乐人狂喜的AI神器要来了!

  • Higgsfield火速上线GPT-5!网友直呼“比等早餐还快”

热点资讯

重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

6天前
重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

6天前
AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

马斯克xAI放大招:Grok 4永久免费!AI界"白嫖"时代来了?

1天前
马斯克xAI放大招:Grok 4永久免费!AI界"白嫖"时代来了?

阿里通义重磅发布Wan2.2-I2V-Flash:图生视频效率飙升12倍,成本低至0.1元/秒!

1天前
阿里通义重磅发布Wan2.2-I2V-Flash:图生视频效率飙升12倍,成本低至0.1元/秒!

Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

8天前
Higgsfield AI新功能上线:高级别多参考功能,让创作更省心
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有