10 月 31 日,阿里云正式推出了拥有千亿级参数的大模型通义千问 2.0。
通义前文官网:https://tongyi.aliyun.com/
在十个权威评测中,它的综合性能超越了 GPT-3.5,并正在迅速逼近 GPT-4。 目前大家可以去手机应用商城下载--通义千问 APP 了
通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4
通义千问 2.0 在过去的六个月内取得了巨大的性能提升。与 4 月发布的 1.0 版本相比,它在理解复杂指令、文学创作、通用数学、知识记忆和抗幻觉等方面的能力都有显著进步。目前,通义千问的综合性能已经超过 GPT-3.5,正加速追赶 GPT-4。
在 MMLU、C-Eval、GSM8K、HumanEval、MATH 等十个主流评测集上,通义千问 2.0 的得分全面超越了 Meta 的 Llama-2-70B,与 OpenAI 的 Chat-3.5 相比,赢了九场输了一场,与 GPT-4 相比,则赢了四场输了一场,差距进一步缩小。
1.通义千问 2.0 在中英文理解能力上都有显著提升:
在 MMLU 英语评测中,它的得分是 82.5,仅次于 GPT-4。通过增加参数量,通义千问 2.0 能更好地理解和处理复杂的语言结构和概念。在 C-Eval 中文评测中,通义千问 2.0 以明显优势获得最高分,这是因为模型在训练中学习了更多的中文语料,进一步强化了它的中文理解表达能力。
2.在数学推理、代码理解等领域,通义千问 2.0 也取得了明显的进步。
在 GSM8K 推理评测中,它排名第二,展示了强大的计算和逻辑推理能力。在 HumanEval 评测中,它的得分紧随 GPT-4 和 GPT-3.5,这项评测主要衡量大模型理解和执行代码片段的能力,这是大模型应用于编程辅助、自动代码修复等场景的基础。
3.通义千问 2.0 更加成熟,也更好用了。
相比1.0版本,它在指令遵循、工具使用、精细化创作等方面进行了技术优化,能更好地适应下游应用场景。通义大模型官网还推出了多模态和插件功能,支持图片输入、文档解析等细分任务。
基于通义大模型训练的八大行业模型也陆续上线(垂直类大模型布局)
这八大模型分别是:
通义灵码 - 智能编码助手、
通义智文-AI 阅读助手、
通义听悟 - 工作学习 AI 助手、
通义星尘 - 个性化角色创作平台、
通义点金 - 智能投研助手、
通义晓蜜 - 智能客服、
通义仁心 - 个人专属健康助手、
通义法睿-AI 法律顾问。
这些模型针对当前最受欢迎的垂直场景进行了专门训练,用户可以在官网上直接体验到它们的功能,开发者则可以通过网页嵌入、API/SDK 调用等方式,将模型能力集成到自己的大模型应用和服务中。(我个人更加看好垂直类大模型,因为垂直类大模型相比通用大模型更加专业,更加深入!)
截至 10 月,阿里云已与 60 多个行业头部伙伴进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。
可以看出目前大家都在走商业化落地应用,如果大模型无法平稳落地,未来没有办法得到有效发展!
阿里云透露,计划近期开源通义千问 72B 版本。此前,阿里云已先后开源 7B 和 14B 版本模型,模型累计下载量超过 100 万。阿里云将持续支持开发者基于通义千问开源模型进行模型和应用创新。
AItop100:工具集--AI大模型--通义千问 也可以体验!