前言:
就在2023年的10月27日
智谱AI在2023中国计算机大会(CNCC)上推出了全自主研发的第三代基座大模型ChatGLM3,其多模态理解、代码增强、网络搜索等模块有了大幅度的提升。此外,智谱AI还发布了新一代生成式AI助手智谱清言,可支持图像处理、数学计算、数据分析等多种使用场景。据介绍,ChatGLM3在44个中英文公开数据集测试中,排名国内同尺寸模型中的第一位。
ChatGLM3集成了智谱AI自主研发的AgentTuning技术,激活了模型的智能体能力,尤其在智能规划和执行方面,相比于ChatGLM二代提升了1000%。此外,ChatGLM3还推出了可手机部署的端测模型ChatGLM3-1.5B和ChatGLM3-3B,支持多种手机和车载平台,可在移动平台上的CPU芯片上进行推理,速度可达20 Tokens/s。在精度方面,ChatGLM3-1.5B和ChatGLM3-3B在公开Benchmark上与ChatGLM2-6B模型性能相近。
全新技术升级:
1. 更强大的性能:
今年以来,智谱AI第三次对ChatGLM基座模型进行了深度优化。采用了独创的多阶段增强预训练方法,更丰富的训练数据和更优的训练方案,使训练更为充分。
评测显示,与 ChatGLM 二代模型相比,在44个中英文公开数据集测试中,ChatGLM3在国内同尺寸模型中排名首位。其中,MMLU提升36%、CEval提升33%、GSM8K提升179% 、BBH提升126%。
2. 瞄向GPT-4V的技术升级:
瞄向GPT-4V,ChatGLM3 本次实现了若干全新功能的迭代升级,包括:
多模态理解能力的CogVLM,看图识语义,在10余个国际标准图文评测数据集上取得SOTA;
代码增强模块 Code Interpreter 根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;
网络搜索增强WebGLM,接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接。
ChatGLM3的语义能力与逻辑能力大大增强。
3. 全新的 Agent 智能体能力:
ChatGLM3 本次集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在智能规划和执行方面,相比于ChatGLM二代提升 1000% ;开启国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。
4. Edge端侧模型:
ChatGLM3 本次推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括Vivo、小米、三星在内的多种手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理,速度可达20 tokens/s。精度方面 ChatGLM3-1.5B 和 ChatGLM3-3B 在公开 Benchmark 上与 ChatGLM2-6B 模型性能接近。 (未来智能化手机一定大规模出现)
5. 更高效推理/降本增效:
基于最新的高效动态推理和显存优化技术,我们当前的推理框架在相同硬件、模型条件下,相较于目前最佳的开源实现,包括伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,推理速度提升了2-3倍,推理成本降低一倍,每千 tokens 仅0.5分,成本最低。
新一代「智谱清言」上线
讲个题外话,我现在已经基本上在工作中都是使用智谱清言和文心一格了,chatgpt没有再使用了! ,智谱清言灵感大全很适合我的工作,对我的工作帮助很多!
在全新升级的 ChatGLM3 赋能下,生成式 AI 助手智谱清言已成为国内首个具备代码交互能力的大模型产品(Code Interpreter),可支持图像处理、数学计算、数据分析等使用场景。
以下分别为:
1.处理数据生成图表:
2.画图:
目前这个功能是有了,但是生成的画相比Midjourney等AI绘图软件来说还是有差距的!
3.上传SQL代码分析:
4.更强的搜索能力:
随着WebGLM大模型能力的加入,智谱清言现具有搜索增强能力。智谱清言可以帮助用户整理出相关问题的网上文献或文章链接,并整理出答案。
5.图片理解能力:
CogVLM 模型则提高了智谱清言的中文图文理解能力,取得了接近 GPT-4V 的图片理解能力。它可以回答各种类型的视觉问题,并且可以完成复杂的目标检测,并打上标签,完成自动数据标注。
值得注意的是,有些涉及到政治或者贡献很大的人物的图片时,这个模型就不会给你解答,本人亲测过!如下图所示:
目前包括智谱AI在内的国内各大平台都在不断的创新:
从2022年开始,GLM 系列模型已支持在昇腾、神威超算、海光 DCU 架构上进行大规模预训练和推理,当前已支持10余种国产硬件生态,包括昇腾、神威超算、海光DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。通过与国产芯片企业的联合创新,性能不断优化,期待有一天国产原生大模型与国产芯片能够在国际舞台上闪光。