2025年8月12日,智谱正式推出并开源全球首个100B级视觉推理模型GLM-4.5V,在魔搭社区和Hugging Face同步开放。这款基于新一代文本基座GLM-4.5-Air打造的模型,以106B总参数、12B激活参数的架构,在41个多模态榜单中刷新开源模型纪录,成为多模态AI领域的新标杆。
三大核心突破,重新定义多模态能力边界
- 全场景视觉覆盖:智谱GLM-4.5V突破传统模型局限,支持图像、视频、长文档、GUI界面等多类型视觉输入。无论是解析复杂工程图纸,还是理解实时游戏画面,都能精准处理。
- 思考模式自由切换:新增的"思考开关"让用户可根据需求选择快速响应或深度推理,平衡效率与精度。测试显示,深度模式下复杂文档解析准确率提升37%。
- 三维空间感知强化:通过三维旋转位置编码(3D-RoPE)技术,模型能精准捕捉图像中物体的空间关系,在视觉定位任务中误差率低于2%。
开发者福音:桌面助手+超低API价格
为降低使用门槛,智谱同步开源桌面助手应用,支持实时截屏/录屏交互,可完成代码调试、视频分析、文档解读等任务。更令人瞩目的是其商业化方案:
- API价格直降:输入仅2元/M tokens,输出6元/M tokens
- 响应速度突破:达60-80tokens/s,较同类模型快3倍
- 免费资源包:新用户可领2000万Tokens试用
技术细节揭秘:三模块架构+长上下文支持
GLM-4.5V采用视觉编码器-MLP适配器-语言解码器三段式设计,支持64K超长上下文,可一次性处理整本技术手册或长视频。针对高分辨率图像,独创的双三次插值机制让4K级图片处理稳定如初;三维卷积技术则使视频理解效率提升40%。
真实场景验证:从文档到游戏的全能选手
在实测中,GLM-4.5V展现惊人能力:
- 长文档解析:准确提取50页财务报告中的关键数据
- GUI交互:成功复刻某电商网站前端,定位率达98%
- 视频推理:通过游戏画面细节反推玩家策略
- 图像溯源:从模糊截图还原完整事件链条
这款模型的开源,标志着多模态AI正式进入"全场景通用"时代。对于企业开发者,其高性价比方案可快速构建智能客服、视频分析等系统;对个人用户,桌面助手将成为得力的工作伙伴。
随着智谱GLM-4.5V的广泛应用,AI与人类协作的方式正在被重新定义。
魔搭社区: https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102 (海外网站需要科学上网)
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: