重磅消息！GLM-ASR系列模型开源，智谱AI输入法惊艳登场-AITOP100,AI资讯

智谱AI输入法

2025年12月10日，智谱在微信官方公众号发文宣布：智谱正式上线GLM-ASR系列语音识别模型，还推出了基于该系列模型打造的桌面端智谱AI输入法。这难道不意味着我们在语音交互领域又向前迈进了一大步吗？与传统的语音识别工具相比，智谱此次的新动作无疑是一场创新性的变革。

GLM-ASR系列模型：语音识别新标杆

云端与端侧的完美结合

GLM-ASR-2512是智谱新一代的云端语音识别模型。它就像一个超级“语音翻译官”，能将语音实时精准地转换为文字。在多场景、多语种、多口音的真实复杂环境测试中，它的表现堪称卓越，字符错误率（CER）仅为0.0717，稳稳处于行业领先地位。想象一下，无论你是在嘈杂的街头，还是和不同口音的人交流，它都能准确无误地识别你的语音，是不是超厉害？

而GLM-ASR-Nano-2512则是在GLM-ASR-2512基础上升级至的端侧模型。它虽然参数量仅1.5B，却取得了当前开源语音识别方向的SOTA表现，甚至在部分测试中还优于若干闭源模型。这就好比一个小巧玲珑却能量巨大的精灵，把强大的识别能力压缩到本地运行。这样一来，不仅隐私保护更强，交互延迟也更低，让你随时随地都能畅快使用语音识别功能。

GLM-ASR-Nano

与传统语音识别工具对比

对比项目	传统语音识别工具	GLM-ASR系列模型
识别精度	在复杂环境下识别错误率较高	多场景、多语种、多口音下字符错误率低
隐私保护	数据多上传至云端，隐私风险较大	端侧模型本地运行，隐私保护更强
交互延迟	受网络等因素影响，延迟较高	本地运行，交互延迟更低

智谱AI输入法：语音交互新体验

输入中的模型能力调用

智谱AI输入法基于GLM-ASR系列模型打造，让用户在电脑端用语音进行丝滑交互。传统输入法就像一个单纯的打字员，只负责把你说的话变成文字。而智谱AI输入法则是一个全能小助手，它不仅能实现精准的语音转文字，还能在输入法中直接调用大模型能力，完成翻译、改写、情绪转化等操作，真正实现了“指尖即模型，语音即指令”。

从听写到改写的一体化

智谱AI输入法实现了“所选即所改”，从听写到改写的一体化流程。它可以直接调用底层GLM模型，帮助用户翻译、扩写、精简屏幕上的任意一段文字，同时完成智能润色，让输出更加自然、通顺。整个过程都在输入框内完成，实现了“理解 - 执行 - 替换”一体化，无需在多个应用间反复切换。比如，你写了一段文字，觉得不够精彩，只需在输入法中简单操作，它就能帮你把文字变得更加生动有趣。

千人千面人设切换

智谱AI输入法还支持设置不同“人设”风格，实现同一句话在不同场景下的不同表达。想象一下，在工作场景中，你选择“面对老板”人设，原本口语化的碎碎念瞬间就能转化为逻辑严谨、条理清晰的工作汇报；在生活场景中，切换至“面对伴侣”人设，文字则变得温柔俏皮，贴近日常聊天语境。这就像给你配备了一个智能语言魔法师，能根据你的需求变换不同的语言风格。

Vibe Coding（语感编程）搭子

对于开发者来说，智谱AI输入法特别推出了Vibe Coding体验，并与智谱Coding Plan账号打通。结合多语言支持与代码理解能力，开发者可以通过语音快速输入代码逻辑和注释、查找遗忘的Linux指令、用自然语言指挥AI完成复杂数学计算或脚本编写。设计师也能从传统的“用手抠图”过渡到“用嘴做设计”，大大提高了工作效率。比如，设计师在构思一个设计方案时，只需用语音描述自己的想法，输入法就能快速生成相应的设计元素。

耳语捕捉与高效热词

在开放式办公室、图书馆等公共场景中，我们常常会因为不好意思大声说话而放弃语音输入。智谱AI输入法针对这一痛点，优化了对微弱声音的捕捉能力，并区分环境噪声。只需轻声说话，就能精准转为文字，解决了公共场合“不好意思用语音输入”的难题。同时，它还支持用户一键导入专属词汇、项目代号（如AutoGLM）及生僻人名、地名等。只需在设置中添加一次，后续使用就能更加便捷。

值得一提的是，随着AI技术的不断发展，语音交互已经成为未来科技的重要趋势。智谱此次推出的GLM-ASR系列模型和智谱AI输入法，无疑顺应了这一趋势，为用户带来了更加便捷、高效的语音交互体验。