


AutoGLM
386
0
0
AutoGLM是智谱AI推出的全球首个手机通用AI智能体(AI Agent),其核心定位是“通过图形用户界面(GUI)实现数字设备的自主控制”。与传统AI助手仅能提供信息查询或简单对话不同,AutoGLM突破了“被动响应”模式,通过模拟人类操作手机、电脑等设备,完成从任务规划到执行的全流程自动化。
工具标签:
直达网站

工具介绍
一、AutoGLM是什么?
AutoGLM是智谱AI推出的全球首个手机通用AI智能体(AI Agent),其核心定位是“通过图形用户界面(GUI)实现数字设备的自主控制”。与传统AI助手仅能提供信息查询或简单对话不同,AutoGLM突破了“被动响应”模式,通过模拟人类操作手机、电脑等设备,完成从任务规划到执行的全流程自动化。例如,用户只需说“帮我点一杯星巴克超大杯冰美式”,AutoGLM即可自动打开美团、搜索店铺、选择规格并完成下单,仅在付款环节交还控制权以确保安全。
作为智谱AI在ChatGLM家族中的创新延伸,AutoGLM的技术演进可分为三个阶段:
- 工具使用阶段:以智谱清言的Function Call能力为代表,实现API调用与基础自动化。
- 工具流编排阶段:通过GLMs框架整合多工具协同,支持复杂任务链。
- 设备操控阶段:2024年11月推出AutoGLM 1.0,实现手机GUI自主操作;2025年8月升级至2.0版本,融合云手机、云电脑与多模态大模型,成为跨端协作的智能体平台。
二、核心功能:
1. 跨平台任务执行
AutoGLM支持苹果与安卓系统,通过“云手机+云电脑”架构实现设备隔离。用户无需交出本地设备控制权,AI在云端完成操作,期间可正常使用手机刷抖音或打游戏。例如,在办公场景中,AutoGLM可跨应用执行全流程工作:从检索行业报告、撰写PPT,到生成1分钟短视频并发布至小红书,全程无需人工干预。
2. 深度研究与动态工具调用
依托GLM-Z1-Rumination沉思模型,AutoGLM具备万字级行业分析能力。在测试中,其可自主访问巨潮资讯网获取研报,结合实时联网搜索与工具调用(如高德地图MCP Server),完成从数据分析到落地的闭环。例如,在规划北京至上海的商务行程时,AI能同步比较机票价格、预订酒店并推荐周边餐厅。
3. 长程推理与复杂任务支持
通过“任务规划-动作执行”解耦设计,AutoGLM可处理50步以上的长任务链。以火锅食材采购为例,AI需完成:打开淘宝→搜索“火锅食材”→按销量排序→筛选评价→加入购物车→比价京东→选择优惠券→生成采购清单等54个步骤,其操作速度与准确性均超越人工。
三、技术实现:
1. 多模态大模型基座
AutoGLM 2.0由GLM-4.5与GLM-4.5V驱动:
- GLM-4.5:320亿参数基座模型,强化代码与推理数据训练,工具调用能力提升40%。
- GLM-4.5V:1060亿参数视觉推理模型,实现GUI元素模糊匹配与动态界面理解,在VAB-WebArena-Lite测试中操作成功率达59.1%。
2. 强化学习框架创新
- WEBRL自进化框架:通过KL散度控制策略更新,解决传统RL采样效率低的问题。实验显示,该框架使Llama-3.1-8B模型在WebArena-Lite上的成功率从4.8%提升至42.4%,超越GPT-4-Turbo。
- 动态课程学习机制:AI从单步操作逐步过渡到复杂任务,例如先学会“打开微信”,再学习“发送消息并附上定位”,最终完成“预约餐厅并分享链接”的全流程。
3. 低成本部署方案
单次任务成本约0.2美元,仅为Claude API的1/10。这得益于:
- 模型压缩技术:将9B参数的GLM-PC模型部署至浏览器,性能超越GPT-4o+UGround。
- MCP协议标准化:兼容高德地图、淘宝等主流API,降低工具集成门槛。
四、使用场景:
1. 生活服务智能化
- 点餐外卖:自动比较美团、饿了么价格,选择优惠券并下单。
- 出行规划:在12306购买火车票,同步预约高德特惠快车。
- 健康管理:挂号、查询体检报告,并根据结果推荐饮食方案。
2. 社交媒体运营
- 内容创作:生成朋友圈文案、撰写小红书笔记,甚至制作虚拟人口播视频。
- 互动管理:自动点赞、评论,根据用户偏好筛选互动对象。
3. 办公自动化
- 学术研究:检索北大核心期刊论文,搭建GitHub代码仓库。
- 数据分析:从Excel提取数据,生成可视化报表并撰写解读报告。
4. 电子商务优化
- 智能购物:追踪商品价格波动,在“双11”等节点自动复购。
- 供应链管理:对比1688与京东工业品价格,生成采购建议。
五、使用限制与建议
1. 当前限制
- APP支持范围:云手机内置40余款主流APP(如抖音、淘宝、高德),暂不支持自主下载。
- 账号安全:需用户提前登录账号,AI无法存储密码。
- 任务描述精度:需明确指定APP名称(如“用美团点星巴克”而非“点咖啡”)。
2. 优化建议
- 个性化偏好学习:通过多次交互记录用户习惯(如咖啡杯型、甜度选择)。
- 多任务并行处理:支持同时执行“播放音乐+规划路线”等跨应用任务。
- 异常处理机制:在网络中断或界面变更时自动重试或提示用户。
六、版本与下载:
1. 版本演进
- AutoGLM 1.0:2024年11月发布,聚焦手机GUI操作,支持20余款APP。
- AutoGLM沉思版:2025年3月推出,集成深度研究能力,可生成行业分析报告。
- AutoGLM 2.0:2025年8月升级,引入云手机/云电脑架构,支持跨端协作与50步以上复杂任务。
2. 下载方式
- 移动端:安卓用户可通过应用市场搜索“AutoGLM”,iOS用户需通过TestFlight体验。
- 网页版:访问AutoGLM官网,支持浏览器插件安装。
- 开源计划:智谱将于2025年4月开源核心链路技术,包括模型训练框架与工具适配SDK。
七、AutoGLM 2.0:
作为全球首个手机通用智能体,AutoGLM 2.0标志着AI从“辅助工具”向“协作伙伴”的演进。其技术突破体现在:
- 全端适配:支持手机、电脑、AI眼镜等多设备,通过云技术解决系统兼容性问题。
- 异步协作:用户可随时接管任务,例如在AI订机票时修改舱位偏好。
- 生态开放:通过MCP协议整合摄像头、传感器等硬件,推动端侧智能决策(如华为Mate 70的端侧AI功能)。
据智谱CEO张鹏透露,AutoGLM的下一步将聚焦三大方向:
- 自主经济实体:通过撰写文章、设计商品实现自我盈利。
- 跨物种协作:与机器人协同完成工业生产或灾难救援。
- 认知增强系统:通过深度交互突破人类知识边界。
从一杯咖啡的自动化点单,到跨平台的全流程工作流,AutoGLM正在重新定义人机协作的边界。随着GLM-5等后续模型的推出,一个由智能体驱动的技术革命,或将重塑人类与机器的关系,开启真正的“决策智能”时代。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:
评论

全部评论

暂无评论
热门推荐
相关推荐
编剧GPT
小工具专门写剧本、脚本、图片的机器人“编剧老梁”Loomi
Loomi是BlueFocus蓝色光标旗下BlueLab团队精心打造的全球首款社交媒体内容生成领域的Multi-agent多智能体协同AI助手,它通过多个核心智能体的高效协作,实现对用户输入话题的深度洞察与分析,进而刻画目标用户人群画像,梳理创作方向,搜索相关创作数据,并制定针对性的内容策略。JoyAgent
JoyAgent是京东云自主研发的企业级一站式AI智能体搭建与发布平台,也是全球首个100%开源的多智能体产品。平台聚合大模型、知识库、插件、工作流等能力,支持用户通过自然语言或低代码方式快速构建基于大语言模型(LLM)的智能体,并一键发布至企业微信、微信公众号、Web网站等主流渠道。PhotoG
PhotoG是一款专为电商行业设计的AI营销平台,被誉为“全球首个专为电商与品牌方打造的AI驱内容营销智能体”。它通过一张图片即可生成广告、视频和SEO内容,为电商企业提供全方位的营销支持。PhotoG的核心理念是利用人工智能技术,将复杂的营销流程自动化,从而提高效率、降低成本,并提升营销效果。Atypica.ai
Atypica.AI是一款专为商业研究打造的AI智能体(AI agent)框架,它依托先进的语言模型技术,深度剖析消费者情绪、市场认知以及决策偏好。该框架通过精准模拟消费者的个性特征与认知模式,为品牌方提供极具价值的深度洞察,助力品牌在竞争激烈的市场环境中精准定位,并全面提升自身竞争力。Agnes AI
Agnes AI是新加坡Sapiens AI团队开发的智能协作办公平台,支持多人实时编辑、团队记忆功能、AI内容生成,基于自研7B参数模型,为团队办公提供一体化解决方案。凭借其革命性的技术创新和深度的团队协作理念,正在重塑办公协作的新标准。Eigent
Eigent是由OWL团队基于CAMEL和OWL框架打造的全球首个多智能体协作工具,通过将复杂任务拆解为多子任务,并利用Worker间、Worker内及工具调用的多层次并行处理机制,显著提升任务处理效率。GPTS商店
已创建超过 300 万个 GPT,现在您可以找到最适合您的 ChatGPT 版本。
0
0