AutoGLM
3004
0
0
AutoGLM是智谱AI推出的全球首个手机通用AI智能体(AI Agent),其核心定位是“通过图形用户界面(GUI)实现数字设备的自主控制”。与传统AI助手仅能提供信息查询或简单对话不同,AutoGLM突破了“被动响应”模式,通过模拟人类操作手机、电脑等设备,完成从任务规划到执行的全流程自动化。
工具标签:
直达网站
工具介绍

一、AutoGLM是什么?
AutoGLM是智谱AI推出的全球首个手机通用AI智能体(AI Agent),其核心定位是“通过图形用户界面(GUI)实现数字设备的自主控制”。与传统AI助手仅能提供信息查询或简单对话不同,AutoGLM突破了“被动响应”模式,通过模拟人类操作手机、电脑等设备,完成从任务规划到执行的全流程自动化。例如,用户只需说“帮我点一杯星巴克超大杯冰美式”,AutoGLM即可自动打开美团、搜索店铺、选择规格并完成下单,仅在付款环节交还控制权以确保安全。
作为智谱AI在ChatGLM家族中的创新延伸,AutoGLM的技术演进可分为三个阶段:
- 工具使用阶段:以智谱清言的Function Call能力为代表,实现API调用与基础自动化。
- 工具流编排阶段:通过GLMs框架整合多工具协同,支持复杂任务链。
- 设备操控阶段:2024年11月推出AutoGLM 1.0,实现手机GUI自主操作;2025年8月升级至2.0版本,融合云手机、云电脑与多模态大模型,成为跨端协作的智能体平台。
二、核心功能:
1. 跨平台任务执行
AutoGLM支持苹果与安卓系统,通过“云手机+云电脑”架构实现设备隔离。用户无需交出本地设备控制权,AI在云端完成操作,期间可正常使用手机刷抖音或打游戏。例如,在办公场景中,AutoGLM可跨应用执行全流程工作:从检索行业报告、撰写PPT,到生成1分钟短视频并发布至小红书,全程无需人工干预。
2. 深度研究与动态工具调用
依托GLM-Z1-Rumination沉思模型,AutoGLM具备万字级行业分析能力。在测试中,其可自主访问巨潮资讯网获取研报,结合实时联网搜索与工具调用(如高德地图MCP Server),完成从数据分析到落地的闭环。例如,在规划北京至上海的商务行程时,AI能同步比较机票价格、预订酒店并推荐周边餐厅。
3. 长程推理与复杂任务支持
通过“任务规划-动作执行”解耦设计,AutoGLM可处理50步以上的长任务链。以火锅食材采购为例,AI需完成:打开淘宝→搜索“火锅食材”→按销量排序→筛选评价→加入购物车→比价京东→选择优惠券→生成采购清单等54个步骤,其操作速度与准确性均超越人工。
三、技术实现:
1. 多模态大模型基座
AutoGLM 2.0由GLM-4.5与GLM-4.5V驱动:
- GLM-4.5:320亿参数基座模型,强化代码与推理数据训练,工具调用能力提升40%。
- GLM-4.5V:1060亿参数视觉推理模型,实现GUI元素模糊匹配与动态界面理解,在VAB-WebArena-Lite测试中操作成功率达59.1%。
2. 强化学习框架创新
- WEBRL自进化框架:通过KL散度控制策略更新,解决传统RL采样效率低的问题。实验显示,该框架使Llama-3.1-8B模型在WebArena-Lite上的成功率从4.8%提升至42.4%,超越GPT-4-Turbo。
- 动态课程学习机制:AI从单步操作逐步过渡到复杂任务,例如先学会“打开微信”,再学习“发送消息并附上定位”,最终完成“预约餐厅并分享链接”的全流程。
3. 低成本部署方案
单次任务成本约0.2美元,仅为Claude API的1/10。这得益于:
- 模型压缩技术:将9B参数的GLM-PC模型部署至浏览器,性能超越GPT-4o+UGround。
- MCP协议标准化:兼容高德地图、淘宝等主流API,降低工具集成门槛。
四、使用场景:
1. 生活服务智能化
- 点餐外卖:自动比较美团、饿了么价格,选择优惠券并下单。
- 出行规划:在12306购买火车票,同步预约高德特惠快车。
- 健康管理:挂号、查询体检报告,并根据结果推荐饮食方案。
2. 社交媒体运营
- 内容创作:生成朋友圈文案、撰写小红书笔记,甚至制作虚拟人口播视频。
- 互动管理:自动点赞、评论,根据用户偏好筛选互动对象。
3. 办公自动化
- 学术研究:检索北大核心期刊论文,搭建GitHub代码仓库。
- 数据分析:从Excel提取数据,生成可视化报表并撰写解读报告。
4. 电子商务优化
- 智能购物:追踪商品价格波动,在“双11”等节点自动复购。
- 供应链管理:对比1688与京东工业品价格,生成采购建议。
五、使用限制与建议
1. 当前限制
- APP支持范围:云手机内置40余款主流APP(如抖音、淘宝、高德),暂不支持自主下载。
- 账号安全:需用户提前登录账号,AI无法存储密码。
- 任务描述精度:需明确指定APP名称(如“用美团点星巴克”而非“点咖啡”)。
2. 优化建议
- 个性化偏好学习:通过多次交互记录用户习惯(如咖啡杯型、甜度选择)。
- 多任务并行处理:支持同时执行“播放音乐+规划路线”等跨应用任务。
- 异常处理机制:在网络中断或界面变更时自动重试或提示用户。
六、版本与下载:
1. 版本演进
- AutoGLM 1.0:2024年11月发布,聚焦手机GUI操作,支持20余款APP。
- AutoGLM沉思版:2025年3月推出,集成深度研究能力,可生成行业分析报告。
- AutoGLM 2.0:2025年8月升级,引入云手机/云电脑架构,支持跨端协作与50步以上复杂任务。
2. 下载方式
- 移动端:安卓用户可通过应用市场搜索“AutoGLM”,iOS用户需通过TestFlight体验。
- 网页版:访问AutoGLM官网,支持浏览器插件安装。
- 开源计划:智谱将于2025年4月开源核心链路技术,包括模型训练框架与工具适配SDK。
七、AutoGLM 2.0:
作为全球首个手机通用智能体,AutoGLM 2.0标志着AI从“辅助工具”向“协作伙伴”的演进。其技术突破体现在:
- 全端适配:支持手机、电脑、AI眼镜等多设备,通过云技术解决系统兼容性问题。
- 异步协作:用户可随时接管任务,例如在AI订机票时修改舱位偏好。
- 生态开放:通过MCP协议整合摄像头、传感器等硬件,推动端侧智能决策(如华为Mate 70的端侧AI功能)。
据智谱CEO张鹏透露,AutoGLM的下一步将聚焦三大方向:
- 自主经济实体:通过撰写文章、设计商品实现自我盈利。
- 跨物种协作:与机器人协同完成工业生产或灾难救援。
- 认知增强系统:通过深度交互突破人类知识边界。
从一杯咖啡的自动化点单,到跨平台的全流程工作流,AutoGLM正在重新定义人机协作的边界。随着GLM-5等后续模型的推出,一个由智能体驱动的技术革命,或将重塑人类与机器的关系,开启真正的“决策智能”时代。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

Genspark
Genspark是由前百度高管景鲲与朱凯华联合创立的AI Agent搜索引擎,采用多智能体混合系统(MoA)架构,整合8个语言模型及80+工具,提供无广告、个性化搜索体验。其Super Agent支持动态协调任务,如旅行规划、视频生成、电话预订等,在GAIA基准测试中表现优异。
Atypica.ai
Atypica.AI是一款专为商业研究打造的AI智能体(AI agent)框架,它依托先进的语言模型技术,深度剖析消费者情绪、市场认知以及决策偏好。该框架通过精准模拟消费者的个性特征与认知模式,为品牌方提供极具价值的深度洞察,助力品牌在竞争激烈的市场环境中精准定位,并全面提升自身竞争力。
Noah AI
Noah AI是由美国初创公司Noah Technologies, Inc. 开发的一款生物医药&科研领域的Agent,精准可溯源,其定位并非通用聊天机器人,而是“可执行科研级任务的智能代理(Agent)”。产品于2024年起陆续向机构用户开放.
Tunee
Tunee是一个由生成式AI驱动的音乐智能体(AI Music Agent)。它把自己定义为“你的私人音乐制作人+全能工作站+创意伙伴”,强调“对话式”而非“提示词式”的交互。
文心智能体平台
文心智能体平台是百度依托文心大模型技术构建的智能体开发与应用生态平台,旨在为企业和开发者提供“开发-分发-运营-变现”一体化解决方案。平台深度集成自然语言处理、知识图谱、机器学习等核心技术,支持零代码/低代码开发模式,覆盖金融、医疗、教育、零售等30余个行业场景,已形成“模型+工具+流量”的完整生态
Loomi
Loomi是创作版ClaudeCode,信息整合、提效、AI原生写作工具,源自中国最大营销集团BlueFocus蓝色光标旗下的BlueLab团队,并由千万级的行业数据库强势赋能。Loomi帮助所有想要在社交媒体发布内容的创作者们,通过研究与创作,实现创作能力与社媒影响力的规模化指数级增长!不再凭感
Agnes AI
Agnes AI是新加坡Sapiens AI团队开发的智能协作办公平台,支持多人实时编辑、团队记忆功能、AI内容生成,基于自研7B参数模型,为团队办公提供一体化解决方案。凭借其革命性的技术创新和深度的团队协作理念,正在重塑办公协作的新标准。
Manus
Manus全球首款真正意义上的通用AI Agent,它突破了传统AI的局限,连接思想和行动,不仅会思考,还会规划并执行复杂任务并提供结果。Manus 擅长处理工作和生活中的各种任务,可以在你休息时完成所有事情。
0
0






