Open-AutoGLM
4218
0
0
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
工具标签:
直达网站
工具介绍
Open-AutoGLM是什么?
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
核心功能
- 多模态理解:能够理解手机屏幕上的文字、图像等多种信息。
- 自动化任务执行:用户只需用自然语言描述需求(如“打开小红书搜索美食”),系统会自动解析意图、理解当前界面、规划下一步动作并完成整个流程。
- 敏感操作确认机制:内置敏感操作确认机制,确保操作安全性。
- 人工接管支持:在登录或验证码场景下支持人工接管。
- 远程 ADB 调试:支持通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
项目结构
主要目录
.github:包含 GitHub 相关配置文件。examples:存放示例代码,展示了如何使用 Phone Agent。phone_agent:核心代码目录,包含智能助理框架的主要实现。resources:存放项目资源,如 logo 等。
主要文件
main.py:项目的入口文件,用于启动 Phone Agent。requirements.txt:列出项目依赖的 Python 包。setup.py:用于安装项目的 Python 包。README.md:项目的中文说明文档。README_en.md:项目的英文说明文档。
环境准备
Python 环境:建议使用 Python 3.10 及以上版本。
ADB (Android Debug Bridge):
- 下载并解压官方 ADB 安装包。
- 配置环境变量,以便在命令行中直接使用 ADB 命令。
Android 设备或模拟器:
- 需要 Android 7.0 及以上版本。
- 启用开发者模式和 USB 调试。
ADB Keyboard:
- 下载并安装 ADB Keyboard 应用。
- 在设备的输入法设置中启用 ADB Keyboard。
部署准备工作


使用方法
命令行模式
- 交互模式:
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b"
- 指定任务:
python main.py --base-url http://localhost:8000/v1 "打开美团搜索附近的火锅店"
- 列出支持的应用:
python main.py --list-apps

Python API

配置选项
自定义 SYSTEM PROMPT
- 修改
phone_agent/config/prompts.py文件,可以通过注入 system prompt 增强模型在特定领域的能力,也可以通过注入 app 名称禁用某些 app。
环境变量
PHONE_AGENT_BASE_URL:模型 API 地址,默认为http://localhost:8000/v1。PHONE_AGENT_MODEL:模型名称,默认为autoglm-phone-9b。PHONE_AGENT_MAX_STEPS:每个任务最大步数,默认为100。PHONE_AGENT_DEVICE_ID:ADB 设备 ID,默认自动检测。
模型配置

Agent 配置

远程调试
配置远程调试
- 在手机端开启无线调试,确保手机和电脑在同一个 WiFi 网络中。
- 在电脑端使用标准 ADB 命令连接设备:

设备管理命令


Python API 远程连接

想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

Open-AutoGLM
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
xiaohongshu-mcp
Xiaohongshu-MCP是一款基于Model Context Protocol的开源自动化工具,专为小红书平台量身定制。它借助Playwright实现了浏览器自动化操作,为用户与小红书网页之间搭建起一座高效交互的桥梁,使得大模型能够以结构化的方式与小红书进行交互的桥梁。
InstantCharacter
InstantCharacter是腾讯混元团队基于Flux.1模型打造的全新角色个性化定制框架。它利用先进的扩散变换器(DiT)技术,为开发者与创作者提供了一个从单张图像到多样化角色定制的强大工具。这一框架的开源,无疑为AI内容创作领域带来了革命性的突破。
小度MCP Server
小度MCP Server是小度科技在2025年7月18日正式发布的全球首个支持物理世界交互的MCP Server,通过模型上下文协议(Model Context Protocol)的深度应用,为开发者提供了一套连接虚拟与现实的标准化工具链。
Lightning AI
Lightning AI是一个构建模型和构建/发布Lightning Apps(ML工作流模板)的平台,由Pytorch Lightning团队推出的一个快速训练、部署和开发人工智能产品的深度学习框架。
MCP.so
mcp.so是一个旨在为用户提供便捷、高效MCP服务器搜索和访问体验的在线平台。他作为最大的 MCP Server(MCP 服务器)聚合平台,汇聚了来自全球的众多优秀MCP服务器,涵盖了各种类型,包括游戏、社交、教育、创作等,让用户能够轻松找到符合自己需求的服务器。
Xcode MCP
Xcode MCP是一个基于MCP的服务器,它旨在将Xcode的强大功能扩展到轻量级编辑器如Visual Studio Code(VS Code)和Cursor中。通过MCP协议,Xcode MCP实现了AI代理与Xcode的交互,使得开发者能够在非Xcode环境下完成完整的iOS开发工作流。
MarkItDown MCP
MarkItDown MCP(Model Context Protocol)是微软推出的一款强大的文档转换工具,它能够将多种格式的文件(如PDF、Word、PowerPoint、Excel等)轻松转换为Markdown格式。
0
0






