Open-AutoGLM
7279
0
0
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
工具标签:
直达网站
工具介绍
Open-AutoGLM是什么?
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
核心功能
- 多模态理解:能够理解手机屏幕上的文字、图像等多种信息。
- 自动化任务执行:用户只需用自然语言描述需求(如“打开小红书搜索美食”),系统会自动解析意图、理解当前界面、规划下一步动作并完成整个流程。
- 敏感操作确认机制:内置敏感操作确认机制,确保操作安全性。
- 人工接管支持:在登录或验证码场景下支持人工接管。
- 远程 ADB 调试:支持通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
项目结构
主要目录
.github:包含 GitHub 相关配置文件。examples:存放示例代码,展示了如何使用 Phone Agent。phone_agent:核心代码目录,包含智能助理框架的主要实现。resources:存放项目资源,如 logo 等。
主要文件
main.py:项目的入口文件,用于启动 Phone Agent。requirements.txt:列出项目依赖的 Python 包。setup.py:用于安装项目的 Python 包。README.md:项目的中文说明文档。README_en.md:项目的英文说明文档。
环境准备
Python 环境:建议使用 Python 3.10 及以上版本。
ADB (Android Debug Bridge):
- 下载并解压官方 ADB 安装包。
- 配置环境变量,以便在命令行中直接使用 ADB 命令。
Android 设备或模拟器:
- 需要 Android 7.0 及以上版本。
- 启用开发者模式和 USB 调试。
ADB Keyboard:
- 下载并安装 ADB Keyboard 应用。
- 在设备的输入法设置中启用 ADB Keyboard。
部署准备工作


使用方法
命令行模式
- 交互模式:
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b"
- 指定任务:
python main.py --base-url http://localhost:8000/v1 "打开美团搜索附近的火锅店"
- 列出支持的应用:
python main.py --list-apps

Python API

配置选项
自定义 SYSTEM PROMPT
- 修改
phone_agent/config/prompts.py文件,可以通过注入 system prompt 增强模型在特定领域的能力,也可以通过注入 app 名称禁用某些 app。
环境变量
PHONE_AGENT_BASE_URL:模型 API 地址,默认为http://localhost:8000/v1。PHONE_AGENT_MODEL:模型名称,默认为autoglm-phone-9b。PHONE_AGENT_MAX_STEPS:每个任务最大步数,默认为100。PHONE_AGENT_DEVICE_ID:ADB 设备 ID,默认自动检测。
模型配置

Agent 配置

远程调试
配置远程调试
- 在手机端开启无线调试,确保手机和电脑在同一个 WiFi 网络中。
- 在电脑端使用标准 ADB 命令连接设备:

设备管理命令


Python API 远程连接

想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

Xcode MCP
Xcode MCP是一个基于MCP的服务器,它旨在将Xcode的强大功能扩展到轻量级编辑器如Visual Studio Code(VS Code)和Cursor中。通过MCP协议,Xcode MCP实现了AI代理与Xcode的交互,使得开发者能够在非Xcode环境下完成完整的iOS开发工作流。
Cloudflare
Cloudflare面向Node.js生态的Agents开发包是一款专为Node.js开发者设计的工具集,它集成了多项核心功能,包括工作流引擎、工具集成框架、多代理协作平台(MCP)以及状态持久化支持。这些功能共同为开发者提供了一个高效、灵活的AI代理开发环境。
comfyui
ComfyUI是一个专为AI绘图和图像生成设计的用户界面工具,提供了丰富的功能和资源,帮助用户更好地进行创作。它基于Stable Diffusion技术,这是一个开源的AI模型,能够根据文本提示生成图像
MCP.so
mcp.so是一个旨在为用户提供便捷、高效MCP服务器搜索和访问体验的在线平台。他作为最大的 MCP Server(MCP 服务器)聚合平台,汇聚了来自全球的众多优秀MCP服务器,涵盖了各种类型,包括游戏、社交、教育、创作等,让用户能够轻松找到符合自己需求的服务器。
Keras
Python版本的TensorFlow深度学习API
Lightning AI
Lightning AI是一个构建模型和构建/发布Lightning Apps(ML工作流模板)的平台,由Pytorch Lightning团队推出的一个快速训练、部署和开发人工智能产品的深度学习框架。
TensorFlow
TensorFlow是由谷歌大脑团队开发并开源的端到端机器学习平台。它最初于 2015 年发布,旨在为机器学习和深度学习提供一个灵活、高效且可扩展的框架。TensorFlow 的名字来源于其内部的计算方式——通过构建一个由节点和边组成的计算图,节点表示操作,边表示数据,从而实现高效的计算和模型训练。
昇思MindSpore
昇思MindSpore是由华为自研的一种适用于端边云场景的新型开源深度学习训练/推理框架,MindSpore提供了友好的设计和高效的执行,旨在提升数据科学家和算法工程师的开发体验,并为Ascend AI处理器提供原生支持,以及软硬件协同优化。
0
0






