Open-AutoGLM
4544
0
0
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
工具标签:
直达网站
工具介绍
Open-AutoGLM是什么?
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
核心功能
- 多模态理解:能够理解手机屏幕上的文字、图像等多种信息。
- 自动化任务执行:用户只需用自然语言描述需求(如“打开小红书搜索美食”),系统会自动解析意图、理解当前界面、规划下一步动作并完成整个流程。
- 敏感操作确认机制:内置敏感操作确认机制,确保操作安全性。
- 人工接管支持:在登录或验证码场景下支持人工接管。
- 远程 ADB 调试:支持通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
项目结构
主要目录
.github:包含 GitHub 相关配置文件。examples:存放示例代码,展示了如何使用 Phone Agent。phone_agent:核心代码目录,包含智能助理框架的主要实现。resources:存放项目资源,如 logo 等。
主要文件
main.py:项目的入口文件,用于启动 Phone Agent。requirements.txt:列出项目依赖的 Python 包。setup.py:用于安装项目的 Python 包。README.md:项目的中文说明文档。README_en.md:项目的英文说明文档。
环境准备
Python 环境:建议使用 Python 3.10 及以上版本。
ADB (Android Debug Bridge):
- 下载并解压官方 ADB 安装包。
- 配置环境变量,以便在命令行中直接使用 ADB 命令。
Android 设备或模拟器:
- 需要 Android 7.0 及以上版本。
- 启用开发者模式和 USB 调试。
ADB Keyboard:
- 下载并安装 ADB Keyboard 应用。
- 在设备的输入法设置中启用 ADB Keyboard。
部署准备工作


使用方法
命令行模式
- 交互模式:
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b"
- 指定任务:
python main.py --base-url http://localhost:8000/v1 "打开美团搜索附近的火锅店"
- 列出支持的应用:
python main.py --list-apps

Python API

配置选项
自定义 SYSTEM PROMPT
- 修改
phone_agent/config/prompts.py文件,可以通过注入 system prompt 增强模型在特定领域的能力,也可以通过注入 app 名称禁用某些 app。
环境变量
PHONE_AGENT_BASE_URL:模型 API 地址,默认为http://localhost:8000/v1。PHONE_AGENT_MODEL:模型名称,默认为autoglm-phone-9b。PHONE_AGENT_MAX_STEPS:每个任务最大步数,默认为100。PHONE_AGENT_DEVICE_ID:ADB 设备 ID,默认自动检测。
模型配置

Agent 配置

远程调试
配置远程调试
- 在手机端开启无线调试,确保手机和电脑在同一个 WiFi 网络中。
- 在电脑端使用标准 ADB 命令连接设备:

设备管理命令


Python API 远程连接

想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

xiaohongshu-mcp
Xiaohongshu-MCP是一款基于Model Context Protocol的开源自动化工具,专为小红书平台量身定制。它借助Playwright实现了浏览器自动化操作,为用户与小红书网页之间搭建起一座高效交互的桥梁,使得大模型能够以结构化的方式与小红书进行交互的桥梁。
Keras
Python版本的TensorFlow深度学习API
MCP.so
mcp.so是一个旨在为用户提供便捷、高效MCP服务器搜索和访问体验的在线平台。他作为最大的 MCP Server(MCP 服务器)聚合平台,汇聚了来自全球的众多优秀MCP服务器,涵盖了各种类型,包括游戏、社交、教育、创作等,让用户能够轻松找到符合自己需求的服务器。
海螺02模型Prompt优化框架
海螺02模型Prompt优化框架是一款专为提升海螺AI 02模型生成效果设计的实用工具,它能精准解析图片或文字输入,按照环境基底→主体动作→细节特写→氛围升华四个阶段优化提示词结构,确保生成内容贴合物理逻辑且适配海螺02模型特性,还能自动适配经典场景风格、用连贯镜头语言强化画面引导力。
Xcode MCP
Xcode MCP是一个基于MCP的服务器,它旨在将Xcode的强大功能扩展到轻量级编辑器如Visual Studio Code(VS Code)和Cursor中。通过MCP协议,Xcode MCP实现了AI代理与Xcode的交互,使得开发者能够在非Xcode环境下完成完整的iOS开发工作流。
USO
USO是字节跳动UXO团队推出的内容与风格解耦与重组统一框架,旨在打破传统图像生成中"风格迁移牺牲主体一致性"的局限。该框架通过创新的技术架构,实现了任意主题与任意风格在任意场景下的自由组合,生成兼具高度主体一致性、强烈风格保真度与自然视觉效果的图像。
TensorFlow
TensorFlow是由谷歌大脑团队开发并开源的端到端机器学习平台。它最初于 2015 年发布,旨在为机器学习和深度学习提供一个灵活、高效且可扩展的框架。TensorFlow 的名字来源于其内部的计算方式——通过构建一个由节点和边组成的计算图,节点表示操作,边表示数据,从而实现高效的计算和模型训练。
PandaWiki
PandaWiki是一款由北京长亭科技开发的AI大模型驱动的开源知识库搭建系统,其核心功能与特色使其在知识管理、文档协作和智能问答场景中具有显著优势。
0
0






