Open-AutoGLM
2436
0
0
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
工具标签:
直达网站
工具介绍
Open-AutoGLM是什么?
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
核心功能
- 多模态理解:能够理解手机屏幕上的文字、图像等多种信息。
- 自动化任务执行:用户只需用自然语言描述需求(如“打开小红书搜索美食”),系统会自动解析意图、理解当前界面、规划下一步动作并完成整个流程。
- 敏感操作确认机制:内置敏感操作确认机制,确保操作安全性。
- 人工接管支持:在登录或验证码场景下支持人工接管。
- 远程 ADB 调试:支持通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
项目结构
主要目录
.github:包含 GitHub 相关配置文件。examples:存放示例代码,展示了如何使用 Phone Agent。phone_agent:核心代码目录,包含智能助理框架的主要实现。resources:存放项目资源,如 logo 等。
主要文件
main.py:项目的入口文件,用于启动 Phone Agent。requirements.txt:列出项目依赖的 Python 包。setup.py:用于安装项目的 Python 包。README.md:项目的中文说明文档。README_en.md:项目的英文说明文档。
环境准备
Python 环境:建议使用 Python 3.10 及以上版本。
ADB (Android Debug Bridge):
- 下载并解压官方 ADB 安装包。
- 配置环境变量,以便在命令行中直接使用 ADB 命令。
Android 设备或模拟器:
- 需要 Android 7.0 及以上版本。
- 启用开发者模式和 USB 调试。
ADB Keyboard:
- 下载并安装 ADB Keyboard 应用。
- 在设备的输入法设置中启用 ADB Keyboard。
部署准备工作


使用方法
命令行模式
- 交互模式:
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b"
- 指定任务:
python main.py --base-url http://localhost:8000/v1 "打开美团搜索附近的火锅店"
- 列出支持的应用:
python main.py --list-apps

Python API

配置选项
自定义 SYSTEM PROMPT
- 修改
phone_agent/config/prompts.py文件,可以通过注入 system prompt 增强模型在特定领域的能力,也可以通过注入 app 名称禁用某些 app。
环境变量
PHONE_AGENT_BASE_URL:模型 API 地址,默认为http://localhost:8000/v1。PHONE_AGENT_MODEL:模型名称,默认为autoglm-phone-9b。PHONE_AGENT_MAX_STEPS:每个任务最大步数,默认为100。PHONE_AGENT_DEVICE_ID:ADB 设备 ID,默认自动检测。
模型配置

Agent 配置

远程调试
配置远程调试
- 在手机端开启无线调试,确保手机和电脑在同一个 WiFi 网络中。
- 在电脑端使用标准 ADB 命令连接设备:

设备管理命令


Python API 远程连接

想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

MagicTryOn
MagicTryOn是由vivo移动通信公司及相关研究机构的研究人员共同提出的一款先进的视频虚拟试穿框架。该框架旨在通过模拟服装在视频中与人体动作的自然互动,展现出服装在动态变化中的真实效果,从而为用户提供更加沉浸式的虚拟试穿体验。
InstantCharacter
InstantCharacter是腾讯混元团队基于Flux.1模型打造的全新角色个性化定制框架。它利用先进的扩散变换器(DiT)技术,为开发者与创作者提供了一个从单张图像到多样化角色定制的强大工具。这一框架的开源,无疑为AI内容创作领域带来了革命性的突破。
Open-AutoGLM
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
FastAPI-MCP
FastAPI-MCP是一款基于Python开发的开源工具,专为FastAPI框架设计。它利用MCP协议,将FastAPI应用的端点自动暴露为可供AI模型调用的工具。MCP是一种新兴的开放标准,旨在规范AI模型如何发现、理解和使用外部工具(如API、函数等),从而实现更智能、更统一的交互方式。
comfyui
ComfyUI是一个专为AI绘图和图像生成设计的用户界面工具,提供了丰富的功能和资源,帮助用户更好地进行创作。它基于Stable Diffusion技术,这是一个开源的AI模型,能够根据文本提示生成图像
Xcode MCP
Xcode MCP是一个基于MCP的服务器,它旨在将Xcode的强大功能扩展到轻量级编辑器如Visual Studio Code(VS Code)和Cursor中。通过MCP协议,Xcode MCP实现了AI代理与Xcode的交互,使得开发者能够在非Xcode环境下完成完整的iOS开发工作流。
昇思MindSpore
昇思MindSpore是由华为自研的一种适用于端边云场景的新型开源深度学习训练/推理框架,MindSpore提供了友好的设计和高效的执行,旨在提升数据科学家和算法工程师的开发体验,并为Ascend AI处理器提供原生支持,以及软硬件协同优化。
Lightning AI
Lightning AI是一个构建模型和构建/发布Lightning Apps(ML工作流模板)的平台,由Pytorch Lightning团队推出的一个快速训练、部署和开发人工智能产品的深度学习框架。
0
0






