工具介绍
Open-AutoGLM是什么?
Phone Agent是一个基于AutoGLM构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。
核心功能
- 多模态理解:能够理解手机屏幕上的文字、图像等多种信息。
- 自动化任务执行:用户只需用自然语言描述需求(如“打开小红书搜索美食”),系统会自动解析意图、理解当前界面、规划下一步动作并完成整个流程。
- 敏感操作确认机制:内置敏感操作确认机制,确保操作安全性。
- 人工接管支持:在登录或验证码场景下支持人工接管。
- 远程 ADB 调试:支持通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
项目结构
主要目录
.github:包含 GitHub 相关配置文件。examples:存放示例代码,展示了如何使用 Phone Agent。phone_agent:核心代码目录,包含智能助理框架的主要实现。resources:存放项目资源,如 logo 等。
主要文件
main.py:项目的入口文件,用于启动 Phone Agent。requirements.txt:列出项目依赖的 Python 包。setup.py:用于安装项目的 Python 包。README.md:项目的中文说明文档。README_en.md:项目的英文说明文档。
环境准备
Python 环境:建议使用 Python 3.10 及以上版本。
ADB (Android Debug Bridge):
- 下载并解压官方 ADB 安装包。
- 配置环境变量,以便在命令行中直接使用 ADB 命令。
Android 设备或模拟器:
- 需要 Android 7.0 及以上版本。
- 启用开发者模式和 USB 调试。
ADB Keyboard:
- 下载并安装 ADB Keyboard 应用。
- 在设备的输入法设置中启用 ADB Keyboard。
部署准备工作


使用方法
命令行模式
- 交互模式:
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b"
- 指定任务:
python main.py --base-url http://localhost:8000/v1 "打开美团搜索附近的火锅店"
- 列出支持的应用:
python main.py --list-apps

Python API

配置选项
自定义 SYSTEM PROMPT
- 修改
phone_agent/config/prompts.py文件,可以通过注入 system prompt 增强模型在特定领域的能力,也可以通过注入 app 名称禁用某些 app。
环境变量
PHONE_AGENT_BASE_URL:模型 API 地址,默认为http://localhost:8000/v1。PHONE_AGENT_MODEL:模型名称,默认为autoglm-phone-9b。PHONE_AGENT_MAX_STEPS:每个任务最大步数,默认为100。PHONE_AGENT_DEVICE_ID:ADB 设备 ID,默认自动检测。
模型配置

Agent 配置

远程调试
配置远程调试
- 在手机端开启无线调试,确保手机和电脑在同一个 WiFi 网络中。
- 在电脑端使用标准 ADB 命令连接设备:

设备管理命令


Python API 远程连接

想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

comfyui
ComfyUI是一个专为AI绘图和图像生成设计的用户界面工具,提供了丰富的功能和资源,帮助用户更好地进行创作。它基于Stable Diffusion技术,这是一个开源的AI模型,能够根据文本提示生成图像
昇思MindSpore
昇思MindSpore是由华为自研的一种适用于端边云场景的新型开源深度学习训练/推理框架,MindSpore提供了友好的设计和高效的执行,旨在提升数据科学家和算法工程师的开发体验,并为Ascend AI处理器提供原生支持,以及软硬件协同优化。
USO
USO是字节跳动UXO团队推出的内容与风格解耦与重组统一框架,旨在打破传统图像生成中"风格迁移牺牲主体一致性"的局限。该框架通过创新的技术架构,实现了任意主题与任意风格在任意场景下的自由组合,生成兼具高度主体一致性、强烈风格保真度与自然视觉效果的图像。
PandaWiki
PandaWiki是一款由北京长亭科技开发的AI大模型驱动的开源知识库搭建系统,其核心功能与特色使其在知识管理、文档协作和智能问答场景中具有显著优势。
Gradio
Gradio是一个用于快速构建机器学习模型交互界面的开源Python库。它允许开发者通过简单的Python接口,将机器学习模型、Python脚本或任何可调用函数快速转换为交互式Web应用,无需前端开发经验。
FastAPI-MCP
FastAPI-MCP是一款基于Python开发的开源工具,专为FastAPI框架设计。它利用MCP协议,将FastAPI应用的端点自动暴露为可供AI模型调用的工具。MCP是一种新兴的开放标准,旨在规范AI模型如何发现、理解和使用外部工具(如API、函数等),从而实现更智能、更统一的交互方式。
Cloudflare
Cloudflare面向Node.js生态的Agents开发包是一款专为Node.js开发者设计的工具集,它集成了多项核心功能,包括工作流引擎、工具集成框架、多代理协作平台(MCP)以及状态持久化支持。这些功能共同为开发者提供了一个高效、灵活的AI代理开发环境。
海螺02模型Prompt优化框架
海螺02模型Prompt优化框架是一款专为提升海螺AI 02模型生成效果设计的实用工具,它能精准解析图片或文字输入,按照环境基底→主体动作→细节特写→氛围升华四个阶段优化提示词结构,确保生成内容贴合物理逻辑且适配海螺02模型特性,还能自动适配经典场景风格、用连贯镜头语言强化画面引导力。
0
0






