news 2026/3/28 10:35:57

AI之PhoneAgent:Open-AutoGLM的简介、安装和使用方法、案例应用之详细攻略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI之PhoneAgent:Open-AutoGLM的简介、安装和使用方法、案例应用之详细攻略

AI之PhoneAgent:Open-AutoGLM的简介、安装和使用方法、案例应用之详细攻略

目录

Open-AutoGLM的简介

1、特点

2、时间线

Open-AutoGLM的安装和使用方法

1、安装

环境准备:

部署准备工作:

启动模型服务:

选项 A: 使用第三方模型服务 (推荐):

选项 B: 自行部署模型:

检查模型部署:

2、使用方法

T1、命令行使用

T2、Python API 使用

运行—远程调试:

Open-AutoGLM的案例应用

搜索美食:

购物比价:

社交媒体操作:

浏览器操作:

视频娱乐:

基础任务执行:


Open-AutoGLM的简介

2025年12月9日,智谱AI开源了AutoGLM,包括核心模型、部署框架和演示代码,旨在推动AI手机普及。‌
Open-AutoGLM 是一个开源的手机Agent 模型和框架,旨在“为每个人解锁 AI 手机”。它是一个基于 AutoGLM 构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。该系统通过ADB(Android Debug Bridge)控制设备,利用视觉语言模型进行屏幕感知,并结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,例如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。

GitHub地址:https://github.com/zai-org/Open-AutoGLM

1、特点

Open-AutoGLM 项目具备以下显著特点:

>> 多模态屏幕理解:能够以多模态方式理解手机屏幕内容,实现对当前界面的智能感知。

>> 多自然语言指令控制:用户可以通过自然语言描述需求,Agent 即可自动解析意图执行任务

>> 多自动化任务执行:能够智能规划并执行一系列操作流程,以完成用户指定的任务。

>> 多ADB 控制设备:利用 ADB (Android Debug Bridge) 实现对 Android 设备的精确控制

>> 多视觉语言模型驱动核心能力依赖于视觉语言模型进行屏幕感知和决策。

>> 多敏感操作确认机制:内置安全机制,对涉及敏感信息的(如支付、登录)操作进行确认。

>> 多人工接管支持:在登录或验证码等需要人工干预的场景下,支持用户进行人工接管

>> 多远程 ADB 调试:支持通过 WiFi 或网络连接设备进行远程 ADB 调试,无需 USB 连接。

>> 多多语言模型支持:提供针对中文手机应用优化的 AutoGLM-Phone-9B 模型,以及支持英语场景的 AutoGLM-Phone-9B-Multilingual 模型。

>> 多种模型部署选项:支持使用第三方模型服务(如智谱 BigModel, ModelScope)或在本地/服务器自行部署模型(支持 vLLM, SGLang)。

>> 多丰富的操作集:Agent 可以执行包括启动应用、点击、输入文本、滑动、返回、回到桌面、长按、双击、等待、请求人工接管等多种操作

>> 多广泛的应用支持:支持超过50 款主流中文应用,涵盖社交通讯、电商购物、美食外卖、出行旅游、视频娱乐、音乐音频、生活服务、内容社区等多个分类。

>> 多可定制的系统提示词支持中英文系统提示词,用户可修改配置文件以增强模型在特定领域的能力或禁用特定应用。

>> 多详细的调试信息:在 Verbose 模式下,Agent 会输出详细的思考过程和执行动作,方便用户理解和调试。

2、时间线

AutoGLM是智谱AI开发的跨端通用智能体,用于在真实或虚拟设备上执行多步骤操作任务。其发布时间线如下:

>> ‌研发启动‌:AutoGLM的研发始于2023年4月。
>> ‌初代发布‌:2024年10月,AutoGLM初代版本在CNCC上正式发布,成为首个具备真机操作能力的AI智能体。
>> ‌AutoGLM 2.0发布‌:2025年8月,智谱发布AutoGLM 2.0版本,这是全球首个手机智能体,支持长链路任务执行并具备多模态能力。
>>‌开源发布‌:2025年12月9日,智谱AI开源了AutoGLM,包括核心模型、部署框架和演示代码,旨在推动AI手机普及。

Open-AutoGLM的安装和使用方法

1、安装

环境准备:

Python 环境:建议使用 Python 3.10 及以上版本。

ADB(Android Debug Bridge):

下载官方 ADB 安装包并解压到自定义路径。
配置环境变量,将 ADB 工具的路径添加到系统的 PATH 中(MacOS 或 Windows 均有详细配置方法)。

Android 设备或模拟器

需要 Android 7.0+ 的设备。
启用开发者模式:通常在“设置-关于手机-版本号”连续点击约 10 次。
启用 USB 调试:在“设置-开发者选项”中勾选“USB 调试”。部分机型可能还需要开启“USB 调试(安全设置)”。
检查权限:确保手机用 USB 数据线连接到电脑后,运行 adb devices 能看到设备信息。

安装 ADB Keyboard:

下载 ADB Keyboard 安装包并在对应的安卓设备中安装。
安装完成后,需要在“设置-输入法”或“设置-键盘列表”中启用 ADB Keyboard。

部署准备工作:

安装依赖

pip install -r requirements.txt pip install -e .

配置 ADB:
确保 USB 数据线具有数据传输功能。
连接设备并验证:adb devices。

启动模型服务:

选项 A: 使用第三方模型服务 (推荐):

智谱 BigModel:--base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "your-bigmodel-api-key"

ModelScope:--base-url https://api-inference.modelscope.cn/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "your-modelscope-api-key"

示例运行命令:

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "your-bigmodel-api-key" "打开美团搜索附近的火锅店"
选项 B: 自行部署模型:

需要根据 requirements.txt 中的 For Model Deployment 章节安装推理引擎框架(如 SGLang 或 vLLM)。

下载模型(约 20GB)并通过 vLLM 或 SGLang 启动 OpenAI 格式服务。例如,使用 vLLM 启动命令:

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

模型服务成功启动后,将可以通过 http://localhost:8000/v1 访问(远程部署则使用服务器 IP)。

检查模型部署:

使用脚本 python scripts/check_deployment_cn.py --base-url http://你的IP:你的端口/v1 --model 模型名称 验证模型是否正常工作。

2、使用方法

T1、命令行使用

交互模式:python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b"
指定任务:python main.py --base-url http://localhost:8000/v1 "打开美团搜索附近的火锅店"
使用 API Key:python main.py --apikey sk-xxxxx
使用英文提示词:python main.py --lang en --base-url http://localhost:8000/v1 "Open Chrome browser"
列出支持的应用:python main.py --list-apps

T2、Python API 使用

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b", ) agent = PhoneAgent(model_config=model_config) result = agent.run("打开淘宝搜索无线耳机") print(result)

运行—远程调试:

在手机端开启无线调试,确保手机和电脑在同一 WiFi。
使用 adb connect <手机IP地址>:<端口> 连接远程设备。
在运行 Agent 时,通过 --device-id <设备ID> 指定设备。
自定义回调:可以定义函数来处理敏感操作确认和人工接管。

Open-AutoGLM的案例应用

项目通过自然语言指令展示了其在手机自动化任务中的应用,以下是一些示例:

搜索美食:

指令:“打开美团搜索附近的火锅店”
效果:Agent 会自动启动美团应用,并在其中搜索附近的火锅店。

购物比价:

指令:“比较这个洗发水在京东和淘宝上的价格,然后选择最便宜的平台下单。”
效果:Agent 会先在京东搜索商品并查看价格,再在淘宝搜索并查看价格,然后比较两者并选择最便宜的平台进行下单(此为思维链示例,实际执行需分步)。

社交媒体操作:

指令:“打开微信,对文件传输助手发送消息:部署成功”
效果:Agent 会自动打开微信,找到文件传输助手,并发送指定消息。

浏览器操作:

指令 (英文):“Open Chrome browser”
效果:Agent 会自动启动 Chrome 浏览器。

视频娱乐:

指令:“打开抖音刷视频”
效果:Agent 会自动打开抖音应用并开始刷视频。

基础任务执行:

在 examples/ 目录下提供了更多使用示例,包括:
basic_usage.py:基础任务执行。
单步调试模式。
批量任务执行。
自定义回调的使用。

这些案例充分展示了 Open-AutoGLM 如何将用户的自然语言指令转化为手机上的具体操作,从而实现智能化的手机应用交互。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 12:59:05

韩语教程资源合集

【01】韩语 文件大小: 28.6GB内容特色: 28.6GB 系统韩语课&#xff0c;发音到高级全含适用人群: 零基础至进阶韩语学习者核心价值: 一站式搞定听说读写&#xff0c;省钱高效下载链接: https://pan.quark.cn/s/2ca74e4491a5 【韩语】韩语教程合集 文件大小: 104.3GB内容特色:…

作者头像 李华
网站建设 2026/3/25 10:28:21

注意力机制的演化

一、注意力机制的起源&#xff1a;为什么需要它&#xff1f; 问题背景&#xff1a; Seq2Seq的瓶颈2014年之前&#xff0c;序列到序列任务&#xff08;如机器翻译&#xff09;用的是编码器-解码器架构&#xff1a; 输入: "我 爱 北京"↓[Encoder RNN]↓ 固定长度向量 …

作者头像 李华
网站建设 2026/3/27 16:58:14

软件测试面试题集合

软件测试面试题,这是一份集锦&#xff0c;也是一份软件测试人员 学习的好工具书&#xff0c;非常实用。 01. 为什么要在一个团队中开展软件测试 工作&#xff1f; 因为没有经过测试的软件很难在发布之前知道该软件的质量&#xff0c;就好比 ISO 质量认证一样&#xff0c;测试同…

作者头像 李华
网站建设 2026/3/27 15:26:41

OpenVSCode Server终极性能调优与资源管理完整指南

OpenVSCode Server终极性能调优与资源管理完整指南 【免费下载链接】openvscode-server 项目地址: https://gitcode.com/gh_mirrors/op/openvscode-server OpenVSCode Server作为基于浏览器的代码编辑器服务器&#xff0c;其性能表现直接影响开发效率。本文将为您提供一…

作者头像 李华
网站建设 2026/3/26 7:33:32

【系统微服务化】

微服务化改造的关键步骤 圈定服务边界与数据表 确定微服务包含哪些数据表是改造的第一步。库存服务涉及15张表&#xff0c;包括自营库存表、商家虚拟库存表等。这些表与商品基本信息表关联较弱&#xff0c;便于独立拆分。业务架构师和数据架构师需深入分析业务场景和表关系&…

作者头像 李华