Open-AutoGLM入门捷径:跟着我一步步操作准没错
1. 引言:什么是Open-AutoGLM?
Open-AutoGLM 是智谱开源的一款面向手机端的 AI Agent 框架,全称为AutoGLM-Phone。它基于视觉语言模型(VLM)构建,能够以多模态方式理解安卓设备屏幕内容,并通过 ADB(Android Debug Bridge)实现自动化操作。
用户只需用自然语言下达指令,例如“打开小红书搜索美食”或“在抖音关注某博主”,系统即可自动解析意图、识别当前界面元素、规划操作路径并执行点击、滑动、输入等动作,真正实现“动口不动手”的智能交互体验。
该框架特别适用于:
- 自动化测试场景
- 手机操作辅助(如老年用户)
- 内容创作者批量管理账号
- 移动端 RPA(机器人流程自动化)
本文将带你从零开始,完整部署和使用 Open-AutoGLM,确保每一步都清晰可执行,即使是新手也能顺利上手。
2. 环境准备与依赖安装
2.1 硬件与软件要求
| 类别 | 要求 |
|---|---|
| 操作系统 | Windows 10+ 或 macOS 12+ |
| Python 版本 | 3.10 或以上 |
| 安卓设备 | Android 7.0 及以上版本(真机或模拟器均可) |
| 网络环境 | 本地电脑与云服务之间网络通畅 |
注意:若使用远程模型服务,需确保云服务器已正确部署 vLLM 并开放对应端口。
2.2 安装 ADB 工具
ADB 是连接和控制安卓设备的核心工具。以下是不同系统的配置方法:
Windows 配置步骤:
- 下载 Android SDK Platform Tools。
- 解压到本地目录(如
C:\platform-tools)。 - 添加环境变量:
Win + R→ 输入sysdm.cpl→ “高级” → “环境变量”- 在“系统变量”中找到
Path,点击“编辑” → “新建” → 添加解压路径
- 验证安装:
adb version输出类似Android Debug Bridge version 1.0.41即表示成功。
macOS 配置方法:
打开终端,执行以下命令(假设 platform-tools 解压至 Downloads 目录):
export PATH=${PATH}:~/Downloads/platform-tools为永久生效,可将其写入 shell 配置文件(.zshrc或.bash_profile)。
3. 手机端设置与权限开启
要让 AI 成功操控手机,必须完成以下三项关键设置。
3.1 开启开发者模式
进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已开启开发者选项”。
3.2 启用 USB 调试
返回设置主菜单 → “开发者选项” → 找到并勾选“USB 调试”(部分品牌可能显示为“调试功能”)。
3.3 安装并启用 ADB Keyboard
这是实现文本输入的关键组件。
- 下载 ADB Keyboard APK 并安装。
- 进入“设置” → “语言与输入法” → “默认键盘” → 切换为ADB Keyboard。
- 测试是否生效:
adb shell input text "Hello"如果屏幕上出现“Hello”,说明输入法配置成功。
4. 部署 Open-AutoGLM 控制端代码
4.1 克隆项目仓库
在本地电脑打开终端或命令行工具,执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM4.2 安装 Python 依赖
建议使用虚拟环境避免依赖冲突:
python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate.bat (Windows)安装所需包:
pip install -r requirements.txt pip install -e .安装完成后,可通过导入模块验证:
from phone_agent.adb import ADBConnection print("Open-AutoGLM 控制端加载成功")5. 设备连接方式详解
5.1 USB 连接(推荐初学者使用)
- 使用数据线将手机连接电脑。
- 手机弹出“允许USB调试?”对话框时,点击“允许”。
- 检查设备是否被识别:
adb devices输出应包含设备序列号及状态为device,例如:
List of devices attached ABCDEF123456 device5.2 WiFi 远程连接(适合无线调试)
首次需通过 USB 启用 TCP/IP 模式:
adb tcpip 5555 adb disconnect断开 USB 后,获取手机 IP 地址(可在“设置-关于手机-状态信息”中查看),然后连接:
adb connect 192.168.x.x:5555再次运行adb devices确认连接状态。
提示:远程连接更灵活,但对网络稳定性要求较高;若频繁掉线,建议优先使用 USB。
6. 启动 AI 代理并执行任务
一切准备就绪后,即可启动 AI 代理来执行自然语言指令。
6.1 命令行方式运行
在项目根目录下执行:
python main.py \ --device-id ABCDEF123456 \ --base-url http://<your-server-ip>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:来自adb devices输出的设备 ID--base-url:云服务器上运行的 vLLM 服务地址(格式:http://IP:端口/v1)--model:指定使用的模型名称(需与服务端一致)- 最后的字符串:用户的自然语言指令
6.2 Python API 方式调用(适合集成开发)
你也可以在自己的脚本中调用 Open-AutoGLM 提供的 API 实现远程控制:
from phone_agent.adb import ADBConnection, list_devices # 创建 ADB 连接管理器 conn = ADBConnection() # 连接设备(支持 USB 或 WiFi) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备 IP(用于后续无线连接) ip = conn.get_device_ip() print(f"设备当前 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")此方式便于嵌入到自动化平台或 Web 后端中,实现远程调度与监控。
7. 实际应用场景演示
7.1 场景一:自动关注抖音账号
用户指令:
“打开抖音,搜索抖音号 dycwo11nt61d,进入主页并关注该用户。”
AI 执行流程:
- 启动抖音 App
- 定位首页搜索框并点击
- 输入目标抖音号(通过 ADB Keyboard)
- 点击搜索结果中的用户卡片
- 检测“关注”按钮并点击
- 确认关注成功(UI 元素变化判断)
整个过程无需人工干预,平均耗时约 15~25 秒,具体取决于网络和设备响应速度。
7.2 场景二:敏感操作人工接管机制
当涉及支付、删除、授权等高风险操作时,系统会自动暂停并提示用户确认:
[WARNING] 检测到潜在敏感操作:即将进行应用卸载。 是否继续?(y/N)输入N可中断流程,输入y则继续执行。这一设计有效防止误操作带来的安全风险。
8. 常见问题排查指南
8.1 ADB 连接失败
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
unauthorized | 未授权调试 | 重新插拔数据线,手机端点击“允许” |
offline | 设备离线 | 重启 ADB 服务:adb kill-server && adb start-server |
connection refused | 网络不通 | 检查防火墙、路由器设置,确认端口开放 |
8.2 模型无响应或乱码
- 检查 base-url 是否正确:确保云服务正在运行且 URL 格式为
http://x.x.x.x:port/v1 - 验证 vLLM 启动参数:
python -m vllm.entrypoints.openai.api_server \ --host 0.0.0.0 \ --port 8800 \ --model zhipu-autobots/autoglm-phone-9b \ --max-model-len 8192 - 显存不足导致崩溃:建议 GPU 显存 ≥ 24GB(FP16 推理)
8.3 屏幕识别错误或操作失败
- 确保手机分辨率适配(目前主要支持 1080×2340 左右常见比例)
- 避免遮挡状态栏或导航栏
- 关闭“深色模式”或特殊主题,以免影响 OCR 识别
9. 总结
Open-AutoGLM 作为一款开源的手机端 AI Agent 框架,凭借其强大的多模态理解能力和简洁易用的接口设计,正在成为移动端自动化领域的有力工具。通过本文的详细指引,你应该已经完成了从环境搭建、设备连接到实际任务执行的全流程实践。
核心要点回顾:
- ✅ 正确安装 ADB 并开启手机调试权限
- ✅ 成功部署控制端代码并安装依赖
- ✅ 掌握 USB 和 WiFi 两种连接方式
- ✅ 能够通过命令行或 API 调用 AI 执行自然语言指令
- ✅ 了解常见问题的诊断与解决方法
未来你可以进一步探索:
- 将 Open-AutoGLM 集成进 CI/CD 流程用于自动化测试
- 构建个人数字助理实现日常任务自动处理
- 结合语音识别打造全链路语音操控系统
只要按照本文步骤操作,任何人都能快速上手 Open-AutoGLM,开启属于你的智能自动化之旅。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。