news 2026/1/29 15:54:49

Open-AutoGLM入门捷径:跟着我一步步操作准没错

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM入门捷径:跟着我一步步操作准没错

Open-AutoGLM入门捷径:跟着我一步步操作准没错

1. 引言:什么是Open-AutoGLM?

Open-AutoGLM 是智谱开源的一款面向手机端的 AI Agent 框架,全称为AutoGLM-Phone。它基于视觉语言模型(VLM)构建,能够以多模态方式理解安卓设备屏幕内容,并通过 ADB(Android Debug Bridge)实现自动化操作。

用户只需用自然语言下达指令,例如“打开小红书搜索美食”或“在抖音关注某博主”,系统即可自动解析意图、识别当前界面元素、规划操作路径并执行点击、滑动、输入等动作,真正实现“动口不动手”的智能交互体验。

该框架特别适用于:

  • 自动化测试场景
  • 手机操作辅助(如老年用户)
  • 内容创作者批量管理账号
  • 移动端 RPA(机器人流程自动化)

本文将带你从零开始,完整部署和使用 Open-AutoGLM,确保每一步都清晰可执行,即使是新手也能顺利上手。


2. 环境准备与依赖安装

2.1 硬件与软件要求

类别要求
操作系统Windows 10+ 或 macOS 12+
Python 版本3.10 或以上
安卓设备Android 7.0 及以上版本(真机或模拟器均可)
网络环境本地电脑与云服务之间网络通畅

注意:若使用远程模型服务,需确保云服务器已正确部署 vLLM 并开放对应端口。

2.2 安装 ADB 工具

ADB 是连接和控制安卓设备的核心工具。以下是不同系统的配置方法:

Windows 配置步骤:
  1. 下载 Android SDK Platform Tools。
  2. 解压到本地目录(如C:\platform-tools)。
  3. 添加环境变量:
    • Win + R→ 输入sysdm.cpl→ “高级” → “环境变量”
    • 在“系统变量”中找到Path,点击“编辑” → “新建” → 添加解压路径
  4. 验证安装:
adb version

输出类似Android Debug Bridge version 1.0.41即表示成功。

macOS 配置方法:

打开终端,执行以下命令(假设 platform-tools 解压至 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

为永久生效,可将其写入 shell 配置文件(.zshrc.bash_profile)。


3. 手机端设置与权限开启

要让 AI 成功操控手机,必须完成以下三项关键设置。

3.1 开启开发者模式

进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已开启开发者选项”。

3.2 启用 USB 调试

返回设置主菜单 → “开发者选项” → 找到并勾选“USB 调试”(部分品牌可能显示为“调试功能”)。

3.3 安装并启用 ADB Keyboard

这是实现文本输入的关键组件。

  1. 下载 ADB Keyboard APK 并安装。
  2. 进入“设置” → “语言与输入法” → “默认键盘” → 切换为ADB Keyboard
  3. 测试是否生效:
adb shell input text "Hello"

如果屏幕上出现“Hello”,说明输入法配置成功。


4. 部署 Open-AutoGLM 控制端代码

4.1 克隆项目仓库

在本地电脑打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装 Python 依赖

建议使用虚拟环境避免依赖冲突:

python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate.bat (Windows)

安装所需包:

pip install -r requirements.txt pip install -e .

安装完成后,可通过导入模块验证:

from phone_agent.adb import ADBConnection print("Open-AutoGLM 控制端加载成功")

5. 设备连接方式详解

5.1 USB 连接(推荐初学者使用)

  1. 使用数据线将手机连接电脑。
  2. 手机弹出“允许USB调试?”对话框时,点击“允许”。
  3. 检查设备是否被识别:
adb devices

输出应包含设备序列号及状态为device,例如:

List of devices attached ABCDEF123456 device

5.2 WiFi 远程连接(适合无线调试)

首次需通过 USB 启用 TCP/IP 模式:

adb tcpip 5555 adb disconnect

断开 USB 后,获取手机 IP 地址(可在“设置-关于手机-状态信息”中查看),然后连接:

adb connect 192.168.x.x:5555

再次运行adb devices确认连接状态。

提示:远程连接更灵活,但对网络稳定性要求较高;若频繁掉线,建议优先使用 USB。


6. 启动 AI 代理并执行任务

一切准备就绪后,即可启动 AI 代理来执行自然语言指令。

6.1 命令行方式运行

在项目根目录下执行:

python main.py \ --device-id ABCDEF123456 \ --base-url http://<your-server-ip>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:来自adb devices输出的设备 ID
  • --base-url:云服务器上运行的 vLLM 服务地址(格式:http://IP:端口/v1
  • --model:指定使用的模型名称(需与服务端一致)
  • 最后的字符串:用户的自然语言指令

6.2 Python API 方式调用(适合集成开发)

你也可以在自己的脚本中调用 Open-AutoGLM 提供的 API 实现远程控制:

from phone_agent.adb import ADBConnection, list_devices # 创建 ADB 连接管理器 conn = ADBConnection() # 连接设备(支持 USB 或 WiFi) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备 IP(用于后续无线连接) ip = conn.get_device_ip() print(f"设备当前 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

此方式便于嵌入到自动化平台或 Web 后端中,实现远程调度与监控。


7. 实际应用场景演示

7.1 场景一:自动关注抖音账号

用户指令

“打开抖音,搜索抖音号 dycwo11nt61d,进入主页并关注该用户。”

AI 执行流程

  1. 启动抖音 App
  2. 定位首页搜索框并点击
  3. 输入目标抖音号(通过 ADB Keyboard)
  4. 点击搜索结果中的用户卡片
  5. 检测“关注”按钮并点击
  6. 确认关注成功(UI 元素变化判断)

整个过程无需人工干预,平均耗时约 15~25 秒,具体取决于网络和设备响应速度。

7.2 场景二:敏感操作人工接管机制

当涉及支付、删除、授权等高风险操作时,系统会自动暂停并提示用户确认:

[WARNING] 检测到潜在敏感操作:即将进行应用卸载。 是否继续?(y/N)

输入N可中断流程,输入y则继续执行。这一设计有效防止误操作带来的安全风险。


8. 常见问题排查指南

8.1 ADB 连接失败

问题现象可能原因解决方案
unauthorized未授权调试重新插拔数据线,手机端点击“允许”
offline设备离线重启 ADB 服务:adb kill-server && adb start-server
connection refused网络不通检查防火墙、路由器设置,确认端口开放

8.2 模型无响应或乱码

  • 检查 base-url 是否正确:确保云服务正在运行且 URL 格式为http://x.x.x.x:port/v1
  • 验证 vLLM 启动参数
    python -m vllm.entrypoints.openai.api_server \ --host 0.0.0.0 \ --port 8800 \ --model zhipu-autobots/autoglm-phone-9b \ --max-model-len 8192
  • 显存不足导致崩溃:建议 GPU 显存 ≥ 24GB(FP16 推理)

8.3 屏幕识别错误或操作失败

  • 确保手机分辨率适配(目前主要支持 1080×2340 左右常见比例)
  • 避免遮挡状态栏或导航栏
  • 关闭“深色模式”或特殊主题,以免影响 OCR 识别

9. 总结

Open-AutoGLM 作为一款开源的手机端 AI Agent 框架,凭借其强大的多模态理解能力和简洁易用的接口设计,正在成为移动端自动化领域的有力工具。通过本文的详细指引,你应该已经完成了从环境搭建、设备连接到实际任务执行的全流程实践。

核心要点回顾:

  1. ✅ 正确安装 ADB 并开启手机调试权限
  2. ✅ 成功部署控制端代码并安装依赖
  3. ✅ 掌握 USB 和 WiFi 两种连接方式
  4. ✅ 能够通过命令行或 API 调用 AI 执行自然语言指令
  5. ✅ 了解常见问题的诊断与解决方法

未来你可以进一步探索:

  • 将 Open-AutoGLM 集成进 CI/CD 流程用于自动化测试
  • 构建个人数字助理实现日常任务自动处理
  • 结合语音识别打造全链路语音操控系统

只要按照本文步骤操作,任何人都能快速上手 Open-AutoGLM,开启属于你的智能自动化之旅。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/23 6:52:05

超详细版差分对布线电磁耦合仿真解析

差分对布线的“隐形杀手”&#xff1a;电磁耦合如何悄悄毁掉你的高速信号&#xff1f;你有没有遇到过这样的情况&#xff1a;一块PCB板子生产回来&#xff0c;所有走线都按规则等长、阻抗匹配、参考平面完整——可偏偏在测试时&#xff0c;PCIe链路训练失败&#xff0c;眼图闭合…

作者头像 李华
网站建设 2026/1/28 17:32:28

零基础理解Keil5源文件编码转换方法

告别乱码&#xff1a;Keil5中文注释显示异常的根源与实战解决方案 你有没有遇到过这样的场景&#xff1f;接手一个旧项目&#xff0c;打开 .c 文件&#xff0c;满屏的中文注释变成一堆“???”或方块字符&#xff1b;或者自己刚写下的注释&#xff0c;第二天再打开就变成了…

作者头像 李华
网站建设 2026/1/24 8:54:10

显示器硬件控制新纪元:MonitorControl技术深度剖析

显示器硬件控制新纪元&#xff1a;MonitorControl技术深度剖析 【免费下载链接】MonitorControl MonitorControl/MonitorControl: MonitorControl 是一款开源的Mac应用程序&#xff0c;允许用户直接控制外部显示器的亮度、对比度和其他设置&#xff0c;而无需依赖原厂提供的软件…

作者头像 李华
网站建设 2026/1/26 19:20:03

PhotoGIMP:让Photoshop用户无缝切换的开源图像编辑神器

PhotoGIMP&#xff1a;让Photoshop用户无缝切换的开源图像编辑神器 【免费下载链接】PhotoGIMP A Patch for GIMP 2.10 for Photoshop Users 项目地址: https://gitcode.com/gh_mirrors/ph/PhotoGIMP PhotoGIMP是一款专为Photoshop用户设计的GIMP优化补丁&#xff0c;通…

作者头像 李华
网站建设 2026/1/21 4:22:36

实测BGE-Reranker-v2-m3:RAG系统重排序效果超预期

实测BGE-Reranker-v2-m3&#xff1a;RAG系统重排序效果超预期 1. 引言&#xff1a;解决RAG检索“不准”的关键一环 在当前的检索增强生成&#xff08;RAG&#xff09;系统中&#xff0c;向量数据库的初步检索虽然能够快速召回相关文档&#xff0c;但其基于语义距离的匹配机制…

作者头像 李华
网站建设 2026/1/22 15:13:50

PDF-Extract-Kit核心功能解析|一键实现OCR、公式识别与表格解析

PDF-Extract-Kit核心功能解析&#xff5c;一键实现OCR、公式识别与表格解析 1. 技术背景与核心价值 在科研、教育和工程文档处理中&#xff0c;PDF文件常包含复杂的版面结构&#xff1a;文本段落、数学公式、表格以及图像等多模态信息。传统PDF提取工具往往只能线性读取文本内…

作者头像 李华