Open-AutoGLM实战:自动搜美食、关注博主全搞定
你有没有想过,有一天只要动动嘴说一句“帮我找附近评分高的川菜馆”,手机就能自己打开小红书、搜索关键词、筛选结果,甚至帮你收藏推荐?或者,“去抖音关注那个讲科技的博主”,AI 就能自动完成打开 App、搜索账号、点击关注一整套操作?
这不是科幻电影,而是Open-AutoGLM正在实现的现实。作为智谱开源的手机端 AI Agent 框架,它让 AI 真正拥有了“动手能力”——不仅能看懂屏幕,还能像人一样点击、滑动、输入,把你的自然语言指令变成实实在在的操作。
本文将带你从零开始,亲手部署并实操这个“会用手机”的 AI 助理,看看它是如何把“动口不动手”变成日常的。
1. 什么是 Open-AutoGLM?它凭什么能“操作手机”?
1.1 核心能力一句话讲清楚
Open-AutoGLM 是一个基于视觉语言模型(VLM)的 AI 手机智能助理框架。简单来说,它有三样本事:
- 看得懂:通过截图理解当前手机屏幕上有什么(比如“这是一个搜索框”、“这是‘关注’按钮”)。
- 想得清:根据你的指令和当前界面,规划出下一步该做什么(比如“先点开小红书图标,再找到搜索栏”)。
- 做得了:通过 ADB(Android Debug Bridge)技术,真正操控手机执行点击、滑动、输入文字等动作。
整个过程就像有个“数字分身”在替你用手机,而你只需要下命令。
1.2 技术架构拆解:AI 是怎么一步步学会用手机的?
整个系统由三个核心模块协同工作:
| 模块 | 职责 | 关键技术 |
|---|---|---|
| 视觉感知层 | 理解屏幕内容 | 基于 GLM-4.5V 的多模态模型,识别 UI 元素、文本、图像 |
| 任务规划层 | 决策“下一步做什么” | 结合指令与上下文,生成可执行的操作序列(如 tap, input, swipe) |
| 执行控制层 | 实际操控手机 | 通过 ADB 发送指令,控制真机或模拟器 |
整个流程是闭环的:AI 每执行一步,就会重新截图观察结果,确认是否成功,再决定下一步,直到任务完成。
1.3 它能做什么?这些场景已经可以实现
别以为这只是个玩具,Open-AutoGLM 已经能处理不少真实生活中的高频任务:
- 信息检索:“打开大众点评,搜一下公司附近的咖啡厅。”
- 社交互动:“在抖音上找到用户‘科技老张’并关注他。”
- 内容浏览:“用小红书搜‘北京周末遛娃好去处’,打开点赞最高的那篇笔记。”
- 辅助操作:在需要登录或验证码时暂停,等待人工介入,之后继续执行。
未来,它可以帮你自动比价、抢优惠券、填写表单,甚至跨 App 协同完成复杂任务,比如“订完电影票后发链接给微信群”。
2. 手把手部署:从零搭建你的 AI 手机助理
要让 Open-AutoGLM 跑起来,你需要准备三样东西:一台安卓手机(或模拟器)、一台运行 AI 模型的服务器(可以是本地电脑或云主机),以及本地控制端代码。
我们这里以本地电脑控制真机为例,带你一步步配置。
2.1 准备工作:软硬件清单
- 操作系统:Windows 或 macOS
- Python 版本:建议 3.10 或更高
- 安卓设备:Android 7.0 以上的真实手机或模拟器
- ADB 工具:用于电脑与手机通信
- 网络环境:手机与电脑在同一局域网(WiFi 连接更方便)
2.2 手机端设置:开启“被控制”权限
为了让电脑能操控手机,必须开启开发者权限。
开启开发者模式
进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。开启 USB 调试
返回“设置” → “开发者选项” → 找到并勾选“USB 调试”。安装 ADB Keyboard(关键!)
下载并安装 ADB Keyboard 的 APK 文件。
安装后,在“语言与输入法”中将默认输入法切换为ADB Keyboard。
这是为了让 AI 能通过 ADB 输入文字,否则无法在搜索框打字。
2.3 配置 ADB:让电脑认得手机
ADB 是连接电脑和安卓设备的桥梁。我们需要先安装并配置它。
Windows 用户:
- 下载 Platform Tools 并解压。
- 将解压后的文件夹路径添加到系统环境变量
Path中。 - 打开命令行,输入:
如果显示版本号,说明配置成功。adb version
macOS 用户:
在终端执行:
export PATH=${PATH}:~/Downloads/platform-tools(假设 platform-tools 放在 Downloads 目录下)
2.4 部署控制端代码
现在,我们在本地电脑上拉取 Open-AutoGLM 的控制代码。
# 1. 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖 pip install -r requirements.txt pip install -e .这一步完成后,你的电脑就具备了“指挥”手机的能力。
3. 实战演示:让 AI 自动搜美食、关注博主
一切准备就绪,现在是见证奇迹的时刻。
3.1 连接设备:USB 还是 WiFi?
你可以选择两种方式连接手机:
方式一:USB 连接(稳定推荐)
用数据线将手机连上电脑,确保手机弹出“允许调试”提示时点击“确定”。
然后在命令行输入:
adb devices如果看到类似ABCDEF123 device的输出,说明连接成功。
方式二:WiFi 无线连接(更自由)
先用 USB 连接,然后执行:
adb tcpip 5555断开 USB,再通过 IP 连接:
adb connect 192.168.1.100:5555(将 IP 替换为你的手机实际 IP)
3.2 启动 AI 代理:下达第一条指令
假设你的 AI 模型已经在云服务器上运行,提供了一个 API 接口(如http://your-server-ip:8800/v1),现在就可以启动代理了。
在 Open-AutoGLM 目录下运行:
python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘上海网红甜品店’,打开排名第一的笔记。"参数说明:
--device-id:通过adb devices获取的设备 ID 或 IP 地址--base-url:AI 模型服务的地址- 最后的字符串:你的自然语言指令
执行后,你会看到 AI 开始自动操作手机:
- 解锁屏幕(如果已锁定)
- 找到并点击“小红书”图标
- 等待 App 加载
- 定位搜索框,输入“上海网红甜品店”
- 点击搜索
- 分析结果列表,点击点赞数最高的笔记
整个过程无需你手动干预,AI 会根据屏幕反馈动态调整操作。
3.3 更复杂任务:关注抖音博主
试试这条指令:
python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索抖音号 dycwo11nt61d,进入主页并关注。"AI 会:
- 打开抖音
- 点击顶部搜索栏
- 输入指定抖音号
- 进入用户主页
- 点击“关注”按钮
如果你设置了关注需验证,AI 会暂停并提示你手动确认,之后继续执行后续步骤。
4. 常见问题与使用技巧
4.1 遇到问题怎么办?这些坑我帮你踩过了
问题1:ADB 连接失败,显示 unauthorized
原因:手机未授权电脑调试。
解决:检查是否弹出“允许USB调试”对话框,务必点击“允许”。问题2:AI 识别不到按钮或输不了字
原因:未安装或未启用 ADB Keyboard。
解决:确认已安装,并在“输入法”设置中将其设为默认。问题3:模型无响应或返回乱码
原因:服务端 vLLM 配置不当,如显存不足或 max-model-len 设置过小。
解决:检查服务端日志,确保模型加载正常,建议 GPU 显存 ≥ 24GB。问题4:WiFi 连接不稳定导致掉线
建议:复杂任务优先使用 USB 连接,稳定性更高。
4.2 提升成功率的小技巧
- 指令尽量具体:比如“搜‘北京三里屯火锅’”比“找个火锅店”更易执行。
- 避免模糊描述:如“点那个红色的按钮”可能因界面变化导致识别错误。
- 保持网络畅通:AI 需频繁截图上传,网络延迟会影响响应速度。
- 关闭省电模式:防止手机自动锁屏或后台杀进程。
4.3 远程调用 API:集成到自己的项目中
除了命令行,你还可以用 Python 脚本远程控制设备:
from phone_agent.adb import ADBConnection, list_devices conn = ADBConnection() success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}")这让你可以把 Open-AutoGLM 集成到自动化测试、批量操作、智能客服等系统中。
5. 总结:AI 操作手机的时代已经到来
Open-AutoGLM 不只是一个技术 Demo,它代表了一种全新的交互范式:从“人操作手机”到“手机替人操作”。
通过本文的实战,你应该已经体验到:
- 如何部署一个能“看懂”和“操作”手机的 AI Agent;
- 如何用自然语言指令自动完成搜索、关注、浏览等任务;
- 如何排查常见问题,提升执行成功率。
虽然目前它还不能处理所有 App 的所有场景,复杂任务的成功率也有待提升,但它的开源为开发者提供了无限可能。你可以基于它构建:
- 企业级自动化工具(如批量注册、数据采集)
- 老年人友好助手(一键操作复杂流程)
- 跨平台任务编排引擎(打通微信、淘宝、美团等)
更重要的是,它让我们重新思考:未来的手机,是不是真的需要我们“动手”?
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。