Open-AutoGLM实战：自动搜美食、关注博主全搞定-洪萨配资

Open-AutoGLM实战：自动搜美食、关注博主全搞定

你有没有想过，有一天只要动动嘴说一句“帮我找附近评分高的川菜馆”，手机就能自己打开小红书、搜索关键词、筛选结果，甚至帮你收藏推荐？或者，“去抖音关注那个讲科技的博主”，AI 就能自动完成打开 App、搜索账号、点击关注一整套操作？

这不是科幻电影，而是Open-AutoGLM正在实现的现实。作为智谱开源的手机端 AI Agent 框架，它让 AI 真正拥有了“动手能力”——不仅能看懂屏幕，还能像人一样点击、滑动、输入，把你的自然语言指令变成实实在在的操作。

本文将带你从零开始，亲手部署并实操这个“会用手机”的 AI 助理，看看它是如何把“动口不动手”变成日常的。

1. 什么是 Open-AutoGLM？它凭什么能“操作手机”？

1.1 核心能力一句话讲清楚

Open-AutoGLM 是一个基于视觉语言模型（VLM）的 AI 手机智能助理框架。简单来说，它有三样本事：

看得懂：通过截图理解当前手机屏幕上有什么（比如“这是一个搜索框”、“这是‘关注’按钮”）。
想得清：根据你的指令和当前界面，规划出下一步该做什么（比如“先点开小红书图标，再找到搜索栏”）。
做得了：通过 ADB（Android Debug Bridge）技术，真正操控手机执行点击、滑动、输入文字等动作。

整个过程就像有个“数字分身”在替你用手机，而你只需要下命令。

1.2 技术架构拆解：AI 是怎么一步步学会用手机的？

整个系统由三个核心模块协同工作：

模块	职责	关键技术
视觉感知层	理解屏幕内容	基于 GLM-4.5V 的多模态模型，识别 UI 元素、文本、图像
任务规划层	决策“下一步做什么”	结合指令与上下文，生成可执行的操作序列（如 tap, input, swipe）
执行控制层	实际操控手机	通过 ADB 发送指令，控制真机或模拟器

整个流程是闭环的：AI 每执行一步，就会重新截图观察结果，确认是否成功，再决定下一步，直到任务完成。

1.3 它能做什么？这些场景已经可以实现

别以为这只是个玩具，Open-AutoGLM 已经能处理不少真实生活中的高频任务：

信息检索：“打开大众点评，搜一下公司附近的咖啡厅。”
社交互动：“在抖音上找到用户‘科技老张’并关注他。”
内容浏览：“用小红书搜‘北京周末遛娃好去处’，打开点赞最高的那篇笔记。”
辅助操作：在需要登录或验证码时暂停，等待人工介入，之后继续执行。

未来，它可以帮你自动比价、抢优惠券、填写表单，甚至跨 App 协同完成复杂任务，比如“订完电影票后发链接给微信群”。

2. 手把手部署：从零搭建你的 AI 手机助理

要让 Open-AutoGLM 跑起来，你需要准备三样东西：一台安卓手机（或模拟器）、一台运行 AI 模型的服务器（可以是本地电脑或云主机），以及本地控制端代码。

我们这里以本地电脑控制真机为例，带你一步步配置。

2.1 准备工作：软硬件清单

操作系统：Windows 或 macOS
Python 版本：建议 3.10 或更高
安卓设备：Android 7.0 以上的真实手机或模拟器
ADB 工具：用于电脑与手机通信
网络环境：手机与电脑在同一局域网（WiFi 连接更方便）

2.2 手机端设置：开启“被控制”权限

为了让电脑能操控手机，必须开启开发者权限。

开启开发者模式
进入手机“设置” → “关于手机” → 连续点击“版本号”7次，直到提示“您已进入开发者模式”。
开启 USB 调试
返回“设置” → “开发者选项” → 找到并勾选“USB 调试”。
安装 ADB Keyboard（关键！）
下载并安装 ADB Keyboard 的 APK 文件。
安装后，在“语言与输入法”中将默认输入法切换为ADB Keyboard。
这是为了让 AI 能通过 ADB 输入文字，否则无法在搜索框打字。

2.3 配置 ADB：让电脑认得手机

ADB 是连接电脑和安卓设备的桥梁。我们需要先安装并配置它。

Windows 用户：

下载 Platform Tools 并解压。
将解压后的文件夹路径添加到系统环境变量Path中。
打开命令行，输入：
```
adb version
```
如果显示版本号，说明配置成功。

macOS 用户：

在终端执行：

export PATH=${PATH}:~/Downloads/platform-tools

（假设 platform-tools 放在 Downloads 目录下）

2.4 部署控制端代码

现在，我们在本地电脑上拉取 Open-AutoGLM 的控制代码。

# 1. 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖 pip install -r requirements.txt pip install -e .

这一步完成后，你的电脑就具备了“指挥”手机的能力。

3. 实战演示：让 AI 自动搜美食、关注博主

一切准备就绪，现在是见证奇迹的时刻。

3.1 连接设备：USB 还是 WiFi？

你可以选择两种方式连接手机：

方式一：USB 连接（稳定推荐）

用数据线将手机连上电脑，确保手机弹出“允许调试”提示时点击“确定”。

然后在命令行输入：

adb devices

如果看到类似ABCDEF123 device的输出，说明连接成功。

方式二：WiFi 无线连接（更自由）

先用 USB 连接，然后执行：

adb tcpip 5555

断开 USB，再通过 IP 连接：

adb connect 192.168.1.100:5555

（将 IP 替换为你的手机实际 IP）

3.2 启动 AI 代理：下达第一条指令

假设你的 AI 模型已经在云服务器上运行，提供了一个 API 接口（如http://your-server-ip:8800/v1），现在就可以启动代理了。

在 Open-AutoGLM 目录下运行：

python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书，搜索‘上海网红甜品店’，打开排名第一的笔记。"

参数说明：

--device-id：通过adb devices获取的设备 ID 或 IP 地址
--base-url：AI 模型服务的地址
最后的字符串：你的自然语言指令

执行后，你会看到 AI 开始自动操作手机：

解锁屏幕（如果已锁定）
找到并点击“小红书”图标
等待 App 加载
定位搜索框，输入“上海网红甜品店”
点击搜索
分析结果列表，点击点赞数最高的笔记

整个过程无需你手动干预，AI 会根据屏幕反馈动态调整操作。

3.3 更复杂任务：关注抖音博主

试试这条指令：

python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音，搜索抖音号 dycwo11nt61d，进入主页并关注。"

AI 会：

打开抖音
点击顶部搜索栏
输入指定抖音号
进入用户主页
点击“关注”按钮

如果你设置了关注需验证，AI 会暂停并提示你手动确认，之后继续执行后续步骤。

4. 常见问题与使用技巧

4.1 遇到问题怎么办？这些坑我帮你踩过了

问题1：ADB 连接失败，显示 unauthorized
原因：手机未授权电脑调试。
解决：检查是否弹出“允许USB调试”对话框，务必点击“允许”。
问题2：AI 识别不到按钮或输不了字
原因：未安装或未启用 ADB Keyboard。
解决：确认已安装，并在“输入法”设置中将其设为默认。
问题3：模型无响应或返回乱码
原因：服务端 vLLM 配置不当，如显存不足或 max-model-len 设置过小。
解决：检查服务端日志，确保模型加载正常，建议 GPU 显存 ≥ 24GB。
问题4：WiFi 连接不稳定导致掉线
建议：复杂任务优先使用 USB 连接，稳定性更高。

4.2 提升成功率的小技巧

指令尽量具体：比如“搜‘北京三里屯火锅’”比“找个火锅店”更易执行。
避免模糊描述：如“点那个红色的按钮”可能因界面变化导致识别错误。
保持网络畅通：AI 需频繁截图上传，网络延迟会影响响应速度。
关闭省电模式：防止手机自动锁屏或后台杀进程。

4.3 远程调用 API：集成到自己的项目中

除了命令行，你还可以用 Python 脚本远程控制设备：

from phone_agent.adb import ADBConnection, list_devices conn = ADBConnection() success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}")

这让你可以把 Open-AutoGLM 集成到自动化测试、批量操作、智能客服等系统中。

5. 总结：AI 操作手机的时代已经到来

Open-AutoGLM 不只是一个技术 Demo，它代表了一种全新的交互范式：从“人操作手机”到“手机替人操作”。

通过本文的实战，你应该已经体验到：

如何部署一个能“看懂”和“操作”手机的 AI Agent；
如何用自然语言指令自动完成搜索、关注、浏览等任务；
如何排查常见问题，提升执行成功率。

虽然目前它还不能处理所有 App 的所有场景，复杂任务的成功率也有待提升，但它的开源为开发者提供了无限可能。你可以基于它构建：

企业级自动化工具（如批量注册、数据采集）
老年人友好助手（一键操作复杂流程）
跨平台任务编排引擎（打通微信、淘宝、美团等）

更重要的是，它让我们重新思考：未来的手机，是不是真的需要我们“动手”？

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Open-AutoGLM实战：自动搜美食、关注博主全搞定