手机AI代理入门：Open-AutoGLM从安装到运行-洪萨配资

手机AI代理入门：Open-AutoGLM从安装到运行

1. 这不是科幻，是今天就能用的手机AI助手

你有没有过这样的时刻：

想在小红书搜“深圳周末露营推荐”，但正开会没法点手机；
想给家人订个蛋糕，却卡在美团里反复切换地址和口味；
测试新App时，一遍遍重复点击登录、首页、商品页、加购……

这些事，现在不用你动手了。

Open-AutoGLM 是智谱AI开源的手机端AI Agent框架，它能把你的自然语言指令，变成真实的手指操作——打开App、滑动页面、输入文字、点击按钮、甚至识别验证码后暂停等你接管。它不靠预设脚本，而是用视觉语言模型“看懂”屏幕，再像真人一样思考下一步该做什么。

这不是远程控制，也不是简单录屏回放。它是真正理解任务意图的AI代理：你说“打开抖音，搜‘AI手机助手’，点开播放量最高的视频，点赞并分享到微信”，它就能一步步拆解、执行、反馈。

这篇文章不讲原理、不堆参数，只做一件事：带你从零开始，15分钟内让AI第一次帮你点开一个App。过程中会避开我踩过的7个典型坑，告诉你哪些设置99%的人会漏掉，哪些指令写法能让成功率从60%提升到95%。

准备好了吗？我们直接开工。

2. 三件套：电脑、手机、ADB——缺一不可

在敲任何命令前，请确认这三样东西已就位。少一个，后面全卡住。

2.1 Python环境：3.10+是硬门槛

别用系统自带的Python，也别用太新的3.12——Open-AutoGLM在3.10–3.11区间最稳。
检查方式很简单：

python --version

如果显示Python 3.9.18或更低，去python.org下载3.11.x安装包，勾选“Add Python to PATH”。
如果显示Python 3.12.3，建议另装3.11（用pyenv或Miniconda管理多版本）。

为什么强调版本？
项目依赖的transformers和Pillow在3.12上有兼容问题，你会在pip install时看到一堆红色报错，最后卡在Building wheel for tokenizers不动。

2.2 ADB工具：电脑遥控手机的“遥控器”

ADB（Android Debug Bridge）是安卓开发者的标配，但对普通用户有点陌生。简单说：它就是让电脑能“看见”“摸到”你手机的桥梁。

下载与配置一步到位：

去Android官方平台工具页下载对应系统的压缩包（Windows选.zip，Mac选.tar.gz）
解压到一个固定路径，比如：
- Windows：C:\adb
- Mac：~/platform-tools

配置环境变量（关键！很多人这步失败）：

Windows：
1. 右键“此电脑”→属性→高级系统设置→环境变量
2. 在“系统变量”里找到Path，点编辑→新建→粘贴C:\adb
3. 打开新命令行窗口，输入：
```
adb version
```
  看到类似Android Debug Bridge version 1.0.41即成功

Mac：
在终端运行：

echo 'export PATH=$PATH:~/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

注意：Mac用户如果用的是bash而非zsh，请把~/.zshrc换成~/.bash_profile。不确定的话，先运行echo $SHELL看输出。

2.3 安卓手机：7.0+ + 开发者模式 + 两个开关

你的手机必须满足三点：
Android 7.0及以上（2016年后的主流机型基本都行）
开启“开发者选项”（设置→关于手机→连点7次“版本号”）
同时打开两个开关（90%的人只开第一个！）：

USB调试（在“开发者选项”里）
USB调试（安全设置）（也在同一页面，名字可能叫“USB安装”或“通过USB验证应用”，不同品牌位置略有差异）

为什么必须开第二个？
没有它，ADB能识别设备，但无法执行点击、滑动、输入等操作——你会看到AI成功打开App，然后彻底静止。

额外一步：安装ADB Keyboard（中文输入必备）

下载ADBKeyboard.apk
用命令安装：
```
adb install ADBKeyboard.apk
```
手机设置→语言和输入法→启用“ADB Keyboard”（不需要设为默认输入法，系统会在需要时自动调用）

3. 项目部署：5分钟克隆+安装

一切就绪，现在把Open-AutoGLM拉到本地。

3.1 克隆代码库

git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM

如果没装Git，去git-scm.com下载安装，一路默认即可。

3.2 创建虚拟环境（强烈建议）

避免依赖冲突，用独立环境跑这个项目：

# Windows python -m venv venv venv\Scripts\activate # Mac/Linux python3 -m venv venv source venv/bin/activate

激活后，命令行前会出现(venv)标识。

3.3 安装依赖（带镜像加速）

国内网络下，用清华源快得多：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple pip install -e .

如果某条依赖安装失败（比如flash-attn），先跳过，后续用不到可删掉。核心功能不依赖它。

成功标志：命令行无红色报错，最后一行显示Successfully installed ...

4. 模型方案选择：云端API or 本地部署？

你有两个路可走。选错方案，可能多花2小时还跑不通。

4.1 新手首选：智谱AI云端API（5分钟启动）

没显卡、不想折腾、只想先看看效果？用这个。

三步搞定：

去智谱AI开放平台注册账号
进入API Key管理页，创建一个Key
运行命令（替换your_api_key_here）：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开微信，给文件传输助手发送消息：AI代理测试成功！"

提示：首次使用有免费额度，够跑50+次任务。响应时间约2–4秒，稳定不掉线。

4.2 本地部署：适合有RTX 3090+的玩家

如果你有16GB显存以上的显卡（如RTX 4090、A100），本地部署延迟更低、隐私更好、长期更省钱。

用vLLM一键启动（推荐）：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --mm-processor-cache-type shm \ --mm-processor-kwargs "{\"max_pixels\":5000000}" \ --limit-mm-per-prompt "{\"image\":10}"

关键参数说明（不用全记，但要知道）：

--port 8000：服务监听端口，后面main.py要连这里
--max-model-len 25480：必须设，否则模型加载失败
--mm-processor-kwargs：控制图像处理最大像素，设太小会截断屏幕截图

⏱ 首次运行会自动下载18GB模型文件（约15–30分钟，取决于网速）。完成后访问http://localhost:8000/docs能看到OpenAPI文档。

5. 设备连接：USB or WiFi？怎么连都不掉

无论用哪种模型方案，手机都得连上电脑。两种方式，按需选择。

5.1 USB直连（最稳，新手必试）

手机用原装数据线连电脑 → 手机弹窗点“允许USB调试” → 运行：

adb devices

正常输出应类似：

List of devices attached ZY2252KQFV device

如果显示unauthorized，去手机通知栏点授权；如果空白，重启ADB：

adb kill-server && adb start-server

5.2 WiFi无线连接（适合远程/多设备）

前提：手机和电脑在同一WiFi下。

# 第一次必须用USB连上后执行 adb tcpip 5555 # 断开USB，用WiFi连（IP在手机“关于手机→状态”里找） adb connect 192.168.1.100:5555

查手机IP：设置→WLAN→点当前网络→IP地址。如果连不上，关掉手机“智能WiFi切换”或“WLAN+”功能。

6. 第一次运行：见证AI接管手机

现在，所有齿轮都已咬合。执行这条命令，见证奇迹：

python main.py \ --device-id ZY2252KQFV \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书，搜索‘AI手机助手’，点击第一个笔记"

替换ZY2252KQFV为你自己的设备ID（adb devices查到的）；如果用云端API，把--base-url换成https://open.bigmodel.cn/api/paas/v4，并加上--apikey。

你会看到：

命令行快速滚动日志（Taking screenshot...,Sending to model...,Planning action...）
手机屏幕自动亮起 → 启动小红书 → 顶部出现搜索框 → 输入文字 → 点击搜索 → 列表加载 → 点击第一条

整个过程约8–15秒。第一次看到AI自己完成全流程，真的会愣住。

7. 让AI更听话的4个实战技巧

指令写得好，成功率翻倍。这是我反复测试总结的“人话转AI指令”心法。

7.1 指令必须带“动作主体”，别只说“做什么”

不好：“搜美食”
好：“打开美团，搜索‘北京烤鸭’”

不好：“看未读消息”
好：“打开微信，查看最近3条未读消息”

原因：AI需要明确上下文——在哪个App？针对什么内容？范围多大？

7.2 复杂任务分两步走，别塞进一句话

危险：“打开淘宝，搜蓝牙耳机，选价格200–500元的，加入购物车，下单付款”
安全：
第一步：打开淘宝，搜索‘蓝牙耳机’，筛选价格200–500元
第二步（等页面加载完）：点击第一个商品，加入购物车

为什么？
支付环节涉及密码、人脸识别，AI会主动触发Take_over人工接管。强行让它走完，大概率卡死。

7.3 善用交互模式，像聊天一样指挥

想连续操作？别反复敲命令，用交互模式：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_key" \ --device-id ZY2252KQFV

进入后，直接输入：

> 打开抖音 > 搜索‘AI教程’ > 点赞第一条视频 > 分享到微信

每输一条，AI执行一条，实时反馈结果。比写脚本还快。

7.4 中文输入失效？检查这三个点

如果AI能点搜索框但输不出字：

adb shell ime list -s看是否列出com.android.adbkeyboard/.AdbIME
手机设置→语言和输入法→确认“ADB Keyboard”已启用（灰色开关变蓝）
运行adb shell settings put secure default_input_method com.android.adbkeyboard/.AdbIME强制设为默认（临时）

8. 踩坑急救包：7个高频问题速查

部署中最耗时的不是安装，而是排错。我把最常遇到的7个问题浓缩成“一句话解决方案”。

问题现象	一句话解决
`adb devices`显示空白	`adb kill-server && adb start-server && adb devices`，再检查USB线和驱动
能启动App但点不了任何按钮	立刻去手机“开发者选项”打开“USB调试（安全设置）”
输入中文时显示方块或乱码	Windows：命令前加`set PYTHONIOENCODING=utf-8 &&`；Mac：终端运行`export PYTHONIOENCODING=utf-8`
截图是黑屏（尤其银行/支付类App）	正常！这是App主动屏蔽截图，AI会跳过或提示接管，无需处理
模型响应超时或返回空	云端API：检查网络和配额；本地部署：确认`--max-model-len 25480`已设置，且显存充足
运行`main.py`报`ModuleNotFoundError: No module named 'phone_agent'`	确认在`Open-AutoGLM`根目录下运行，且已执行`pip install -e .`
任务执行一半卡住不动	手机手动点掉弹窗广告，或加`--timeout 60`参数延长等待时间

9. 能做什么？50+主流App实测清单

Open-AutoGLM不是玩具，它已适配国内绝大多数日常App。以下是我们实测的可用性分级（=稳定可用，=部分功能可用，=暂不支持）：

类别	App	核心能力实测
社交通讯	微信、QQ、钉钉	发消息、看未读、切换聊天页；朋友圈互动需接管
电商购物	淘宝、京东、拼多多	搜索、筛选、查看详情、加购；下单支付需接管
视频娱乐	抖音、B站、快手	搜索、滑动刷新、点赞、关注；视频播放控制（暂停/下一首）
音乐音频	网易云、QQ音乐	搜索歌手/歌名、播放歌单、收藏；评论区互动需接管
生活服务	美团、大众点评、高德	搜索店铺、查看评分、导航启动；外卖下单流程完整
内容社区	小红书、知乎、豆瓣	搜索关键词、点击笔记/回答、点赞收藏；图文识别准确率高

实测数据：在淘宝搜索“无线耳机”，AI识别商品卡片、价格、销量的准确率＞92%；在抖音搜索“AI教程”，定位到目标视频并点赞的成功率约85%（失败主因是页面加载慢导致截图延迟）。

10. 进阶玩法：不只是点点点

当你熟悉基础操作后，这些场景会让AI真正成为生产力工具。

10.1 自动化测试（给App开发者）

写个Python脚本，每天凌晨跑一遍核心流程：

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig agent = PhoneAgent( model_config=ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4", model_name="autoglm-phone", api_key="your_key" ) ) test_cases = [ "打开App，点击首页banner", "滑动到底部，点击‘我的订单’", "返回，点击右上角头像登录" ] for i, case in enumerate(test_cases, 1): result = agent.run(case) print(f"步骤{i}: {case} → {result['status']}")

10.2 定时任务（Mac/Linux用cron，Windows用任务计划程序）

每天早8点自动刷新闻：

# Mac/Linux crontab 0 8 * * * cd /path/to/Open-AutoGLM && python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "key" "打开今日头条，浏览科技频道" >> /tmp/ai_news.log 2>&1

10.3 批量发布（自媒体人福音）

统一文案发到多个平台：

platforms = ["微博", "小红书", "知乎"] content = "【AI手机助手实测】5分钟教会你用Open-AutoGLM自动化日常操作" for app in platforms: agent.run(f"打开{app}，发布动态：{content}")

总结

Open-AutoGLM把“用AI操作手机”这件事，从实验室概念变成了你电脑里一个可运行的main.py。它不完美——复杂支付、生物认证、强反爬App仍是挑战；但它足够实用：搜索、浏览、点赞、下单、测试，这些高频低价值操作，现在可以交给AI。

最关键的不是技术多炫，而是它改变了人机关系：你不再需要学习ADB命令、编写UI脚本、研究XPath，只需要说一句“帮我做XX”，剩下的交给它。

如果你今天只做一件事，就去做：
装好ADB，打开手机开发者模式，连上电脑
运行那条python main.py ...命令
看着手机自己亮起、打开App、输入文字、点击搜索

那一刻，你会相信——AI代理，真的来了。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手机AI代理入门：Open-AutoGLM从安装到运行