零基础小白也能懂:Open-AutoGLM手机AI代理保姆级入门教程
1. 引言:你的手机也能拥有“贾维斯”?
你有没有想过,只要说一句“帮我订个火锅”,手机就能自动打开美团、搜索附近高分川菜馆、选好店铺并下单?听起来像科幻电影里的桥段,但现在,这一切已经可以通过Open-AutoGLM实现。
这是一款由智谱AI开源的手机端AI智能体框架,它能让AI真正“看懂”你的屏幕、“听懂”你的指令,并通过自动化操作帮你完成一系列复杂任务。无论是刷抖音、点外卖、发微信,还是逛淘宝、查行程,只需一句话,剩下的交给AI来执行。
最棒的是——哪怕你是零基础的小白,也能跟着这篇教程一步步部署成功。我们不讲晦涩术语,只用大白话+实操步骤,带你从环境配置到实际运行,完整走通整个流程。
你能学到什么?
- 如何在本地电脑连接安卓手机并开启调试
- 怎么安装和启动AutoGLM的核心模型服务
- 使用自然语言控制手机的真实案例演示
- 常见问题排查与安全使用建议
准备好了吗?让我们开始打造属于你的“AI手机管家”。
2. 准备工作:软硬件清单一应俱全
要让AI接管手机,我们需要三样东西:一台电脑、一部安卓手机,以及一些必要的软件工具。别担心,这些都不需要额外花钱。
2.1 硬件要求一览
| 设备 | 要求说明 |
|---|---|
| 电脑 | Windows 或 macOS 系统,建议内存16GB以上(8GB也可尝试) |
| 手机 | Android 7.0 及以上系统的真实设备或模拟器 |
| 数据线 | 支持数据传输的USB线(用于初始连接) |
| 存储空间 | 至少预留50GB硬盘空间(模型文件较大) |
提示:如果你是Mac用户,或者电脑性能一般,可以考虑先用简单任务测试,后续再升级配置。
2.2 必备软件环境
我们要装三个关键组件:Python、ADB工具、ADB Keyboard输入法。
Python 安装(3分钟搞定)
这是运行项目的基础编程环境。
Windows用户:
- 访问 python.org 下载 Python 3.10 或更高版本
- 安装时务必勾选Add Python to PATH
- 打开命令提示符输入
python --version,看到版本号即成功
Mac用户:
brew install python@3.10安装后同样用
python3 --version验证
ADB 工具安装(连接手机的桥梁)
ADB(Android Debug Bridge)是用来让电脑控制手机的核心工具。
前往 Android开发者官网 下载 platform-tools
解压到一个固定目录,比如
C:\adb或~/Downloads/platform-tools添加路径到系统环境变量:
- Windows:右键“此电脑” → 属性 → 高级系统设置 → 环境变量 → 在Path中添加解压路径
- Mac:终端执行:
并写入export PATH=$PATH:~/Downloads/platform-tools.zshrc文件以永久生效
验证是否安装成功:
adb version如果显示版本信息,说明OK!
ADB Keyboard(让AI能打字的关键)
默认情况下,AI无法在手机上输入中文。我们需要一个特殊的输入法——ADB Keyboard。
- 下载 ADBKeyboard.apk(GitHub开源项目)
- 用USB连接手机后,在命令行运行:
adb install ADBKeyboard.apk - 手机设置中进入「语言与输入法」→「当前输入法」→ 切换为 ADB Keyboard
✅ 成功标志:当你用
adb shell input text "hello"命令时,能在任意输入框打出文字。
3. 手机设置:开启“被控制”的权限
为了让电脑能远程操控手机,必须开启开发者模式和USB调试。
操作步骤如下:
- 打开手机「设置」
- 进入「关于手机」
- 连续点击「版本号」7次,直到弹出提示:“您已进入开发者模式”
- 返回设置主界面,找到「开发者选项」
- 开启「USB调试」开关
- (可选)开启「无线调试」以便后续WiFi连接
此时用USB线将手机连上电脑,手机会弹出“允许USB调试吗?”的对话框,一定要点击“允许”。
然后在电脑命令行输入:
adb devices如果看到类似这样的输出:
List of devices attached ABCDEF123 device恭喜!你的手机已经被电脑识别,连接成功了。
4. 部署核心AI模型:让手机“看得懂、想得清”
Open-AutoGLM 的大脑是一个名为AutoGLM-Phone-9B的多模态视觉语言模型。它不仅能“读图”,还能理解界面元素、做出决策。
这个模型大约18GB,我们需要先把它下载下来。
4.1 下载模型文件
推荐根据网络情况选择源:
国内用户(速度快):
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git国际用户(官方源):
git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B
⚠️ 注意:首次使用 Hugging Face 需安装 Git LFS(Large File Storage),否则模型文件会损坏。
4.2 安装推理引擎 vLLM
vLLM 是目前最快的开源大模型推理框架之一,支持多模态输入。
安装命令:
pip install vllm验证CUDA是否正常(NVIDIA显卡用户):
nvidia-smi如果有显卡信息输出,说明GPU环境就绪。
4.3 启动模型服务
创建一个脚本文件start_model.sh(Mac/Linux)或start_model.bat(Windows),内容如下:
Linux/Mac 版本:
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model ./AutoGLM-Phone-9B \ --port 8000Windows 版本:
python -m vllm.entrypoints.openai.api_server --served-model-name autoglm-phone-9b --port 8000 --model .\AutoGLM-Phone-9B保存后运行:
sh start_model.sh当看到日志中出现:
Uvicorn running on http://0.0.0.0:8000说明模型服务已经启动成功,正在本地监听8000端口,等待调用。
5. 安装 Open-AutoGLM 控制端
现在轮到安装控制手机的“指挥官”程序。
步骤一:克隆项目代码
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM步骤二:安装依赖包
pip install -r requirements.txt pip install -e .这一步会安装所有必需的Python库,包括ADB通信模块、模型接口封装等。
6. 第一次运行:让AI打开“设置”应用
万事俱备,我们来做一个最简单的测试:让AI自动打开手机的“设置”应用。
在项目根目录下运行以下命令:
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"稍等几秒,你会看到类似这样的输出:
💭 思考过程: 当前在桌面,需要打开设置应用 🎯 执行动作: {"action": "Launch", "app": "设置"}紧接着,你手中的手机应该自动跳转到了「设置」页面!
✅ 成功标志:AI准确识别了当前界面,并下达了正确的启动指令。
7. 实战演练:几个超实用的生活场景
现在我们来试试更复杂的任务,感受一下AI代理的真正实力。
示例1:打开小红书搜美食
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索北京好吃的火锅店"AI会依次执行:
- 找到小红书图标并点击打开
- 点击搜索框
- 输入“北京好吃的火锅店”
- 触发搜索并展示结果
示例2:关注指定抖音号
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"整个过程无需手动输入账号名,AI会自动完成搜索、进入主页、点击关注按钮。
示例3:批量查看支持的应用
想知道它能操作哪些APP?直接列出:
python main.py --list-apps你会看到一个支持列表,涵盖微信、淘宝、美团、滴滴、微博、B站等主流应用。
8. 高级玩法:WiFi远程控制 & 自定义行为
8.1 用WiFi无线控制手机(摆脱数据线)
一旦初次USB连接成功,就可以切换为无线模式,更加自由灵活。
步骤如下:
- 先用USB连接手机
- 执行:
adb tcpip 5555 - 断开USB线
- 查看手机IP地址(通常在「设置-关于手机-状态信息」里)
- 连接WiFi设备:
adb connect 192.168.x.x:5555 - 再次运行
adb devices,确认设备在线
之后所有命令都可通过WiFi发送,适合长期挂机使用。
8.2 给AI加个“购物专家”人设
你可以修改提示词,让它在特定场景表现更好。
编辑文件phone_agent/config/prompts.py中的SYSTEM_PROMPT,例如增强电商能力:
SYSTEM_PROMPT = """ 你是一个专业的手机购物助手,擅长在淘宝、京东、拼多多等平台帮用户选购商品。 请优先考虑销量高、评价好、有优惠券的商品,并按价格从低到高排序。 """保存后重启服务,下次购物类任务就会更聪明啦!
9. 安全机制:敏感操作需人工确认
为了避免误操作造成损失,Open-AutoGLM 内置了敏感操作拦截机制。
当AI检测到以下行为时,会暂停执行并等待你确认:
- 支付付款
- 删除文件
- 发送敏感消息
- 修改系统设置
你还可以自定义确认逻辑,比如加入语音提醒或弹窗通知。
示例代码:
def my_confirmation(msg): print(f"\n⚠️ 危险操作预警: {msg}") return input("继续执行?(y/n): ").lower() == 'y' agent = PhoneAgent(confirmation_callback=my_confirmation) agent.run("帮我支付这笔订单")这样即使AI判断要付款,也会停下来等你拍板。
10. 常见问题与解决方案
Q1:adb devices显示 unauthorized
原因:手机未授权电脑调试
解决:断开重连,手机弹窗中点击“允许”
Q2:模型启动失败,报显存不足
解决方法:
- 尝试添加
--device cpu参数以CPU模式运行(速度慢但兼容性好) - 关闭其他占用显存的程序
- 使用 smaller 模型(如有提供)
Q3:AI识别不了屏幕内容
检查项:
- 手机屏幕是否熄灭或锁屏?
- 是否正确启用了 ADB Keyboard?
- 模型服务是否正常运行?
Q4:中文输入失败
解决:
- 确保 ADB Keyboard 已设为默认输入法
- 重启手机后再试
- 在输入场景手动切换一次输入法
11. 总结:每个人都能拥有的AI助理
通过这篇保姆级教程,你应该已经成功让 Open-AutoGLM 在你的设备上跑起来了。回顾一下我们完成了哪些事:
- ✅ 配置了Python和ADB环境
- ✅ 开启了手机开发者权限
- ✅ 下载并启动了AutoGLM-Phone-9B模型
- ✅ 安装了Open-AutoGLM控制端
- ✅ 成功执行了多个自然语言指令
- ✅ 掌握了WiFi远程控制和安全防护技巧
这不仅仅是一个技术玩具,更是未来生活方式的一种预演。你可以用它:
- 自动打卡签到
- 批量点赞朋友圈
- 监控特价商品
- 辅助老人操作手机
更重要的是,它是完全开源、本地部署、隐私可控的AI方案,不像云端服务那样把数据交给别人。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。