5分钟上手Open-AutoGLM,手机AI助手一键部署实战
你有没有想过,用一句话就能让手机自动完成一连串操作?比如“打开小红书搜最近爆火的咖啡店探店笔记”,说完这句话,手机自己点开App、输入关键词、滑动浏览——全程不用你碰一下屏幕。这不是科幻,而是Open-AutoGLM正在实现的真实能力。
它不是普通的大模型API调用工具,而是一个真正能“看懂屏幕、理解意图、动手操作”的手机端AI Agent框架。背后没有预设脚本,不依赖UI控件ID,只靠一张截图+一段文字,就能在真实安卓设备上自主规划、执行、验证、迭代。本文不讲原理、不堆参数,就带你用最短路径——5分钟内,在自己电脑上连上真机,跑通第一条自然语言指令。
整个过程不需要GPU,不编译内核,不改系统设置,只要你会用命令行、能连上手机,就能完成。下面所有步骤,我都按真实操作顺序组织,每一步都经过实测验证。
1. 准备工作:三件套齐活,5分钟搞定
别被“AI Agent”吓住,Open-AutoGLM对本地环境的要求非常轻量。它把最重的推理任务交给云端或本地模型服务,控制端只负责截图、传图、发指令、执行ADB动作——这三件事,你的笔记本完全能扛住。
1.1 硬件与基础工具清单(缺一不可)
- 一台安卓手机:Android 7.0及以上(主流机型全支持),建议用旧机测试,避免影响日常使用
- 一台电脑:Windows 或 macOS 都行,无需显卡,Python 3.10+ 即可
- ADB 工具:Android Debug Bridge,是连接手机和电脑的“桥梁”,不是APP,是命令行工具
小贴士:如果你之前调试过安卓应用,大概率已经装好了 ADB。不确定?打开终端/命令提示符,输入
adb version,能显示版本号就说明已就绪。
1.2 手机端三步设置(3分钟完成)
这三步是后续所有自动化的前提,必须手动操作一次,之后就一劳永逸:
开启开发者模式
进入「设置 → 关于手机」,连续点击「版本号」7次,直到弹出“您现在处于开发者模式”的提示。开启USB调试
返回「设置 → 系统 → 开发者选项」,找到并开启「USB调试」。如果没看到“开发者选项”,请先完成上一步。安装并启用 ADB Keyboard(关键!)
- 下载 ADB Keyboard APK(GitHub官方发布,安全无广告)
- 在手机上安装,然后进入「设置 → 语言与输入法 → 虚拟键盘」,将默认输入法切换为ADB Keyboard
为什么必须这一步?因为Open-AutoGLM要往App里“打字”,而普通输入法会拦截ADB指令。只有ADB Keyboard能让模型发出的
Type动作真正生效。
1.3 电脑端快速验证(1分钟确认连通)
用USB线把手机连到电脑,确保手机弹出“允许USB调试吗?”提示,勾选“始终允许”,再点确定。
然后在电脑终端中运行:
adb devices如果看到类似这样的输出:
List of devices attached AERFUT4B08000806 device说明手机已成功接入——device状态代表一切正常。如果显示unauthorized,请检查手机是否点了“允许”;如果空白,重启ADB试试:adb kill-server && adb start-server。
这三步做完,你已经跨过了90%新手卡点。接下来,才是真正让AI接管手机的时刻。
2. 控制端部署:一行命令克隆,两行命令启动
Open-AutoGLM的控制端代码极简,核心逻辑封装在main.py里,不依赖复杂框架,纯Python实现。我们不需要从头写,只需拉取官方仓库、装好依赖、配置连接参数。
2.1 克隆代码 + 安装依赖(2分钟)
打开终端,依次执行:
# 1. 克隆官方仓库(约15秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装Python依赖(约1分钟,网络正常情况下) pip install -r requirements.txt # 3. 安装本项目为可导入模块(关键,否则会报错找不到phone_agent) pip install -e .验证是否安装成功:运行
python -c "from phone_agent.adb import ADBConnection; print('OK')",输出OK即表示环境就绪。
2.2 连接方式选择:USB直连 or WiFi远程?
Open-AutoGLM支持两种连接方式,推荐新手从USB直连开始,稳定、延迟低、无需配IP:
- USB直连:适合首次体验,插上线就用,无需记IP
- WiFi远程:适合想把手机放在桌上、远离电脑的场景,但需手机和电脑在同一局域网
USB直连(推荐新手)
确保手机已通过USB连接且adb devices可见,直接进入下一步。
WiFi远程(进阶可选)
如果你希望无线操作,请先用USB连一次,执行:
adb tcpip 5555然后断开USB线,连接手机Wi-Fi,在终端中输入:
adb connect 192.168.x.x:5555 # x.x替换为你手机的实际IP(可在手机Wi-Fi设置里查看)再次运行adb devices,应看到类似192.168.1.100:5555 device的输出。
3. 模型服务对接:本地跑 or 远程调?两种方案任选
Open-AutoGLM本身不包含大模型,它是一个“指挥官”,需要对接一个能理解多模态输入(图像+文本)的视觉语言模型服务。目前最成熟的是智谱开源的autoglm-phone-9b模型,我们提供两种零门槛接入方式:
3.1 方案一:用现成云服务(最快,5秒启动)
CSDN星图镜像广场已预置Open-AutoGLM配套的vLLM推理服务镜像,开箱即用,无需自己搭模型。你只需:
- 访问 CSDN星图镜像广场 → Open-AutoGLM镜像页
- 一键启动镜像,获取公网IP和映射端口(如
http://118.195.xxx.xxx:8800/v1) - 把这个地址填进下面的命令里
优势:不用等模型加载,不用管CUDA、vLLM参数,适合只想快速验证效果的用户。
3.2 方案二:本地MLX量化运行(离线可用,隐私优先)
如果你在意数据不出本地,或想在MacBook上玩转,Open-AutoGLM也支持Apple Silicon芯片的MLX框架。只需下载4-bit量化模型(约6.5GB),即可在M2/M3 Mac上流畅运行。
详细步骤见官方文档,此处给出精简版命令流:
# 下载并量化模型(首次需15–20分钟) huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B --local-dir ./models/AutoGLM-Phone-9B python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 --mlx-path ./models/autoglm-9b-4bit # 启动本地推理(无需云服务) python main.py --local --model ./models/autoglm-9b-4bit "打开微信"提示:本地运行首次启动稍慢(约30秒加载模型),但后续指令响应极快;云服务首次请求略慢(需冷启动),但并发能力强。
4. 第一条指令实战:从“打开抖音”到“关注博主”,全流程演示
现在,所有前置条件都已满足。我们来执行第一条真正意义上的AI指令——不是“Hello World”,而是有明确目标、需多步操作的真实任务。
4.1 执行命令(复制即用)
在Open-AutoGLM项目根目录下,运行以下命令(请根据你选择的服务方式修改参数):
使用云服务(推荐)
python main.py \ --device-id AERFUT4B08000806 \ --base-url http://118.195.xxx.xxx:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"使用本地MLX模型
python main.py \ --device-id AERFUT4B08000806 \ --local \ --model ./models/autoglm-9b-4bit \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
- -device-id:从adb devices输出中复制你的设备ID(如AERFUT4B08000806)- -base-url:云服务地址,格式为http://IP:端口/v1- -local:启用本地MLX模型,此时忽略--base-url
最后引号内的字符串:就是你对AI说的“人话”,越具体越好
4.2 实时日志解读:看AI如何思考与行动
命令运行后,你会看到类似这样的滚动日志(已简化,保留关键逻辑):
System check passed: ADB OK, Device OK, ADB Keyboard OK 📸 Capturing screenshot... (1280x720) 🧠 Sending to model: [image] + "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!" 💭 思考过程: -------------------------------------------------- 用户想关注一个特定抖音号。首先需要启动抖音App,然后找到搜索入口, 输入抖音号,点击搜索结果中的用户主页,最后点击关注按钮。 -------------------------------------------------- 执行动作: { "action": "Launch", "package": "com.ss.android.ugc.aweme", "_metadata": "start抖音" } ⏳ Waiting for app to launch... (2.3s) 📸 Capturing screenshot... 💭 思考过程: ...找到搜索图标,坐标[892, 124] 执行动作: {"action": "Tap", "element": [892, 124]} ... 执行动作: {"action": "Type", "text": "dycwo11nt61d"} ... 执行动作: {"action": "Tap", "element": [420, 488]} // 点击搜索结果第一项 ... 执行动作: {"action": "Tap", "element": [520, 1120]} // 点击关注按钮 Task completed successfully.你会发现,AI不是盲目点击,而是:
- 先截图,看清当前界面
- 结合文字指令推理出完整操作链
- 每步前都“思考”要做什么、为什么做
- 每步后都重新截图,确认界面变化
- 遇到输入框自动调用ADB Keyboard打字
- 关注按钮位置动态识别,不硬编码坐标
这就是真正的Agent闭环:感知→思考→行动→验证→迭代。
5. 常见问题速查:90%的报错,三句话解决
部署过程中,你可能会遇到几个高频问题。这里不列长篇排查指南,只给最直接的解法:
5.1 “Connection refused” 或 “Model API unreachable”
- 检查云服务是否真的在运行(镜像状态是否为“运行中”)
- 检查防火墙:云服务器安全组是否放行了你填写的端口(如8800)
- 检查URL格式:必须以
/v1结尾,不能漏掉
5.2 “ADB device not found” 或 “unauthorized”
- 手机是否弹出“允许USB调试”对话框?必须手动点“允许”并勾选“始终允许”
- USB线是否支持数据传输?有些充电线只能供电,无法通信
- 重启ADB:
adb kill-server && adb start-server
5.3 “Type action failed” 或 输入框没反应
- 再次确认:手机「语言与输入法」中,默认输入法是否为ADB Keyboard
- 尝试手动在任意App中长按输入框,看是否弹出ADB Keyboard软键盘
- 如果仍无效,卸载重装ADB Keyboard APK,再重启手机
5.4 模型返回乱码、空响应、或一直卡在“Waiting”
- 检查
--base-url中的端口是否与vLLM服务启动端口一致(如vLLM启在8000,URL就不能写8800) - 检查模型名称是否拼写正确:云服务用
"autoglm-phone-9b",本地MLX用路径./models/autoglm-9b-4bit - 网络不稳定时,WiFi连接易超时,建议换USB直连重试
这些问题,我在实测中全部遇到过,每个都有明确归因和一步到位的解法。记住:Open-AutoGLM本身很健壮,绝大多数异常都出在连接层,而非模型层。
6. 进阶玩法:不止于“打开App”,这些场景才见真章
当你跑通第一条指令,就可以开始探索它真正的能力边界了。Open-AutoGLM不是玩具,而是一个可嵌入工作流的生产力工具。以下是几个经过验证的高价值场景,附带可直接复用的指令模板:
6.1 自动化App功能测试(测试工程师福音)
不再写Selenium脚本,用自然语言描述测试用例:
你是一名App测试员,请对“知乎日报”进行冒烟测试: 1. 启动App,等待首页加载完成 2. 点击顶部搜索栏,输入“人工智能” 3. 点击第一个搜索结果,进入文章页 4. 向下滑动阅读3屏内容 5. 点击右上角分享按钮,选择“微信好友” 全程截图保存,失败时立即停止并报错6.2 社交媒体批量操作(运营提效)
一条指令,完成多步重复劳动:
帮我批量关注小红书上的10个家居博主: 1. 打开小红书,进入搜索页 2. 依次搜索:“北欧风装修”、“收纳整理师”、“租房改造”、“软装搭配” 3. 对每个搜索结果页,点击前3个账号的“关注”按钮 4. 每关注一个,暂停2秒防风控6.3 跨App信息搬运(个人知识管理)
打通信息孤岛,让AI当你的数字助理:
从微信收藏里找一篇标题含“LLM推理优化”的文章, 把正文复制到Notion中新建一页, 页面标题为原文标题,作者字段填“微信收藏”, 并在文末添加今天日期:2025年4月5日这些不是设想,而是已在实际团队中落地的用例。关键在于:指令越贴近人类表达习惯,AI规划越准确。不必学编程语法,就像吩咐同事一样说话即可。
7. 总结:你刚刚掌握的,是一个新物种的启动键
回顾这5分钟,你完成了什么?
- 把一部普通安卓手机,变成了能听懂人话的AI终端
- 绕过所有SDK、API、逆向工程,仅靠截图+文字,就实现了界面级自动化
- 验证了从“意图”到“动作”的完整闭环,且每一步都可追溯、可解释
- 获得了一个可立即用于测试、运营、个人提效的生产力杠杆
Open-AutoGLM的价值,不在于它多“大”,而在于它多“实”。它不追求通用AGI,而是死磕一个垂直场景:让AI真正把手伸进手机屏幕里做事。这种能力,正在重塑我们与移动设备的交互范式——未来,我们可能不再需要学习App操作路径,只需要说出想要什么,剩下的,交给AI。
你现在拥有的,不是一个教程终点,而是一个新工作流的起点。下一次,试着让它帮你抢演唱会门票、自动填报健康申报、甚至帮你回怼骚扰短信。它的上限,取决于你敢不敢把真实需求,用最自然的语言说出来。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。