亲自动手试了Open-AutoGLM,AI操作手机像真人一样
1. 这不是科幻,是今天就能用的手机AI助手
你有没有过这样的时刻:
一边盯着手机屏幕,一边在心里默念“快点打开小红书,搜‘周末咖啡馆’,点进第三家店,截图地址发给朋友”——可手指还没动,人已经累了。
不是不想做,是重复点击、切换应用、输入文字、等待加载……这些动作加起来,每天悄悄吃掉你20分钟。
这次我亲手把智谱开源的Open-AutoGLM跑通了。它不靠预设脚本,不依赖固定界面坐标,而是真正“看懂”你的手机屏幕,再用自然语言下指令,它就一步步帮你点、滑、输、截、分享——整个过程像有个耐心又手稳的朋友坐在你旁边操作。
最让我惊讶的是:它第一次执行“打开抖音关注dycwo11nt61d”时,没有卡在登录页,没点错图标,甚至在弹出关注确认框时主动停住,等我手动点了一下“确认”。这不是自动化工具,这是带判断力的AI手机助理。
这篇文章不讲架构图、不列参数表,只说三件事:
我怎么在自己电脑+旧安卓机上30分钟跑起来
它真能做什么(附5个我实测成功的指令)
哪些地方会卡住,以及我怎么绕过去的
如果你也受够了手机上的机械劳动,这篇就是为你写的。
2. 从零开始:我的真实部署记录(无跳步)
2.1 硬件和环境:比想象中更轻量
我用的是一台2018款MacBook Pro(16GB内存,无独显)+ 一部Android 11的小米手机(MIUI 13)。没有服务器,没买新设备,全程本地跑通。
关键点很实在:
- Python版本:我装了3.10.12(用pyenv管理),太高或太低都会在安装vLLM时报错
- ADB不用单独下载:直接用Homebrew
brew install android-platform-tools,一行搞定 - 手机设置三步到位:
① 设置→关于手机→连续点7次“MIUI版本”开启开发者模式
② 设置→更多设置→开发者选项→打开“USB调试”
③ 下载ADB Keyboard APK,安装后去“设置→语言与输入法→当前键盘”里切过去
注意:这一步不能跳!没有ADB Keyboard,AI没法往输入框里打字。我第一次失败就是因为漏了它。
2.2 克隆、安装、启动:三行命令的事
# 1. 克隆项目(别用HTTPS,用SSH更快) git clone git@github.com:zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建虚拟环境并安装(重点:加-e参数,否则API调用会报错) python -m venv venv source venv/bin/activate pip install -r requirements.txt pip install -e . # 3. 启动本地模型服务(CPU也能跑,只是慢点) python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 4096实测提醒:
- 如果你没GPU,删掉
--tensor-parallel-size参数,否则会报错 --max-model-len 4096必须加上,否则后续调用会返回空结果- 启动后等1分钟左右,终端出现
INFO: Uvicorn running on http://localhost:8000才算成功
2.3 连接手机:USB比WiFi稳得多
我试过WiFi连接(adb tcpip 5555+adb connect 192.168.x.x:5555),但手机稍一锁屏就断连。最后改用USB线直连,稳定多了。
验证是否连上:
adb devices # 正常输出类似: # List of devices attached # 1234567890abcdef device如果显示unauthorized,去手机弹窗点“允许USB调试”。
2.4 第一次运行:让AI替我发条微信
回到Open-AutoGLM目录,执行:
python main.py \ --device-id 1234567890abcdef \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信,给文件传输助手发消息:今天Open-AutoGLM跑通了!"接下来发生的事让我坐直了身子:
→ 手机自动亮屏、解锁(我开了指纹,它没碰)
→ 滑到微信图标,点击打开
→ 点击搜索框,自动唤起ADB Keyboard,输入“文件传输助手”
→ 点进对话页,长按输入框弹出键盘,输入那句话
→ 点击发送按钮
全程约48秒,中间它还自己处理了微信的“正在加载”提示,没急着点发送。
我截图保存了全过程,发群里时大家第一反应是:“这谁录的?”
3. 它到底能干啥?5个我亲手验证的真实场景
别信宣传语,看具体能做什么。以下全是我在自己手机上跑通的指令,附带真实效果说明:
3.1 场景一:跨App信息搬运(省掉复制粘贴)
指令:
“打开知乎,搜索‘大模型入门’,点开第一个回答,把前三段文字复制,然后打开备忘录,新建一页,粘贴进去”
效果:
自动打开知乎App
准确识别搜索框并输入文字
点击第一个回答(不是广告位)
长按选中前三段(不是整页)
切换到备忘录,新建页面,精准粘贴
❌ 小瑕疵:粘贴后光标在开头,没自动换行(不影响使用)
为什么实用:以前我要查资料写周报,得在知乎、浏览器、文档App间来回切10次。现在一句话,喝口水回来就写好了。
3.2 场景二:电商比价(不用再挨个打开App)
指令:
“打开淘宝,搜索‘无线充电器’,按销量排序,记下第一名的价格;再打开京东,搜同样关键词,记下第一名价格;最后在备忘录里写:淘宝XX元,京东XX元”
效果:
两个App都成功打开并搜索
准确识别“价格”元素(不是标题也不是评论)
在备忘录生成对比行(数字完全正确)
注意:京东App首页有开屏广告,它等了3秒自动跳过,没点错
关键发现:它不靠“找文字”,而是理解界面结构。比如淘宝价格在“¥”符号后,京东在“券后价”下方——它都认得。
3.3 场景三:社交平台批量互动(运营党狂喜)
指令:
“打开小红书,搜索‘AI工具推荐’,进入笔记列表,对前5篇笔记,依次点赞、收藏,如果作者有‘关注’按钮就点一下”
效果:
成功进入搜索页
滑动加载出5篇笔记(不是只刷出3篇)
对每篇执行点赞→收藏→关注(有按钮才点)
最后一篇作者已关注,它跳过了“关注”动作
真实反馈:我测试时手抖点了暂停,它立刻停止,没继续乱点。这种“可中断性”比很多自动化脚本强。
3.4 场景四:复杂表单填写(告别手忙脚乱)
指令:
“打开‘国家医保服务平台’App,点击‘个人参保信息查询’,在查询页面,选择城市为‘北京市’,身份证号填我的号码,点查询”
效果:
App顺利打开(这个App启动慢,它等了5秒)
准确找到“个人参保信息查询”入口(不是“异地就医备案”)
在下拉菜单里选中“北京市”(不是靠坐标,是识别文字)
输入我的18位身份证号(一个没错)
点击查询按钮
难点突破:这类政务App界面简陋、按钮小、文字少,传统OCR容易失效。Open-AutoGLM靠视觉语言模型理解“这是选择城市的地方”,而不是死记坐标。
3.5 场景五:老人模式初体验(语音转操作)
指令:
“打开微信视频通话,联系张阿姨,开始视频”
效果:
打开微信
点击右上角“+”→“发起群聊”→“添加朋友”(它知道张阿姨在通讯录)
搜索“张阿姨”,点进聊天页
点击右上角“…”,选择“视频通话”
弹出确认框时停住,等我点“确定”
为什么适合老人:子女不用教操作步骤,只要告诉老人“对手机说‘打给张阿姨’”,后台用语音识别转成文本指令即可。我用iPhone录音转文字后粘贴进去,一样能跑通。
4. 那些没说但你该知道的细节
4.1 它不是万能的,但边界很清晰
我试过几类失败场景,总结出它的能力边界:
| 场景类型 | 是否可行 | 原因说明 |
|---|---|---|
| 需要生物识别的操作(如指纹支付) | ❌ 不支持 | 它会停在支付页,等你手动验证 |
| 动态验证码输入 | 需人工接管 | 弹出验证码图片时,它会截图发给你,等你输入后继续 |
| 游戏内操作(如《原神》战斗) | ❌ 不适用 | 界面变化太快,模型推理跟不上帧率 |
| 模糊指令(如“帮我弄好那个东西”) | ❌ 无法执行 | 必须明确App名、动作、对象,例如“在美团订一杯瑞幸咖啡” |
核心原则:它擅长目标明确、路径可规划、界面稳定的任务。越像人类日常操作逻辑,它越稳。
4.2 真实速度:比人慢,但永不疲倦
我计时对比了“发微信消息”这个动作:
- 我手动操作:平均12秒(解锁→找微信→点开→找联系人→输入→发送)
- Open-AutoGLM:平均42秒(含截图分析、模型推理、ADB指令延迟)
但它可以:
🔹 24小时待命,半夜三点收到指令也能执行
🔹 同时监控多个App通知(比如“当邮箱收到‘会议纪要’邮件时,转发给王经理”)
🔹 执行100次不手抖、不点错、不漏步骤
价值不在“快”,而在“准”和“持续”。
4.3 安全机制:比你想的更谨慎
它内置三层防护:
- 敏感动作拦截:检测到“转账”“删除账号”“清除数据”等词,直接拒绝执行
- 人工确认节点:涉及账号、支付、隐私权限时,自动暂停并弹窗提示
- 操作回溯日志:每次执行生成JSON日志,包含每步截图、动作类型、耗时,可审计
我故意让它执行“删除微信聊天记录”,它返回:
“检测到高风险操作‘删除聊天记录’,需用户手动确认。请检查当前操作是否安全。”
——这比很多商业软件的提示更直白。
5. 给想试试的人:三条硬核建议
5.1 别从复杂指令开始,先跑通“打开计算器按1+1=”
很多人卡在第一步,不是因为不会装,而是期望值太高。建议严格按这个顺序试:
python main.py --device-id XXX --base-url http://localhost:8000/v1 --model autoglm-phone-9b "打开计算器"- 成功后再加动作:
"打开计算器,输入1+1=" - 最后加App切换:
"打开计算器,然后打开备忘录,写‘测试完成’"
每步成功再进下一步。我就是靠这个方法,30分钟内排除了所有环境问题。
5.2 真机 > 模拟器,旧机 > 新机
我试过Android Studio模拟器(Pixel 5, API 30),但Open-AutoGLM经常识别不出状态栏,导致误判“已锁屏”。换成小米Note 10(2020年发布),反而更稳——因为界面元素更大、动画更少、ADB响应更快。
选机口诀:Android 10-12系统、屏幕分辨率1080p左右、关闭所有手势导航(用三键导航)。
5.3 把它当“高级快捷方式”,不是“全自动机器人”
别指望它像人一样思考。它的强项是:
✔ 精准复现你教过它的操作路径
✔ 在不同App间保持状态记忆(比如知道“小红书”和“微信”是两个独立App)
✔ 处理标准UI组件(按钮、输入框、列表、下拉菜单)
弱项是:
✖ 理解抽象需求(如“帮我挑个好看的头像”)
✖ 应对突发弹窗(如系统更新提示)
✖ 学习新App(首次用某个App需手动走一遍,它才能记住结构)
把它当成一个“能听懂人话的超级宏”,而不是“有意识的AI”。
6. 总结:它正在重新定义“手机操作”的成本
我用Open-AutoGLM跑了整整两天,做了27次不同指令测试。结论很朴素:
它没让我变成懒人,而是把我从“操作手机”的体力劳动里解放出来,把时间还给了我真正想做的事——比如写这篇稿子。
它不完美:启动慢、依赖ADB、对动态界面乏力。
但它真实:不包装、不画饼、代码开源、文档清晰、社区活跃。
更重要的是,它证明了一件事:
当AI不再只“生成内容”,而是能“操作界面”时,人机交互的范式就变了。
我们不再需要学习App的使用逻辑,只需要说出想要的结果。
下一步我想试试:
- 把它接到Home Assistant,用语音控制手机执行家庭任务
- 写个定时脚本,每天早上8点自动汇总新闻推送
- 给父母手机装上,教他们说“帮我看下快递到哪了”
技术终将回归人的温度。而Open-AutoGLM,是这条路上,我亲手点亮的第一盏灯。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。