手残党福音!Open-AutoGLM让手机操作变简单
你有没有过这样的时刻:
想在小红书搜个菜谱,结果点错三次跳进广告页;
想给朋友发个抖音链接,却卡在“复制链接”按钮找不着;
想比价买洗发水,京东淘宝来回切,手指划到发酸……
不是不想用手机,是界面太复杂、步骤太琐碎、一不小心就迷路。
现在,这些事不用你动手了。
Open-AutoGLM——智谱开源的手机端AI Agent框架,真正在做一件很“人”的事:听懂你的话,看懂你的屏,替你点、替你输、替你完成整套操作。
它不是另一个聊天机器人,而是一个能真正接管你手机的“数字手”,专治各种“手残”“记性差”“懒得点”。
这篇文章不讲大模型原理,不堆参数指标,只说一件事:怎么用最短路径,让你的旧手机秒变“语音遥控智能机”。
从零开始,30分钟内完成部署,之后你只需要说一句“打开美团订一杯瑞幸”,剩下的——交给它。
1. 它到底能帮你做什么?先看几个真实场景
别急着装环境,先看看它能干啥。以下全是实测可复现的操作指令,无需改写、无需调试,直接复制就能跑:
- “把微信里‘家人’群最近一张照片保存到相册”
- “打开淘宝,搜‘静音鼠标’,按销量排序,点开第一个商品,截图价格和标题”
- “在高德地图查‘离我最近的24小时药店’,把结果发到钉钉‘健康小组’”
- “登录小红书账号,搜索‘露营装备推荐’,收藏前3篇笔记”
这些不是Demo视频里的剪辑效果,而是Open-AutoGLM在真实安卓设备上自动执行的完整流程:
看懂当前屏幕(文字+图标+布局)
理解你的自然语言意图(不强制模板句式)
规划动作序列(点哪、滑哪、输什么、等几秒)
调用ADB精准执行(模拟点击/长按/输入/截图)
遇到验证码或登录框时主动暂停,等你人工接管
它不替代你思考,而是把你脑中的“下一步该干嘛”翻译成手机能懂的像素级指令。
就像请了一个熟悉所有App的助理,坐在你旁边,手把手帮你操作。
2. 为什么这次真的不一样?三个关键突破
市面上不少“手机自动化”工具,但Open-AutoGLM有三点本质不同,直接决定了它是否“能用”:
2.1 不靠预设规则,靠多模态理解
传统自动化工具(如Tasker、Auto.js)依赖你手动写脚本:“当出现‘搜索框’文字时,点击坐标(500,120)”——一旦App更新界面,脚本就失效。
而Open-AutoGLM用视觉语言模型(VLM)直接“看图说话”:
- 输入:当前屏幕截图 + 你的指令文本
- 输出:对界面元素的语义理解(“左上角蓝色图标是微信返回键”,“中间带放大镜的是搜索框”)
- 结果:即使App改版、按钮换位置、字体变大小,它依然能准确识别并操作
就像教一个新同事用App:你不用告诉他“点第3个图标”,只说“点微信右上角的加号”,他就能自己找到。
2.2 不要Root,不越狱,不装特殊系统
很多手机AI助手要求Root权限或定制ROM,普通用户根本不敢碰。
Open-AutoGLM只依赖标准Android Debug Bridge(ADB),这是官方开放的调试协议:
- 只需在手机“开发者选项”中开启USB调试(3步设置,5秒搞定)
- 无需解锁Bootloader、无需刷机、无需承担安全风险
- 支持Android 7.0以上所有主流机型(华为、小米、OPPO、vivo、三星均实测通过)
2.3 真正支持“跨App连贯任务”
多数工具只能单步操作:“点开淘宝→输入关键词”。
Open-AutoGLM能完成需要状态记忆的多跳任务:
“查完京东价格后,再打开淘宝对比,如果淘宝便宜就下单,否则去拼多多再比一次”
它内部维护一个轻量级执行状态机,能记住“刚才查了什么”“当前在哪一步”“下一步该回哪个App”,让复杂流程变成一句话的事。
3. 零基础部署指南:30分钟走通全流程
部署分两部分:云端模型服务(算力端)+本地控制端(你的电脑)。
我们跳过所有理论,只留最简路径。实测Windows/Mac均可,全程命令行操作,无图形界面干扰。
3.1 云端模型服务:租一台显卡服务器(5分钟)
你不需要自备A100——用云服务按小时租用,成本不到一杯咖啡钱。
- 注册并领券:访问 GPU云平台,注册即送算力券
- 选购配置(关键!):
- 显卡:选A40 或 A100-40G(40G显存是硬门槛,低于此会OOM)
- 系统:直接选Ubuntu 22.04(免去环境适配烦恼)
- 带宽:拉满(模型文件超8GB,低带宽下载要2小时+)
- 端口映射:创建实例后,在控制台记下外网端口(如
8800),后续要用
提示:不要选“按月包年”,首次测试用“按小时计费”,试错零成本。
3.2 模型下载与启动(10分钟)
SSH连接到你的云服务器,依次执行:
# 1. 安装ModelScope(国内镜像快) pip install modelscope # 2. 创建模型目录并下载(自动走国内源) mkdir -p /opt/model modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model' # 3. 拉取vLLM推理镜像(已预装CUDA驱动) docker pull vllm/vllm-openai:v0.12.0 # 4. 启动服务(替换8800为你实际的外网端口) docker run -it \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0进入容器后,运行启动命令(严格复制,含关键参数):
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model /app/model \ --port 8000 \ --max-model-len 25480 \ --mm_processor_kwargs "{\"max_pixels\":5000000}"看到INFO: Uvicorn running on http://0.0.0.0:8000即表示服务就绪。
3.3 本地控制端:你的电脑就是遥控器(15分钟)
环境准备(Windows/macOS通用)
- 下载 Android Platform Tools
- 解压后,将
platform-tools文件夹路径加入系统环境变量(Win:系统属性→环境变量;Mac:export PATH=$PATH:~/Downloads/platform-tools) - 验证:终端输入
adb version,显示版本号即成功
手机设置(3步,无风险)
- 开开发者模式:设置 → 关于手机 → 连续点击“版本号”7次
- 开USB调试:设置 → 开发者选项 → 启用“USB调试”
- 装ADB键盘:下载APK,安装后在“语言与输入法”中设为默认
连接与运行
# 1. 克隆控制代码(无需改任何配置) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt # 2. USB连接手机,确认设备在线 adb devices # 应显示一串设备ID,如 "abc123 device" # 3. 执行指令(替换IP和端口为你云服务器的实际值) python main.py \ --device-id abc123 \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开微博,搜‘今日天气’,截图第一条热搜"成功标志:手机自动亮屏→打开微博→点击搜索框→输入文字→点击搜索→截图→保存到相册。全程无需你触碰手机。
4. 实战技巧:让指令更准、更快、更省心
刚上手时,你可能会遇到“它没听懂”或“卡在某步”。别删重装,试试这些亲测有效的技巧:
4.1 指令怎么写才高效?
- 少用模糊词:❌“帮我弄一下淘宝” → “打开淘宝,搜‘降噪耳机’,点销量最高那个”
- 明确动作目标:❌“查价格” → “把京东和淘宝上‘LUMMI MOOD洗发水’的价格都截图”
- 善用上下文:连续指令时,它会记住前序状态。比如先说“打开小红书”,再问“首页第三条笔记是什么”,它知道仍在小红书内
4.2 遇到验证码/登录框怎么办?
框架内置安全机制:当检测到输入框含“验证码”“密码”“手机号”等敏感字段时,会自动暂停并弹出提示:
“检测到登录界面,请手动输入验证码后按回车继续”
你只需在手机上填完,回到终端按回车,它立刻接着执行后续步骤。
4.3 WiFi远程控制(摆脱USB线束缚)
- 先用USB线连接,执行
adb tcpip 5555 - 拔掉USB线,确保手机和电脑在同一WiFi
- 查手机IP(设置→关于手机→状态信息),执行
adb connect 192.168.1.100:5555 - 后续所有指令中,
--device-id改为192.168.1.100:5555即可无线操控
4.4 故障自查清单(90%问题可秒解)
| 现象 | 快速检查项 |
|---|---|
adb devices不显示设备 | 手机USB调试是否开启?USB线是否支持数据传输? |
| 指令执行后手机无反应 | adb shell input keyevent 3测试是否能返回桌面(若不行,ADB连接失败) |
| 模型返回乱码或超时 | 云服务器防火墙是否放行8800端口?docker ps确认容器在运行? |
| 截图黑屏或错位 | 手机是否启用了全面屏手势?建议临时关闭,用传统三键导航 |
5. 它不是万能的,但已是目前最接近“真人操作”的方案
必须坦诚说明它的边界,避免不切实际的期待:
- 不支持iOS:仅限Android(苹果系统封闭,无ADB权限)
- 不处理强反爬页面:如某些银行App的二次验证、游戏内嵌WebView(因无法注入JS)
- 复杂图像识别有局限:手写体、极小字号、严重遮挡的图标,识别率会下降(但比纯OCR方案高得多)
但它真正解决的是80%的日常痛点:
你想做的,90%是“打开某个App→找某个功能→输点东西→点个按钮”。
这些,它已经能稳定做到——而且比你手动更快、更准、永不手抖。
一位测试用户的真实反馈:
“我妈妈65岁,只会用微信和支付宝。现在她只要说‘给我女儿发个红包’,手机自动打开微信→点开对话→点+号→选红包→输金额→点发送。她再也不用问我‘那个绿色方块在哪’了。”
技术的价值,从来不是参数多漂亮,而是让普通人少一点焦虑,多一点掌控感。
6. 下一步:从“能用”到“好用”的延伸可能
部署完成后,你可以基于Open-AutoGLM做这些轻量级升级,无需重写核心:
- 加语音入口:用Whisper本地ASR,把“打开抖音”语音转文本,实现真·语音遥控
- 建个人知识库:把常用指令存成快捷方式,如“#点外卖”=自动打开美团→选常去店→点固定套餐
- 接企业微信/飞书:把指令发到工作群,@机器人即可触发手机操作,适合客服、运营等岗位
它不是一个封闭产品,而是一个开放框架。你的需求,就是它的进化方向。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。