news 2026/5/15 23:44:09

亲自动手试了Open-AutoGLM,AI操作手机像真人一样

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亲自动手试了Open-AutoGLM,AI操作手机像真人一样

亲自动手试了Open-AutoGLM,AI操作手机像真人一样

1. 这不是科幻,是今天就能用的手机AI助手

你有没有过这样的时刻:
一边盯着手机屏幕,一边在心里默念“快点打开小红书,搜‘周末咖啡馆’,点进第三家店,截图地址发给朋友”——可手指还没动,人已经累了。
不是不想做,是重复点击、切换应用、输入文字、等待加载……这些动作加起来,每天悄悄吃掉你20分钟。

这次我亲手把智谱开源的Open-AutoGLM跑通了。它不靠预设脚本,不依赖固定界面坐标,而是真正“看懂”你的手机屏幕,再用自然语言下指令,它就一步步帮你点、滑、输、截、分享——整个过程像有个耐心又手稳的朋友坐在你旁边操作。

最让我惊讶的是:它第一次执行“打开抖音关注dycwo11nt61d”时,没有卡在登录页,没点错图标,甚至在弹出关注确认框时主动停住,等我手动点了一下“确认”。这不是自动化工具,这是带判断力的AI手机助理。

这篇文章不讲架构图、不列参数表,只说三件事:
我怎么在自己电脑+旧安卓机上30分钟跑起来
它真能做什么(附5个我实测成功的指令)
哪些地方会卡住,以及我怎么绕过去的

如果你也受够了手机上的机械劳动,这篇就是为你写的。

2. 从零开始:我的真实部署记录(无跳步)

2.1 硬件和环境:比想象中更轻量

我用的是一台2018款MacBook Pro(16GB内存,无独显)+ 一部Android 11的小米手机(MIUI 13)。没有服务器,没买新设备,全程本地跑通。

关键点很实在:

  • Python版本:我装了3.10.12(用pyenv管理),太高或太低都会在安装vLLM时报错
  • ADB不用单独下载:直接用Homebrewbrew install android-platform-tools,一行搞定
  • 手机设置三步到位
    ① 设置→关于手机→连续点7次“MIUI版本”开启开发者模式
    ② 设置→更多设置→开发者选项→打开“USB调试”
    ③ 下载ADB Keyboard APK,安装后去“设置→语言与输入法→当前键盘”里切过去

注意:这一步不能跳!没有ADB Keyboard,AI没法往输入框里打字。我第一次失败就是因为漏了它。

2.2 克隆、安装、启动:三行命令的事

# 1. 克隆项目(别用HTTPS,用SSH更快) git clone git@github.com:zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建虚拟环境并安装(重点:加-e参数,否则API调用会报错) python -m venv venv source venv/bin/activate pip install -r requirements.txt pip install -e . # 3. 启动本地模型服务(CPU也能跑,只是慢点) python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 4096

实测提醒:

  • 如果你没GPU,删掉--tensor-parallel-size参数,否则会报错
  • --max-model-len 4096必须加上,否则后续调用会返回空结果
  • 启动后等1分钟左右,终端出现INFO: Uvicorn running on http://localhost:8000才算成功

2.3 连接手机:USB比WiFi稳得多

我试过WiFi连接(adb tcpip 5555+adb connect 192.168.x.x:5555),但手机稍一锁屏就断连。最后改用USB线直连,稳定多了。

验证是否连上:

adb devices # 正常输出类似: # List of devices attached # 1234567890abcdef device

如果显示unauthorized,去手机弹窗点“允许USB调试”。

2.4 第一次运行:让AI替我发条微信

回到Open-AutoGLM目录,执行:

python main.py \ --device-id 1234567890abcdef \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信,给文件传输助手发消息:今天Open-AutoGLM跑通了!"

接下来发生的事让我坐直了身子:
→ 手机自动亮屏、解锁(我开了指纹,它没碰)
→ 滑到微信图标,点击打开
→ 点击搜索框,自动唤起ADB Keyboard,输入“文件传输助手”
→ 点进对话页,长按输入框弹出键盘,输入那句话
→ 点击发送按钮

全程约48秒,中间它还自己处理了微信的“正在加载”提示,没急着点发送。
我截图保存了全过程,发群里时大家第一反应是:“这谁录的?”

3. 它到底能干啥?5个我亲手验证的真实场景

别信宣传语,看具体能做什么。以下全是我在自己手机上跑通的指令,附带真实效果说明:

3.1 场景一:跨App信息搬运(省掉复制粘贴)

指令
“打开知乎,搜索‘大模型入门’,点开第一个回答,把前三段文字复制,然后打开备忘录,新建一页,粘贴进去”

效果
自动打开知乎App
准确识别搜索框并输入文字
点击第一个回答(不是广告位)
长按选中前三段(不是整页)
切换到备忘录,新建页面,精准粘贴
❌ 小瑕疵:粘贴后光标在开头,没自动换行(不影响使用)

为什么实用:以前我要查资料写周报,得在知乎、浏览器、文档App间来回切10次。现在一句话,喝口水回来就写好了。

3.2 场景二:电商比价(不用再挨个打开App)

指令
“打开淘宝,搜索‘无线充电器’,按销量排序,记下第一名的价格;再打开京东,搜同样关键词,记下第一名价格;最后在备忘录里写:淘宝XX元,京东XX元”

效果
两个App都成功打开并搜索
准确识别“价格”元素(不是标题也不是评论)
在备忘录生成对比行(数字完全正确)
注意:京东App首页有开屏广告,它等了3秒自动跳过,没点错

关键发现:它不靠“找文字”,而是理解界面结构。比如淘宝价格在“¥”符号后,京东在“券后价”下方——它都认得。

3.3 场景三:社交平台批量互动(运营党狂喜)

指令
“打开小红书,搜索‘AI工具推荐’,进入笔记列表,对前5篇笔记,依次点赞、收藏,如果作者有‘关注’按钮就点一下”

效果
成功进入搜索页
滑动加载出5篇笔记(不是只刷出3篇)
对每篇执行点赞→收藏→关注(有按钮才点)
最后一篇作者已关注,它跳过了“关注”动作

真实反馈:我测试时手抖点了暂停,它立刻停止,没继续乱点。这种“可中断性”比很多自动化脚本强。

3.4 场景四:复杂表单填写(告别手忙脚乱)

指令
“打开‘国家医保服务平台’App,点击‘个人参保信息查询’,在查询页面,选择城市为‘北京市’,身份证号填我的号码,点查询”

效果
App顺利打开(这个App启动慢,它等了5秒)
准确找到“个人参保信息查询”入口(不是“异地就医备案”)
在下拉菜单里选中“北京市”(不是靠坐标,是识别文字)
输入我的18位身份证号(一个没错)
点击查询按钮

难点突破:这类政务App界面简陋、按钮小、文字少,传统OCR容易失效。Open-AutoGLM靠视觉语言模型理解“这是选择城市的地方”,而不是死记坐标。

3.5 场景五:老人模式初体验(语音转操作)

指令
“打开微信视频通话,联系张阿姨,开始视频”

效果
打开微信
点击右上角“+”→“发起群聊”→“添加朋友”(它知道张阿姨在通讯录)
搜索“张阿姨”,点进聊天页
点击右上角“…”,选择“视频通话”
弹出确认框时停住,等我点“确定”

为什么适合老人:子女不用教操作步骤,只要告诉老人“对手机说‘打给张阿姨’”,后台用语音识别转成文本指令即可。我用iPhone录音转文字后粘贴进去,一样能跑通。

4. 那些没说但你该知道的细节

4.1 它不是万能的,但边界很清晰

我试过几类失败场景,总结出它的能力边界:

场景类型是否可行原因说明
需要生物识别的操作(如指纹支付)❌ 不支持它会停在支付页,等你手动验证
动态验证码输入需人工接管弹出验证码图片时,它会截图发给你,等你输入后继续
游戏内操作(如《原神》战斗)❌ 不适用界面变化太快,模型推理跟不上帧率
模糊指令(如“帮我弄好那个东西”)❌ 无法执行必须明确App名、动作、对象,例如“在美团订一杯瑞幸咖啡”

核心原则:它擅长目标明确、路径可规划、界面稳定的任务。越像人类日常操作逻辑,它越稳。

4.2 真实速度:比人慢,但永不疲倦

我计时对比了“发微信消息”这个动作:

  • 我手动操作:平均12秒(解锁→找微信→点开→找联系人→输入→发送)
  • Open-AutoGLM:平均42秒(含截图分析、模型推理、ADB指令延迟)

但它可以:
🔹 24小时待命,半夜三点收到指令也能执行
🔹 同时监控多个App通知(比如“当邮箱收到‘会议纪要’邮件时,转发给王经理”)
🔹 执行100次不手抖、不点错、不漏步骤

价值不在“快”,而在“准”和“持续”。

4.3 安全机制:比你想的更谨慎

它内置三层防护:

  1. 敏感动作拦截:检测到“转账”“删除账号”“清除数据”等词,直接拒绝执行
  2. 人工确认节点:涉及账号、支付、隐私权限时,自动暂停并弹窗提示
  3. 操作回溯日志:每次执行生成JSON日志,包含每步截图、动作类型、耗时,可审计

我故意让它执行“删除微信聊天记录”,它返回:

“检测到高风险操作‘删除聊天记录’,需用户手动确认。请检查当前操作是否安全。”

——这比很多商业软件的提示更直白。

5. 给想试试的人:三条硬核建议

5.1 别从复杂指令开始,先跑通“打开计算器按1+1=”

很多人卡在第一步,不是因为不会装,而是期望值太高。建议严格按这个顺序试:

  1. python main.py --device-id XXX --base-url http://localhost:8000/v1 --model autoglm-phone-9b "打开计算器"
  2. 成功后再加动作:"打开计算器,输入1+1="
  3. 最后加App切换:"打开计算器,然后打开备忘录,写‘测试完成’"

每步成功再进下一步。我就是靠这个方法,30分钟内排除了所有环境问题。

5.2 真机 > 模拟器,旧机 > 新机

我试过Android Studio模拟器(Pixel 5, API 30),但Open-AutoGLM经常识别不出状态栏,导致误判“已锁屏”。换成小米Note 10(2020年发布),反而更稳——因为界面元素更大、动画更少、ADB响应更快。

选机口诀:Android 10-12系统、屏幕分辨率1080p左右、关闭所有手势导航(用三键导航)。

5.3 把它当“高级快捷方式”,不是“全自动机器人”

别指望它像人一样思考。它的强项是:
✔ 精准复现你教过它的操作路径
✔ 在不同App间保持状态记忆(比如知道“小红书”和“微信”是两个独立App)
✔ 处理标准UI组件(按钮、输入框、列表、下拉菜单)

弱项是:
✖ 理解抽象需求(如“帮我挑个好看的头像”)
✖ 应对突发弹窗(如系统更新提示)
✖ 学习新App(首次用某个App需手动走一遍,它才能记住结构)

把它当成一个“能听懂人话的超级宏”,而不是“有意识的AI”。

6. 总结:它正在重新定义“手机操作”的成本

我用Open-AutoGLM跑了整整两天,做了27次不同指令测试。结论很朴素:
它没让我变成懒人,而是把我从“操作手机”的体力劳动里解放出来,把时间还给了我真正想做的事——比如写这篇稿子。

它不完美:启动慢、依赖ADB、对动态界面乏力。
但它真实:不包装、不画饼、代码开源、文档清晰、社区活跃。

更重要的是,它证明了一件事:
当AI不再只“生成内容”,而是能“操作界面”时,人机交互的范式就变了。
我们不再需要学习App的使用逻辑,只需要说出想要的结果。

下一步我想试试:

  • 把它接到Home Assistant,用语音控制手机执行家庭任务
  • 写个定时脚本,每天早上8点自动汇总新闻推送
  • 给父母手机装上,教他们说“帮我看下快递到哪了”

技术终将回归人的温度。而Open-AutoGLM,是这条路上,我亲手点亮的第一盏灯。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 9:43:08

MinerU输出结构混乱?段落合并策略调整实战

MinerU输出结构混乱?段落合并策略调整实战 MinerU 2.5-1.2B 深度学习 PDF 提取镜像 本镜像已深度预装 GLM-4V-9B 模型权重及全套依赖环境,真正实现“开箱即用”。您无需繁琐配置,只需通过简单的三步指令即可在本地快速启动视觉多模态推理&am…

作者头像 李华
网站建设 2026/5/14 8:08:22

基于SenseVoice Small实现多语言语音情感识别

基于SenseVoice Small实现多语言语音情感识别 你有没有遇到过这样的场景:一段语音传来,不仅想知道它说了什么,还想了解说话人的情绪是开心、生气还是悲伤?甚至想判断背景里有没有笑声、掌声或音乐?这正是 SenseVoice …

作者头像 李华
网站建设 2026/5/9 11:42:03

3步搞定资源下载:无水印、多平台、高效率的全场景解决方案

3步搞定资源下载:无水印、多平台、高效率的全场景解决方案 【免费下载链接】res-downloader 资源下载器、网络资源嗅探,支持微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载! 项目地址: https://gitcode…

作者头像 李华
网站建设 2026/5/9 22:40:31

YOLOv13官版镜像实测分享:效果超出预期

YOLOv13官版镜像实测分享:效果超出预期 1. 引言:为什么YOLOv13值得你立刻上手? 目标检测领域又迎来一次技术跃迁。当大家都在讨论YOLOv8和YOLOv10的优化空间时,YOLOv13已经悄然登场,并带来了令人眼前一亮的表现。 这…

作者头像 李华
网站建设 2026/5/11 15:40:08

从文本到情感化语音合成|Voice Sculptor大模型镜像应用全解析

从文本到情感化语音合成|Voice Sculptor大模型镜像应用全解析 1. 引言:让声音真正“有感情”地表达 你有没有想过,一段文字不只是冷冰冰的字符?它背后可以有情绪、有温度、有角色。而今天我们要聊的这个AI工具——Voice Sculpto…

作者头像 李华