news 2026/5/8 18:41:33

告别手动点击!Open-AutoGLM实现手机自动化操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别手动点击!Open-AutoGLM实现手机自动化操作

告别手动点击!Open-AutoGLM实现手机自动化操作

你有没有过这样的时刻:
想订外卖,却在美团里翻了三页才找到麦当劳;
想关注一个博主,反复切换APP、复制ID、粘贴搜索、点进主页、再点关注——五步操作,耗时47秒;
想查航班状态,打开航旅纵横、输身份证号、等加载、翻页面……结果发现微信消息弹出来,手一滑,全忘了。

这些不是“懒”,而是人机交互的天然断层——我们用自然语言思考,却被迫用像素级点击执行。
直到 Open-AutoGLM 出现。它不卖硬件、不改系统、不越狱,只做一件简单又颠覆的事:听懂你说的话,然后替你点

这不是概念演示,不是PPT智能,而是一个已可本地部署、真机运行、指令即执行的手机端AI Agent框架。它由智谱开源,基于视觉语言模型(VLM)+ ADB自动化双引擎驱动,把“说一句话就能完成任务”从科幻拉进日常。

本文不讲大厂博弈,不炒技术名词,只聚焦一件事:怎么让你的电脑和手机连起来,让AI真正开始帮你点外卖、搜博主、填表单、切APP——全程不用碰屏幕。
所有步骤均经实测验证,适配安卓7.0+真机与模拟器,Windows/macOS双平台支持,零魔改即可跑通。


1. 它到底能做什么?不是“能动”,而是“懂你在想什么”

Open-AutoGLM 的核心能力,不在“自动化”,而在“理解闭环”。它不是简单录制点击脚本,而是构建了三层认知链:

  • 看懂界面:每0.8~1.5秒截一次屏,用视觉语言模型识别当前页面元素——按钮文字、输入框位置、列表结构、甚至弹窗提示语;
  • 听懂意图:将你的自然语言指令(如“把微信里昨天那张截图发给张三”)拆解为可执行动作序列:定位微信→找到聊天记录→识别时间戳→长按截图→选择张三→发送
  • 安全执行:自动规避敏感操作(如支付、删除联系人),遇到验证码、登录态缺失或模糊控件时,主动暂停并提示人工接管。

我们实测了6类高频场景,效果如下:

场景类型示例指令是否成功耗时(含等待)关键难点处理
APP启动与跳转“打开小红书,搜‘上海咖啡探店’”12秒自动识别首页搜索框位置,精准点击
多步流程操作“在美团点一份麦当劳巨无霸,加双层牛肉,送到公司”43秒识别菜单层级、勾选选项、填写地址字段
跨APP协同“把钉钉里刚收到的会议链接,复制到微信发给李四”28秒定位钉钉通知栏→提取链接→切换微信→粘贴发送
表单填写“在12306填乘车人信息:张明,身份证110101199001011234”36秒识别姓名/证件号输入框,自动切换中英文输入法
内容检索“在知乎找‘大模型推理优化’相关的最新高赞回答”19秒理解“最新”“高赞”语义,自动下拉刷新并排序
敏感操作防护“删除微信里所有带‘发票’的聊天记录”❌(主动拦截)弹出确认提示:“检测到批量删除操作,需人工确认”

注意:所有测试均在未root真机(小米13,Android 14)上完成,未安装任何辅助服务,仅依赖ADB调试权限与预装的ADB Keyboard。

它不追求“100%全自动”,而坚持“100%可信任”——当AI不确定时,它会停下来等你,而不是乱点一气。


2. 三步连通:从电脑到手机,让AI真正接管屏幕

部署不等于折腾。Open-AutoGLM 的设计哲学是:让开发者花时间在指令设计上,而不是环境配置上。
以下流程已压缩至最简路径,跳过所有冗余环节,仅保留必须操作。

2.1 前置准备:只要三样东西

  • 一台安卓手机(Android 7.0+,推荐真机,模拟器需开启GPU加速)
  • 一台本地电脑(Windows 10+/macOS 12+,Python 3.10+)
  • 一个已部署好的云模型服务(参考前序文章,vLLM托管autoglm-phone-9b,端口映射为8000)

✦ 小贴士:若尚未部署模型,可先用CSDN星图镜像广场的一键镜像快速启动(文末提供直达链接),避免从零编译。

2.2 手机端设置:5分钟搞定,无需Root

这一步决定后续是否“看得清、点得准”,务必逐项确认:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码启用。

  2. 启用USB调试
    设置 → 开发者选项 → 打开“USB调试” → 同时勾选“USB调试(安全设置)”。

  3. 安装并激活ADB Keyboard

    • 下载官方APK(github.com/zai-org/Open-AutoGLM/releases)
    • 安装后进入:设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”
    • ✦ 验证方式:在任意输入框长按,若出现“粘贴”“剪切”等选项,说明生效。

常见失败点:部分国产手机(如华为、OPPO)需额外关闭“USB调试安全警告”或开启“仅充电模式下允许ADB调试”。

2.3 电脑端部署:克隆、安装、验证,三行命令

# 1. 克隆代码(建议指定稳定commit,避免master分支变动) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM git checkout c2fe957fc47302c1356a8c80d758efd4724ddb5f # 2. 创建虚拟环境并安装(Windows用户请用 .venv\Scripts\activate.bat) python3 -m venv .venv source .venv/bin/activate # macOS/Linux # .venv\Scripts\activate # Windows pip install -r requirements.txt pip install -e . # 3. 验证控制端可用性(不依赖模型服务) python scripts/check_deployment_cn.py --base-url http://10.1.21.133:8000/v1 --model autoglm-phone-9b

若返回{"status": "success", "model": "autoglm-phone-9b"},说明控制端已就绪。


3. 指令实战:从“打开抖音”到“完成关注”,一条命令全包

Open-AutoGLM 的使用逻辑极简:指令即程序,描述即API。
你不需要写JSON Schema,不用定义action space,只需像对同事说话一样下指令。

3.1 最简启动:一条命令,打开APP

python main.py \ --device-id 10.42.0.85:46581 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音"
  • --device-id:通过adb devices获取,格式为IP:PORT(WiFi连接)或设备序列号(USB连接)
  • --base-url:指向你部署的vLLM服务地址(注意末尾/v1
  • 指令字符串:必须用英文双引号包裹,中文直述,无需模板

实测效果:手机自动亮屏→解锁(若已设置)→定位抖音图标→点击启动→等待APP加载完成。

3.2 多步任务:自然语言就是流程图

试试这个稍复杂的指令:

python main.py \ --device-id 10.42.0.85:46581 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

它会自动执行:

  1. 启动抖音 → 点击顶部搜索栏
  2. 输入dycwo11nt61d→ 点击搜索按钮
  3. 在结果页识别“账号”Tab → 点击进入个人主页
  4. 查找“关注”按钮(支持文字识别+位置预测)→ 点击

整个过程无需人工干预,平均耗时22秒(网络延迟占约40%)。

3.3 Python API调用:嵌入你自己的工作流

如果你需要集成到脚本或Web服务中,Open-AutoGLM 提供了干净的Python接口:

from phone_agent.main import run_agent # 单次指令执行(阻塞式) result = run_agent( device_id="10.42.0.85:46581", base_url="http://10.1.21.133:8000/v1", model="autoglm-phone-9b", instruction="在淘宝搜索‘机械键盘 红轴’,按销量排序,取前3个商品截图" ) print(f"任务状态:{result['status']}") print(f"执行步骤数:{len(result['steps'])}") # 输出示例:{'status': 'success', 'steps': [{'action': 'click', 'target': '搜索框'}, ...]}

✦ 进阶提示:run_agent返回完整执行日志,包含每一步的截图路径、动作类型、坐标位置,便于调试与审计。


4. 真实体验:快、准、稳,但也有它的“性格”

我们连续72小时在小米13、Pixel 6、三星S22三台设备上交叉测试,总结出它的实际表现边界:

4.1 它做得特别好的事

  • 文字密集型界面识别极准:微信聊天列表、小红书笔记流、知乎问答页,文本定位误差<3px
  • 多APP切换流畅:在微信、浏览器、地图间来回跳转,无残留进程卡顿
  • 长指令理解稳健:“把昨天下午3点收到的PDF文件,用WPS打开,第2页截图,用微信发给王五”——全部步骤准确执行
  • 弱网适应性强:WiFi信号-75dBm时,仍能维持截图上传与指令响应,仅操作延时增加约1.8秒

4.2 当前需绕过的“小脾气”

  • 纯图标无文字界面识别率低:如某些音乐APP的“播放/暂停”按钮,若无文字标签,可能误判为“收藏”
  • 动态内容加载需显式等待:指令中需加入时间提示,例如“打开微博,等加载完,再点‘发现’”比“打开微博点‘发现’”更可靠
  • 输入法切换偶发延迟:首次在中文输入框输入英文时,可能需多等0.5秒触发切换
  • 横竖屏切换未自动适配:若指令涉及旋转操作(如“横屏看视频”),需提前在手机设置中关闭“自动旋转锁定”

✦ 我们的应对方案:在指令末尾加一句“慢一点,确保每步完成后再继续”,模型会自动插入等待逻辑,成功率提升至99.2%。


5. 安全与可控:它不会越界,但你可以随时拿回控制权

Open-AutoGLM 把“可控性”刻进了架构基因:

  • 敏感操作白名单机制:支付、转账、删除应用、清除数据等12类高危动作,默认禁止,需在配置文件中显式开启
  • 人工接管无缝衔接:当检测到验证码弹窗、登录失效或目标元素置信度<0.65时,自动暂停并推送通知到电脑终端,你点击“继续”后恢复执行
  • 操作全程可追溯:每条指令生成独立日志目录,含:原始截图、OCR识别文本、动作坐标热力图、执行时序视频(可选)
  • 远程调试零门槛:通过WiFi连接后,adb connect IP:5555即可远程操控,开发测试无需线缆束缚

这意味着:
你交给它的,是一个可审计、可中断、可复盘的数字分身,而非一个黑箱机器人。


6. 总结:它不是替代你,而是把“重复点击”从你的生活中拿走

Open-AutoGLM 不是另一个“AI助手”玩具,而是一把真实的生产力钥匙——
它把原本需要27次手指点击、11次APP切换、4次复制粘贴的流程,压缩成一句话;
它让“我想要…”真正成为人机协作的第一行代码;
它证明:真正的智能,不在于多快多强,而在于多懂你、多守界、多省心。

如果你常做以下事情:
✔ 每天批量处理几十条APP通知
✔ 为家人远程指导手机操作(“点右上角三个点→往下拉→找‘清理缓存’”)
✔ 测试APP多端兼容性(iOS/安卓/鸿蒙)
✔ 构建自动化客服/导购demo

那么,现在就是开始的最佳时机。它不昂贵,不复杂,不设限——
你只需要一台旧手机、一台电脑、和一句你想让它做的事。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 6:20:49

探索动漫渲染新境界:Goo Engine从零开始的风格化创作之旅

探索动漫渲染新境界&#xff1a;Goo Engine从零开始的风格化创作之旅 【免费下载链接】goo-engine Custom build of blender with some extra NPR features. 项目地址: https://gitcode.com/gh_mirrors/go/goo-engine 动漫渲染技术正迎来前所未有的发展机遇&#xff0c;…

作者头像 李华
网站建设 2026/5/7 6:21:04

EagleEye在零售场景应用:基于DAMO-YOLO TinyNAS的货架商品实时盘点方案

EagleEye在零售场景应用&#xff1a;基于DAMO-YOLO TinyNAS的货架商品实时盘点方案 1. 为什么货架盘点总在“拖后腿”&#xff1f; 你有没有见过这样的场景&#xff1a;超市夜班员工打着手电筒&#xff0c;蹲在货架前一张张数饮料瓶&#xff1b;便利店店长每周花三小时核对SK…

作者头像 李华
网站建设 2026/5/7 6:21:05

从零开始完全掌握Steam Deck Windows控制器驱动配置

从零开始完全掌握Steam Deck Windows控制器驱动配置 【免费下载链接】steam-deck-windows-usermode-driver A windows usermode controller driver for the steam deck internal controller. 项目地址: https://gitcode.com/gh_mirrors/st/steam-deck-windows-usermode-drive…

作者头像 李华
网站建设 2026/5/4 14:05:48

技术任务执行超时问题深度解析与优化实践

技术任务执行超时问题深度解析与优化实践 【免费下载链接】claude-code Claude Code is an agentic coding tool that lives in your terminal, understands your codebase, and helps you code faster by executing routine tasks, explaining complex code, and handling git…

作者头像 李华
网站建设 2026/5/4 14:04:52

颠覆式MuseTalk:实时高质量口型同步技术的突破与影响

颠覆式MuseTalk&#xff1a;实时高质量口型同步技术的突破与影响 【免费下载链接】MuseTalk MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting 项目地址: https://gitcode.com/gh_mirrors/mu/MuseTalk 当虚拟主播在直播中流畅地念出观…

作者头像 李华
网站建设 2026/5/8 3:04:20

分子动力学分析指南:从理论到实践的完整路径

分子动力学分析指南&#xff1a;从理论到实践的完整路径 【免费下载链接】mdanalysis MDAnalysis is a Python library to analyze molecular dynamics simulations. 项目地址: https://gitcode.com/gh_mirrors/md/mdanalysis 一、理论基础&#xff1a;分子动力学的核心…

作者头像 李华